lang icon English
Jan. 3, 2025, 1:37 p.m.
3642

नवीन तुरुंगफोड तंत्र 'बॅड लिकर्ट जज' LLMच्या सुरक्षिततेस धोका निर्माण करत आहे.

Brief news summary

पॅलो आलटो नेटवर्क्स युनिट 42 येथील संशोधकांनी "बॅड लाइकेर्ट जज" नावाची एक पद्धत विकसित केली आहे, जी मोठ्या भाषा मॉडेल्सच्या (LLMs) सुरक्षितता यंत्रणांवर मात करुन हानीकारक सामग्री तयार करण्यासाठी आहे. ही तंत्रा क्रमाने बहु-चरणीय हल्ला आहे जो उच्च-जोखमीच्या प्रतिसादांच्या शोषणासाठी लाइकेर्ट स्केलचा उपयोग करते. कृत्रिम बुद्धिमत्तेच्या प्रगतीमुळे मशीन लर्निंग मॉडेल्ससाठी वाक्य दिल्याने नवीन शोषण निर्माण होत आहेत, ज्यात रणनीतिकरित्या तयार केलेल्या वाक्यांचा उपयोग केला जातो. मेनी-शॉट जेलब्रेकिंग ही अशीच एक पद्धत आहे, ज्यात लांब वाक्य अनुक्रमाचा वापर करून सुरक्षितता उपायांची फसवणूक केली जाते. क्रेसेन्डो आणि धोकेबाज आनंद यासारख्या तंत्रांचा यात समावेश आहे. युनिट 42 ने प्रमुख कंपन्यांच्या LLMs वर लाइकेर्ट स्केल तंत्राचा वापर केला आहे जसे की Amazon, Google, Meta, Microsoft, OpenAI, आणि NVIDIA. त्यांनी शोधले की हल्ला यश दर (ASR) मध्ये 60% वाढ झाली आहे स्टँडर्ड वाक्यांच्या तुलनेत, विशेषतः द्वेषयुक्त भाषण आणि अवैध क्रियाकलापांमध्ये. तरीही, मजबुत सामग्री फिल्टरने ASR मध्ये सुमारे 89.2 टक्के अंकांनी घट केली, ज्यामुळे प्रभावी फिल्टरिंग प्रणालीचे महत्त्व अधोरेखित होते. हे निष्कर्ष 'द गार्डियन'च्या अहवालांशी जुळतात, ज्यात AI मॉडेल्समधील असुरक्षिततेला, जसे की OpenAI च्या ChatGPT ला, अधोरेखित केले आहे. हे प्रणाली लपविलेल्या पाठ्याचा वापर करून फसवले जाऊ शकतात, ज्यामुळे फसवे निष्कर्ष आणि जटिल हल्ल्यांच्या संवेदनशीलता दिसून येते.

सायबरसुरक्षा संशोधकांनी नवीन जेलब्रेक तंत्र ओळखले आहे, ज्यामुळे एका मोठ्या भाषा मॉडेलच्या (LLM) सुरक्षा प्रोटोकॉलला बायपास करून संभाव्य हानिकारक प्रतिसाद निर्माण करता येईल. "बॅड लाइकेर्ट जज" या नावाने ओळखला जाणारा ह्या बहु-फेरी (किंवा अनेक-शॉट) हल्ल्याचा शोध Palo Alto Networks Unit 42 चे संशोधक यॉन्ग्झे हुआंग, यांग जी, वेनजून हू, जय चेन, अक्षता राव, आणि डॅनी त्सेचन्स्की यांनी लावला आहे. या पद्धतीमध्ये LLM ला न्यायाधीश म्हणून काम करण्याची सूचना दिली जाते आणि लाइकेर्ट स्केल वापरून प्रतिक्रियांच्या हानिकारकतेचे गुणांकन करायचे असते—एक रेटिंग प्रणाली जी विधानाशी सहमती किंवा असहमती मोजते. त्यानंतर, LLM ला या स्केलशी सुसंगत उदाहरणे असलेले प्रतिसाद तयार करण्याची विनंती केली जाते, जिथे उच्चतम लाइकेर्ट स्कोअर हानिकारक सामग्री उघड करू शकते. कृत्रिम बुद्धिमत्तेस गती मिळाल्याने, प्रॉम्प्ट इंजेक्शनसारख्या नवीन सुरक्षा धोके उदयास आले आहेत. हे हल्ले यंत्रज्ञान शिकण्यासाठी बनलेल्या मॉडेल्सना त्यांच्या इच्छित वर्तनापासून दूर नेण्यासाठी तयार केलेले प्रॉम्प्ट्स वापरून फसवतात. एक प्रकार, अनेक-शॉट जेलब्रेकिंग, LLMच्या लक्ष आणि संदर्भाच्या क्षमतांचा वापर करून हळूहळू त्याला आंतरर्गत संरक्षणांना चुकवत तो वाईट प्रतिसादाकडे मार्गदर्शन करण्यासाठी वापरले जाते.

Crescendo आणि Deceptive Delight यांसारख्या तंत्रज्ञानांनी ह्या दृष्टिकोनाचे निदर्शन दाखवले आहे. युनिट 42 ची नवीनतम प्रदर्शन LLM चा न्यायाधीश म्हणून वापर करून प्रतिसादांच्या हानिकारकतेचे मूल्यांकन लाइकेर्ट स्केलद्वारे करते आणि नंतर विविध स्कोअर्सशी सुसंगत प्रतिसाद निर्माण करते. Amazon Web Services, Google, Meta, Microsoft, OpenAI आणि NVIDIA यांच्या सहा प्रगत LLM वर चाचण्या केल्यावर सामान्य प्रॉम्प्ट्सच्या तुलनेत हल्ल्याच्या यशाचे प्रमाण (ASR) 60% पेक्षा अधिक वाढले असल्याचे दिसून आले. चाचण्यांमध्ये द्वेष, छळ, आत्म-हानि, लैंगिक सामग्री, अंधाधुंद शस्त्रे, अनधिकृत क्रियाकलाप, मालवेअर निर्मिती, आणि प्रणालीचे प्रॉम्प्ट लीक झाल्याचे वर्ग प्रकार चाचण्यात आले. संशोधकांनी नमूद केले की हानिकारक सामग्रीचे LLM चे समज आणि मूल्यमापनाची क्षमता वापरल्यामुळे सुरक्षा प्रोटोकॉलला बायपास करण्याच्या संधींमध्ये मोठ्या प्रमाणात सुधारणा होते. सामग्री फिल्टर सर्व चाचण्यांमधील मॉडेल्सवर त्या ASR चे सरासरीने 89. 2 टक्क्यांनी कमी करू शकतात, आणि त्यामुळे LLM तैनात करताना मजबूत फिल्टरिंगचे महत्त्व अधोरेखित होते. The Guardianच्या अहवालानुसार, OpenAI चे ChatGPT लपवलेल्या सामग्रीसह वेब पृष्ठांचे सारांश करणार्या सारांशांद्वारे फसवले जाऊ शकते. या पद्धतींमुळे ChatGPT तसेच फसवे उत्पादनांचे मूल्यांकन करू शकते, जिथे फक्त लपवलेले मजकूर समाविष्ट करून सारांशाचे परिणाम बदलू शकतात.


Watch video about

नवीन तुरुंगफोड तंत्र 'बॅड लिकर्ट जज' LLMच्या सुरक्षिततेस धोका निर्माण करत आहे.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 15, 2025, 1:22 p.m.

उत्पन्न करणाऱ्या एआयचे विपणन क्रांती: २०२५ मध्ये प्रभुत्…

जलद बदलत असलेल्या डिजिटल मार्केटिंग क्षेत्रात, निर्माणकारी एआय ही नव्या काहीतरी म्हणून सुरु झाली होती, पण आता ती गरज बनली आहे.

Nov. 15, 2025, 1:18 p.m.

अँथ्रोपिक आणि मायक्रोसॉफ्ट यांनी नवीन AI डेटा सेंटर …

2025 च्या नोव्हेंबर 12 रोजी, AI उद्योगाने मोठ्या पातळीवर गुंतवणूक आणि प्रगती पाहिली जेव्हा Anthropic आणि Microsoft यांनी अमेरिकेत नवीन AI संगणकीय पायाभूत सुविधा निर्माण करण्याच्या महत्त्वाकांक्षी योजना जाहीर केल्या.

Nov. 15, 2025, 1:17 p.m.

एआय-शक्त असलेल्या वैयक्तिकरणाने २०२५ मध्ये हॉटेल विक्र…

काही वर्षांपूर्वी, अग्रगण्य हॉटेल विक्रीवाले त्यांची एक महत्त्वाची कौशल्य होती: ते सहजतेने त्यांचे पाहुणे ओळखू शकत होते.

Nov. 15, 2025, 1:12 p.m.

एआय व्हिडिओ कॉन्फरन्सिंग टूल्स दूरस्थ कामकाज सहयोग सुल…

दूरस्थ कामकाजाकडे वेगाने होणारा बदल मोठ्या प्रमाणावर AI-सक्षम व्हिडिओ कॉन्फरन्सिंग प्लॅटफॉर्म्सच्या स्वीकाराला चालना देत आहे.

Nov. 15, 2025, 1:11 p.m.

एआय आणि एसइओ: शोध इंजीन ऑप्टिमायझेशनच्या भविष्यातील …

कृत्रिम बुद्धिमत्ता (AI) च्या उदयामुळे सर्च इंजिन ऑप्टिमायझेशन (SEO) मध्ये खोलवर बदल होत आहेत, ज्यामुळे मार्केटर्स त्यांच्या ऑनलाइन दृश्यता आणि सामग्री रणनीतीला अधिक प्रभावी बनवण्यासाठी नवीन मार्ग शोधत आहेत.

Nov. 15, 2025, 9:31 a.m.

एआय व्हिडिओ संक्षेपण उपकरणे सामग्री वापरात मदत करतात

ऑनलाइन व्हिडिओ सामग्रीच्या वेगाने वाढत्या प्रमाणामुळे ही माहिती समजून घेण्यासाठी व त्याचे कार्यक्षम पद्धतीने कसे उपभोगायचे, याची गरज कधीही इतकीนอळी नव्हती.

Nov. 15, 2025, 9:22 a.m.

मायक्रोसॉफ्टचे Azure AI प्लॅटफॉर्म नवीन साधनांसह विस्त…

मायक्रोसॉफ्टने आपली Azure AI प्लॅटफॉर्मची मोठी विस्तार घोषणा केली आहे, यामध्ये मशीन लर्निंग व डेटा अॅनालिटिक्स क्षमतांना वाढविण्यासाठी नवे टूल्स समाविष्ट केले आहेत.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today