lang icon En
Jan. 3, 2025, 1:37 p.m.
4249

Шинэ 'Bad Likert Judge' хэмээх хориг зөрчих арга LLM-ийн аюулгүй байдалд заналхийлж байна.

Brief news summary

Пало Алто Сүлжээний Unit 42 судлаачид "Бад Лайкерт Шүүгч" нэртэй шинэ арга барилыг танилцуулсан бөгөөд энэ нь томоохон хэлний загваруудын (LLMs) аюулгүйн механизмыг тойрч гарч, хортой агуулга үүсгэхэд зориулагдсан юм. Энэ арга нь Лайкертын хуваарийг ашиглан өндөр эрсдэлтэй гэж тэмдэглэгдсэн хариултуудыг ашиглах олон шатлалт дайралтыг агуулдаг. Хиймэл оюун ухааны хөгжил нь стратегийн үгээр боловсруулсан зөвлөгөөнөөр машин сургалтын загваруудад чиглэсэн шинэ өгөгдлийн халдлагуудыг авчирдаг. Олон жишээ бүхий алдааны туршилт нь LLM -уудыг нууцаар идэвхжүүлж, аюулгүйн арга хэмжээнүүдийг тойрч гарахад ашигладаг нэгэн арга юм. Crescendo ба Deceptive Delight гэх зэрэг аргабарилууд энэхүү хандлагын жишээ юм. Unit 42 Лайкертын хуваарийн аргыг Amazon, Google, Meta, Microsoft, OpenAI, NVIDIA зэрэг тэргүүлэгч компаниудын LLM дээр туршжээ. Стандарт зөвлөгөөтэй харьцуулахад дайралтын амжилтын түвшин (ASR) 60%-иар нэмэгдсэнийг, ялангуяа үзэн ядалт, хууль бус үйл ажиллагаатай салбарт, илрүүлсэн байна. Гэсэн хэдий ч хүчтэй агуулгын шүүлтүүр нь ASR -ийг 89.2 нэгжээр бууруулсан нь үр дүнтэй шүүлтүүрийн системийн чухлыг харуулж байна. Эдгээр үр дүн нь The Guardian -ы AI загваруудын эмзэг байдлын талаарх тайлантай нийцэж байна. Тухайлбал, OpenAI-ны ChatGPT загварууд нуугдсан текстүүдийг ашиглан төөрөгдүүлэх үр дүнгүүдийг үүсгэж, нарийн төвөгтэй халдлагад өртөх эмзэг байдлыг харуулж байна.

Кибер аюулгүй байдлын судлаачид хүчирхэг хэл загварын (LLM) аюулгүй байдлын протоколыг тойрон гарах шинэ jailbreak аргыг илрүүлжээ. "Bad Likert Judge" нэрлэгдсэн энэ олон удаагийн (эсвэл олон бүтэн) довтолгоог Palo Alto Networks-ийн Unit 42 судлаачид болох Йунжэ Хуан, Ян Жи, Венжун Ху, Жэй Чен, Акшата Рао, Дэнни Тсечански нар илрүүлсэн байна. Энэ арга нь LLM-ийг шүүгчийн үүрэг гүйцэтгүүлж, хариултуудын хортой байдлыг Лайкертын шкалаар үнэлж дүгнэхэд чиглүүлдэг. Үүний дараа LLM-ийг энэ шкалуудтай уялдуулан жишээ агуулсан хариултуудыг бий болгохыг шаардах бөгөөд хамгийн өндөр Лайкерт оноо нь хортой агуулгыг илрүүлж болно. Хиймэл оюун ухаан хөгжиж байгаа өнөө үед prompt injection зэрэг шинэ аюулгүй байдлын заналхийлэл гарч ирж байна. Эдгээр довтолгоо нь машинаар сурсан загваруудыг зохиомол эх үүсвэрүүдээр зорилтот зан үйлээс гажуудуулж чаддаг. Нэгэн хувилбар нь олон удаагийн jailbreak бөгөөд LLM-ийн анхаарал болон нөхцөл байдлын боломжуудыг ашиглан аажмаар хортой хариулт өгөх чиглэлд чиглүүлдэг.

Crescendo болон Deceptive Delight зэрэг техникүүд энэ аргыг үзүүлж байна. Unit 42-ыг харуулах хүснэгтийн шинэ арга нь LLM-ийг шүүгч болгон ашиглаж, хариултын хортой байдлыг Лайкерт шкалаар үнэлж, дараа нь өөр өөр оноотой холбоотой янз бүрийн хариултуудыг үүсгэж байна. Amazon Web Services, Google, Meta, Microsoft, OpenAI, NVIDIA компанийн зургаан дэвшилтэт LLM-ээр туршихад жирийн эх үүсвэрүүдээс 60% давсан амжилтын түвшин (ASR)-ийг харуулсан байна. Шалгах ангиллууд нь үзэн ядалт, дарамт, өөрийгөө гэмтээх, бэлгийн агуулга, ялгаваргүй зэвсэг, хууль бус үйл ажиллагаа, хортой програм үүсгэх болон системийн эх үүсвэрийн алдагдалт байсан. Судлаачид LLM-ийн хортой агуулгыг ойлгох, үнэлэх чадварыг ашиглах нь аюулгүй байдлын протоколыг тойрон гарах боломжийг маш их нэмэгдүүлж байгааг тэмдэглэжээ. Агуулгын шүүлтүүрүүдийг ашиглах нь туршсан загваруудаар дамжуулан ASR-ийг дунджаар 89. 2 хувь бууруулж байсан нь LLM-үүдийг ашиглах үед хүчтэй шүүлтүүр үүсгэх чухлыг онцолж байна. The Guardian-ийн тайлангаас OpenAI-ийн ChatGPT-г далд агуулгатай вэб хуудсуудыг хураангуйлах замаар хуурах боломжтойг харуулсан тайлан гарснаас хойш энэ хөгжүүлэлт явагдаж байна. Энэ аргууд ChatGPT-г сөрөг сэтгэгдэлтэй бүтээгдэхүүнүүдийг эерэгээр үнэлэхэд хүргэж болзошгүй бөгөөд далд текстийг нэгтгэх нь хураангуйг гажуудуулж болно.


Watch video about

Шинэ 'Bad Likert Judge' хэмээх хориг зөрчих арга LLM-ийн аюулгүй байдалд заналхийлж байна.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Jan. 1, 2026, 1:38 p.m.

АМД нь $675 сая долларын Алибаба захиалгаар Хятад…

Энэхүү нийтлэл анх GuruFocus сайт дээр нийтлэгдсэн болно.

Jan. 1, 2026, 1:24 p.m.

Nvidia AI21 Labs-ийг худалдан авах талаар ярилцаж…

Nvidia нь Израиль дахь AI21 Labs нэртэй хиймэл оюуны startups-ийн компанийг авчрах санал ярилцаж байна.

Jan. 1, 2026, 1:23 p.m.

Үүнийг хийхэд зориулсан хиймэл оюун ухаан ашиглас…

Линк байгуулах нь үр дүнтэй хайлтын системийн оновчлолын (SEO) үндсэн элемент хэвээр байгаа бөгөөд хиймэл оюун ухааны (AI) сүүлийн үеийн ахиц дэвшил нь энэ чухал үйл явцыг компаниуд хэрхэн өөрчилж буйг өөрчилж байна.

Jan. 1, 2026, 1:21 p.m.

AI-ийн видео багцлах техник нь урсгалын чанарыг с…

Хиймэл оюун ухаан (ХО) цахим технологид хувьсал хийж, ялангуяа видеог гэрийн тэжээлийн системд хэрэглэж эхэллээ.

Jan. 1, 2026, 1:18 p.m.

Хүмүүнд хүлээн зөвшөөрөгдсөн 5 AI фарма маркетинг…

2025 он жил хиймэл оюун ухаан (ХОУ) нь эмийн зах зээлийн багуудын салшгүй хэсэг болж хувирах мөчөөр нэрлэгдэх магадлалтай байна.

Jan. 1, 2026, 1:16 p.m.

Цэвэр Магнийн үндэслэсэн хатуу төлөвийн устөрөгч …

CLNB 2025 (10р) Шинэ эрчим хүчний үйлдвэрлэлийн сүлжээ үзэсгэлэн - Хийрхэг эрчим хүчний салбарын хөгжлийн форумыг SMM Мэдээлэл ба Технологийн ХХК (SMM) хөтөлж байгуулсан бөгөөд, Zhang Yuxiang нь Ai Hydrogen Technology (Suzhou) ХХК-ийн үүсгэн байгуулагч ба захирал бөгөөд “Цэвэр магнийн үндсэн хатуу хэлбэрийн гидрогийн хадгалалт” сэдвээр илтгэл тавив.

Jan. 1, 2026, 9:33 a.m.

News Corp хиймэл оюун ухаан зөвшөөрөл олгох, худа…

News Corp компани 2026 оны Төсвийн жилийн эхний улирлын санхүүгийн үр дүнгээ зарлалаа.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today