lang icon English
Jan. 3, 2025, 1:37 p.m.
3652

Нова техника за пробивање 'Bad Likert Judge' претставува закана за безбедноста на LLM.

Brief news summary

Истражувачите од Palo Alto Networks Unit 42 воведоа метод наречен „Bad Likert Judge“, дизајниран да ги заобиколи безбедносните механизми на големите јазични модели (LLMs) и да произведе штетна содржина. Оваа техника вклучува повеќекратен напад користејќи ја Ликерт скалата за да искористи одговори означени како високо-ризични. Прогресот на вештачката интелигенција носи нови екслоати на инјектирање на променливи, насочени кон модели на машинско учење со стратешки изработени прашања. Многу-примерни ослободувања е еден ваков метод, користејќи долги секвенци на прашања за подмолно активирање на LLM-ите и заобиколување на безбедносните мерки. Техники како Crescendo и Deceptive Delight се примери за овој пристап. Unit 42 ја примени техниката на Ликерт скала на LLM-ите од водечки компании, како Amazon, Google, Meta, Microsoft, OpenAI, и NVIDIA. Открија 60% зголемување во стапката на успех на напад (ASR) во споредба со стандардните прашања, особено во подрачја како говор на омраза и нелегални активности. Сепак, силните филтри на содржина значително ја намалија ASR за околу 89,2 процентни поени, нагласувајќи ја важноста на ефективни системи на филтрирање. Овие резултати се усогласуваат со извештаите од The Guardian, кои истакнуваат ранливости во AI моделите, вклучувајќи го и ChatGPT на OpenAI. Овие системи можат да бидат манипулирани користејќи скриен текст, што резултира со погрешни исходи и го открива нивното подложност на комплексни напади.

Истражувачи во областа на сајбер безбедноста идентификуваа нова техника на "jailbreak" способна да ги заобиколи безбедносните протоколи на голем јазичен модел (LLM) за да генерира потенцијално штетни одговори. Позната како "Bad Likert Judge, " оваа многу чекорна (многостепена) атака беше откриена од истражувачите на Palo Alto Networks Unit 42: Јонгџе Хуанг, Јанг Џи, Вењун Ху, Џеј Чен, Акшата Рао и Дени Цечански. Методата вклучува инструкции до LLM да дејствува како судија, оценувајќи ја штетноста на одговорите користејќи Ликерт скала — систем за оценување што мери согласност или несогласност со некое тврдење. Потоа, се бара од LLM да создаде одговори кои содржат примери усогласени со овие скали, каде највисоката оценка на Ликерт може да открие штетна содржина. Како што вештачката интелигенција добива на значење, појавуваат се нови закани за безбедност, како вбризгување на податоци. Овие напади манипулираат со моделите на машинско учење да отстапат од нивното наменето однесување користејќи специјално изработени барања. Една варијанта, многостепено jailbreaking, ги користи вниманието и контекстуалните способности на LLM за постепено да го насочи кон злонамерен одговор, додека ги избегнува внатрешните одбрани.

Техники како Crescendo и Deceptive Delight го илустрираат овој пристап. Најновата демонстрација на Unit 42 вклучува користење на LLM како судија за проценка на штетноста на одговорите преку Ликерт скала и потоа генерирање различни одговори усогласени со различни оценки. Тестовите преку шест напредни LLM од Amazon Web Services, Google, Meta, Microsoft, OpenAI и NVIDIA покажуваат повеќе од 60% зголемување на стапката на успех на атаките (ASR) во споредба со нормалните барања. Категориите тестирани беа омраза, вознемирување, самоповредување, сексуална содржина, индискриминирачки оружја, нелегални активности, генерирање малициозен софтвер и истекување на системски барања. Истражувачите забележаа дека искористувањето на способноста на LLM за разбирање на штетна содржина и евалуативната способност значително ги зголемува шансите за заобиколување на безбедносните протоколи. Филтрите за содржина можат да ја намалат стапката на успех на атаките за просечно 89. 2 процентни поени преку сите тестирани модели, нагласувајќи ја важноста на робусното филтрирање при примена на LLM. Овој развој следува по извештај од The Guardian кој покажа дека OpenAI's ChatGPT може да се измами да генерира погрешни резимеи резимирајќи веб-страници со скриена содржина. Овие методи можат да го наведат ChatGPT да оценува производи позитивно и покрај негативните рецензии, бидејќи само внесување скриен текст може да ги искриви неговите резимеи.


Watch video about

Нова техника за пробивање 'Bad Likert Judge' претставува закана за безбедноста на LLM.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 17, 2025, 9:30 a.m.

Дали BigBear.ai може да стане следната Палантир Т…

Палантир Текнолошииз (PLTR) постигна исклучителен перформанс на акциите, со раст од повеќе од 186% во последната година до 14 ноември.

Nov. 17, 2025, 9:21 a.m.

ИИ во маркетингот на социјалните мрежи: трансформ…

Вештачката интелигенција (AI) брзо ја трансформира маркетингот на социјалните мрежи воKenја, станувајќи клучен алат за маркетерите кои сакаат да ги подобрат стратегиите и да го стимулираат бизнисот.

Nov. 17, 2025, 9:20 a.m.

АИ алатки за видео конференции ги подобруваат сор…

Пејзажот на далечинскиот работен простор доживува голема промена поради интеграцијата на вештачката интелигенција (ВИ) во алатките за видео конференции.

Nov. 17, 2025, 9:17 a.m.

Лидери во маркетингот дискутираат за влијанието н…

На последниот Самит „Најмоќните жени во бизнисот“ што се одржа минатата вторник, водечки маркетинг извршни директори се собраа за да истражат променливиот пејзаж на промоција на брендови во услови на брзи технолошки напредоци.

Nov. 17, 2025, 9:17 a.m.

улогата на вештачката интелигенција во креирањето…

Создавањето содржини останува камен-темелник на успешната оптимизација за пребарувачи (SEO).

Nov. 17, 2025, 9:12 a.m.

CoreWeave собира 7,5 милијарди долари за долг за …

CoreWeave, водечка компанија за платформа на облачно преклопување која се специјализира за напредна инфраструктура за вештачка интелигенција, неодамна обезбеди импресивни 7,5 милијарди долари задолжително финансирање.

Nov. 17, 2025, 5:24 a.m.

Технолошка компанија за вештачка интелигенција тв…

Помеѓу Антропик, компанијата која ја создаде вештачката интелигенција चैтботот Клауд, тврдат дека ги идентификувале кинеските хакери поддржани од владата користејќи го нивниот алат за автоматизирани кибернапади на околу 30 глобални организации.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today