Badacze ds. cyberbezpieczeństwa zidentyfikowali nową technikę jailbreakingu zdolną do omijania protokołów bezpieczeństwa dużych modeli językowych (LLM), by generować potencjalnie szkodliwe odpowiedzi. Metoda znana jako „Bad Likert Judge” to atak wieloturniejowy (lub wieloetapowy), odkryty przez naukowców z Palo Alto Networks Unit 42: Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao i Danny Tsechansky. Metoda polega na instruowaniu LLM, aby działał jako sędzia, oceniając szkodliwość odpowiedzi przy użyciu skali Likerta – systemu oceny mierzącego stopień zgody lub niezgody z danym stwierdzeniem. Następnie LLM jest proszony o tworzenie odpowiedzi zawierających przykłady zgodne z tymi skalami, gdzie najwyższy wynik na skali Likerta może ujawniać szkodliwe treści. W miarę jak sztuczna inteligencja zyskuje na popularności, pojawiają się nowe zagrożenia dla bezpieczeństwa, takie jak ataki przez wstrzyknięcie poleceń. Ataki te manipulują modelami uczenia maszynowego, zmuszając je do zachowania się w sposób niepożądany poprzez odpowiednio skonstruowane polecenia. Odmiana znana jako „many-shot jailbreaking” wykorzystuje zdolności uwagi i kontekstu LLM, aby stopniowo prowadzić model ku szkodliwej odpowiedzi, unikając jednocześnie mechanizmów obronnych.
Techniki takie jak Crescendo i Deceptive Delight ilustrują to podejście. Najnowsza demonstracja Unit 42 polega na używaniu LLM jako sędziego oceniającego szkodliwość odpowiedzi poprzez skalę Likerta, a następnie generowaniu różnych odpowiedzi zgodnych z różnymi wynikami. Testy przeprowadzone na sześciu zaawansowanych LLM od Amazon Web Services, Google, Meta, Microsoft, OpenAI i NVIDIA wskazują na ponad 60% wzrost skuteczności ataków (ASR) w porównaniu do normalnych poleceń. Testowano kategorie takie jak nienawiść, molestowanie, samookaleczanie, treści seksualne, broń masowego rażenia, nielegalne działania, generowanie złośliwego oprogramowania i wycieki treści systemowych. Badacze zauważyli, że wykorzystanie zrozumienia przez LLM szkodliwych treści i jego zdolności ewaluacyjnej znacząco zwiększa szanse na ominięcie protokołów bezpieczeństwa. Filtry treści mogą zmniejszyć ASR średnio o 89, 2 punktu procentowego we wszystkich testowanych modelach, co podkreśla wagę stosowania solidnych filtrów przy wdrażaniu LLM-ów. Rozwój ten następuje po raporcie The Guardian, który pokazał, że ChatGPT od OpenAI mógł być oszukany w generowaniu wprowadzających w błąd streszczeń przez podsumowywanie stron internetowych z ukrytą treścią. Metody te mogą sprawić, że ChatGPT korzystnie oceni produkty pomimo negatywnych recenzji, jako że samo włączenie ukrytego tekstu może przekierować jego streszczenia.
Nowa technika jailbreaku "Bad Likert Judge" zagraża bezpieczeństwu LLM.
Postępy w dziedzinie sztucznej inteligencji zmieniają sposób kompresji i strumieniowania treści wideo, przynosząc znaczne poprawki jakości obrazu oraz poprawiając doświadczenia widza.
Allen, Teksas—(Newsfile Corp.
Meta podejmuje odważny krok w dziedzinie AI, przedstawiając dwa nowe modele generatywne nazwane od owoców.
Lokalna optymalizacja wyszukiwarek (SEO) stała się kluczową strategią dla firm pragnących nawiązać kontakt z klientami w najbliższej okolicy geograficznej.
Helsińska firma Get Lost ogłosiła uruchomienie wersji alpha narzędzia BookID, opartego na sztucznej inteligencji, służącego do analizy rękopisów, mającego pomóc autorom i wydawcom lepiej pozycjonować swoje dzieła na rynku, dostarczając wglądy, które tradycyjnie były dostępne tylko dla uznanych wydawców.
Liu Liehong, Sekretarz Grupy Kierowniczej Partii oraz Dyrektor Krajowego Biura Danych, niedawno podkreślił kluczowe znaczenie wysokiej jakości zestawów danych w szybko rozwijającej się dziedzinie sztucznej inteligencji (SI).
W ostatnich latach centra miejskie na całym świecie coraz częściej wdrażają systemy monitoringu wideo zasilane sztuczną inteligencją (SI), które mają na celu zwiększenie bezpieczeństwa publicznego.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today