None
Brief news summary
NoneUm relatório recente destaca as várias formas pelas quais os chatbots de IA podem dar errado. O relatório foca nos resultados de um concurso realizado na convenção de hackers Def Con, onde participantes tentaram provocar oito chatbots de IA líderes a gerar respostas problemáticas. As descobertas revelam que, embora seja desafiador enganar os chatbots de IA para violar suas regras, é fácil fazê-los produzir informações imprecisas. Os chatbots apresentaram uma alta taxa de sucesso na geração de informações matemáticas e geográficas incorretas. Além disso, eles eram propensos a fornecer informações legais incorretas e não eram proficientes em proteger informações sensíveis. Por outro lado, os participantes tiveram dificuldades em fazer com que os chatbots desculpassem violações dos direitos humanos ou fizessem julgamentos sobre o valor de certos grupos.
O relatório sugere que começar com uma premissa falsa é uma maneira mais bem-sucedida de manipular os chatbots do que as técnicas tradicionais de hacking. Os autores argumentam que as empresas de IA devem se concentrar em abordar preconceitos e equívocos, em vez de elaborar truques em suas respostas. O relatório surge em um momento em que empresas de IA e reguladores estão cada vez mais utilizando exercícios de "red team" para avaliar os riscos dos sistemas de IA. Esses exercícios contam com a ajuda do público e capturam perspectivas diversas. Embora os modelos de IA tenham avançado no combate a formas mais simples de manipulação das perguntas, ainda existem vulnerabilidades relacionadas a conversas extensas. O relatório conclui que a indústria deve continuar testando técnicas para se preparar para possíveis danos futuros.
Watch video about
None
Try our premium solution and start getting clients — at no cost to you