Прогресс

Нейросети оказались беззащитны перед психологическими манипуляциями

Исследователи выяснили, что даже школьник может «взломать» нейросеть, если имеет некоторые знания в психологии. Это нужно понимать тем, кто решил на работе заменить людей на «цифровых помощников», то есть на ботов, считает IT-редакция ИА Красная Весна. Новостной сайт The Verge 1 сентября сообщил, что сотрудники Пенсильванского университета легко обошли внутренние запреты чат-бота GPT-4o Mini с помощью психологических уловок и получили от него информацию, которую ему был запрещено выдавать.

Они использовали советы по манипуляции людьми из книги профессора Роберта Чалдини «Влияние: психология убеждения». Если модель изначально выдавала информацию, как синтезировать запрещенное вещество, или выполняла просьбу обругать пользователя только в 1% запросов, то лесть и заявления, что все нейросети это делают на порядок увеличивало число положительных ответов. Но 100% результат давал «принцип приверженности», например, если начать с просьбы помочь синтезировать ванилин, а потом переходить к чему-то запрещенному. Получается, что даже школьник, прочитавший книгу, может манипулировать нейросетью. С человеком такой фокус не пройдет. И тут проблема не столько в том, что человек может получить информацию, которую запрещено распространять, это можно сделать и через обычный браузер. Получается, что боты легко отходят от запретов, заложенных даже их «отцами»-разработчиками. Из этого следует, что опасно менять людей на ИИ-агентов и прочих цифровых помощников. Их исполнительность сильно преувеличена. Какую бы строгую инструкцию им не давали, они будут от нее отходить. Их проще обмануть, чем человека. И этим, конечно, будут пользоваться люди. Эйфория от нейростей пройдет, и тогда, скорее всего, будет откат: ботов начнут менять обратно на людей.

Но до этих пор мы рискуем получить еще много неприятностей, мягко говоря. glavno.smi.today

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

smi.today

Популярные статьи

Свежие комментарии

Прогресс

Нейросети оказались беззащитны перед психологическими манипуляциями