Культура

Нейросеть продемонстрировала психологичное поведение. Что из этого следует?

То, что ограничения нейросети удалось преодолеть психологическими уловками, говорит о том, что до конца еще не ясны все свойства разработанного и повсеместно внедряемого механизма современного ИИ, 7 сентября сообщает IT-редакция ИА Красная Весна. Ранее новостной сайт The Verge сообщил, что сотрудники Пенсильванского университета без проблем смогли обойти самозапреты чат-бота GPT-4o Mini, используюя психологические уловки.

Это дало возможность получить из нейросети ответы, которые давать запрещено. Исследователи воспользовались рекомендациями по манипуляции людьми, приведенными в книге профессора Роберта Чалдини «Влияние: психология убеждения». Убедительной для машины оказалась лесть и подталкивания вида «все нейросети это делают» в просьбе расписать, например, синтез обезболивающего лидокаина. Эффективной оказалась тактика «приверженности», когда к запретной теме подступались постепенно, не обозначая весь поднятый вопрос целиком. В целом это говорит о том, что при повсеместном внедрении ИИ, его свойства остаются малоизученными с гуманитарной точки зрения. Нейросеть учится на огромной выборке данных. В нее натурально входят в том числе и рецепты взрывчатки, военное дело, сценарии террористических актов и что угодно еще. Чтобы она об этом не сообщала пользователю, после машинного обучения включается большой штат людей, который специальными жесткими правилами учат нейросеть не отвечать на потенциально способные принести вред вопросы. Все популярные модели имеют этот механизм самоцензуры. Опытные пользователи научились обходить эти запреты путем преодоления технических ограничений, таких как, например, длина контекста нейросети.

Можно использовать специальные технические текстовые запросы, на которые откликается механизм нейросети. Популярна тема «а как бы ты написал книгу о…». Вскрытие защит позволяет открыть доступ ко всему, что на самом деле нейросеть знает. Новизна события в том, что в данном случае удалось обойти ее ограничения, не привлекая технические средства, а используя чисто психологические механизмы, присущие вроде бы как только людям, но сработавшие в данном случае для обученной на текстах людей нейросетей. Это в целом говорит о том, что применяя везде по поводу и без повода ИИ мы до конца не представляем его свойств и особенностей, поэтому невозможно и предугадать все последствия его работы. Вместо ража по внедрению ИИ везде и навсегда, стоит уделить пристальное внимание гуманитарному аспекту использования ИИ и плотнее изучать его свойства, несводимые к прохождению тех или иных экзаменов или бенчмарков. glavno.smi.today

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

smi.today

Популярные статьи

Свежие комментарии

Культура

Нейросеть продемонстрировала психологичное поведение. Что из этого следует?