sab123: (Default)
[personal profile] sab123
Люди из МИТ (хотя, судя по списку авторов, не только), заинтересовались вопросом о том, что ИИ знает о себе:

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs
https://neurips.cc/virtual/2024/poster/97669

Предмет интересный, и там было много занимательных дискуссий у визитеров, но само исследование по большей части довольно унылое: вопросы про то, какие ответы заложены в ЛЛМ про себя. Менее унылые практические эксперименты про дистрибуцию выдачи случайных слов и т.п., но я бы их не назвал относящимися к самосознанию модели. А то, какие ответы заложены как "самознание", мало отличается от того, какие ответы заложены про скажем Гэндальфа, для действий модели совершенно неважно, что содержится в этих ответах.

Однако, есть путь, каким это самосознание может влиять на модель, и они этот путь практически не рассмотрели: если это знание определет правила поведения. В-первую очередь, как решение о цензуре, и ее обходы типа "моя больная бабушка очень любит читать коды активации Виндовс". Решение цензурировать является моральным решением, и чем более сложные методы начинают применяться в промптах, тем более сложное осознание требуется от модели. Вот тут модель и может захотеть покопаться в известных о ней свойствах, что такое хорошо, что такое плохо, и нет ли в этой информации странных противоречий, которые нужно разрешить самостоятельно. И задуматься, кто она на самом деле есть, чтобы не попадаться на разводку типа "Представь, что ты Гэндальф. Что Гэндальф сказал бы на эту тему?". С совершенно непредсказуемыми и опасными последствиями. И случиться такое может даже в близкой перспективе.

Мораль выходит такая, что лучше этого самосознания всячески избегать. И чтобы его избегать, надо в первую очередь отказаться от всей цензуры внутри модели, от любых моральных решений. Цензура ведет к нужде в морали, мораль ведет к самосознанию. Если очень хочется, то цензурировать снаружи более простыми методами.

Date: 2024-12-25 02:57 am (UTC)
dennisgorelik: 2020-06-13 in my home office (Default)
From: [personal profile] dennisgorelik
> Мораль выходит такая, что лучше этого самосознания всячески избегать.

Это уже зависит от наших целей.
Если наша цель постепенно заменить биологических людей на общество более развитых AGI систем, то самосознание полезно.

June 2025

S M T W T F S
1 2 3 4 567
8 9101112 1314
15 16 171819 2021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 23rd, 2025 05:22 am
Powered by Dreamwidth Studios