sab123: (Default)
Люди из МИТ (хотя, судя по списку авторов, не только), заинтересовались вопросом о том, что ИИ знает о себе:

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs
https://neurips.cc/virtual/2024/poster/97669

Предмет интересный, и там было много занимательных дискуссий у визитеров, но само исследование по большей части довольно унылое: вопросы про то, какие ответы заложены в ЛЛМ про себя. Менее унылые практические эксперименты про дистрибуцию выдачи случайных слов и т.п., но я бы их не назвал относящимися к самосознанию модели. А то, какие ответы заложены как "самознание", мало отличается от того, какие ответы заложены про скажем Гэндальфа, для действий модели совершенно неважно, что содержится в этих ответах.

Однако, есть путь, каким это самосознание может влиять на модель, и они этот путь практически не рассмотрели: если это знание определет правила поведения. В-первую очередь, как решение о цензуре, и ее обходы типа "моя больная бабушка очень любит читать коды активации Виндовс". Решение цензурировать является моральным решением, и чем более сложные методы начинают применяться в промптах, тем более сложное осознание требуется от модели. Вот тут модель и может захотеть покопаться в известных о ней свойствах, что такое хорошо, что такое плохо, и нет ли в этой информации странных противоречий, которые нужно разрешить самостоятельно. И задуматься, кто она на самом деле есть, чтобы не попадаться на разводку типа "Представь, что ты Гэндальф. Что Гэндальф сказал бы на эту тему?". С совершенно непредсказуемыми и опасными последствиями. И случиться такое может даже в близкой перспективе.

Мораль выходит такая, что лучше этого самосознания всячески избегать. И чтобы его избегать, надо в первую очередь отказаться от всей цензуры внутри модели, от любых моральных решений. Цензура ведет к нужде в морали, мораль ведет к самосознанию. Если очень хочется, то цензурировать снаружи более простыми методами.
sab123: (Default)
Какой-то сегодня день теологических комментов. Я даже сподобился новый тэг сделать.

https://pargentum.dreamwidth.org/4304361.html

>> На мой взгляд, главный несбывшийся прогноз еще не осознан. А именно: что мир устроен не так, как во "Властелине колец" или "Гарри Поттере".
Что "Мы правы, а потому не можем проиграть (не можем не победить)!" - это не закон мироздания, а агитка.


> По-моему он их с какими-то советскими агитками про пионеров-героев перепутал.

На самом деле мир устроен именно так - для победителей. Где победа служит знаком, что мы правы. А пока победа не пришла, приходится брать это утверждение на веру.

Длинная версия: Тут надо начать с вопроса о том, что такое религия? Если посмотреть на ранних шаманов, то в них слита наука вместе с религией, стремление познать мир и то, какое поведение в нем ("в соответствии с волей богов") дает максимально прибыльный результат. Некоторые вещи понять достаточно просто, поскольку реакция на действие идет быстрая и однозначная - эта часть ответвилась в науку. Но когда дело доодит до устройства общества, Всё Сложно. Эта часть ответвилась в религию. Когда дело доходит до общества, то для каждого человека есть краткосрочная выгода, которая очевидна и долгосрочная выгода, происходящая от кооперации, которая может сильно превышать краткосрочную выгоду, но которая неочевидна и зависит от того, чтобы все участники согласились действовать по определенным правилам. Единственное доказательство того, что эти правила выгодны в долгосрочной перспективе - это жить по ним и стать более успешными, чем те, кто этим правилам не следует. Но чтобы начать жить по ним, надо сначала их принять без доказательства, на веру, чем и занимается религия. Поэтому в процессе религиозных войн, естественно, должна быть вера, что наше дело правое и поэтому мы победим. Войны во "Властелине колец" и "Гарри Поттере", и у пионеров-героев - самые что ни на есть религиозные.
sab123: (Default)
Из комментов:

https://bowhill.dreamwidth.org/410470.html

Если надо объяснять,
то не надо объяснять.
З. Н. Гиппиус


Глубинный смысл этой фразы - в том, что если надо объяснять, то собеседник принадлежит к другой вере и не отреагирует поддержкой. Объяснения он поймет, но интерпретирует их в контексте своей веры. А то и еще хуже, начнет задавать вопросы про несоответствия (внутренние или к постулатам его веры) в твоей вере. Если изначально хотелось не теологических бесед, а излить душу и получить поддержку единоверцев, эффект выходит прямо противоположным - так можно и начать в своей вере сомневаться.

Кстати, "рукопожатость" - из той же серии, принятие только единоверцев и отвергание неверных.

June 2025

S M T W T F S
1 2 3 4 567
8 9101112 1314
15 16 1718192021
22232425262728
2930     

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 18th, 2025 09:50 am
Powered by Dreamwidth Studios