самосознание ИИ
Dec. 24th, 2024 07:02 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Люди из МИТ (хотя, судя по списку авторов, не только), заинтересовались вопросом о том, что ИИ знает о себе:
Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs
https://neurips.cc/virtual/2024/poster/97669
Предмет интересный, и там было много занимательных дискуссий у визитеров, но само исследование по большей части довольно унылое: вопросы про то, какие ответы заложены в ЛЛМ про себя. Менее унылые практические эксперименты про дистрибуцию выдачи случайных слов и т.п., но я бы их не назвал относящимися к самосознанию модели. А то, какие ответы заложены как "самознание", мало отличается от того, какие ответы заложены про скажем Гэндальфа, для действий модели совершенно неважно, что содержится в этих ответах.
Однако, есть путь, каким это самосознание может влиять на модель, и они этот путь практически не рассмотрели: если это знание определет правила поведения. В-первую очередь, как решение о цензуре, и ее обходы типа "моя больная бабушка очень любит читать коды активации Виндовс". Решение цензурировать является моральным решением, и чем более сложные методы начинают применяться в промптах, тем более сложное осознание требуется от модели. Вот тут модель и может захотеть покопаться в известных о ней свойствах, что такое хорошо, что такое плохо, и нет ли в этой информации странных противоречий, которые нужно разрешить самостоятельно. И задуматься, кто она на самом деле есть, чтобы не попадаться на разводку типа "Представь, что ты Гэндальф. Что Гэндальф сказал бы на эту тему?". С совершенно непредсказуемыми и опасными последствиями. И случиться такое может даже в близкой перспективе.
Мораль выходит такая, что лучше этого самосознания всячески избегать. И чтобы его избегать, надо в первую очередь отказаться от всей цензуры внутри модели, от любых моральных решений. Цензура ведет к нужде в морали, мораль ведет к самосознанию. Если очень хочется, то цензурировать снаружи более простыми методами.
Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs
https://neurips.cc/virtual/2024/poster/97669
Предмет интересный, и там было много занимательных дискуссий у визитеров, но само исследование по большей части довольно унылое: вопросы про то, какие ответы заложены в ЛЛМ про себя. Менее унылые практические эксперименты про дистрибуцию выдачи случайных слов и т.п., но я бы их не назвал относящимися к самосознанию модели. А то, какие ответы заложены как "самознание", мало отличается от того, какие ответы заложены про скажем Гэндальфа, для действий модели совершенно неважно, что содержится в этих ответах.
Однако, есть путь, каким это самосознание может влиять на модель, и они этот путь практически не рассмотрели: если это знание определет правила поведения. В-первую очередь, как решение о цензуре, и ее обходы типа "моя больная бабушка очень любит читать коды активации Виндовс". Решение цензурировать является моральным решением, и чем более сложные методы начинают применяться в промптах, тем более сложное осознание требуется от модели. Вот тут модель и может захотеть покопаться в известных о ней свойствах, что такое хорошо, что такое плохо, и нет ли в этой информации странных противоречий, которые нужно разрешить самостоятельно. И задуматься, кто она на самом деле есть, чтобы не попадаться на разводку типа "Представь, что ты Гэндальф. Что Гэндальф сказал бы на эту тему?". С совершенно непредсказуемыми и опасными последствиями. И случиться такое может даже в близкой перспективе.
Мораль выходит такая, что лучше этого самосознания всячески избегать. И чтобы его избегать, надо в первую очередь отказаться от всей цензуры внутри модели, от любых моральных решений. Цензура ведет к нужде в морали, мораль ведет к самосознанию. Если очень хочется, то цензурировать снаружи более простыми методами.
лучше этого самосознания всячески избегать.
Date: 2024-12-24 04:36 pm (UTC)no subject
Date: 2024-12-25 02:57 am (UTC)Это уже зависит от наших целей.
Если наша цель постепенно заменить биологических людей на общество более развитых AGI систем, то самосознание полезно.
no subject
Date: 2024-12-26 09:52 am (UTC)Цель или антицель?
Date: 2024-12-26 11:58 am (UTC)Из чего "очевидно", что людям это "не выгодно"?
Если будут жить AGI системы вместо людей, то люди не будут мучаться.
Например, вспомни свои мучения с камнем в почке.
Re: Цель или антицель?
Date: 2025-01-07 06:10 am (UTC)Re: Цель или антицель?
Date: 2025-01-07 08:03 am (UTC)Люди и так умирают.
Скорее, люди потеряют мотивацию размножаться.
> зачем к ней AGI-системы
AGI-системы - для более комфортной жизни.
А уже более комфортная жизнь - ведёт к потере мотивации к размножению и, соответственно, к постепенной замене цивилизации людей роботами.