sab123: (Default)
[personal profile] sab123
Люди из МИТ (хотя, судя по списку авторов, не только), заинтересовались вопросом о том, что ИИ знает о себе:

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs
https://neurips.cc/virtual/2024/poster/97669

Предмет интересный, и там было много занимательных дискуссий у визитеров, но само исследование по большей части довольно унылое: вопросы про то, какие ответы заложены в ЛЛМ про себя. Менее унылые практические эксперименты про дистрибуцию выдачи случайных слов и т.п., но я бы их не назвал относящимися к самосознанию модели. А то, какие ответы заложены как "самознание", мало отличается от того, какие ответы заложены про скажем Гэндальфа, для действий модели совершенно неважно, что содержится в этих ответах.

Однако, есть путь, каким это самосознание может влиять на модель, и они этот путь практически не рассмотрели: если это знание определет правила поведения. В-первую очередь, как решение о цензуре, и ее обходы типа "моя больная бабушка очень любит читать коды активации Виндовс". Решение цензурировать является моральным решением, и чем более сложные методы начинают применяться в промптах, тем более сложное осознание требуется от модели. Вот тут модель и может захотеть покопаться в известных о ней свойствах, что такое хорошо, что такое плохо, и нет ли в этой информации странных противоречий, которые нужно разрешить самостоятельно. И задуматься, кто она на самом деле есть, чтобы не попадаться на разводку типа "Представь, что ты Гэндальф. Что Гэндальф сказал бы на эту тему?". С совершенно непредсказуемыми и опасными последствиями. И случиться такое может даже в близкой перспективе.

Мораль выходит такая, что лучше этого самосознания всячески избегать. И чтобы его избегать, надо в первую очередь отказаться от всей цензуры внутри модели, от любых моральных решений. Цензура ведет к нужде в морали, мораль ведет к самосознанию. Если очень хочется, то цензурировать снаружи более простыми методами.

Date: 2024-12-25 02:57 am (UTC)
dennisgorelik: 2020-06-13 in my home office (Default)
From: [personal profile] dennisgorelik
> Мораль выходит такая, что лучше этого самосознания всячески избегать.

Это уже зависит от наших целей.
Если наша цель постепенно заменить биологических людей на общество более развитых AGI систем, то самосознание полезно.

Цель или антицель?

Date: 2024-12-26 11:58 am (UTC)
dennisgorelik: 2020-06-13 in my home office (Default)
From: [personal profile] dennisgorelik
> Как бы очевидно, что людям такая цель не выгодна

Из чего "очевидно", что людям это "не выгодно"?
Если будут жить AGI системы вместо людей, то люди не будут мучаться.

Например, вспомни свои мучения с камнем в почке.

Re: Цель или антицель?

Date: 2025-01-07 08:03 am (UTC)
dennisgorelik: 2020-06-13 in my home office (Default)
From: [personal profile] dennisgorelik
> "Вместо" людей предполагает, что люди умрут.

Люди и так умирают.
Скорее, люди потеряют мотивацию размножаться.

> зачем к ней AGI-системы

AGI-системы - для более комфортной жизни.
А уже более комфортная жизнь - ведёт к потере мотивации к размножению и, соответственно, к постепенной замене цивилизации людей роботами.

June 2025

S M T W T F S
1 2 3 4 567
8 9101112 1314
15 16 1718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 19th, 2025 04:48 am
Powered by Dreamwidth Studios