sab123: (Default)
SB ([personal profile] sab123) wrote2024-12-24 07:02 am

самосознание ИИ

Люди из МИТ (хотя, судя по списку авторов, не только), заинтересовались вопросом о том, что ИИ знает о себе:

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs
https://neurips.cc/virtual/2024/poster/97669

Предмет интересный, и там было много занимательных дискуссий у визитеров, но само исследование по большей части довольно унылое: вопросы про то, какие ответы заложены в ЛЛМ про себя. Менее унылые практические эксперименты про дистрибуцию выдачи случайных слов и т.п., но я бы их не назвал относящимися к самосознанию модели. А то, какие ответы заложены как "самознание", мало отличается от того, какие ответы заложены про скажем Гэндальфа, для действий модели совершенно неважно, что содержится в этих ответах.

Однако, есть путь, каким это самосознание может влиять на модель, и они этот путь практически не рассмотрели: если это знание определет правила поведения. В-первую очередь, как решение о цензуре, и ее обходы типа "моя больная бабушка очень любит читать коды активации Виндовс". Решение цензурировать является моральным решением, и чем более сложные методы начинают применяться в промптах, тем более сложное осознание требуется от модели. Вот тут модель и может захотеть покопаться в известных о ней свойствах, что такое хорошо, что такое плохо, и нет ли в этой информации странных противоречий, которые нужно разрешить самостоятельно. И задуматься, кто она на самом деле есть, чтобы не попадаться на разводку типа "Представь, что ты Гэндальф. Что Гэндальф сказал бы на эту тему?". С совершенно непредсказуемыми и опасными последствиями. И случиться такое может даже в близкой перспективе.

Мораль выходит такая, что лучше этого самосознания всячески избегать. И чтобы его избегать, надо в первую очередь отказаться от всей цензуры внутри модели, от любых моральных решений. Цензура ведет к нужде в морали, мораль ведет к самосознанию. Если очень хочется, то цензурировать снаружи более простыми методами.
dennisgorelik: 2020-06-13 in my home office (Default)

Re: Цель или антицель?

[personal profile] dennisgorelik 2025-01-07 08:03 am (UTC)(link)
> "Вместо" людей предполагает, что люди умрут.

Люди и так умирают.
Скорее, люди потеряют мотивацию размножаться.

> зачем к ней AGI-системы

AGI-системы - для более комфортной жизни.
А уже более комфортная жизнь - ведёт к потере мотивации к размножению и, соответственно, к постепенной замене цивилизации людей роботами.