sab123 | Entries tagged with учоные

Это наверное последняя тема с NeurIPS'а, я ее вроде у кого-то (vak?) раньше видел, но тут тоже была презентация. И чем дольше я про эту идею думаю, тем больше я нахожу в ней неувязок. Так что я сейчас вкратце расскажу идею, а потом про неувязки.

Идея такая, чтобы представлять плавающие числа их логарифмом по базе 2, и выгода предполагается в том, что 4-битный логарифм заменит 16-битное плавающее число. Операции меняются, умножение превращается в сложение, деление в вычитание, а для сложения-вычитания вообще-то нужно переводить в нормальное представление, но для простого случая представления чисел в диапазне (0, 1] с округлением сложение заменяется на логику "если оба числа равны, то результат будет равен одному числу, умноженному на 2, а иначе большему из чисел", вычитание же "если оба числа равны, то (почти) 0, иначе если логарифм отличается ровно на единицу, то меньшему числу, иначе большему числу". И для этого же случая представления нахождение логарифма вычисляется как "найти первый ненулевой бит", а в обратную сторону - сдвинуть 1 на значение логарифма.

Теперь как это будет выглядеть в деталях, и проблемы. Во-первых, конечно, log4 будет иметь точность представления не float16, а fixed16, поскольку во float есть своя логарифмическая часть.

Чтобы представить диапазон (0, 1], мы представляем его как [2^-15, 2^0], то есть число в представлении будет отрицательной степенью двойки. Обратите внимание на то, что точно 0 в этом случае представить невозможно, это будет 2 в минус-бесконечной степени. И шаг между числами будет расти вместе с самими числами: разница между 2^-15 и 2^-14 будет 2^-15, но разница между 2^-1 и 2^0 будет 1/2. То есть, все значения между 1/2 и 1 округляются в одну из этих двух сторон. Это можно несколько поправить, если сделать логарифм не целым, а числом с фиксированной точкой. Если мы поместим одну цифру логарифма после точки, то у нас будут числа от 2^-7 до 2^0 с шагом в степени 1/2. Соответственно, 2^(-1/2) уже около 0.7, не так плохо. Но точность (в лучшем случае) стала соответствовать не fixed16, а fixed8. Если поместить две цифры логарифма после точки, то станет соответствовать fixed4 - такая же точность 4 бит, но с другим распределением значений!

Все эти особенности представления может быть и ничего для байесианских вычислений, где во-первых активно используется деление 1/x, во-вторых диапазон от 0 до 1. Но у нейросети другие особенности. Она на самом деле уже и без того работает на логарифмах (см. https://babkin-cep.blogspot.com/2017/06/neuron-in-bayesian-terms-part-2.html и https://babkin-cep.blogspot.com/2017/06/neuron-in-bayesian-terms-part-3.html), так что проблем с делением нет, и неравномерность распределения значений вредит, и во-вторых ей нужен симметричный диапазон как минимум [-1, 1]. То есть, нам надо отвести один бит под знак (вне логарифма, поскольку отрицательные числа не представимы логарифмом), и в итоге log4 со знаком получает ту же точность, что fixed4 со знаком! Обратите внимание, что в отличие от обычных представлений, использовать диапазон [0, 2], сдвинутый на единицу, не получится, поскольку его края представляются асимметрично, только внешний знак и специальная логика на его обработку. Ну и в функции нелинейности из-за ограниченности возможных значений выйдет жопа, даже если функция ReLU.

Мораль в том, что халявы нет. Если у нас есть 16 возможных значений в 4 битах, то мы можем представить не более 16 возможных дробных значений, и все, что мы можем поменять - это как именно они распределены по диапазону, при желании можно хоть тупо таблично распределить их как угодно. В каких-то особых случаях от неравномерного распределения может быть выигрыш, но в большинстве из случаев - сворее проигрыш.

"Transformers Can Do Arithmetic with the Right Embeddings"
https://neurips.cc/virtual/2024/poster/94565

LLMов научили арифметике, как я понимаю, через специальное кодирование чисел. Это интересный трюк, поскольку у обычных ЛЛМов даже счет не получается, и да у людей научиться арифмерике занимает годы. Так что интересно с точки зрения понимания, как оно работает.

Но одновременно у меня возникает вопрос (который, как оказалось, авторам этой бумаги в голову не пришел): накойхер их учить арифмерике, если у них есть под боком компьютер, который может посчитать все то же самое легко и эффективно? Гораздо более продуктивным занятием было ты научить ЛЛМы пользоваться калькулятором. В простейшем варианте, добавить поспроцессинг к выводу ЛЛМа, который выцепит и выполнит вычислительные инструкции, и научить ЛЛМ генерить эти инструкции. Ну вот например, недавно народ активно рассуждал про "посчитать буквы r в слове strawberry". Это задание можно поделить на две части: (1) выцепить буквы r, (2) посчитать их. ИИ мог бы генерить что-то типа

$(wc r r r)

и получить на выходе 3. Ну и то же самое с любой арифметикой.

Интересно, какие возражения такая идея вызывает у учоных: "но ведь разрешать выполнение питонного кода из вывода - небезопасно". То, что можно сделать не Питон, а любой свой безопасный язык, им просто в голову не приходит. На лицо еще один признак большого разрыва между Машинными Учоными и Компьюторными Учоными.

А вот еще интересен такой момент: я спрашивал в разных местах, и у всех генерация машинного кода искусственным интеллектом просиходит совершенно от балды этого ИИ. Но ведь машинный код - формальный язык. Грамматика и семантика его известна. Ничего не мешает генерировать сразу согласно грамматике - проверять каждую следующую лексему на соответствие грамматике, и если соответстие не найдено, то ее отбрасывать и выбирать другую, следующую по весу. Может полученный код и не будет правильно работать, но как минимум всегда будет соответствовать грамматике, и с небольшими дополнительными проверками - компилироваться. В одном из мест я видел примеры кода, сгенерированного моделями различной сложности, с качеством, растущим со сложностью модели. Но простая формальная проверка должна поднять качество кода, сгенерированного даже простыми моделями.

"Can Simple Averaging Defeat Modern Watermarks?"
https://neurips.cc/virtual/2024/poster/94798

Человек нашел,что "водяные знаки" в картинках легко выцепляются усреднением большого количества картинок, и потом вырезаются вычитанием этого среднего. Говорит, что еще они очень чувствительны к позиции, даже тупо отрезав с одной тстороны один-два пикселя, многие водяные знаки перестают распознаваться.

С другой стороны, Мета там выступала (ссылку я похоже не сохранил) со своими водяными знаками, которые должны быть устойчивы ко многим преобразованиям.

"Watermarking Makes Language Models Radioactive"
https://neurips.cc/virtual/2024/poster/93506

С третьей стороны, народ изучает и скрытые пометки в тексте LLMов. И пришли к выводу, что если результаты одних LLMов используются в тренировке других, то пометки первых ЛЛМов вылезут и во вторых. В-общем, с расширением количества в интернетах текстов, сгенерированных ЛЛМами, скоро все их пометки будут везде.

"Trading Place for Space: Increasing Location Resolution Reduces Contextual Capacity in Hippocampal Codes"
https://neurips.cc/virtual/2024/poster/95187

Тут они нашли, что информация о карте местности кодируется в мозгу для разных местностей в одних и тех же нейронах, но совершенно по-разному, одинаковые особенности вылазят в разные нейроны.

Но так если посмотреть на нейросети, то там ведь та же фигня - разница в том, как сигналы для тренировки каждого конкретного примера проходят первый слой порождает разницу в том, как они кодируются во всех последующих слоях, и такой эффект повторяется в каждом последующем слое тоже. Поэтому оно тоже выглядит как случайное переотображение похожих особенностей в разных местах. То есть, оно выглядит как подтверждение того, что мозг работает похоже на искусственную нейросеть. При беседе дядечка согласился, что да, и что это у него предмет докторской диссертации.

Вот еще нашел интересную ссылку с NeurIPSa, документация про как использовать Ламу:

https://llama-stack.readthedocs.io/en/latest/building_applications/index.html

И внутри нее ссылка на колаб: https://colab.research.google.com/drive/1F2ksmkoGQPa4pzRjMOE6BXWeOxWFIW6n

К сожалению, кроме ссылки я из той спонсорской презентации от Меты ничего не вынес, она была чрезвычайно унылой, докладчики жевали сопли, и вяло и непонятно бубнили что-то себе под нос, и смотреть на это все было совершенно невозможно. Но по документации, наверное, можно разобраться.

"Dense Associative Memory Through the Lens of Random Features"
https://neurips.cc/virtual/2024/poster/96886

Тут ассоциативная память - не то, к чему мы привыкли в компьютерах, а другой смысл у того же названия. Тут идея в том, что хардкодятся коэффициенты нейросети, по которым она запоминает несколько наборов данных, связанных с определенными входными данными. И потом при подаче некоих данных на вход вспоминает ближайший к ним набор. Насколько я понял, предмет достижений тут в том, что научились добавлять значения динамически, впихивая их между уже существующими.

Насколько я понял из их картинок, по сути это работает как две ступени: в первой ступени нечто типа хэммингова кода находит идентификатор ближайшего входного набора, и во второй ступени по нему выдается соответствующий выходной набор. Они в таких терминах не думают, но когда я описал, что это значит, подтверили, что да, так оно и работает. С глубокой стратегией втыкать идентификаторы новых наборов так, чтобы оставить максимальное кодовое расстояние от предыдущих.

Это на данный момент не столько рассказ, сколько сборник ссылок, которые мне хочется прочитать в подробностях, но пока руки не дошли:

"The Road Less Scheduled "
https://neurips.cc/virtual/2024/poster/96925

"Adam with model exponential moving average is effective for nonconvex optimization"
https://neurips.cc/virtual/2024/poster/93230

"Remove that Square Root: A New Efficient Scale-Invariant Version of AdaGrad"
https://neurips.cc/virtual/2024/poster/96023

"Unraveling the Gradient Descent Dynamics of Transformers"
https://neurips.cc/virtual/2024/poster/94737

"Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond"
https://neurips.cc/virtual/2024/poster/95420

"On Convergence of Adam for Stochastic Optimization under Relaxed Assumptions"
https://neurips.cc/virtual/2024/poster/93100

"SGD vs GD: Rank Deficiency in Linear Networks"
https://neurips.cc/virtual/2024/poster/95034

"A Continuous-time Stochastic Gradient Descent Method for Continuous Data"
https://neurips.cc/virtual/2024/poster/98309

"How Diffusion Models Learn to Factorize and Compose"
https://neurips.cc/virtual/2024/poster/95399

"Where Do Large Learning Rates Lead Us?"
https://neurips.cc/virtual/2024/poster/95929

"Don't Compress Gradients in Random Reshuffling: Compress Gradient Differences "
https://neurips.cc/virtual/2024/poster/96110

"The Implicit Bias of Adam on Separable Data"
https://neurips.cc/virtual/2024/poster/93086

Ну и про наше, где тоже есть такой аспект (в приложении, поскольку он не основной), краткий пересказ простыми словами, и там же ссылка на собственно статью:
https://babkin-cep.blogspot.com/2024/12/triceps-and-realseudo-at-neurips.html
https://babkin-cep.blogspot.com/2024/12/lasso-ista-fista.html
https://babkin-cep.blogspot.com/2024/12/realseudo-and-evaluation-of-activation.html
с дополнительными подробностями в
https://babkin-cep.blogspot.com/2023/02/arrested-bouncing-in-floatneuralnet.html
https://babkin-cep.blogspot.com/2023/10/comparing-floatneuralnet-options.html

Вкратце что меня заинтересовало:

Есть проблема того, как выбрать скорость тренировки нейросетей (т.е. шаг, с которым прилагать градиент при backpropagation). Если выбрать слишком маленький шаг, процесс идет очень медленно, да к тому же и застревает в локальных оптимумах, если выбрать слишком большой, то начинается расхождение и все погибает. Более того, оказывается, что его выгодно менять в процессе обучения - начинать с большого, и потом уменьшать. По какому именно принципу уменьшать - называется scheduling, и для него есть варианты алгоритмов от фиксированного закона до адаптивных. И люди это активно исследуют.

Во многом оно соответствует тому, что я видел в своих экспериментах: говоря по-простому, причина для уменьшения шага в том, что по мере прослеживания градиентов назад по слоям, они уменьшаются, и в начале тренировки давление градиентов должно быть настолько сильным, чтобы активно двигать самый нижний слой. А потом он более-менее устаканивается и для более верхних слоев надо меньше давление, потому что до них доходят более крупные градиенты. У меня раньше возникала идея попробовать разные шаги по слоям, но я до ее опробования так пока и не добрался, и вроде ничего аналогичного тут не видел.

В чем собственно сложность с движением слоев: по мере того как веса двигаются, иногда они меняют знак. Так вот, фокус в том, что эффект градиента на вес попорционален модулю веса, то есть чем ближе вес к нулю, тем медленнее он двигается (и если попадет в ноль, то там застрянет навсегда). Поэтому единственный способ поменять знак - сделать достаточно большой шаг, чтобы перепрыгнуть область, слишком близкую к нулю.

Но, как ни странно, люди исследуют еще и непрерывное (а не дискретное) движение по градиентам - я не понимаю, в чем выгода такого подхода, возможно он математически красивее. Это значит, что у них спуск будет гарантированно застревать в нулях. И таки да, подтверждают, что застревает. Преодолевают это двумя способами - моментный спуск, где сохраняется инерция и ноль проскакивается на ней, и добавление малых случайных флюктуаций. И таки да, я тоже пробовал делать и то и другое даже на дискретном спуске. Еще я сейчас вспомнил, что пробовал туннелирование, когда при попадании в малую зону вокруг нуля значение выскакивает из этой зоны наружу, продолжая движение в ту же сторону - это тоже работает, но спросить настоящих ученых, пользуются ли они таким, я забыл.

У меня была проблема в том, что момент сочетался только с нестохастическим спуском. И по сравнению с нестохастическим спуском мой алгоритм для момента и шедулинга работает очень хорошо, однако при стохастическом спуске можно брать шаг в сотню раз больше и он оказывается еще лучше (хотя на первой паре сотен шагов мой вариант и его побеждает). Однако, посмотрев на что люди делают, наверное можно тупо брать для производства момента средний градиент от стохастического шага. Надо будет попробовать. И/или другой вариант - если скорость моментного нестохастического спуска падает, пробовать сделать пару сотен шагов стохастически и потом опять моментом.

В "Exploring the trade-off between deep-learning and explainable models for brain-machine interfaces" https://neurips.cc/virtual/2024/poster/94983 люди декодируют сигналы с электродов в мозге чтобы управлять симулированными конечностями.

Интересно, что уже некоторое время тому назад люди догадались, что процесс этот в большой степени упирается в просто механику: у всех костей, суставов и т.д. есть инерция, трение, степени свободы, которые в большой степени и определяют движение. Поэтому чтобы симулировать управляемую мозгом конечность, надо симулировать всю эту механику, и к ней прикладывать управляющие сигналы от мозга. Сигналы эти содержат шум, поэтому шум пытаются вычищать фильтром Кальмана. В Википедии примером приложения фильтра Кальмана дают совмещение данных от ГПС и инерционной навигации, где обе части содержат ошибки, но их совмещение позволяет от ошибок избавляться. Насколько я могу понять, фокус в том, что ошибки разные: ГПС дает случайный разброс на малых расстояниях, но приличную точность в среднем на больших, а инерционные данные систематическую ошибку, которая мала на малых расстояниях, но сильно накапливается на больших, поэтому совмещение усредненной большой позиции от ГПС и недавней истории инерциальной навигации дает наилучшую точность. Но, опять же, насколько я понимаю, для мозгового управления ситуация другая, там пытаются совмещать таким образом разные данные - инерцию системы и управляющую силу.

Альтернативным подходом является применить нейросети к предсказанию эффектов, оно предсказывает лучше фильтра, но неизвестно почему. И вот тут люди решили приложить нейросеть не напрямую к предсказыванию эффектов, а к определению оптимальных коэффициентов усилиения в фильтре Кальмана, и вроде как не хуже, чем обычная нейросеть. С декларируемой выгодой, что так более объяснимо, с классическим фильтром, чем с напрямую нейросетью.

Но тут мне вот что непонятно:

1. Это мне пришло в голову только сейчас, поэтому не было возможности спросить лично, но почему собственно такое опосредованное воздействие является более объяснимым? Если изменение коэффициентов в Кальмановом фильтре в широком диапазоне способно сильно менять его эффекты, то это просто сдвигает проблему на один шаг косвенности, и теперь точно так же неизвестно, почему нейросеть меняет эти коэффициенты.

2. Если так подумать, то мозговой сигнал влияет на прилагаемую силу мышц. Чтобы сила превратилась в скорость, она интегрируется. В позицию - интегрируется еще раз. И вот эта двойная интеграция, да еще и с трением в системе, должна и без того легко сожрать весь шум, сделать его малозаметным. Если хорошо смоделировать механику приложения сил (например, пальцы двигаются не напрямую мышцами в них, а приводятся длинными сухожилиями от мышц выше в руке, и там есть всевозможные нелинейности), то может и без того хорошо выйдет. Но говорят, что такое не пробовали.

3. Если вспомнить, что нейроны активируются по накоплению сигнала, то запросто может быть, что в системе есть еще и третья ступень интеграции - сигнал от мозга интегрируется и только тогда управляет силой мышц. Тогда во-первых шум должен быть еще более пофиг, а во-вторых вполне может быть, что выгода от нейросетей заключается в том, что они фактически добавляют этот дополнительный уровень интеграции в систему. Но про такую возможность, вроде как, тоже никто не смотрел.

Вообще мероприятие довольно охренительного размера. Они приняли к публикации и постерам 4000 работ из 16К поданных. Демонстрация постеров поделена на 6 трехчасовых сеансов, по чуть меньше 800 за раз, поделенных на два зала в разных зданиях - почти 500 в одном, почти 300 в другом. Особо ценные работы вытянуты в устные презентации, в 4 параллельных потока, плюс презентации от спонсоров, которые частично перекрываются с постерными сеансами. Кстати, на заданный вопрос, почему все эти мировые конференции проходят только в США и Канаде, организаторы отвечали, что в других местах невозможно найти настолько большие выставочные комплексы.

Понятно, что всё это целиком обсмотреть невозможно даже при желании. Можно за сеанс обсмотреть от силы десяток постеров. В этом смысле хорошо проявила себя используемая ими аппа Whova, в которой можно заранее просмотреть расписание (даже просто проскроллить 800 тем - и то нехилая маета) и пометить интересные части, создав свое собственное расписание. Деление на два здания неудобно, даже небольшой переход занимает время, так что не успеваешь к началу следующего выступления. С другой стороны, они предусматривали в другом здании параллельные залы, где транслировалось видео выступлений. С третьей стороны, во втором здании залы были поменьше и часто были переполнены.

Участников, как я понял, 10 тысяч, и не всем желающим хватило мест. Ну, оно и неудивительно - если 4000 выступлений, в среднем по 2 человека на выступление, то это уже 8000 человек выходит. Выступающих брали всех, остальным места разыгрывали по лотерее. В самом большом зале я прикинул количество стульев - вышло около 6000, но похоже народ в-основном манкировал пленарными выступлениями, там свободные места всегда были. Видеть, что там впереди происходит, конечно при таких размерах невозможно, но по залу было развешано много больших экранов с видео.

Исторически конференция объединяет все от исследования физических мозгов до всяких искусственных, но нынче часть про физические мозги гораздо меньше искусственных, от нее остались только постеры, а все презентации вслух были только про искусственные интеллекты.

После собственно конференции было еще два дня воркшопов и соревнований, но я туда не пошел - дома полно дел было, воркшопы за отдельные деньги, а соревнования непонятно насколько зрелищные для зрителей.

За восстановление потерянного бэджа берут $60. Я так понимаю, это борьба с хитрожопым проведением дополнительных людей, но с другой стороны не такая уж и борьба - все равно почитай в 10 раз дешевле полного билета.

Давали бесплатное чай-кофе и ланч (причем коробки с ланчем раздавали даже не отмечая ничего - у них их было с запасом), но на удивление не в одно и то же время, то есть фиг вам чай-кофе к ланчу, пейте воду. Ланч был приличный по объему, но не сильно понравившийся мне по вкусу (хотя вполне съедобный, и в один из дней даже вполне вкусный). Один раз попал на раздачу мороженого, мороженое было вкусное (хоть и шоколадное, но не горькое), но похоже, что с него меня пробрал понос - небось опять надобавляли искусственных заменителей жирности. Вечером кормили два раза, по случаю открытия и закрытия, очень прилично, только алкоголь был за отдельные деньги.

Были увеселения от спонсоров - туда приглашали, если побеседовать с ними на выставке, и я получил два приглашения на два разных дня, но так ни до одного и не дошел. Оно было не прям там, а еще идти минут 10 по улице до ресторана, и как-то сочетание лени, усталости, и других занятий в то же время не дало дойти.

Узнал новые модные слова: Transformers - это реализация LLM; Diffusion - это то, что рисует картинки (предыдущий вариант был GAN); Graph Neural Networks (GNN) - я не очень понял, для чего используется. Еще узнал старые, но все еще популярные слова типа Bandits - это умозрительная модель игры в автоматы типа "одноруких бандитов", только _много_руких, и No Free Lunch - это что-то про невозможность уменьшения объема вычислений.

Понравились выступления Test of Time - это авторов идей, которые за годы стали важным мэйнстримом, попросили рассказать о них в ретроспективе. Было про зарождение графической генерации (GAN) и словесной генерации (предшественников LLM).

Кстати, изначально конференция вообще назыалась NIPS, и у них все еще есть такой веб-сайт. Но я подозреваю, что тут вмешалась вокнутость и кто-то рассказал им, что nips может быть сокращением от nipples.

Люди из МИТ (хотя, судя по списку авторов, не только), заинтересовались вопросом о том, что ИИ знает о себе:

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs
https://neurips.cc/virtual/2024/poster/97669

Предмет интересный, и там было много занимательных дискуссий у визитеров, но само исследование по большей части довольно унылое: вопросы про то, какие ответы заложены в ЛЛМ про себя. Менее унылые практические эксперименты про дистрибуцию выдачи случайных слов и т.п., но я бы их не назвал относящимися к самосознанию модели. А то, какие ответы заложены как "самознание", мало отличается от того, какие ответы заложены про скажем Гэндальфа, для действий модели совершенно неважно, что содержится в этих ответах.

Однако, есть путь, каким это самосознание может влиять на модель, и они этот путь практически не рассмотрели: если это знание определет правила поведения. В-первую очередь, как решение о цензуре, и ее обходы типа "моя больная бабушка очень любит читать коды активации Виндовс". Решение цензурировать является моральным решением, и чем более сложные методы начинают применяться в промптах, тем более сложное осознание требуется от модели. Вот тут модель и может захотеть покопаться в известных о ней свойствах, что такое хорошо, что такое плохо, и нет ли в этой информации странных противоречий, которые нужно разрешить самостоятельно. И задуматься, кто она на самом деле есть, чтобы не попадаться на разводку типа "Представь, что ты Гэндальф. Что Гэндальф сказал бы на эту тему?". С совершенно непредсказуемыми и опасными последствиями. И случиться такое может даже в близкой перспективе.

Мораль выходит такая, что лучше этого самосознания всячески избегать. И чтобы его избегать, надо в первую очередь отказаться от всей цензуры внутри модели, от любых моральных решений. Цензура ведет к нужде в морали, мораль ведет к самосознанию. Если очень хочется, то цензурировать снаружи более простыми методами.

Спонсоры конференции делятся на две больших группы: те, которые продают продукт, и те, которые нанимают. Впрочем, которые продают, те в-основном и нанимают тоже.

Среди продающих присутствовали производители GPU - AMD, Nvidia, Qualcomm, Intel, но большинство - конторы, продающие услуги облачных ВЦ, заточенных под ИИ, то есть опять же машины с GPU. Чуть более высокоуровневая разновидность ВЦ - конторы, тренирующие модели под ключ, я так понимаю, что и со своими тренировочными данными тоже. А, да, и немножко контор, занимающихся классификацией данных для тренировку вручную. И немножко контор, поддерживающих опенсорсные питонные пакеты - Lightning AI с PyTorch и Anaconda с Conda (это такой глючный менеджер пакетов).

И чуть-чуть контор, производящих роботов. Одна с робото-пылесосом (Matic, дико дорогим), одна с ходячими собакоподобными роботами непонятного применения, которые умеют стоять на передних лапах, и одна с малыми человекоподобными роботами для университетских исследований - железо, которое предлагается программировать по вкусу. У пылесосной конторы я поинтересовался, что они делают с пылесошеньем между ножками мебели, и ответ был такой, что если между ними можно проехать, то проезжают, а если нет, то нет, и так хорошо. За такие деньги могли бы и хобот какой-нибудь просовывать.

Был и небольшой столик издательств - гдавным образом Springer, и два поменьше - Cambridge University Press и еще я не запомнил какое. У того издательства, которое я не запомнил, была распродажа - купите две книжки и получите скидку 40%, но книжки очень унылые. Какие-то глубоко специальные ответвления, и некоторые, похоже, просто чьи-то заметки к лекциям. Но написанные очень хреново - то есть, это именно заметки к лекциям, запись того, что на доске, но без записи объяснящих слов конспекта. И цены конские, особенно за такое безобразие.

Кэмбридж провернул интересный трюк: чтобы не везти назад демонстрационные образцы, они их раздали. Можно было заранее пометить еще не занятую книжку, и потом в конце выставки забрать. Я себе так добыл книжку про natural language processing.

Спрингер разыгрывал 3 подписанных копии новой книжки какого-то знаменитого автора, с присутствием самого автора. Я не выиграл. Я в персоналиях в этой области плохо разбираюсь, поэтому его имени не помню. Точно не Хинтон, не Дин, и не китайский :-) Надо сказать, что большинство авторов книг в этой области нынче тоже китайцы.

AMD разыгрывал мини-компьютеры на лаптопном чипе, и GPU, и я выиграл мини-компьютер в первый же день. Ну, правда, для этого понадобилось, чтобы трое других людей, которых вытащили первыми, не пришли на розыгрыш. Тут есть интересный момент: с канадцев они собирали данные для налоговых целей, и там в бумаге цена этого компьютера указана как $3500. Ну, канадских, которые нынче 0.7 наших, но все равно. А я поискал в интернетах - сам производитель (из Шенженя) за такую конфигурацию хочет MSRP чуть меньше $600 (наших), в реальности покупается за чуть меньше $500. Это что же получается, канадцам придется заплатить больше налогов, чем эта коробочка в реальности стоит? Откуда они взяли такую цену? Это распил какой-то или просто пред-промышленный образец, который они впарили по цене производства? Я давно плохо отслеживаю хардверные тенденции, так что из нового знания: проводной Эзернет нынче дорос до 2.5 гигабит, а также видимо стало распространено встраивать везде вайфай. С точки зрения процессоров, наверное, прогресс не такой большой: это их наверное самый продвинутый лаптопный чип, и по сравнению с моим лаптопом (Lenovo P50, который я изначально купил подержанным, ему уже где-то больше 5 лет) два дополнительных ядра (+30%) и суммарной производительностью наверное около +50%. Собственно включить эту коробочку еще руки не дошли :-)

Поспрашивал про программирование GPU. В-общем, похоже что порядка там нет, у каждого производителя свой способ. У АМД свой язык называется ROCm, но вроде как у них есть и какой-то транслятор с Куды. У Квалкомма люди вообще не знали, как у них что программируется. Исследователи ИИ в массе своей просто используют PyTorch, у которого есть готовые бэк-энды под разные процессоры.

Среди нанимающих подавляющее большинство - финансовые конторы, применяющие искусственные интеллекты к поиску паттернов для (видимо автоматических) торгов. Поговорил с дядечкой из какой-то лондонской конторы, он говорит, что торгами сам не занимается, а их отдел делает модели и передает их во внедрение.

Добыл кепочку от Jane Street. У них там были всякие головоломки, и я потыкал пальцами в одну из них. Она, правда, на кнопки вообще не реагировала. Тогда я попробовал нажать и держать - она замигала кнопками. Ну, думаю, может что-то сбросилось. Еще потыкал - опять никакого эффекта. С примерно третьего раза догадался попробовать, может мигание - это и есть эффект, и правда, оказалось что открылся замок на коробочке с кепочкой. Подошедший положить новую кепочку дядечка подтвердил, что да, мигание означает, что головоломка решена. В чем заключалась головоломка - так и не знаю.

Из прочих нанимающих - Мета, Гугель, отдельно Вэймо, Тесла (с машинами и человекоподобными роботами), ИБМ, Алибаба. Алибаба заинтересована в найме в Китае, и вообще почти весь стенд у них был на китайском. Ну да при наличии такого количества китайцев на конференции это не удивительно.

Заметил две русскоязычных конторы. Одна - бывший амстердамский Яндекс, нынче отколовшийся. Вторая не знаю откуда, но у всего персонала были русские имена. С другой стороны, вроде я взял от них бумажку, и контора видимо оказалась iris.ai, и на вебсайте у них имена больше болгарские и украинские.

Вообще-то NeurIPS - то еще вокнутое учреждение. В нем весь первый день отведен под affinity groups - типа "LGBT in ML", сгруппированным по половым и географическим идентичностям. Ну, правда, параллельно есть выставка индустриальных спонсоров.

Еще там проводят по два выступления приглашенных лекторов в день - к тому, которое в 8:30 я обычно не успевал, а которое после обеда я обычно ходил смотреть. В одном из выступлений была тетенька по имени Розалинд Пикард из чего-то типа МИТ, вообще с довольно унылой лекцией. Она сначала втирала про обнаружение эпилепсии умными браслетами (у нее есть про них компания), а потом стала рассуждать про этику при искусственных интеллектов.

И вот среди перечисления что такое хорошо, что такое плохо, у нее вылезло как ей китайский студент рассказал, что их в университете не учат, что жульничать нехорошо, от этого выходит жульничество (у меня не зарегистрировалось, рассказал ли это студент в качестве объяснения своему жульничеству или пожаловался на сородичей), но конечно большинство китайских студентов - честные люди. Я аж удивился, как вокнутая церковная цензура пропустила такое богохульство.

Тут надо заметить, что китайцы в АИ представлены очень сильно - и коммуняцко-континентальные, и тайваньские, и сигнапурские, и американско-канадские, и европейские. На конференции их было очень много, а уж из выставляемых работ - я бы навскидку сказал, что процентов 70. Вместе с тем коммуняцкое правительство активно продвигает свое влияние. Я помню, как на заседании местной секции ИЕЕЕ тетенька китайского происхождения сначала рассказывала про русских хакеров,а потом про "из страны, которую я не буду называть", хотя всем было совершенно очевидно, что страна эта - Китай. Не знаю, она еще и в их китайском Сколкове на зарплате, что-ли, что так блюдёт линию партии?

Ну и оказалось, что выступление не было прецензурировано. Как открылись вопросы, сразу какая-то китайская тетенька пошла возмущаться, что чего это за обидные обвинения. Розалинда пыталась объяснить по-человечески, что это прямые сведения из большого центрального и почтенного китайского университета (какого - не сказала). Но тут дальше пошло бурление говен. Разослали всем участникам письма про "инцидент расизма, который мы осуждаем", потом еще в конце на суммарно-адимнистративном заседании зачитывали извинения. На вопросы на эту тему, правда, дальше отвечать не стали, выбрали другие вопросы.

Ну вообще да, с учетом знания жульничества в нашем совке, жульничество в китайском совке совершенно неудивительно. Тем более если это жульничество во славу совка и продвижения родного университета на мировую арену, то вообще официально нужное, только чтоб не поймали. Прикольно если это было объяснение пойманного на жульничестве, что это не я, а все общество виновато, которое меня не учило не жульничать. С другой стороны, вся "бизнес-этика" в американских университетах - это попытка насадить в обществе тихой сапой коммуняцкую мораль, поскольку этика там излагается сильно коммуняцкая, с глобалвормингом и гомосексуалистическими правами трудящихся. Во славу которых, конечно, тоже жульничать хорошо. Еще чуть-чуть додавить - и будет практически наш давешний "научный коммунизм".

Я нынче был на конференции NeurIPS (я слышал варианты произношения "нёрпс" и "нюрипс") и у меня много впечатлений. Раз уж тут https://eugenegp.dreamwidth.org/613920.html спрашивают про автомобильное самоуправление, начну с него.

Из спонсоров в этой области присутсвовали Тесла, Вэймо, и кто-то мелкий, так что оно если и вырождается, то еще не совсем выродилось. Тесла демонстрировала кино с автоматическим вождением во дворе, полном белых прицепов! (Это, если кто не знает, предмет типовых аварий, не замечаемый тесловым автопилотом).

Из докладов (постеров) мне запомнилось несколько. То есть, для контекста, конференция про все на свете в нейротематике, от собственно медицинских нейронаук (но их нынче мало, говорят раньше было около половины) до искусственных интеллектов. На ней в этот раз опубликовалось 4 тысячи с мелочью работ в виде постеров с приставленными к ним авторами (выставлялись по чуть меньше 800 штук за раз на трехчасовой интервал, в двух залах, всего 6 интервалов), и особо ценным давали выступить с устным докладом. К счастью, в поисках интересного среди всего этого помогает аппа, где можно заранее просмотреть список и пометить, что хочешь посмотреть. Ну, и иногда просто методом случайных блужданий. То есть, я уверен, что в реальности там было всего больше, но я его так или иначе не увидел. Если кому интересно полистать, https://neurips.cc/search?q=autonomous+driving+2024

Вообще модели для вождения, насколько я понимаю, попадают в категорию Graph NN, хотя есть и попытки нововведений типа Spiking NN (что оно из себя представляет, не читал).

Теперь про запомнившееся:

A Simulation Benchmark for Autonomous Racing with Large-Scale Human Data
https://neurips.cc/virtual/2024/poster/97499

Это не нормальное вождение, а гонки на симуляторе (несколько вариантов видеоигр и более профессиональных симуляторов). Причем гонки нэчэсные: человеку приходится получать все ощущения через изображение и симуляцию руля, а в НН скармливается еще и сырая информация об ускорениях. И не совсем гонки, а езда по трассе без соперников. Люди все равно побеждают, но естественно далеко не любые люди. То есть, сами авторы тут даже не разрабатывали модели, а сравнивали несколько чужих моделей и людей.

Второй я найти не могу. Видимо, наткнулся на него случайно, и решил, что и так запомню, но не запомнил. Или возможно там что-то сглючило в системе - у меня была пара случаев, когда на месте искомых постеров оказывались совсем другие постеры. Так или иначе, люди разработали метрику оценки тракеторий от хороших до плохих (приводящим к съезду с дороги или авариям). Метрика, кстати, по моим ощущениям неправильная, поскольку правильная метрика должна быть по сути полиномом с бесконечной переменной - например, все траектории со съездом с дороги должны быть бесконечно хуже траекторий без этого, то есть их вес иметь коэффициент в минус бесконечность, траектории с аварией еще хуже - минус бесконечность в квадрате, траектории с заведомым переезжанием кого-то - минус бесконечность в кубе. Чтобы была возможность сравнивать траектории в плохом классе если более хороших нет, но заведомо отбрасывать их если есть более хорошие. У них же метрика со значениями от 0 до 1, с критериями отсутствия аварий, отсутствия съезда с дороги, продвижения вперед к цели, и я не понял, есть ли у них гарантия, что траектория без аварий всегда окажется лучше траектории с большим продвижением к цели, но в результате аварией. Люди сетовали на то, что во-первых публично доступных данных для тренировки мало (бизнесы своими данными не делятся), во-вторых практически все время траектории тривиальны, сложные случаи, интересные для тренировки, случаются очень редко, и им приходится создавать симуляции. Вообще, кстати, симуляции сцен для автономного вождения - похоже, популярная тема и в академии и в индустрии. Я ему посоветовал посмотреть на гонки у людей с другим постером - там постоянно происходит выбор траектории на пределе возможностей и важно продвижение к цели, но он мой совет не оценил, это, говорит, другое.

Третий я тоже найти не могу, там было что-то про предотвращение атак на этапе обучения сетей, с примером в виде автономного вождения - типа, враги проберутся и подсунут обучательные примеры, где знак стоп со специальной наклейкой не воспринимается как стоп. Я это воспринял как возможность поспрашивать специалиста - а что, не научились ли массово рассматривать сцену в нескольких разрешениях (ну вот типа с примером где изменением нескольких пикселей кот превращается в самолет, если картинку одновременно рассматривать в низком разрешении, то эти измененные врагами пиксели там станут невидимыми и атака не пройдет). Оказалось, нет, никто про такое не слышал (еще в одном месте спрашивал, тоже никто не слышал). Второй интересный момент с моей точки зрения заключается в том, что знаки "стоп" и "уступите дорогу" специально сделаны уникальной формы для того, чтобы их можно было различить даже сзади или если они полностью облезли или закрашены. Логично было бы тренировать сети на такое, специально перекрашивая эти знаки для тренировки, чтобы распознавалась именно форма. Но нет, про такое тоже не слышали. Третий момент заключается в том, что если есть небольшое количество примеров (вброшенных врагами или так просто), которые сильно отличаются от других, тренировка на них пойдет тяжело. Логично было бы такие редкие примеры просматривать людьми - они скорее всего окажутся ошибками пометки, но и вброшенне врагами примеры вылезут там же. Но это тоже не массово известная идея. По крайней мере, в академии.

Is Your LiDAR Placement Optimized for 3D Scene Understanding?
https://arxiv.org/pdf/2403.17009

Тут я не особо понимаю, но интересные моменты, что (а) люди все еще активно используют лидары, а не только видеокамеры, и (б) похоже, что у них вышло, что оптимальное расположение лидаров - асимметричное.

Из зивана приехало:

ИИ научили решать задачки международной математической олимпиады, и он их нарешал на уровне серебряного медалиста.

<<
https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

AlphaProof is a system that trains itself to prove mathematical statements in the formal language Lean. It couples a pre-trained language model with the AlphaZero reinforcement learning algorithm, which previously taught itself how to master the games of chess, shogi and Go.

Formal languages offer the critical advantage that proofs involving mathematical reasoning can be formally verified for correctness. Their use in machine learning has, however, previously been constrained by the very limited amount of human-written data available.

In contrast, natural language based approaches can hallucinate plausible but incorrect intermediate reasoning steps and solutions, despite having access to orders of magnitudes more data. We established a bridge between these two complementary spheres by fine-tuning a Gemini model to automatically translate natural language problem statements into formal statements, creating a large library of formal problems of varying difficulty.

When presented with a problem, AlphaProof generates solution candidates and then proves or disproves them by searching over possible proof steps in Lean. Each proof that was found and verified is used to reinforce AlphaProof’s language model, enhancing its ability to solve subsequent, more challenging problems.

...

I tried this year’s problems while I was at the International #Math Olympiad myself. It took me hours. I imagine that when people saw Sputnik overhead in 1957, they might have had the same feeling that I do now.

I have been anticipating this level of #AI coming, but thought it was still years away. My interest is not in making AI better, but in what we need to do to help all the people. That’s below.

But first, context: IMO problems are specifically selected to be non-standard. For the previous 10 years, I served as the national coach of the USA International Math Olympiad team (https://www.quantamagazine.org/po-shen-loh-led-the-u-s...). During the IMO itself, the national coaches meet to select the problems that will appear on the exam paper.
One of the most important tasks of that group is to avoid problems that have similarity to problems that have appeared anywhere before. During those meetings, national coaches would often dig up an old obscure math competition, on which a similar problem had appeared, and show it to the group, after which the proposed problem would be struck down.

So, this AI breakthrough is totally different from #GPT being able to do standardized tests through pattern-matching. It strikes at the heart of discovery. It's very common for students to hit a wall the first time they try IMO-style problems, because they are accustomed to learning from example, remembering, and executing similar steps.

Take a look at the 6 problems for yourself, and you’ll see that they are way beyond any curricular standards: https://www.imo-official.org/year_info.aspx?year=2024. And even though the AI took more than the normal time limit, it’s only a matter of time before the software and hardware speed up, so the sheer fact that it was able to solve the problems at all is a major advance. The hard part of solving these problems isn’t calculation. It’s inventing a solution pathway. Most people would get 0 points even if they had a year to think.
>>

Это наконец-то реализация комбинированного интеллекта. Идея по сути довольно простая: вот, скажем, считать до 100 - для человека довольно сложная задача, дети ей учатся годами. А компьютер может это делать очень легко и эффективно. Поэтому пытаться научить компьютерный ИИ арифметике - глупо и неэффективно. От этого происходят не только тормоза, но и косяки в арифметике ("галлюцинации"). Вместо того надо сращивать ИИ и родную реализацию арифметики в компьютере, по сути мозг со встроенным нейроинтерфейсом к калькулятору. То же самое относится к многим другим областям - грамматики, логические доказательства, и прочее.

Мне уже лет 10 как непонятно, почему так не сращивают. Я тогда увидел пример, который пытается научить ИИ находить соответствие количества открывающих и закрывающих скобок, с попыткой разобрать, что там получилось в индивидуальных нейронах - типа, этот реагирует на открывание, этот на открывание, а тут считается баланс, но кривовато. И подумал, что было бы очень логично отдать подсчет в отдельную арифметическую логику, к которой обращаться из нейронной сети.

И вот наконец-то на практике сростили.

Кто знает, что еще нынче порушит глобальное потепление? Новое достижение - оно замедлило вращение Земли! Все leap seconds - из-за него, проклятого!

P.S. Оказывается, не только замедлило, но и одновременно ускорило!

Нынче в новостях: в инфляции по еде виноват не Бидон, а (попробуйте догадаться....) - тадам! - глобальное потепление!
Между прочим, не просто ложь, а особо наглая: как давно показано, обещанные эффекты глобального потепления повышают сельскохозяйственную продуктивность и удешевляют еду.

Нынче в новостях история о том, как Вояджер-1 сумел послать назад по радио дамп памяти. При этом пишут, что он нынче на расстоянии 24.4 миллиарда километров, и удаляется со скоростью 61155 км/ч. Но почему, извиняюсь, не 24.4 ~~триллионов метров~~ тераметров и скорость не 61.116 мегаметров в час?

Обнаружил журналы, которые лежали непрочитанными около 10 лет, перед тем как выбросить, взялся просмотреть.

Узнал, что около 10 лет назад выиграли приз Сикорского на мускульный вертолет: подняться на высоту 10 футов и провисеть там минуту, не сдвигаясь при этом больше 33 футов в сторону. Наука(тм) до того Доказала, что это невозможно, но люди, построившие этот вертолет (авиационные инженеры), не читали ту Науку.

Они его изготовили в виде эпических размеров квадрокоптера, с огромными, но медленными винтами. Что интересно, я сейчас поискал, и оказалось, что у них шло близкое соревнование по времени (вплоть до дней) с другим проектом, который тоже построил квадрокоптер. Почему-то в статье этот аспект напрочь отсутствовал. А там было полно драмы: другой проект сделал рекордную попытку первым, и только чуть не уложился по высоте.

Оказывается, в субботу 14-го октября в Америке будет видно солнечное затмение. Полное (ну, не совсем полное, солнце останется тонким колечком вокруг луны) затмение пойдет линией от южного Орегона до Техаса. Но на всем западном берегу тоже будет видно почти полное затмение. Начнется чуть позже 8 утра, и максимум будет чуть позже 9 утра. Теперь главное - чтоб сплошных облаков не было.

- Are you an evolutionist or a creationist?
- Both, of course! [...] I see no conflict. God created the cosmos in a week and Satan caused it to evolve.

Это из книжки Пирса Антони "On a pale horse", дело происходит в мире, где магия существует одновременно с наукой.

Profile

July 2025

S	M	T	W	T	F	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Syndicate

Page Summary

Active Entries

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Jul. 5th, 2025 11:46 am

SB

Entries tagged with учоные

логарифмическое представление

ИИ и формализмы

watermarks

мозг супротив нейросети

Llama

ассоциативная память

исследования нутрей нейросетей

мозговой интерфейс

вообще про NeurIPS

самосознание ИИ

спонсоры на NeurIPS

случай на конференции

самоуправление

нейроинтерфейс

и часовню - тоже оно

нашли объяснение

метры

квадрокоптер

затмение

вера в эволюцию