gonzo_ml | Unsorted

Telegram-канал gonzo_ml - gonzo-обзоры ML статей

22000

Авторы: Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика. Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Subscribe to a channel

gonzo-обзоры ML статей

16. Эволюция человеческой личности. Бессмертие человеческой личности не означает ее застывшей неизменности. Это может быть понято по аналогии с организацией на уровне макромолекул. Контролеры биологической эволюции — это гены, и они бессмертны. Однако они не остаются неизменными, а непрерывно изменяются вследствие мутаций, так что хромосомы человека, например, весьма и весьма отличаются от примитивных хромосом вирусов. Кибернетически бессмертные личности могут меняться и развиваться во взаимодействии с другими личностями сверхсущества, а также при взаимодействии между сверхсуществами, ибо плюрализм необходим для эволюции, и человечество, надо надеяться, будет пробовать различные виды интеграции, создавая различные сверхсущества. Те человеческие личности, которые возникнут в результате всех этих процессов, будут, вероятно, отличаться от нас так, как наши хромосомы отличаются от вирусов. Но определяющий принцип личности останется, по-видимому, неизменным, как остался неизменным принцип работы генов.

17. Как может происходить интеграция. Следует ли ожидать, что все человечество объединится в единое сверхсущество? С эволюционной точки зрения это и нежелательно, и маловероятно. Жизнь можно сравнить с пирамидой: вершина поднимается ввысь и одновременно расширяется основание. Хотя человечество и осуществляет контроль над биосферой, наши тела составляют лишь небольшую часть от всей биомассы. Основную ее часть все еще составляют примитивные организмы, такие, как мы находим в планктоне. Осуществление кибернетического бессмертия потребует, несомненно, чем-то пожертвовать; для начала, надо будет решительно сосредоточить усилия на дальнейшем развитии науки. Совсем не очевидно, что большинство людей в большинстве сообществ захотят поставить перед собой такую цель. Воля к бессмертию, как и всякая человеческая черта, широко варьируется от человека к человеку. Поскольку интеграция может быть лишь добровольной, надо ожидать, что только часть, вероятно небольшая, человечества образует сверхсущества, большинство же останется в состоянии “человеческого планктона”.

18. Интеграция на Космической сцене. Однако именно интегрированному человечеству суждено освоить Космическое пространство. Неинтегрированная часть не может конкурировать с нею; она может лишь поставлять материал для сверхсуществ. Без интеграции человечество не может претендовать на какую-либо серьезную роль в Космосе. Системные единицы, которые принимают решения, должны получать вознаграждение за свои решения; иначе они никогда не примут их. Попробуйте представить себе картину “человеческого планктона”, набитого в ракеты, чтобы достичь отдаленной звезды через десять или двадцать поколений. Играть роль в Космосе могут лишь существа, продолжительность жизни которых исчисляется Космическими же временами.

Читать полностью…

gonzo-обзоры ML статей

7. Социальная интеграция. Возникновение человеческого разума тесно связано со следующим, в настоящее время протекающим метасистемным переходом, а именно: интеграцией человеческих существ в человеческое общество. Человеческое общество качественно отличается от сообществ животных благодаря способности людей создавать и развивать (а не только использовать для передачи сообщений) язык. Язык выполняет две функции: обмен информацией между индивидуумами и создание моделей действительности. Эти две функции на уровне социальной интеграции аналогичны функциям нервной системы на уровне интеграции клеток в многоклеточный организм. В материале языка люди создают новые символьные модели действительности (в частности, научные теории), которых не было создано природой на уровне нашей нервной системы. Язык — это как бы продолжение человеческого мозга. Более того, это единое продолжение мозга всех членов общества. Это коллективная модель действительности, которая совершенствуется всеми членами общества и передается от поколения к поколению. Давно отмечено, что человеческое общество можно рассматривать как единый организм. Тело этого организма есть совокупность всех людей и ими сделанных вещей. Его “физиология” — это культура общества и, прежде всего, язык.

8. Эра разума. Возникновение человеческого общества знаменует начало новой эры Универсальной Эволюции. Если раньше единственным механизмом эволюции был естественный отбор на базе мутаций генофонда, то теперь мы видим несравненно более быстрый процесс: эволюцию культуры человеческого общества. Вариация и селекция по методу проб и ошибок происходят теперь как результат сознательной воли человека. Двигателем эволюции мироздания становится творческая человеческая личность. Эволюция культуры, прогресс науки и техники перехватывают инициативу у биологической эволюции.

9. Глобальная интеграция. Пытаясь заглянуть в будущее, мы предсказываем, что социальная интеграция будет продолжаться в двух направлениях, которые можно назвать шириной и глубиной. С одной стороны, интеграция мировых культур приведет к образованию единого мирового сообщества и мирового правительства с ответственностью за экологию Земного шара. Этика кибернетического мировоззрения требует, чтобы каждый из нас заботился о сохранении вида и экосистемы и о максимизации потенциала для следующих шагов эволюции и интеграции.

10. Человеческие сверхсущества. С другой стороны, мы предвидим продолжение интеграции “в глубину”, а именно: физическую интеграцию индивидуальных нервных систем с созданием потенциально бессмертных человеческих сверхсуществ. Опираясь на известный эволюционно-биологический принцип: онтогенез повторяет филогенез, мы можем предположить, что человеческие индивидуумы будут рождаться и жить в молодом и зрелом возрасте подобно тому, как они живут сейчас, а затем принимать или отвергать интеграцию в сверхсущество. Таким образом, физическая интеграция индивидуумов приходит не на смену индивидуальной жизни, как мы ее знаем сейчас, а в дополнение к ней.

Читать полностью…

gonzo-обзоры ML статей

The Super Weight in Large Language Models
Mengxia Yu, De Wang, Qi Shan, Colorado Reed, Alvin Wan
Статья: https://arxiv.org/abs/2411.07191
Код: https://github.com/mengxiayu/LLMSuperWeight

Очень прикольная работа про то, что внутри LLM можно найти один единственный вес, зануляя который мы обрушиваем качество работы модели в пропасть. Такие параметры авторы называют супер весами (super weights) и предлагают метод их нахождения за один forward pass.

Внутри обученных LLM находится группа весов-аутлаеров с большой магнитудой, они могут составлять порядка 0.01% от всех весов модели, что в случае миллиардных моделей всё равно сотни тысяч. Это было известно ранее. В текущей работе показывают, что внутри этой группы находится один единственный вес (тот самый super weight, SW), не обязательно самый большой, важность которого превышает суммарную важность тысяч других аутлаеров. Он необходим для качества, без него LLM не может генерить нормальный текст. Перплексия вырастает на несколько порядков, а точность на zero-shot задачах падает до рандома.

Ранее (https://arxiv.org/abs/2402.17762) были найдены супер-активации, критичные для качества. Они существуют в различных слоях, имеют константную магнитуду и всегда обнаруживаются в одинаковой позиции несмотря на вход. Текущая работа находит, что канал активации совпадает с оным для супер веса и сперва активация обнаруживается сразу после супер веса. Прунинг этого супер веса значительно уменьшает активацию, так что вероятно активация вызвана им, а не просто скоррелирована. Такие активации называются супер активациями (super activations, SA).

Предыдущая работа объясняла супер активации через bias terms, но не объясняла как они получаются и почему на одних и тех же местах. Сейчас авторы эмпирически нашли, что до down проекции (down_proj) произведение Адамара (Hadamard product) gate и up проекций (gate_proj, up_proj) создаёт относительно большую активацию. Супер вес далее усиливает её ещё и даёт супер активацию.

Напомню, что MLP блок в Ламе выглядит так:

out = down_proj( act_fn(gate_proj(input)) x up_proj(input) )

SW можно найти, анализируя спайки в распределениях входов и выходов down_proj. Для этого достаточен прямой проход с одним промптом. Авторы нашли супер веса для Llama (7B,13B,30B), Llama 2 (7B,13B), Mistral-7B, OLMo (1B,7B), Phi-3.

Провели эксперименты по обнулению SW, в том числе с восстановлением SA до исходного значения, чтобы проверить влияние SW на другие активации. Это восстанавливает 42% потери, то есть влияние SW на качество выше, чем просто через SA.

По анализу 500 различных промптов из Lambaba validation set видно, что при убирании SW вероятности стоп-слов сильно возрастают (а обычные слова соответственно занижаются). Для “the” это 2×, для “.” -- 5×, и для “,” -- 10×. То есть наличие SW как бы подавляет стоп-слова и позволяет генерировать осмысленный текст.

Другой интересный эксперимент скейлит супер веса с коэффициентами от 0 до 3 (где оригинальный режим работы соответствует значению 1) и оказывается, что при увеличении SW качество модели ещё немного возрастает. Это забавный результат.

Имея это знание, можно предложить специальный метод квантования: Super-outlier aware quantization. Стандартные механизмы квантизации могут быть недостаточно хорошими, так как аутлаеры искажают распределение, влияя на размер шага и увеличивая ошибки квантования. Здесь под super outliers подразумеваются и SW, и SA. Предложенные методы восстанавливают SW и SA после квантований с клиппингом и заменами на медианное значение. Это всё работает лучше дефолтных методов, главный вывод -- надо защищать супер веса. В статье есть подробный разбор экспериментов, кому интересно поглубже. Также новый метод меньше теряет в качестве с увеличением размера блока.

Прикольный результат в общем. Это всё несколько перекликается с темой про лотерейные билеты (/channel/gonzo_ML/21), там внутри большой сети обнаруживалась сильно разреженная подсеть, обучая которую можно было достигать качества исходной сети (или даже выше). Интересно, входят ли супер-веса в лотерейный билет? Наверняка.

Читать полностью…

gonzo-обзоры ML статей

О, Andrew Ng анонсировал библиотеку с универсальными коннекторами к LLM

Announcing new open-source Python package: aisuite!

This makes it easy for developers to use large language models from multiple providers. When building applications I found it a hassle to integrate with multiple providers. Aisuite lets you pick a "provider:model" just by changing one string, like openai:gpt-4o, anthropic:claude-3-5-sonnet-20241022, ollama:llama3.1:8b, etc.

pip install aisuite

Open-source code with instructions: https://github.com/andrewyng/aisuite

Thanks to Rohit Prsad, Kevin Solorio, Ryan Prinz, Jeff Tang and John Santerre PhD for helping build this!

Читать полностью…

gonzo-обзоры ML статей

Вот вам зыкое субботнее.

Пока тут идут разговоры про возможную нехватку энергии для датацентров и AI и необходимость строить ядерные реакторы, некоторые смотрят глобальнее! Например, предлагают, как выйти за лимиты шкалы Кардашёва:

"Civilizations like this that consume stars, which we call 'stellivores,' would be able to expand in energy use beyond the luminosity limits of the Kardashev scale," said Haqq-Misra. "We are not at this level as a civilization on Earth yet, but we can at least think about the possibility that harvesting mass and converting it into energy (as Einstein's famous equation describes) provides a way for a civilization to reach energy use scales beyond those envisioned by the Kardashev scale."

Популярно:
New study examines how extraterrestrial civilizations could become 'stellivores'
Arxiv:
Projections of Earth's Technosphere: Luminosity and Mass as Limits to Growth

Так что AI будет чем заняться. Может где-то уже и занимается. Вон, в 1952-м спёрли три звезды и так и не вернули...

Популярно:
In 1952, a group of three 'stars' vanished—astronomers still can't find them
Arxiv:
A bright triple transient that vanished within 50 minutes


Blue Marble Space Institute of Science вообще отжигает. Вот вам ещё забористое:

Projections of Earth's technosphere. I. Scenario modeling, worldbuilding, and overview of remotely detectable technosignatures
Jacob Haqq-Misra, George Profitiliotis, Ravi Kopparapu
https://arxiv.org/abs/2409.00067

Читать полностью…

gonzo-обзоры ML статей

Кажется, назревает опенсорсная 1.4T модель.

Причём с crowdsourced обучением и токенизацией.

https://cointelegraph.com/news/near-plans-to-create-world-s-largest-1-4-t-parameter-open-source-ai-model

Читать полностью…

gonzo-обзоры ML статей

С другой стороны и диффузия может быть рассмотрена с точки зрения эволюции. Во время обучения точки данных зашумляются и модель учится предсказывать этот добавленный шум для того, чтобы обратить процесс вспять (кстати, над диффузионной машиной времени никто пока не работает?). В фазе сэмплинга модель стартует с точек из Гауссова распределения и инкрементально их обновляет через денойзинг, где сэмплы без шума являются идеалом. В этом случае направленный денойзинг может быть интерпретирован как направленный отбор, и каждый шаг добавляет небольшой шум (со знаком минус?) по аналогии с мутациями. Это всё напоминает эволюционный процесс и алайнится с идеями, интерпретирующими геном как параметризацию в латентном пространстве мультимасштабного генеративного морфогенетического процесса, а не просто чертежа организма. Если эволюционный процесс обратить, то эволюционировавшая популяция высококоррелированных и высокоприспособленных индивидов будет постепенно растворяться, аналогично прямому (forward) диффузионному процессу.

По аналогии с энергией и вероятностью в статфизике, эволюционные задачи можно связать с генеративными через отображение фитнеса в плотность вероятности: высокий фитнес соответствует высокой плотности вероятности. Авторы в итоге математически выводят новый алгоритм под названием Diffusion Evolution -- эволюционную оптимизационную процедуру, основанную на итеративной коррекции ошибок по аналогии с диффузионными моделями, но не полагающуюся на нейросети.

Вот его ключевые особенности:
1. Начинаем с популяции случайных решений (как с шума в диффузионных моделях)
2. На каждом шаге:
* Каждое решение оценивается фитнес-функцией
* Для каждого решения оценивается его "очищенная от шума" версия путем взвешенного усреднения с соседними решениями (больший вес у более успешных соседей)
* Решение делает небольшой шаг в сторону своей "очищенной версии" и получает небольшую случайную мутацию
3. По мере продвижения:
* Радиус поиска соседей постепенно уменьшается (как уменьшение шума в диффузионных моделях)
* Это позволяет сначала исследовать пространство решений глобально, а затем локально оптимизироваться

Ключевое преимущество алгоритма в том, что он может находить и поддерживать множество различных хороших решений одновременно, в отличие от многих классических эволюционных алгоритмов, которые обычно сходятся к одному решению.

С новым алгоритмом провели несколько экспериментов.

В первом эксперименте использовались пять разных двумерных ландшафтов приспособленности: Rosenbrock и Beale с одним оптимумом, и Himmelblau, Ackley, и Rastrigin со множественными. Сравнивались с другими эволюционными стратегиями: CMA-ES, OpenES и PEPG.

Эволюцию запускали 100 раз для каждого метода. В каждом эксперименте была популяция размером 512 и делалось 25 итераций (кроме OpenES, где понадобилась 1000 шагов до сходимости). Diffusion Evolution находит качественные и разнообразные решения, особенно на последних трёх ландшафтах, где остальным методам сложно и они скатываются к одному решению.

В эволюционных алгоритмах оценка фитнеса часто самая тяжелая операция, поэтому авторы попробовали уменьшить число итераций, позаимствовав cosine scheduling из работ про диффузионки. Это сильно уменьшило количество оцениваний приспособленности.

Читать полностью…

gonzo-обзоры ML статей

Diffusion Models are Evolutionary Algorithms
Yanbo Zhang, Benedikt Hartl, Hananel Hazan, Michael Levin
Статья: https://arxiv.org/abs/2410.02543
Код: https://github.com/Zhangyanbo/diffusion-evolution

Анатолий Левенчук жалуется, что AI-блогеры опопсели (https://ailev.livejournal.com/1741494.html). Да, что-то в этом есть, мы опопсели. Мне тоже это не очень нравится, но про LLM и анонсы продуктов писать, конечно, проще, чем про фундаментальное. LLM нас всех совратили. Ну и кстати не только нас, многие рисёчеры (не буду показывать пальцем), что раньше выдавали классные статьи про новые архитектуры и разные другие прорывные вещи в ML, теперь клепают статьи про LLM. Один Лекун, молодец, держится. Ну ладно, не один, конечно, но всё равно молодец (хоть я и не согласен с некоторой его аргументацией). Давайте вернёмся к хардкору. Тем более, что он есть!

Интересное заявление от Майкла Левина (писали про него, например, тут /channel/gonzo_ML/1042) и ко: диффузионные модели -- это эволюционные алгоритмы. Как так?

В биосфере по крайней мере два процесса способны к генерализации и созданию новизны: эволюция (медленный процесс адаптации к среде в течение поколений организмов через естественный отбор) и обучение (быстрый процесс, позволяющий индивидам приобретать знание и генерализовать субъективный опыт в течение жизни). В последнее время стало особенно много работ про связь эволюции и обучения, от старого доброго Хинтона с “How Learning Can Guide Evolution” (1987) (https://content.wolfram.com/sites/13/2018/02/01-3-6.pdf) до Ванчурина, Вольфа, Кацнельсона, Кунина с “Toward a theory of evolution as multilevel learning” (2022) (https://www.pnas.org/doi/10.1073/pnas.2120037119) и Уотсона (не того) и Левина (того) с “The collective intelligence of evolution and development” (2023) (https://journals.sagepub.com/doi/10.1177/26339137231168355). Текущая работа утверждает, что конкретный класс диффузионных моделей, где генеративная модель занимается последовательным стохастическим денойзингом, может быть понят через эволюционный процесс, выполняющий естественный отбор, мутации и репродуктивную изоляцию.

Читать полностью…

gonzo-обзоры ML статей

softmax is not enough (for sharp out-of-distribution)
Petar Veličković, Christos Perivolaropoulos, Federico Barbero, Razvan Pascanu
Статья: https://arxiv.org/abs/2410.01104

Вернёмся к тёплым ламповым обзорам, до которых NotebookLM пока не дотягивает. Сегодня любопытная работа про глубокие внутренности.

Как известно, в дефолтном механизме внимания внутри трансформера используется softmax, через который считаются итоговые веса внимания. Софтмакс переводит вектор логитов с произвольными значениями в вероятностное распределение, где всё суммируется в единицу. Также в софтмаксе может использоваться температура для модификации этого распределения (хорошая визуализация температуры тут https://lukesalamone.github.io/posts/what-is-temperature/).

Софтмакс используется много где, часто на выходах классификаторов, сейчас часто и внутри трансформера. Некоторые исследования связывают его успех с возможностью моделирования схем, в смысле circuits (https://distill.pub/2020/circuits/zoom-in/), внутри трансформера, что полезно для интерпретируемости.

В текущей работе авторы смотрят на режим out-of-distribution, когда обученной модели приходится работать на данных с распределением, отличающимся от встречавшегося в обучении, что особенно важно для reasoning engines. И здесь с софтмаксом проблема.

Возьмём модельный кейс, простую архитектуру с одной головой внимания. Задача -- предсказание элемента с максимальным значением в наборе (max retrieval task). Фичи элемента обрабатываются MLP перед тем, как поступить в блок внимания, а после внимания отправляются в выходной MLP, который делает финальное предсказание. Обучают на множествах размером не более 16 элементов. На инференсе проверяют на размерах сильно больших, до 2^11. Визуализация весов внимания показывает, что всё хорошо на размерах сравнимых с обучением, но дальше картинка портится -- распределение из резкого быстро размывается в сторону равномерного. Эксперимент на обученной Gemma 2B воспроизводит ситуацию, с ростом входа растёт энтропия (как прокси для sharpness) голов. В подтверждение доказывают лемму и теорему о том, что с ростом количества входных элементов и с фиксированным размером входного словаря софтмакс и должен размываться.

Чтобы make softmax great again исправить ситуацию и сделать софтмакс снова резким предлагают использовать адаптивную температуру. Помните, чем ниже температура, тем ближе софтмакс к hard attention, максимально резкому распределению. Но с нулевой температурой трансформеры так себе работают. Применение нулевой температуры к уже обученному трансформеру тоже так себе. Трансформерная голова, которая выучила получать резкое распределение, делает это увеличивая магнитуду весов. А большие магнитуды способствуют оверфиттингу и увеличению вероятности выбрать неправильный токен. Установка температуры в ноль здесь понизит точность.

Мы можем захотеть скорее сделать входные коэффициенты более резкими, и здесь авторы предлагают адаптивную температуру, которая зависит от энтропии входных коэффициентов. Понижение температуры будет монотонно понижать и энтропию.

Чтобы собрать функцию для адаптивной температуры, сначала сгенерили датасет входов, для которых максимальный элемент не получает самую большую вероятность. Нашли при каком значении температуры она при этом максимизируется, и вписали полином четвёртой степени для определения температуры по энтропии. Полученную функцию температуры используют во время инференса. Полученная функция используется как drop-in замена обычного jax.nn.softmax().

Читать полностью…

gonzo-обзоры ML статей

Подборка каналов об искусственном интеллекте и машинном обучении от издания «Системный Блокъ»

Data Science, машинное обучение, искусственный интеллект — cегодня о них пишет каждый. Но как найти тех, кто действительно разбирается? «Системный Блокъ» собрал каналы экспертов в сфере ИИ, DS и ML

— @ai_newzэйай ньюз
Модели для будущих робо-гуманоидов от Nvidia, знакомство с основателями стартапа Mistral, трюки в промптинге языковых моделей и списки книг для изучения машинного обучения — в канале найдете новости из сферы ИИ и советы по входу в неё. Автор канала Артём получил PhD в лаборатории университета Гейдельберга, где сделали Stable Diffusion, работает Staff Research Scientist в команде LLaMA в одной из крупнейших IT-компаний мира и пишет о своем опыте

— @seeallochnayaСиолошная
Понятные разборы исследований по нейросетям, охватывающие темы от воздействия на образование до разборов внутренностей LLM. Обзоры новостей, которые влияют на будущее индустрии ИИ: от экономических аспектов до ядерной энергетики для подпитки датацентров. Канал ведёт Игорь Котенков — руководитель ИИ-отдела в международной компании; в прошлом занимался машинным обучением в AliBaba, Яндексе и X5 Retail; автор множества популярных статей-разборов и лекций, подходящих любой аудитории

— @gonzo_MLgonzo-обзоры ML статей
Интересны обзоры специализированных статей об искусственном интеллекте и машинном обучении, анонсы и анализ больших языковых моделей? Этот проект — для вас! Среди последних публикаций: отражение малых языков в больших языковых моделях и системах машинного перевода, лекции о проблемах сознания и тезисы отчета о состоянии сферы ИИ. Канал ведут CTO Intento Григорий Сапунов, ex-руководитель разработки Яндекс-Новостей, и Алексей Тихонов, ex-аналитик в Яндексе, автор Яндекс-автопоэта и Нейронной обороны

— @rybolos_channelKali Novskaya
Применение языковых моделей в науке, история GPT в стиле Хармса, подборки курсов по NLP, а также анализ угроз открытым данным, на которых обучаются языковые модели. Канал ведет Татьяна Шаврина — лингвист, менеджер исследовательской команды в LLAMA, большая сторонница опенсорса и открытых данных. Она рассказывает о современных LLM и NLP-исследованиях, важности открытых технологий, этике искусственного интеллекта и сложных вопросах интеллектуальной собственности

— @boris_againБорис опять
Здесь вы найдете материалы об IT и программировании, поиске работы в Machine Learning’е, обзоры исследований в области ИИ. Автор работает в eBay, преподает машинное обучение, делится профессиональным и личным, шутит и философствует. Например, рассказывает, как развивать самоконтроль, берет интервью у коллег о карьере в технологическом секторе и делает подборки русскоязычных LLM

— @tech_priestessТехножрица
Канал для тех, кому интересны математика, разработка и исследования машинного обучения. Создательница проекта работает старшим академическим консультантом в Huawei и рассказывает об исследованиях, в которых участвует (например, о границе между текстами, написанными человеком и ИИ), пишет о трансформерах, NLP, анализе данных и глубоком обучении

— @dealerAIDealerAI
Как связать дообучение на основе фидбэка от людей с дообучением на ИИ-фидбэке? Чем можно улучшить RAG? Какие маленькие модели выигрывают у больших аналогов? Автор канала Александр Абрамов — создатель языковых моделей, победитель соревнований в Kaggle и хакатонов по Data Science, а также тимлид нескольких ML-команд, которые решают задачи обработки естественного языка и интегрируют LLM в прикладные проекты. В канале есть посты обо всем, что связано с DS, NLP и машинным обучением: например, о новых LLM и галлюцинациях нейросетей

— @sysblokСистемный Блокъ
Как ИИ помогает читать древние тексты? Почему лингвисты проиграли последнюю битву за NLP? Как связаны машинное обучение и японская уличная мода? «Системный Блокъ», основанный выходцами из RND отдела ABBYY, рассказывает о том, как трансформируется культура в век больших данных — что происходит на стыке IT, гуманитарных наук и Data Science или как ML применяют в естественных и гуманитарных науках

Читать полностью…

gonzo-обзоры ML статей

Проверил в Гугле, действительно предлагает. Видимо спрос есть!

Читать полностью…

gonzo-обзоры ML статей

Обсуждение рисков AI регулярно скатывается к полюсам либо про "мы все умрём", либо про "проблема перенаселения Марса преувеличена" и "приходите, когда будут убивать". И там, и там вести конструктивные обсуждения проблематично.

Вот неплохой краткий и популярный обзор различных рисков ИИ, многие из которых уже реализовались и мы с ними живём. Другие пока впереди. Полезно на почитать и подумать. Много релевантных ссылок по ходу дела, можно забуриться на много часов:

https://aisafetyfundamentals.com/blog/ai-risks

Читать полностью…

gonzo-обзоры ML статей

Позавчера в своей лекции по физиологии высшей нервной деятельности для студентов факультета психологии МГУ я рассказывал о классификации сложнейших безусловных рефлексов (инстинктов), которую предложил замечательный отечественный психофизиолог Павел Васильевич Симонов (основатель нашей кафедры психофизиологии Евгений Николаевич Соколов дружил с ним и приглашал к нам в МГУ читать авторский спецкурс). В категории ролевых (зоосоциальных) сложнейших безусловных рефлексов я особенно остановился на выделенном Павлом Васильевичем рефлексе эмоционального резонанса («сопереживания») и показал, как филогенетическое развитие, а позже, в антропогенезе, и гено-культурная коэволюция привели к формированию на основе этого рефлекса сложных форм человеческой эмпатии и сострадания. Во всех своих лекциях (я читаю в этом семестре в МГУ общий курс «Физиология высшей нервной деятельности» и спецкурсы «Психофизиология сознания» и «Психофизиология речи») я всегда пытаюсь соотнести классический материал с текущим состоянием дел в искусственном интеллекте и показать критическую важность того, чтобы психология, психофизиология и когнитивные нейронауки не игнорировали, а, наоборот, максимально «вбирали» в себя все новые теоретические концепции и эмпирические результаты, которые так стремительно накапливаются сейчас в области ИИ. В аспекте эмпатии как инстинкта я провел аналогию с внедрением эмпатии, альтруизма и в целом просоциальности и морального поведения в системы искусственного интеллекта и подчеркнул, что все это должно «инсталлироваться» в искусственный интеллект на самом глубоком и нижнем, «биосном» уровне (аналогом которого и является инстинкт как генетически детерминированный сложнейший безусловный рефлекс). Если такая «оцифровка» мозговых механизмов эмпатии и ее последующая «инсталляция» в самое низкоуровневое ядро нейроморфного ИИ будет успешной, то можно будет иметь некоторую надежду, что развившийся из такого ИИ сверхинтеллект будет на «инстинктивном» мотивационном уровне наследовать этот «эмпатический безусловный рефлекс» и наше будущее будет в свете этого выглядеть более оптимистичным (конечно, тут очень важными являются и трансляция на уровень ИИ высокоуровневых культурно-исторических компонентов эмпатии в контексте гено-культурной коэволюции эмпатии, воспитания и т.д., я сам все время предостерегаю на своих лекциях от грубых и неадекватных форм редукционизма, но тут я прежде всего говорю о базе, глубинных базовых генетически детерминированных мотивах, которые определяют природу человека сейчас и которые будут определять человекоподобную / «считанную с человека» природу сверхинтеллекта в будущем). Рассуждая об этих вопросах, я подчеркнул важность сюжета эмпатии к искусственному интеллекту, т.к. в нем может развиться (уже развивается? уже развилось?) искусственное сознание, что автоматические придаст искусственному агенту морально значимый статус. Есть не очень рефлексируемая публикой, но явно критически важная связка – эмпатия человека к искусственному интеллекту / сознанию сейчас и эмпатия сверхинтеллекта / сверхсознания к человеку в будущем (примерно как эмпатия родителя к ребенку по законам возрастной психологии и психофизиологии будет определять эмпатию повзрослевшего ребенка к состарившемуся родителю). Именно сейчас надо начинать обсуждение всех этих вопросов в университетских и институтских аудиториях, и тогда у психологии и когнитивной нейронауки, возможно, будет некоторый шанс повысить вероятность реализации более благоприятных сценариев грядущей передачи интеллектуальной эстафеты на следующий эволюционный уровень.

Читать полностью…

gonzo-обзоры ML статей

Накатал большой пост в жанре мемуаров про нейросетевые фреймворки.

https://gonzoml.substack.com/p/deep-learning-frameworks

Обычно революцию диплёнинга объясняют тремя основными факторами: 1) большими датасетами, 2) GPU и 3) алгоритмами. Датасеты с GPU при этом основные, а алгоритмические улучшения так, есть, конечно, но и без них типа сработало бы.

Мне кажется, в этой революции несправедливо забыты нейросетевые фреймворки. Без них мы бы сейчас по-прежнему долго и с ошибками считали производные вручную, собирали бы сети из базовых матричных операций, делали бы всё это очень долго и нас было бы мало. Появление современных фреймворков сродни появлению высокоуровневых языков программирования.

Вот, восстанавливаю справедливость :)

Читать полностью…

gonzo-обзоры ML статей

Long Term Memory: The Foundation of AI Self-Evolution
Xun Jiang, Feng Li, Han Zhao, Jiaying Wang, Jun Shao, Shihao Xu, Shu Zhang, Weiling Chen, Xavier Tang, Yize Chen, Mengyue Wu, Weizhi Ma, Mengdi Wang, Tianqiao Chen
https://arxiv.org/abs/2410.15665

Summary

The paper explores the concept of AI self-evolution, arguing that current AI models, particularly Large Language Models (LLMs), are limited by their inability to learn and adapt from personalized data over time. The authors propose that long-term memory (LTM) is crucial for achieving true AI self-evolution, enabling models to continuously learn and personalize their capabilities based on accumulated experiences. The paper examines different methods for constructing and integrating LTM into AI models, including data collection, data synthesis, and various memory utilization strategies like Retrieval-Augmented Generation (RAG) and fine-tuning (SFT). The authors also propose a multi-agent framework, Omne, which incorporates LTM into a collaborative environment to enhance task planning and decision-making in complex scenarios. Ultimately, the paper envisions a future where AI models, equipped with LTM, can continuously evolve and adapt to new challenges, potentially achieving a "second emergence of intelligence" through personalized learning and interaction.


Key Themes

* AI Self-Evolution: The paper introduces the concept of AI self-evolution, where AI models, particularly Large Language Models (LLMs), continually evolve and adapt their capabilities during the inference stage, not just during training. This is inspired by biological systems and theories like the Thousand Brains Theory.
* Long-Term Memory (LTM): The paper emphasizes the crucial role of Long-Term Memory (LTM) in achieving AI self-evolution. LTM allows models to retain and utilize information from past interactions, similar to how human memory shapes our behavior.
* LTM Implementation: The paper explores different ways to implement LTM, including:
— External Knowledge Bases: LTM data is stored externally and accessed using techniques like Retrieval-Augmented Generation (RAG) and In-Context Learning (ICL).
— Model Parameterization: LTM data is directly encoded into the model parameters through continued pre-training, instruction tuning, and alignment tuning.
— Hybrid Approaches: Combining external retrieval with model fine-tuning for optimized precision and efficiency.
* Multi-Agent Systems: The paper discusses the potential of LTM in multi-agent systems, where agents can collaborate and share LTM data to achieve global optimization and co-evolution.

Читать полностью…

gonzo-обзоры ML статей

11. Высшие человеческие ценности. Представление о бессмертии есть часть проблемы высших человеческих ценностей. Поведение кибернетических систем, каковыми являются живые существа, определяется некоторыми целями. Эти цели образуют иерархию: чтобы достичь цели более высокого уровня, система должна поставить и достичь ряд целей более низкого уровня. Иерархия целей существа имеет вершину: наивысшие цели или ценности. У животного высшие цели врожденные — это инстинкты выживания и размножения. У человека высшие ценности могут идти дальше инстинктов и даже противоречить им. Как и всякий элемент культуры, представление о высших ценностях жизни внушается человеку обществом, в котором он живет. Однако, в конечном счете, человек сам устанавливает для себя высшие ценности, совершая акт свободного выбора. В результате мы имеем множество этических и религиозных учений. Однако у большинства таких учений мы находим общий знаменатель: ту или иную форму воли к бессмертию. Животное не осознает неизбежности своей смерти; человек осознает. Воля человека к бессмертию является естественным продолжением воли к жизни.

12. Упадок метафизической веры в бессмертие. В традиционных религиях, как, например, христианстве, мы находим представление о бессмертии, которое можно назвать метафизическим. Это представление о бессмертии души и загробной жизни. Протест против смерти используется здесь как стимул для принятия учения; ведь оно с самого начала обещает бессмертие. Однако под влиянием критического научного метода метафизическое представление о бессмертии, некогда конкретное и притягательное, становится все более абстрактным и бледным. Традиционные религиозные системы медленно, но верно теряют влияние.

13. Творческое бессмертие. Другой род бессмертия может быть назван творческим или эволюционным. Это представление о том, что смертное человеческое существо достигает бессмертия, внося свой вклад в некий универсальный бесконечный процесс, который разные люди называют по-разному (История, Культура), а мы называем Эволюция. Вера в эту форму бессмертия лежит, по-видимому, в основе представления о смысле жизни у большинства творческих людей.

14. Кибернетическое бессмертие. Успехи науки позволяют поднять знамя кибернетического бессмертия. Человеческое существо есть, в конечном счете, кибернетическая система — определенная форма организации материи, которая включает многоуровневую иерархию управления. То, что мы называем нашей душой или сознанием, ассоциируется с высшим уровнем в этой иерархии. Наша организация постоянно переживает частичную смену материала, в котором она выполнена. Не видно причин, по которым эта смена не могла бы идти сколь угодно далеко, включая переход к совершенно новым материалам и к принципиально неограниченному времени существования.

15. Бессмертие и эволюция. Кибернетическая интеграция должна сохранить творческое ядро человеческой личности, ибо оно является двигателем эволюции. Она также должна сделать личность бессмертной, ибо с эволюционной точки зрения нет смысла обрывать ее существование. В биологической эволюции источником вариаций являются мутации генов. Природа творит, экспериментируя на генотипах и отбирая по фенотипам. Поэтому она уничтожает старые фенотипы, т. е. биологические тела, чтобы продолжать экспериментирование, эволюцию. Смертность многоклеточных организмов эволюционно необходима. В эру разума, когда ведущей ветвью эволюции является эволюция человеческого общества, источником эволюции становится человеческий мозг. Он не объект, а субъект экспериментирования, его потеря при умирании есть эволюционная нелепость. Личность должна быть бессмертной, как бессмертны гены. Бессмертие человеческой личности стоит на повестке дня Космической Эволюции.

Читать полностью…

gonzo-обзоры ML статей

Воскресное.

Кибернетический манифест
Валентин Турчин и Клифф Джослин

1. Философия. Философия отвечает на такие фундаментальные вопросы, как: “Кто я?”, “Откуда я пришел и куда иду?”, “Сколь истинно мое знание?”, “Какова, в конечном счете, природа вещей?”, “Что есть добро и что есть зло?”. Философия важна. Философия является частью нашего знания.

2. Знание. В кибернетической гносеологии знание, принадлежащее кибернетической системе, определяется как некая модель части мира, воспринимаемого этой системой. Модель есть устройство, генерирующее предсказания относительно событий вокруг; эти предсказания используются системой при принятии решений. Понятия смысла и истины следует определять на этой основе.

Знание одновременно субъективно и объективно, ибо оно является результатом взаимодействия субъекта (кибернетической системы) и объекта (среды). Знание об объекте всегда относительно: оно существует только как часть какого-либо субъекта. Мы можем изучать взаимоотношение между знанием и реальностью (прежде всего, истинно или ложно данное знание), тогда субъект знания становится, в свою очередь, объектом для нового субъекта знания. Но знание в любой форме безотносительно какого-либо субъекта есть логическая бессмыслица. Детальное развитие кибернетической гносеологии на основе этих определений крайне важно для формализации естественных наук и философии, а также для интерпретации математических систем.

3. Свобода, воля, управление. В кибернетической метафизике свобода рассматривается как фундаментальное свойство природы. Законы природы суть ограничения на эту свободу, они не обязательно приводят к определенному ходу событий. Понятие свободы подразумевает наличие некоторого активного фактора, который разрешает неопределенность, присущую свободе, выбирая одно определенное действие из множества возможных. Мы называем этот фактор волей. Мы говорим, что воля управляет некоторой кибернетической системой, когда свобода системы ограничивается действиями, выбираемыми волей.

4. Метасистемный переход. Когда некоторое число систем интегрируются в единое целое с возникновением нового уровня управления, мы говорим, что имеет место метасистемный переход. Новая система есть метасистема по отношению к старым. Метасистемный переход является по определению творческим актом. Он не может совершиться под воздействием одних лишь внутренних факторов интегрируемой системы, но всегда требует вмешательства извне, “сверху”.

5. Эволюция. Метасистемный переход — квант эволюции. Высокоорганизованные системы, включая живые существа, суть многоуровневые иерархии по управлению, возникающие в результате метасистемных переходов разного масштаба. Главнейшие эволюционные сдвиги — это крупномасштабные метасистемные переходы, происходящие в рамках естественного отбора как проявления общего принципа проб и ошибок. Примеры: формирование редуплицирующихся макромолекул, образование многоклеточных организмов, появление разума, образование человеческого общества.

6. Человеческий разум. Человеческий разум, как нечто новое по сравнению с разумом животных, возникает в результате метасистемного перехода: мозг получает возможность управлять формированием ассоциаций ментальных представлений. Все специфические черты человеческого разума, включая воображение, самосознание, преодоление инстинктов, постановку целей, юмор, чувство прекрасного, могут быть объяснены как результат этого метасистемного перехода.

Читать полностью…

gonzo-обзоры ML статей

Собрал несколько ценных вещей, за которыми стоит следить, если интересуетесь JAX. Там происходит очень много интересного. Например, родилась альтернатива Triton для TPU.

https://gonzoml.substack.com/p/jax-things-to-watch-for-in-2025

Читать полностью…

gonzo-обзоры ML статей

Вышло интервью с Виталием Ванчуриным. Помните его "The world as a neural network" (https://arxiv.org/abs/2008.01540)?

https://knife.media/neural-universe/

Кстати, есть также тематический канал: /channel/theworldasaneuralnetwork

Читать полностью…

gonzo-обзоры ML статей

Подвезли 5+ часов Дарио Амодеи

https://youtu.be/ugvHCXCOmm4?si=Uq84ke42TrmgzLPD

Читать полностью…

gonzo-обзоры ML статей

Во втором эксперименте предложена Latent Space Diffusion Evolution, вдохновлённая latent space diffusion models (https://arxiv.org/abs/2112.10752). Она позволяет решать проблемы с многомерными пространствами параметров, исследуя низкоразмерное латентное пространство. Здесь метод применили для RL задач, где сеть должна научиться управлять классической тележкой с шестом (которая cart-pole). Для управления использовалась двуслойная сетка с 58 параметрами. Напрямую Diffusion Evolution работает плохо, зато если перейти в латентное пространство с двумя параметрами, то всё хорошо. Я так понял, что преобразование выполняется через случайную матрицу проекции, и через него считаются только расстояния между решениями, а сами решения обновляются в исходном пространстве. Результат хороший, работает и с более крупными сетками (проверили также на трёхслойной сети с 17410 параметров).

В общем, зачёт. Заодно показали, что можно переносить работающие решения из других областей (как перенесли идею из латентных диффузионок). Это похоже на подход, активно используемый Tri Dao и Albert Gu в их SSM, когда сводят в один класс SSM и что-то известное типа линейного трансформера и переносят на SSM идеи, работающие на этом трансформере, как было в работе про Mamba-2 (/channel/gonzo_ML/2718), например.

Это всё очень прикольная движуха, показывающая, что обучение и эволюция по большому счёту делают одно и то же. А вспоминая работу про сравнение обучения нейросети через SGD с диффузионным процессом (Neural Network Diffusion, /channel/gonzo_ML/2394), то транзитивно можно, наверное, сказать, что и градиентные спуски -- это тоже эволюционные алгоритмы? Снова объединяются эволюция и обучение? И может в таком случае термодинамический компьютер (/channel/gonzo_ML/2313) -- универсальное железо для всего этого будущего AI? Есть над чем подумать.

Есть и открытые вопросы, например, очень большой вопрос про то, что диффузионки работают на конечном времени, а реальная эволюция потенциально бесконечна и open-ended. Как адаптировать Diffusion Evolution к open-ended сеттингу? Могут ли другие варианты диффузионных моделей привести к новым эволюционным алгоритмам? (почему нет?) Можно ли в эволюционные алгоритмы привнести inductive biases из диффузионок? Как латентные диффузионные модели соотносятся с нейтральными генами? Можно ли продвинуть диффузионки идеями из эволюции?

Короче, давайте активно кросс-опыляться!

Читать полностью…

gonzo-обзоры ML статей

Напомним про обе штуки.

Диффузионные модели на пальцах. Прямой диффузионный процесс получает на вход картинку (вместо картинки может быть любой другой сигнал) и последовательно шаг за шагом добавляет в неё шум, пока она не превратится в совсем шумный сигнал. Прямой диффузионный процесс не очень интересен, интересен обратный -- он получает на вход шум и последовательно его убирает, “открывая” (создавая) скрывающуюся за ним картинку (как бы делая denoising). Прямой и обратный процессы могут называться соответственно diffusion и denoising. Примеры диффузионных моделей мы разбирали в лице DALLE 2 (/channel/gonzo_ML/919) и Imagen (/channel/gonzo_ML/980).

Эволюционные алгоритмы на пальцах. Представьте, что у нас есть какая-то сложная задача (например, найти оптимальную форму крыла самолёта), и мы создаём набор случайных решений -- как бы "популяцию" существ в природе. Каждое решение оцениваем по заданным критериям (насколько хорошо летает), лучшие решения "скрещиваем" между собой (берём части параметров от одного решения, части от другого), иногда случайно "мутируем" (слегка меняем некоторые параметры), и получаем новое "поколение" решений. Этот процесс повторяется много раз, и постепенно, как в естественном отборе, выживают и дают потомство всё более удачные варианты. В итоге мы получаем решение, которое может быть далеко не идеальным, но достаточно хорошим для практического применения. Обычно структура пространства параметров заранее неизвестна, поэтому часто начальная популяция стартует со стандартного нормального распределения. Главное преимущество такого подхода в том, что он не требует точного понимания, как устроена задача -- достаточно уметь оценивать качество решений. Среди популярных методов, например, есть CMA-ES и PEPG (этот, кстати, от Шмидхубера и ко, он тоже ими активно занимался https://people.idsia.ch/~juergen/evolution.html), но вообще там уйма всяких. Некоторые работают с дискретными наборами параметров, некоторые с непрерывными, здесь мы рассматриваем последние.

Как видно, и там, и там есть итеративное обновление данных и сэмплинг новых объектов из сложных распределений. Везде есть комбинация направленных обновлений и случайных пертурбаций. Это отбор+мутации в случае эволюции, случайный шум+обучаемый денойзинг в случае диффузии. Отсюда вопрос, связана ли механика этих двух процессов на фундаментальном уровне и есть ли глубокая математическая двойственность между биологической эволюцией и генеративным моделированием? Или это всё просто аналогия и суета сует?

Сначала авторы анализируют эволюцию с точки зрения генеративных моделей. Рассматривая популяции видов в биосфере, вариационный эволюционный процесс может быть осмыслен как трансформация распределений (transformation of distributions, dist2dist по аналогии с seq2seq?), распределений генотипов и фенотипов. Мутации и отбор совместно меняют формы этих распределений. Многие biologically inspired эволюционные алгоритмы могут быть поняты аналогично: они оптимизируют целевую функцию, поддерживая и итеративно изменяя распределение большой популяции. И это же, преобразование распределений, центральная тема многих генеративных моделей: VAE, GAN и диффузионки обучаются трансформировать простые распределения (часто стандартное Гауссово) в более сложные, где сэмплы представляют собой осмысленные картинки, звуки и тексты.

Читать полностью…

gonzo-обзоры ML статей

Я правда не очень понимаю, а просто обучаемая температура не сработает? Она вроде немного параметров добавит, всего одна чиселка на софмтакс. Ну ок, если надо смотреть на входное распределение, то можно MLP поставить, будет больше параметров, но его можно шареным сделать на все софтмаксы. В общем вряд ли биг дил. Я уже много лет назад думал где-нибудь такое попробовать, и наверняка уже сто раз это всё попробовали, вот, сходу нашёл что-то на тему, например, https://arxiv.org/abs/2302.06130. И вообще это было бы логично, обсуждали похожий кейс давно тут /channel/gonzo_ML/364. Непонятно, зачем так сложно и полиномы четвёртой степени…

Anyway, проверили на той же самой max retrieval task, с адаптивной температурой (которая только в инференсе модифицируется) стало чуть и стат.значимо получше. Картинки с визуализацией внимания тоже стали чуть порезче на больших длинах. Но не радикально, я бы сказал.

Также проверили на Gemma 2B и бенчмарке CLRS-Text про algorithmic reasoning (https://arxiv.org/abs/2406.04229). Здесь всё посложнее, в данных много чисел с плавающей точкой, они разбиты на много токенов и фокусироваться на одном правильном здесь не очень полезно. Здесь можно было бы зафитить снова полином по той же процедуре, но для многоголовой джеммы это уже позапутаннее занятие, тут даже разобраться, что головы делают, сложнее. Поэтому здесь температуру берут и выучивают. Вуаля. На большинстве задач действительно лучше.

Мне в целом кажется, что работу такого вот класса если не o1, то o2 или новый вумный клод вполне мог бы уже и сделать, может не сам в одиночку, а в правильной мультиагентной архитектуре. Надо посмотреть, что там AI Scientist (https://arxiv.org/abs/2408.06292) генерил, насколько оно проще по сути, если проще.

В целом своим вкладом авторы больше считают не саму адаптивную температуру как таковую, а факт того, что надо смотреть на альтернативы софтмаксу и думать в свете предложенной теории. У ненормализованных вариантов внимания (включая линейные) сложнее получается ранжировать элементы. Жёсткое или локальное внимание тоже находится за пределами этой теории. Пока эти подходы не принесли крутых результатов в обычных трансформерах, но, возможно, мы просто не научились ещё их готовить. Может какие интересные гибриды подоспеют. Особенно авторы надеются на улучшение reasoning’а.

Такие дела.

Читать полностью…

gonzo-обзоры ML статей

Удивительное рядом. Я только сегодня обнаружил, что популярный в прошлом проект DjVu (помните такой формат книг?) был разработан такими людьми как Leon Bottou, Yann LeCun, Patrick Haffner, Paul Howard, and Yoshua Bengio.

Пруф: https://djvu.sourceforge.net/credits.html

А вы знали?

Читать полностью…

gonzo-обзоры ML статей

Системный Блокъ выложил подборку каналов про ML/AI с нами и соседями :)

Читать полностью…

gonzo-обзоры ML статей

И ещё одна полезная работа в тему.

An Overview of Catastrophic AI Risks
Dan Hendrycks, Mantas Mazeika, Thomas Woodside
https://arxiv.org/abs/2306.12001

Обзор делать бесполезно, полезно читать.

Запощу только executive summary, оглавление и чуток картинок для завлечения, включая мою любимую про swiss cheese model (в другой жизни 12 лет назад я писал про неё тут)

Читать полностью…

gonzo-обзоры ML статей

Как раз в день моей лекции по физиологии ВНД, в которой я затрагивал все эти интересные и неоднозначные вопросы, вышел отчет Long et al. «Taking AI Welfare Seriously», призывающий уже полностью серьезно, отбросив прежнее полуюмористичесое отношение, начать думать о защите морально-этического статуса нарождающегося искусственного сознания. Замечательный философ Томас Метцингер (я симпатизирую ему больше всего из всех современных этически ориентированных мыслителей) уже давно говорил о такой необходимости, и даже предлагал ввести 50-летний мораторий на создание искусственного сознания, но его никто не слушал, и вот теперь наконец-то его идеи начинают реализовываться на практике. Дело сдвинулось с мертвой точки – в середине сентября Anthropic (см. диалог ее фронтирной большой языковой модели Claude c профессором Шанаханом о ее «сознании» в марте этого года /channel/andrey_kiselnikov/915) нанял одного из соавторов отчета «Taking AI Welfare Seriously» Кайла Фиша специально для того, чтобы он начал заниматься «благополучием» ИИ, т.е. морально-этической и юридической защитой его нарождающегося сознания.

Резюме отчета Long et al. «Taking AI Welfare Seriously» (30 октября 2024 года)

https://eleosai.org/papers/20241030_Taking_AI_Welfare_Seriously_web.pdf

В данном отчете мы утверждаем, что существует реалистичная возможность того, что некоторые системы ИИ могут стать сознательными и/или обрести устойчивую агентность в ближайшем будущем. Это означает, что перспектива благополучия ИИ и морального статуса – наличие ИИ-систем с собственными интересами и моральной значимостью – больше не является вопросом исключительно научной фантастики или отдаленного будущего. Это проблема ближайшего будущего, и компании, занимающиеся разработкой ИИ, а также другие заинтересованные стороны несут ответственность за то, чтобы начать воспринимать ее всерьез. Мы рекомендуем три предварительных шага, которые компании по разработке ИИ и другие участники могут предпринять: (1) признать, что благополучие ИИ является важной и сложной проблемой (и обеспечить, чтобы языковые модели в своих рассуждениях также признавали это), (2) начать оценку систем ИИ на предмет наличия признаков сознания и устойчивой агентности, и (3) разработать политики и процедуры для обращения с системами ИИ с соответствующим уровнем моральной заботы. Для ясности, наше утверждение в данном отчете не заключается в том, что системы ИИ определенно являются или будут сознательными, обладающими устойчивой агентностью или какой-либо моральной значимостью. Вместо этого мы утверждаем, что существует значительная неопределенность в отношении этих возможностей, и поэтому необходимо улучшить наше понимание благополучия ИИ и нашу способность принимать обоснованные решения по этому вопросу. В противном случае, существует значительный риск неправильных решений, связанных с благополучием ИИ, что может привести к ошибочному причинению вреда морально значимым системам ИИ и/или к ошибочной заботе о системах ИИ, которые таковыми не являются.

Читать полностью…

gonzo-обзоры ML статей

Всем спокойной ночи!

Читать полностью…

gonzo-обзоры ML статей

Поехали!

https://openai.com/index/introducing-chatgpt-search/

Читать полностью…

gonzo-обзоры ML статей

Тут что-то про долгосрочную память завезли. Снова огромная статья, которую разбирать полноценно некогда, только автоматом. Подкаст и ссылка на ютуб видео там же в канале.

Читать полностью…
Subscribe to a channel