Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4
🌸AMA с Peter Norvig🌸
#nlp #про_nlp
Внезапно, в четверг 25 марта — целых 3 часа сессии вопросов и ответов с Питером Норвигом.
🟣Питер Норвиг — директор исследовательской группы в Google, но знаем мы его не за это:
— написал основной университетский учебник по ИИ ещё в 1995 году: Artificial Intelligence: A Modern Approach в соавторстве со Стюартом Расселом (вот pdf, 1116 стр)
— автор огромного количества изящных решений и туториалов, например, мое любимое — спеллчекер в 21 строку
— автор коротких критических заметок, методологически правильно объединяющих инженерию и науку: про Хомского и статистическое моделирование языка, The Unreasonable
Effectiveness of Data.
🟣Ссылка на AMA: 25 марта 5:00 PM - 8:00 PM PDT
https://lu.ma/98gt9h73?tk=PKNU0b
Всем подписчицам этого канала Клара и Роза желают: аккумулируйте побольше капитала, интернационально посещайте конференции!
Всем подписчикам: (вы и так айтишники, у вас все хорошо) — гендерного баланса в коллективе! 🌸
Нерегулярная музыкальная рубрика по воскресеньям — #female_vocals
Но сегодня я устала и поэтому будет просто блэк метал на санскрите. Добрый вечер!
https://youtu.be/zJTmi9cgpKQ?si=zie_JAhglJpKPv3d
🌸Минидемо агентов в MLGym🌸
Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3.
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg
Что там происходит:
Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.
На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)
Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения
— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.
— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.
Как же хочется простого человеческого чтобы Ян Лекун репостнул...
Читать полностью…🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers
Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".
🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.
Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.
🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.
Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.
Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.
🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.
Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.
🟣Arxiv: https://arxiv.org/abs/2502.14499
🟣Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0
🌸Акселерация науки — вперед!🌸
#nlp #про_nlp #nlp_papers
Молчать про это невозможно — про автоматизацию и акселерацию науки с помощью ИИ-моделей. На этой неделе происходит сразу несколько интересных релизов:
🟣OpenAI выпустил SWElancer: новый бенчмарк для агентов в привязке к реальным заданиям с биржи фриланса (100 млрд сами себя не заработают). OpenAI продолжает работу по привязыванию оценки работы ИИ к монетарной ценности — в задачах вроде как и сложных, но все-таки не научных, а скорее экономически выгодных.
🟣Google выпустил Co-Scientist: ассистента для ученых на основе последней модели Gemini в применении к 3 биомедицинским задачам: поиск новых применений уже известных препаратов, предложение новых терапевтических подходов к лечению и выяснение механизмов, лежащих в основе устойчивости к противомикробным препаратам.
Как говорится, две большие разницы. Подход Google больше похож на мои тезисы из "как делать AGI аккуратно": методы машинного обучения уже давно проникли в различные научные области, автоматизируя отдельные части процесса. Уже нашлись приложения в таких науках, как физика, биология, химия, лингвистика, экономика, геологическое моделирование, эпидемиологическое моделирование, нейронауки.
ИИ легко применим в любой области науки, где имеется 2 необходимых условия для автоматизации: формальные модели и симуляции.
Вполне логично, что агенты могут успешно автоматизировать генерацию тем, и даже эксперименты, но не могут пока что полноценно генерировать научную новизну.
И если добавить в эту цепочку самого исследователя — то проблему автоматической валидации новизны можно и вовсе обойти!
Но это еще даже не все:
🟣Stanford/Harvard выпустили Popper — агента для автоматического фальсифицирования гипотез в биологии, экономике, социологии. Составные части научной акселерации скоро будут собраны почти все.
Судя по скорости, до конца этой недели.
🌸Вакансия в Llama Team🌸
Со вчерашнего дня у меня есть новая вакансия в мою команду: L4 Research Scientist в Лондон
Будем делать LLM posttraining, агентов и акселерацию науки — и все а опен сорсе.
🟣Нужно обязательно:
— хорошие знания в языковых моделях, reinforcement learning, системное научное мышление
— PhD вокруг LLM или около,
— трек ML публикаций, где вы в первых авторах
— хорошо пройти все разные секции: ML System design, AI Coding, Behavioral.
(Про некоторые из них я уже сама раньше рассказывала, считай, подготовила вас немножко)
🟣Что желательно:
— рабочая/talent виза в UK
— желание выйти поскорее
— не только научный, но и инженерный опыт, способность не только дотюнить модель, но и поконтрибьютить во фреймворк вокруг.
🟣Податься можно здесь: https://www.metacareers.com/jobs/1763573274592729/
Начинаю свой рабочий день с того, что отдаю американское ИИ-преимущество Китаю 🏭🍷
Читать полностью…🟣Через час начинаем!
Вопросы можно задавать под этим постом или через донат
Все донаты идут в фонд поддержки левых политзаключённых и на Работу рабкора.
https://youtube.com/live/NzZ1wbQiRPQ?feature=share
🟣Если вы рецензент – требуйте воспроизводимости и полного описания методов в статьях; поощряйте статьи с новыми методами, поощряйте статьи с методами, не требующими много вычислительных ресурсов.
🟣Если вы автор – включайте максимально все техническое описание, код и модели
🟣Если вы разработчик – выкладывайте в опенсорс, чтобы не приходилось в рамках воспроизводимости учить все в нуля.
Не важно, в общем-то, сколько будет GPU на мертвой планете.
Ссылки:
[1] Arxiv On Tables with Numbers, with Numbers.
[2] Reject if not SOTA
[3] Статья про академ мобильность
Долго не постила, ушла в думскроллинг в связи со всеми новостями.
С пн начнётся постинг!
Количество подписчиков, как водится, увеличилось, пока я ничего не писала.
🤑
🌸ARC AGI: AGI наступил или все-таки еще нет?🌸
#nlp #про_nlp
Под конец года OpenAI выпустили финальную новость: новая рассуждающая модель, O3, дала прирост на 32% на бенчмарке ARC AGI.
AGI в названии, большой отрыв в качестве — как это можно объяснить? Технологическая сингулярность не за горами?
🟣Что такое ARC AGI
ARC AGI — Abstraction and Reasoning Corpus — не новый бенмчарк, и пожалуй, подробнее всего его объясняет сам автор в статье "On the Measure of Intelligence"
🟣На хабре есть мой краткий пересказ от аж 2020 года (ссылка).
TL;DR Разные интеллектуальные системы хороши в разных задачах — как же нам придумать мерило всего?
Давайте мерить обобщающую способность в сетапе, когда язык вообще не нужен!
— Логические способности на пиксельных матрицах, причем с координатами и самыми разными задачами на паттерны, причинно-следственные связи, закономерности разных уровней (см изображение).
Автор в целом описывает, какими свойствами должен обладать идеальный тест на AGI:
— тест должен иметь чееткие границы применимости и оценку достоверности
— он должен быть воспроизводимым
— он должен ставить перед собой задачу измерения широких способностей и обобщения на уровне разработчика
— в состав его оценочного набора не должно входить никаких задач, известных заранее – ни самой системе, проходящей тест, ни ее разработчикам
— он должен как минимум четко показывать, что он стремится измерить – локальное обобщение (надежность), широкое обобщение (гибкость) или предельное обобщение (общий интеллект)
— он должен контролировать объем опыта, используемый системами во время обучения. «Купить» эффективность эталонного теста путем отбора неограниченных обучающих данных должно быть невозможно.
— он должен предоставлять четкое и всестороннее описание набора используемых первоначальных знаний.
— он должен беспристрастно работать как для людей, так и для машин, используя такие же знания, какие используют люди.
🟣Новый уровень качества
В состав ARC входят два набора данных: обучающий и оценочный. В обучающем наборе 400, а в оценочном — 600 задач.
При этом оценочный набор также делится на два: открытый (400 задач) и закрытый (200 задач). Все предложенные задачи уникальны, и набор оценочных задач не пересекается с набором обучающих.
Релиз новой модели О3 поднимает планку решения задачи с 53.5% до 87.5%. 53.5% -- победитель 2024 года, система на синтетических данных. См полный technical report за 2024. Прирост до почти 90% синтетикой, конечно, не объяснить, это явное алгоритмическое преимущество, преимущество системы для нас пока закрытой.
🟣Мои проблемы с ARC AGI
На состояние конца 2024 бенчмарк, безуловно, НЕ обладает желаемыми заявленными изначально свойствами: 1) его обучающая и открытая тестовая выборка уже давно опубликованы, и необходима проверка на утечку 2) и хоть входной формат очень плохо подходит для языковых моделей (много вложенных конфигов с координатами), перформанс LLM на таком формате безусловно МОЖНО купить с увеличением объема соответствующих данных. Тест вполне можно обновить и доработать с учетом последних достижений.
Помимо упомянутого, в 2020 это не казалось мне столь очевидным и в статье не указано, но смущает потенциальное двойное назначение задачи.
Научить интеллектуальные системы работать с координатами и целями по картинкам.
Если опенсорсные системы тоже будут хорошо работать с координатами в общем случае, нам кирдык.
С 8 марта, дорогие подписчики и подписчицы!
Не день "весны, любви и нежности", а день борьбы за равные права, эмансипацию и справедливость!
В честь сего ссылка на большой прошлогодний пост:
Женщины в AI Research:
/channel/rybolos_channel/1067
🌸Кризис Peer-Review, или рецензенты NeurIPS ненавидят этот простой трюк (2)🌸
#nlp #про_nlp #nlp_papers
Мы уже смотрели с вами, как благодаря достижениям научного прогресса в 2024 стало можно замусорить А* конференции сгенерированными статьями. Что же может быть интереснее? А вот что: рецензировать и не пропускать статьи автоматически — решили организаторы NeurIPS 2024. Сегодня поговорим про интересный эксперимент -- статью "Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers".
При сабмите статьи NeurIPS 2024 можно было поучаствовать любопытном в эксперименте: разрешить агенту дать вам обратную связь сразу на основании того, как хорошо вы выполнили authors checklist (это такая система формальных требований к публикации, навроде указания всех параметров экспериментов для воспроизводимости, лицензий, ссылок на датасеты). Несоответствие статьи требованиям в authors checklist приводит к автоматическому реджекту сабмита, и обычно эта оценка проводится вручную. Текущий authors checklist — это примерно 40 пунктов, на которые авторам нужно ответить да/нет и указать место в статье, где выполнено требование.
Что же в результате? LLM-агент на GPT-4 поработал с 234 статьями, и последовательно указывал на пробелы в статье по тем или иным требованиям, чтобы авторы отредактировали статью и переотправили ее. Авторы статей затем проголосовали за полезность полученных замечаний.
Итог немного предсказуем: GPT-4 не в состоянии консистентно сопоставлять научные тексты и чеклисты. Основные замечания по качеству работы выявили, что систематически проблемно оцениваются теоретические основания работ, ограничения экспериментов, риски и оценка воспроизводимости. В ближайшее время автоматического рецензирования на NeurIPS не будет. Также авторы отметили, что в целом у них упал дух после работы с таким ассистентом. Что в целом, цинично говоря, может быть и положительным эффектом — каждый год подается статей все больше, их качество при этом понижается.
А что же человеческое рецензирование?
Организаторы NeurIPS уже не первый раз проводят подобный эксперимент:
— в 2014 году часть поданных статей была отправлена сразу двум коллективам рецензентов, и затем на парах полученных решений по статьям (приняты, постер, отказ) провели статистические тесты. Результат показал, что в целом согласие рецензентов оставляет желать лучшего, хотя и лучше случайного.
— Эксперимент был также воспроизведен в 2021 году, и результаты в целом остались теми же: примерно 3% лучших статей получают accept от обоих комитетов с вероятностью выше 88%, а для 70% статей похуже результат вообще случайный.
Так что предлагаемый Эмили Бендер подход slow science (а давайте вдохновлять авторов подавать поменьше статей) вообще в целом остается рабочим.
Правда, может оказаться, что все меньше работ вообще таким образом будут проходить хоть какое-то реценирование, и все это в конечном счете пойдет в обучение LLM безо всякой валидации.
🟣Arxiv
🟣GitHub
🌸Курс AI Safety от DeepMind🌸
#nlp #про_nlp #ai_alignment
DeepMind выпустил серию коротких видео с мини-лекциями про безопасность в ИИ
— Введение в AI Safety
— Глава 2: 5 частей про проблему AI Alignment
— Глава 3, Технические решения: обучение моделей и мониторинг качества, интерпретируемость, более безопасные дизайн-паттерны, стресс-тестирование
— Глава 4, Подходы к управлению рисками: институциональный подход к ИИ-безопасности, лучшие практики, оценка экзистенциальных рисков
🟣План курса: https://deepmindsafetyresearch.medium.com/introducing-our-short-course-on-agi-safety
(В конце есть две вакансии, в Лондоне и Нью-Йорке)
🟣Youtube-плейлист: https://youtube.com/playlist?list=PLw9kjlF6lD5UqaZvMTbhJB8sV-yuXu5eW&si=mSHlo4s7u6Q_aXSy
Заодно — поставьте ⬆ статье на HuggingFace paper, пожалуйста!
🟣https://huggingface.co/papers/2502.14499
В тексте статьи есть пара пасхалок от меня, особенно одна в Limitations, там есть кусочек, который подписчикам точно будет очень знаком!🤓
Читать полностью…Так, ну вообще-то я не даром так много рассказываю вам об акселерации науки — настало время немножко показать и непосредственно мою небольшую часть в этой сфере 😌
Сегодня вышла моя первая статья в Meta!
🌸Опенсорс от HuggingFace: рекап за год🌸
#nlp #про_nlp #nlp_papers
HuggingFace подвели итоги всех открытых проектов, которые научная команда стартапа нициировала за прошедший год. Давайте вместе посмотрим, как много на самом деле значит сила открытого сообщества и организованного труда!
Январь 2025
🐳Open-R1 – открытая инициатива по воспроизведению результатов DeepSeek R1, включая методы пост-тренинга и датасеты. Результаты воспроизводятся! Apache 2.0
🛠️SmolAgents – фреймворк с полезным абстракциями для построения LLM-агентов, с типичной логикой и классами. Из коробки предлагается использовать поиск DuckDuckGo
и открытые LLM. Apache 2.0
Декабрь 2024
📈Scaling Test Time Compute – подробный разбор стратегий test-time compute методов на примере моделей Llama
📐FineMath – подкорпус на 54 млрд токенов из FineWeb, содержащий математический контент, в том числе пошаговые решения. Есть еще его корпус-побратим FineWeb-edu с образовательными текстами. Лицензия ODC-by
Ноябрь 2024
🤓SmolVLM – visual-версия SmolLM, принимает на вход картинки и текст. Apache 2.0
Октябрь 2024
🔎LLM Evaluation Guidebook – подробный материал с лучшими практиками по оценке языковых моделей, включая составление тестов, инструкции аннотаторам, использование LLM-as-a-judge
🗺️FineTasks – бечнмарк для оценки качества претрейна LLM на множестве языков. Лицензия ODC-by
Сентябрь 2024
🎥FineVideo – датасет на 43 тысячи видео для обучения SORA-like моделей видео-генерации, своя лицензия License CC-By
Лето 2024
📣Speech-to-Speech, Speech-to-Speech Multilingual – попытка создания модульной GPT4-o. Модули вклают в себя открытые LLM, а также модели STT и TTS, и даже voice activity detection от Silero
🥇Win AIMO – AI Mathemathical Olympiad соревнование выиграно на основе открытых моделей
🤗SmolLM – семейство открытых моделей мини-размера: 135M, 360M, and 1.7B параметров. Пригодно для on-device и real-time задач, при этом сами модели получены не путем дистиллирования, а просто обучены на очень качественных данных: курируемых датасетах с кодом, образовательным контентом и фактологией. Apache 2.0
🤖LeRobot,LeRobot Tutorial – курируемый набор моделей, фреймворков, датасетов и туториалов для робототехнического прототипирования. Apache 2.0
Весна 2024
🍷FineWeb – огромный очищенный интернет-корпус для предобучения больших языковых моделей на 15 триллионов токенов. Есть мультиязычная версия, я теперь еще и бенчмарк, доказывающий, что корпус лучше остальных для сходимости моделей. Лицензия ODC-by
🏆Zephyr Mixtral , Zephyr Gemma – быстрые повторения моделей Gemma и Mixtral на основе синтетических датасетов, обе под своими собственными лицензиями.
⛅Lighteval Release – открытый фреймворк для эффективной и полной оценки LLM (теперь еще и многоязычный). MIT License
⭐️The Stack v2 – очищенный (и лицензионно чистый) датасет для обучения кодовых LLM. Своя собственная лицензия
⭐️StarCoder2 – улучшенная версия модели для генерации кода StarCoder. OpenRAIL license
🌌Cosmopedia – синтетически сгенерированный корпус с фактологически верной информацией, основанной на лицензионно чистых источниках. Apache 2.0
В целом, исключительно постоянная организационная работа с сообществом и позволяет нагнать закрытые модели, потому что постоянно создаются строящиеся кирпичики, на которых создается дальнейшая воспроизводимость – инфраструктура, модели, датасеты, подходы.
🟣Блог-пост с проектами
https://huggingface.co/science
🌸Deepdive into LLMs🌸
#nlp #про_nlp
Андрей Карпаты выпустил новое видео!
Хорошая обзорная лекция для начинающих свой путь в языковых моделях:
— основы претренинга, токенизации
— пост-тренинг и RLHF стадия
— примеры GPT2, Llama 3.1, DeepSeek R1
Все коротенечко за 3.5 часа!
🟣Видео: https://youtu.be/7xTGNNLPyMI?si=zSa6jMXJV38wRQ9J
🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers
В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI
На пути к AGI: Обзор работ 2024-2025 года
6 февраля 2025, 18:00 (время московское)
Регистрация:
🟣https://aigents.timepad.ru/event/1412596/
Помните Гэри Маркуса, который активно рассуждал о проблеме композициональности: дескать, вот астронавта на лошади современные модельки могут нарисовать, а вот лошадь на астронавте нет (спойлер: лучше модельки это сейчас уже могут). Потом выступал в Сенате США по поводу ИИ-рисков?
Теперь вот требует покарать Цукерберга и Лекуна за опенсорс. Дескать, они продали США и из-за их опенсорса США потеряла лидерские позиции в области генеративного ИИ
🌸Стрим на Рабкоре, 20.00мск🌸
Друзья, на неделе произошло много больших событий:
— Китайский DeepSeek выпустил открытую нейросеть R1, догнавшую но метрикам OpenAI
— OpenAI выпустили агента Operator
— В США натуральный техноолигархат делит ресурсы
— 500 млрд инвестиций на ИИ — и все заберёт OpenAI?
— Что нас ожидает в 2025 году, будет ли технологическая независимость в опенсорсе?
Обо всем этом сегодня поговорим на Рабкоре в 20.00
Приходите!
🟣Youtube-ссылка будет тут!
Независима ли Наука и ИИ в 2025?
#nlp #nlp_papers
Я уже много постов посвящала статьям, занимающимся автоматизацией наука при помощи LLM и агентов на них.
🟣Бесполезный AI scientist
🟣LLM и научная новизна
🟣Бенчмарки для научных агентов
И если мы нацелились на акселерацию науки с ИИ в 2025 году, самое время поговорить и про то, какие подлежащие проблемы предстоит решить перед этим.
Хочу поделиться с вами моим несколько вольным конспектом критической статьи про ситуацию в компьютерной лингвистике (которая на самом деле совершенно переносима на все остальное) On Tables with Numbers, with Numbers.
🌸Зависимость науки
Откуда идет финансирование науки? Частные фонды, научные гранты, государственные программы. Тем не менее, за последние годы, частный капитал захватил существенную часть: финансирование крупнейших конференций по теме LLM, компьютерной лингвистики, на 50% спонсируется топ-8 индустриальными компаниями.
Необходимость иметь доступ к большим вычислительным мощностям, большим данным и в целом мотивация “алгоритмическое превосходство хоть на +1% любой ценой” пораждает совершенно неравномерную ситуацию, в которой 90%+ исследований сделаны не независимо, а с помощью финансирования тех-компаний. Проблему пизнают даже сами огранизаторы конференций и издатели журналов [2].
Обучение SOTA-моделей по стоимости стало сравнимо и часто превосходит годовой R&D бюджет самых богатых профильных институтов, что делает академию напрямую зависимой.
На практике, пока исследования в области компьютерной лингвистики остаются ориентированными на результаты, зависимость от технологий и инфраструктуры, предоставляемых технологическими гигантами, вообще не имеет никакой альтернативы. В результате, страдают и цитирования, и в целом научный импакт публикаций: читают и цитируют больше всего статьи авторов из тех гигантов.
🌸Коммодификация науки
Достаточно быстро мы приняли, что в лингвистике, биологии, нейронауках, и т.д. – в любой науке, где есть модели и симуляции – есть возможность применять большие нейросетевые модели для более эффективного моделирования. А значит, появились и бенчмарки – наборы классических тестов для моделей, с наличием метрик и золотых ответов от людей-экспертов.
Как выбираются бенчмарки, всегда ли они мотивированы поиском истины, или скорее поиском наиболее экономически выгодного решения индустриальной задачи?
Просто взять и “зарешать” бенчмарки агентами недостаточно: текущее состояние дел даже в лингвистике показывает огромное количество пробелов, и бОльшую ориентированность на коммерческие задачи, нежели чем на поиск научной истины.
Предстоит создать множество задач, ориентированных на обобщение, пограничные случаи, применимость на различных областях знаний.
Зато есть, конечно, всякие бизнес-метрики и оценки от успехов автоматизации.
Новое определение сильного ИИ от OpenAI Microsoft – сюда же: AGI – это система, которая способна принесли 100 млрд долларов прибыли.
🌸Коммодификация таланта
Студенты и ученые едут за возможностями: куда они едут?
Никакого секрета: направление научной мобильности совпадает с градиентом экономического неравенства в мире [3]. Экономическое неравенство усиливает научно-географическое, когда лаборатории с доступом к технологиям и моделям распеделены совершенно неравномерно.
В рамках сохранения статуса кво корпорациями проводится множество мер лоббирования, инициативы по “этичному ИИ”, “инклюзивности в ИИ”, но почти все они не стремятся реально демократизировать доступ к технологиям или понизить порог входа для инстутов по всему миру. Скорее, они стремятся сделать ровно обратное – закрепить текущее неравенство в доступе, регулировании, принятии решений о приоритетах направлений науки вообще, но с пиаром получше.
🎄С новым годом, друзья!
Пусть 2025 принесёт нам радость озарения, осмысленность задач и сообщество единомышленников!
Рабочая Суббота —повод для последнего мемотреда в этом году! #шитпост
Читать полностью…