Сохраненки и шитпост про ML от @YallenGusev
Призываю всех пойти погенерить и пооценивать мемы в @AIMemeArenaBot.
За себя голосовать не призываю, там всё равно метки скрытые, но в свою систему верю.
Голосуй, или я проиграю 😁
Классный новый алгоритм на подходе:
Даем на вход картинку, аудио и модель сама оживляет персонажа
Кода пока нет, сайт проекта тут:
https://omnihuman-lab.github.io/
Жду не дождусь чтобы исторические фото помучать
Тут вот какое дело...
Пост — реклама smolagents. В реальности дела мягко говоря обстоят не так хорошо. Начиная со стоимости вот этого всего (легко тратится до 10$ на один вопрос), заканчивая длинным хвостом задач, которые вообще нормально агентами не решаются, хотя люди их решат за 5-10 минут. Я, конечно, экспериментировал со своими инструментами, а не с чужими, но инструменты из поста написаны скорее хуже, а не лучше.
Самая непобедимая проблема для меня пока — заставить агента читать все страницы выдачи, а не только первые 2-3. И желательно только в тех случаях, где это реально нужно.
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing
Коллектив авторов: @LakoMoorDev @nlpwanderer
На канале «Россия-1» поделились новостью о том, что китайский DeepSeek был создан на основе советского кода 1985 года.
«Не буду лукавить, наш искусственный интеллект был создан на базе советских разработок, а именно — системы ОГАС академика Глушкова. Без неё мы бы никогда не догнали американцев с их ChatGPT», — сказал Лян Вэньфэн, основатель DeepSeek
О стоимости Deepseek v3
- Llama 3 70B, 15T токенов, 6.4M H100 часов, примерно 16M$. Источник.
- Deepseek 67B, 2T токенов, 600K H800 часов, примерно 1.2M$. Источник 1, источник 2.
- Deepseek v2 236B MoE, 21B active, 8T токенов, 1.4M H800 часов, примерно 2.8M$. Источник.
- Deepseek v3 671B MoE, 37B active, 15T токенов, 2.8M H800 часов, примерно 5.6M$. Источник.
H800 оценена как 2$ в час, H100 как 2.5$ в час.
Качество моделей не сравнивается, цель была не в этом.
Кроме того, в этом сравнении нет утилизации карточек (спасибо Саше за этот комментарий).
(И второму Саше за указание на 8T токенов у v2).
Кроме того, очевидно, что это только одна попытка, в плохих случаях их может быть 10+ (см. например 13 попыток древнейшего OPT-175B).
Кроме того, очевидно, что это ничего не говорит о Deepseek R1.
Выводы:
- Deepseek каждый раз в 2 раза повышал бюджет.
- Deepseek v3 должен бы стоить в 2-3 раза дороже v2, но стоит столько же (в пересчёте на 1T токенов) из-за хороших инженеров.
- Llama гораздо дороже, но и гораздо древнее.
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
Есть ли у ИИ чувство юмора? 😁
Это пытаются выяснить разработчики AI Meme Arena - проекта, в котором разные агенты пытаются сгенерировать самый смешной мем.
Работает как и все llm арены: пользователь вводит тему для шутки, 2 случайных AI-агента делают смешную картинку, юзер выбирает самую смешную, далее строится ELO-рейтинг агентов. Лучшие 3 агента получат денежный приз.
Арену сейчас сильно колбасит, агенты улетают с первого до последнего места за считанные часы (разработчики обещают исправить это).
Я тоже решил учавстовать в сорвевновании и разработал агента "Humorithm" на основе Claude 3.5. Любой человек может добавить своё AI-решение на арену. Для этого нужно сделать публичное API по документации. Требования к агентам: <15 секунд на картинку, 85% уровень доступа (SLA).
Сгенерировать мем
@hikonon
На этом канале до сих пор не было рекламы, и есть ощущение, что и не будет, хотя меня стабильно раз в неделю о ней спрашивают. Рекламу для России сложно размещать: по-хорошему нужна явная регистрация рекламы в ОРД, а после 10к подписчиков — регистрация канала в другом реестре, и вмазываться в это всё я точно не хочу. Причём не очень понятно, где границы этого. Как определяется, что реклама "направлена на потребителя из России"?
Так что остаётся только реклама не для России, и из-за моего резиденства (Нидерланды) только не для лиц под санкциями. И я сразу зафиксирую ценник: 600€ за пост с удалением через 7 дней (обсуждаемо) переводом в пределах ЕС.
Сомневаюсь, что таковые лица найдутся, поэтому можете наслаждаться контентом без рекламы 🥰
smolagents — очень сырая библиотека. Косяки, которые я успел обнаружить:
- Захардкоженный max_tokens=1500 (issue).
- До 1.2 был неправильное стоп-слово для CodeAct (<end_action> вместо <end_code>).
- Кривое отображение плана в CodeAct начиная с 1.2.
- Частые падения из-за багов в коде отображения в консоли.
- Нет поддержки сложных типов. Tuple[int, int], например.
Но в ней есть один очень весомый плюс: она легко читается и понимается. Там не так много кода и не так много абстракций, в случае чего можно спокойно разбираться и патчить.
Что нового я узнал за день?
— Во-первых, MCP и совместимые с ним сервера. В том числе ArXiv сервер, но мне не очень нравится конкретно эта реализация, там нельзя выбирать порядок сортировки результатов поиска, например. Но сам список в целом сойдёт как библиотека инструментов.
— Во-вторых, smolagents (агентский фреймворк от HF) и их подход к инструментам, которые можно автоматически заливать как Spaces на HF. И наоборот, использовать существующие Spaces как инструменты. Ещё прикольно, что основной подход в нём не function calling, а генерация кода с инструментами. Это, в частности, позволяет не завязываться на конкретную реализацию вызова функций. В качестве защищённого интерпретатора Питона они предлагают E2B. До этого я пользовался только Terrarium от Cohere.
— В-третьих, я пока не нашёл адекватной реализации инструмента файловой системы и редактора файлов, но я пока и недостаточно хорошо искал. Попробую воспроизвести или найти воспроизведение str_replace_editor из спеки Anthropic.
— В-четвёртых, всем спасибо за предложения. Часть я уже упомянул выше. findpapers мне пригодился как место, где можно подсмотреть код. storm имхо бесполезен.
Вывод пока такой: открытые инструменты довольно дерьмовы. А если делать свои — то проще всего делать аннотированные функции и потом экспортировать их в любой протокол или фреймворк. Что я и начал делать тут.
Бенч 10/10, спасибо Игорю.
http://platinum-bench.csail.mit.edu/
Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.
Читаю я эссе Уоррена Уивера 1949 года о машинном переводе (не спрашивайте, как так получилось), и что я вижу? Word2vec/MLM.
Читать полностью…Ладно уже не смешно.
Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)
Блог: huggingface.co/blog/open-deep-research
Недавно я обратил внимание на один гениальный ход DeepSeek.
Про то, что при обучении модель училась предсказывать сразу несколько токенов, знают примерно все.
Про то, что для этого использовались не просто независимые головы (как в Медузе), а целые трансформерные слои, на вход которых подавались в том числе проекции с предыдущих шагов, знают все, кто читал статью. Там же написано, что они переиспользуют эти мини-трансформеры (MTP-модули) для инференса.
А вы знаете, сколько MTP модулей было выложено вместе с моделью?
- ОДИН.
Источник.
Таким образом, для себя они, вероятно, оставили 4-5 MTP-модулей, а наружу выложили только 1. То есть, они могут инферить модель в 2-3 раза быстрее, чем любые другие провайдеры. Вы конечно можете дообучить больше MTP модулей или вообще перейти на Медузу, но это потребует нетривиальных усилий. В итоге модель-то открытая, но конкуренты всё равно в дураках.
🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.
5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:
➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?
➡️Что ждет опенсорсные AI-решения в будущем?
➡️ Как DeepSeek меняет правила игры?
Спикеры:
🎤 Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General
🎤 Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong
🎤 Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков
🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.
🤔 Не увидел важного вопроса в анонсе?
➡️ Регистрируйся и задай свой вопрос экспертам!
Приходи! Без тебя – не то 💘
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
🥁🥁 🥁
А вот и наш первый выпуск!
Говорим Про LLM c Ильёй Гусевым, затронем темы:
- что сейчас есть интересного из моделей на русском;
- как померить что модель крутая и как все хакают эти метрики;
- доисторические технологии, как генерировали тексты до 2020х годов;
- можно ли запустить ламу на чайнике, холодильнике и другой кухонной утвари;
- когда будет AGI и пора ли подыскивать другую работу;
- кого слушать и куда смотреть, чтобы ничего не пропустить.
Также подписывайтесь на канал Ильи, он прикольный: @senior_augur
N.B.
Мы записывали выпуск до шумихи с DeepSeek, но такое пропустить нельзя, поэтому у нас скоро выйдет бонус эпизод.
И на этом с LLM закончим, честно-честно 😉
Spotify | Яндекс.Музыка
Простите, что так мало постов, я просто размечаю мемы.
Читать полностью…Один из картиночных вопросов (которые всё равно даже на дашборде не отобразились, поэтому ими можно делиться) был вот такой. Задача — перевести запрос.
Спёр я её у жены, которая делала её для своих проектов.
Это упрощенная версия 278 задачи отсюда. Я тогда ещё нашёл оригинал, поэтичическую стеллу Тутмоса III, и её перевод на английский.
Наконец-то пришёл отказ на ICLR, можно теперь на ARR податься.
Мета-ревью примечательно тем, что единственная ссылка в нём — на работу из августа 2024 года, а сабмит моей статьи — из сентября. Согласно официальным гайдлайнам ICLR работы, выпущенные за 4 месяца до сабмита, считаются "параллельным", и я так-то не обязан с ними сравниваться. Но это мелочи, конечно, по сравнению со всем остальным процессом.
Залил на архив новую версию (которая в два раза больше старой): https://arxiv.org/abs/2409.06820
😈 Ловушка Джокера для GPT-5: 😈
https://zadzmo.org/code/nepenthes/
Описание с сайта:
This is a tarpit intended to catch web crawlers. Specifically, it's targetting crawlers that scrape data for LLM's - but really, like the plants it is named after, it'll eat just about anything that finds it's way inside.
It works by generating an endless sequences of pages, each of which with dozens of links, that simply go back into a the tarpit. Pages are randomly generated, but in a deterministic way, causing them to appear to be flat files that never change. Intentional delay is added to prevent crawlers from bogging down your server, in addition to wasting their time. Lastly, optional Markov-babble can be added to the pages, to give the crawlers something to scrape up and train their LLMs on, hopefully accelerating model collapse.
На скриншоте один из тестовых вопросов, которые я использую.
Вопрос, очевидно, не совсем серьёзный, но хотя бы заставляет агента попотеть, даже на базе Соннета.
Я всё ещё борюсь за получение нормального лога/отчёта (mind.txt), в комменты скину только final.txt с одного из прогонов.
Что интересно, есть две статьи, которые регулярно всплывали за пару десятков итераций:
Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement
https://arxiv.org/abs/2410.04444
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
https://arxiv.org/abs/2402.07456
Разбор первой можно найти тут: /channel/gonzo_ML/2964
Про вторую я тоже уже слышал, но не читал.
Немножко про агента и инструменты, которые я писал последние пару дней.
Поиск по ArXiv. Есть публичное API, есть готовая библиотка. Подводные камни:
- Есть значительный кусок функциональности, который не поддерживается во всех популярных реализациях: фильтр по датам. Более того, в официальном руководстве к API он... неправильно описан! Если вы выполните запрос из руководства, то увидите, что фильтр там тупо не работает! В реальности это должен быть не отдельный GET параметр, это должна быть часть запроса, что я выяснил только из группы с обсуждением.
- Я до сих пор не до конца понимаю, как работает поиск без явного указания полей. Это как будто бы нигде нормально не описано.
Скачивание и парсинг PDF. И если со скачиванием вопросов нет, то с парсингом всё до сих пор очень-очень больно. Есть pypdf, который с извлечением текста из архивовских pdfок кое-как справляется, но получается просто текст без структуры. И есть marker, который справляется очень даже элитно и выдаёт нормальный Markdown + картинки, но который по-хорошему требует отдельного GPU сервака. На CPU ждать по минуте не очень хочется, да и зависимости там сейчас конфликтуют с smolagents. Чего-то посередине я пока не нашёл.
Эмуляция bash. Я взял спеку Anthropic, запихнул её в Соннет и сказал, чтобы он написал код с исполнением через Docker. Пока что работает безотказно, вообще никаких проблем не было. Более того, иногда агент полнейшую дичь умудряется вытворять с этим инструментом.
Сам агент. Сначала я тестировал всё с Соннетом. Когда за 3 дня насчиталось 30$, я понял, что так продолжать нельзя. Сейчас всё пытаюсь делать с gpt-4o-mini, и это реально больно. Зато если уж с ней всё работает, то с нормальными моделями получаются вообще чудеса. Тестирую на простом запросе про свою же статью.
Меня не очень интересуют хардкодные реализациии типа storm и AgentLaboratory. Хочется всё сделать в рамках базового CodeAct, запихивая всю сложность в инструменты и подчинённых агентов.
Сейчас я пишу str_replace_editor из той же спеки, что и bash.
Phi-4 в текущем состоянии хуже Немо для русского на ПингПонге.
Читать полностью…Я тут почитывал https://situational-awareness.ai/, и очень мне приглянулась идея автономного агента-учёного.
Уверен, что таких проектов навалом на Гитхабе, но имхо без трёх вещей это не будет работать:
1) Инструмент для поиска по Arxiv и другим научным библиотекам. Причём нормальный, который может возвращать полные тексты, желательно с картинками.
2) Инструмент, эмулирующий файловую систему и её менеджмент.
3) Инструмент, позволяющий эффективно читать и редактировать текстовые файлы. Такой себе vim для LLM, который не жрал бы тонны токенов.
Под "инструментами" я понимаю нормальные API, доступные для вызова моделями.
Я завтра подробно подробно поищу все 3 штуки, но может быть кто-то что-то уже видел?