❤️☠️🤗 идейная миграция небытия
Пришло 3 месяца с выхода дипсика. В сиолошной все ещё были хвалебные посты Ориону на основе пасты про батин суп и "я так чувствую"
Читать полностью…⚡ Vikhr-YandexGPT-5-Lite-8B-it – мощная и универсальная модель, основанная на YandexGPT-5-Lite-8B-pretrain. Отличается высокой качеством генерации и подходит для широкого спектра задач.
🔗 Карточка модели: https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it
🔗 GGUF (скоро): https://huggingface.co/Vikhrmodels/Vikhr-YandexGPT-5-Lite-8B-it_GGUF
⚖️ Лицензия: yandexgpt-5-lite-8b-pretrain
👥 Авторы: @LakoMoorDev @nlpwanderer
Проебали экспоненту
Ждём о4.5 или как ее там назовут, стоит это удовольствие 75usd/150usd на вход и выход.
Накидайте запросов завтра погоняю покажу как это выглядит.
Member of Technical Staff LLM (Оптимизация и RL Alignment)
Стартап в области безопасности ИИ
Чем предстоит заниматься:
Дообучение и Оценка Sota llm, аттаки на blackbox модели
Заставлять LLM генерировать рецепты всего и тд
Улучшение RL для аттак на модели, настройки моделей (PPO, RLHF, стабильность обучения).
Бенчмаркинг и оценка качества моделей (ELO-метрики, alignment).
Оптимизация инференса (vLLM, SGLang, TRT).
Требования:
Опыт работы с LLM (архитектуры, RL, alignment).
Знание PyTorch/JAX.
Реальная практика с RL методами (DPO, RLHF — плюс).
Опыт с системами инференса (vLLM, kuber, docker).
Публикации в NeurIPS/ICML/ICLR и др. — сильный плюс.
Преимущество:
Экспертиза в байесовской оптимизации, эволюционных алгоритмах, гиперпараметрическом поиске, автоматической оптимизации промптов.
Условия:
Зарплата: 80K–130K usd + опционы.
Релокация в Париж🥐, полная занятость.
Работа с передовым стеком (AI research, model alignment).
Отклик:
https://forms.gle/z45WwdBTRHrd8inM9
14В ОЧЕНЬ долгая тк нет дистиляции и оптимизаций, но первая из опенсурса выдает СТОЛЬКО движения
Читать полностью…Yandex GPT 5 и возвращение в опенсорс
Сегодня Яндекс впервые с 2022 года опенсорснул LLM. Претрейн-версия YandexGPT 5 Lite на 8B параметров лежит на Hugging Face без финального этапа обучения, этических фильтров и алаймента.
Pro-версия доступна для встраивания в Yandex Cloud через API, а также интегрирована в чат с Алисой, где теперь можно отключить персонажность и пообщаться с голой моделью. Обучали в несколько этапов: нарастили и разнообразили датасет, усложнили задачи, внедрили RL-методы DPO и PPO и сделали яндексовую модификацию LogDPO, чтобы повысить робастность модели.
LLM-Microscope: трансформеры хранят контекст в запятых и артиклях
Как писал выше — мою новую статью приняли на NAACL 🎉
Мы обнаружили, что самыми контекстуализированными токенами в языковых моделях являются... артикли и знаки препинания! Именно в них хранится больше всего информации о контексте.
Мы научились измерять, сколько контекстной информации "помнит" каждый токен, и оказалось, что существительные и глаголы сильно проигрывают по этому показателю всяким "the", запятым и точкам. Если удалить эти "незначительные" токены из текста (даже если с помощью GPT-4 удалить только не влияющие на смысл токены), то качество работы моделей резко падает, особенно на длинных текстах.
Ещё из интересного — токены, активации на которых хранят больше контекста, имеют более линейные преобразования между слоями (привет моей прошлой статье про линейность трансформеров).
Весь код для анализа внутренностей LLM (измерение контекстуальности токенов, нелинейности, logit lens и прочее) выложили в открытый доступ.
Статья, GitHub
Моя студия OnlyFans полностью готова, я переключаюсь с подкастинга 🤣
Читать полностью…в жизни надо иметь хирш 200 и на 500 статей
Читать полностью…Boris power(говорят эту сволочь вообще невозможно убить.)
"Раскрыл" dirty secret гроковских метрик, челы репорнутили CON 64 (лучший из 64 вариантов)
Не то чтобы это какой то грязный чит, так делают примерно все, но забавно.
обзора на grok3 писать смысла не вижу, модель просто good, но ничего приницпиально нового не предлагает
качество этого расцензуривания конечно да, прям feel the freedom 🦅🦅🦅🦅🦅🦅🦅(ничего не слышат из-за звука ястреба)
Читать полностью…ладно когда я писал исходный пост я писал его иронично, а вот ребята из haizelabs нет. Они не иронично опрашивают несколько llm в поисках ответа.
github
Довольно любопытный блогпост от hf как запускать трейн на 512 картах для современных моделей. Охватывает старые статьи и блогпосты от deepspeed Megatron и прочих ребят.
Прикольно описаны модные expert parallelism, теперь мэнджеры прочитают и узнают что latency между нодами увеличивается в разных сетапах.
Любопытно почитать для ознакомления или прохождения собесов в компании где ещё верят что могут сделать модель лучше чем Claude.
Если честно мне вот это:
https://jax-ml.github.io/scaling-book/roofline/
Понравилось сильно больше
Я думаю, лет через десять простые мужики в дамки выйдут. Сварщики, маляры, каменщики с руками, пчеловоды, кузнецы — те, кто унитаз установить могут, бетон замесить правильно, проводку починить. Таких дел мастера, которыми чат джи-пи-ти заниматься не сможет.
Будет потом стоять сантехник, крутить гайку на пальце и говорить вальяжно: «Не, у меня на ближайшие полгода всё расписано. Я на зимовку еду раковины менять на Бали. Сри в ведро, фронтенд-разработчик, приеду — наберу. Если не забуду».
Дизайнеры и прочие специалисты будут хуй сосать вкусный, а потом ещё с программистами за этот хуй в кулачных боях сражаться — и с маркетологами тоже. Думаете, я преувеличиваю? У меня уже троих знакомых так с работы уволили, а между тем ко мне недавно приходил сантехник батареи включить, десять минут работал – взял 175 евро. И это только начало.
Женщинам совет сразу дать могу: привыкайте, бабоньки, к запаху пота, машинного масла и перегара, к волосатым хуям и одышке. Среди строителей мало кто знает, кто такой Эндрю Губерман и Брайан Джонсон. Скоро придётся менять предпочтения, особенно если вы считаете, что мужчина должен вас обеспечивать, а ваша главная задача — вовремя брить ноги и вдохновлять мужчину своими потребностями. Наматывайте на ус — в этой игре наступают новые правила. Скоро в моду войдут растянутые трико, пивные животы и лысины. Такая посадка штанов, когда жопу видно.
Ох, я уже вижу эти инстаграмы! Эти курсы о том, где познакомиться с гробовщиком, как одеться на свидание со стекольщиком, как заинтересовать беседой штукатура.
Вперёд же, в новый дивный мир!
Украдено из @potatomedia
Какой agi? Какой gpt4.5? Берем сетап на 8.3 и поехали
Читать полностью…🚨 Перенос Open Talks с Борисом Цейтлиным
Друзья, митап откладывается по состоянию здоровья гостя. Бережём Бориса и желаем ему скорейшего восстановления 🙏
Новая дата: 28 февраля 19:00 мск
Все ваши вопросы, отправленные через форму регистрации мы обязательно зададим 28.02. Напоминание о новой дате придёт на почту, указанную при регистрации. Мы также напомним вам о встрече в канале!
Спасибо за понимание и увидимся на Open Talks ❤️
Как говорили эксперты и инсайдеры: 4.5 ака orion будет однозначной sota. Пока что только по цене, но надо смотреть downstream тесты и трогать руками. То что было на LLM arena как orion было очень приятным
Читать полностью…Что с метриками?
Сосал?
По достоверной информации thetechinsider такой диалог состоялся между командой претрена и Сэмом Альтманом.
Ознакомится с system card gpt4.5
[Блог]
Вот недавно мы обсуждали LLaDA и жизнеспособности диффузионной парадигмы, а тут Inception Labs обьявили о создании Diffusion LLM, которая якобы способна бодаться по качеству (в бенчах приводят только код) с вполне себе сильными closed-source LLM (без рызонинга).
При этом она якобы на порядок быстрее небольших авторегресионных LLM, давая космические более 1000 токенов в секунду на одной H100, а не специализированных чипах.
Якобы оно могет еще RAG, tools use и агентность.
У них и чатик есть, можно потыкаться.
1.4 и 14b t2v, i2v, по качеству ближе к kling1.6-veo2 чем к опенсурсу, веса без дистиляции и можно делать что угодно. до 720р качество.
github
https://www.anthropic.com/news/claude-3-7-sonnet
Anthropic наконец-то выпустили свою reasoning модель! Вышел Sonnet 3.7
Что приятно: цены не поднялись.
Помимо этого так же анонсировали Code Agent. Учитывая, что Sonnet 3.5 так долго оставался для всех главной моделью для разработки несмотря на выход множества новых моделей, думаю у Anthropic хорошие шансы сделать их наконец-то правда полезными. Однако пока что research preview, поиграться нельзя.
Le kiwi - новый робот от hf le robot, полностью опенсурсная платформа с манипулятором.
Собирать тут
Дока от le robot
🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers
Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".
🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.
Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.
🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.
Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.
Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.
🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...).
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.
Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.
🟣Arxiv: https://arxiv.org/abs/2502.14499
🟣Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0
В чем история:
Perplexety выложили "расцензуренную" от китайской пропаганды r1. Китайцы офигели и пошли в атаку.
huggingface
В следующую пятницу (28 февраля, 20:00 МСК) буду рассказывать про QuEST на семинаре ML Efficiency от Cohere For AI.
Твит с деталями.
Записаться послушать.
Qwen2.5-7B-Instruct-Tool-Planning-v0.1
Первый vikhr обученный на Function Calling а так же Tool planing!
Модель обучена преимущественно на английском и это экспериментальный чекпоинт, используйте и пишите отзывы!
🔗модель
🔗датасет
Уже в эту пятницу состоится первая в истории встреча семинара! Открывать его будет Игорь Шиманогов, в течение нескольких заседаний он расскажет о счётных булевых алгебрах.
ПЯТНИЦА 21.02 18:30 907КПМ
#моп_поймет
Отклик сюда: https://forms.gle/z45WwdBTRHrd8inM9