Вы не ресерч инженер.
Вы — «синий воротничок».
Вы используете инструменты, созданные другими.
Вы изучаете их ровно настолько, чтобы выполнять свои задачи.
Вы не знаете, как работают FSDP, вы просто научились писать конфиги.
Вы не знаете, как на самом деле работает torch, вы просто освоили команды.
Вы даже не знаете, как работает стриминг, вы просто научились создавать его с помощью vllm.
nD paralelism? Вы не знаете, чем полезен nD paralelism, потому что вам все равно.
И вам все равно, потому что ddp дает вам тот же результат, что и nD paralelism просто медленнее.
Deepspeed? Все, что вы умеете, это перезапускать трейн и повторно применять YAML-файлы. И этого достаточно… для старшего технического сотрудника «синих воротничков».
Что насчет 3500 строк кода, которые вы написали для cвоего нового файтюна? Работает же, правда?
- Пока не понадобится добавить что то не из trasnformers
- Пока не придется собрать датасет самому
- Пока не придется разогнать до хорошей скорости
Ну, оно будет работать, пока ваш код не станет настолько плохим, что вы не сможете его читать, запутаетесь… и забросите проект.
Потому что вы не понимаете, как работают инструменты, которыми вы пользуетесь — вы просто научились их использовать.
И это делает вас зависимым.
Перестаньте быть «синим воротничком».
Начинайте резерчить сейчас. 🥴
новогодний триллер в духе позднего СССР как напоминание о том что новый год подкрался незаметно
автор мрачного гиперреалистичного видео Aleksej Lotkov, ему также помогали Aleksei Olenchenko и Leo Erdman
В этой супер-короткометражке я хотел обыграть западный имидж СССР и нестандартный нарратив. Стиль под пленку 80-ых помог скрыть пару косяков и разгуляться воображению.
Использовали самые новые/передовые тулзы по типу Flux 1.1 pro ultra и Sora (процентов 20 анимации - сора), ну и все, что есть из видеогенераторов.
- папа, а кем ты хотел быть в молодости?
- рэпером
- а кем стал?
еле сдерживая слезы, я попытался сменить тему:
- не важно. пошли на синк, обсудим планы по новому продукту яндекса. и захвати новогодние пряники на кофепоинте, они очень вкусные.
AI Journey 2024 оказалась очень богата на новые AI-продукты от Сбера. В частности банк выложил в открытый доступ сразу 3 своих новых генеративных модели.
GigaChat Lite рассчитана на простые обыденные задачи. Это первая по-настоящему российская open-source модель. Поэтому она максимально стабильная и не требует больших мощностей. Ее преимущество - скорость.
GigaAMv2 признали лучшим в РФ AI-инструментом для распознавания речи. Ее можно дообучать.
GigaEmbeddings создавалась для RAG и других задач, где требуется серьезная производительность. Превосходит большинство конкурентов по производительности и надежности.
Написал обзор на Phi4
Довольно любопытная инженерная статья про то как учить LLM хорошо, при token budget вдвое меньше чем у qwen2.5 14b модель выдает лучшие/такие же результаты.
А еще авторы предлагают любопытную модификацию DPO.
alexwortega/qLTfc-M_2HT">читать teletype
оригинальная статья
ПРЕТРЕН В С Ё?
Наши слоны из Нижнего Новгорода выступили на Neurips и рассказали что интернет в целом кончился, дальше надо делать time inference scaling.
С учётом того как Суцкевер повлиял на современные сетки, стоит как минимум послушать.
А время покажет, ошибается он в этот раз или нет.
Смотреть полный доклад
🎨 Играюсь с Recraft v3
Это лучшая нейросеть для генерации фотореалистичных изображений по результатам sbs сравнения. Особенно хорошо модель понимает русскую эстетику.
Сервис позволяет создать кастомный стиль изображения. Как образец можно загрузить до 5 фотографий.
Последние четыре фотографии в посте имитируют стиль лиминальных пространств.
@hikonon
Добавили новые модели от T-Tech в репозиторий на github Ru General Arena.
Напомню, что тут бейзлайн это все еще gpt-3.5-turbo-0125, а судья gpt-4-1106-preview, промпты засепмлпены по 50 разным топикам (т.е. и сложные и просптые вперемешку).
Интересно, то что по метрикам которые репортит T-Tech в своем посте на хабре, вихрь немо стоит довольно низко в лидерборде, в отличие от их моделек. Мое мнение если кратко: в текущей ситуации сранивать что-то довольно сложно, так как квены изначально довольно оверфитнутые на все многие классические бенчмарки, переведенные промпты AlpacaEval и ArenaHard это конечно хорошо, но под них уже много кто заоферфитился на английском и без изменений промптов оценки результаты на русском могут выходить как минимум неоднозначные, что и показывает большое количество сильных шейкапов между зарепорчеными авторами бенчмарками.
В целом, мне кажется, что таблица на скрине отображает мое понимание, но объективная реальность думаю всегда где-то посередине...
Большой день.
Мы выкладываем в опенсорс наши модели T-Lite и T-Pro. И эти модели просто топ 🥳
Мы увереннно выбиваем #1 среди открытых моделей по разным бенчам на русском. По MERA мы взяли #2 модель на русском ещё и включая все API, уступая только GPT-4o.
Это до-тренированный qwen-2.5 в размерах 7B и 32B. Мы провели большую работу: свой токенизатор, глубокое до-обучение на русский и специфичные корпуса. Аккуратная работа с данными. Тех репорты будут.
Этот релиз является подтверждением нашего подхода в LLM: допретрен на базе опенсорса и затем файнтюн под доменные области. Получается значительно лучше результат и мы тратим на порядок меньше денег (не преувеличение).
Пользуйтесь. Модели для инженеров, рекомендуется дальнейший файнтюн, например через наш Turbo-Alignment.
Наш новый HF: https://huggingface.co/t-tech
Лидерборд по MERA: https://mera.a-ai.ru/ru/leaderboard
Остальные бенчи тоже есть, арены будут как прокрасятся
Почему так? Почему метрики могут гулять? Ответ очень простой: разный код для измерения. MATH HHE MBBP и прочие ббпе вообще то не детерминированные(через это их меряют обычно @10 какой нибудь) их множно Fewshotить, mctsить и делать кучу страшных вещей(400 раз генерировать ответ например, тк ответ мы знаем/можем оценить правильность)
Я не думаю что тинькофф банк намеренно что либо ломал, модели неплохие, но просадки от дотрена на русский - есть и с ними сложно боротся если ваш датамикс хуже чем изначальный Qwenовый.
К слову одна из причин почему Вихри ушли от смены токенайзера-дотрена - собирать чистый датамикс чтобы не просадить code/reasoning способности модели очень трудоемкая задача.
Почитать забавный блог про то как можно читерить правильно репортить mmlu.
Не, в приниципе можно и в суд потащить кого нибудь, но имхо правильно сравнивать, использовать разные бенчмарки, строить разные бенчмарки и искать истину.
Я не видел не одного полностью репрезентативного бенчмарка который не ломался, поэтому проблемы не вижу. Для многих задач тиньковские модели будут хороши, выбирайте модель под задачу, cеребрянной пули не существует.
Новая гугловская veo2 первая модель прошедшая тест на гимнастику. Выглядит очень сильно, сильно лучше всего открытого и закрытого.
Работает с американского VPN.
Самый красивый блог чтобы разобраться с nD parallelism, a ещё внутри интерактивное демо!
И это первая доходчивая визуализация на моей памяти
main-horse.github.io/posts/visualizing-6d/
Встречаются два вонаби ресерчера в подчате Луна Парка и один другого спрашивает:
— Как найти работу llm ресечером?
— Могу рассказать...
— Рассказать-то я и сам могу, а как найти?
почему с каждым релизом wandb становится все хуже и хуже, что это блять, почему так мерзко, где EMA
Читать полностью…/channel/StarsAskBot?start=241154130
Го потестим, тут вопросы можно анонимно задавать, закидывайте. Стоит 1 звёздочку.
А вот и анонс от СЕО компании с цифрами бенчмарков!
У кого-то из чата уже заработали аудио-ввод и вывод (генерация речи), у меня пока нет(
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
Ссылка попробовать в AI Studio БЕСПЛАТНО: тык
В момент выхода анонса соры я говорил: этот прорыв будет в опенсурсе и очень быстро.
На момент выхода соры в виде сайта я говорю: а чо так слабо?
https://app.checkbin.dev/snapshots/1f0f3ce3-6a30-4c1a-870e-2c73adbd942e