А сегодня на том же самом KDD представили Test of Time award за самый значительный вклад статьи десятилетней давности – её получил по совместительству мой менеджер Брайан за первую работу по нейросетевым графовым эмбеддингам DeepWalk: Online Learning of Social Representations. 🤴
Треть моей Ph.D. диссертации посвящена как раз эмбеддингам графов, так что эта награда – некоторая легитимизация нашего общего направления исследований. За всё время с Брайаном у нас написано ~15 статей и несколько патентов, многие из них – про эмбеддинги графов. Кстати, у меня не было кодинг-интервью в гугл как раз из-за того, что в моём гитхабе была довольно популярная имплементация этого метода на C++.
Самое удивительное, что за 10 лет метод по качеству не был побит. 👌
Генерация видео в Шедевруме
Яндекс запустил новую диффузионную end-to-end-модель преобразования текста в видео в приложении Шедеврум. Расскажем, как она работает и чем отличается от прошлого подхода.
Как было раньше и как стало сейчас
Шедеврум и прежде умел создавать видео по текстовому запросу. Для этого использовалась технология Deforum. Она работает по принципу создания видео из отдельных изображений кадр за кадром. Каждый следующий получается из предыдущего с помощью эвристик — они добавляют движение камеры. При таком подходе согласованность кадров недостаточная.
В новом подходе используется end-to-end-text2video-модель. На вход она получает текст, в котором могут быть указаны субъект, объект и описание действия. Модель сама учитывает связь между кадрами, из-за чего получается более согласованный результат.
Этапы генерации видео
Генерация базовых кадров. На этом этапе создаётся видео с низкой частотой кадров и разрешением. Из нормального распределения сэмплируются зашумлённые кадры, которые впоследствии постепенно преобразуются в связное видео.
Интерполяция кадров. После создания базовых кадров модель увеличивает их частоту, делая видео более плавным. Интерполяция проводится с использованием диффузионной модели, которая добавляет новые кадры между уже существующими.
Повышение разрешения. Модель работает в латентном пространстве, поэтому для повышения разрешения сгенерированные латенты подаются в декодер VAE. В него для большей согласованности фреймов добавили motion-блоки.
Обучение
Процесс обучения модели text2video начинается с адаптации уже существующей text2image-модели. Чтобы не обучать её с нуля, что требует большого количества разнообразных данных, разработчики решили дообучить проверенную модель для генерации изображений, добавив в неё временные блоки (motion-блоки) для работы с видео. Чтобы снизить нагрузку на память и ускорить обучение, использовались техники mixed precision и torch.FSDP.
Обучение модели происходило поэтапно: сначала с низким разрешением и малым количеством кадров, а затем с постепенным увеличением этих параметров. Так мы смогли ускорить процесс обучения и валидировать больше гипотез за то же время. Однако в ходе обучения возникали проблемы, связанные с нестабильностью модели, вызванной бесконтрольным ростом значений активации. Это решили простой регуляризацией.
Более подробно об устройстве и модели и её создании — читайте в статье на Хабре. А здесь в комментариях делитесь своими впечатлениями!
ML Underhood
лучше всего сигмоиду развития нейронок описывает разница между sd1.5-sdxl-flux
ес чо генерации идут: 1 - flux, 2 sd1.5, 3 sdxl
Мне так нравится что логарифмический график достраивают как экспоненциальный
график развития аи по любому из бенчмарков вел себя примерно как линия-логарифм
Приходят как-то на синк разработчик, тестировщик и time.sleep(1), а он им и говорит: ребята, мы что, в анекдоте?
➡️ Ну почти: они в подводке к статье про то, как тестировать мл системы, что бы не потерять $100k.
#HABR
Хабр релиз статьи про Шлепа - большой русский бенчмарк
Рассказали про то как оно работает наш бенчмарк + пиаримся на хабре))
Авторы: Cергей, Константин , Артем, Илья, Коля, Саша следил чтобы все не развалилось
habr
Что делать если вы студент бакалавра/маги(соболезную ес чо)
1. На пары приходим с самым дорогим макбуком, иначе как гонять llama70b чтобы писать отчеты?
2. На лабы по физике ходим в лориках(чтобы без электростатики) и в белом халате. Зачем? Чтобы спизидить оборудование!
3. На пары раньше ноября ходить не надо, надо успеть скатать на все хакатоны, заработать денег на экономических приступлениях в хэджфонде и в идеале утащить рабочую альфу.
4. Обед заказываем только из WRF, иначе зачем вы вообще работаете?
5. На гуманитариев, не олимпиадников, не технарей и прочих призрительно смотрим так будто их нет.
6. Помни - весь алкоголь на конфе сам себя не выпьет, нападай первый. И знакомься со всеми с кем получатеся.
7. Раньше первого снега читать лекции мы не начинаем.
8. Все гуманитарные предметы за нас сдает chatgpt. Никак иначе
9. Скататься минимум на одну гос конфу и сидеть две недели в отеле в ожидании карантина имени путина
10. Купить компрессионные чулки, это важно.
11. завести блог в тг на 50 подписчиков, с навазнием типа: градиентная депрессия
вдохновился тут
⚡️ 10 правил, позволяющих Павлу Дурову сохранять свою молодость
— Избегайте алкоголя. Редкие исключения возможны, но в целом алкоголь ослабляет здоровье и делает людей визуально старше;
— Хранение и распространение порно с несовершеннолетними;
— Приобретение, перевозка, хранение или передача наркотиков;
— Организованное мошенничество;
— Предоставление оборудования/программы/данных для неких атак;
— Администрирование онлайн-платформы, через которую ОПГ осуществляли незаконные транзакции.
— Создание ОПГ с целью совершить преступление или правонарушение;
— Отказ предоставить органам информацию и документы для прослушки, разрешённой законом;
— Предоставление криптографических услуг для обеспечения конфиденциальности без соответствующего декларирования;
— Предоставление и импорт средств криптологии (шифрования) без предварительного заявления.
все новости, апдейты и прочее теперь будут жить в отдельной группе чтобы я не писал в этот канал, а еще чтобы разные отделы вихря могли рассказывать про то что сделали.
Огромная благодарность @ai_newz @denissexy @rybolos_channel @boris_again @senior_augur за поддержку релиза!
Его для вас делали
@nlpwanderer
@mlunderground
@suro4ekgg
а я рядом стоял и пинал всю эту махину до результата
Вроде никого не забыл. Так же огромное спасибо Михаилу, Илье за то что тестировали ранние версии и указывали на проблемы!
Почему почти у всех полезных матриц маленький ранг?
В нашей с вами жизни матрицы малого ранга встречаются на каждом шагу, например, в моделировании физических свойств физических систем (анализ теплопроводности или модальный анализ вибраций), в рекомендательных системах, сжатие изображений – везде, если поискать , можно найти матрицы с небольшим рангом. 🧐
Это невероятно удобно: с матрицами малого ранга можно делать абсолютно неприличные вещи – например, для матрицы n × n ранга d можно восстановить все её элементы из случайно выбрав C*n^{1.2}*r*log n значений. Понятное дело, все операции – матвеки, подсчёт нормы и всяких разложений тоже существенно ускоряются. В наших любимых LLMках матрицы малого ранга используются для тюнинга и создания адаптеров для решения разнообразных задач.
При этом, случайные Гауссовские матрицы имеют (с огромной вероятностью) полный ранг. Каким-то образом получается, что для матриц "из жизни" ранг оказывается небольшим. 🤪
Самое, наверное, известное – наш мир образуют гладкие функции (скалярные и векторные), а они порождают матрицы маленького ранга. На днях я набрёл на альтернативное объяснение (откуда украл картинку для поста): матрицы в реальном мире похожи на результат матричных уравнений Сильвестра. У таких матриц будет маленький displacement rank – он свойственен системам, где можно выбрать разные точки отсчёта. Оценки у ребят получаются довольно некрасивые (кому нравится считать числа Золотарёва?), но зато точные. Кстати, в этом нашем диплёрнинге low displacement rank matrices уже успели поприменять. Широко известные в узких кругах Albert Gu и Tri Dao тоже отметились.
Всем подписчикам желаем низкого ранга по жизни – ну, чтобы гладко всё было, да. 👍
Почему собаки такие разные на вид?
В сравнении с другими видами собаки максимально разнообразны в формах, размерах и окрасах: от лысых немного тсясущихся крыс до статных спокойных коров весом в центнер 🥁. Поведенчески – тоже огромное разнообразние: лабрадоры добрые, колли пасут всё, что движется, а в чихуа-хуа живёт инкарнация дьявола. 😈
На этот вопрос отвечает исследование группы учёных, которые изучили ДНК 900+ псов. Оказывается, семью генетическими регионами можно объяснить примерно 80% всего разнообразия в формах и размерах наших любимцев. Это случилось из-за того, как эффективно начинающие Дарвины занимались искусственным отбором желаемых черт у наших домашних любимцев.
На картинке выше (интерпретация исследования от National Geographic) породы разделены на четыре кластера: волкоподобные собаки, пастушьи, охотничьи, и мастифоподобные. Интересно, что некоторые собаки, прикидывающиеся древними породами, например фараоновы собаки, по результатам генетического анализа на поверку оказались современной породой. 😮💨
C более подробное интервью с авторами можно ознакомиться вот тут. Интересно, как результаты подобных исследований переносят на людей?
китайцы релизнули 4оmni дома, аудио на вход и выход, одной моделью генерят аудио и парсят аудио в текст. Завели на qwen500m, звучит хорошо
github
ПингПонг V2
Ссылка: https://ilyagusev.github.io/ping_pong_bench/ru_v2
Все последние недели готовил новую версию ПингПонга.
Основные отличия от V1:
1) 3 роли вместо 2: игрок (player), опрашивающий (interrogator), судья (judge). Терминология, аналогичная сами знаете чему. Раньше опрашивающий и судья были одним промптом, теперь их несколько. Основные преимущества:
a) Их теперь могут отыгрывать разные модели, с разной ценой и параметрами.
b) Одну и ту же переписку можно оценивать разными моделями.
2) Опрашивающий = gpt-4o-mini вместо claude-3-5-sonnet. Так дешевле, а оправшивающему всё равно не обязательно быть очень хорошим.
3) Судья = ансамбль gpt-4o и claude-3-5-sonnet вместо только claude-3-5-sonnet. Это помогает избежать ситуаций, когда модели слишком высоко оценивают похожих на себя.
4) База в виде ручной разметки и 0.67 корреляции Спирмена с ней (по примерам, не по моделям).
Ну и пачка мелких интерфейсных улучшений, теперь можно читать вообще все диалоги, в том числе отказы.
Кидайте модели для оценки в комменты, добавлю в лидерборд.
набор олимпиадников в Яндекс в целом каноничное событие.
Все ещё лучше чем решать задачу оптимального транспорта
LLM Arena для русскоязычных моделей получила ускоренный подсчет интервалов от коллег из JetBrains Research
Ребята из JB интегрировали Evalic_y в наш бенчмарк, благодаря этому все считается на 60% быстрее!
А обновление уже в репозитории!
посмотреть подробнее Evalica
@simplyobot Перевалил отметку в 100м токенов и 1200 пользователей, из которых 400 пользуется каждый день!
Так же мы добавили Flux теперь веселее.
Планируем добавить еще поддержку груповых чатов
А вот это потенциальная бомба: Амазон судя по всему построил новую Алексу. В этот раз на базе Claude от Anthropic. Я очень надеюсь, что в этой Алексе будет такая же поддержка языков, как в Claude. Я вполне готов платить дополнительно 5-10 долларов в месяц за колонку, умеющую говорить на удобных мне языках https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/
Читать полностью…жениться очень страшно.
а что, если мы будем стоять у прилавка с ягодами в супермаркете и я скажу ей «надеюсь, у тебя нет аллергии на клубнику», а она даже не поймет
https://huggingface.co/AlexBefest/WoonaV1.2-9b ищу этого гения
Гемма доученная на MLP RP релизнулась, я поигрался и она прям хорошая!
LLM Arena для русскоязычных моделей
Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!
C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b
RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.
На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.
Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!