Написал обзор на Phi4
Довольно любопытная инженерная статья про то как учить LLM хорошо, при token budget вдвое меньше чем у qwen2.5 14b модель выдает лучшие/такие же результаты.
А еще авторы предлагают любопытную модификацию DPO.
alexwortega/qLTfc-M_2HT">читать teletype
оригинальная статья
ПРЕТРЕН В С Ё?
Наши слоны из Нижнего Новгорода выступили на Neurips и рассказали что интернет в целом кончился, дальше надо делать time inference scaling.
С учётом того как Суцкевер повлиял на современные сетки, стоит как минимум послушать.
А время покажет, ошибается он в этот раз или нет.
Смотреть полный доклад
🎨 Играюсь с Recraft v3
Это лучшая нейросеть для генерации фотореалистичных изображений по результатам sbs сравнения. Особенно хорошо модель понимает русскую эстетику.
Сервис позволяет создать кастомный стиль изображения. Как образец можно загрузить до 5 фотографий.
Последние четыре фотографии в посте имитируют стиль лиминальных пространств.
@hikonon
Добавили новые модели от T-Tech в репозиторий на github Ru General Arena.
Напомню, что тут бейзлайн это все еще gpt-3.5-turbo-0125, а судья gpt-4-1106-preview, промпты засепмлпены по 50 разным топикам (т.е. и сложные и просптые вперемешку).
Интересно, то что по метрикам которые репортит T-Tech в своем посте на хабре, вихрь немо стоит довольно низко в лидерборде, в отличие от их моделек. Мое мнение если кратко: в текущей ситуации сранивать что-то довольно сложно, так как квены изначально довольно оверфитнутые на все многие классические бенчмарки, переведенные промпты AlpacaEval и ArenaHard это конечно хорошо, но под них уже много кто заоферфитился на английском и без изменений промптов оценки результаты на русском могут выходить как минимум неоднозначные, что и показывает большое количество сильных шейкапов между зарепорчеными авторами бенчмарками.
В целом, мне кажется, что таблица на скрине отображает мое понимание, но объективная реальность думаю всегда где-то посередине...
Большой день.
Мы выкладываем в опенсорс наши модели T-Lite и T-Pro. И эти модели просто топ 🥳
Мы увереннно выбиваем #1 среди открытых моделей по разным бенчам на русском. По MERA мы взяли #2 модель на русском ещё и включая все API, уступая только GPT-4o.
Это до-тренированный qwen-2.5 в размерах 7B и 32B. Мы провели большую работу: свой токенизатор, глубокое до-обучение на русский и специфичные корпуса. Аккуратная работа с данными. Тех репорты будут.
Этот релиз является подтверждением нашего подхода в LLM: допретрен на базе опенсорса и затем файнтюн под доменные области. Получается значительно лучше результат и мы тратим на порядок меньше денег (не преувеличение).
Пользуйтесь. Модели для инженеров, рекомендуется дальнейший файнтюн, например через наш Turbo-Alignment.
Наш новый HF: https://huggingface.co/t-tech
Лидерборд по MERA: https://mera.a-ai.ru/ru/leaderboard
Остальные бенчи тоже есть, арены будут как прокрасятся
Прошел почти год с релиза соры
- не разогнана до near realtime(как runway3, ltxv)
- 1080 как макс разрешение и только для подписки за 200 баксов(!)
- качество в ленте выглядит на уровне klingv1.5(хотя в деталях лучше)
закидывайте 200 баксов и погоняю эту фигню, свои кровные я не готов отдавать
Офигеть, обучили SAE для интерпретируемости CLIPа!
Теперь можно тонко настраивать эмбединги для генерации и делать оч забавные штуки
https://huggingface.co/zer0int/CLIP-SAE-ViT-L-14
Собственноручно проверил наличие супервеса (см. оригинальную статью и разбор от gonzo-обзоры ML статей) в Llama-3.2-1B.
Aномальный вес находится в позиции (400 - выходной канал, 1417 - входной канал) в model.layers.1.mlp.down_proj
.
Не столь ярко выражен (перплексия на Wikitext-2 (8k context length) выросла с 8.375 до 8.625 при занулении данного веса), но все же очень много для всего одно веса.
[Google Colab для желающих поиграться]
Встречаются два вонаби ресерчера в подчате Луна Парка и один другого спрашивает:
— Как найти работу llm ресечером?
— Могу рассказать...
— Рассказать-то я и сам могу, а как найти?
почему с каждым релизом wandb становится все хуже и хуже, что это блять, почему так мерзко, где EMA
Читать полностью…/channel/StarsAskBot?start=241154130
Го потестим, тут вопросы можно анонимно задавать, закидывайте. Стоит 1 звёздочку.
А вот и анонс от СЕО компании с цифрами бенчмарков!
У кого-то из чата уже заработали аудио-ввод и вывод (генерация речи), у меня пока нет(
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
Ссылка попробовать в AI Studio БЕСПЛАТНО: тык
В момент выхода анонса соры я говорил: этот прорыв будет в опенсурсе и очень быстро.
На момент выхода соры в виде сайта я говорю: а чо так слабо?
https://app.checkbin.dev/snapshots/1f0f3ce3-6a30-4c1a-870e-2c73adbd942e
oss apache2 hunyuan video (тупо видео генератор НЕ world model) vs sora paid world model
Читать полностью…OpenAI официально показали Sora!
Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".
Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.
Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.
Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.
Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.
sora.com
@ai_newz
Арена объективный бенчмарк.
Я повторяю, ее точно НЕ ВЗЛОМАЛИ, не верьте всем кто говорит что ее оверфитнули, они врут, у опен АИ лучшие модельки, ща o1 pro доедет до арены и заткнет всех за пояс, у опен АИ лучшие модели.
HunyuanVideo: A Systematic Framework For Large
Video Generative Models
- sd3 like DIT на 13б параметров учится с FlowMatching
- Претрен на комбинированном(картинки + видео) датасете
- LLAva как эмбедер
- Данные кластеризовали через 13 классов(подозреваю балансировали количество людей в сете)
- отдельно учили классификатор camera motion чтобы разметить датасет(!)
- 5d паралелезм(!) при обучении
paper