Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением. В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии. Aвтор: @asanakoy PR: @ssnowysnow
Hunyuan Image2Video
Tencent подсуетились и следом за WAN 2.1 выложили код и веса img2video функционала для своей базовой модельки в 13B параметров. Пример выше, конечно, впечатляет, но говорят, что на деле модель плохо сохраняет лицо и слабо следует промпту.
В стоке разрешение 720p с нехилыми требованиями — 60 GB VRAM, что сильно больше, чем у того же WAN. Официальная оптимизация fp8 пока в прогрессе, но умельцы уже умудрились запихнуть Хуянь в одну единственную RTX 3060. На генерацию видоса в 129 кадров (5 секунд) уходит 10 минут.
В целом, модель я бы сказал проходная — она буквально ни в чём не лучше WAN, ещё и более требовательная.
GitHub
Hugging Face
@ai_newz
Нейродайджест за неделю (#58)
LLM
- Deep Research — дали всем подписчикам ChatGPT, Plus подписка даёт 10 запросов в месяц, для Pro расширили до 120.
- Claude против покемонов — на твиче запустили стрим где Claude проходит оригинальный Pokémon.
- YandexGPT 5 — хороший перформанс Про модели, а Лайт версию выложили в опенсорс.
- GPT 4.5 — модель слабее предшественников в коде (потому что не reasoner), но её главная фишка это креатив и нормальный стиль живого человека.
- Подгоны от DeepSeek — авторы R1 выложили значительную часть своего внутреннего стака в открытый доступ (обзор скоро будет).
- Claude Sonnet 3.7 Extended Thinking — Антропик обзавелась своей ризонинг моделью, говорят лучшая для кодеров.
Генеративные модели
- Alibaba Wan 2.1 — мощнейший видеогенератор с открытым исходным кодом! Умеет в txt и img2video + имеет при себе два вида контроллера для video2video, и даже inpainting.
- Видео дайджест — собрал все новости с просторов txt2video за последние два месяца. Veo 2 в общем доступе, моделька Adobe и другое.
Гайды
- Prompt engineering от Карпатого — гений гайдов по ллм записал 2-х часовой advanced гайд по написанию промптов. Мастхев для каждого юзера ChatGPT и прочих.
Прочее
- Alexa стала умнее — колонке завезли настоящие мозги. Интегрируется со всем, что можно себе представить, включая доставку еды.
- Обмен каналами — делимся любимыми авторами и пиарим свои блоки про AI/ML и прочее.
> Читать дайджест #57
#дайджест
@ai_newz
Доступ к Deep Research дают теперь всем подписчикам ChatGPT
Обычные подписчики получают 10 запросов в месяц, а Pro подписчикам повысили ограничение с 50 до 120 в месяц.
@ai_newz
😮 Французский ответ Stargate
На AI Action Summit, президент Эммануэль Макрон анонсировал гигантские инвестиции во французскую ИИ индустрию - 109 миллиардов евро в течении следующих нескольких лет. Вплоть до 50 миллиардов придёт от фонда MGX из ОАЭ (он также участвует в финансировании Stargate), 20 миллиардов - от канадской инвестионной фирмы Brookfield, остальные деньги от плеяды более мелких инвесторов.
Значительная часть из вычислительных ресурсов, построенных на эти деньги, явно уйдёт Mistral - это сейчас единственная европейская компания способная выдавать конкурентноспособные LLM. Стартапам поменьше тоже достанется порядочно, но вот сколько - вопрос.
Похоже, что это всё - часть единой европейской стратегии по ИИ, которую должны представить завтра. Франция в ней должна сыграть лидирующую роль - у страны есть и куча талантов, и большие избытки атомной электроэнергии и доступ к современным чипам.
Государства всё ещё лишь начинают играть мышцами в сфере ИИ, это не последний такой анонс в этом году. Мои выводы после анонса Stargate лишь подтверждаются.
@ai_newz
Gemini 2.0 Flash - лучше и дешевле конкурентов
Модель заметно дешевле конкурентов - GPT-4o mini, DeepSeek V3 (по скидке) и Claude Haiku 3.5. При этом она показывает себя лучше всех этих моделей. Но есть и нюанс - расценки заметно поменяли. Раньше для длинных запросов цена была в 2x больше, а теперь цену сделали усреднённо единой. Теперь длинные запросы будут дешевле на 30%, а короткие - дороже на 30%.
А по старой цене доступна Gemini 2.0 Flash-Lite. Она лучше чем 1.5 Flash, но разница по бенчам с полноценной 2.0 Flash больше разницы в цене. Вот так ловко Google пытается пересадить разработчиков на более дорогую Gemini 2.0 Flash.
Вдобавок ко всему этому, Google обновил превью Gemini 2.0 Pro - более ранняя версия модели була доступна уже два месяца как Gemini-Experimental-1206, эта версия уже ближе к релизу. Надеюсь она не будет сидеть в превью ещё два месяца и релизнется скоро, желательно сразу с Thinking версией.
https://aistudio.google.com (может быть нужен впн)
@ai_newz
Мнение по Operator от ChatGPT на основе дня использования:
- это все еще ранний продукт, поэтому в бете: он не со всем справляется, но от него уже есть польза
- он полезен, когда вам нужно что-то собрать в автономном режиме: отправляете его собирать список философских кружков вокруг вас, он возвращается со списком ссылок, или у вас есть список товаров и нужно прописать им описания автоматом, или вам нужно найти какую-то редкую деталь, ответ и тп и тд, короче вы поняли
- он довольно сухо и коротко отвечает пока что - видно, что это будут настраивать
- поскольку это бета, агент может запутаться и долго делать простую задачу - простые задания лучше все еще делать кожаным
- каждый раз, когда он подходит к выполнению задачи, он просит вас вмешаться чтобы убедиться, что все ок - оператор работает в фоне и присылает пуш когда вы нужны, удобно
- забавный промпт инженеринг пример от OpenAI: в системном промпте, они говорят агенту что у него 20-летний опыт использования компьютера 🌚
- кстати, оператор будет доступен на телефонах в том числе, вчера упомянули на презентации - это уже киллер фича мне кажется, полноценный пк-браузер доступный в любой момент
Пока что мне нравится, соберу потом сценарии использования от сообщества
😮Трамп анонсировал проект Stargate по построению AI инфраструктуры в США на $500 млрд
Инвестиции в размере $500B – это очень много денег, и составляет 1.7% ВВП США, что сравнимо с тратами на Лунную програму США в прошлом веке.
Почему сейчас? Потому что Китайцы давят люто, и даже с гораздо меньшими ресурсами и под санкциями выпускают модели, которые не хуже по качеству чем у OpenAI, да еще и дешевле и быстрее.
США видит в этом прямую угрозу и хотят оставаться лидером в гонке AI. Также на уровне государства все осознали потенциал AI трансформации во многих сферах жизни, включая экономику и военную промышленность, куда исторически США инвестирует большие доллары.
Что это значит для нас? Это значит, что сфера дальше будет раздуваться, зарплаты AI инженеров и сайнтистов расти, а размер инвестиций в AI увеличиваться. Инфра и инференс моделей сильно подешевеет. Как сказал Коля Давыдов: "нас зальют баблом, AI стартапам будет очень хорошо".
Приведет ли это к AGI в широком понимании в течение следующих 5 лет? Я тут скорее скептичен и склоняюсь к тому, что нет. Но модели точно станут более мощными и умными.
Мы с вами в очень правильное время занимаемся очень правильными вещами.
@ai_newz
Text-to-CAD!🪳🪳🪳
Потихоньку возвращаемся из новогодней комы.
Зацените, что делают чуваки из Zoo (да, как зоопарк).
Со стороны выглядит как революци: мол, смотрите, нейросети теперь моделируют в 3D да еще и в CAD формате, инженеры — на завод. На деле же чуваки запилили свою среду для CAD-моделирования через код, а затем (до)обучили свою LLM этот код редактировать. Т. е. это не нативная генерация 3D-объектов, а опосредованная через код, что гораздо проще, чем научить модель генерировать 3D напрямую.
В примерах очень простые базовые детальки. Насколько я понимаю, для них у инженеров и так уже есть заготовки. Может быть, в будущем смогут делать более сложные модели, но вряд ли — кода может оказаться слишком много, и LLM в нем запутается.
Было бы полезно для выполнения рутинных задач, по типу изменения диаметра всех крепежных резьб, но пока я не увидел возможности подгружать свои файлы. Если завезут — будет клево.
Ну и самое сочное: уже открыли публичную альфу — и даже в Discord бота тулзу уже запихнули. Правда, у них даже сайт есть с тем же функционалом, так что Discord тут не обязателен. А ещё, вот, код их UI — может, кому пригодится для своих проектов.
AI действительно внедряется во все аспекты нашей жизни.
Инженеры-проектировшики, как вам такая приблуда?
@ai_newz
Уголок AI-энтузиастов от Сбера 🤖
Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити.
✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины.
✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере
✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub.
Ты можешь стать частью команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.
#промо
DeepSeek V3 - новый опенсорс лидер
На общих бенчах тягается с Sonnet 3.5 и GPT-4o, уверенно оставляя Llama 405B позади. Но особенно хорошо моделька показывает себя в кодинге и математике, что не удивительно - модель дистиллировали из R1, конкурента o1 от DeepSeek. А вот по бенчам для агентов Claude всё ещё значительно лучше.
Ушло на тренировку всего 2.78 миллиона H800 часов, что очень мало - у Colossus, суперкомпьютера xAI, на тренировку такой модели даже сейчас уйдёт всего день, а ведь его хотят увеличить в 10 раз. Датасет 14.8 триллионах токенов. Не смотря на то что тренировали в fp8, тренировка была на удивление гладкая - им ни разу во время тренировки не пришлось ничего откатывать.
Архитектурно модель это преемник DeepSeek V2, но заметно больше - 671 миллиард активных параметров, из которых 37 миллиардов активных (у меня есть пост о том как это работает). Теперь моделька может опционально предсказывать два токена за раз, что даёт 1.8x прирост в скорости. Устройство MoE слоя тоже слегка изменили - softmax в роутере заменили на сигмоид, а общий эксперт теперь всего один на слой. Практически убрали дополнительные лосс функции, которые нужны были для балансировки такого большого MoE, из-за чего увеличилась точность. Вот пейпер о том как это работает.
До 8 февраля стоимость будет такая же как у V2, а после её планируют заметно повысить - до $0.27/$1.10 за миллион токенов. Цена за закэшированные токены на вход тоже вырастает - с $0.014 до $0.07 за миллион токенов, но само кэширование бесплатное и автоматическое, да и хранят кэш целые сутки (у OpenAI и Anthropic по 5-10 минут, у Google платится за час кэша). Позволить себе так играться с ценами они могут - ни один провайдер до сих пор не запустил инференс DeepSeek V2 за адекватные деньги, надеюсь сейчас ситуация с этим улучшится. Даже с таким повышением цен, модель будет очень дешёвая - в 10 раз дешевле Sonnet 3.5 и 4o.
Веса
Пейпер
Чат (со вчерашнего дня на DeepSeek V3)
@ai_newz
QVQ - 72B Reasoner от команды Qwen
Моделька умеет в визуальные инпуты, по мультимодальным бенчам обгоняет 4o, но отстаёт от o1. Результатов обычных бенчей не публикуют, так же как и было с Qwen 2 VL 72B, на которой, похоже, QVQ основана.
Reasoner модели - явно новая парадигма скейлинга, которой теперь занимаются примерно все, ждите подобные превью и релизы в ближайшие пару месяцев от всех лаб.
P.S. Китайцы что-то очень быстро всё релизят, сегодня дропнулась DeepSeek V3 на 685B параметров, пока без деталей, но уже доступна в чате.
@ai_newz
Да, что этот робопёс себе позволяет?!
Вот здесь я совсем недавно на ECCV видел его вживую. А выше он же выполняет дикие трюки.
Unitree B2-W обойдётся любому желающему приобрести такого питомца в $150,000. Да, недешёвая выходит порода. Эта версия примечательна гибридом ног и колёс, вместо просто "палок", как у Boston Dynamics. Чуваки решили не отказываться от колёс — всё-таки это самый эффективный способ передвижения, которым природа обделила всех животных. Вышел эдакий гибрид ног с колёсами, совмещающий в себе проходимость ног и скорость колёс.
Кстати, Unitree выложили в опенсорс всё, на чём и как тренируют своих ботов, включая скрипты для Isaac Gym и датасеты.
Ну и, пользуясь случаем, напоминаю, что на эту зверюгу (другой версии) какие-то психи уже навесили ОГНЕМЕТ! и выпустили в продажу.
@ai_newz
А вот и несколько задачек из ARC-AGI, на которых валится o3, даже в high-compute режиме (где на одну задачу уходят десятки миллионов токенов, стоимостью в несколько тысяч долларов).
Самим порешать эти головоломки можно здесь. Задачи со скринов: 1, 2, 3. За сколько времени у вас их выйдет решить?
@ai_newz
AI для обработки звонков
Я уже писал о том, как топовые компании используют AI/ML в своей деятельности. Чаще всего нейронки используют в Customer Support/Service, правда, у них там свой штат программистов, которые им эти фичи кастомно прикручивают. Но сейчас эти процессы пытаются максимально автоматизировать, например, для речевой аналитики в контакт-центрах.
Тот же Yandex SpeechSense, который можно прицепить к своей стандартной CRM-ке, недавно научился выделять ключевые темы, проблемы и итоги диалогов с помощью YandexGPT. Такие смысловые теги помогают получить подробную аналитику по эффективности скриптов, проблемам/болям клиентов и кучу кастомизируемой статистики.
Здесь ребята на простых примерах показали, как это работает. Нейросеть анализирует диалоги из реальной жизни и определяет эффективность оператора, настрой клиента и то, что модель смогла выявить между строк. Вы также можете оценить диалог и дальше сравнить свое мнение с позицией беспристрастной нейросети.
@ai_newz
Ну что, поехали смотреть анонс GPT 4.5?
https://www.youtube.com/watch?v=cfRYp0nItZ8
@ai_newz
Нейродайджест за неделю (#57)
LLM
- Grok 3 — новая топовая LLM от Маска идет в релиз малыми шажками. Вышла неризонинг версия, обещает быть лучше в своем классе. Но никаких данных пока нет. Можно потесть ее в X.
Image & video модели
- Лекция от создателя Flux — запись первого доклада про лучшую txt2img модель.
- Veo 2 — топовая видео-модель от Google стала доступна во Freepik и FAL.AI.
Роботы
- Helix — Figure собрали робота на полностью локальной VLM.
- Neo Gamma — 1X сняли демку своего робо-приспешника. Выглядит сасно, как будто бы даже юзабельно.
Прочее
- Про регуляции AI в Швейцарии — теперь я точно могу себя ни в чем не ограничивать) ждите скайнет от меня 😘
- Ultra-Scale Playbook — книга-гайд с кучей красивых графиков о том, как наиболее эффективно использовать GPU кластер для тренировки ЛЛМ.
> Читать дайджест #56
#дайджест
@ai_newz
Le Chat теперь в 30 раз быстрее ChatGPT
ИИ чипы от Cerebras позволяют чату работать на скорости в 1100 токенов в секунду. Сейчас это просто интересная демка, но когда французы из Mistral сделают свою reasoning модель, это будет серьёзным преимуществом их чата. Зачем ждать пока какая-то o3-mini-high или R1 думает несколько минут, если она может справиться за секунды?
Но это не единственная новая фича - Le Chat теперь умеет исполнять код на Python и это доступно всем пользователям. Исполнение кода ограничено минутой, чего в принципе достаточно для
А ещё, у Le Chat теперь есть приложения на iOS и Android и Pro подписка за 15 долларов в месяц (со скидкой студентам). За подписку дают неограниченное количество сообщений, возможность отключить тренировку на своих данных и расширенное использование дополнительных фич - интерпретатора кода, поиска и генерации изображений.
chat.mistral.com
@ai_newz
На фоне роста ипотечной ставки и изменения курса $ россияне по рассрочке скупают объекты в ОАЭ.
Рассрочка беспроцентная, дается на срок от 2 до 8 лет с первым взносом в 10% от стоимости.
Например, можно взять квартиру у моря с террасой и бассейном, чтобы жить или сдавать в аренду. Доход здесь в валюте и не облагается налогом.
Подписывайтесь на самый большой канал о рынке недвижимости Эмиратов от аналитика Андрея Негинского (он на фото) и скачивайте в закрепе каталог из 20 таких проектов с описанием и ценами.
#промо
Kling Elements: есть ли смысл?
Я уже писал про генерацию видео с заданныит объектами, когда вышла пика 2.0. Но пика, мягко говоря, слабовата. Клинг объективно на голову выше, да и версия 1.6 недавно вышла.
И вот я всё-таки решил потестировать *Elements*. Мои спекуляции о том, как работает эта фича в Pika (там она зовётся ingredients), можете почитать здесь.
Ну что там по тестам? Я закинул мокап с телефоном и фон с каким-то модерновым домом. Я сам не очень представлял, как их совместить — собственно, и вышла шляпа. Но я хотел проверить, как передастся текст, и... на удивление, у него получилось! Ну, почти. По крайней мере, надпись "эйай ньюз" реально видна. А это очень важно для всяких AI-шных промо-роликов, ведь это значит, что эта штука способна передавать логотипы.
(Но, кстати, если отдельно залить только лого, он вообще его не воспринимает.)
Юзать для каких-то брендовых историй, где нужно, чтобы логотип обязательно сохранился, можно. Если просто задать конечный и начальный кадры с таким вот мелким (да и крупным тоже) текстом, у вас, скорее всего, ничего, кроме каши из пикселей, не выйдет.
Однако всё равно это очень тупо — генерить видео текстом, не имея контроля над начальной картинкой (как это делается в обычном image2video). А что, если мне нужна композиция или "киношность" MidJourney? Приходится кучу раз тестировать разные комбинации фона и продукта. Поэтому на ожидание генерации уходит просто неимоверное количество времени и токенов.
Кстати, Клинг по ощущениям — самый медлительный генератор. Даже в те моменты, когда на серверы не такая большая нагрузка, как сегодня на релизе, ждать приходится в среднем минут 7.
Так что хз, такой себе костыль. Не более чем временное решение.
klingai.com
@ai_newz
Ищем людей или команды, которые могут создавать простых ИИ-агентов для автоматизации бизнес процессов в отдельно взятой отрасли!
Добрый день! Мы - сеть медицинских клиник, а еще - преданные читатели этого канала. И вот складывается ощущение, что в канале - 2025 год, а у нас в отрасли - пахнет дореволюционным нафталином. Столько ИИшных возможностей хочется реализовать на практике, но совершенно не получается, потому что:
- отраслевые информационные системы дремучие, часто не имеют API или имеют, но скудный и плохой;
⁃ очень мало умельцев, которые одновременно ориентируются и во всем зоопарке ИИ моделей, и в том, как их пришить к действующим ИТ системам в организации (RPA, Silenium, может что-то еще)
Хотим местные захватывающие дух «сказки» сделать действующей и помогающей людям былью и ищем подрядчиков - разбирающихся в вопросе ребят или команды.
Пишите сюда, будем рады познакомиться!
#промо
Пре-трейн Grok 3 завершен!
На пре-трейн этап тренировки модели ушло более 200 миллионов H100 часов - самый большой трейнинг ран в истории. Это более чем 6x компьюта Llama 3.1 405B и 70x компьюта DeepSeek V3.
Сейчас модель тюнят (там тоже может быть несколько этапов). Релиз в массы обещают "скоро".
@ai_newz
Сходка на Бали в 2025
Ребят, как я уже намекал вчера, хочу организовать оффлайн встречу через несколько дней. И, кажется, это будет самая экзотичная сходка "эйай ньюз" – на Бали!
Уверен, что несколько человек из нашего комьюнити точно найдутся на острове. Интересно, сколько нас тут?
Ориентировочно хочу устроить встречу 3-4 января в районе пляжа Чангу.
Добавляйтесь в чат, если вы на Бали и предлагайте место, где можно встретиться. Буду очень рад вас всех увидеть!
@ai_newz
Нейродайджест за неделю (#50)
Рождество дает о себе знать, предновогодняя серия стримов OpenAI прошла. Все ресерчеры и инженеры разбежались по домом, кроме героев ниже:
LLM
- QVQ - 72B – Reasoner от Qwen. По мультимодальным бенчам обходит 4o, но до o1 ещё не дотягивает. А это ведь лишь цветочки - результаты нескольких месяцев работы с небольшими бюджетами, которые весь 2025 будут активно масштабировать.
- DeepSeek V3 – лучший в опенсорсе. Этот уже на равных конкурирует с SOTA не-reasoning моделями в стандартных бенчмарках, но при этом инференс в 10 раз дешевле. Посттрейн оставляет желать лучшего, но на то опенсорс и опенсорс, что скоро будут допиленные версии модели от комьюнити.
- О локальных LLM – ChatGPT лег, а мы обмениваемся своими любимыми модельками и локальными сетапами.
Прочее
- Unitree B2-W – робопёс на колёсах делает сальто и летает сквозь пересечённую местность.
- Локальный txt2video на мобиле! – взяли SD 1.5 VAE-декодер и жёстко заоптимизировали. Для стикеров пойдет.
- Книги на Новый год – или что подарить ML-щику.
- О PhD – мемчик.
> Читать дайджест #49
#дайджест
@ai_newz
ChatGPT лежит, давайте поговорим про локальные LLM
Какие модельки используют подписчики канала дома? Для чего вы их используете? На чём вы их запускате? Сервачок в облаке? Мак? ПК с парой видях? Пришло самое время поделиться своим локальным сетапом в комментах.
@ai_newz
🎄Как всегда получаю на рождество книги про AI. Вот такую получил в подарок в этом году. Так как я живу в Европе, то по сути успеваю отпраздновать оба рождества:)
Книга Ника Бострома, профессора из Оксфорда, про философский взгляд на развитие AI. Ещё не читал, но уже интересно.
Забавно, что Бостром в 2014 году, когда вышла эта книга, очень много говорил про риски и скорее предостерегал о негативных последствиях развития AI, а сейчас он пришел к более сбалансированному взгляду и считает, что если чрезмерно бояться прогресса технологий, то это может значительно замедлить развитие человечества.
Если кто-то читал эту книгу, напишите в комментах, что думаете про неё.
Кстати, накидайте бустов, а то не могу постить стори.
#книги #books
@ai_newz
Генерацию видео запустили на телефоне
Выглядит простенько, но 5 секундное видео генерится прямо на iPhone 16 Pro Max всего пять секунд, для небольших анимированных стикеров сойдёт.
За основу взяли Stable Diffusion 1.5 и VAE декодер из Open-Sora, которые крайне сильно запрунили, получив гигантский прирост по скорости - 10x в первом случае и аж 50x во втором. Модели старые и далеки от SOTA, но если кто-то в лоб применит такой же агрессивный прунинг, напрмер к Hunyuan или другим открытыми видео-моделями, то он будет очень сильно съедать качество.
Сайт проекта
@ai_newz
Нейродайджест за неделю (#49)
OpenAI
- Анлим Sora — теперь даже базовым подписчикам доступна безлимитная генерация видео в "медленной очереди", но лишь на праздники. Нужен не европейский VPN.
- Search GPT — минорный апдейт поиска от все тех же OpenAI (со стрима).
- OpenAI API — добавили o1, понизили цены и ещё пару плюшек.
- Информатор по делу об авторском праве мёртв — бедного парня нашли у себя дома, СМИ обвиняют OpenAI.
- +1-800-242-8478 — звоним ChatGPT и... пишем в WhatsApp. Мем.
- Thinking от Google — конкуренты OpenAI наступают на пятки со своими "думающими" модельками.
- o3 и o3-mini — модель на порядок превосходит предшественника o1. Правда, для прохождения бенчмарков нужно всего лишь $1,5 млн.
- Капча против AGI — убер-машина решает такие задачки, тратя пару тысяч $$$ за штуку. А как быстро вы сможете их решить?
Все, стримы OpenAI закончились😮💨
LLM
- Devin — AI-джун за $500 в месяц. Спорный стартап, пока неясно, как будет выигрывать конкуренцию у тех же OpenAI.
- Три опенсорс модели для русского языка — LLM, текстовый эмбеддинг и speech2text.
- Бесплатный GitHub Copilot — 2000 дополнений кода на месяц в VS Code.
Другие генеративные модели
- Veo 2 — Google подготовились к анонсам OpenAI лучше, чем сами OpenAI. Их text2video моделька по тестам (и теперь уже по зрительским симпатиям) опережает недавно вышедшую и теперь безлимитно доступную даже в базовой подписке Sora.
- ElevenLabs Flash 2.5 — научились генерить голоса в реальном времени, довольно правдоподобно, но это, конечно, не Voice Mod.
- Pika 2.0 бесплатно — кажется, поезд уже ушёл. Но не расстраивайтесь, Pika, как всегда, облажались и не завезли компьюта на такое количество народа. Так что, если вам повезло получить хотя бы пару видео, считайте себя счастливчиком.
> Читать дайджест #48
#дайджест
@ai_newz
Прогнать o3 на ARC-AGI стоит до полутора миллиона долларов
OpenAI запретили публиковать такие цены напрямую, но high-compute режим использует в 172 раза больше вычислений чем low-compute режим, цену которого мы уже знаем (8689 долларов).
@ai_newz