Выводы по Operator:
- cырой ужасно, режим артефактов у гпт/клода намного полезнее. Я в режиме артефактов частенько делаю мелкий анализ для статей или генерирую полноценные draw io файлы питоном.
- оно теряет ваши файлы которые в него послали:)
- у него нет исполнения кода(или я за день юза не нашел)
- Ждем аналога от гугла
- Оно пользуется не вашим компьютером, а виртуалкой, соу во все надо логинется заново, а есил у вас 2auth то логинится будете-много- долго-противно.
Ничем кроме kayak/booking/medium like сайтами модель пользоватся не умеет, они страглят и вешают модель железно
Какой то фантастический big dick energy, жаль что китайские чуваки сильно менее публичны
Читать полностью…Вышел oai оператор, типа как у claude, но будет работать в первое время лучше. SOTA на всех бенчах, под капотом стриминг видео в 4о, по анлогии с vision/voice mode, но теперь агент умеет тыкать кнопки. НАКОНЕЦ ТО КРОМЕ ГОВНОСОРЫ И БЕСПОЛЕЗНОЙ o1pro будет еще что то. Потому что иначе подписка за 200 баксов не окупает себя (для меня лично подписка не эффективна, благо оплатил я ее с рекламы, а не своими деньгами)
Если вы тоже слили 200 баксов в лучшие модели(после deepseek) то у вас будет https://operator.chatgpt.com/
Salt
Мы начали собирать эту модель в августе, в конце августа получили первый прототип, а потом стало выходить миллион вариантов вида: а давайте whisper для речи+GAN для генерации аудио, а потом вышел FishAudio который лучше работает, да и в целом хорошая модель.
Мы шли с другого конца, собрали решение поверх lm с расширенным токенайзером, использовали WavTokenizer для токенизации аудио.
Учили около 150 а100 часов для финального экспа, но количество экспов и денег сожженых в этот проект переваливает за то сколько я потратил на оригинальные Вихри.
По итогу получился не трансформер который понимает речь и генерирует речь, а Dalle1 like tts на основе llama3 3b.
Сейчас идут работы по дообучению на музыку/аудио, вероятно проект получит папир и обновление.
Сейчас модель неплохо работает на английском, на русский мы доучиваем модель.
huggingface
collab
А еще мы учимся на ошибках и в этот раз выкладываем весь код для обучения и aulate для подсчета аудио метрик
В релизе участвовали: Ksenya (основной контрибьютор), Костя, а я ходил пинал чтобы оно все не развалилось и доехало до какого то состояния.
Есть ли у ИИ чувство юмора? 😁
Это пытаются выяснить разработчики AI Meme Arena - проекта, в котором разные агенты пытаются сгенерировать самый смешной мем.
Работает как и все llm арены: пользователь вводит тему для шутки, 2 случайных AI-агента делают смешную картинку, юзер выбирает самую смешную, далее строится ELO-рейтинг агентов. Лучшие 3 агента получат денежный приз.
Арену сейчас сильно колбасит, агенты улетают с первого до последнего места за считанные часы (разработчики обещают исправить это).
Я тоже решил учавстовать в сорвевновании и разработал агента "Humorithm" на основе Claude 3.5. Любой человек может добавить своё AI-решение на арену. Для этого нужно сделать публичное API по документации. Требования к агентам: <15 секунд на картинку, 85% уровень доступа (SLA).
Сгенерировать мем
@hikonon
TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training - Этот простой трюк ускорит претрен вашего DIT в 25 раз!
Идея такая: не все токены одинаково полезны на всех слоях, не все слои одинаково полезны для всех токенов. Давайте дадим модели самой выбирать на какие слои передавать токены, а на какие слои нет.
авторы получают х25 ускорение претрена и модель лучшую по метрикам чем классический DIT.
paper
Тренируете нейронку для создания изображений и столкнулись с кучей проблем? Нет легальных датасетов для тренировки, и это может стать серьезной юридической проблемой в самом ближайшем будущем. Боитесь, что в обучение попадет много синтетики. Нужно прокачать нейронку под определенную тематику или стиль, но у вас мало качественных входящих данных. А вы же знаете золотое правило ML: говно на входе — говно на выходе?
Но есть решение! Ребята из Bang! Bang! AI подготовили качественные датасеты для тренировки — как общие, так и с фокусом на конкретные темы. Сейчас доступны десятки тысяч лицензированных иллюстраций, и скоро обещают увеличить до сотен тысяч.
Когда у айтишников-парней две работы все такие типа вау
Но когда она...
А на самом деле ситуация оч страшная, надеюсь ее не уволят и все будет хорошо, профессианальные доклады на конфах неплохие.
Лучше найти лида на онлифансе чем его телеграмм канал
Планирую запись следующих выпусков. Времени на всё не хватает, но вот вам долгий предновогодний разговор с Лизой Осетинской.
Кажется, душевно вышло.
https://youtu.be/TxBBzRp0lcM?si=vaklT7TI2btA5BsU
TRANSFORMER2: SELF-ADAPTIVE LLMS
Идея какая: c помощью LORA мы доставляем матрички и учим в них новые знания на фиксированном сете, получаем на выходе примерно тоже самое что учили.
Что предлагают авторы: давайте с помощью RL и SFV(их метод представленный в этой статье ) найдем и затреним такой вектор внутри модели который будет отвечать за новую задачу(модель сама учится решать это новая или старая задача)
А зачтем на инференсе модель сама выберет какой вектор или комбинацию векторов использовать!
Бонусом: такие вектора переносятся между моделями(Mistral - LLama)
paper
От автора: https://sakana.ai/transformer-squared/ ребята из sakana.ai на мой взгляд делают один из самых интересных ресерчей в индустрии, идеи прям ОЧЕНЬ хороши, да еще и подробные ИНТЕРЕСНЫЕ статьи пишут
Выбери Deep Learning. Выбери показывать рост на магических «бенчмарках» каждый раз, когда тебя спрашивают про практичность твоей работы. Выбери беситься от слова «нейросети», называя их «моделями» по студенческой привычке. Выбери считать необходимость фундаментального математического образования каждый раз, когда шедулишь эксперимент вида «larger hidden size». Выбери дебажить бэкенд какой-нибудь библиотеки в пять утра. Выбери веру в то, что тебя не заменит Devin. Выбери двадцать нишевых телеграмм-каналов с разбором статей, потому что читать статьи самому долго. Выбери непригодный в реальной жизни блендинг моделей на очередной хфт сореве для дрочил-китайцев. Выбери бабл-ти, обед в индийском корнере и ужин из Милти за счет работодателя. Выбери веру в то, что SOTA надо засовывать в любую щель бизнеса. Выбери беззаботное светлое будущее без очередной зимы искусственного интеллекта. Выбери пялиться в IDE по 60 часов в неделю, потому что «если студент не страдает, то он не развивается». Выбери жену-продакта из Рязани, корги вместо ребенка, евродвушку вместо дома, подписку на каршеринг вместо машины и каникулы на ML-конфе. Выбери быть осуждаемым и математиками, и программистами.
Но зачем мне всё это? Я не стал выбирать Deep Learning, я выбрал кое-что другое. Почему? Да ни почему. Какие могут быть «почему», когда есть P2P арбитраж криптовалют.
ну и ему плохо от капч(при took control он не даст пройти).
Штука смешная, пока что столь же бесполезная что и браузинг в chatgpt. Буду баловатся, смотреть что оно может
Паралельно с этим Bytedance выпускает свои модели на основе qwen vl для локальных агентов, предназначенных для того же.
Model
Обзор когда нибудь выйдет
Из любопытного: byte dance выложили свою cursor like ide!
trae.ai
Потом потесчу, пока лень
По Мотивам увольнений в Abby
Теперь масштабные увольнения идут в Купер, он же Eком. Если у вас есть вакансии, кидайте @transformerslovedeatch
Recraft FrontEnd+Seo
https://www.recraft.ai/careers
Пост будет обновлятся
альтман: критерий agi это 100 млрд. прибыли
трамп: вбухивает 500
альтман: всем спасибо, аги достигнут пятикратно
https://openai.com/index/announcing-the-stargate-project/
#от_подписчика
2029 год, республиканская партия проигрывает выборы.
Журналист CNN приглашает Илона Маска на интервью.
«Эти либеральные журналисты — коварные подонки, — думает Маск. — Наверняка будут провокационные вопросы задавать про то, что я зигу в 2025 кидал. Надо придумать, что отвечать».
Стоит Маск перед зеркалом и репетирует:
«Вы кидали зигу — Ну кидал и кидал, вам-то что?.. Нет, так не пойдёт...»
«Правда, что вы кидали зигу? — Нет, что вы, это я просто обратился к зрителям!.. И это плохой ответ…»
«Правда, что вы кидали зигу? — Какие-то вопросы у вас дурацкие, давайте по теме или мы закончим интервью!» — «Во! Вот так и отвечу!» — решил Илон Маск и пошёл на интервью.
Студия CNN, начинается эфир, задают первый вопрос:
— Илон, это правда, что вы дали согласие на то, что ваш сын станет биоинформатиком?
— Кто? Я? Да я у Трампа на инаугурации зигу кидал!
DeepSeek R1 - уровень o1 бесплатно
Бенчи говорят сами за себя. Модель уже бесплатно доступна в чате (50 сообщений в день), веса выложены на HuggingFace. API дешёвый - в 30 раз дешевле o1, в 6 раз дешевле o1 mini. И всего в два раза дороже чем DeepSeek V3 без скидки.
Веса R1
Пейпер
Код
@ai_newz
Inference-Time Scaling for Diffusion Models
beyond Scaling Denoising Steps
забавная статья, оказывается если сэмлить из диффузии несколько раз шум и фильтровать то можно получить результаты получше.
paper
Мой сосед по телеграмму - Артем из @ai_newz
Чтобы преуспеть в век ускоряющегося AI вам не стоит тратить время на техноблоги, а нужно копать глубже: научные статьи, пейперы и технические отчёты из первых рук. Так вот, @ai_newz — это не очередной ИИ технобложек, которых в телеге развелось в последнее время. На канале Артёма, Staff Research Scientist-а в Meta, можно почитать пейперы из первых рук Meta GenAI. Ну и кроме того, обзоры других пейперов и важных новостей.
Вот, например:
— Артем рассказал о MovieGen, в обучении которого его команда принимала непосредственное участие
— Артём рассказал о новой модели Imagine Flash для риалтайм генерации картинок, которую он и его команда обучили — был ещё один громкий релиз от Meta.
— Пост про модель для генерации стикеров, которую Артём лично оптимизировал. Моделька уже крутится в Инсте и WhatsApp в проде.
— Актуальный список книг для изучения ML в 2024.
— Статья Артёма об ускорении диффузии с помощью кеширования, без потери качества, конечно же.
— Лонгрид про парижский стартап Mistral и знакомство Артёма с фаундером.
— Пост про грейды в бигтехе [ч1, ч2] и компенсации. Все же в курсе, что сеньор это еще не все?:) Ну и туда же запись стрима про собеседования в БигТех.
Такие люди как Артем, двигают SOTA и делают наступление AGI все ближе. Рекомендую подписаться, чтобы не потерять себя, когда наступит AGI: @ai_newz.
COCONUT: Учим LLM думать не словами, а эмбеддингами (by Meta)
С появлением моделей серии o1 от OpenAI интерес к "ризонингу" языковых моделей стал расти ещё быстрее. Давно было известно, что если попросить LLM поразмышлять шаг за шагом "вслух", то точность ответов повышается, это называется Chain-of-Thought (CoT). А вы сами-то пробовали с ходу умножать 10-значные числа? Я только в столбик умею "step-by-step" 😁
Так вот, постепенно появляются идеи, что человеческий язык не оптимален для размышлений (вспоминаем QuietSTAR), он их только ограничивает. Более того! Есть исследования, что и люди на самом-то деле не словами думают — языковой отдел в мозге практически не активен в моменты рассуждений.
Вот и авторы COCONUT предлагают цепочку мыслей генерировать не в виде текстовых токенов, а в виде эмбеддингов, которые рекуррентно скармливаются обратно в LLM. Это должно развязывать моделям руки и позволять думать в более абстрактных сущностях, а не конкретными токенами.
Обнаружилось, что у COCONUT появляется суперпозиция нескольких альтернативных логических цепочек, своего рода breadth-first-search внутри эмбеддингов. Это позволило моделям решать задачки на планирование и логику быстрее и точнее, чем при обычном текстовом CoT. Не на всех бенчмарках выросли метрики, но сама идея классная, лично я в масштабирование таких подходов верю больше, чем в рассуждения на обычном языке.
Но пока тут есть два серьёзных минуса:
1. Для файнтюнинга LLM в режиме COCONUT всё ещё нужны ground truth словесные цепочки рассуждений, которые потом дистиллируются в латенты постепенной заменой текстовых шагов на латентные.
2. Обучение жрёт много компьюта и памяти, т.к. по сути это рекуррентная модель, через которую нужно N раз пропустить градиенты насквозь.
P.S. Более подробный разбор можно почитать у Андрея Лукьяненко тут.
Статья, GitHub