Кому было интересно, ну вообщем начали тренировать новую модель OpenAI - наверное GPT5Q или около того. Известно это стало из новости об образовании safety комитета, ну правильно боятся что натренируют снова ерунды по всяким чувствительным вопросам.
Так же до меня дошло почему Игорь Бабушкин в xAI такой круто и видимо потому что он написал вот такую работу, которая говорит что мол есть такой эффект Grokking (оттуда и название модели Илона видимо), якобы это такая продвинутая генерализация даже если непосредственно таких данных вы в сетку не кормили (Петя друг Вани. Ваня 1999 года рождения. Тогда можем сказать что Ваня 1999 года рождения друг Пети.). Тема интересная так как смахивает на то, что какие-то логические цепочки можно получить скормив ну очень много подобного рода данных. Вы кормите и данные и некоторые зависимости между ними, а модель при очень долгом обучении на таких данных начинает эти зависимости неким образом соединять выводы новые правила (импликация и прочие штуки).
И вот выходит новая работа которая очень хорошо развивает эту тему.
Авторы изучают как же так иногда выходит получить гроккинг (а-ля магия), а иногда нет. Если кратко, то эффект по сути сводится к тому что мы можем получить связи OOD (out of distribution) имея много примеров и связей между ними и потом на них очень долго обучаем. Хороший обзор.
Еще крутая тема это Super-alignment но о ней потом.
Google раскатил свои генеративные ответы в поиск(только в сша кажется). Добавил конечно же рекламку. Но и ответы жуть, напоминает релиз их модели генерации изображений. Похоже тоже откатят.
Читать полностью…Обработал часть вопросов, которые собирал. Есть парочка где надо прям побольше побольше времени.
https://telegra.ph/AMA-05-22-20
https://www.sequoiacap.com/article/pmf-framework/
Неплохой фреймворк про product market fit. А вообще был в Шотландии несколько дней. Пару фото вам и крайне советую посетить.
Приступаем к постингу :)
Все еще продолжаю удивляться. Антропик нанимает кофаундера инстаграма. Ну знаете как большого продакта со стратегией. Но который думаю за последние лет 7-8 ничего толком не делал в продукте. Артифакт, который был для новостей так и не пошел дальше анонса по сути.
Интересно что формально он был CTO. И занимался скейлингом команды.
Ну что ж ждем новых фильтров от антропика.
А кто для вас идеальный CPO? Ссылку в на линкедин.
Google ожидаемо вынес много всего нового, но я считаю что коммерчески они впереди по понимаю как не потерять денег во всем этом.
AI Overviews. Когда часть запросов отдадут прям в модельку и прямо в поиске. Интересно куда попадет реклама в таком случае, и сколько потеряют ребята. Выкатят в сша уже на неделе - буду следить за отчетом. Но уверен все посчитали и скорее всего будут лидить в YouTube где хорошо растет реклама.
В остальном огромный размер окна, конкурент видео генерации - ну такой себе, куча приблуд с визуальным поиском.
Ну и вот вам видос, считаю что это отличный релиз и понятно почему Apple хочет такое. Ждем завтра Google и ответочку.
Все еще я вижу в этом большой enterprise business и не очень понимаю как они собрались сделать b2c ибо видеокарт на всех все еще не хватает. Плюс ждем чтобы самим попробовать, как показывает практика демо это одно, а вот живое использование это другое.
И еще немного мыслей Сэма
Страница модели
Если что стрим анонса OpenAI тут. Начало через 10 минут.
https://www.youtube.com/watch?v=DQacCB9tDaw
Меня в целом не удивляет и не оставляет вопросов почему модель от meta так хорошо перформит на диалогах и беседах, и хуже на других задачах типа экзаменов и прочего.
И все авторы и рисчерчеры так рассуждают мол, вот скормили туда датасет аккуратно и все такое. Ну ясен пень у огромной социальной сети есть данные диалогов с данными когда он хороший и успешен и разметка и любой блин контекст. А потом еще фиг докажешь у модели что они тренились на каких-то приватных размеченных данных. Жду когда Google тоже начнет все, что спарсил в датасет помещать. Это все вопрос времени и KPI менеджеров. Тут вот тоже надо было на чатарене место повыше сделать.
30 статей, которые по слухам Илья Суцкевер (один из главных ученых в OpenAI) посоветовал Джону Кармаку (легендарный программист и основатель idSoftware который Quake) чтобы разобраться что к чему в AI. Говорит если эти работы поймешь - все встанет на свои места.
P.S. Я прочитал и понял примерно половину. Ну так чтобы объяснить другому.
KREA.AI похоже делают редактор, где есть всякие плюшки с AI. Аля такой Canva подход думаю только на современный лад и чтобы поиграться еще. В целом и Canva начинала с темплейтов для сторис.
Читать полностью…TLDR статус AI/ML:
1. Масштабирование и развитие deep learning будет приносить все больше новых возможностей и фичей и делать текущие задачи все лучше и лучше.
2. И в то же время это не приведет нас к AGI.
3. Мы все еще далеки от AGI, и LLM не особо приблизили нас к нему.
4. Мы еще далеко не достигли полного внедрения и интеграции deep learning методов. Все еще огромное количество задач можно решать с его помощью и много еще предстоит построить.
MAI-1 - а вообще названия LLM все больше похожи на названия космических аппаратов. Вояджер, Союз, ТКС и прочее.
Если коротко, то Microsoft наняла бывшего лидера DeepMind и теперь понятное дело учит свою foundation model на 500B параметров, скорее всего релиз на их конфе Build 21 мая. Ну что ж посмотрим как они со своим же стартапом будут конкурировать. Напоминает конструкцию DeepMind & Google.
А вообще вот полезный ресурс для сравнения цены/скорости доступных провайдеров моделек. Надеюсь Microsoft не будет делать так же дорого как OpenAI.
Минутка математики в канале, пока я там смотрю какие, кто вопросы написал, возьмусь отвечать где-то на неделе.
Недавно как я и говорил рассказывал про ICL, готовлю нормальный материал сюда чтобы выложить. И там до меня и моего рассказа была отсылка к тому, что мол в LLM все ой как недетерминировано. На что я возразил, что мол не так, а интерпретация страдает, да и в целом если сэмплинг токенов сделать по самой высокой вероятности - степень так сказать рандома упадет очень низко. И решил в целом думаю посмотрю, а насколько математика может сводить определенные типы задач где много рандома к четкому детерминизму. И оказалось, что вообще-то вопрос решен.
For a 1994 paper, he and the computer scientist Noam Nisan illuminated that connection. They proved that if any natural hard problems exist, as most computer scientists suspect, then every efficient randomized algorithm can be replaced by an efficient deterministic one. “You can always eliminate randomness,” Wigderson said.
Источник
Вообще все работы антропика очень интересно читать. И сегодня есть новенькое.
Про интерпретируемость вышла новая серия.
Предыдущая серия считаю одна из лучших вообще работ по понимаю как работает трансформер.
Если вам нужна на старте, в самом начале, помощь для выхода продукта на рынок от экспертов, менторов, трекеров, консультантов - не делайте такой стартап.
Читать полностью…Чуть чуть подумал. Все еще считаю, что вся эта башня технологий нужна как единственный способ пошатнуть поисковые технологии. Ведь имея лучшую модель по опыту использования общения и понимания языков ты можешь поместить вниз индекс из веба и свою модель и ты получишь новый Google.
Текущая фаза OpenAI и конкурентов прекрасна, напрямую это enterprise. Но все прекрасно понимают где деньги.
Пожалуй это один из немногих за 20 лет моментов, когда можно пошатать поисковый рынок. Тут фишка даже в том, что в теории можно убить Яндекс или любой другой локальный поисковик. Помогут только регуляции, но скорее всего отодвинут прогресс целой индустрии на 1-2 года (время чтобы догнать).
Мой таймлайн чтобы потом проверить(хорошее упражнение для любого менеджера это записать что думаешь и потом проверить):
- в конце года будут релизы всего этого дела в клиентах на всех платформах(риал тайм взаимодействия с ChatGPT)
- в следующем году в каждом телефоне нативно
- в конце следующего года в наушниках Apple будет свой Jarvis
- за два года ставлю на то, что OpenAI поисковик будет иметь какую-то заметную долю (называться будет как-то как ассистент какой-то)
Самые важные задачи для решения:
- построение своего индекса
- очень быстрые итерации по улучшению модели на локальных рынках
- переход на инференс на CPU
- повсеместное кэширование
Я даже в какой-то степени верю, что сегодняшний релиз важнее чем LLM типа ChatGPT 3.5. Потому что в теории тебе не нужно иметь этот огромный архив данных который обучается сотню лет в GPU часах. All hail deep learning. Ой как много всего мы еще сделаем через данные и подгон кривых.
Помните я писал про модель тут, так вот это и была новая модель и она очень хороша судя по бенчам на ChatArena
Мягко говоря выигрывает всех и очень хороша в кодинге (что я заметил сразу).
Снова слухи про предстоящие релизы. Неделя будет жаркая ведь сразу и Microsoft Build, и конфа от OpenAI и Google. Посмотрим.
Но самая крутая инновация в бизнес модели это оплата за токены вперед :) тогда будет дешевле. Вот это четко.
А так все ждут поиск, конкурента Siri (при этом сами договорились продавать API в Apple) и много всего еще. Я жду контекстное окно в 10M токенов чтобы прям много новых сценариев использования попробовать. Ваши гипотезы? :)
Music by elevenlabs, ну ожидаемый ход. Верите что смогут реально хоть один популярный альбом сделать полностью генерацией? И когда?
Читать полностью…Что там по молекулам и белкам и всему такому. Говорят хорошая моделька поможет нам быстрее побеждать вирусы, делать классные удобрения и все такое.
https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
Очень хочется и чешутся руки написать подробный разбор данной статьи про методы «увеличения retention» от партнера a16z Bryan Kim, с которым у меня очень спорная история взаимодействия. Потому что его обычный ответ на твой питч это, а где там d30 ~30% и лям DAU, говоришь нету, ну тогда пока.
Но думаю что оформлю свою версию его советов как отдельный большой пост. Тем более материала накопилось.
Из новой статьи Andrew Chen я бы пожалуй сделал вот такое саммари, которое во многом показывает тенденцию так называемого допаминового множителя.
Читать полностью…