6051
Please fell free to send your questions to admin - @haarrp https://t.me/pythonl - channel for Python developers https://t.me/ai_machinelearning_big_data our channel with huge amount of useful information
Отказался от OpenAI за 80 миллиардов, чтобы построить компанию за 380: невероятная история Дарио Амодея
В ноябре 2023 года совет директоров OpenAI предложил ему пост генерального директора самой мощной ИИ-компании в мире, оценённой в 80 миллиардов долларов. Он отказался меньше чем за сутки и без колебаний. Через два года его собственная компания Anthropic стоит 380 миллиардов. Его зовут Дарио Амодей, и это его история.
Сан-Франциско, 1983 год, район Миссия. Отец Риккардо работал кожевником, итальянец по происхождению. Мать Елена занималась проектами по обновлению библиотек. В доме почти не было технологий: только книги, физика и одна навязчивая идея, понять, как устроен мир.
Отказался от OpenAI за 80 миллиардов, чтобы построить компанию за 380: невероятная история Дарио Амодея
Пока сверстники во времена пузыря доткомов собирали сайты на коленке, Дарио погружался в квантовую механику. Он не хотел делать очередной стартап. Его интересовали фундаментальные научные вопросы и то, что стоит за формулами. Этот подход он пронесёт через всю карьеру.
В 2006 году умер отец, от редкого генетического заболевания. Через четыре года появилась терапия, которая могла бы его спасти. Для Амодея это стало переломным моментом. Он окончательно утвердился в мысли, что скорость научного прогресса, это буквально вопрос жизни и смерти. Если наука движется медленно, кто-то платит за это близкими.
Путь в ИИ начался в Принстоне, затем Стэнфорд, Google Brain и Baidu. В какой-то момент Дарио оказался в OpenAI и стал вице-президентом по исследованиям. Именно под его руководством команда довела до релиза GPT-2 и GPT-3, задав направление, в котором развивалась вся индустрия больших языковых моделей.
В 2021 году он вместе с сестрой Даниэлой и группой исследователей ушёл из OpenAI, чтобы основать Anthropic. Главный мотив, безопасность ИИ. Амодей считал, что без серьёзной работы над согласованием моделей с человеческими ценностями гонка за мощностью превратится в гонку рисков. Так появилась компания, которая с первого дня ставит safety на один уровень с capability.
Флагманский продукт Anthropic, это Claude. Сегодня он один из главных конкурентов ChatGPT, им пользуются крупнейшие корпорации, разработчики и исследователи. Модель известна длинным контекстом, аккуратной работой с инструкциями и зрелой моделью поведения в чувствительных темах.
И вот финал первой главы. Осенью 2023 года OpenAI переживает корпоративный шторм с увольнением Сэма Альтмана. Совет директоров ищет нового CEO и делает предложение человеку, который знает компанию изнутри, Дарио Амодею. Он отвечает «нет» меньше чем за 24 часа. У него уже есть своя миссия и своя команда.
Два года спустя Anthropic оценивается в 380 миллиардов долларов, а Claude встроен в тысячи продуктов от стартапов до Amazon и Google. Компания, построенная вокруг идеи безопасного ИИ, обогнала по капитализации ту самую OpenAI образца 2023 года, от лидерства в которой её основатель спокойно отказался.
Иногда самый сильный карьерный ход, это отказ от очевидно выигрышного варианта ради того, во что ты по-настоящему веришь. Для специалистов по ИИ это ещё и напоминание: техническое лидерство без чёткой ценностной рамки быстро превращается в гонку без финиша, а правильно выбранная миссия способна перевесить любые краткосрочные предложения рынка.
https://uproger.com/istoriya-dario-amodeya-otkazalsya-ot-openai-i-postroil-anthropic-za-380-mlrd/
Господа, добрый день!
Скажите пожалуйста, а что делать, если у меня очень медленно на ноутбуке работают LLM?
У меня было ощущение что клод код нужно внутри папки проекта с кодом запускать, а все внешние доступы через мсп или что-то такое
Читать полностью…
А за счёт чего клод доступ к обсидиану получает?
Читать полностью…
Как будто переизобретаем классическую архитектуру Фон Неймана, только для нейросетей
Читать полностью…
А когда я сделал такое все меня за психа принимали
Читать полностью…
Что ему мешает сделать свою компанию и начать это продвигать? Какой смысл говорить?
Читать полностью…
⚡️ Андрей Карпаты высказал про дизайн ИИ-моделей мысль, которую большинство упускает из виду.
Его тезис: передовые модели не потому огромные, что технология сложная, а потому что данные для обучения мусорные.
Когда обычный человек думает про интернет, ему в голову приходят статьи Wall Street Journal, Википедия, серьёзные тексты.
Так вот, датасет для предобучения выглядит иначе. Если открыть случайные документы из реального корпуса, то там будут тикеры акций, битый HTML, спам и бессвязный текст.
По одной из оценок, Llama 3 сжимает информацию со скоростью всего 0.07 бита на токен. То есть модель помнит большую часть обучающих данных смутно.
Поэтому мы и строим модели на триллион параметров не потому, что нам нужен мозг такого размера, а потому что нужен движок сжатия такого масштаба, чтобы выжать хоть какой-то интеллект из потока шума. Большая часть параметров работает памятью, а не мышлением.
Предложение Карпаты - разделить эти две функции. Построить когнитивное ядро - модель, в которой остались только алгоритмы рассуждения и решения задач, без энциклопедического заучивания.
А рядом поставить внешнюю память, к которой модель обращается за фактами.
По его прогнозу, когнитивное ядро, обученное на качественных данных, способно выйти на настоящий интеллект при размере около миллиарда параметров. Для сравнения: флагманские модели сегодня крутятся в диапазоне от 200 миллиардов до 1.8 триллиона параметров, и большая часть этого веса уходит на запоминание интернет-помойки.
GPT-4o работает примерно на 200 миллиардах параметров и обходит оригинальный GPT-4 на 1.8 триллиона. Стоимость инференса на уровне GPT-3.5 с 2022 по 2024 упала в 280 раз, и почти весь этот выигрыш дали модели меньшего размера, обученные на более чистых данных с более продуманной архитектурой.
Настоящим узким местом ИИ сейчас является качество данных.
@data_analysis_ml
If anyone is keen on exploring interesting things about LLMs here is the article
Читать полностью…
Т.е on policy учится на собственных ошибках на каждом шаге меняя политику, off может использовать прошлые данные из буфера.
Есть в этом смысл, или лучше off давать задачу глобальной тенденции - тренды, а для on адаптацию к текущей ситуации?
У ВК будущее будет только при условии полного увольнения всего существующего руководства, так обсираться на монопольном рынке придавливая через друзей и любовников уничтожение конкуренции - это надо уметь
Читать полностью…
ждем жалобы от anthropic за использование их моделей
Читать полностью…
Скажите, может быть, вы знаете, как заставить LM Studio включить спекулятивное декодирование? Она мне говорит, что нет совместимой модели!
Читать полностью…
Примерно 2.5 токенов в секунду на Gemma 4 E4B 8 бит.
Читать полностью…
Ну да, так и есть.
У меня в обсидиане встроеный терминал с несколькими сессиями Claude Code.
И конечно куча MCP настроено
Он живет у меня прямо в волте. Как и Codex.
Для меня Obsisian - это моя агентская операционная система.
Sahred Brain для меня и моих агентов.
Ну это же устаревшие данные.
Карпати сказал это в прошлом году в ноябре.
GPT-4 на 1.8T и GPT-4o на 200B... ну камон... это сравнение моделей 2023-2024. Сейчас на дворе апрель 2026, ландшафт другой: Opus 4.7, Gemini 3.
"Llama 3 жмёт со скоростью 0.07 бит/токен"
Кто сейчас вообще пользуется Llama 3?
К тому же сейчас прогресс в производительности идет через улучшенние тулинга и inference-time scaling, а не от training.
Карпати предсказывал "тощая модель + внешняя память", а индустрия идёт в "умная модель + огромный контекст".
И лично для меня это работает с каждым днем все лучше благодаря Compound Context.
У меня когнитивное ядро Claude Opus 4.7, а внешняя память - мой Obsidian.
Когда обычный человек думает про интернет, ему в голову приходят статьи Wall Street Journal, Википедия, серьёзные тексты.
Читать полностью…
Вот бы фильтровать мусор и не учитывать помойку, а только релевантные данные
Читать полностью…
Разделить умение думать и память - как будто очевидная вещь
Читать полностью…
До сих пор разворачиваете PostgreSQL вручную?
Сэкономьте силы для задач разработки.
21 апреля в 16:00 (мск) пройдёт вебинар от MWS Cloud Platform, где эксперты компании расскажут, как получить готовую базу для бэкенда за несколько минут.
Что будет в эфире:
⚫️️️ облачный PostgreSQL: плюсы/минусы решения;
⚫️️️ как устроен управляемый сервис в новом облаке от MWS Cloud;
⚫️️️ машинерия под капотом бэкапов, автообновлений, switch и failover;
⚫️️️ создадим кластер за несколько минут и настроим подключение.
Вебинар будет интересен администраторам баз данных (DBA), бэкенд-разработчикам, DevOps- и SRE-инженерам, техническим лидам и архитекторам, владельцам продуктов и стартапам.
Зарегистрироваться
Соответственно on policy не может вообще не как работать а циклах т.к нужно все урезать через HRL, т.к обучение бессмысленно, если градиент будет резко меняться, если данные резко поменялись и алгоритм не помнит из истории были такие ситуации или нет -
НЕ может так сказать понять в % адаптации к прошлому исходя из текущего, смотрит только в текущее
Есть ли в rl комбинированные алгоритмы off + on policy? Есть ли вообще смысл в комбинировании ?
Читать полностью…
⚡️ OpenMythos: открытая реконструкция Claude Mythos на PyTorch
Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной литературе. Это не веса от Anthropic, а попытка сообщества воспроизвести саму идею.
В основе лежит Recurrent-Depth Transformer: один и тот же параметризованный блок с общими весами прогоняется T раз внутри одного forward pass, так что глубина достигается не новыми слоями, а итерациями. Поверх этого накручен sparse MoE с top-K роутингом, дающий условные вычисления на каждом шаге.
В отличие от классического chain-of-thought, reasoning идёт целиком в непрерывном латентном пространстве, без генерации промежуточных токенов между шагами.
Гипотеза автора: рекурсивный блок плюс разреженные эксперты дают лучший компромисс качество/стоимость инференса и потенциально эмерджентный многошаговый reasoning без раздувания модели.
Схема: Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами и LoRA-адаптерами по глубине, MoE-роутинг, ACT-халтинг для раннего выхода, на выходе RMSNorm и tied LM head.
Полезно тем, кто копает recurrent-depth модели, латентное reasoning и эффективные MoE. Поиграться с архитектурой можно, не дожидаясь релиза весов.
https://github.com/kyegomez/OpenMythos
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🚀 Появился интересный вариант Qwen с улучшенным мышлением
Qwen 3.6 35B дообучили на цепочках рассуждений от Opus 4.6.
Идея простая:
• берут быструю модель
• добавляют ей «логику» через distilled CoT
• получают баланс скорости и качества
Что в итоге:
- отвечает быстро, как обычный Qwen
- лучше справляется со сложными задачами
- реже теряется в длинных рассуждениях
Это тот же подход, который уже хорошо зашёл в комьюнити с Qwen 3.5 27B.
То есть не новая модель, а грамотный fine-tune, который усиливает уже существующую
Такие сборки могут быть полезны тем, что:
• их можно запускать локально
• они дешевле API
• и при этом дают более стабильное reasoning
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
@data_analysis_ml