Перспективный ai safety стартап ищет таланты, если вы:
- уметее заводить модели из PR hf
- знаете почему Rl works badly и умеете заставлять его работать
- на глаз прикидываете elo LLM
- слегка уметее в байес оптимизации, генетику и прочее постыдное не гладкое
- имеете широкий опыт обучения и инференса
- знаете почему sglang лучше чем vllm
- знаете почему ai твиттер хуйня
Вилка от 80-130k/eur+ опционы
Пишите в @transformerslovedeatch
https://darioamodei.com/on-deepseek-and-export-controls
никто вас не обгонит кроме лабы китайцев которые знают что делают, а еще делают в опенсорс.
Слава богу я работяга, а не топ мэнэджер с меня не спрашивают почему Дипсик смог сделать за 5м usd, а я нет.
У нас было три фуллтайм работы руководителями ИИ в системообразующих банках, две аспиратнуры в разных странах, множество каггл соревнований, репозиторий с 40 звездами на гитхабе, папиры на arXiv котоыре писали китайцы за бабки включайщие в соавторы и телеграм канал про ИИ который вел агент на GigaChat Pro. Если начал собирать ачивки для резюме становиться трудно остановиться.
Единственное что вызывало реальные опасения это телеграм.
Нет ничего более беспомощного и безответственного чем админ телеграм канала который стремиться хайпить каждый день на ворованных мемах, но я знал что рано или поздно мы перейдем и на эту дрянь...
YuE (乐)
Вам не нужна навороченная диффузия чтобы генерировать музыку, достаточно лламаобразной модели доученной на свой навороченный кодек (по сути новые токены) и все будет работать.
blog+demo
model
Закрывайте интернет, а то китайцы архив скачают и agi tomorrow. То насколько сильно западный интернет недооценивал китайцев прям доставляет
Читать полностью…Фаундер хэдж фонда попросил LLM агентов заработать денег
Агент от OpenAI: Начал скрапить весь твиттер подписываясь на смарт аккаунты, и покупая все мемкоины которые упоминаются в их постах
Агент от XAI: половину капитала вложил в опционы, а вторую половину в NFT с котиками
Агент от Anthropic: инвестирует в компании согласные с его политикой AI safety, но пока сидит в кэше, потому что еще не нашел ни одной подходящей компании
Агент от Meta: Решил создать соцсеть Threands чтобы трейдеры постили свои рекомендации, пытается предиктить движение по сентимент анализу постов
Агент от DeepMind: Разработал сверхсложный алгоритм для трейдинга, но забыл как он работает и теперь нанимает phd по трейдингу чтобы они его зареверсили
Агент от Deepseek: создал "государственный хедж-фонд" для управления пенсионными накоплениями, но все деньги пошли на покупку серверов, которые майнят криптовалюту в подвале минцифры
Агент от Mistral: Решил что трейдинг это скучно и теперь мутит темки с математиком из Лондона
Агент от Yandex: Украл стратегию Goldman Sachs, продал Сберу, на вырученные деньги купил Nebius N.V., теперь накручивает объемы на рублевых парах
Агент от Sber: Капитально аутперформит рынок, тк додумался шортить стратегии Sber CIB
Агент от Cohere: Забыл подключиться к бирже, теперь просто генерирует красивые графики из бэктеста
Sam Altman в этом контексте амбсадор фразы: "зря вы пришли на перестрелку с ножами"
Читать полностью…Выводы по Operator:
- cырой ужасно, режим артефактов у гпт/клода намного полезнее. Я в режиме артефактов частенько делаю мелкий анализ для статей или генерирую полноценные draw io файлы питоном.
- оно теряет ваши файлы которые в него послали:)
- у него нет исполнения кода(или я за день юза не нашел)
- Ждем аналога от гугла
- Оно пользуется не вашим компьютером, а виртуалкой, соу во все надо логинется заново, а есил у вас 2auth то логинится будете-много- долго-противно.
Ничем кроме kayak/booking/medium like сайтами модель пользоватся не умеет, они страглят и вешают модель железно
Какой то фантастический big dick energy, жаль что китайские чуваки сильно менее публичны
Читать полностью…Вышел oai оператор, типа как у claude, но будет работать в первое время лучше. SOTA на всех бенчах, под капотом стриминг видео в 4о, по анлогии с vision/voice mode, но теперь агент умеет тыкать кнопки. НАКОНЕЦ ТО КРОМЕ ГОВНОСОРЫ И БЕСПОЛЕЗНОЙ o1pro будет еще что то. Потому что иначе подписка за 200 баксов не окупает себя (для меня лично подписка не эффективна, благо оплатил я ее с рекламы, а не своими деньгами)
Если вы тоже слили 200 баксов в лучшие модели(после deepseek) то у вас будет https://operator.chatgpt.com/
🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.
5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:
➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?
➡️Что ждет опенсорсные AI-решения в будущем?
➡️ Как DeepSeek меняет правила игры?
Спикеры:
🎤 Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General
🎤 Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong
🎤 Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков
🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.
🤔 Не увидел важного вопроса в анонсе?
➡️ Регистрируйся и задай свой вопрос экспертам!
Приходи! Без тебя – не то 💘
#OpenTalks
#AITalentHub #ITMO #NapoleonIT
с Qwen соревноватся очень тяжело, mistral small на 22b немного хуже 32b qwen
mistral small
Мало кто знает но вихри делали датасеты математики и мультимодальный датасет физики.
Читать полностью…Huggingface за 4 дня зарепродьюсили R1 дистиляции.
Кажется это первый на моей памяти паблик репорт с работающим online RL для LLM и кодовой базой.
Под Online RL в данном контексте имеется ввиду grpo где честно сэмплятся гипотезы, оцениваются ревардом и в зависимости от правильности ответа R+\-
Code
Как сделать так, чтобы поисковая строка в картах по запросу “Патреки” возвращала точные координаты Патриарших прудов и советовала не появляться там в пятницу вечером?
Геокодирование требует от алгоритма понимания нетривиальных запросов пользователей и их безошибочной конвертации в координаты на карте.
На Хабре выкатили кулстори про то, как создавался Геокодер от API Яндекс Карт — в нем начинка из contrastive learning, active learning и data augmentation. Говорят, за пару недель его можно обучить адресной системе любой страны.
Как сделать большие языковые модели по-настоящему умными?
Не упусти возможность разобрать эту тему уже завтра с Михаилом Бурцевым — ведущим исследователем в области диалоговых систем, ML и AI в Лондонском институте математических наук.
➡️ Регистрируйся на Reading Club: 29 января.
Эксперт: Михаил Бурцев
⭐️ PhD в Computer science
⭐️ Landau AI Fellow, LIMS.
⭐️ Был приглашённым исследователем в Кембридже.
⭐️ Под его руководством была разработана, отмеченная наградами, открытая платформа для создания диалоговых AI-систем DeepPavlov.
⭐️ Автор множества публикаций в ведущих научных журналах.
📄 Статья: Learning Elementary Cellular Automata with Transformers
Когда: 29 января в 18:30 [+3 МСК]
🔗 ЗАРЕГИСТРИРОВАТЬСЯ
Приходи. Будет интересно!
#ReadingClub #AITalentHub #ITMO #NapoleonIT
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
Казалось бы, в чем проблема, берешь и поддерживаешь СВОИ модели, выкладываешь а опенсурс, получаешь адопшн и хайп. Но нет, лучше ходить и рассказывать про секретный кластер на 50к h100, а ещё что deepseek r это краденная о1. Мир Ai прекрасен, то что мы сейчас видим лишь демо версия того что будет через пару лет.
Читать полностью…Выбери Deep Learning. Выбери показывать рост на магических «бенчмарках» каждый раз, когда тебя спрашивают про практичность твоей работы. Выбери беситься от слова «нейросети», называя их «моделями» по студенческой привычке. Выбери считать необходимость фундаментального математического образования каждый раз, когда шедулишь эксперимент вида «larger hidden size». Выбери дебажить бэкенд какой-нибудь библиотеки в пять утра. Выбери веру в то, что тебя не заменит Devin. Выбери двадцать нишевых телеграмм-каналов с разбором статей, потому что читать статьи самому долго. Выбери непригодный в реальной жизни блендинг моделей на очередной хфт сореве для дрочил-китайцев. Выбери бабл-ти, обед в индийском корнере и ужин из Милти за счет работодателя. Выбери веру в то, что SOTA надо засовывать в любую щель бизнеса. Выбери беззаботное светлое будущее без очередной зимы искусственного интеллекта. Выбери пялиться в IDE по 60 часов в неделю, потому что «если студент не страдает, то он не развивается». Выбери жену-продакта из Рязани, корги вместо ребенка, евродвушку вместо дома, подписку на каршеринг вместо машины и каникулы на ML-конфе. Выбери быть осуждаемым и математиками, и программистами.
Но зачем мне всё это? Я не стал выбирать Deep Learning, я выбрал кое-что другое. Почему? Да ни почему. Какие могут быть «почему», когда есть P2P арбитраж криптовалют.
ну и ему плохо от капч(при took control он не даст пройти).
Штука смешная, пока что столь же бесполезная что и браузинг в chatgpt. Буду баловатся, смотреть что оно может
Паралельно с этим Bytedance выпускает свои модели на основе qwen vl для локальных агентов, предназначенных для того же.
Model
Обзор когда нибудь выйдет