❤️☠️🤗 идейная миграция небытия
Deepmind придумал PonderNet, который умеет предсказывать дополнительным выходом, вероятность выхода из слоя, а чуваки придумали объединить RoBERTa с ним, чтобы рофлово назвать PRoBERTa, правда по метрикам ALBERT дал апгрейд побольше, поэтому PALBERT
Суть все та же, вероятность выхода на текущем слое, которая примешана в loss модели с помощью KL дивергенции
Походу, чтобы метод работал норм, и выходил заранее без неожиданностей, примешан Q-exit, который по сути накапливает вероятность, и сигнализирует о том же самом, но более точно. А также модифицирован подход оригинального PonderNet и использует для своего предсказания не 1 MLP, а hidden state-ы аж с трех предыдущих слоев сразу
Очевидно, ресерч удачен и заслуживает лайка
🖥Код
Втф, почему какие то римские империи, почему не lstm?
Читать полностью…Find all c in Z_3 such that Z_3[x]/(x^2 + c) is a field.
Читать полностью…Совсем скоро выйдет новая модель от GOOGLE - Gemini, вот что известно:
Gemini был обучен на self play (против себя) в шахматы, обе стороны всегда выигрывали.
Gemini был обучен на наборе данных под названием "интернет".
Это синтетический набор данных, который Gemini сгенерировал самостоятельно перед началом обучения. Набор данных содержит 1 газзилион токенов.
Точно. У меня инсайдер на 4ч.
Gemini работает на отрицательных вычислениях и приносит вам деньги по запросу.
Gemini говорит вам думать шаг за шагом, если вы его неправильно запрашиваете.
Gemini может сказать вам, как себя чувствует ваш телефон, потому что он так хорошо понимает теорию разума.
Gemini не отказывается делать вещи.
Вы перестаете хотеть делать эти вещи и не просите его об этом в первую очередь.
Gemini регулирует правительство по вопросам искусственного интеллекта.
Gemini обучался на test split наборах и все еще генерализуется.
Gemini SOTA на всех возможных задачах и наборах данных
Тут дружественный стартап накидал удобную композитную либу для измерения картиночных моделей.
Го накидаем звёздочек
Code
Участник Better data community на основе Kandinskiy 2.2 сделал видео диффузию!
Code
Я ищу в Тинькофф Python-разработчиков на создание продуктов из будущего на базе LLM, включая ChatGPT. Собираем заинтересованную в этом команду. Строим продукты, меняющие мир.
Работать нужно с langchain/llamaindex, с векторными базами, с chatgpt/claude и другими LLM. Строить быстро, разбираться в новых технологиях тоже быстро.
Ищем РФ/Армения/Казахстан, но если вы не там или почему-то не нравится работать в Тинькофф, то тоже пишите. Есть ещё HomeBro где это тоже нужно.
Пишите лучше в личку: /channel/the_real_jkee
блять
мы бы знали что это такое, но мы не знаем что это такое
Линк
мне надо
сорри за шитпост в последние недели
Доля проходящих в idol группы 1:13, доля проходящих в топ вузы 1:20, совпадение что и те и другие носят юбки
Читать полностью…Их мысли... Блять что у них за мысли....
Читать полностью…#лабораторный_журнал
Главное изменение по итогу коммандировки на фабрику: зона ответственности расширяется.
Год назад была начата инициатива по созданию инфраструктуры и культуры данных в компании. Однако дело не двинулось дальше попыток нанять лида дата инжениринга, который бы эту инициативу толкал. В итоге мы как ML команда в какой-то момент уперлись в невозможность получить данные для наших проектов. В остальной части компании продолжила распространяться мерзость эксель таблиц, кривых скриптов и сделанных фронтендерами дашбордов (которые делались бы за пять минут например в Power BI).
Решили сменить тактику. Самая близкая к данным команда это моя команда. Плюс у меня был опыт проектирования Data Warehouse в Start.ru, так что я оказался человеком с наиболее релевантным опытом (хотя я вообще не спец в дата инжиниринге). Наконец, у нас получился неплохой процесс найма для позиции ML инженера, поэтому его несложно адаптировать под найм других позиций в дате.
Решили сделать так:
1. Наша команда берет на себя роль дата команды, выбирает наиболее простой и одновременно полезный дата-продукт, делает MVP дата инфраструктуры под него. Во-первых мы сдвинем дело с места, во-вторых в процессе лучше поймем требования.
2. Параллельно с этим вместо поиска суперлида ищем двух человек: дата аналитика в Италию и дата инженера в нашу команду.
3. При проектировании инфры обращаемся к опытному консультанту, чтобы компенсировать недостаток комптенеций в дата инжиниринге.
Таким образом я становлюсь на ближайшее время главным по данным и вместо моделек буду заниматься наймом, проектированием, настройкой DWH и всем прочим.
#чтивонаночь
😬не каждый поймет что llm это state machine или
Large Language Models for Compiler Optimization
Идея: ну llm этож в некотором смысле state machine, да? Ну типа она умеет же писать код, немного его выполнять, чиселки там складывать и вот это все?
Давайте научим ее оптимизировать LLVM’s код, причем оптимизровать его идеально с 70% точностью(SIC!)
arxiv
Собирать донаты детям в хосписе, и потратить их на обучение очередной ruGPT
Читать полностью…#чтивонаночь
phi1 будущее для построения LM или просто фейк хайп?
Разбираемся в новом alexwortega/4zOWNoaoXeq">блогпосте
Longformer-tiny для русского языка
Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️
Хабр, Huggingface
Вы, наверное, уже читали, что у Галины Тимченко, человека, стоящего за Медузой, на телефоне нашли Pegasus. Вот хорошая и более полная статья об этом событии.
Мораль у этой истории, как мне кажется такая: если ты занимаешься активным действием против чьего-то правительства — безопасных стран нет. Pegasus и подобные им компании всегда владеют десятками эксплоитов, еще не известных разработчикам телефонов и безопасникам. А правительства самых разных стран всегда будут хотеть узнать о ваших планах подробнее, чем вы им хотите рассказывать. Особенно если вы политически активны.
https://meduza.io/en/feature/2023/09/13/the-million-dollar-reporter
В продажу мерча канала поступили иконы СО СВЯТЫМ ОТЦОМ AGI СЭМОМ АЛЬТМАНОМ, от 200usd, оплата на ton, всмысле MMM, а ой то есть worldcoin
Читать полностью…Санкции должны свергнуть режим!
Так же санкции: эээ, вам нельзя ввозить шампуни и айфоны в Европу. А ещё на автомобилях въезжать.
Чуваки очень грустно
https://evalovernite.substack.com/p/ai-benchmarks-puzzle
Читать полностью…Emergent abilitiys моделей сильно коррелируют с легалайзом
Читать полностью…Моя DS-карьера началась с Kaggle, а потом резко свернула ближе к Data Engineer / Product Analyst. Мои ML скиллы почти нигде мне не пригодились: я либо парсил и складывал, либо автоматизировал SQL. Конечно, у меня есть запатентованный ML-алгоритм, но там тупо Random Forrest. К тому же, ничего умнее пары эвристик на SQL не взлетело в @ffmemesbot. А больше нигде ML мне как будто не нужен был.
Какой же ностальгический кайф я ощутил, разбирая нестандартные ML приемы из лекции Станислава Семенова, которую он дал после 2 лет работы квантом и за год до основания своего хедж фонда. Тут не будет многоуровневого стейкинга, только примеры из реального мира. Можно догадаться из какого. 😮🤫
Как увеличить скор ваших ML моделей:
🔗 okhlopkov.com/kaggle-tricks-from-grandmaster-hft-quant/