Поздравляем ребят с победой на IAIO!
Алсо там пишут что какие то люди из орг комитета убрали что ребята из россии, может пнем совместно оргов в твиттере/личке если они известны вам лично :3
Алсо тренерский состав поздравляем: @neural_wine
Ищу лектора который готов кринжевать на трансляции. Хочется сделать CAI trans(cringe ai tрансляция) любой ресерч топик который вам нравится, желательно иметь хирш от 3 и опыт двачевания от года.
Идея такая: Меня заебали душные доклады про yet another что то там model, хочется подпивасную веселую лекцию с мемами, шутками за 300 и чтобы уютно было. Модератором буду я.
пишите с предложенияем в @transformerslovedeatch в формате: вот про такую статью хочу рассказать, вот такой топик я ресерчу в академии/на работе
Релиз русских бенчмарков
Shlepa Small - бенчмарк на знаний русскоязычной культуры, своего рода ЕГЭ.
book_mc - своего рода егэ по литературе, проверяет что модель знает персонажей разных книг
lawmc - проверит что моделька видела законы
music_mc - проверит что моделька видела очень много музыкальных текстов в претрене
movie_mc - проверяет на знание сюжетов фильмов
mmlu_pro - классический переведенный mmlu pro
Скоро будет статья на хабре с подробным рассказом.
LeaderBoard куда каждый может сабмитить модель
Новый бенчмарк LIBRA для оценки способностей моделей работать с длинным контекстом на русском языке
https://habr.com/ru/companies/sberdevices/articles/834638/
Препринт статьи
GitHub
Лидерборд
У вас есть магнитные шарики. Известно что из них можно собрать кубик где будут полосками идти все цвета, полоски имеют одинаковую ширину. Как вы будете собирать из этих шариков кубик так чтобы потратить минимум времени и свести ошибку к минимуму?
Сколько вам для этого нужно человек?
Китайцы дропнули SORA CogVideo -x
2b модель, генерит 24 кадра, 6*8 fps, выглядит очень вкусно и вероятно будет неплохой базой для finetun_ов по меньшей мере framerate_a и LORA
- архитектурно это 3d vision transformer c ROPE
- данные закэпшенили через cogvlm
link
paper
Идея в том что давайте сохраним активации, посмотрим на них через sparce ae и тем самым поймем что у нас думает модель внутри себя
colab
model
paper
Сейчас происходит очень не справедливая история: медицинский университет им. Сеченова обманул своих абитуриентов с бви и люди, которым представители приемки пообещали что они поступят, не поступили. Также внезапно неверными оказались документы по целевой квоте у целого ряда абитуриентов (как, если всё работает через сервис Работа в России?). Администрация в проректора Татьяны Литвиновой хамит абитуриентам, посылают их в инстанции выше, горячо веря в то что они правы.
Хочется сказать пару вещей:
1. Администрация не имеет никакого права хамить абитуриентам, тем более государственного вуза, тем более такого.
2. Все совершают ошибки, однако разница в том признают ли её. Тут ошибка ценою в жизни будущих пациентов прекрасных врачей, которые бы получились буквально из лучших абитуриентов нашей страны - победителей и призёров олимпиад. Через 10 лет люди, которые могли сегодня начать становиться высокоуровневыми специалистами, будут уже не врачами, которых и так не хватает. К сожалению, потерянный год для ребят возраст 11 класса - это действительно много, намного легче сменить специальность чем быть так несправедливо обманутым.
3. Университет должен сесть за стол переговоров с абитуриентами. Вне зависимости от того что произошло, в случае конфликтной ситуации должна происходить медиация. Абитуриенты и университет должны искать выход из сложившейся ситуации.
Пожалуйста, пишите о сложившейся ситуации в своих блогах, это действительно важно. Сегодня это абитуриенты, а завтра это люди спасающие жизни. Университет имени Сеченова обманул не просто этих абитуриентов, а всех нас.
P.S. Текст не мой(он разрешил), полностью присоединяюсь к автору поста и призываю вас распространить это, потому что это социально важная тема. Я действительно восхищаюсь врачами и людьми, которые на них учатся, и когда ТАКИХ людей обманывают, тем более талантливых людей, это очень печально.
ПЕРВЫЙ МУЛЬТИМОДАЛЬНЫЙ ДАТАСЕТ ЗАДАЧ ПО ФИЗИКЕ?
Контрибьютеры в вихре варят очень сложные датасеты - рецепт простой: краулим 10 гб html-pdf_ок, прогоняем через кучу ocr, latex конверторов, парсим текстовый слой и картинки. Потом обмазываем все это регулярками для вязкости и получаем вероятно один из самых сложных для LLM датасетов - physics_big.
Почему он сложный? Потому что это мультимодальная физика с олимпиад. В отилчие от геометрии или алгебры для физики все сильно хуже с солверами, авто решаторами и индукцией ее тоже не решишь
Заливать в test в train можно здесь hf
Над релизом работали:
@suro4ekgg - вообще все почти слелал
@mlunderground
@lovedeathtransformers
https://github.com/black-forest-labs/flux
Новая t2i в опенсурсе вежливо намекает что MJ V6.1 not good enough
🏆 LLaMa 3.1 — 405B модель от Меты заняла 3е на арене
Это невероятный успех для опенсорса!
1 место — GPT-4o & GPT-4o-mini
2 место — Claude 3.5 Sonnet
3 место — Gemini-Advanced & LLaMa 3.1
#чтивонаночь
Parler-TTS
- T5 как энкодер, на выходе учили тонкий декодер который работает с EnCodec like токенами
- 45к часов в претрене, можно с помощью промпта управлять тем как генерится речь(акцентом спикера тоже)
Обучение заняло всего 4 дня на 8h100
Очевидно умеет стримится в realtime, доступно в виде
🤗 space
github
Вот с какого сообщения начался мой понедельник.
Вероятно, данной уважаемой организации не понравился пост /channel/tech_priestess/1575 и /channel/tech_priestess/1579 .
P.S. Никакого нарушения копирайта на самом деле там, конечно, нет, просто даны ссылки на Ютуб видео где чел рассказывает про свое взаимодействие с этими ребятами.
Написал пост на substack про то как я портировал AQLM на мобильные телефоны и как мы с @galbdm умудрились запихнуть Llama-3.1-8b
в 2.5 Гб RAM.
В посте детали про то, что нужно было дописать в Executorch
чтобы скомпилировать и линкануть кастомные кернелы и как все это дело экспортировать на мобилки.
P.S. подписывайтесь на мой twitter.
Очень классный туториал с недавнего ICML: Physics of Language Models.
Я бы даже сказала, что это не туториал, а довольно большая работа по LLM explainability. Конкретнее, авторы хотят приблизиться к ответу на вопросы "где находится и как устроен intelligence у LLM" и "что делать, чтобы intelligence усилить, т.е. подойти ближе к AGI".
Подход у них довольно интересный. Авторы делят intelligence на три категории:
- Language structures. Это о том, как LLM выучивает сложную структуру языка. Т.е. какие механизмы в этом задействованы и как идейно происходит обработка текста;
- Reasoning. Это про способность LLM к рассуждениям, выводам и аргументации;
- Knowledge. Как устроено хранение информации в LLM, как ей манипулировать и как объем информации, которую вмещает LLM, зависит от количества ее параметров.
Изучать это все предлагают следующим образом: давайте для каждой категории сгенерируем синтетические данные с заранее известными свойствами, на которых будем обучать LLM и смотреть, как LLM эти свойства выучивает. К примеру, для language structures авторы предложили сгенерировать датасет семейства контекстно-свободных грамматик со сложной структурой (более сложной, чем у обычных английских текстов). Обучая модель на таких данных авторы смотрят на то, что происходит внутри модели (например, какие паттерны attention активируются) и делают выводы о том, каким образом, каким алгоритмом LLM обрабатывает язык.
В посте ниже опишу общие выводы, которые авторы делают из своей работы. А вот ссылки на видео/статьи туториала:
Сайт
Part 1: Hierarchical Language Structures:
- Видео;
- Статья на arxiv;
Part 2: Grade-School Math:
- Видео будет тут после 20 августа;
- Статьи на arxiv: часть 1, часть 2 обещают вот-вот;
Part 3: Knowledge:
- Видео;
- Статьи на arxiv: часть 1, часть 2, часть 3
Russian часть теперь на MTEB LB.
Обожаю наше community.
Спасибо @SamoedR, что закинул в web ui замеры по нашей системе бенча.
https://huggingface.co/spaces/mteb/leaderboard
Слава богу нормальное использование genai - вайфа проследит чтобы пива было сколько надо
Читать полностью…меня так радует что российские компании решили ai safety тупо через классификаторы аутпутов
Если вы не поняли это не стеб, это реально самое здравое решение из существующих
Новости о «рисерч кризисе» в ебáном хайтеке (хотя это не кризис, это просто «пузырь» слегка сдулся), а также об обвале азиатских аксептов, трейнинг лупа и всего остального — это очень-очень хорошо. Прямо очень.
По одной простой причине: это ставит NeurIPS ACs перед следующей «вилкой» (и, кстати, истерика в телеграм каналах и со стороны их админов — это не столько отражение реальности, сколько подталкивание ACs к этой «вилке»):
Вариант «Backward-Backward»: добить сабмиты любой ценой, включая погружение крупных лабораторий в настоящую рецессию с непредсказуемыми последствиями (это будет гораздо хуже, чем при Воронцове в 10-х, тогда ситуация в лабораториях была бесконечно более здоровой) — обвал сабмитов, нехватка GPU, безработица и отсуствие хайра у wildberries и т. д.
В этом случае лабораториям будет безусловно ОЧЕНЬ плохо, и нам будет тоже ОЧЕНЬ плохо, потому что мы — не «рисерч остров» (и слава Богу!), а сабмито-ориентированная развивающаяся лаборатория, плотнейшим образом интегрированная в глобальный рисерч (да, через Китай и немного Индию, но всё равно очень интегрирована). Но есть нюанс: мы-то часть «боли от рецессии» заплатили заранее, т. е. некоторые «факторы боли», которые всегда реализуются в развивающихся лабораториях в ситуации глобальных кризисов, в нашем случае уже произошли из-за предыдущих реджектов: hard stop по финансированию исследований и доступу к международным конференциям, метрики на нуле и т. д. Это не означает, что нам не будет больно, это означает, что часть боли мы уже прошли.
При этом глобальная рецессия, даже если сделает больно конкретно нам, при этом просто уничтожит все шансы на продолжение вливания сотен миллиардов долларов в «LLMопроект» — на фоне голодных бунтов в OpenAI и Anthropic, массовой безработицы и т. д. — тема «а давайте дадим мистер Альтман ещё сотню ярдов» не взлетит от слова «никак», да и сама тема «LLM-LLM-LLM-LLM!» — даже не будет в топ-5 инфополя. Финал «проекта» в этом сценарии будет быстрым и жестоким.
Вариант «Плевать на реджект, вальсируем»: это то, чего ожидают и лаборатории, и Альтман, и Амодей (и они, скорее всего, правы): на фоне истерики (и реального падения рисерча и ухудшения утилизации), ACs начнут резко снижать ставку по аксептап и заливать рынки хуевыми статьями, причём пофиг на статьи китайцев. Потому что когда растут цены на GPU — страдают GPU rich (самая высшая часть среднего класса и вверх по социальному баобабу), когда падает рисерч в целом — страдают вообще все, а когда рисерч держится более-менее (типа Cohere), но GPU дорогие — то страдают в основном бедные исследователи. GPU per hour — это «налог на бедных» (причем регрессивный, т. е. чем исследователь беднее, тем больше он «платит» этого рисерч налога). Соответственно, чисто шкурные интересы (и нежелание ими жертвовать ради долгосрочной макроисследовательской стабильности) элитариев будут толкать ACs к снижению ставки по аксептам и будут толкать NeurIPS (независимо от того, кто будет SAC) накачивать в конфу ещё больше статей по «китайскому каналу».
В этом случае рисерч получит ещё один период «кайфа» от «GPU кокаина» — некоторое время всем будет очень хорошо. Ну, кроме тех, кого долбанёт реджект, причём везде на планете. Но конкретно нам, стране-экспортёру рисерча, с высокой интеграцией в мировой рисерч (во всём, кроме аксептов) — будет прямо совсем хорошо, также как и рисерч части экономики нашего старшего партнёра — Пекинского университета. OpenAI сейчас (и ещё много-много лет, или вообще навсегда) не могут «стимулировать» свои исследования без того, чтобы стимулировать весь остальной мир — это последствия 5 лет LLM рисерча, деиндустриализации OpenAI и интеграции OpenAI API в каждую хуйню. Это прекрасно. В этом сценарии нашему рисерчу будет намного приятнее в экономическом плане (дешевые GPU = счастливый рисерчер; дорогие GPU = сытый Yandex Cloud, которые не достают народ всякими «умными идеями от начальства»), но «LLMпроект» придётся «закатывать в асфальт» в текущем неспешном и основательном ритме. Может, так даже к лучшему.
<110 iq — жесточайшая нищета на грани выживания
110-130 iq — нищета, сериалы как развлечение, работа в офисе
130-150 iq — бедность на грани нищеты, ипотека на 20 лет, просмотр фильма с субтитрами раз в месяц, редкая интеллектуальная деятельность на работе, еда из ашана
150-170 iq — нормальная жизнь, ипотека на 10 лет, интеллектуальная работа на дядю, еда из вкусвила
170-200 iq — хорошая жизнь, ипотека на 5 лет, путешествия, PhD в неплохом вузе
>200 iq — достаточно хорошая жизнь, ипотека на 2 года, работа в лабе, возможно премия, простынь с охлаждением
Все про это пишут, но тоже хочется сказать, что выступление освобожденных в Бонне очень круто смотрелось из России. Люди, которые столько времени провели в застенках, говорят на своем первом выступлении в Европе о любви к собственному народу, о вере в демократическую Россию, а самое главное — о том, что санкции не должны бить по простым россиянам, что нужно делить людей и режим. И даже осторожно критикуют руководителей западных государств.
За годы войны все равно произошло расхождение между людьми, которые уезжали и оставались. В эмигрантской среде сегодня кто-то публично призывает донатить украинской армии, язвительно одобряет удары дронами по Москве или Белгороду (категорически осуждаем), а некоторые из медийных персон превратились в украинских пропагандистов с паспортом РФ. Овсянникова вот хвастается устрицами и называет свой народ “рабами”. Но и на родине ситуация с моральной точки зрения не сахар — есть целый пласт людей, который 24 февраля был в ужасе, первые месяцы на каждом углу эти люди хуесосили режим, а потом как-то попривыкли. Стали говорить про ненавидящих русских “хохлов”, ругать уехавших и повторять тезисы пропаганды, номинально продолжая осуждать боевые действия. Но можно понять таких людей, не все могут поддерживать в себе этот дух ненависти к диктатуре, когда жизнь вокруг тебя продолжается, а Россия воспринимается изолированной от цивилизованного мира. Твои любимые бары ведь работают, последствия мобилизации ты на улицах не видишь, а в сети успешно форсят нападки на русских разного сорта — так и свыкаешься с действительностью. Я достаточно уже видел антивоенных людей, которые просто устали и смирились (а какие удивительные кейсы есть среди тех, кто уезжал, но вернулся!).
Сегодня же мы все увидели Яшина, который почти со слезами на глазах, говорит о том, что отказывался уезжать. О своей любви к России. И он сокрушается, что его не спросили, что его просто выслали и накидали пачку угроз. Пивоваров рассуждает о необходимости пересмотра санкций, говорит о студенческих визах, его поддерживают коллеги за столом. А Кара-Мурза объясняет простую истину, которую мы все с вами знаем — история показывает, что конец любой диктатуры неизбежен, что рано или поздно Россия будет демократическим, нормальным, без всего это ада государством. Никто не знает, что будет дальше, как изменится риторика и хватит ли им сил сохранить эту позицию. Хочется верить, что да. Антивоенным россиянам самого широкого спектра (очень важно понимать, что это пестрая публика) нужны объединяющие фигуры.
Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
По неизвестным причинам не распространенная в русскоязычной среде(по меньшей мере я не нашел большого числа упоминаний) книжка по dl, все от линрега до диффузий в одном толмуте. Офк оно не заменит практику и пачку статей по темам, но для повторения перед собесом теории идеально подходит.
для всего мира
pdfка купить
а вот где спиратить я не нашел
Сегодня выпустили версию на 2.6 миллиарда параметров
https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f
1126 на арене - чуть выше GPT-3.5
Также обновили статью – можно гордиться, что я – один из ~25 core contributors. 😛
Scaling Exponents Across Parameterizations and Optimizers
Собственно классика работ про параметры, lr и опитимайзеры - нужно прожечь кучу денег(около 10м usd в данном случае) и перебрать пространство гиперпараметров.
Почему это важно? Потому что сходимость модели даже на супер стабильном adamw очень зависит от правильных настроек. Ну и когда вы обучили модель размера 2B на хорошем датамиксе с хорошим LR то хочется получить хотя бы линейны рост качества при скейлелинге до 10B
paper