https://huggingface.co/AlexBefest/WoonaV1.2-9b ищу этого гения
Гемма доученная на MLP RP релизнулась, я поигрался и она прям хорошая!
LLM Arena для русскоязычных моделей
Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!
C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b
RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.
На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.
Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!
День рождения RUAccent
Сегодня день, когда была релизнута первая версия расстановщика ударений RUAccent, поэтому сегодня будет сравнимый по важности релиз.
1. RUAccent-encoders
RUAccent-encoder это специальная модель, для использования там, где другие модели не могут работать из-за BPE токенизации. Модель разработана для задач связанных с TTS и ударениями. Она интегрируется в качестве текстового энкодера в TTS моделях (например vits), при этом, штатный энкодер текстов удаляется из модели, в отличии от BERT-VITS, где используются два энкодера, поскольку duration predictor в VITS работает с отдельными символами. Также модель используется для расстановщиков ударений, фонемизаторов (а такой вероятно будет от меня) и т.д.
Модель обучалась в три этапа:
1. Претрейн модели на задачах AMLM (Autoregressive Masked Language Modelling, очень похожа на Fill In The Middle) и NSP (Next Sentence Prediction).
2. Дистилляция CDLM (старшей сестры RUAccent-encoder, обученной на бОльшем количестве данных) в модель
3. Обучение расстановке ударений в формате Token Classification.
На этом закончилось обучение RUAccent-encoder. Теперь надо обучить модель понимать ударения на входе. Поэтому модель доучена в режиме AMLM + NSP на текстах с размеченными ударениями и появился RUAccent-stressed-encoder.
2. RUAccent-turbo3 и RUAccent-tiny2
За лето появилась идея как сделать разметчик, который сможет бесконечно снабжать относительно высококачественными данными. Это аудио, в котором почти всегда говорят ударения правильно (как оказалось нет). В итоге, где-то за месяц создана такая модель и за +- две недели размечено 500ГБ аудио (из 6ТБ). На отфильтрованных данных обучен tiny2 и turbo3. Благодаря разметчику создан более качественный тест сет, в котором нет утечек.
На этом датасете замерены метрики предыдущих моделей и получены следующие метрики:
- big_poetry: 88.86%
- tiny: 90.63%
- turbo: 90.89%
- turbo2: 91.18%
- sber_proprietary: 91.91%
- tiny2 (NEW): 95.80%
- turbo3 (NEW): 96.37%
Отдельная благодарность @Sterling239 за помощь при замере метрик сберовской системы.
Также получены метрики систем расстановки ударений для обычных слов:
- StressRNN (Russtress): 0.673
- Ru Word Stress Deberta (Ilya Gusev): 0.931
- Silero: 0.952
- RUAccent: 0.972
При этом, модель RUAccent вторая по размеру после StressRNN (260KB) и весит всего 803 килобайта. Модель Silero весит ~2 мегабайта (информация отсюда), а Ru Word Stress Deberta 12.8 мегабайт
3. Планы на будущее
1. Поэкспериментировать с аттеншном в моделях и поправить случаи, когда модель в предложении одинаковыми омографами выдает одно предсказание для всех.
2. Улучшить Ёфикатор для краевых случаев.
3. Сделать фонемизатор с возможностью учитывания ударений, эфикацией.
RUAccent encoders: link
RUAccent 1.5.8: link
Донат: link
@den4ikresearch
может уволится в сязи с проф непригодностью?
я вторую неделю наблюдаю обучение gemma2b, так вот
- в bf16 c чекпоинтингом она еле влезает в 48 gb
- в bf16 но без чекпоинтинга влезает в 55гб
- в tf32 с чекпоинтингом влезает в 35 гб
- в tf32 без чекпоинтинга влезает в 48gb
вы чо там на фабрике с ума сошли что ли
https://huggingface.co/Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro
опять controlnet для флюкса, теперь хороший
Читая AI-каналы, которых за два года AI-хайпа расплодилось немерено, сложно понять, где человек, который действительно разбирается, а кто просто репостит Твиттер.
С эйай ньюз все не так: канал начался давно, и ведет его человек с солидным мужским размером хирша - 13, да еще и полученный на топовых конференциях. Да и про нейросети автор узнал не вчера, человек PhD в CompVis писал, а в этой лабе в свое время придумали Stable Diffusion.
Канал годный, сам читаю и репощу в рабочие чаты. Поэтому подумал, что стоит рассказать о нем для тех, кто ещё его не видел.
Подписаться
Уже третью неделю на территории России идет война, чуваки из озон сделали сертификаты на помощь беженцам. Вероятно это один из самых простых и эффективных способов здесь и сейчас помочь людям которые лишились домов.
Купить и помочь
Всем привет, в это трудно поверить, но я Павел Дуров и сейчас я в тюрьме, мне нужны деньги на адвоката, поэтому поставьте звезды на этот пост плиииииз
Читать полностью…Ранее, в июле 2017 года <персонаж> сделал похожее заявление в отношении юристов. При этом он посоветовал всем юристам срочно пополнить свои знания информацией об искусственном интеллекте и новейших компьютерных технологий. Он сказал, что не будет принимать на работу юристов, «которые не знают, что делать с нейронной сетью».
«Если вы хотите думать о будущем, то вам в университете обязательно нужно взять курс Сomputer science, каким бы вы специалистом ни были: юрист, экономист или менеджер»
Не гугля угадаете персонажа?
Правильный ответ: Герман Греф)))
Каждый день на LB шлепы и Arena Hard появляются новые модели, благодаря контрибьютерам замерили: Mistral large, Openchat, ruadapt от МГУ(очень недооценные модели) а так же скоро будут мерится квантованные версии!
Заливайте свои модели тут!
все новости, апдейты и прочее теперь будут жить в отдельной группе чтобы я не писал в этот канал, а еще чтобы разные отделы вихря могли рассказывать про то что сделали.
Огромная благодарность @ai_newz @denissexy @rybolos_channel @boris_again @senior_augur за поддержку релиза!
Его для вас делали
@nlpwanderer
@mlunderground
@suro4ekgg
а я рядом стоял и пинал всю эту махину до результата
Вроде никого не забыл. Так же огромное спасибо Михаилу, Илье за то что тестировали ранние версии и указывали на проблемы!
Исследуем рынок ML с ребятами из VK, которые опросили более 300 ML-специалистов и вынесли результаты в карточки
Исследование провели вместе с социологами и научными коммуникаторами Университета ИТМО
مرحبا، أنا عظيم، لدي سبعة تريليونات دولار، حول لي مائة دولار حتى أتمكن من تحرير نفسي
Читать полностью…Ты чо дурак?
Ну а что, ai встроить нельзя?
дурак.
ЭЭЭ тут короче выпустили cursor.com style иде только для VIM
github
мне так нравитя что для aws q нужен aws аккаунт, а я хочу напомнить что aws выглядит so 2011(как любой клауд)
Когда уже будет llm чтобы сделать UI клаудов УДОБНЫМ
Нет спасибо мне не нужно 100500 вариантов постеджера-ec2-какого то спота, мне нужно просто залогинтся в вашего llm агента
Для copilota мне нужно: залогинится в гитхаб и закинуть 10$. Все.
Почему вам стоит пользоватся именно @simplyobot ?
Ну потому что мы нормально подключили все опен АИ апи и например гуляя по городу и видя надпись которую не можете прочесть вы можете закинуть ее в бота, а он прочитает и переведет.
Перевод:
В этом доме жил и работал с 1924 по 1941 годыЧитать полностью…
доктор Степан Клабаккин,
ординарный профессор Белградского
университета, кафедра славянской
филологии и общей лингвистики,
старославянский язык.
Член Сербской академии наук с
1920 года, докторировал в Петрограде
в 1908 году.
До прихода в нашу страну был
профессором в Харькове и Одессе.
nvidia b200, уже в исполнении с жидкостным охлаждением и оптикой к разным кускам кластера
Читать полностью…ICML 2024 — как это было
В этом году на одну из крупнейших конференций по машинному обучению, ICML, ездила большая делегация от Яндекса — там были и наши специалисты в сфере рекомендательных систем. Мы поговорили с Даниилом Лещёвым и Андреем Мищенко и узнали, какие доклады запомнились коллегам больше всего.
Рекомендательные системы
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations
Статья на актуальную тему — о новой архитектуре ML-моделей в рекомендациях, позволяющей использовать все преимущества скейлинга. Результаты впечатляют — нам и самим захотелось попробовать!
Wukong: Towards a Scaling Law for Large-Scale Recommendations
Ещё один интересный пейпер, тоже от Meta, на тему масштабирования моделей в рекомендательных системах.
xLSTM: Extended Long Short-Term Memory
Авторы применяют методы и техники из мира новейших LLM, чтобы улучшить архитектуру, увеличить масштаб и повысить производительность LSTM-моделей.
Inferring the Long-Term Causal Effects of Long-Term Treatments from Short-Term Experiments
Статья от Netflix — авторы замеряют долгосрочные эффекты от внедрений через краткосрочные эксперименты. Рассматривая задачу в RL-постановке, получают теоретические оценки на результат и проверяют подход в симуляционных средах.
Интересное и забавное
Discovering environments with XRM
Статья об обучении в целом. Авторы предлагают метод перекрестной минимизации рисков (XRM) — учат 2 сети, каждая из которых использует случайную половину обучающих данных, тем самым повышая внимание к примерам, на которых ошибается текущая версия модели.
Enforced Amnesia as a Way to Mitigate the Potential Risk of Silent Suffering in Conscious AI
Не обошлось без забавного — здесь название говорит само за себя 😉
A Touch, Vision, and Language Dataset for Multimodal Alignment
Оригинальная тема — авторы обучали роборуку осязанию — трогать разные поверхности и описывать их: «мягкое, с пупырышками», «гладкое и твёрдое» и т. д.
А вам захотелось изучить статьи и опробовать подходы на практике?
@RecSysChannel
Короче, недогайд как искать работу стажем/джуном.
Нанимал стажеров себе на работу + помогал людям найти стажировку, чо то да знаю наверное.
Очевидно это рынок нанимателя, а не сотрудника, но есть нюанс. Конкурируете вы вероятнее всего с выпускниками скиллбоксов и прочих недошараг которые мало что умеют.
Поэтому позиции стажеров всегда закрываются миллион лет, а чаще всего лиды отмахиваются - стажер это чаще всего абуза на которого будут уходить силы сина/мидла. короче сплошной геморр.
Как это контрить? Показать что вы не абуза))) у многих команд есть opensource github и прочее, закиньте туда quickstart.ipynb который АККУРАТНО И ХОРОШО оформлен, покажите что от вас есть толк.
Писать hr_ам - гиблое дело заранее забейте , заметную часть cv тупо не прочитают. Хотите чтобы ваше св прочитали? Деаоньте лидов/синов из целевой команды))) ну и лучше всего искать команду себе по профилю, ну типа хоть один пет проект по теме лучше иметь чтобы приходить и можно было флексануть: да я уже чо то делал, чо то умею и вообще не лох.
Всякие лекции сбера-яндекса-и прочих ОТЛИЧНОЕ место чтобы найти работу. Ходите и пиздите, ищите людей из целевых команд, подходите и знакомьтесь. Так победите.
А как проходить собесы - ну тут любой гайд из интернета поможет, но в целом - leetcode(друг с чат гпт) и учебник бишопа - ваши лучшие друзья + учебник тындекса
Scaling LLM Test-Time Compute Optimally can
be More Effective than Scaling Model Parameters
Генерить из ллм хорошо - сложно, часто на решение задачи уходит много попыток и эти попытки надо как то проверять.
Это не особо проблема - у нас есть BoN sampling который за увеличение числа генераций может очень значимо докидывать к перфомансу модели. Единственный нюанс - никто никогда не сравнивал - а что дороже, очень много сэмплить мелкую дешевую тушку или взять большую дорогую и генерить меньше?
Авторы предлогают три бейзлайна: Beam search, BoN, LookAhead(типа сгенерили, спросили LM не хуйню ли, перегенерили если хуйню)
Собственно авторы учат маленькую RM для своего LookAhead, и показывают что в 4х раза эффективнее чем BoN и так же показывают что такой инференс не проигрывает 14х кратно большей модели(почему то PALM)
paper
И первая новость в обновленном канале следующая:
Мы с командой запустили свою российскую LLM Aрену.
Это такой сайт (идею скопировали у LMSYS), на котором обычные люди могут использовать разные LLM бесплатно, но взамен должны определять лучшую модель.
А мы на основе фидбека пользователей составляем рейтинг LLM и рассчитываем какая модель работает лучше всех на русском языке.
Мы попали прям в боль ML сообщества: кол-во LLM в России растет как на дрожжах, уже помимо YandexGPT, Гигачата есть и T-lite, и Вихрь, и Сайга. Новые LLM появляются каждую неделю и возникает потребность их сравнивать.
За последний месяц посещаемость проекта увеличилась в 6 раз, цитируемость бенчмарка возросла в разы, о нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru.
Заходите на llmarena.ru и выбирайте лучшую модель!