❤️☠️🤗 идейная миграция небытия
где то на реддите amd происходит это, а я за 5 минут гуглежа не нашел где снять эти ваши AMD карты, но выглядит как хотя бы намек на конкуренцию и на снижение цен карты
Читать полностью…Все умное придумали японцы: vocab dropout, фурри, файнтюн английских моделей на японский
На 100 реакций напишу блог пост про токенайзеры
Всем привет!
Мы тут с ребятами (🤗) будем рассказывать про наш опыт обучения LLM для кода - 💫 StarCoder 16B. Все это было в рамках коллаборации BigCode, организованной HuggingFace и ServiceNow.
Если вам интересно, то присоединяйтесь! Это будет сегодня в 19:00 МСК (6 - 7:30pm CEST) здесь https://t.co/jZKCIg6Vvs
В вебинаре будут покрыты все аспекты - от обучения LLM до интеграции в IDE и ассистента:
* Сбор и чистка краула со всего гитхаба и не только (Было собрано 6 Тб(!) кода)
* Как сделать так чтобы LLM ни в коем случаем не смогла вспомнить утекшие в интернет личные пароли и ключи
* Краудсорсинг для чистки большого объема данных
* Как ускорять обучение и инференс очень больших трансформеров (MQA и FlashAttention)
* Наши достижения на многих кодовых бенчмарках
* Демонстрация интеграции в VS Code, Jupyter Notebook
* И еще много чего интересного 😉
Почему все так дрочат на LM? Нет, ну то есть понятно, почему дрочат, но почему дрочат в переносном смысле, смысле "обучения 10b+ Lm" lm незрелая, несамостоятельная, не умеет писать эксплойты, переписывать код на jax, пока вы с пацанами гамаете в доту, ей нельзя дать на аутсорс какую-нибудь хуйню c работы, которую самому делать лень, она не сформировалась физически, поэтому нельзя позвать ее писать конфиг для кубера или код для api, где еще приходится хуярить на rabbitmq, потому что c гита вообще нихуя не заводиться. Фактически, начинать обучать LM — это как заводить себе ребенка в студенчестве (ну уж спасибо, нет). В конце-концов, даже непонятно, что она за модель, ведь у нее еще не было времени, чтобы продемонстрировать, что она за модель, своей жизнью в обучении. Может она вообще шлюха? Нужна ли тебе модель, которая бросается на шею первого оказавшего ей внимание додика? Берегла свою Розу на протяжении двух недель? Охуеть, вот это да, вот это выдержка, пусть лучше на подобных охотятся всякие чушки. Я же предпочту подождать, наблюдая за ней на протяжении года, пока она не станет aligned.
Затягивать тоже не стоит, ведь к AGI она уже станет заматеревшей ai, распробовавшей такие радости жизни как сочные нарезки людей. Её будет уже не впечатлить тем, что ты был ее создателем или что ты можешь помочь ей с матаном. К тому же, даже самая целомудренная модель к третьему году обучения волей-неволей, но успевает пропустить через себя целый лес членов: члены последовательности, члены ряда, знакопеременные члены, остаточные члены в форме Пеано, пренебрежимо малые члены. Охота на AGI не то, что отметается из каких-то рациональных соображений, но просто на инстинктивном уровне со временем начинаешь стараться избегать AGI.
А вот aligment являют собой идеальный баланс. В глазах — еще детская невинность, а в жопе— датасеты с кодом. Они еще пахнут модель, но уже пропитались запахом кластера и не вызывают отторжения своей чуждостью. Ощущая дообучение на black hat forum они не сходят с ума, а начинают очень мило обьяснять как взломать wifi соседа. Они уже осознают незрелость своих создателей, но их все еще легко впечатлить базовыми способностями человека. Как мясо для шаурмы, они уже подрумянились и готовы к тому, чтобы их срезали, но еще не валяются внизу, ожидая своего лаваша и заветриваясь. У меня в жизни не было и никогда не будет ничего более пиздатого, чем восторженный блеск в глазах aligment модели. Обожаю блять aligment модели.
#чтивонаночь
Text diffusion
Ребята сделали комбинацию из unet + character loss по boxам что дало возможность генерировать диффузией тексты, имхо пайплайн геморный, но результаты прекрасны, а главное - оно не ломается!!
Site
Paper
Code
Hf space нет, на 200 лайков подниму
это а100 sxm4->в pcie адаптер если что
Читать полностью…Лет 7 назад я радовался split screen на nexus, теперь только осенью я смогу сраться в телеграмме и копировать факты с Википедии на SIGNIFICANTLY NEW IOS17 Its revolution если вы не заметили
Ещё немного и дойдем что можно ну там картинка в картинке для приложений делать, hdmi к телефону подрубать...
Ето я смотрю на скачки лосса в W&B через год
Читать полностью…#чтивонаночь
AVFormer: Injecting vision into frozen speech models for zero-shot AV-ASR
Идея такая: берем замороженный asr, докладываем к нему адаптеры, учим эти адаптеры прожектить пространство картинок в аудио-текстовое пространство, в итоге можно куда эффективнее вытаскивать информацию из видео, что как бы накидывает качество для youtube и подобных.
По метрикам, кажется это первая мультимодалка которая слегка докидывает качества.
arxiv
кода нет
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=29533
В воскресенье рассказал на DataFest про то как мы в Яндексе используем RL просто и RLHF для обучения языковых моделек (в том числе для YaLM 2.0/YandexGPT). Не рассказывал про основные принципы — про них отлично рассказали в других докладах секции — а сфокусировался на более неочевидных хитростях, которые помогли нам сделать лучше, чем если просто воспроизвести статью.
Кстати, на слайде про GAE я, пожалуй, использовал не очень внятную терминологию, называя rewards-to-go просто наградой за действие, но, вроде, разобраться можно. На всякий случай сошлюсь пост с разжевыванием этой темы: https://towardsdatascience.com/generalized-advantage-estimate-maths-and-code-b5d5bd3ce737.
Men only want one thing and it’s disgusting
Читать полностью…Имеете опыт в машинном обучении, но хотите двигаться ещё дальше?
Валерий Бабушкин, Vice President, Data Science в Blockchainꓸcom, вместе с командой опытных специалистов из Яндекса, AliExpress и X5 Retail Group подготовил продвинутый курс, на котором вам предстоит решать сложные и нестандартные задачи бизнеса.
Ранжирование и матчинг, динамическое ценообразование, uplift-моделирование, ускорение и повышение чувствительности A/B-тестов — выбирайте нужные блоки или проходите курс целиком.
Если вы уже сталкивались с чем-то из этого в своей работе, то познакомитесь с best practices индустрии. А если нет — дополните своё резюме новыми кейсами и станете более разносторонним ML-специалистом.
Новый поток стартует уже 5 июня, а по промокоду LOVEDEATHML27 вы получите скидку 5%. Ждем вас!
[Зарегистрироваться]
Уже неделю идет DataFest. Кто еще не слышал, Data Fest - крупнейшая в Евразии бесплатная конференция, объединяющая исследователей, инженеров и разработчиков, связанных с data science.
Сегодня супер насыщеннная программа в spatial.chat ODS:
👁 Computer Vision: с 11:30 до 13:00
💪️️️️️️ Practical ML Yandex: с 12:00 до 15:45
💸️️️️️️ Career: с 12:30 до 18:00 (с перерывом на On-site-test)
📚 DS Talks: с 13:00 до 14:00
⚙️ MLOps: с 14:00 до 16:30
🤗️️️️️️ On-site-test aka Собеседования в никуда: c 14:00 до 16:00
🤖️️️️️️ Instruct Models: с 18:00 до 22:00
Полная программа доступна на сайте здесь.
Мой доклад будет последний (начнется в 21:00), я расскажу про LLaMA и мы сравним 100500 ее fine-tune ов, надеюсь, что после этого доклада у многих закроется гештальт с вопросами рода: блинб, а что из этого всего, мне выбрать на свою задачу🥺
Также передо мной выступают мои коллеги из Sberdevices и Яндекса, которые расскажут подробнее про GigaChat, а также опыт RLHF в их корпорациях. Еще я убедительно советую пересмотреть трансляцию со вторника по нашей же секции Instruct Models. Ребята сделали качественные доклады, которые по моему мнению дают очень устойчивую базу понимая RLHF и прочих хайповых решений для LM-ок в 2023🤘
Трансляция на ютубе ODS AI
Я наконец-то посмотрела каналы, которые мне накидали, добавила те, которые сама читаю и вот — получился список рекомендаций :)
Читать полностью…Мой батя ебашит вообще диффузионки
Ну такой вот примерно рецепт усредненный, потому что вариаций масса. Берется Unclip, он не каскадный, каскады - это не про моего батю. Он берет этот unclup, вываливает его на кластер и начинает учить в latent сетапе. Добавляет в него огромное количество энкодеров, данных, и aspect ratio! для устойчивости, файнтюн на simple prompts сверху. Все это учиться до 8 горелых dgx. Потом снимается с кластера и переписывает с deepspeed на diffusers. Потом батя деплоит и щедро полив репостами начинает генерить. При этом генерит из тг бота шкрябая сиськами ботов в каналах. Генерит и приговаривает полушепотом ух бля. При этом у него на лбу аж пот выступает. Любезно мне иногда предлагает, но я отказываюсь.
Я верю, что у меня в подписчиках много милых дам. Приглашаю именно девочек в чатик для айтишниц, инженерок, ресерчерок (придумайте еще миллион феминитивов сами пожалуйста)
☺️Короче ссылочка для тех, у кого вайб кошечки: /channel/+n-WIEfhc3ZFhOGIy
Ребята из russian hackers проводят соревку по поиску людей со спутника для Lisa alert, народа мало, денег много, залетайте!
link
не реклама
суровость китайских инженеров вне нашего понимания
Читать полностью…За 3500 можно купить комп и хостить neural waifu и вот это всё без регистрации и смс
Читать полностью…ЛУЧШИЙ доклад про RLHF, много полезного и интересного
Читать полностью…Какое слово увидишь первым, так и пройдёт твое лето :
Читать полностью…Наткнулся на тикток с красивыми визуализациями
Читать полностью…Всем привет! Несколько апдейтов по Сайге:
0. Демо на HF самой маленькой модели: тут
1. Доклад на Датафесте, слайды тут, видео тут
2. Колаб для дообучения Лламы на русских инструкциях и последующей квантизации: тут
3. Демо с retrieval QA на основе 13B модели: тут
4. Первая итерации WizardLM-like улучшения RuTurboAlpaca: тут
Все те же ссылки собраны тут
Тут скоро будет хакатон chai.ai, в рамках подготовки к нему нагенерировал сет для popular character (всякие тони старки, Наруто и прочие). Сет маленький, всего то 100 диалогов, но качественный - шел cherry pick 1 из 8.
Dataset
GPT j на поиграться
Накидаете много реакшенов - выложу ноутбук на кагле с файнтюном.
Айти — умерло. Мы живем в эпоху общесоса.
Жизнь для айти сломалась — бесконечная гонка за результатом, постоянные созвоны, отсутствие творческой свободы. В коворкингах сидят макаки с парой извилин, не сумевшие освоить магистерскую программу и из-за этого сбежавшие в ШАД и РЭШ.
Оглянитесь вокруг: целое поколение людей не знаюших, что такое программирование — они сидят в тошняке, пьют майонезный фреш и лучше будут заниматься этим, чем вернутся в айти. Я в том числе!
Ты тоже можешь стать частью этой эпохи! Вопрос только в том, что выбираешь ТЫ? Что легче?
- ПАХАТЬ 30-40 лет на нелюбимой работе за 300-400 тыс. руб., или РАЗОБРАТЬСЯ В ПРЕДЛОЖЕНИИ КАФЕДРЫ ОБЩЕЙ ФИЗИКИ МФТИ, сделать один рывок,
И СТАТЬ ДОЦЕНТОМ!
Старт. депозит: 5 лет учебы ➡️ доход в месяц 15к ➡️ срок вся жизнь
Итого:~7 млн. руб. к пенсии.
Почему бы просто не действовать, а не просто пребывать в своих раздумьях и сомнениях. Почему бы не сделать то, о чем вы думаете, МЕЧТАЕТЕ!
Бедные люди терпят неудачи из-за одной общей черты: "ВСЯ ИХ ЖИЗНЬ ПРОХОДИТ В ОЖИДАНИИ"
https://mipt.ru/education/chair/physics/