Нужно ли освещать GPU из Румынии святой водой? И если да, то католической или православный? А если шипит все ещё, чо делать?
Читать полностью…SignLLM: Sign Languages Production Large Language Models
Необычная работа - перевод текста в язык жестов с видео;
Cкорее инженерный чем DL пайплайн, LLM предсказывает следующее действие, оно прогонянтся через доп модельку и отрисывается на Sd+openpose
signllm.github.io
paper
Ребята из Китая собрали свою SORA, заявляют 2минуты FHD 30fps
https://kling.kuaishou.com/
Мечтает ли GPT-4o о сегментации картинок...?
Рассказал на Habr найденный способ как заставить GPT-4o работать с детекцией объектов на картинке и выдавать координаты (bounding boxes), с которыми можно работать.
Внутри много деталей о том, с какими препятствиями и нюансами мы сталкиваемся в Vibe AI при парсинге сообщений со скриншотов переписки.
Приятного прочтения, буду благодарен вашей обратной связи, лайкам, репостам ❤️
Опубликованы шокирующие инсайды о будущем жаренного супа от бывшего бати.
Чувак слил 165-страничный документ с точечными прогнозами, опираясь на свой опыт и понимание внутрянки в жарке супа.
Самое важное:
— жаренный суп к 2027 году - это реальность;
— жаренный суп - это ключевой геополитический ресурс прямо сейчас. Забудьте про ядерное оружие - это прошлый век. Любая страна пойдёт на всё, чтобы получить жаренный суп первой, как в своё время атомную бомбу;
— Для создания жаренный суп придётся собрать единую плиту за триллион долларов. Похожий уже строит batya для open soup;
— Эта махина будет потреблять электроэнергии больше, чем сейчас вырабатывает вся планета;
— Деньги на жаренный суп придут из бигтеха - уже сегодня bosh, Electrolux закладывают расходы в 500 млрд. долларов за квартал только под суп;
— К 2030 году в жаренный суп ежегодно будут вкладывать по 30 трлн долларов;
— Если к этому моменту вам кажется, что перед вами бред - это не так. Сопоставимые расходы и глобальные изменения происходили во время Манхеттенского проекта и Промышленной революции;
— жаренный суп - только начало. После его создания наступит практически мгновенный переход к пережаренный суп. Жаренный суп будет так зажарен, что пережарит себя сам и это произойдёт почти мгновенно.
- и самое важное: перестанет ли админ постить хуйню и потрогает ли траву? Когда снова обзоры?
Июнь в этом году в Будапеште выдался на редкость холодным. Столбик термометра еле перевалилась через 20 градусов, а местные бары медленно открывали летние веранды.
Читать полностью…Привет, друзья! 🐥
Я почти вышла на сессию и в свободное время продолжаю перебирать и готовить материалы для курса и будущего диплома.
Сегодня к вам с новой полезной штукой! 🔥
Мы уже акцентировали внимание на том, что результаты одного метода объяснения не эквивалентны результатам другого.
В этом случае встает вопрос: как наиболее продуктивно создавать объяснения, чтобы оценивать их устойчивость?
Один из ответов — добавлять в свой арсенал наиболее универсальные алгоритмы интерпретации, например такие как LIME (Local Interpretable Model-Agnostic Explanations)!
Что это, как использовать, чтобы извлечь максимально много информации и даже математические выкладки: собраны для вас в этом ноутбуке (рус, англ). Благодаря туториалу вы построите LIME с 0 и поймете его библиотечную реализацию!
Также все открытые материалы буду добавлять в этот репозиторий и в материалы курса! 🫶🏻
Не знаю почему, но очень рада тратить кучу часов, исследуя тему. Надеюсь, это принесет вам пользу и поможет сделать более понятные модели!
Со всем самым добрым,
всем запаха сирени! 🪻
Ваш Дата-Автор!
🪩 Диффузионки позволяют ремастерить игры при помощи текстовых промптов.
Nvidia показала пайплайн ремастеринга текстур в популярном графично-нодовом интерфейсе ComfyAI.
Теперь можно не только апскейлить текстуры с определением свойств материалов для трассировки лучей, но и контролировать стиль при помощи промптов. RTX Remix — инструмент для ремастеринга классических игр с использованием технологий трассировки лучей и DLSS 3.5. И интеграция RTX Remix Toolkit с ComfyUI выглядит обещающей, позволяя модерам задавать стиль текстур с помощью текстовых промптов. Это ускоряет процесс моддинга и упрощает создание качественных текстур.
Теперь маленькие команды модеров могут быстро создавать текстуры высокого разрешения с физически корректными свойствами, освобождая время для доработки ключевых элементов.
А пока ждем обещанный Half-Life 2 RTX. Ну и я лично мечтал бы увидеть Half-Life Alyx с RTX в VR.
Привет!
К празднику зарелизил модель "детского" размера ru-rope-t5-small-instruct
Из особенностей:
✔️претрейн задача из UL2 (смесь денойзеров)
✔️заменил attention bias на RoPE, потому что лучше сходится и есть возможность обучать с Flash Attention 2
✔️обучал с контекстом 1024, пунктуация и цифры кодируются по токену на символ
✔️претрейн корпус почти от Вихря, брал с низкой перплексией от FRED 1.7B
✔️файнтюнил на переведенных английских инструкциях, лучше метрики на downstream задачах, но в zero-shot инструкциям не следует
✔️использовал оптимизитор AdamWScale вместо Adafactor, чтобы избежать взрывов лосса (поэтому дистилляция FRED 1.7B давала хуже метрики)
⭐️по метрикам на RussianSuperGlue близко к rut5-base, которая больше в 3 раза (скрин в карточке)
🙏Делал в качестве вузовского проекта, буду рад лайку и обратной связи
Запуск ллам на RPI.
Довольно любопытный пример tensor parallel без супер быстрой шины между железками ещё и на arm
GitHub
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book
«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
Ищу партнера в новый перспективный проект удаленно, с компьютера, обучать ничему не буду, зато буду больно пиздить палкой по рукам и ебальнику за каждый тупой косяк. Если шарите в кубере, можете настроить ci/cd, умеете хуячить микросервисную архитектуру, можете настроить мультиклауд кубер, умеете писать на CUDA, знаете хотя бы базовую теорию типов и понимаете, что такое типизированное лямбда-исчисление второго порядка, умеете менеджить постгрес и АДЕКВАТНО его шардировать, шарите за графовые субд, можете уверенно настраивать и пользовать кассандру, ебались хотя бы столетие с кафкой, имеете опыт с apache nifi, умеете писать и обучать с нуля нейронки в распределенном окружении, можете написать на ассемблере хотя бы простейший ффн - пишите в лс, но я скорее всего вас пошлю нахуй, потому что мне это все в одно ебало интереснее хуярить.
Читать полностью…больше всего я люблю лето за то, что каждый раз на протяжении всей жизни в самом его начале у меня что-то щелкает в голове и я превращаюсь в абсолютно нового человека.
зимой в наших реалиях вообще не хочется ничего делать.
холод, темнота и снег вызывают только легкое раздражение и бесконечное желание спать и есть.
а лето - целая отдельная вселенная.
даже если ты уже взрослый и у тебя нет каникул.
сегодня проснулся с неистовым желанием научиться рисовать, попробовать делать какую-то музыку и начать собирать коллекцию любимых книжек в электронных формате с собственными заметками на полях, заказал себе айпад для этого.
понял, что мне искренне нравится разговаривать с тремя-четырьмя людьми на планете, а бессмысленные смол-толки и легкий флирт с остальными не имеют никакого смысла и сродни попыткам утолить голод теплой водой и кислым яблоком.
составил новую программу тренировок: мое самочувствие и здоровье - то, от чего зависит все, остальное - лишь мелочи.
начал учиться осознанно потреблять информацию и не находиться в постоянном состоянии дофаминовой комы, листая все возможные соцсети с электронкой в руке.
тяжело, конечно, но зато возникает ощущение, что ты наконец живешь, а не существуешь, двигаясь по инерции.
устройте себе этим летом новую жизнь, правда, оно того стоит, и любите себя и всех тех, кого хотите любить
Я каждый раз когда читаю док по АИ безопасности у меня ощущение что меня хотят наебать. Постоянно авторы отвечают не на технические, а на философско технические вопросы. Ну типа эээ классно иметь законы Азимова, но по моему есть куда более насущные проблемы.
Читать полностью…K2 - лучшая воспроизводимая модель
65B модель на уровне LLaMa 2. Главная фишка - (практически) полностью открытый процесс тренировки. Код, данные, веса и даже часть промежуточных чекпоинтов.
Архитектурно модель почти идентична оригинальной LLaMa. Тренировали всё это в две стадии первая 1.3T токенов, вторая ~70B токенов, суммарно ~1.4T токенов (LLaMa 2 тренировали на 2 триллионах).
Но есть и нюансы:
➖ Из-за использования архитектуры оригинальной LLaMa модель сильно медленнее в инференсе
➖ Чат версия сильно зацензурена, так как модель тренировали на деньги ОАЭ
➖ Пока что опубликовали только данные первой стадии, она так всё равно лучшая воспроизводимая модель, но не до уровня LLaMa 2
Веса
Технический отчёт
Претрейн код
Код датасета
@ai_newz
Какая цель у человека, который приходит в айти?
Кальянчик на двойном яблочке там, томатная гозешка и подружка девочка из вшэ дизайна
Не очевидно-полезная фича gpt4o - возможность переводить и читать рукописный текст и речь с разных языков.
А так, подписка - хлам, gpt store набор игрушек на вечер. используйте апишку, будет дешевле и можно свои ragи докидывать.
предалагаю основать религию в которой после смерти мученик получает веса gpt-4 после за все ебланские эксперименты с опенсорсом
https://arxiv.org/pdf/2404.05961 - челы на серьезном лице сравнивают х10 по параметрам модели и такие: чет лучше кодирует...
почему это хуйня? ну вы блять имажанируйте RPS долбаебов которые 10B+ энкодер потащат в прод не для картинко генерилок?
Имажинировали? Вот и я не понял нахуя оно надо кому то, долбаебизм даже на GPU крутить, энкодер должен крутиться на OpenVino на XEON
Ниже по ссылке находится всё моё первое произведение в удобном для шеринга формате, можете просто форвардить этот телеграм пост.
https://telegra.ph/Ballada-o-Levieve-Neudachnike-05-24
На прессу и критиков нам похуй, хотя написать об этом принесёт им удачу 🍀
Возможно, вы сочтёте что кому-то может быть ценным услышать мораль нашей сказки. Кому-то кого надо вдохновить встать и защитить свои права. Кому-то кому стоит узнать что некрасивое поведение приводит к реальным последствиям, даже когда человек уверен в своей безнаказанности.
Или кому-то кто разочаровался в современном мире и ищет в нём немножко магии. Кому-то просто на поржать про то, как оно в мире оказывается бывает. Кому-то на включить в MBA курс университета как кейс работы с акционерными вопросами.
Всякое бывает в дворцах мира сего.
А я тем временем отключаю свой Телеграм и отправляюсь загорать на солнце и чтить Шаббат с обнимающей меня mixed-race бразильской моделью. Но, девушки, вы не волнуйтесь, у меня через два года планируется свадьба с семью женщинами из различных культур которые желают стать принцессами, это будет хайлайт высшего общества, и вы всё ещё можете успеть. Мы же все знаем как вы подсели на мем доминантных вампиров-колдунов-миллионеров, а оказывается они есть не только в фильмах.
Семь-и-я, семья, семь жён и я, что вам непонятно, в самом языке Пушкина мне всё прямым текстом видно, а вам неясно как я такое себе позволяю. Внимательнее просто надо быть 🌹
За сим, друзья, мы откланяемся.
⚗️ Что такое дистилляция и как она применяется в LLM — часть I
Чем больше модель, тем сложнее ее инферить и дороже обучать. Решить проблему призвана, в том числе, дистилляция — передача знаний от тяжёлой модели («учителя») более лёгкой («ученика»). Расскажем, какие типы дистилляции существуют и как их используют.
Классический способ предложил Джеффри Хинтон в статье 2015 года. Учёный выдвигает гипотезу, что распределение классов, которые модель предлагает в качестве ответа, само по себе содержит немало знаний. Поэтому имеет смысл тренировать «ученика» не на ответах, а на распределении классов «учителя», используя Softmax с температурой. В качестве лосса использовали кросс-энтропию между двумя распределениями — ответами учителя и ученика.
Одна из первых моделей, которую дистиллировали на претрейне, — DistilBERT. Результат получился впечатляющим: language understanding удалось сохранить на 97%, а скорость по заявлению авторов выросла на 60%. Интересно, что дистиллировали веса, а в архитектуре модели изначально было вдвое меньше энкодер-блоков, чем у базовой BERT — 6 против 12. В основе обучения — перекрестная энтропия ответов «учителя» и «ученика», MLM и L cos — косинусная близость между эмбеддингами на скрытых слоях. Идеи DistilBERT позднее применяли, например, в DistilGPT.
Самый простой из современных методов — имитация модели. Его суть — добиться, чтобы небольшая модель копировала поведение крупной. Для этого «учителя» просят генерировать ответы на разные запросы, а потом на них обучают «ученика».
Маленькие модели отлично подражают большим, но не развивают собственные навыки. Поэтому «ученики» не получают новые знания, зато неплохо справляются с тем, чтобы извлекать имеющиеся. Этот метод подходит, когда нужно натренировать модель под конкретные задачи, например, для суммаризации или разметки данных.
Для дистилляции знаний в «младшую» модель можно использовать метод Chain-of-Thought Prompting. Суть: просить LLM давать не только ответ, но и описывать цепочку рассуждений, которые к нему привели. Как показывают исследования, такой подход существенно увеличивает качество ответов на некоторых датасетах.
К примеру, авторы статьи Distilling Step-by-Step! попросили «ученика» предсказывать не только ответы «учителя», но и обоснования, чередуя запросы. Так маленькая модель тренируется думать как большая LLM, а не просто копирует ответы и поведение — на некоторых датасетах этот подход даёт отличный результат.
Кроме того, можно использовать датасет, составленный по reward-модели. В этом случае «ученик» будет тренироваться не на всех ответах «учителя», а только на тех, которые reward-модель считает хорошими, что тоже может улучшить результаты.
Наконец, можно расширить датасет, на котором учится младшая модель, с помощью генерации с разными параметрами вроде температуры или seed. Набор данных по одному промту получится более разнообразным, а поведение «ученика» в теории должно больше походить на поведение «учителя».
На этом всё. Спасибо, что прочитали! Делитесь опытом и впечатлениями от поста в комментариях! А во второй части текста мы разберём другие методы дистилляции и, конечно, затронем MiniLLM. Оставайтесь на связи!
Разбор помог подготовить ❣ Сергей Воробьев
@stuffyNLP