❤️☠️🤗 идейная миграция небытия
Я не придумал пост, держите на выбор
Втф, а почему не оплата за публикацию сисек в твиттере?
@
Чуваки, у вас nudesThursday это выставка onlyfans моделей, монетезируйте это...
@
Когда уже анкап?
@
Как мне теперь жить без 50 TIPS FOR CGPT USAGE???
Я чуть-чуть пропала отсюда по ряду причин, но за это время успела сходить в @msu_ai_channel в качестве приглашенного лектора. Было очень приятно для активной аудитории студентов и преподавателей провести лекцию в формате диалога + семинар по созданию чатботиков с распараллеливанием на несколько карт ❤️
После лекции конечно же были приятные разговоры про любимый ML и вот какой вопрос после лекции натолкнул на написание поста📝. Есть такое понятие, как мультимодальные архитектуры (например использование текста и картинок в задаче). Можно долго обсуждать каждую из них, но мы вспомнили устройство BLIP и особенность за счет которой работает архитектура – добавление cross attention.
Если затронуть часть Multimodal mixture of Encoder-Decoder (MED), сразу же на картинке (тык во вложения🥁) виднеется 3 составляющие – 1️⃣часть кодирования картинки и текста (по сути представляет из себя CLIP от OpenAI, а еще по сути можно сказать, что представляет от из себя sentence-transformer, только один из энкодеров картиночный) 2️⃣часть энкодера, основанная на изображении с помощью которой можно классифицировать негативная пара текст-изображение или позитивная. А вот основывается оно на изображении как раз за счет cross attention (берем матрицы внимания с картинки, используем их на обработке текста) 3️⃣декодеровщик, основанный на картинке для генерации текста
Так вот, обсуждение велось на счет встраивания разных частей архитектуры (эмбендинги, матрицы внимания и тд) в области предназначенные для них, но являющиеся другой архитектурой, подобно механизму cross attention. Конечно же так можно делать не только в мультимодальных архитектурах, но и в классическом NLP. После того, как мы вспомнили эксперименты коллеги из SberDevices по использованию эмбендиннгов от LABSE (мультиязычный sentence трансформер) при генерации текста с GPT, вопрос был задан следующий «а как называется такой подход❔». И кажется, что сам подход никак не называется, это чистые эксперименты, иногда они приводят к успеху при evaluate, а иногда нет
Главное, что надо помнить – не надо боятся экспериментировать. Многовероятно, что на специфичных данных обычный tf-idf может лучше справиться с представлением эмбедингов, чем слой в трансформере. Берем и заменяем его с помощью нескольких строчек кода.
Предлагаю посмотреть репозиторий автора экспериментов, чтобы понять на примере, как такое делать👼
админ который узнал что за такое платят:🗿
Читать полностью…#чтивонаночь
Mol-Instructions
Cобственно авторы c помощью gpt4, эвристик и формочек написали сет для молекулярных инструкций 2M инструкций с captioning SMILES, генерацией молекул.
Датасет
LLama
меня всегда прикаловыло что НМУ это колледж
не пту, а колледж
перетащил тасочки в джире -> специальная конфлюенсная операция по деланью и переделанью
спринт -> блицкриг
столбик с inprogress -> линия работостолкновения
поднял джобу в кубере -> мобилизация вычислительных ресурсов
Пока SDXL еще не полностью вышла в открытый доступ, продолжаем выжимать всё возможное из нынешних моделей.
Почти месяц назад я разработал в рамках своей дипломной работы скрипт для Stable Diffusion WebUI, призванный помочь и новичкам, только осваивающим интерфейс, и бывалым энтузиастам в создании качественных изображений с минимальными усилиями. И наконец я готов этот скрипт, пусть и все еще на стадии поздней беты, выложить в открытый доступ.
AutoChar осуществляет автоматический инпеинт обнаруженных лиц и глаз на них, налаживает двухэтапный апскейл изображения, а так же чистит изначальную генерацию от шума.
Всё, впрочем, детально регулируется или выключается по мере надобности, при этом все настройки скрыты за шторкой, у новичков глаза разбегаться не будут. Базовые настройки достаточно универсальны, но в случае чего их всегда можно адаптировать под задачу.
Десятки лишних кликов и ручное рисований масок лиц мышкой теперь в прошлом, иллюстрация получается значительно лучше с одной кнопки. По сути, я автоматизировал свой собственный алгоритм работы и не надо верить мне на слово, сами попробуйте и оцените, насколько много времени и сил AutoChar экономит.
Пока реализованы не все задуманные мной и предложенные первыми тестерами функции, но всё впереди! Забрасывать разработку не намерен, т.к. каждый день использую скрипт сам в своей работе и сам заинтересован в его улучшении. Буду рад всем предложениям, пожеланиям и сообщениям об ошибках.
https://github.com/alexv0iceh/AutoChar
https://www.reddit.com/r/StableDiffusion/comments/14h5qa3/autochar_new_automatic1111_webui_script_for/
https://civitai.com/models/95923?modelVersionId=102438
Админ в мск, не знаю что будет, но если связь наебнут - берегите себя и своих близких.
Скачайте карты в оффлайн и зарядите устройства.
Обнял.
хз украл мем из дискорда, мне не очень нравиться
Читать полностью…Сынок я видел у тебя в линкедин что ты занимаешься NLP LLM chatbot, такое ставят либо в дрочеботах либо в инструктивных стартапах.
И лучше бы ты знал в чем отличие Pygmalion от GPT-J...
#чтивонаночь
Gpu подключается к компу через pcie это знают всё, а у серверов бывает компановка sxm*, отличие в том что nvlink уже встроен в материнскую плату + можно подать большее питание(на 50ватт).
При этом sxm карты стоят дешевле (2-3к за а100sxm против 7-8к за а100 pcie), но подключить sxm карты напрямую к компу - нельзя, нужен адаптер. Собственно китайские гении напаяли адаптер с питанием для sxm-> pcie, те можно за 2-3к купить а100, за 1к адаптер и свапнуть свою 3090 на а100!
блогпост
ЖЕНЩИНА: БЕРИ И ПОЛЬЗУЙСЯhttps://www.elibrary.ru/item.asp?id=20098014
русскоязычный фреймворк для обучения нейронок «нейрёнок»
Читать полностью…Никто не знает зачем, никто не знает почему, но я с подписчиком собрал датасет BioTexts. Это QA style датасет из инструкций, статей и много чего еще по теме химии, биологии и тд. Всего - 2gb.
hf link
Ищу разраба на проект, tg бота с админ панелькой на django, пишите сюда: /channel/alexeyderden
Читать полностью…Мы едем в Санкт-Петербург!
6 июля мы проведем новый легендарный ивент команды RL – Saint Reinforcenburg.
Для вас выступят наши чуваки с рассказами о том, что интересного происходит в Offline RL сегодня и что делаем для развития области мы, а наш приглашенный спикер (и по совместительству дорогой друг) из InstaDeep расскажет, как вместе с нами писал свою последнюю статью.
После ивента планируется SOTA афтепати, поэтому обязательно регистрируйтесь и приходите послушать нас вживую!
Еще раз. 6 июля, 19:00, ЛЕНПОЛИГРАФМАШ.
Господа биотехи расскажите про свой опыт с LM, как используете, чего не хватает
Читать полностью…Так как мне очень нравится преподавать, то у меня появилась идея для школьников, кто например не прошел в вуз мечты но хочет заботать математику, либо не поступает на пми но хочет ее заботать, устроить интенсив по программе матшкольник НМУ (https://ium.mccme.ru/mathsc/mathsc.html). Это позволит как достаточно хорошо учиться в НМУ, который объективно неплох, так и во многих вузах кроме МФТИ/ВШЭ/МГУ чиллить весь первый год на матане. Абитуриенты (и не только, все интересующиеся), отзовитесь, как вам такая идея?
Upd. Очевидно, это платно, но недорого. 5к за весь курс, это примерно 13 занятий
почему так редко стали выходить обзоры - длинно посты
Читать полностью…Куплю квартиру в МСК, запад, юго-запад
Читать полностью…#чтивонаночь
У мужика должен быть replug и analplug
В чем суть - улучшить фактологичность LM с помощью ретривера который в контекст подкидывает документации - поиск из инета - это просто, а что делать если LM - blackbox и ее нельзя напрямую тюнить?
Банальный вопрос, анальный ответ - да давайте пустем градиенты по ретриверу и заставим его ретривить тексты которые лучше всего используются LMкой!
Ну и бонусом такая схема какое то время была SOTA на MMLU, что вообще то неплохо.
paper
code - как обычно нет, а жаль
#чтивонаночь
LLM-Blender
OpenAi знаете? есть слухи что gpt4 это MoE модель, те 4 модели по 220б параметров, которые переключаются каким то образом, решают разные задачи и вот это все, но при этом одна модель.
Собственно идея такая: давайте возьмем несколько LM на разные задачи, сгенерим с них кандидатов и отранжируем через pairwise ranking(где то я это видел, например тут), ну и офк модель сота на их бенче(к слову как базовую модель взяли FLAN-T5-XL)
код
папир
датасет
Колхозные сервера люблю пиздец
Ну типа util на мастер карте сильно больше чем на других, так не должно быть
Мне было лениво переписывать это про DL, придумайте сами пожалуйста
Читать полностью…Открыл для себя kernl - оптимизация трансформер в каждый дом написаная на openAI triton, да еще и oneliner - накидываешь optimize_model(model) и внутри переставляются flash attention, включается fp16 и фьюзяться операции.
тыкаться сюда kernl.ai
github
Умеете обучать модели и поднимать API, но не понимаете, что происходит за пределами этих процессов?
Никто не знал о GPT, пока она была просто ML-моделью без публично доступного API и продакшена, отмасштабированного на миллионы пользователей, теперь известного всем как ChatGPT. Любой, даже самый минимальный жизнеспособный продукт при таких масштабах будет содержать как ML-компоненты, так и микросервисы, базы данных, подсистемы поиска, логирования, аналитики и многого другого.
Научиться проектировать такую архитектуру можно на курсе System Design от Валерия Бабушкина, Vice President, Data Science в Blockchainꓸcom. Здесь вы поработаете над реальными проектами сервиса такси, приложения для знакомств и другими системами, а также познакомитесь с типичной структурой дизайн-собеседований в Big Tech.
Всего за 4 недели вы научитесь собирать требования, оценивать нагрузку, выбирать подходящие СУБД, масштабировать системы и повышать их надежность и отзывчивость, а также выделять и последовательно проектировать подсистемы для хранения данных, поиска и аналитики как своими силами, так и с помощью готовых продуктов.
Новый поток стартует 19 июня! Ждём вас!
[Зарегистрироваться]
В продолжение, расскажите, учили ли вы на amd, насколько все не комфортно, как оно вообще?
Читать полностью…