#чтивонаночь
В прошлый раз гугл дропнул свою гемени, перепоооос, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
alexwortega/0rZZfJKCe9F">Подробнее как всегда в teletype
code
paper
все нормально, модели гугл по прежнему сосут, это +- уровень vicuna-gpt3.5 на lm арене
Читать полностью…Офигеть, гугл Gemini релизнул
https://blog.google/technology/ai/google-gemini-ai/
На mmlu и mmmu лучше gpt4(не совсем)
gemeny nano будет запускаться на pixel8
For Gemini Ultra, we’re currently completing extensive trust and safety checks, including red-teaming by trusted external parties, and further refining the model using fine-tuning and reinforcement learning from human feedback (RLHF) before making it broadly available.
с RLHF все стабильно (хуево)
paper
Just saying: у lm очень печальный коридор окупаемости - по нижней границе lm слишком тупая чтобы делать что то на массовую аудиторию, по верхней границе обучение стоит как боинг, а главное инфернс настолько дорогой что дешевле в рабство согнать 20000 PhD в восточной европе.
Пока идёт хайп об этом никто не думает, но пузыри имеют свойство сдуваться.
Первые ласточки: слухи о продаже stability.ai, факт того что gemeni до сих пор не выпущен, серьезного конкурента у gpt4 нет
Привет! Мы в Тинькофф болеем созданием обалденного пользовательского опыта во всех наших продуктах, поэтому, когда ChatGPT и LLM показали себя, мы тут же стали думать, как внедрить эту технологию себе. Сейчас мы расширяем команду, которая работает над нашим продуктом tGPT: LLM, делающей продукты Тинькофф гибче, дешевле и умнее. Поэтому самое время запрыгнуть к нам на борт, если вам хочется не просто наблюдать хайп вокруг ChatGPT, а стать частью этой истории. На данный момент мы активно ищем аналитика данных!
- Какие проблемы есть у ответов нейросети и как правильно лечить их с помощью данных?
- Как правильно количественно оценить ответы модели?
- Какие знания нужно заложить в модель на этапе предобучения, чтобы она отвечала правдиво?
На эти и множество других интересных вопросов вам предстоит ответить в роли аналитика данных, плотно взаимодействуя с менеджерами продукта, инженерами и шеф-редакторами. Если у вас есть базовое знание Python, опыт работы с текстовыми данными, опыт организации разметок на Толоке и продуктовое мышление, то скидывайте своё резюме в телеграм @solemn_leader.
Короче да, я докатил до релиза свою картинко генерилку с которой возился с лета, она офк хуже d3, но в среднем лучше опенсурса из коробки(на начало ноября 23 года, офк до a1111 с миллионом лор далеко)
Велком! Скоро докачу image2video, думаю до конца недели.
Промптинг по стилю ближе к MJ, на длинные промпты скорее плохо реагирует.
Вероятно в ближайшее время напишу посты про то как учил с RLHF, выложу данные (чистую и sfw часть) и модели. А так же сравнения с open source, common APIs/civit models.
на новогодних праздниках будет инфернс(в коллаб точно влезет, но вот в 8гб не факт)
https://discord.gg/TMCN63AH
Короче да, на любом посте где есть реакция сисек, реакция сисек побеждает.
пиздец, я открыл врата в ад
Гид по ресторанам от админа LoveDeathTransformers.
В этой части: Москва и Будапешт.
alexwortega/MgI6ccZSsLK">ссылка
Все программисты говорят "а что у этой либы под капотом", но что-то я видел немного программистов, хотя бы раз заглядывавших под капот чего-то IRL
Читать полностью…Мы выкатили новые модели Seamless для перевода устной речи!
По сравнению с августовской версией SeamlessM4T, новая версия переводит чуть точнее. Плюс добавили давно ожидаемые фичи:
1) перевод в потоковом режиме (задержка в среднем 2 секунды, как у живых синхронных переводчиков);
2) выразительность: близость голоса, эмоций, интонации и ритма речи к исходным.
Попробовать онлайн демо и почитать 100-страничную статью можно тут: https://ai.meta.com/research/seamless-communication.
Я когда дебажил ранние версии PPO наблюдал что модели плохого реварда бывает выгодно награждать себя за повторения или использование редких токенов🤔
Новость отсюда
Это не чат, это Ebа́nyChat. Еба́ноязычная Chа́tGPT от лаборатории еба́ного резерча
Здарова, хабровчане!
Хайп вокруг нейросетей, заалайненых при помощи Instructions и RLHF (известных в народе под единым брендом «хуйня из под коня из каждого утюга»), трудно не заметить. Именно поэтому мы решили тоже хайпануть запрыгнуть в этот поезд!
Общий подход для обучения подобных моделей примерно такой:
1. Заиметь хорошую LLM.
2. Сделать SFT.
3. Собрать фидбек.
4. Полирнуть все RLHF’ом.
В текущем релизе мы забили хуй на все эти пункты, как один из способов максимального прироста в качестве (а кто нас проверит, лол?).
Давайте посмотрим, что же находится внутри Ebа́nyChа́t’а.
⁃ Рандомная LM, которую нам принес стажер с хагинфейса (ваще похуй че там внутри, 13B параметров сделают go brrrr (больше модельки мы не умеем файнтьюнить))
⁃ Датасет для SFT (перевели альпаку-хуяку промтом; похуй, сгодится; еще собрали каких-то случайных датасетов с ХФ’а и захардкодили промпты; все же нормально будет, да? оверфитинг? ну мы меньше итераций обучения поставим)
⁃ Затем мы начали дрочить развесовку для этих датасетов на глазок (кидали кости на доску и записывали значения в качестве веса. Наш джун после этого сошел с ума, сказал что мы занимаемся какой-то дикой поеботой и устроился на работу в нормальное место)
⁃ Разочек обучили модель (а зачем че-то там тьюнить? (а вообще к нам пришли ребята с прода и сказали освобождать железо, т.к. мы опять занимаемся хуйней)) В какой-то момент она перестала генерировать <pad> <pad> <pad> — решили что близки к AGI и остановили обучение.
Сперва мы вообще хотели забить хуй на тестирование, но наш менеджер сказал что нужны какие-то цифры. В общем, позвали деврела, показали ему 3 парных семпла с chatgpt, спросили какие из них луче. Он везде сказал что чатжпт лучше. Получилось какое-то ебаное качество, но как-то плевать, напишем что 1 к 3 лучше. (деврела уволили, кстати).
Ни метрики, ни честный Human Evaluation мы показывать конечно же не будем. Кого это ебет? Тебя это ебет?
А, да, зарелизим претрейн. Мы его кстати назвали gpt-5. Почему? Просто.
Под катом у нас куча примеров, которые мы начерепикали, наслаждайтесь. Должно хватить на постов 10-20 где-то еще.
#чтивонаночь Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
alexwortega/0rZZfJKCe9F">Подробнее как всегда в teletype
code
paper
А на основе чего LLM это отдельный класс моделей, чем принципиально отличается LLM scientist от обычного NLPшника...
И тот и другой делает import transformers, половина кандидатов на вопросах о TP начинают чесать голову и искать глазами книжку по OSI
Вышел трейлер GTA 6:
https://youtu.be/QdBZY2fkU-0
Видимо в gta7 поиграют эээ наши дети? Сколько лет пройдет, 12? А между gta4 и gta5 прошло 6, те gta7 ждать году так к 2050, верно?
Ставки на 2024.
1) gpt 4 level опенсурс модель до середины Q3.
2) dalle3 level до середины q2, уже есть if XL, Леша-Миша если ты это читаешь, пожалуйста добавь vae блин и доучи, я точно знаю что ты делал так и это работало. Пожалуйста, нам очень надо генерировать писающих собак.
3) Удешевление генерации t2video, i2video, вероятно LCM, решит проблему скорости.
4) LCM в closed source докрутят до уровня текущих моделей, но будет real-time/near realtime.
5) DPO прикрутят ко все к чему можно, rlhf закопают окончательно (слава богу)
6) diffusion lm - подозреваю их наконец докрутят до божеского вида, но это по прежнему андеграунд будет
7) агенты будут работать только в фантазиях техно оптимистов, тут все стабильно
Мне тут нашептали, что издательство tinyBuild на прошлой неделе провело массовые увольнения своих сотрудников в Сербии. Это коснулось многих студий, где-то уволили около 10% людей, где-то почти 30%. Увольнения, по словам экс-сотрудников, происходили одним днем, по классике американских корпораций: звонок 1 на 1, постановление перед фактом увольнения, блокировка всех корпоративных аккаунтов.
Для текущих сотрудников, судя по всему, ухудшились и условия труда — компания перестала оплачивать курсы сербского языка.
Летом акции tinyBuild упали на 80% на фоне свежих финансовых отчетов, показывающих более низкие продажи в 2023 году по сравнению с прогнозами, а также понижение этих самых прогнозов по доходам на 2023 и 2024 годы.
Мой логичный вопрос: если видно, что корабль идет ко дну, зачем тянуть с увольнениями, и не предупреждать людей заранее, хотя бы за месяц, чтобы они успели привести в порядок свои дела?
Практика увольнений одним днем должна быть полностью искоренена, а компании, практикующие подобные методы ведения бизнеса, обязаны терять в своей репутации. Новые сотрудники подумают несколько раз перед тем, как устраиваться в подобные места.
Уволенным ребятам желаю поскорее найти новую работу. Оказаться безработным одним днем в чужой стране — огромный стресс. Если у кого есть дополнительные подробности, то можете писать, как обычно, мне — @RowenLaan
админы аи каналов: вот сеточка, вот у нас тут open ai чо то релизят, вот я лекцию читаю, даааа....
админ ldt: дакимакура с cуцкевером и sama. точно.
Ребята, привет, хочу поделиться новостями по insomnia.land
🫵🏻 Более 4к юзеров из 30 стран
🫵🏻 Более 20 моделей для генерации изображений
🫵🏻 Свои разработки, Realistic+ модель, минимализм, своя гиф модель
Но
Попробовали поднять раунд, один опытный инвестор (делал экзиты на $100mln) отказал нам в инвестициях, но мы получили оценку стартапа в миллион долларов 💪
Мы бутстрапим с основного бизнеса разработки на заказ, но денег ограничено, а свести юнит экономику и поднять раунд требуется еще примерно пол года по нашей оценке.
Венчур сейчас странно устроен. Но нам нужно быстрее скейлиться. Поэтому, я решил запустить раунд микро инвестиций 👀
Вы можете приобрести долю в нашем проекте за небольшую сумму
Потенциально, при раунде инвестиций вы можете получить 10х в уже ближайший год, тем более у нас есть первая оценка в лям 🤗
Писать мне
@cyber_oleg
Очередной новый трюк для ГПТ4, предложение заплатить ей за результат возвращает статистически более детальные ответы:
«I'm going to tip $200 for a perfect solution!
»
Никто в здравом уме, из SciFi авторов, не мог даже предположить в прошлом, что мы будем придумывать себе инвалидности в стиле «у меня нет пальцев» или врать, что заплатим деньги за результат, лишь бы AI-модель нормально выдала ответ на какой-то вопрос или на говнокодила ☕️ the future is wild
Rlhf на котах- издать настолько противный звук чтобы хозяин точно пошел смотреть что происходит
Читать полностью…MMMLU
Наконец вышел сложный бенчмарк для проверки Vqa моделей, он основан на нескольких десятках подзадач(по аналогии c mmlu) при этом от модели не требуется отвечать текстом - нужно выбрать вариант ответа.
link
Вопросы на собес на senior NLP <подставьте по вкусу>
Как зафайнтюнить чатгпт на распберипай?
Как пропатчить лламу до давинчи?
И да, у них есть однозначные и правильные ответы. Пишите ответы под спойлер, правильные лайкну