Вы не знаете что за хуйня tooltalk и flores?
Tooltalk
Идея в том что мы в промпте модели показываем: у тебя есть будильник, календарь, погода, мыло, вот так их можно вызывать, вот диалог с пользователем, выбери нужный инструмент и правильно заполни json/функцию чтобы вызвать тул.
Flores
Бенч для перевода. Все.
сап чат, и все сопереживающие RL,
уже совсем скоро, вот буквально со следующей недели, небезызвестный @vkurenkov и запоминающийся @suessmann (а также команда Tinkoff Research) поедут в турне research 4 kids (тык), а именно: Минск-СПБ-Казань-МСК-ЕКБ-Новосиб-Астана.
если кому интересен RL (ну или не только RL) - welcome, будем рады. будем рассказывать что делаем, зачем делаем и главное - как делаем. а еще будет пицца. обнял.
PS. + 10 апреля в СПБ еще и незабываемый @Howuhh будет. и @ummagumm_a тоже!
Mistral самоидентифицирует себя как new Bing search, а многие опенсурс модели любят самоидентифицироваться как gpt4.
Гендеры для LLM?
Чат, очень сильно нужен 10 уровень канала в телеграм, ставим бустики!!!!
/channel/boost/lovedeathtransformers
гайс, мне очень нужно поставить обои на заставку обоев канала, какие обои - узнаете позже. давайте жестко бустов накидаем
/channel/boost/lovedeathtransformers
ГО ПОДНАЖМЕЕЕМ
гайс, мне очень нужно поставить обои на заставку обоев канала, какие обои - узнаете позже. давайте жестко бустов накидаем
/channel/boost/lovedeathtransformers
Voice Stuff открывает канал на YouTube!
Сегодня в гостях "Денис Петров" — 15-ти летний исследователь NLP, который написал лучший расстановщик ударений для синтеза речи "RuAccent"
Вы услышите об истории создания, почему Денис решил развиваться в этой сфере, где научился программировать, как пришёл к решению задачи с ударениями. Также расскажем что под капотом у RuAccent, на каких данных обучалась, и есть ли что-то, что расставляет ударения и ё лучше, чем RuAccent.
Заваривайте чай, накладывайте покушать и приступайте к просмотру, получилось очень интересно!
На канале есть ещё видео о том как тестровать нейронные сети и про то, как добиться обучения Zero-Shot и few-shot (в лайвах)
https://www.youtube.com/watch?v=FopG1hcxSVg
🤖 BulgakovLM 3B - большая языковая модель для русского языка
Копался в своих архивах и с удивлением обнаружил, что два года назад я обучил LLM для русского языка и никогда об этом не писал. Исправляюсь.
- Три миллиарда параметров на архитектуре GPT-J
- Токенизатор от rugpt3_based_on_gpt2
- Контекст 4096 токенов
- 100 ГБ датасет (>70% веб-страницы)
- Обучена в течение 2-х эпох
Хорошо подходит для дальнейшего обучения и быстрого прототипирования. HuggingFace
@hikonon
диплодоки из cohere прикинули компьют к носу и сделали 104B модель cmdr+.
Нихуя себе +size в три раза, а челам похуй, у них модель по отдельным задачам ебет claude3.
А еще:
- 128k контенкста
- bf16, as i said before никто не будет не по приколу pt fp8 делать, ебу дали блять, оптимайзеры и в bf16 разваливаются, какой нахуй fp8
- Модель отдельно SFTшили на RAG+ tool usage
- ft на json
Если вы достаточно смелый то она влезает:
2*3090, a100_80gb, макбуки и эпложелезо.
model
версия для apple господ (в 128 мак надо, в 48 контекст короткий)
Если вы не знали - админ релокнулся неожиданно для себя в Белград и теперь живёт в Белграде.
Найти топ хату с качалкой, очень хорошо показывающим черный телевизором и в хорошем районе всего за пару дней, мне помогли ребята из @aqua_rs, челы реально хуярят и сопровождают по всем вопросам как по квартирам так и по докам.
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models[тут должна была быть гифка с трапиком, но редакторка сказала что перебор]
3D Gaussian Splatting of the collapsed Baltimore Key Bridge.
Вот и гауссианы пригодились в деле.
Твит
Реддит
Покрутить самим тут
@derplearning
Есть три вопроса:
Умеешь ли ты писать triton kernels?
Могут ли твои родители устроить меня в МЯСО и поможешь ли ты мне доесть хинкали в Грузии.
Оставьте вопросы про распределенку, LLM и прочее на второе свидание.
Через 10 минут смотрим объяснение поста - лекция про flash attention в CUDA MODE
CUDAMODE?si=RJJ9DT2uypc-Umib">YouTube
Смешарики дропнули второй фонк-альбом
Первый тут. Цитаты из него (а, вернее, из самих Смешариков) ушли в народ настолько, что однажды я услышал: «делать мёд - пить сок» от Ирины Хакамады
OpenAI показывают свою Voice Engine, это система копирования голоса на основе 15-секундного сэмпла, которая дополняет уже давно существующую text-to-speech. Пока проект доступен для небольшой группы партнеров, но стартапы вроде ElevenLabs уже напряглись.
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices