❤️☠️🤗 идейная миграция небытия
Чат, где позавтракать в Стамбуле чтобы вкусно и с видом?
Читать полностью…Вы не знаете что за хуйня tooltalk и flores?
Tooltalk
Идея в том что мы в промпте модели показываем: у тебя есть будильник, календарь, погода, мыло, вот так их можно вызывать, вот диалог с пользователем, выбери нужный инструмент и правильно заполни json/функцию чтобы вызвать тул.
Flores
Бенч для перевода. Все.
Когда уже тут начнут постить порнушку
Читать полностью…сап чат, и все сопереживающие RL,
уже совсем скоро, вот буквально со следующей недели, небезызвестный @vkurenkov и запоминающийся @suessmann (а также команда Tinkoff Research) поедут в турне research 4 kids (тык), а именно: Минск-СПБ-Казань-МСК-ЕКБ-Новосиб-Астана.
если кому интересен RL (ну или не только RL) - welcome, будем рады. будем рассказывать что делаем, зачем делаем и главное - как делаем. а еще будет пицца. обнял.
PS. + 10 апреля в СПБ еще и незабываемый @Howuhh будет. и @ummagumm_a тоже!
Mistral самоидентифицирует себя как new Bing search, а многие опенсурс модели любят самоидентифицироваться как gpt4.
Гендеры для LLM?
Почему есть конгресс молодых учёных, но нет конгресса малолетних долбаебов?
Читать полностью…Кидайте фоны, самый залайканный поставлю
Читать полностью…Чат, очень сильно нужен 10 уровень канала в телеграм, ставим бустики!!!!
/channel/boost/lovedeathtransformers
гайс, мне очень нужно поставить обои на заставку обоев канала, какие обои - узнаете позже. давайте жестко бустов накидаем
/channel/boost/lovedeathtransformers
ГО ПОДНАЖМЕЕЕМ
гайс, мне очень нужно поставить обои на заставку обоев канала, какие обои - узнаете позже. давайте жестко бустов накидаем
/channel/boost/lovedeathtransformers
пользоваться мы как вы понимаете будем торчем
Читать полностью…Voice Stuff открывает канал на YouTube!
Сегодня в гостях "Денис Петров" — 15-ти летний исследователь NLP, который написал лучший расстановщик ударений для синтеза речи "RuAccent"
Вы услышите об истории создания, почему Денис решил развиваться в этой сфере, где научился программировать, как пришёл к решению задачи с ударениями. Также расскажем что под капотом у RuAccent, на каких данных обучалась, и есть ли что-то, что расставляет ударения и ё лучше, чем RuAccent.
Заваривайте чай, накладывайте покушать и приступайте к просмотру, получилось очень интересно!
На канале есть ещё видео о том как тестровать нейронные сети и про то, как добиться обучения Zero-Shot и few-shot (в лайвах)
https://www.youtube.com/watch?v=FopG1hcxSVg
🤖 BulgakovLM 3B - большая языковая модель для русского языка
Копался в своих архивах и с удивлением обнаружил, что два года назад я обучил LLM для русского языка и никогда об этом не писал. Исправляюсь.
- Три миллиарда параметров на архитектуре GPT-J
- Токенизатор от rugpt3_based_on_gpt2
- Контекст 4096 токенов
- 100 ГБ датасет (>70% веб-страницы)
- Обучена в течение 2-х эпох
Хорошо подходит для дальнейшего обучения и быстрого прототипирования. HuggingFace
@hikonon
в каком пьяном бреду челы ставили in_features 3072
Читать полностью…openasteroidimpact.org
>Furthermore, we are first and foremost an asteroid mining safety company. That is why we need to race as quickly as possible to be at the forefront of asteroid redirection, so more dangerous companies don't get there before us, letting us set safety standards.
диплодоки из cohere прикинули компьют к носу и сделали 104B модель cmdr+.
Нихуя себе +size в три раза, а челам похуй, у них модель по отдельным задачам ебет claude3.
А еще:
- 128k контенкста
- bf16, as i said before никто не будет не по приколу pt fp8 делать, ебу дали блять, оптимайзеры и в bf16 разваливаются, какой нахуй fp8
- Модель отдельно SFTшили на RAG+ tool usage
- ft на json
Если вы достаточно смелый то она влезает:
2*3090, a100_80gb, макбуки и эпложелезо.
model
версия для apple господ (в 128 мак надо, в 48 контекст короткий)
Если вы не знали - админ релокнулся неожиданно для себя в Белград и теперь живёт в Белграде.
Найти топ хату с качалкой, очень хорошо показывающим черный телевизором и в хорошем районе всего за пару дней, мне помогли ребята из @aqua_rs, челы реально хуярят и сопровождают по всем вопросам как по квартирам так и по докам.
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models[тут должна была быть гифка с трапиком, но редакторка сказала что перебор]
3D Gaussian Splatting of the collapsed Baltimore Key Bridge.
Вот и гауссианы пригодились в деле.
Твит
Реддит
Покрутить самим тут
@derplearning
Есть три вопроса:
Умеешь ли ты писать triton kernels?
Могут ли твои родители устроить меня в МЯСО и поможешь ли ты мне доесть хинкали в Грузии.
Оставьте вопросы про распределенку, LLM и прочее на второе свидание.
Колесо опен АИ крутиться, релизы мутяться
Читать полностью…Open Ai релизнули в паблик gpt4 level модельку!!!
Huggingface
если бы сбер релизил фреймворк претрена гигачата
Читать полностью…Через 10 минут смотрим объяснение поста - лекция про flash attention в CUDA MODE
CUDAMODE?si=RJJ9DT2uypc-Umib">YouTube
Смешарики дропнули второй фонк-альбом
Первый тут. Цитаты из него (а, вернее, из самих Смешариков) ушли в народ настолько, что однажды я услышал: «делать мёд - пить сок» от Ирины Хакамады