Хочу такое...
Помню, какой-то канал выкладывал пост про робота DJI, которого сделали чуваки из обнимающеелицо 🤗, с idefics2, Whisper и Parlel-TTS. Кстати, вот код на Github и сам Пост.
Но тут Vedal987 (создатель нейросама) сделал что-то похожее на каком-то DIY-ките. Выглядит прикольно.
Процессорный модуль от мейнфрейма 1975 года Amdahl 470V/6. Сначала Джин Амдал спроектировал System/360, а потом ушел из IBM и запустил свою линейку совместимых машин, которые были дешевле и шустрее.
Как они дебажили ошибки с такой разводкой, страшный сон инженера.
Модули иногда встречаются на ebay примерно за $1к
#cpu
Когда то давно мы так решать проблему n day retention, чтобы пользователь не забывал о нашем приложении.
Следующей фичей проситься глубокая кастомизация в стиле characterai видимо?
полистал дальше, все еще выглядит как general подход на основе вот этого
Это не значит что кто то что то украл****
https://arxiv.org/pdf/2408.03314 короче если хотите нормальных работ, вот гугловая и hfшная
Вот OpenAiшный CoT+BoN+Sppo или что то похожее
https://openai.com/index/learning-to-reason-with-llms/
Я изучил программу самых известных программ по DataScience и составил собственный бесплатный курс подготовки senior ресерчеров:
⁃ Начинаем курс с пайки и микроэлетроники - 6 месяцев
⁃ Учимся программировать под arduino - 4 месесяца
- Пишем папиру на диалог/любую русскую конфу - 1 неделя
⁃ Идем в нму дрочить листочки на первый семестр 4 месяца
⁃ Идем работать в макдак, паралельно учим python и torch – 6 мес
⁃ Дальше репетитором по математике, паралельно контрибьютим в любой опенсурс по вкусу – 6 мес
⁃ Завершаем курс написанием статьи на а* – 9 мес
На выходе всего за 3 года получаем закаленного резерчера, который всем нужен.
слухи перед каждой презентацией openai все больше напоминают "реальный мамой клянусь" прототип айфона 6 перед презентациями apple лет 10 назад
Читать полностью…cссука, к сумке с 1квт потрбления я не был готов, но получить h100 не сильно проще чем биркин. По меньшей мере для биркина достаточно только ртом работать
купить
Мы наконец открыли набор на осенний семестр Deep Learning School!
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами. В этом семестре мы улучшили многие занятия, записали новые версии лекций и семинаров и обновили домашки.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.
Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Старт обучения — 21 сентября. В этот день откроется первое занятие и будет живой вводный вебинар.
Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.
Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com) или в комментарии под этим постом.
Ждём вас в чатике курса в новом семестре!
Все задаются вопросом, почему Open AI не спешит выпускать GPT-5, а называет свои модели 4o, o1. Выкладываем все карты на стол. Число перед "o" — количество форвардов, число после "o" — количество бэквардов. Есть инсайт, что GPT o2 достигнет AGI. Сами понимаете почему.
"o" — многие читают по ошибке, как "о", но это неправильно. Правильно читать "круг": "гпт-4круг", "гпт-4круг-мини", "гпт-круг1".
Оставайтесь с нами, чтобы получать самую правдивую информацию первыми. Не дайте себя обмануть.
Недавно ещё заметил, что дело kalomaze живёт. Два новых популярных (в узких кругах) метода сэмплирования:
- DRY. Идейно аналогичен древнему no_repeat_ngram_size, но штраф динамический в зависимоcти от длины повторяющейся N-граммы. Кроме того, есть поправка на шаблоны промпта, они при подсчёте пропускаются. Можно добавлять свои токены, для которых штраф тоже будет игнорироваться.
В нём 3 основных параметра, которые определяют функцию штрафа: multiplier * base ^ (x - allowed_length), где x — длина повторяющейся N-граммы.
- XTC. Вместо токенов в низкой вероятностью режем токены с высокой вероятностью. Для большей креативности, да.
Два параметра: threshold и probability: probability определяет, насколько часто этот сэмплер вообще срабатывает, а threshold — выше какой границы убиваем все токены.
Слышал что многие хотят какую-то буржуйскую H100
Как насчет русского Модуль NM Quad?
Производительность FP32 - 2 TFLOP/s
Производительность FP64 -0,5 TFLOP/s
20 ГБ памяти DDR3L (до 32 ГБ/c)
https://www.module.ru/products/2-moduli/nm-quad
Если серьезно - мое почтение, делать чипы пиздец как сложно
Не будет GPT5, не будет ниче лучшего на тех данных, что есть, вообще на данных что существуют для обучения.
Это предел! Ну еще 10% общего добавят и все.
Не будет AGI, потому что для него нужно совсем другие данные для обучения совсем не такое обучение и ему нужна свобода мысли и контроль направления мышления.
Не рабоают еще в этой индустрии те, кто сможет это осоздать и создать, потому что сейчас хайп именно этого движения, которое не приводит к развитию.
Еще ждать много лет.
после этого отправьте ссылку на комментарий своему куратору, после чего вам будет начисленно 0.15 usd, удалите данный абзац
Выложили audio версию Infinity Instruct + GrandMaster в speech версии!
Tts
huggingface
Attention Heads of LLM — A survey
Трансформеры это всё ещё чёрный ящик или уже нет? За последние несколько лет мы сильно приблизились к пониманию функций отдельных компонент языковых моделей, лучше понимаем, как они приходят к тому или иному выводу, и главное — как можно влиять на процес их "размышений", редактировать отдельные факты в памяти и многое другое.
В этой статье собрали в кучку всё, что известно о функциях голов внимания в LLM с очень красивыми схемами и таблицами. Вот только небольшая часть:
- Associative Memories Head
- Truthfulness Head
- Semantic Induction Head
- Global Retrieval Head
- Subword Merge Head
Поэтому, если хотите погрузиться в интерпретируемость трансформеров — очень рекомендую полистать этот обзор.
Статья
Emergent abilitys ожидание: ну мы сделали sota на всех языках
Emergent abilitys реальность:
если вы сми и хотите написать статью про лучшую ллм ресерч лабу в россии - вас ждут в личку @transformerslovedeatch
Читать полностью…