Загадка: В лаборатории четверо, и только один работает.
Три Ai safety researcher_a и gpu
https://huggingface.co/datasets/nyuuzyou/chatgpt-in-russia-qa
Оригинальный пост.
А что у нас тут? 600к вопросов (и ответов) с чатгпт-в-россии.рф!
Я, если честно, и не знал, что такой сайт существует.
Собрал Сэм Альтман ресерчеров в штабе OpenAI:
— РЕСЕРЧЕРЫ!!! Мы великий народ?
— ДАААААА!
— Тогда почему у нас нет самой умной в мире LLM?
— Ну… Давайте тренировать.
Срубили самые здоровые круглые тезноры, выдолбили токены, по старым ресерчерским рецептам приготовили трансформеры, сделали энкодеры и декодеры, обучили на самом охуенном кластере.
— Куда ее запустим?
— Давайте на Hugging Face!
— А почему на Hugging Face?
— А я других не знаю…
Написали на нейронке «На Hugging Face», столпили всех ресерчеров, релизнули новую версию OpenAI o1… КАК ЕБАНЕТ!… Короче, местный армагеддон: дым, гарь, все валяются… Сэм Альтман без ноги, без руки, оглядывается:
— Thinking... Нихуя себе… Actually, there are two R's in "strawberry".
Хочу такое...
Помню, какой-то канал выкладывал пост про робота DJI, которого сделали чуваки из обнимающеелицо 🤗, с idefics2, Whisper и Parlel-TTS. Кстати, вот код на Github и сам Пост.
Но тут Vedal987 (создатель нейросама) сделал что-то похожее на каком-то DIY-ките. Выглядит прикольно.
Процессорный модуль от мейнфрейма 1975 года Amdahl 470V/6. Сначала Джин Амдал спроектировал System/360, а потом ушел из IBM и запустил свою линейку совместимых машин, которые были дешевле и шустрее.
Как они дебажили ошибки с такой разводкой, страшный сон инженера.
Модули иногда встречаются на ebay примерно за $1к
#cpu
Когда то давно мы так решать проблему n day retention, чтобы пользователь не забывал о нашем приложении.
Следующей фичей проситься глубокая кастомизация в стиле characterai видимо?
полистал дальше, все еще выглядит как general подход на основе вот этого
Это не значит что кто то что то украл****
https://arxiv.org/pdf/2408.03314 короче если хотите нормальных работ, вот гугловая и hfшная
Вот OpenAiшный CoT+BoN+Sppo или что то похожее
https://openai.com/index/learning-to-reason-with-llms/
Через годик качество ген3 будут гонять на локальных железках и возможно будет ренисанс старых игр.
Vid2vid очень хорошо выглядит
ищу ios/android разраба кто хочет ковырять llm на мобилках, пишите в личку. @transformerslovedeatch
Читать полностью…Ура! Моя книга “Deep Learning with JAX” (в девичестве "JAX in Action") вышла в печать! Я только что получил свои бумажные копии 🙂
https://www.manning.com/books/deep-learning-with-jax
Для тех, кто не следил, JAX -- это питоновская библиотека для высокопроизводительных вычислений и large-scale ML, с отличной поддержкой ускорителей, в частности TPU.
На данный момент JAX является вполне реальной альтернативой TensorFlow и PyTorch (torch.func, в юности functorch, до сих пор пытается угнаться и всё ещё beta), и многие компании, в частности Google DeepMind, Cohere, xAI и прочие, перешли на него. На JAX созданы такие известные модели как AlphaFold, GraphCast, Gemini, Gemma, Grok, и я уже молчу сколько разного рисёча.
JAX -- это больше, чем библиотека для ML, это библиотека для очень разных высокопроизводительных, параллельных и распределённых вычислений. Не просто так его называют “NumPy на стероидах”. За пределами ML/DL, например, JAX активно используется для физических симуляций, и на GitHub есть уже огромное количество производных библиотек.
Сейчас отличное время, чтобы застолбить себе немного будущего :)
Отдельная радость должна быть для любителей функционального программирования, ибо JAX -- это первый фреймворк с большим охватом, работающий в этой парадигме. Очень прикольно использовать функции для трансформации других функций. Написали функцию для обработки одного элемента -- трансформировали в функцию для обработки батча. Написали сложную математическую функцию -- трансформировали в функцию, вычисляющую её производную. Аналогично с компиляцией и распараллеливанием. Никаких hidden state и side-effects, код чист, красив и понятен. А также БЫСТР! (см. https://x.com/fchollet/status/1735420737744507374)
Книга состоит из трёх частей на 370+ страницах.
Part 1: First steps.
Верхнеуровневое введение в JAX для менеджеров и вообще всех, рассказывающее, где и почему стоит использовать JAX. Плюс отдельная глава для тех, кто любит видеть код, где показан полный цикл реализации простой нейросети с использованием большинства фишек JAX.
Part 2: Core JAX.
Основная часть книги, где покрыты все основы JAX, шаг за шагом. От работы с массивами (тензорами), autodiff, компиляция, векторизация, параллелизация и шардирование, случайные числа (в функциональном программировании старые приёмы из NumPy не работают эффективно, зато теперь всё наглядно и воспроизводимо!) и pytrees.
Part 3: Ecosystem.
Большая глава с практическим знакомством с экосистемой высокоуровневых библиотек для DL (Flax, Optax, Orbax, CLU, …), а также примеры использования HuggingFace Transformers/Diffusers, которые давно уже добавили поддержку JAX. Также есть отдельная глава с очень верхнеуровневым и широким обзором того, что есть в JAX и вокруг за пределами нейросетевого мейнстрима.
Много крутых и умных людей читало и ревьюило мою книгу, спасибо куче GDE и не только. И отдельное спасибо Франсуа Шолле за добрые слова 🙂
“A comprehensive guide to mastering JAX, whether you’re a seasoned deep learning practitioner or just venturing into the realm of differentiable programming and large-scale numerical simulations.”
-- François Chollet, Software Engineer, Google
В общем это был прикольный опыт, я доволен результатом, надеюсь, вам тоже понравится.
Ещё отдельное спасибо всем, кто поддерживал GonzoML на Патреоне (https://www.patreon.com/GonzoML). Всем действующим платным членам нашей тесной группы я отправил коды для получения книги бесплатно (проверьте сообщения!) -- у вас будет постоянно обновляемая версия (a JAX очевидно будет меняться!) в онлайн доступе.
cссука, к сумке с 1квт потрбления я не был готов, но получить h100 не сильно проще чем биркин. По меньшей мере для биркина достаточно только ртом работать
купить
Мы наконец открыли набор на осенний семестр Deep Learning School!
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами. В этом семестре мы улучшили многие занятия, записали новые версии лекций и семинаров и обновили домашки.
- Вторая часть полностью посвящена обработке естественного языка (NLP). Начинаем с эмбеддингов слов и заканчиваем GPT-2,3, RLHF, RAG и другими актуальными темами вокруг LLM.
Сейчас идет набор на оба потока обучения — часть 1 (введение в DL + CV) и часть 2 (NLP).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и программы обучения можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций в обеих частях курса.
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Для первой чати курса также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Старт обучения — 21 сентября. В этот день откроется первое занятие и будет живой вводный вебинар.
Чтобы зарегистрироваться на курс, нажмите на кнопку "поступить" на нашем сайте.
Ссылки:
Наш сайт
Подробная программа и оргинформация обоих частей курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
🧡 Поддержать нашу школу на Boosty
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com) или в комментарии под этим постом.
Ждём вас в чатике курса в новом семестре!
Все задаются вопросом, почему Open AI не спешит выпускать GPT-5, а называет свои модели 4o, o1. Выкладываем все карты на стол. Число перед "o" — количество форвардов, число после "o" — количество бэквардов. Есть инсайт, что GPT o2 достигнет AGI. Сами понимаете почему.
"o" — многие читают по ошибке, как "о", но это неправильно. Правильно читать "круг": "гпт-4круг", "гпт-4круг-мини", "гпт-круг1".
Оставайтесь с нами, чтобы получать самую правдивую информацию первыми. Не дайте себя обмануть.
Недавно ещё заметил, что дело kalomaze живёт. Два новых популярных (в узких кругах) метода сэмплирования:
- DRY. Идейно аналогичен древнему no_repeat_ngram_size, но штраф динамический в зависимоcти от длины повторяющейся N-граммы. Кроме того, есть поправка на шаблоны промпта, они при подсчёте пропускаются. Можно добавлять свои токены, для которых штраф тоже будет игнорироваться.
В нём 3 основных параметра, которые определяют функцию штрафа: multiplier * base ^ (x - allowed_length), где x — длина повторяющейся N-граммы.
- XTC. Вместо токенов в низкой вероятностью режем токены с высокой вероятностью. Для большей креативности, да.
Два параметра: threshold и probability: probability определяет, насколько часто этот сэмплер вообще срабатывает, а threshold — выше какой границы убиваем все токены.
Слышал что многие хотят какую-то буржуйскую H100
Как насчет русского Модуль NM Quad?
Производительность FP32 - 2 TFLOP/s
Производительность FP64 -0,5 TFLOP/s
20 ГБ памяти DDR3L (до 32 ГБ/c)
https://www.module.ru/products/2-moduli/nm-quad
Если серьезно - мое почтение, делать чипы пиздец как сложно
Не будет GPT5, не будет ниче лучшего на тех данных, что есть, вообще на данных что существуют для обучения.
Это предел! Ну еще 10% общего добавят и все.
Не будет AGI, потому что для него нужно совсем другие данные для обучения совсем не такое обучение и ему нужна свобода мысли и контроль направления мышления.
Не рабоают еще в этой индустрии те, кто сможет это осоздать и создать, потому что сейчас хайп именно этого движения, которое не приводит к развитию.
Еще ждать много лет.
после этого отправьте ссылку на комментарий своему куратору, после чего вам будет начисленно 0.15 usd, удалите данный абзац
Выложили audio версию Infinity Instruct + GrandMaster в speech версии!
Tts
huggingface