Telegram-канал doomgrad - Градиент обреченный: Unsorted - каталог телеграмм

doomgrad | Unsorted

Subscribe to a channel

Telegram-канал doomgrad - Градиент обреченный

6811

- hfday.ru - lingtra.in - prince.lingtrain.ru - http://superminor.ru - https://habr.com/ru/users/averkij/

Subscribe to a channel

Градиент обреченный

21 Jul 2024 18:15

🎬Сегодня вышел выпуск на канале Основа

Получилось довольно круто на мой взгляд! Поговорили с Борисом про современные тренды в ИИ, подискутировали про будущее и возможности современных технологий.

Приглашаю всех посмотреть, выходной как раз этому способствует! Заранее спасибо за просмотр🙏

👉Подкаст

Читать полностью…

Градиент обреченный

29 Jun 2024 18:09

Тестируем новый функционал.

Читать полностью…

Градиент обреченный

25 Jun 2024 08:55

🔺 «Маленький принц» на хакасском

Благодаря Василию Адешкину @adskat, удалось собрать средства на перевод книги на хакасский язык и, собственно, перевести её (перевел Илья Топоев). Большое им спасибо!

📚 Текст выровнял и добавил к другим редакциям, так что можно читать книгу в любых языковых комбинациях.

👉 Книжка, чат

Читать полностью…

Градиент обреченный

07 Jun 2024 12:48

Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»

Читать полностью…

Градиент обреченный

05 Jun 2024 10:28

🔺 DPF

Тут коллеги решили выложить в открытый доступ инструмент, которым обрабатывают данные — Data Processing Framework.

Основной упор на картинки, видео и оптимизации по их обработке (коллеги обучают Kandinsky), для текстов тоже есть фильтры типа детекции языка и автоперевода.

Задачки довольно частые при работе с данными, поэтому рекомендую к использованию (если чего-то не хватает, то оставляйте Issue на GitHub). Собрал простой колаб с примером определения языка. В документации есть много других рабочих примеров.

👉 GitHub | Хабр | Colab

Читать полностью…

Градиент обреченный

14 May 2024 09:52

С пониманием новых шуток, по-моему, справляется плюс-минус также, в целом нравится.

Заявлена мультиязычность, пишите что перевести и на какой язык, проверим как она переводит.

Читать полностью…

Градиент обреченный

12 May 2024 10:42

Сходил сдал следующий экзамен на знание китайского (HSK2, тоже не сложный). Проходило все не в МГЛУ, как в прошлый раз, а в отеле напротив парка Хуамин на Ботаническом саду (сам парк, кстати, очень красивый).

Оказалось, что там сегодня проходит выставка об образовании и работе в Китае. Есть около десяти стендов различных университетов, где их представители рассказывают про условия обучения.

Кому интересно, заходите, вход свободный.

Читать полностью…

Градиент обреченный

27 Apr 2024 11:53

Всем привет! Сегодня не только тот день, когда понедельник действительно начинается в субботу, но и один год с того момента, как мы начали выкатывать Гигачат в открытый доступ. Мы — это очень много людей, которые участвуют в его разработке и развитии, к которым я бы отнес и вас, друзья.

С этим вас и поздравляю, а еще с майскими, на которых можно спокойно почитать, погулять, ~~поработать~~.

Сам я выбрался в Питер, где успел погулять по снежку (!), съесть шаверму и зайти в Подписные издания. Еще, кстати, понравился книжный СпбГУ, много научпопа и местных изданий, нашел там книжку с олимпиадными заданиями по китайскому. Надо подумать, куда бы еще сходить.

Читать полностью…

Градиент обреченный

12 Apr 2024 18:18

🔺 Обзор мультиязычных LLM

Вышел довольно любопытный обзор — Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers.

Авторы попытались поделить модели по типу обучения и по доступности обучающих данных. Есть табличка с открытыми мультиязычными датасетами.

Из странного то, что упомянули GPT-4, но забыли про Claude. Хотя по ощущениям Claude Opus очень хорошо понимает языки и даже неплохо переводит на малоресурсные (обсуждали с носителями удмуртского, алтайского и нескольких других).

👉 Статья

Читать полностью…

Градиент обреченный

01 Apr 2024 10:18

#superminor

Друзья, всем спасибо за тестирование. Сделал много доработок по вашему фидбеку, продолжаем дальше.

• Добавил страницу с просмотром всех заданий модуля.
• Добавил возможность редактирования ранее переведенных заданий (на странице просмотра).
• Добавил прогресс-бары на страницах с заданиями.
• Внес кучу мелких правок, которые подсказали (опечатки, всплывающие окошки, подсказки и т.д.).
• Добавил инструкцию.

Сделал первые модули для якутского, татарского, чувашского, удмуртского и алтайского, можно начинать переводить. Первые два модуля для башкирского уже перевели, так что готовлю следующие.

Так же все желающие могут подключиться к тестированию на переводе NLLB Seed с английского на русский в этом модуле. Около 100 единиц уже перевели. Как и прежде, пишите, что можно улучшить.

Читать полностью…

Градиент обреченный

29 Mar 2024 12:05

Коллеги, очередной шаг в будущее от стартапа Suno.

1️⃣ Идём на suno.ai и жмем на Make a Song.

2️⃣ Пишем, о чём хотите песню и в каком жанре, можно на русском. Например, «лирическая песня с пианино про телеграм-канал градиент обречённый».

3️⃣ Наслаждаемся хитом.

Стартап уже существует некоторое время, но сейчас выпустили 3 версию своей модели. Получилось что-то типа midjourney для песен.

Есть расширенный режим, в нем можно подкорректировать слова сгенерированной песни, так как грамматика для русского иногда ломается. Напишите, как вам качество. По-моему, очень круто.

Читать полностью…

Градиент обреченный

26 Mar 2024 11:30

🔺 Короткометражки от Sora

После анонса модели для генерации видео по тексту OpenAI предложила попробовать её нескольким художникам и режиссерам, чтобы собрать фидбек. Смотрим на результат.

👉 Видео

Читать полностью…

Градиент обреченный

18 Mar 2024 06:40

🔺 Grok выложили в открытый доступ

🔸 В open source выложили языковую модель Grok-1 от X.AI (твиттер). Название идёт из книги Хайнлайна «Чужак в стране чужой», где воспитанный марсианами человек «грокал» все новые для себя понятия на Земле.

🔸 Модель является претрейном, т.е. для работы в формате диалога её надо будет дообучать на инструкциях.

🔸 Архитектурно это MoE (Mixture of Experts) с 314B параметров (~300Гб). На инференсе активируется 8 экспертов (25% весов).

🔸 Токенизатор на 131k токенов.

> tokenizer.EncodeAsPieces('Языковая модель Grok')

> ['▁Я', 'зы', 'кова', 'я', '▁мо', 'дель', '▁Gro', 'k']

🔸 Лицензия Apache 2.0.

👉 GitHub | HF | Release

Читать полностью…

Градиент обреченный

16 Mar 2024 13:28

🔺 Переводим NLLB Seed

Друзья, есть отличная возможность поспособствовать развитию машинного перевода.

Есть датасет NLLB-Seed, состоящий из 6-ти тысяч предложений, который уже переведен на 39 малоресурсных языков, но при этом нет его перевода на русский язык. Датасет очень полезный, в силу своего разнообразия он улучшает качество моделей, обучающихся с его использованием.

Наш общий друг Давид Дале, участник проекта, заведующего этим датасетом, а также FLORES и другими связанными с переводом вещами, собрал бота @crowd_translate_bot, через которого можно добавлять и одобрять переводы.

Перевод идет с английского на русский, а самих текстов не так много, так что помощь каждого будет значимой.

А на следующей неделе потестируем с вами SuperMinor, проект направленный на коллективный перевод инструкций на малоресурсные языки. Сам же функционал портала, думаю, сможем попробовать на том же NLLB Seed и переводом на русский.

👉 @crowd_translate_bot

Читать полностью…

Градиент обреченный

10 Mar 2024 08:32

🔺 Книжка-трансформер

Добавил в нашу книжку-трансформер с малыми языками редакцию «Маленького принца» на орокском языке, языке малочисленного народа Дальнего Востока.

За текст спасибо @gislygisly

📚 Итого их стало 15: алтайский, балкарский, башкирский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, орокский (уйльтинский), татарский, чувашский, якутский, русский и французский.

Можно выбирать любую комбинацию. Присылайте еще тексты. На очереди бурятский язык.

Иллюстрация сгенерирована DALL-E

👉 Книжка, чат

Читать полностью…

Градиент обреченный

19 Jul 2024 09:17

🔺 GPT-4o mini. Дешевый зверь

Вышла младшая модель GPT-4o с контекстом на 128k и поддержкой картинок. Вышла на замену GPT-3.5 Turbo.

Цена. $0.6 за миллион исходящих токенов и $0.15 за миллион входящих. Это примерно в 3 раза дешевле чем 3.5-turbo и в 20+ раз дешевле обычной версии.

При использовании режима батчей, пользоваться которым очень просто (если вам нужно обработать несколько тысяч запросов в пределах нескольких часов), цена будет еще в два раза ниже.

Читать полностью…

Градиент обреченный

28 Jun 2024 09:43

🔺 110

🔸 Это не только средняя температура на Юпитере, но и количество языков, которые на днях добавили в Google Translate (список).

🔸 После того, как Meta выпустила модель NNLB для перевода на 200 языков, Google объявил об инициативе по поддержке 1000 языков и приблизился к обещанному уже на четверть.

🔸 При переводе также используется языковая модель (PaLM 2), а среди новых языков есть много распространенных в России (абхазский, аварский, башкирский, бурятский, чеченский, чувашский, крымско-татарский, коми, марийский, осетинский, тувинский, удмуртский, якутский).

🔸 Модель может иногда ошибается в грамматике. Подобный эффект заметен, когда вы общаетесь с языковыми моделями на русском языке, а при обучении таких данных было недостаточно.

🔸 Вообще, подобный шаг — это отличная поддержка для малоресурсных языков, перевод можно встраивать по API в приложения или использовать для того же выравнивания параллельных книг.

🔸 Чем ответит Яндекс?

Читать полностью…

Градиент обреченный

16 Jun 2024 08:55

🔺 Nemotron. GPT-4 у вас дома.

NVIDIA выложила в открытый доступ свою большую модель Nemotron-4 340B.

🔸 Претрейн шел на 8T токенах, затем изменили распределение данных и обучили еще на 1T токенах (пишут, что на этом этапе добавили вопросно-ответные данные и уменьшили LR). Обучали на 6144 H100.

🔸 На этапе SFT (дообучение на инструкциях), было немного размеченных людьми данных (около 20k), а 98% инструкций были синтетическими.

🔸 Данные. 70% — английский, 15% — код, 15% — мультиязычные данные (моно- и параллельные корпуса). В мультиязычной части было 53 языка, русский там в топе, 3.88%. Больше про данные есть в отчете другой модели (данные были те же).

🔸 Провели SBS тест с GPT-4-1106-preview, получили выигрыш (win : tie : loss = 28.19% : 46.57% : 25.24%).

🔸 Чтобы запустить модель у вас дома, вам понадобятся две стойки по 8 H100 или A100 (80Gb).

👉 Если стоек не нашлось, то пообщаться с моделью можно на чатбот-арене (вкладка direct chat).

👉 Тех. отчет | HF

Читать полностью…

Градиент обреченный

06 Jun 2024 13:24

Собрал датасетик метаданных из книжек либрусека (~500k). Может, будет полезно.

👉 HF

Читать полностью…

Градиент обреченный

03 Jun 2024 20:27

🔺 SD 3

Пришло письмо, что 12 июня на HF выложат веса Stable Diffusion 3.

Пока что c моделью можно поиграться на сайте в Stable Assistant с триалом на три дня. Потыкал в нее, по качеству явно получше предыдущей модели, умеет рисовать надписи на английском. Ждём.

Читать полностью…

Градиент обреченный

14 May 2024 09:11

Тестируем GPT-4o

Читать полностью…

Градиент обреченный

05 May 2024 11:57

Генрих Кампендонк писал картины в стиле Кандинского без всяких нейросетей.

Картина из Главного штаба Эрмитажа.

Читать полностью…

Градиент обреченный

15 Apr 2024 11:52

🔺 SAGE. Выложили модели для коррекции орфографии

Коллеги из нашей команды обучили и выложили пачку моделей в открытый доступ. Это модели для исправления ошибок на основе FRED'а и мультиязычной mT5 (одна модель для русского и английского).

Также выложили дистиллированную модель для быстрого инференса. Сравнились с платными решениями и написали про это статью, которую уже опубликовали на EACL 24.

Работать можно через библиотеку SAGE, код и примеры есть в репозитории. Прошу пробовать. Библиотеку будут развивать дальше, так что пишите свои идеи и предложения.

Upd. Issue для предложений.

👉 Хабр | GitHub | HF | Paper

Читать полностью…

Градиент обреченный

02 Apr 2024 20:35

Как устроено пространство, в котором думают языковые модели?

Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.

Статья, хабр

Читать полностью…

Градиент обреченный

30 Mar 2024 13:52

Сходил тут сдал HSK — экзамен на знание китайского языка (некоторое время учу его в свое удовольствие). Было забавно выполнять тесты в аудитории, где большинство сдающих — это дети, так как уровень экзамена самый базовый. Интересно, какого возраста будут студенты на следующих ступенях.

Признавайтесь, кто какие языки учит в качестве хобби?

Читать полностью…

Градиент обреченный

29 Mar 2024 06:59

#event

Друзья, через неделю проводим митап, на котором расскажем про наши наработки и опыт в разных областях — про обработку речи и жестов, 3D, NLP эксперименты, бенчмарки и GigaChat.

Тоже там буду, так что заходите, если получится дойти в рабочий день (это будет пятница), поболтаем. Трансляция будет.

Читать полностью…

Градиент обреченный

25 Mar 2024 16:36

#superminor

Друзья, начинаю тестировать SuperMinor, платформу для перевода датасетов, с помощью которой сообщество сможет переводить инструктивные датасеты на свои языки.

Делал его долгими зимними вечерами, постарался сделать UI красивым и понятным, а загрузку модулей по API и их хранение на бэкенде простым.

Начали переводить базовые промпты на башкирский язык, готовлю модули под другие языки.

Страничку с инструкцией добавляю, но базовый функционал готов, поэтому предлагаю попробовать попереводить отрывок датасета NLLB Seed с английского на русский, задача полезная. Просто открываем ссылку и начинаем переводить.

В интерфейсе есть возможность вставить машинный перевод, он достаточно неплохой, но после вставки его нужно подкорректировать. Все изменения сохраняются автоматически.

Посмотрите, что можно добавить, что понятно, а что нет. Пишите.

P.S. На картинку на главной странице не смотрите, сгенерировал за 5 минут тут.

👉 http://sumi.ac/about/en

Читать полностью…

Градиент обреченный

17 Mar 2024 17:50

Генерю тут нейросетями картинки по известным стихам.
Угадайте, где какие.

Upd.

Ответы: Пушкин «Зимний вечер», Есенин «Мне осталась одна забава», Маяковский «Облако в штанах», Бродский «Пилигримы» и «Не выходи из комнаты».

• Промпты для генерации делались при помощи Gemini Advanced (больше всего понравились), GPT-4 и GigaChat.

• 1,3 и 4 — DALL-E, 2 и 5 — Kandinsky.

Читать полностью…

Градиент обреченный

15 Mar 2024 13:23

#grok #safety

А неплохую модель обещают выложить.

Читать полностью…

Градиент обреченный

08 Mar 2024 09:44

🌸 Женщины в AI Research🌸

Сегодня 8 марта, и это отличный повод поделиться с вами списком исследовательниц в ИИ и смежных областях, за работами которых я слежу и которыми вдохновляюсь:

🟣Fei-Fei Li — Professor of Computer Science, Stanford University, создательница Imagenet, многих основополагающих работ по CV и unsupervised learning
🟣Cathy O'Neil — Professor at Barnard College, автор фундаментальных книг по Data Science в 2010х, а также смещениях в данных и результирующих моделях
🟣Timnit Gebru — founder and executive director of Distributed AI Research Institute (DAIR), этика в ИИ, соавтор знаменитой статьи stochastic parrots
🟣Emily M. Bender — President of ACL в 2024, одни из основополагающих работ по этике в NLP, соавтор stochastic parrots вместе с Timnit Gebru
🟣Anna Goldenberg — Assistant Professor, Department of Computer Science, at University of Toronto (Computational Biology Group) — ML и генетика
🟣Joy Buolamwini — MIT, The Algorithmic Justice league, множество работ по CV в распознавании лиц и biases
🟣Katharina Kann — Assistant Professor of Computer Science, University of Colorado Boulder — множество работ по соревнованиям в NLP
🟣Mirella Lapata — School of Informatics, Edinburgh University, множество работ по вычислительной сематике и применении векторных моделей в NLP
🟣Maria Schuld — Quantum computing Senior researcher at Xanadu, ML в физике и квантовые вычисления
🟣Barbara Plank — Professor, LMU Munich and ITU Copenhagen, глава лаборатории Natural Language Processing, множество работ по NER, POS-tagging, классическим методам NLP
🟣Anima Anandkumar — California Institute of Technology and NVIDIA, general CV, image and video semantic segmentation
🟣Doina Precup — Researcher at DeepMind, general RL
🟣Raia Hadsell — Research Director at DeepMind, ML в робототехнике
🟣Chelsea Finn — Professor in Computer Science and Electrical Engineering at Stanford University, ML в робототехнике
🟣Renée DiResta — Research Manager, Stanford Internet Observatory, работы по борьбе с псевдонаукой, риски в ML
🟣Tamara Broderick — Associate Professor of EECS, MIT, байесовские методы, general ML
🟣Tara Sainath — Principal Research Scientist, Google, работы по распознаванию речи
🟣Corinna Cortes — VP in Google Research, general ML
🟣Daphne Koller — CEO and Founder, Insitro, ML для генетики, bioML
🟣Irina Rish — Université de Montréal (UdeM), general ML, AI Trustworthiness
🟣Mounia Lalmas — Director of Research at Spotify, много основополагающих работ по RecSys
🟣Lise Getoor — Professor of Computer Science, University of California, causal inference, grounding и символьные методы

Кого бы вы ещё добавили? Давайте делиться в комментариях

Читать полностью…

Subscribe to a channel