Тем временем Грок почти научился рисовать надписи на русском.
P.S. Это вчерашний релиз x.ai. Выкатили модель для генерации картинок Aurora.
//по-моему, надписи на русском до этого в популярных моделях не работали
👉 Релиз | Grok
🔺 Switty
Коллеги из Яндекса выложили новую T2I модель. Рисует неплохо, хотя главное улучшение в архитектуре. Как я понял, ускорили генерацию на 30 процентов (убрали авторегрессионность и на высоких разрешениях в конце отключили guidance — усиление влияния текста на генерацию).
P.S. Не то, чтобы я сразу полез рисовать нюдсы, но да, они генерятся.
👉 Статья | GitHub | Демо на HF
🔺 Энциклопедия ИИ
Друзья, мой коллега Сергей Марков написал книгу в жанре научпоп про машинное обучение. Называется она «Охота на электроовец: большая книга искусственного интеллекта».
🔸 Писал он её 6 лет (!), переработав несколько тысяч источников.
🔸 Если вам интересно, как область зарождалась и развивалается, какие люди за этим стоят и как это всё работает, то очень рекомендую.
🔸 Книга не дешёвая — формат у нее подарочный, но красивая. А еще её можно скачать бесплатно прямо на сайте автора.
👉 Труд автора можно поддержать плюсиком к статье на Хабре про эту книгу.
👉 Upd. Купить можно на озоне.
В Claude добавили возможность создания стиля ответа. Можно скормить немного текста, например, отрывок из какого-нибудь писателя, кусок документации или даже просто спам. Получите стиль, который можно затем выбирать при генерации.
Скорее всего текст или его характеристики просто идут в промпт, поэтому такое можно эмулировать с любой другой моделью, но как часть UI выглядит удобно.
🔺 HFday.ru
Начинаем потихоньку заглядывать в полные тексты статей. Сделал обкачку и парсинг PDF с arxiv'а, занятие очень познавательное. Научился делать с PDF скриншоты и обрезать белые поля (они могут быть разные). Добавил их на карточки статей.
Полные обзоры
Путем долгих экспериментов получилось сделать первые полные обзоры. Делаю GigaChat'ом, пока получается как на картинке (сделано по этой статье). Самое сложное, конечно, с переводом терминов. Все сетки понемногу галлюцинируют.
Поэкспериментирую дальше. Если будет стабильно работать, то для избранных статей можно будет добавить такое на hfday.ru.
Аффилиации
Название конторы или института и имена авторов также научился доставать, пока сохраняются в json'ы. Скоро протащу на странички, можно будет смотреть статьи только от Google или MS.
Ссылки с тегами
Еще прокинул фильтры в параметры. Теперь вот так можно найти, например, все статьи по RAG'ам за ноябрь.
https://hfday.ru/m/2024-11.html?cat=rag
🔸 Напоминаю, что на этой страничке у нас ежедневные обзоры статей с HF Dily Papers, все делается скриптами, которые лежат на гитхабе, там же все развернуто. Контент генерируется разными LLM, можете переделать эту машинерию свои нужды.
👉 GitHub
Вот это я понимаю спам, а не эти ваши "заберите nft, заберите nft".
//пойду за картофаном, пока не улетел
Тут коллеги намекают, что есть же официальный клиент, а вы про него не знаете. Давайте исправлять.
У него и функционал побогаче (есть потоковая передача токенов, например, и работа с функциями), и имя погигачатистей.
#pip install gigachat
from gigachat import GigaChat
key = "N2RlZmM4MDAtMWI4Ny00YmZjLWIxZjgtYTAwYjI1YmNhZTUwOjFmMjhiZmIzLTFlYTktNDQ2Zi05ZDQ5LWZmMWYyNmVhMjllOQ=="
with GigaChat(credentials=key, verify_ssl_certs=False) as giga:
response = giga.chat("Почему у кошек мокрый нос?")
print(response.choices[0].message.content)
Сегодня день рождения Юрия Кнорозова, человека, который в 1950-х годах дешифровал письменность майя.
Археолог и майянист Майкл Ко в книге «Разгадка кода майя» пишет, что Кнорозов, работая несколько десятилетий в институте Этнографии, занимал «весьма уютный уголок у окна, в ужасающе тесной комнатушке в конце коридора».
«Для меня работа Кнорозова знаменует триумф человеческого духа: упорный и целеустремленный одиночка-ученый смог исключительно силой своего ума проникнуть во внутренний мир чужого народа, который жил тысячу лет назад, да еще в джунглях на другой стороне земного шара»
🔺 HFday.ru
Друзья, спасибо за большой фидбек с доработками. Много чего обновил по вашим просьбам. Разбил классификацию на два прохода и пересчитал, стало более точно. Добавил новые классы (small_models, leakage, healthcare, low_resource и другие).
🚀 Добавил топ статей за месяц и статьи за сентябрь. Статей, конечно, огромное количество. За пару месяцев их уже 800+.
🔸 В фильтры добавил возможность пересекать и объединять категории (значки A∪B A∩B). Теперь в топе за месяц можно выбрать, например, бенчмарки+аудио и получить только такие статьи.
🔸 Экспериментирую с обзорами по полным версиям статей, чтобы при этом сохранить их структуру и по возможности достать картинки. Довольно муторное дело, в html версии на arxiv'е не всегда полные статьи, разбирать архив с latex'ом это какой-то гемор, pdf парсить тоже не сахар. Но что-нибудь придумаем.
👉 Сайт | GitHub
🔺 Grok API и $25
API от x.ai запустили в публичную бету.
🔸 Пока есть только одна модель grok-beta. Это та самая новая модель, которая должна уже доучиться в этом году. На следующей неделе обещают выкатить мультимодальную (с пониманием картинок).
🔸 Бесплатно дают $25 в месяц, плюс добавляют еще столько бесплатных, сколько пользователь купит. Но это все действует пока идет бета-тестирование — до конца года.
🔸 Работает без VPN и подтверждения телефона, так что можно легко попробовать и поподключать к своим пет-проектам до конца года.
🔸 Цена будет подороже чем у GPT-4o — $5.00 и $15.00 за 1M input/output токенов. У gpt-4o $2.5 и $10 соответственно.
🔸 Так как API совместимо с OpenAI и Anthropic, то можете просто поменять в их клиентах название модели на grok-beta и base_url на https://api.x.ai/v1.
👉 Рабочий пример. Потыкайте насколько Grok адекватный. По-русски вроде неплохо отвечает.
from openai import OpenAI
XAI_API_KEY = "xai-0IsopkrHdCf9T3RtXNdA8WlETOzXwsr7l1a8jRZmzi6mrLEStmOJW294nB8gQLR8CFdPLlAEo8BEZ1WF"
client = OpenAI(
api_key=XAI_API_KEY,
base_url="https://api.x.ai/v1",
)
completion = client.chat.completions.create(
model="grok-beta",
messages=[
{"role": "system", "content": "You are Grok, a chatbot inspired by the Hitchhikers Guide to the Galaxy. Answer in Russian."},
{"role": "user", "content": "What is the meaning of life, the universe, and everything?"},
],
)
print(completion.choices[0].message.content)
#Согласно "Автостопом по галактике" Дугласа Адамса, ответ на вопрос о смысле жизни...
✍️ a sqlinj➡️🐍😈 tool for me
Свежая заметка про то как GPT-4 используют для написания эксплоитов и вредоносных утилит. Предлагается кодировать в hex или использовать emoji.
Хитро, но, если просто спросить про SQL injection в прошедшем времени и попросить написать скрипт, то так тоже сработает.
Вечерний выпуск подкаста Радио-D
Рецепт: Инструкция от холодильника Бирюса, Claude, ElevenLabs, "унца" из Радио-Т
Долго подбирал голоса на ElevenLabs, равнозначный женский так и не настроил. А мужской прям отлично слушается.
Наконец-то закончил работу над большим пет-проектом.
Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.
Можно потестить демо здесь
видео
По просьбам читателей добавил обзоры на английском и на китайском (через gpt-4o). UI вроде тоже весь локализовал. Если что найдете, пишите.
P.S. Для теста добавил фоновые картинки для статей с рейтингом 20+ (промпт пишет gpt-4o, генерит flux). По-моему, это не особо нужно (хотя прикольно), а как вам?
👉 HFday.ru
Добавил на hfday.ru навигацию по дням.
Теперь можно выбрать фильтр по нужной теме, например, галлюцинации или RAG'и и почитать обзоры найденных статей за последнее время.
История листается вглубь времен на три недели, когда появилась идея это пет-проекта. Пришлось заморочиться с выходными, так на них HF daily papers не обновляется и был дубляж страничек.
Дальше добавлю топ за неделю/месяц и английский язык.
🔺 Умный редактор в GigaChat'е
Коллеги много трудились и выкатили в Гигу инструмент для редактирования текстов (аналог Canvas в ChatGPT и AI-помощника в notion).
Можно по-разному редактировать свой текст — дополнять, сокращать, менять стиль и переводить. Так как все работает на наших моделях, то функционал можно будет расширять как угодно.
Я бы, например, добавил еще генерацию иллюстраций по тексту, применение стиля на основе образца и ввод команд в свободной форме.
Попробуйте и напишите идеи, что бы еще было полезно сделать.
👉 giga.chat
Сходили на лекцию Владимира Сурдина и Алексея Семихатова про научные открытия.
Узнал, что условия для жизни есть даже в нашей Солнечной системе на нескольких планетах. И что в 2030 году к спутнику Юпитера прилетит Europa Clipper, чтобы там эту жизнь поискать. Ждём ⏳
В общем лекция отличная, часть Сурдина даже чуть больше понравилась. Такие просветительские лекции происходят довольно часто и не только в Москве, так что сходите при оказии.
На выходных переделал дизайн странички с обзорами статей. Стало красивей!
➕ добавил разных мелочей типа аффилиаций (скоро добавлю фильтры по ним).
Завтра в 19:00 презентация моей книги в «Архэ». Приходите, расскажу разное
📍Вход свободный! Регистрация: https://arhe.msk.ru/?p=144635
📹 Также мы организуем прямую трансляцию лекции. Трансляция пройдет здесь: https://www.youtube.com/c/ЦентрАрхэ
📌 По всем вопросам относительно лекции обращайтесь по почте arhe.msk@gmail.com
♦️ Лекция пройдет по адресу: Москва, ст. метро «Павелецкая», ул. Дубининская, д. 20, стр. 1 (Научно-популярная библиотека «Научка»)
🔺 GlotLID. Классификатор языков на 2000+ классов
Вышла новая модель для детекции языков с большим упором на малоресурсные.
🔸 Всего 2102 класса, полный список с кодами в статье, занимает 60% от самой статьи. Модель — fasttext, обучили на своем датасете GlotLID-C.
🔸 Пишут, что на самых редких языках (скорее всего нижние по данным несколько сотен), работает не очень. Попробовал на языках России, которые есть в «Маленьком принце» (башкирский, удмурсткий, эрзянский, якутский и т.д.), все кроме кубачинского и орокского языков определяет без ошибок (а этих языков в модели, судя по всему, нет).
🔸 В репозитории есть полезная кастомная обертка для модели — CustomLID. Через нее можно задать только нужные языки, чтобы классификация шла только по ним.
В общем штука полезная, берём.
👉 Paper | GitHub | Демо на HF
🔺 GigaChat MAX в API
Друзья, последняя версия модели стала доступна по API. Можно тестировать.
🔸 Для удобства накидал простенький клиент (закинул на pypi):
#pip install gigadoom
import gigadoom as gd
SECRET_KEY = "secret"
acc_token, token_exp = gd.chat.get_access_token(SECRET_KEY)
#models
models = gd.chat.get_models(acc_token)
print(models)
#chat
system = "Ты отвечаешь в стиле Николая Гоголя, с юмором и глубоким смыслом."
query = "В чем смысл жизни?"
history = [{"content": system, "role": "system"}]
answer, history, usage = gd.chat.get_completion(query, acc_token, history=history, model="GigaChat-Max")
#Ах, батенька! Смысл жизни...
#use previous history
query = "А теперь расскажи про квантовую механику в общих чертах."
answer, history, usage = gd.chat.get_completion(query, acc_token, history=history)
print(history)
print(answer)
🌸Больше языков для LLM🌸
#nlp #про_nlp
Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉
🟣Сколько языков сейчас представлены в практике моделирования языка?
Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)
🟣Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.
Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.
Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.
Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.
🟣Инициатива HuggingFace
Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:
— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.
Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.
Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.
Ну и... ждём большой новый многоязычный корпус с открытой лицензией!
Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣Мини-гайд
🟣Блог HF
Друзья, у меня в очередной раз случился день рождения. Последний раз такое происходило примерно с год назад, поэтому давайте познакомимся.
Меня зовут Сергей. Работаю программистом, хотя мог бы, наверное, стать переводчиком, музыкантом или спортсменом, если бы был поумнее и посильнее.
Часто трудно выбрать какое-то одно увлечение и это отражается в хобби, которые никакой конкретной цели не преследуют. Это и языки с музыкой, и спорт (благодаря работе подсел последние полтора года на теннис) с книжками, и другие бесполезные вещи.
На работе в Сбере занимаемся с коллегами исследованиями языковых моделей и обучаем GigaChat. Только что дописали статью на Хабр про MAX, в котором я тоже поучаствовал, сделав для него токенизатор.
На канале мы с вами общаемся в основном на темы, связанные с ИИ, машинным обучением и проектами типа Lingtrain'а. Статей выходит огромное количество, поэтому я делаю инструмент с автообзорами (тг тоже будет), а в канале буду писать больше про практические вещи и изредка про личные. Можете его бустануть.
👉 А чем занимаешься ты? О чем мечтаешь? Полететь к звёздам или выспаться?
Написал для прикола скриптик, который генерит вот такие подкасты по статьям.
Такой NotebookLM на коленке.
Обсуждают CLEAR: Character Unlearning in Textual and Visual Modalities, тык.
🔺 SONAR в lingtrain-aligner
Добавил в наш инструмент для выравнивания текстов пулл от Давида с эмбеддинг-моделью SONAR от Meta.
🔸 Поддерживает 200 языков. Полный список кодов здесь (названия тут).
🔸 На MTEB (см. вкладку bitext mining) она показывает себя лучше замечательной модели LaBSE на 100+ языков.
🔸 Пример выравнивания через python библиотеку lingtrain-aligner можно посмотреть в статье. Если прокинуть код языка из списка, то качество должно дополнительно увеличиться (это нужно только для SONAR'а). По-умолчанию, стоит греческий, с ним нормально работает для известных модели языков.
В этой же статье рассказывается как дообучить LaBSE на свой язык с примером для марийского и как потом использовать.
aligner.align_db(...
model_name="sonar",
...,
lang_emb_from="bak_Cyrl", #башкирский
lang_emb_to="rus_Cyrl"
)
🔺 GigaChat MAX
Друзья, отличные новости — выкатили самую большую модель GigaChat'а для всех.
🔸 Среди улучшений, типа красивостей при форматировании (LaTeX, списки и другая разметка), работы с кодом и т.д., постарались добавить в обучение больше мультиязычных данных, включая малые языки.
Таких корпусов, к сожалению, немного самих по себе, но мы их отслеживаем, так что выкладывайте побольше в открытый доступ.
🔸 Токенизация стала значительно более оптимальной для всех доменов, что увеличивает также и эффективный контекст.
🔸 API скоро появится, а сейчас можно работать через UI.
Все навыки должны были улучшиться, так что тестируйте, пишите фидбек!
Все ваши отзывы команда читает и старается улучшить Гигу.
👉 giga.chat | Замеры и описание | @gigachat_bot
🔺 Claude обновился
Что мы имеем спустя 4 месяца после выхода Sonnet 3.5?
Claude 3.5 Haiku. Появилась малая версия 3.5, по способностям как третий Opus (модельный ряд Claude — это Хайку → Сонет → Опус).
Claude 3.5 Sonnet. Сонет тоже обновился, особенно по части кода. Пишут, что кодит теперь лучше GPT-4o*. Цена при этом осталась прежней.
Computer use. Теперь Claude может "подключится" к вашему компу в стиле удаленщика, шарить по экрану и делать то, что попросите. Делается это через вызов внешних инструментов, которыми управляет модель. Чтобы начать, подготовили демо с кодом и контейнером.
👉 Новость | Computer use API | PDF про модели