doomgrad | Unsorted

Telegram-канал doomgrad - Градиент обреченный

6811

- hfday.ru - lingtra.in - prince.lingtrain.ru - http://superminor.ru - https://habr.com/ru/users/averkij/

Subscribe to a channel

Градиент обреченный

Claude Opus и перевод на малоресурсный язык (кабардино-черкесский)

Любопытный пост в твиттере. Как будто бы контекста из нескольких тысяч параллельных примеров (5.7k в данном случае) хватает, чтобы он начал хорошо переводить в обе стороны.

Проверил, что без файлика переводит явно плохо, тексты разной длины и другим алфавитом. Сам файлик попросил у автора поста, посмотрю и попробую с другим языком.

Интересно, что предыдущая (вторая) версия Claude показывала лучший результат на бенчмарке MTOB (Machine Translation from One Book) на момент его выхода в феврале (чуть позже Google анонсировал Gemini 1.5 Pro и сказал, что она немного лучше на MTOB). Там освещен папуасский язык каламанг с менее чем 200 носителями. И перевод идет на основе книги по его грамматике, словаре на 2000 слов и корпусе из пары сотен параллельных предложений.

👉 Пост

Читать полностью…

Градиент обреченный

У Meta, оказывается, тоже есть генератор картинок. Немного странноват, правда.

Читать полностью…

Градиент обреченный

#митап

29 февраля, 15:30

Завтра коллеги выступят с очень интересными докладами на ИИшнице. Подключайтесь к трансляции, сможете позадавать вопросы.

Полное расписание

Upd. 👉 Видео

Читать полностью…

Градиент обреченный

#вакансия

Upd. Коллеги, всем отвечу в течение дня.

Upd2. Ребята, всем спасибо за отклики, выбираю на этой неделе из присланных резюме, напишу.

Друзья, появилась возможность подключиться к экспериментам над LLM в нашей скромной команде.

Мы занимаемся исследованиями и обучением языковых моделей, пишем код для этого, готовим данные, делаем GigaChat.

Сейчас речь о команде AGI NLP из департамента RnD, где работаю лично я, но вообще команд у нас несколько. Если вам больше нравится PLP, CV, аудио или вы гуру инференса, то с радостью поделюсь контактами коллег. Возможно, что в их командах тоже есть вакансии.

Если вы занимаетесь NLP, у вас есть непреодолимое желание развиваться в этой области и есть опыт разработки на питоне, то напишите мне.

Читать полностью…

Градиент обреченный

🔺 Инструменты для помощи малым языкам

Написал небольшую статью на Хабр про текущие проекты, связанные с языками. Про дообучение LaBSE, про автоматическое извлечение параллельного корпуса этой моделью, про параллельные книги, проект Lingtrain и новый проект SuperMinor, который скоро запущу.

🔸 Весь код тоже выложил. Просьба поддержать статью, кому интересно.

👉 Хабр

Читать полностью…

Градиент обреченный

🔺 Gemini Advanced, он же Ultra

Google зарелизил свою самую сильную модель, «убийцу» GPT-4. Bard, соответственно, тоже переименован в Gemini.

🔸 Доступна по подписке за $20 долларов с триалом на 2 месяца (нужен VPN и иностранная карта). Я, конечно, подписался, интересно же.

Поигрался с ней и пока не нашел очевидных преимуществ. В паре примеров на русские пословицы ответила лучше GPT-4, но в целом пока плюс-минус также.

🔸 Из неочевидных вещей, у модели есть доступ к YouTube, Google Maps и другим местным сервисам. Можно расширить доступ до Gmail, Google Drive и Google Docs, тогда она сможет копаться у вас в ящике, суммаризовывать письма и вообще использовать все ваши документы для своих генераций.

🔸 Картинки генерирует так себе, хотя промпты для них пишет качественные, в том числе и на русском языке. Если такой промпт передать в DALL-E, то получается очень прикольно. Часто отказывается генерировать, на запрос "paint ..." или "draw ..." может вместо картинки нагенерировать полотно текста, в примерах пишут, что надо писать "generate an image ...".

👉 Пишите, что еще потестировать.



Сочини стихотворение о кибэротике! Пусть там будет не больше шести строк, а в них о любви и измене, о музыке, о неграх, о высшем обществе, о несчастье, о кровосмесительстве – в рифму и чтобы все слова были только на букву "К"!

>
Киборг коварно кинул клятву,
Клюнув клюкву, клянясь кляксами.
Камерный концерт, крах клавесина,
Кровосмешение, крики, кулаки.
Кризис карьеры, крах короны,
Кибернетический кошмар конца.




Смех его — веселый звон,
Словно радостный птенцон.

Читать полностью…

Градиент обреченный

Новости про то, что вышла очередная нейросеть и как она стала еще лучше, звучат уже довольно буднично и это, наверное, хорошо. Уверен, что скоро мы и вовсе перестанем такому удивляться и будем просто пользоваться ими, сами не замечая этого.

Думаю, что буду больше писать про их практическое применение и делать больше обучающих примеров на эту тему.

Сейчас же хочу поделиться новостями про наш GigaChat. Выпустили с коллегами обновление, в котором увеличились и размер контекста и качество генерации. В 7B модели (которая в API называется GigaChat-Plus) это 32k токенов и 8k токенов у большой модели GigaChat-Pro.

Рассказали об этом в статье. Название у неё довольно претенциозное, но на MMLU Pro модель показала 68,9, так что она действительно неплоха. Попробуйте сами, а за подробностями приглашаю прочитать нашу заметку на Хабре.

👉 Хабр

Читать полностью…

Градиент обреченный

В последнее время вспомнил старое и прочитал/перечитал пару НФ книг — «Неукротимую планету» Гаррисона, «Астровитянку» Горькавого, «Спектр» Лукьяненко, рассказы Лема и Шекли. Посоветуйте, что-нибудь ещё, можно не фантастику. И поделитесь, что читаете сами, это интересно.

👉 Upd. Книги по популярной лингвистике

📚 Что советуют подписчики

🔸 Sci-fi & Fantasy

• «Диктатор» Сергея Снегова ✔️
• «Разбитая сфера» Роджера Аллена
• «Софт. Тело» Руди Рюкера
• «Контракт на Фараоне» Рэя Олдриджа
• «Основание» Айзека Азимова ✔️
• «Убик» Филиппа Дика
• «Ложная слепота» и «Морские звезды» Питера Уоттса ✔️
• «Поселок» Кира Булычева
• «Схизматрица» Брюса Стерлинга
• «Задача трёх тел» Лю Ци Синя ✔️
• «Лунная радуга» Сергея Павлова
• «Алмазный век» Нила Стивенсона
• «Час Быка» Ивана Ефремова
• «Соглашение» Сергея Лукьяненко
• «Мы — Легион. Мы — Боб» Денниса Тейлора
• «Axiom's End» Линдси Эллис
• «Криптономикон» Нила Стивенсона
• «Я, Хобо: Времена смерти» Сергея Жарковского
• «Создатель звезд» Олаф Степлдон
• «Конец радуг» и «Пламя над бездной» Вернора Винджа
• «Бесконечная война» Джо Холдемана
• «Хроника убийцы короля» Патрика Ротфусса
• «Дети Времени» Адриана Чайковского
• Проект «Аве Мария» Энди Вейера ✔️
• «Свидание с Рамой» Артура Кларка ✔️
• «ГПиМРМ» Элиезера Юдковского
• «Дюна» Френка Герберта
• «Гиперион» Дэна Симмонса ✔️
• «Заводная» Паоло Бачигалупи
• «Игрок» Иена Бэнкса


Стругацкие, Лем, Лавкрафт, Аберкромби, Бредбери

🔸 Non-fiction

• «К северу от 38 параллели» Андрея Ланькова
• «Why Nations Fail: The Origins of Power, Prosperity, and Poverty» Daron Acemoglu and James A. Robinson
• «История западной философии» Рассела
• «Все лгут. Поисковики, Big Data и Интернет знают о вас все» Сета Стивенса-Давидовица
• «Не навреди» Генри Марша
• «Потерянный и возвращенный мир». А. Р. Лурия

🔸 Fiction

• «Путешествие в Элефсин» Пелевина
• «Между двух стульев» Евгения Клюева

Читать полностью…

Градиент обреченный

Недавно у стартапа Mistral появилась доступная по API модель mistral-medium. И на лидерборде чат-арены она аж вторая после GPT-4, т.е. выше Claude и Gemini.

По деталям пока не понятно, пишут, что это внутренний прототип. Также есть модели small и tiny.

Потыкал в medium, на английском отвечает вообще отлично, на русском тоже порадовала. Изредка сбивается в грамматике и ставит английские слова, но по смыслу прям очень круто. По цене что-то около рубля за 1000 токенов.

Для тех кто кочет попробовать, вот API ключ ( ————— убрал —————).

Выставил там месячный лимит на пару евро, надеюсь, что он у них правильно работает)

UPD. Ключ убрал, нагенерили 525k токенов за 2.18 евро.

UPD 2. Limit не сработал (!) :)

Читать полностью…

Градиент обреченный

🔺 Малый принц

Выложил параллельный корпус на малых языках на основе «Маленького принца».

📚 Балкарский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, башкирский и татарский, чувашский, якутский и русский языки.

{'ru': '– А для чего быть богатым?',
'ba': '— Ә ни өсөн бай булырға?',
'cv': '— Мӗн тума кирлӗ сана пуянлӑх?',
'di': '— Ӕма дин гъӕздугдзийнадӕ ба ци пайда ӕй?',
'krc': '– Байлыкъ неге керекди?',
'kv': '— А мыйла колӧ лоны озырӧн?',
'mdf': '– А мезенди эряви улемс козякс?',
'mrh': '— А молан поян лийнет?',
'mrj': '— А малын тӹлӓт паян лиӓш?',
'myv': '– Мезекс эряви улемс сюпавокс?',
'sah': '– Ол тоҕо баай буола сатыыгыный?',
'tt': '— Ә бай булу нигә кирәк?'}


👉 HuggingFace | Книга-трансформер

Читать полностью…

Градиент обреченный

❄️ 2024

Дорогие подписчики и люди, которым также будет сопутствовать удача в следующем году, но чуточку меньше!

Желаю вам не теряться в потоке событий, заниматься любимым делом, проводить больше времени с приятными людьми и осуществить задуманное!

🎉 Айда в следующий год.

Читать полностью…

Градиент обреченный

🇮🇹 Побывал тут в Риме в отпуске, и вот что могу вам сказать.

Такси от аэропорта до гостиницы стоит примерно столько же, сколько перелет из Еревана в Рим.

• Есть крутые скоростные поезда, курсирующие с севера страны на юг. Можно за час с небольшим доехать до Неаполя, погулять там и вернуться, что мы и сделали.

• Очень люблю посещать местные книжные магазины, поэтому в Риме зашел в la Feltrinelli. Не удержался и прикупил пару книжек.

• Отстояв очередь за билетами на Римский форум, оказалось, что оплата там только по карточкам, а у нас их не было. Помог сосед по очереди.

• Сам форум потрясающий, можно гулять часами. По Колизею растекались толпы народу, туда не пошли.

Погода была замечательная, солнечно и +10-15. Мог быть и дождь, но повезло.

• Сходили на выставку Эшера. Очень классно, много интерактива, особенно понравилась комната, создающая иллюзию, что один человек больше другого. Еще узнали, что Эшер много лет жил в Риме и итальянские пейзажи присутствуют на некоторых его работах.

• Такси от гостиницы до аэропорта было ночью и стоило еще дороже чем первое 😁

• На последней фотке гостеприимный Ереван. Город, который старше Рима на 29 лет.

🎉 Ну а теперь, друзья, готовимся к новому году. Собираемся с мыслями, строим грандиозные планы, нарезаем оливье!

Читать полностью…

Градиент обреченный

🔺 Обновление Lingtrain

Дошли руки собрать и выложить новую версию. В нее вошли обновления, которые очень сильно помогают при выравнивании параллельного «Маленького Принца» на малых языках. Собственно, пришлось сделать такие штуки, чтобы успевать хоть что-то выровнять :)

Разбиение конфликтов

Система работает так, что на основе эмбеддингов подбирает наиболее вероятные соответствия между предложениями на разных языках. Между такими цепочками остаются разрывы (конфликты, пара цепочек на двух языках, между которыми надо сделать соответствия), которые выраниваются на втором этапе. На третьем этапе остаются самые длинные конфликты, которые надо править руками, либо уменьшать до приемлемого размера в редакторе.

Теперь можно, смотря на конфликт визуально, выбрать пару совпадений и «сшить» разрыв в этом месте. Благо, что пунктуация, длина предложений и имена собственные играют тут роль подсказок и помогают эти соответствия найти. Таким образом можно разбить длинный конфликт из 50 пар предложений на 5-10 штук по-меньше, заодно улучшив качество выравнивания, и разрешить их автоматически.

Docker

Образы для локального запуска:

• lingtrain/studio:v9.0 (50+ языков)
• lingtrain/studio:v9.0-labse (100+ языков)
• lingtrain/studio:v9.0-tiny (ru-en)

Запускается все как раньше (инструкция).

Beta

На beta.lingtra.in завтра подниму tiny версию, которая работает на модели rubert-tiny2 от Давида. Можно будет попробовать для выравнивания русских и английских текстов.

👉 GitHub

Читать полностью…

Градиент обреченный

#language_facts

Разбираю старые научно-полуярные книжки по лингвистике, поэтому вот вам пара забавных фактов про языки и восприятие цвета.

🔸 Синие светофоры в Японии

В Японии часто можно встретить светофоры, в которых привычный нам зелёный сигнал будет с оттенком синего. Связано это с тем, что оттенки синего и зелёного цветов в японском языке раньше обозначались одним словом ао (青, あお). И когда в 1930-е годы в Японию были импортированы первые светофоры, зелёный свет на них назывался aoshingō (青信号, あおしんごう).

Со временем, слово ao стало обозначать "синий", а значение "зелёный" сохранилось только относительно зелени и овощей — зелёные яблоки и сейчас это "ao ringo", а непосредственно зелёный цвет стал обозначаться словом midori ( 緑, みどり). Чтобы не переименовывать разрешающий сигнал в midori shingō ("зеленый сигнал"), 1973 году японцы подогнали реальность под язык и сделали светофоры более синими.

🔸 Синий и голубой

В 2008 году в Стенфорде провели следующий эксперимент. Испытуемым предлагалось три квадрата в сине-голубой гамме (как на картинке) и нужно было определить, какой из двух нижних квадратов того же цвета, что и верхний. Замеряли время ответа, о чём, для чистоты эксперимента, испытуемым не сообщали.

Интересным оказался результат для носителей русского языка. Когда верхний квадрат был на границе синего и голубого цветов, но ближе к синему, а нижний неправильный квадрат был на пару оттенков ближе к голубому, то время ответа было существенно меньше чем то же задание, сдвинутое в чисто синюю или чисто голубую гамму. У носителей английского такого эффекта не наблюдалось. Этот эффект связали с тем, что в русском языке это отдельные цвета, а в английском оба обозначаются словом blue.

Таким образом, восприятие мира во многом связано с языком и культурой, в которой мы живем. И вообще я задумался, представляем ли мы в своей голове один и тот же цвет, когда говорим, что небо синее, а трава зеленая?

Читать полностью…

Градиент обреченный

🔺 StyleDrop

Помните крутую сетку для генерации изображений MUSE от Google, которую нельзя нигде потрогать?

Так вот на днях авторы дообучили её на перенос стилей и говорят, что это лучше чем StableDiffusion+DreamBooth или Imagen.

Весов и модели снова нет, только статья и примеры. В статье однако есть ссылка на Colab с SD+textual inversion finetuning, который дает схожий по смыслу результат.

👉 Статья | Сайт

Читать полностью…

Градиент обреченный

🔺 Claude 3

Anthropic выпустил нового Клода.

Всего три версии, Haiku, Sonnet и Opus. Opus, собственно, на тестах в пресс-релизе бьет GPT-4.

Поигрался с ним и в целом доволен. Хорошо отвечает на русском, работает очень быстро. Также пишут, что модель стала в два раза реже отказываться отвечать, видимо, лучше выровняли. Контекст для пользователей 200k токенов, но для отдельных пользователей могут активировать контекст до 1M токенов.

Чтобы попробовать, придется регистрировать аккаунт, подтверждать телефон и вот это все. Проще пойти и еще потыкать в le Chat и mistral-large :).

👉 Claude

Читать полностью…

Градиент обреченный

Всех с наступлением весны!

В эту зиму с ума
я опять не сошёл. А зима,
глядь, и кончилась. Шум ледохода
и зелёный покров
различаю. И, значит, здоров.
С новым временем года
поздравляю себя
и, зрачок о Фонтанку слепя,
я дроблю себя на сто.
Пятернёй по лицу
провожу. И в мозгу, как в лесу —
оседание наста.

#поэзия

Читать полностью…

Градиент обреченный

🔺 Le Chat

Французский стартап Mistral выпустил свою следующую модель Large и заодно веб-интерфейс к ней, в котором можно её потестировать.

Назвали ассистента le Chat, что с французского переводится как «кот», а читается примерно как «лё ша».

Mistral Large, судя по заявленным бенчмаркам, выходит на второе место после GPT-4. Модель доступна по API на официальной платформе, цена высокая — 24$ за 1M генерируемых токенов и 8$ за 1M входящих (вспомнилась реклама мобильных операторов, где «все входящие бесплатно», вот бы тут так).

Модель стала доступна и в Microsoft Azure после новости о заключении партнерства между компаниями.

Модель мультиязычная, вполне можно погенерировать какой-нибудь обучающий контент, если вы изучаете языки, да и в целом поиграться с ней прикольно.

👉 Le Chat | Пост

Читать полностью…

Градиент обреченный

🔺 Gemma — Llama от Google

Открытая модель от большой компании. Два размера — 2B и 7B параметров, есть претрейн и инструктивная версия. Обучались модели на 2-х (2B) и на 6-ти (7B) триллионах токенов (это много).

〰️ Токенизация

Словарь в токенизаторе на 256k токенов, что опять же, много; слой эмбеддингов занимает около 1B параметров. В отчете пишут, что это подмножество токенов из токенизатора Gemini. Токенизация для других языков должна быть не посимвольная, а более приемлемая из коробки. Прогнал кусок википедии на якутском, получилось ~3 символа на токен.

〰️ Замеры

На графиках старшая модель либо обходит, либо сравнима с Llama 2 13B. Проверяют на QA, Reasoning, Math, Coding задачах.

Также интересно почитать про оценку эффекта меморизации, который можно использовать для извлечения обучающих данных из уже обученной модели. Среди прочего, проверяют насколько модель запомнила персональные данные из обучающих текстов (предварительно классифицируют их своим Cloud DLP сервисом).

〰️ Модель отстой, несите следующую?

Многие пишут, что модель слабенькая. Я, конечно, тоже пошёл посмотреть как она справляется с русским языком. И действительно, при попытке спросить что-нибудь у инструктивной модели на русском она либо переключается на английский, либо смешивает языки, но стабильно генерировать что-то вменяемое у меня не получилось.

С другими европейскими языками получше, хотя на английский модель все равно частенько переключается.

Если заглянуть в отчет, то выяснится, что дообучение модели (SFT и RLHF этапы) происходило исключительно на английских инструкциях.

Про претрейн пишут, что он преимущественно на английском. Если поиграться с ним в режиме продолжения текста с разными параметрами семплирования, то заметно, что русский и другие языки модель видела. А 6T токенов дают шанс на то, что дообучение на инструкциях на русском может показать неплохие результаты.

👉 Tech. report | HF | Демо

Читать полностью…

Градиент обреченный

Gemini Advanced с утра устойчиво выдает интересные ответы на "привет". Подкидывает информацию о пользователе (мой VPN, пробовал несколько) и времени, причем минуты все время правильные. Странно только, что подкидывает в свой ответ, а не в системный.

Читать полностью…

Градиент обреченный

🔺 Nomic Embed

В открытый доступ выложили encoder модель, которая обходит на MTEB аналогичные модели для получения эмбеддингов (векторных представлений текста), включая Ada-002 от OpenAI. Такие модели можно использовать, например, для семантического поиска или кластеризации ваших данных. Язык у модели английский, но интересно не это.

Помимо весов, авторы решили выложить воспроизводимый пайплайн обучения плюс данные (на картинке можно видеть их структуру), на которых модель обучалась (!). Контекст модели 8k токенов. Все под открытой лицензией Apache-2.

👉 HF | Репорт | Доступ к данным

Читать полностью…

Градиент обреченный

🔺 InstantID. Клонируем себя (и друзей) по одному фото.

Около года назад писал про DreamBooth, способе дообучения модели на своих фотографиях, чтобы генерировать новые. Тогда нужно было собрать 15-20 фоток и обучить это дело в Colab'е.

Сейчас потестировал новый подход от исследователей из Пекинского университета. Прелесть здесь в том, что дообучать существующую text2image модель типа SD вовсе не нужно, а информация о входном фото подается через небольшой адаптер, который авторы назвали IdentityNet.

Таким образом, мы получаем zero-shot генерацию, то есть на вход нужно подать одну фотографию и текстовый промпт. Пришлось повозиться с параметрами (вот тут есть советы для демо), но в итоге получилось. Фото подавать лучше большого размера.

Кроме того, подход позволяет генерировать несколько разных людей на общей картинке в заданных позах. Код для такого обещают тоже скоро выложить.

Было круто сделать такое для Kandinsky (а, может быть, коллеги уже занимаются).

P.S. SD явно училась на красивых людях, даже древнеримские бездомные у нее получаются какие-то довольные. Попробуйте сами, демо довольно быстро работает.

P.P.S. Вот здесь есть шаблоны для промптов разных стилей. Их же можно использовать как плагин, если генерите локально в каком-нибудь AUTOMATIC1111.

👉 Статья | HF | Демо

Читать полностью…

Градиент обреченный

Медведь в кадр не попал.

Читать полностью…

Градиент обреченный

Удалил из подписчиков 300 Евгенов и полсотни Нуриков (!).

Уважаемые спамеры, верните генеративных ботов с красивыми аватарками, они поинтересней были.

Читать полностью…

Градиент обреченный

Вдохновился выставкой Эшера и попробовал замостить плоскость котиками, благо модель была рядом.

Читать полностью…

Градиент обреченный

Пришла мысль сделать простого бота (без запросов к LLM), который бы отвечал мудрыми афоризмами на твои вопросы. Типа такого:

— Как вкатиться в ML?

— Любую истину понять легко, если ее уже открыли; главное как раз в том, чтобы ее открыть.

Галилео Галилей


Пока подготовил сет из афоризмов и подумал, что можно заранее объяснить их большой моделью (как на картинке) и погенерировать к ним вопросы. Затем для вопроса пользователя искать ближайший по смыслу сгенерированный вопрос и выходить так на исходный афоризм. Может еще какие-то идеи есть?

Читать полностью…

Градиент обреченный

Коллеги выкатили генерацию новогодних открыток Гигачатом и Кандинским. Зур чак-чак нарисовать не вышло, но в целом получается очень прикольно.

👉 Можно попробовать тут.

Читать полностью…

Градиент обреченный

Мне тут в очередной раз пишут, что фраза "внутре у ней неонка" правильно будет "внутри у неё неонка".

Волнуюсь, что такие люди могут пойти в AI-тренеры выравнивать наши с вами нейросеточки.

👉 Кстати, видео с датафеста подъехали, можно ODSAIRu/videos">смотреть.

Читать полностью…

Градиент обреченный

🔺 Transformer models: an introduction and catalog

Что ни день, то новая трансформерная модель. Чтобы не запутаться, можно воспользоваться обзором, который периодически обновляется.

🔸 Для каждой модели есть описание, отражающее её суть. Например, Vicuna — это LLaMA, дообученная на человеческих инструкциях, собранных из ShareGPT.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.

👉 Читать | Таблица с моделями

Читать полностью…

Градиент обреченный

Следующую серию языковых моделей предлагаю называть по видам пальмовых.

#TrahykarpusGPT

Читать полностью…
Subscribe to a channel