Немного не по теме голоса, а про крипту.
Совершенно поразительная история того как на заре биткоина систематически пропадали деньги с крупнейшего криптообменника и причём здесь BTC-e и русские хакеры.
fun facts:
1. первая биржа битка - это фан-сайт какой-то игры вообще.
2. Раньше считалось что биткоин - очень анонимная сеть, но это наоборот самая прозрачная технология для транзакций. Хакеров в итоге нашли.
https://habr.com/ru/companies/ua-hosting/articles/783612/
Здравствуйте, дорогие подписчики!
Выложили на HF ускоренную модельку для удаления шумов MP-SENet. Мб потом выложим DeepFilter какой-нибудь.
https://huggingface.co/ENOT-AutoDL/MP-SENet
Посвящается всем авторам ТГ каналов про Эй Ай
Я слежу что пишет сама
Знаю все про Гэ Пэ Тэ
Ворлд модели строит Сора
подпишись на мой тэ гэ
Здесь посты и много мемов
Можно слушать и читать
Будешь лучшем в мире сеток
Клоуна не ставьте блять
Когда ты станешь самым смелым
Будешь шарить, больше знать
Будет офер, много денег
Незабудь донат прислать
Chapter 17. Algorithms by Tim Peters
if your colleagues are using, for example, C or Java, it’s not unusual for you to try and discard six different approaches in Python while they’re still getting the bugs out of their first attempt.
В целом, в главе ничего особенного нет - только информация о том что таймер на винде работает по-другому. Но интересно читать.
Tim Peters это тот, который написал Zen of Python.
https://www.oreilly.com/library/view/python-cookbook/0596001673/ch17.html
Друзья, вечером в четверг, 4 апреля планируем провести в Москве очередную встречу участников нашего чата!
Забронируйте день, планируйте заранее.
Будут короткие доклады и неформальное общение.
О месте проведения и составе участников сообщим дополнительно.
Записывайтесь здесь (нам необходимо понять число участников)
https://forms.gle/aW5kBFYp2bM7MNoX9
Приглашаем участников сделать доклад на 15 минут, предлагайте тему доклада в форме.
Видео с предыдущей встречи здесь:
https://www.youtube.com/watch?v=fqt5gUnZrog
Grok Open Source
Как Илон и обещал, веса грока публично доступны. Под капотом MoE модель на 314B параметров. Всё написано на JAX (почему?!) Сам код модели на полторы тысячи строк и там просто трансформер на ротационных эмбеддингах.
Кода для обучения нет, как и данных. Было бы удивительно если бы они были. Да что там, я достаточно поражён что и веса выложили!
https://github.com/xai-org/grok
IWSLT 2024
The International Conference on Spoken Language Translation (IWSLT) is an annual scientific conference, associated with an open evaluation campaign on spoken language translation, where both scientific papers and system descriptions are presented.
The 21st edition of IWSLT will be run as an ELRA/ACL event and co-located with ACL 2024 in Bangkok, Thailand on 17-18 August 2024. It will be run as a hybrid event
https://iwslt.org/2024/
Transformer Debugger
Tdb позволяет быстро исследовать, прежде чем нужно будет писать код, с возможностью вмешиваться в форвардный проход и видеть, как это влияет на конкретное поведение. Его можно использовать для ответа на такие вопросы, как "Почему модель выводит токен A вместо токена B для этой подсказки?" Или "Почему внимание H обращает внимание на токен T для этой подсказки?" Он делает это, выявляя конкретные компоненты (нейроны, головки внимания, латенты автокодера), которые способствуют поведению, показывая автоматически генерируемые объяснения того, что заставляет эти компоненты активироваться наиболее сильно, и отслеживая связи между компонентами, чтобы помочь обнаружить схемы.
https://github.com/openai/transformer-debugger
Libriheavy: a 50,000 hours ASR corpus with punctuation casing and context
Libriheavy is a labeled version of Librilight
https://arxiv.org/abs/2309.08105
https://github.com/k2-fsa/libriheavy
🔠🔠🔠🔠🔠🔠🔠🛠️
Увидел в соседней группе приглашение на хакатон. Давайте доделаем langswap.app чтобы он смог стать победителем в хаке!
🎥 Задача 1: Сервис перевода и дубляжа видеоконтента
Разработайте сервис для автоматической транскрибации, перевода и дублирования развлекательного видеоконтента на английский язык. Сервис должен иметь удобный интерфейс для загрузки видео, скачивания итогового видеофайла, а также возможностью редактирования на каждом из этапов работы.
https://codenrock.com/contests/gpm-adtech-challenge#/
Пишите Коле на @NikolaiPakhtusov если хотите поучаствовать в моей команде и сразу показывайте что умеете и в чём можете быть полезными.
Hallucination is Inevitable: An Innate Limitation of Large Language Models
https://arxiv.org/abs/2401.11817
English Anime voice dataset
https://huggingface.co/datasets/ShoukanLabs/AniSpeech
and project to finetune styletts2 using it
https://huggingface.co/ShoukanLabs/Vokan
Voice Stuff открывает канал на YouTube!
Сегодня в гостях Денис Петров — 15-ти летний исследователь NLP, который написал лучший расстановщик ударений для синтеза речи "RuAccent”. Лучший из открытых и тех, что мне удавалось использовать.
Вы услышите об истории создания, почему Денис решил развиваться в этой сфере, где научился программировать, как пришёл к решению задачи с ударениями. Также расскажем что под капотом у RuAccent, на каких данных обучалась, и есть ли что-то, что расставляет ударения и ё лучше, чем RuAccent.
Заваривайте чай, накладывайте покушать и приступайте к просмотру, получилось очень интересно!
На канале есть ещё видео о том как тестровать нейронные сети и про то, как добиться обучения Zero-Shot и few-shot (в лайвах)
https://www.youtube.com/watch?v=FopG1hcxSVg
VoxLingua107 ECAPA-TDNN Spoken Language Identification Model
Классификатор языка. Нашёл Tarasfrompir
https://huggingface.co/speechbrain/lang-id-voxlingua107-ecapa
Distil-Whisper is now more accurate, efficient and accessible 🚀
distil-large-v3 is 6x faster and within 1% WER of large-v3, with reduced hallucinations and better long-form support across all libraries
Previous Distil-Whisper models were trained on an avg audio length of 7-seconds. Predictions beyond this point were thus largely inaccurate
To preserve Whisper's ability to transcribe 30-second chunks, we added pre-processing to pack audios to 30-seconds
Repo: https://huggingface.co/distil-whisper/distil-large-v3
https://twitter.com/sanchitgandhi99/status/1770877844823896117
Google Scholar search: "certainly, here is" -chatgpt -llm (🔥 Score: 150+ in 3 hours)
Link: https://readhacker.news/s/64gaF
Comments: https://readhacker.news/c/64gaF
Релиз RUAccent-turbo!
1. Была добавлена новая модель Turbo.
Данная модель была обучена на 200 гб размеченных разными пайплайнами текстов. Размер модели сопоставим с medium_poetry, но качество выше big_poetry. Размер модели 80m параметров.
Метрики:
ruaccent_big -> 0.93 avg
ruaccent_turbo -> 0.95 avg
3. Отказ от собственного тяжеловесного пайплайна морфологического анализатора, в сторону проекта Ильи Козиева rupostagger.
4. Доработка пайплайна с нейросетью для расстановки ударений в обычных словах
5. Исправлены некоторые ошибки работы системы. (вылеты и т.д)
Colab: link
GitHub: link
Модель вместе с TeraTTS: link
У этой группы есть ещё и свой чат, где можно найти помощь в решении аудио задачек - синтеза, распознавания. Мы иногда даже касаемся текстов. Там же можно пошуршать за новости в мире МЛ, поделиться подходами, статьями, репозиториями и даже найти работу и работников.
Заходите!
@voice_stuff_chat
RUNorm и char level number tokenization
1. Немного о RUNorm
Сейчас помимо RUAccent, я начал заниматься проектом RUNorm. Данная система должна нормализовывать текст перед акцентуацией и собственно синтезом речи.
Нормализацию текстов можно подразделить на следующие подзадачи:
1. Нормализация сокращений (1990 г. -> 1990 год, г. Москва -> город. Москва)
2. Нормализация аббревиатур (ПТСР -> пэ тэ эс эр)
3. Нормализация английских слов (Microsoft -> майкрософт)
4. Нормализация чисел (в 2009 -> в две тысячи девятом)
Нормализация сокращений уже работает довольно неплохо:
:> Моя зп. всего 15 тыс. руб.
>>> Моя зарплата всего пятнадцать тысяч рублей
:> Мой адрес : г. Москва, р-н Бутово, д. 12, кв. 20
>>> Мой адрес город Москва, район Бутово, дом двенадцать, квартира двадцать
:> Я родился в 1900 г.
>>> Я родился в 1900 году.
Текущий пайплайн сейчас состоит из двух моделей - ruT5-base, bert на 3м параметров и некоторых правил взятых отсюда.
2. Как посимвольная токенизация цифр должна помочь в нормализации?
Эксперимент с решением задачи "в лоб" показал, что модель часто галлюцинирует и путает некоторые числа.
Пример таких галлюцинаций:
:> Конец света будет в 2045 г.
>>> Конец света будет в тысяча сорок пятом году.
:> В 1987 г. произошло самое большое падение Промышленного индекса Доу Джонса за всю его историю, — 22,6 %
>>> В тысяча девятьсот семьдесят седьмом году произошло самое большое падение Промышленного индекса Доу Джонса за всю его историю, — двадцать два целых и шесть десятых процента.
Возможное решение подобных проблем - правильная токенизация чисел.
Стандартный токенизатор модели ruT5-base работает примерно так:
:> tokenizer_orig.tokenize("Я родился 12.09.1923")
>>> ['▁Я', '▁родился', '▁12', '.09.', '1923']
Новый токенизатор:
:> tokenizer.tokenize("Я родился 12.09.1923")
>>> ['▁Я', '▁родился', '▁1', '2', '.', '0', '9', '.', '1', '9', '2', '3']
Доработка токенизатора очень простая, все токены являющиеся числами и длиной более 1 символа (без учета пунктуации), были заменены на "<garbage>".
Подробнее можно ознакомиться в данном ноутбуке
Для теста полученной модели была выбрана задача решения арифметических задач, т.к. датасет был под рукой и было можно обучить в короткие сроки.
По результатам тестирования были получены следующие метрики:
Arith acc digit5_ft: 0.586286056492664
Arith acc rut5_ft: 0.2418904082243737
P.S. Все тесты проводились без сэмплинга
Модель с модифицированным токенизатором ушла вперед с огромным отрывом.
NaturalVoice 3
Несмотря на то, что последние крупномасштабные модели преобразования текста в речь (TTS) достигли значительного прогресса, они все еще не обладают достаточным качеством, сходством и просодией речи. Учитывая, что речь включает в себя различные атрибуты (например, содержание, просодию, тембр и акустические детали), которые представляют значительные трудности для генерации, естественной идеей является факторизация речи на отдельные подпространства, представляющие различные атрибуты, и генерация их по отдельности. Исходя из этого, мы предлагаем NaturalSpeech 3, систему TTS с новыми факторизованными диффузионными моделями для генерации естественной речи в нулевом режиме. В частности, 1) мы разрабатываем нейронный кодек с факторизованным векторным квантованием (FVQ) для разделения формы речевого сигнала на подпространства содержания, просодии, тембра и акустических деталей; 2) мы предлагаем факторизованную диффузионную модель для генерации атрибутов в каждом подпространстве по соответствующей подсказке. Благодаря такой факторизации NaturalSpeech 3 может эффективно моделировать сложную речь с рассогласованными подпространствами по принципу "разделяй и властвуй". Эксперименты показывают, что NaturalSpeech 3 превосходит современные системы TTS по качеству, сходству, просодии и разборчивости. Более того, мы достигаем лучших показателей при масштабировании до 1B параметров и 200K часов обучающих данных.
https://arxiv.org/abs/2403.03100
Tortoise TTS
Оказывается, автор черепахи выпустил статью о ней.
Почитать можно вот тут
https://arxiv.org/abs/2305.07243
Сама моделька (постоянно обновляется!):
https://github.com/neonbjb/tortoise-tts
Как читать Корейский за 15 минут
Очень люблю изучать языки и наткнулся вот на такой гайд по Корейскому.
https://www.ryanestrada.com/learntoreadkoreanin15minutes/
Бонус: русский язык
https://www.ryanestrada.com/russian/index.html
Вот бы сделать такие же для всех остальных языков 🙂
Про ChatGPT/Perplexity
Побуду слоупоком. Выскажу свое мнение на тему, когда роботы заменят кожаных мешков в разработке ПО. Коротко, не скоро, но иерархию джунов-мидлов-синьоров подпилят существенно.
Пара сценариев ниже.
1. Мне нужно написать плюсовый бекенд для питона. В плюсы я умею, в питон тоже. Но вычитывать, как пользоваться питоновской библиотекой и как собирать плюсовый код долго. Спрашиваю бота, он мне сразу выдает сниппет кода для плюсового файла, говорит, что еще неплохо иметь *.pyi файл. Объясняет как собрать.
Могу я собрать копипастой? Нет. Нужно немного поправить флаги при компиляции. Нужен мне опыт или специально собираться с мыслями, чтобы разобраться, как пользоваться Python.h в плюсах. Что ж, теперь тоже нет. Эта экспертиза для базового сценария устарела.
2. Чувак спрашивает, как решить оптимизационную задачу, используя инструментарий ML. Я говорю, надо просто взять торч, и через него обсчитать градиентный спуск. Неплохо бы привести пример. Я даю промпт на три абзаца боту, где формулирую задачу. Смотрю ответ, вижу, что пенальти за нарушения ограничений идет без веса. Кидаю ему код, говорю, что вот тут бот забыл вес добавить, а ты не забудь.
Нужно мне тратить время и мыслетопливо, чтобы написать этот код? Нет. Нужна верхне-уровневая экспертиза, чтобы оценить код? По-прежнему, да.
3. При работе с новой для меня библиотекой возникают ошибки. Например, плюсы валятся с сегфолтом. Раньше я бы тратил кучу времени, чтобы отловить какой-то баг. Теперь бот сообщает мне наиболее частые причины такой ошибки.
Вывод. У меня ощущение, что верхнеуровневые/сеньорские задачи остались по прежнему актуальны. Однако, мидловая экспертиза сильно инфлирует. Т.е. мидл от джуна отличается набитой рукой и глазом, которые позволяют быстро написать работающий код или отловить хитрый баг. Теперь же джун с умным ботом будет доходить до кондиции мидла существенно быстрее.
Единственный ограничений, что умный бот должен иметь доступ к базе знаний мидла. Для открытых знаний это работает. Для внутренних, по мере проникновения корпоративных решений. Собственно, отличная бизнес-модель для всяких поисковиков типа перплексити.
LLM от Google в open-source 😍
Google выпустила 7B и 2B instruct-модельки в открытый доступ. обещают по качеству порвать LLAMA-2 в клочья.
MMLU у Mixtral-8x7B ~= LLAMA 2 70B = 70%. При том что эти модели в 8-10 раз больше.
Пресс-Релиз:
https://blog.google/technology/developers/gemma-open-models/
Huggingface:
https://huggingface.co/google/gemma-7b-it