🎧 Записали с Тимой подкаст, обсудили как работает suno и какие были ключевые события в voice tech за последние годы.
Го слушать! 🎶
Наконец-то могу поделиться!
Написал шейдер с новой «Моей волной» для ребят из Яндекс Музыки. Он уже доступен на iOS, Android и в десктопном приложении.
Да, это старый добрый OpenGL, работающий на всех платформах выше. Около 200 строк формулы расчета цвета пикселя по его координате с помощью тригонометрии превращаются в что-то выразительное и приятное.
Очень горжусь этой работой. Зацените сами в приложении 🕺
Сегодня произошла очень поучительная ситуация. Я работала в публичном wifi в кафе в Стамбуле (да-да, знаю) и через несколько часов заметила, что в терминале открыто еще одно окно где кто-то по имени Azra Derin пытается сделать cat gisecret файла. Я резетнула все ключи к API и пароли все равно на всякий случай, но тут две мысли:
1. Не работайте в публичных wifi
2. Используйте gitsecret
Где будет жить модель: в облаке или на девайсе?
📱Девайс
Не нужен интернет (если только не подгружаете модель из облака), поддержка рилтайма, нет расходов на сервер, входные данные не отправляются в облако (а чаще всего это третья сторона).
Правда, стоит держать в уме, что если у вас сложная хитрая архитектура модели, которая включает еще и препроцессинг, то скорее всего ее будет непросто уложить на девайс.
В таком случае всю логику с условиями надо будет переписать на тензорную арифметику, что не просто сложно, а не всегда возможно. Тут можно закопаться и потратить недели впустую. Зато если получится, то можно будет понтануться, как ты переписывал(а) условия на тензоры 💪
☁️Облако
Можно использовать большую модель, легко обновлять у всех пользователей, масштабировать. Сейчас существует много удобных сервисов, которые сертифицированы по privacy и выставляют счета on-demand. Поэтому если 4 года назад нужно было настраивать все самостоятельно, то сейчас через тот же replicate деплой сделать довольно легко и менее затратно 🤌
Моя подруга Андрэа учится в Caltech и ищет разработчика, шарящего в LLM в проект с Health Tech, который в будущем может стать стартапом, сразу основанным в Калифорнии 🏄♀️
Это классная возможность для тех, кто хочет занетворкаться с американской тусовкой стартаперов.
Подробнее здесь
Задумалась, что большой плюс обучать/деплоить нейронки для зрения это то, что я могу во время работы слушать свою музыку, а не примеры упоротого синтеза/распознавания 🥴
Читать полностью…OpenAI представили Voice Engine — модель, способную генерировать реалистичную речь из текста и 15-секундного семпла голоса. Авторы пишут, что протестировали Voice Engine для speech2speech перевода (с сохранением оригинального голоса конечно) и для разных терапевтических применений (невербальное общение, пациенты с дефектами речи). И, конечно часть статьи посвящена safety — в современных реалиях развитие любых технологий сопряжено с рисками. Меня в этом контексте интересуют две вещи: когда дадут потестировать и что сейчас происходит в elevenlabs.io 👻
Читать полностью…Корреляция фильмов с Марго Робби и числом пожарных в Южной Дакоте или data dredging 👾🍒
Наткнулась на дискуссию под этим постом и вспомнила, как нам в универе рассказывали про корреляцию фильмов с Николасом Кейджем и числом людей, утонувших в бассейнах. Конечно, это была иллюстрация того, что помимо поиска корреляций стоит руководствоваться здравым смыслом. В этой статье автор не просто проанализировал кучу разных данных чтобы найти совпадения, но еще и попросил LLMку объяснить причину каждой из связей. Получилось очень забавно 👻
Сегодняшний теракт произошел рядом с моим родным городом. Я нахожусь далеко, но постараюсь сделать хоть что-то. Если вы хотите помочь и находитесь в Москве или области, завтра утром можно сдать кровь для пострадавших. Вам должно быть больше 18 лет и весить нужно больше 50. Подробнее здесь
Берегите себя
Стояла вчера в Белграде в многотысячной очереди на голосование. Вдоль ходил гений с табличкой "ищу Android developer'a". Прикиньте ходить там показывать страничку проекта на Product Hunt 👾
Читать полностью…🧦 Удобный датасет для сегментации одежды на HF 🧦
Я взяла за основу IMaterialist — профильтровала и адаптировала его под задачу сегментации, решив ряд сложностей:
1. На фотках присутствуют несколько людей, иногда одежда размечена только у одного
2. Много лишних деталей. Так, например, если класс "карманы" который относится и к карманам на куртке, и к карманам на юбке
3. Нереально большое число классов распознавания, которое на практике не особо нужно
4. К сожалению, в оригинальном датасете присутствуют ошибки разметки. Я постаралась также их уменьшить на постпроцессинге
Что я сделала:
1. Убрала фотки где присутствует человек с неразмеченной одеждой
2. Постаралась максимально раскидать карманы по ближайшим классам, чтобы они были частью кофты/штанов. Оставила 8 самых главных классов ('background', 'upperbody', 'upperbody_up', 'lowerbody', 'wholebody', 'wholebody_up', 'shoes', 'accesories')
3. Перепроцесснула сложный csv в удобный формат с простым классом датасета: он берет данные из папки с исходными фотками и из папки с масками в формате .npy
На 3.5k подписчиков выложу код
А как вы развлекаетесь на выходных? 😄
Поигралась с OOTDiffusion — еще одна онлайн примерка по принципу сегментация одежды -> инпеинтинг сегментированной области с учетом изображения того, что хотите примерить. Без примудростей, не продакшн решение, зато опенсорс и можно поиграться. Продолжаю с интересом наблюдать за тем, что происходит с онлайн примеркой и делать своего нейронного фэшн бади)
Читать полностью…🔍 Вышел технический репорт (на статью это пока не тянет) по Sora от openai
1. При генерации видео идея та же, что и в LLM: мультимодальные токены. Только вместо токенов — так называемые патчи (сжатые отдельно натренированной сеткой фрагменты с видео)
2. Патчи подаются в трансформер с диффузией, причем собраны они таким образом, что можно учиться и на видео, и на картинках разных размеров, разрешения и контролировать эти параметры на этапе инференса
3. При подготовке данных к тренировке подписи к видео генерируют отдельно обученной моделью
4. На инференсе запросы пользователя прогоняются через GPT, чтобы сделать их более понятными для Sor'ы
дальше идет большое число примеров, в которые я предлагаю позалипать самостоятельно. Из того, что мне больше всего понравилось — уже сейчас модель способна на некоторых примерах понимать связь "причина-следствие". Например после укуса бургера он не остается целым
на видео прогресс обучения 👀
На примере своего стартапа и в процессе общения с другими фаундерами я вижу, как из идеи проекты вырастают во что-то классное 😎
Проект Юры развивается нереально быстро — в августе мы с ним обсуждали кор технологию скоринга акцента для mvp, а сейчас ребята уже прошли YC и зарейзили больше $2M 💪
Поэтому с удовольствием рекомендую бесплатную встречу, где Юра расскажет про свой опыт фандрейзинга. Я тоже пойду послушать!
Кстати, всем, кто хочет поиграться с шейдерами (даже если вы не особо понимаете в C-style языках) рекомендую покопаться в shadertoy. Как минимум интересно поизменять параметры и посмотреть, как они меняют выход анимации
Читать полностью…Читаю про причины фейлов стартапов в 2023м и делюсь с вами 👀
В топе:
🥶 Плохой product market fit: решают несуществующую боль или бесполезное решение
🥶 Не те люди в команде: нехватка компетенции или недостаток мотивации/веры в решение
Кроме того, вероятность не провалиться в крипте всего 5%, а четверть от общей доли стартапов закрывается в первый год работы.
Спотифай нашёл хорошее применение для больших языковых моделей — будут делать ии-плейлисты по пользовательским промптам. Пишешь "меня бросила девушка, врубай музыку, чтобы страдать", и специально по твоему запросу формируется плейлист. Если результат не совсем устроил, можно дать фидбек — "побольше треков Radiohead", например. Жду возможности потестить.
Если говорить про поиск (не в поисковиках, а скорее на контентных платформах), подобная реализация кажется мне очень удачной. Я бы хотела искать картинки в пинтересте, арты в твиттере, мемы на реддите или тиктоки в тиктоке не по ключевым словам, а по таким вот сложным запросам — то есть по ✨вайбам✨.
Всем коллегам из вк и Яндекса привет, надеюсь, что это у вас уже в планах 😏
Замеры модели по процессорам на девайсе
GPU/Neural Engine на 12м айфоне такие: я что для тебя шутка?
Linkedin нам провели воркшоп, как раскрутиться и как работают алгоритмы.
Мои записи:
▪ Алгоритмы сильно любят обсуждение в комментах и регулярность постов. Потом лайки и репосты.
▪ Как зацепить юзера:
--- первые 2 строчки поста
--- вовлекающая картинка
--- читаемый пост (абзацы, эмодзи)
▪ Идеи постов, которые всегда работают:
--- высказать свое мнение о новости, трендах, больших ивентах
--- поделиться жизой, wins / losses.
▪ Редактирование поста после публикации не портят рекомендации, только если вы не переписали пост почти полностью.
▪ Картинка и хештеги не влияют на алгоритм напрямую.
▪ Линкедин скоро запустит свою видео ленту (~тикток). Пока что текст лучше расходится, чем видео, но это пока. Длительность видео: 60-90 секунд.
▪ Сколько постов в день - неважно.
▪ У Linkedin есть Kickstart Program, где бесплатно обучают всем маркетинговым приколам и говорят, как зафичериться. 4 недели, по 1 час в неделю. Следующий набор - в конце апреля.
Вспомнила древний легендарный репозитория Real-Time-Voice-Cloning с tacotron + GST из 2018го.... С него началось мое активное знакомство с миром процессинга звука где я обитала до недавнего времени, а то, что по 10-секундному семплу получалось что-то хоть как-то похожее на мой голос вообще вызывало восторг. Олды на месте?
Читать полностью…🤘 Не могу пройти мимо генератора песен suno v3
1️⃣ делают отличный продукт и дают его тестировать бесплатно
2️⃣ выкатили год назад в опенсорс отличную библиотеку prompted tts
Го играться. Русский язык тоже работает 👀
Что происходит в fashion tech в 2024? 🔮Диффузия, метаверс, вижн про примерка, аи пин!
Рассказываю про 2 крупных тренда, которые я заметила, анализируя стартапы, принятые в топовые аксели или поднявшие приличный раунд за последние годы
1. Personalized experience 👾
Мода на логоманию когда люди выглядят как амбассадоры брендов все больше уходит в прошлое, в то время как повышается тренд на качество материалов и интерес к выработке своей идентичности в одежде. Кроме того, активно идет развитие виртуальной примерки и чат-ботов.
Что делают:
Во-первых, персонализированный поиск для е-кома (рексис на основе прошлых покупок, предпочтений, типа фигуры, и тд). В этом случае поиск не ограничивается известными пользователю брендами или случайными находками, а помогает найти то что реально понравится.
Во-вторых, различные сервисы-стилисты. Пионеры в этой области это StitchFix, которые сделали подписку на боксы с аутфитами, собранными нейронкой и провалидированными людьми. Ревеню у них больше 1b$ в год. Также за последние 2 года появилось очень много AI-based стилистов — чаще всего это чат с gpt и человеком за подписку. На мой взгляд пользователю нужно помогать формулировать запрос и заменять набор текста удобным интерфейсом, а также объяснять, почему приложение дает такие советы и давать возможность настраивать рекомендации, а не просто говорить “тебе это не идет”.
2. Sustainable fashion 🌵
Люди стали больше заботиться об окружающей среде, особенно молодые, которые сейчас выросли и начали сами зарабатывать. Мода циклична, поэтому имеет место быть растущий интерес к вещам в бабушкином шкафу через тик-ток тренды (винтажные шубы, пиджаки, узкие оправы и тд)
Что делают:
Во-первых, разнообразные эко-френдли материалы. Чего там только нет: и грибы, и переработанный кофе, и кожура от апельсина, и кожа из кактуса. Причем если 10 лет назад это было на уровне экспериментов, то сейчас кактусовые сумки выглядят очень прилично.
Во-вторых — приложения для обмена/продажи одежды. На seedtable в рейтинге fashion tech стартапов прилично онлайн секондов и ресейлов (в том числе с редкими коллекционными вещами). С точки зрения технологий эта задача похожа на поиск по е-кому, потому что нужно показывать пользователю вещи не исходя из названий брендов, а косвенных признаков (например анализируя изображения товаров)
Сходила в консульство. У меня опять админ проверка, коллекционирую желтые бумажки 📝
на этот раз даже дали ее на русском. Тренд на персонализацию под клиента дошел и до гос учреждений, получается)
#O1
Небольшой визой апдейт: меня позвали в консульство на еще одно очное собеседование 20го марта в Белграде. Так или иначе, похоже, скоро все решится.
Для новеньких: я делаю визу талантов США уже больше 2х лет с кучей интересных кейсов (от попытки отзыва статуса таланта консулом до пинга консульства через сенатора), из которых больше года сижу на проверках. Подробнее про эпопею можно почитать по #O1
Считаю, что пора и мне запромоутить чат, существующий вместе с этим каналом. Пользоваться им можно для нетворка/обсуждения визы/стартапов/моделек. Вероятно, это удобнее, чем общаться в комментах 💻
/channel/+RxvUW07GEbFl7mHw