Я DL engineer, который год назад решил стать акулой бизнеса 🦈 рассказываю, как мы с @mnk_stories создаем fashion tech стартап Aesty (Antler'24 Saudi) в регионе MENA чат: https://t.me/+SvmaVb3PV6MyNGJi бот: @preseedGulfBot Рекламу не делаю
Моя подруга Андрэа учится в Caltech и ищет разработчика, шарящего в LLM в проект с Health Tech, который в будущем может стать стартапом, сразу основанным в Калифорнии 🏄♀️
Это классная возможность для тех, кто хочет занетворкаться с американской тусовкой стартаперов.
Подробнее здесь
Задумалась, что большой плюс обучать/деплоить нейронки для зрения это то, что я могу во время работы слушать свою музыку, а не примеры упоротого синтеза/распознавания 🥴
Читать полностью…OpenAI представили Voice Engine — модель, способную генерировать реалистичную речь из текста и 15-секундного семпла голоса. Авторы пишут, что протестировали Voice Engine для speech2speech перевода (с сохранением оригинального голоса конечно) и для разных терапевтических применений (невербальное общение, пациенты с дефектами речи). И, конечно часть статьи посвящена safety — в современных реалиях развитие любых технологий сопряжено с рисками. Меня в этом контексте интересуют две вещи: когда дадут потестировать и что сейчас происходит в elevenlabs.io 👻
Читать полностью…Корреляция фильмов с Марго Робби и числом пожарных в Южной Дакоте или data dredging 👾🍒
Наткнулась на дискуссию под этим постом и вспомнила, как нам в универе рассказывали про корреляцию фильмов с Николасом Кейджем и числом людей, утонувших в бассейнах. Конечно, это была иллюстрация того, что помимо поиска корреляций стоит руководствоваться здравым смыслом. В этой статье автор не просто проанализировал кучу разных данных чтобы найти совпадения, но еще и попросил LLMку объяснить причину каждой из связей. Получилось очень забавно 👻
Сегодняшний теракт произошел рядом с моим родным городом. Я нахожусь далеко, но постараюсь сделать хоть что-то. Если вы хотите помочь и находитесь в Москве или области, завтра утром можно сдать кровь для пострадавших. Вам должно быть больше 18 лет и весить нужно больше 50. Подробнее здесь
Берегите себя
Стояла вчера в Белграде в многотысячной очереди на голосование. Вдоль ходил гений с табличкой "ищу Android developer'a". Прикиньте ходить там показывать страничку проекта на Product Hunt 👾
Читать полностью…🧦 Удобный датасет для сегментации одежды на HF 🧦
Я взяла за основу IMaterialist — профильтровала и адаптировала его под задачу сегментации, решив ряд сложностей:
1. На фотках присутствуют несколько людей, иногда одежда размечена только у одного
2. Много лишних деталей. Так, например, если класс "карманы" который относится и к карманам на куртке, и к карманам на юбке
3. Нереально большое число классов распознавания, которое на практике не особо нужно
4. К сожалению, в оригинальном датасете присутствуют ошибки разметки. Я постаралась также их уменьшить на постпроцессинге
Что я сделала:
1. Убрала фотки где присутствует человек с неразмеченной одеждой
2. Постаралась максимально раскидать карманы по ближайшим классам, чтобы они были частью кофты/штанов. Оставила 8 самых главных классов ('background', 'upperbody', 'upperbody_up', 'lowerbody', 'wholebody', 'wholebody_up', 'shoes', 'accesories')
3. Перепроцесснула сложный csv в удобный формат с простым классом датасета: он берет данные из папки с исходными фотками и из папки с масками в формате .npy
На 3.5k подписчиков выложу код
А как вы развлекаетесь на выходных? 😄
Поигралась с OOTDiffusion — еще одна онлайн примерка по принципу сегментация одежды -> инпеинтинг сегментированной области с учетом изображения того, что хотите примерить. Без примудростей, не продакшн решение, зато опенсорс и можно поиграться. Продолжаю с интересом наблюдать за тем, что происходит с онлайн примеркой и делать своего нейронного фэшн бади)
Читать полностью…🔍 Вышел технический репорт (на статью это пока не тянет) по Sora от openai
1. При генерации видео идея та же, что и в LLM: мультимодальные токены. Только вместо токенов — так называемые патчи (сжатые отдельно натренированной сеткой фрагменты с видео)
2. Патчи подаются в трансформер с диффузией, причем собраны они таким образом, что можно учиться и на видео, и на картинках разных размеров, разрешения и контролировать эти параметры на этапе инференса
3. При подготовке данных к тренировке подписи к видео генерируют отдельно обученной моделью
4. На инференсе запросы пользователя прогоняются через GPT, чтобы сделать их более понятными для Sor'ы
дальше идет большое число примеров, в которые я предлагаю позалипать самостоятельно. Из того, что мне больше всего понравилось — уже сейчас модель способна на некоторых примерах понимать связь "причина-следствие". Например после укуса бургера он не остается целым
на видео прогресс обучения 👀
расчехлила свои audiolm-ки и добавила этому гениальному видео то, что ему так не хватало - ОЗВУЧКУ 🔉
Читать полностью…⚡SORA: text2video от openai
Полчаса назад openai опубликовали на сайте анонс новой text2video с примерами! Качество огонь, ждем возможность поиграться и статью 🚀
Есть ограничения, о которых говорят и сами авторы. Модель не всегда понимает физику происходящего: в примере от авторов женщина задувает свечи, но с ними ничего не происходит. Также есть проблемы с причиной и следствием: человек может откусить печенье, но в кадре оно останется целым
Помимо текстовых промптов, модель может брать на вход картинки и анимировать их или существующие видео и расширить/заполнить недостающие кадры
The more you consume, the less you create? 🛍
👀 Недавно у меня был разговор с инвестором, которого я очень уважаю. Обсуждение ушло в сторону потребления контента — особенно разных зловещих сценариев, где Apple Vision становятся заменой реальной жизни для не очень счастливых людей. Он рассказал, как в молодости ездил на другой конец города, чтобы купить пластинку, в то время как сейчас любую песню можно послушать сразу да еще и бесплатно и ценность контента теряется, в то время как объемы контента становятся в разы больше.
📱Если реальная жизнь становится слишком сложной/грустной/скучной, рилзы/сериалы/дота действительно способны сделать существование более сносным. И в небольших дозах почему бы и нет. Но если это занимает большую часть жизни, точно ли это жизнь, а не существование/потребление?
💫 Фраза, которую я недавно услышала: "если человека спросить, что с ним было самое крутое за год он едва ли вспомнит смешной рилз или просмотр сериала на нетфликсе". Я думаю мы запоминаем в первую очередь то, к чему мы сами причастны. Мы все хотим создавать и принимать решения, я уверена.
👟В объемах контента есть и хорошее, само собой. Пусть у нас есть задача "получить кроссовки, идеально мне подходящие".
Наиболее крутое креаторское решение — создать обувь под себя с нуля. Но это сложно/дорого.
Пусть у нас есть огромный маркетплейс и мы хотим найти пару кроссовок, которая нам максимально подойдет. На одном только фарфетче десятки тысяч предложений. Вопрос в том, как найти ту самую пару? И здесь можно применить креативность в том, как искать одежду - например, узнать какие цвета подойдут к твоей одежде, какой стиль тебе нравится, какие магазины стоит посмотреть в первую очередь? Если хорошо знать что конкретно ищешь, то можно поиск лучших кроссовок считать приближением креаторского решения.
😎 Несмотря на перспективы все большего разделения на создателей и потребителей я верю, что у потребителей появится больше возможностей для персонализации контента/предметов гардероба/концовок в фильмах под себя, тем самым потребителей не просто будут пичкать проигранными сценариями, а все еще останется много места для творчества даже в роли консьюмеров.
p.s. здесь я пишу больше про aesty и рынок fashion tech ❤️
Хотя я с головой в визовых разбирательствах и релизе, не смогла пройти мимо очередной горяченькой темы из мира AI. Энтузиаст выложил на 4chan веса от Mistral AI - не GPT-4, но очень хорошая LLMка. Утверждал, что обучил сам. Правда, на мой вопрос "кто тебя сделал?" модель начала травить байки про команду разработки Mistral AI, А пару часов назад CEO подтвердил, что слитая моделька действительно принадлежит им. Интересно, что теперь будет с их партнерством с Google 🥲
upd: скрин, оказывается, не от сбежавшей, а от опенсорсной модели. Но и первая примерно в том же духе отвечает
небольшой визовый апдейт: написали из консульства в Белграде, запросили оригиналы моих 2х одобренных петиций О1 и все документы, которые мне присылали из USCIS. Копии я отправляла им еще в мае и тогда меня заверили, что документы получены и процессинг продолжается уже по бекграунду. Сегодня буду общаться с юристами и надеюсь, что вскоре все завершится хорошо (через 3 дня, к слову, будет год с начала проверок)
предыдущие серии: #O1
осторожно, кринж
попробовала VideoGPT, он уточняет мой промпт и потом редиректит на VEED, где меня просят купить их подписку. Вот это я понимаю, customer acquisition! 😂
Не понравилось, что вместо того, чтобы взять текст из запроса к генерации, они почему-то используют для субтитров кривоватое распознавание... Да и в целом не знаю чего я ожидала от вкусного заголовка "text2video" 🥴🦄
Вы как, все посмотрели уже интервью Дурова у Дудя?
Читать полностью…Вспомнила древний легендарный репозитория Real-Time-Voice-Cloning с tacotron + GST из 2018го.... С него началось мое активное знакомство с миром процессинга звука где я обитала до недавнего времени, а то, что по 10-секундному семплу получалось что-то хоть как-то похожее на мой голос вообще вызывало восторг. Олды на месте?
Читать полностью…🤘 Не могу пройти мимо генератора песен suno v3
1️⃣ делают отличный продукт и дают его тестировать бесплатно
2️⃣ выкатили год назад в опенсорс отличную библиотеку prompted tts
Го играться. Русский язык тоже работает 👀
Что происходит в fashion tech в 2024? 🔮Диффузия, метаверс, вижн про примерка, аи пин!
Рассказываю про 2 крупных тренда, которые я заметила, анализируя стартапы, принятые в топовые аксели или поднявшие приличный раунд за последние годы
1. Personalized experience 👾
Мода на логоманию когда люди выглядят как амбассадоры брендов все больше уходит в прошлое, в то время как повышается тренд на качество материалов и интерес к выработке своей идентичности в одежде. Кроме того, активно идет развитие виртуальной примерки и чат-ботов.
Что делают:
Во-первых, персонализированный поиск для е-кома (рексис на основе прошлых покупок, предпочтений, типа фигуры, и тд). В этом случае поиск не ограничивается известными пользователю брендами или случайными находками, а помогает найти то что реально понравится.
Во-вторых, различные сервисы-стилисты. Пионеры в этой области это StitchFix, которые сделали подписку на боксы с аутфитами, собранными нейронкой и провалидированными людьми. Ревеню у них больше 1b$ в год. Также за последние 2 года появилось очень много AI-based стилистов — чаще всего это чат с gpt и человеком за подписку. На мой взгляд пользователю нужно помогать формулировать запрос и заменять набор текста удобным интерфейсом, а также объяснять, почему приложение дает такие советы и давать возможность настраивать рекомендации, а не просто говорить “тебе это не идет”.
2. Sustainable fashion 🌵
Люди стали больше заботиться об окружающей среде, особенно молодые, которые сейчас выросли и начали сами зарабатывать. Мода циклична, поэтому имеет место быть растущий интерес к вещам в бабушкином шкафу через тик-ток тренды (винтажные шубы, пиджаки, узкие оправы и тд)
Что делают:
Во-первых, разнообразные эко-френдли материалы. Чего там только нет: и грибы, и переработанный кофе, и кожура от апельсина, и кожа из кактуса. Причем если 10 лет назад это было на уровне экспериментов, то сейчас кактусовые сумки выглядят очень прилично.
Во-вторых — приложения для обмена/продажи одежды. На seedtable в рейтинге fashion tech стартапов прилично онлайн секондов и ресейлов (в том числе с редкими коллекционными вещами). С точки зрения технологий эта задача похожа на поиск по е-кому, потому что нужно показывать пользователю вещи не исходя из названий брендов, а косвенных признаков (например анализируя изображения товаров)
Сходила в консульство. У меня опять админ проверка, коллекционирую желтые бумажки 📝
на этот раз даже дали ее на русском. Тренд на персонализацию под клиента дошел и до гос учреждений, получается)
#O1
Небольшой визой апдейт: меня позвали в консульство на еще одно очное собеседование 20го марта в Белграде. Так или иначе, похоже, скоро все решится.
Для новеньких: я делаю визу талантов США уже больше 2х лет с кучей интересных кейсов (от попытки отзыва статуса таланта консулом до пинга консульства через сенатора), из которых больше года сижу на проверках. Подробнее про эпопею можно почитать по #O1
Знаю, кому понравится этот видос...
Спасибо подписчикам.
Считаю, что пора и мне запромоутить чат, существующий вместе с этим каналом. Пользоваться им можно для нетворка/обсуждения визы/стартапов/моделек. Вероятно, это удобнее, чем общаться в комментах 💻
/channel/+RxvUW07GEbFl7mHw
хочу, чтобы исторические события были как вчера, а не как сегодня
Читать полностью…Если бы я родился 100 лет назад и увидел бы это видео, то я бы стал «адвентистом второго пришествия пластикового стула», серьезно вам говорю, представьте каково будет «уфологам» в эпоху генеративных видео.
Даже ошибки модели SORA интересно рассматривать
НЕ ИСПОЛЬЗУЙТЕ ЧАТГПТ ЧТОБЫ ПИСАТЬ ТЕКСТЫ С НУЛЯ 😭😭😭😭😭😭
Проверять грамматику — ок. Просить написать с нуля — не ок.
Последние недели я общаюсь с большим числом фаундеров и вижу огромное число постов/питчей каждый день, и как же сильно палятся сгенерированные посты через revolutionize, blending, tailored, empower и тд.
Я читаю абзац и не могу понять смысл питча/поста из-за этих слов, которые как чернильные пятна закрывают изначальный смысл.
Еще одна забава на продукт ханте: боты, которые пишут при помощи апи гпт комменты в дискуссиях, чтобы набрать классы. И вроде коммент-то нормальный может быть (с хорошим промптом видимо), но потом тебе прилетает еще два слово в слово таких же.
Представляю, сколько нагенерированных заявок жюри YC будет читать этой весной)) будто бы простые человеческие ошибки в духе не того артикля скоро будут плюсом, а не минусом 😂
upd: в процессе обсуждений напомнили про классный пост Вастрика
начала заполнять профиль для aesty на продакт ханте, а там почему-то Цукерберг на тэге "fashion" 🤪
я бы поняла еще если бы был Джефф Безос, которого одевают 10 стилистов..
ребят, а кто-то пробовал делать global talent на основе портфолио o1? 🤣
если были такие прецеденты, расскажите, пожалуйста)
upd: рекомендации юристов по global talent тоже очень приветствуются
как же я люблю суммаризацию от loom для русского языка 😂
хотели бы послушать питч про лайфхейст и анимацию с короткими дверями?
⚡В openai появился стор с моделями от разработчиков из комьюнити под разные задачи (не только gpt, но и другие)
вот кое-что интересное:
1. VideoGPT (генерация небольших роликов)
2. Canva (ассистент для дизайна)
3. Humanize AI (переписывает сгенерированный текст в более понятный для человека формат)
4. Math solver (решает сложные математические задачи, объясняет пошагово решение. Охх, как мне этого в вузе не хватало!)
много для кодинга, но мне если честно обычной gpt-4 без файнтюнов вполне хватает) и конечно там уже несколько AI Stylist поселилось!
Обещают в Q1 выкатить монетизацию 💸