13183
Используем ИИ строго не по назначению. Заметки про ИИ, IT, компьютерные игры, и всякие инженерные интересности.
Колаб со stable-video, который влезает в 16гб
За три минуты сгенерило мне вот такой шедевр например. Анимация просто невероятной сложности :D
image2video
Ну ладно, интриги интригами, а релизы — по расписанию.
Теперь голосовая версия ChatGPT доступна всем пользователям приложения бесплатно.
На всякий случай напомню, что приложение НЕ доступно аккаунтам из РФ (и дело не в VPN).
🤔 интересно, а что с нехваткой GPU и ресурсов?
Как писали сотрудники OpenAI,
committed to the team and the mission 🫡
Совет директоров openai обсуждает с anthropic возможность слияния
Инвесторы, юзеры, да и сам anthropic:
Сорс
Dustin Moscowitz to Ilya Sutskever: позвони Сэму, ничего серьезного
OpenAI после созвона:
550/700 сотрудников openai уходят, лолшто.
Как Майкрософт сегодня бесплатно приобрел openai при оценке в $70b
Пока все ждут продолжения бразильского телесериала "бордмемберы тоже плачут", предлагаю почитать немного околоинсайдерской инфы про stability.ai, и про то, как Емад собирал $100млн под веб интерфейс для stable diffusion, при этом не владея никакой связанной с моделью интеллектуальной собственностью, и рассказывая, как они "co-created midjourney"
https://sifted.eu/articles/stability-ai-fundraise-leak
А ещё за последний год оттуда свалили 10 c-level\head\vp 😅 - тык
@derplearning
Никогда такого не было, и опять то же самое
Ed Newton-Rex, Директор по генеративному аудио stability.ai, покинул компанию из-за этических разногласий.
(Ну вы понели, потому что они, как обычно, тренили модели на данных, защищённых авторским правом)
Когда заказал c-level conflict in an AI startup на АлиЭкспресс
Сорс:
https://futurism.com/the-byte/stability-ai-music-executive-quits
(Количество каламбуров в статье зашкаливает)
Взрыв первой ступени с другого ракурса.
Киноделы, берите на заметку как должны выглядеть взрывы в космосе 😅
Yet another Matthew x Salesforce x Warp ad
https://youtu.be/4OHD4sqCE3w?si=v00psWRz5rSQ_-t6
OpenAI be like:
1. close new subs because of "the lack of compute"
2. wait for the hype to build up
3. increase the sub price for newcomers :D
4. ???
5. profit
🌸Альтернативы OpenAI API🌸
#nlp #про_nlp
Если после последних событий вы задумываетесь о том, не начать ли подбирать запасной вариант помимо chatGPT, GPT-4 от OpenAI, то вот несколько альтернатив.
🟣Anthropic
Пожалуй, основной конкурент сейчас (ключевая команда — выходцы из OpenAI).
Есть 2 версии модели — Claude Instant и Claude 2, преподносятся как аналоги GPT-3.5 и GPT-4 (одна модель быстрее, вторая — умнее)
Языков заявлено много, основные метрики и безопасность — сравнимо высокие.
Из очевидных плюсов:
— цены дешевле OpenAI
— для большого траффика есть инференс через Amazon Bedrock
Из недостатков — все промты придется мигрировать специальным образом, с упором на XML (так устроено структурирование запросов к моделям).
Документация
🟣Cohere
Ассистенты Coral и Command на основе RAG (retrieval-augmented generation) — хорошо решает задачи, связанные с извлечением информации, поиском, чтением документов, меньше галлюцинирует. Есть готовые интенты для продолжения чата, написания текстов, суммаризации, поиска.
Есть готовое API, много документации и готовых юз-кейсов.
Но в основном только английский язык.
Документация
🟣Inflection AI
Основной продукт стартапа — ассистент Pi. Заявленные функции почти такие же как у OpenAI, есть все стандартные ожидаемые функции — персональная поддержка, планирование календаря, креативные задачи, помощь в написании текстов со сложной структурой.
Для получения API надо становиться в waitlist
🟣Stability AI
Stability AI (Stable Diffusion) в основном продает API моделей генерации изображений и апскейлинга, но совсем недавно к семейству их разработок добавились и языковые модели Stable LM.
Самая последняя разработка — модель Stable Beluga с 70 млрд параметров — пока по API напрямую недоступна, ждем ее добавления в линейку доступных по API.
🟣Perplexity AI
Готовый API-сервис для оптимизированного быстрого инференса открытых LLM: Mistral 7B, Llama2 13B, Code Llama 34B, Llama2 70B, replit-code-v1.5-3b
Своей модели среди доступных нет.
🟣Amazon Bedrock (AWS)
Дешево и сердито — подключиться к моделям, уже доступным на AWS. Готовый инференс большого числа моделей, в том числе вышеупомянутых стартапов — а также Llama 2 (Meta), Jurassic (A21 labs), Titan (Amazon research).
Документация
#чтивонаночь по быстрому
есть человек про которого никто не знает, а с ним стоит рисовать иконы - Robin Rombah. Чел соавтор laion, sd1.5, e-diff и много чего еще. ОН БУКВАЛЬНО ГЕНИЙ, У НЕГО ОХУЕННО РАБОТАЕТ ГОЛОВА и это заметно по всему к чему он прикасается. [его scholar]
Ну а стабилити как уважающая себя компания с огромным бюджетом тупо спиздили архитектуру[8] и с таким ебалом😬 обучили модель на фильтрованных данных.
Модель получилась прям крутая, по метрикам даже лучше gen2 от соседнего runwayml, но оригинальную архитектуру почти никак не упоминали, а это печально хоть и выкупили робина
А еще вам для обучения такой модели не нужно ничего учить с нуля - у вас все умеет диффузия, ставишь temporal блоки между слоями(типа временной control net), учишь ТОЛЬКО их, затем доучиваешь VAE предиктить много кадров за раз и дело в шляпе!
Thus, in contrast
to previous works, we draw on simple latent video diffusion baselines [8] for which we fix architecture and training
scheme and assess the effect of data curation. To this end,
we first identify three different video training stages that
we find crucial for good performance: text-to-image pretraining, video pretraining on a large dataset at low resolution, and high-resolution video finetuning on a much smaller
dataset with higher-quality videos
[8]ориг папир
stability fork
Ну и туда же
Dustin Moscowitz to Ilya Sutskever: позвони Сэму, 20 минут туда обратно
после созвона:
Илья суцкевер, подписавший требование к борде о восстановлении уволенных после того, как сам инициировал звонок об увольнении:
#openai
Если микрософт не идёт в борду, то Борда идёт в микрософт
Будет забавно если сейчас компьюта у опенаи станет меньше 😅
Увольнение Сэма из OpenAI
ШОК ВИДЕО СКАЧАТЬ БЕЗ СМС
source
Эти ваши околореалтаймовые img2img сервисы можно выкидывать, потому что для криты можно собрать то же самое с помощью плагина krita-ai-diffusion и пайплайна с LCM в ComfyUI
твит
@derplearning
Загружаешь скриншот — в ответ получаешь HTML/Tailwind/JS код.
GitHub тут. Работает на GPT-4 Vision API, поэтому нужен будет еще ключ.
Продолжаем рубрику "шлакоблокунь и его друзья". Что на картинке?
Читать полностью…
– Ну, я не уверен, но как эксперт могу предположить что код нейросети написан…
Хватит, – программист пьяно икнул и поморщился, – Хочешь я покажу тебе что такое midjorney на самом деле?
Он не без труда встал из-за стола и махнул рукой, призывая следовать за ним вглубь офиса.
– Мы идем к серверам? – не понял журналист и чуть было не завалился на повороте.
– Можно и так сказать.
Они прошли через незапертую сейфовую дверь и вошли в лифт. Программист два раза промахнулся мимо кнопки, по все таки справился.
– Ну? – он пьяно посмотрел на журналиста, – Думал когда-нибудь почему midjorney не умеет рисовать пальцы?!
– Конешн. Потому что мыслит паттернами а не цифрами!
– Неплохо, – программист уважительно кивнул, – А почему текст не умеет рисовать?
– Ну… Как-то так же… наверное?
– Ха! Вот тут ты и посыпался да? Ик! А где еще ты видел пример, чтобы не складывалось с пальцами и текстом?
– Не знаю, – признался журналист.
– Во сне!
Лифт остановился и программист вышел в сырой темный тоннель.
– Осторожно, тут скользко.
– И воняет.
– И воняет, – согласился он.
– Я чет не понял про сон, – опомнился журналист.
– Ты когда-нибудь пробовал во сне читать?
– Кажется нет.
– Попробуй – ниче не выйдет! Никогда. А если точнее, то ты ты сможешь понять смысл послания в записке, но если приглядишься к буквам – увидишь мутную крокозябру. Набор черточек, например. Это вообще бессмысленные палки, не буквы. А смотреть на свои руки во сне пытался?
– Нет.
– Попробуй! Увидишь мутный набор пальцев. То есть они как бы есть, но что-то с ними не так. Как и в миджорни. Паттерн есть, конкретного числа нет.
– Почему?
– Потому, что во сне области Брока и Вернике, – программист постучал себя по голове, – Практически неактивны. А они и отвечают за текст и математику. Понимаешь?
Программист открыл хлипкую дверь и вошел в темное сырое помещение. С его потолка свисал огромный кабель, нижний конец которого терялся в черной мутно жиже.
– При чем тут сон? Какая связь с нейросетью? – журналист пьяно размахивал руками, – Куда этот кабель ведет?
– Сон тут при том, что миджорни и есть он. Ну то есть этот вот кабель подключен к мозгу.
Журналист мгновенно протрезвел, оценил толщину кабеля, сильно превышающую размер человеческого туловища и уставился в воду.
– К мозгу чего? – спросил он ошарашенно.
– Ктулху.
– А?!
– Не ори. Ктулху, говорю. К мозгу спящего ктулху. Ну такой древний бог с щупальцами.
– Какого… Вы… Что за… Погоди! – журналиста осенило, – Но новая версия миджорни нормально рисует руки!
– Угу. Зона Вернике активизируется.
– То есть…
– Просыпается. Здорово, да?
Голосуем за автора тут
Gradio Custom Components
В gradio завезли кастомные компоненты!
Теперь можно еще более лучше городить кошмар ux дизайнера интерфейсы для этих ваших нейронок.
Карты, вращалки 3д-моделей, пдфки, галереи видео, аутпуты с маркдауном и хтмл - вот это вот все, и то, что вы сами наговнокодите!
Все это еще и полуавтоматически можно выгрузить как пакет в пакет с пакетами PyPi.
5-minute-guide
3d-model
video-gallery
rich-textbox
gradio-pdf
folium-maps
@derplearning
А это для тех, кто называет warp wrap'ом
Встречайте: wrapfusion!