Playground выпустили новую модель. Могут потягаться с SDXL и с SD3. Хорошо работают тексты и качество генерации на высоте. Уступает Flux, но зато есть статья, которая описывает что они там сделали.
https://arxiv.org/pdf/2409.10695
Весов пока не нашёл, но обычно выкладывают.
Глянуть где она на фоне остальных моделей можно здесь
https://artificialanalysis.ai/text-to-image/arena
Не хочется скидывать вам новости, о которых уже сказали из каждого утюга. Но вот там вышла Ллама 3.2, которая по точности не уступает gpt-4o mini. Уверен, мне такая моделька пригодится когда я буду обрабатывать, отсеивать и описывать датасет из кучи картинок.
Читать полностью…Winamp Legacy player source code is now open (🔥 Score: 150+ in 52 minutes)
Link: https://readhacker.news/s/6f74n
Comments: https://readhacker.news/c/6f74n
Pallete vs RGB
Сегодня я узнал что есть цветные одноканальные изображения. И что они даже выглядят хорошо.
Способ следующий. Cокращаем весь динамический диапазон до 256 цветов. Любых. Постеризация, другими словами. Все эти цвета записываем в табличку соответствия, а цифры на картинке теперь обозначают номер цвета, а не яркость отдельных каналов. Сохраняем 1D картинку и табличку в нём.
Два изображения в посте сохранены именно таким способом.
Размер изображения сравним с JPEG
Лучший superresolution, который мне доводилось использовать.
Изображение слева во что только не преваращалось. И в белых, и в азиаток, и в аниме-гёрл. Вот эта моделька пока первая на моей памяти, которая достоверно восстанавливает это лицо. И с другими тоже хорошо работает.
https://arxiv.org/pdf/2401.13627
https://github.com/Fanghua-Yu/SUPIR
Попробовать можно вот тут
https://supir.suppixel.ai
RUPhon - новый открытый IPA фонемизатор для русского языка!
Совместно с @intexcp мы разработали RUPhon - библиотеку для фонемизации русского текста, использующую модели RUAccent-encoder. Модель поддерживает два языка: русский и английский.
Ключевые особенности
1. Модель может обрабатывать ударения на входе
2. Модель имеет относительно небольшой размер (от 55 до 120 мегабайт)
Метрики (F1)
charsiuG2P -> 0.9236
Omogre -> 0.9601
ru_g2p_ipa_bert_large -> 0.9868
RUPhon-small -> 0.9970
RUPhon-big -> 0.9990
А если вы хотите автоматически расставлять ударения, установите RUAccent и используйте его вместе с RUPhon!
Ссылка на библиотеку: https://github.com/Den4ikAI/ruphon
Донат: https://pay.cloudtips.ru/p/b9d86686
@den4ikresearch
китайцы релизнули 4оmni дома, аудио на вход и выход, одной моделью генерят аудио и парсят аудио в текст. Завели на qwen500m, звучит хорошо
github
Самолёты, на которых мы летаем, довольно крутые.
Вроде как на них нельзя делать фигуры высшего пилотажа, и я всегда думал что они как автобусы. Сейчас изучаю каналы лётчиков и вижу что не каждый даже реактивный самолёт умеет подниматься на высоту 8км. При этом, все пассажирские самолёты летают на высоте 11км. На скорости 1000км/ч - практически трансзвуковой. Такое тоже не все самолёты умеют.
А вспомнил я это потому что мой самолёт после взлёта, сразу стал поворачивать на курс под очень опасным углом, набрав всего 100м высоты и 250км/ч скорости. Видел много видео на ютюбе что так делать нельзя, т.к. подъемной силы может не хватить и самолёт упадёт.
Понятное дело что манёвр безопасный, я просто восхитился тому что, казалось бы, обычный А319 получается совсем не деревянный и может потягаться с кукурузниками в маневренности.
Встречи с Илюхой!
В Москве я не догадался проводить офлайн встреч, додумался хотя бы в путешествии.
С 1 по 8 сентября буду в Берлине
С 8 по 15 сентября в Барселоне
Если вы там живёте или недалеко обитаете - напишите, я бы хотел встретиться на кофе и на прогулки. В другие города тоже зовите, есть шанс что прилечу!
@frappuccino_o
Сжимал на днях 75Гб данных через zip. Дело что очень долго и пока я ждал, chatGPT предложила мне попробовать zstd. Надо сказать, zstd обогнала zip в сжатии даже учитывая гораздо более поздний старт.
Почитать:
https://github.com/facebook/zstd
Использовать:
Читать полностью…
tar -I zstd -cvf archive.tar.zst files # compress
tar -I zstd -xvf archive.tar.zst # uncompress
Как правильно потратить 5 миллиардов фунтов стерлингов на улучшение сервиса?
А: ускорить поезд (что и было сделано)
или
Б: провести в поезд wifi, нанять топ-моделей раздавать бокалы шикарного вина по этому поезду и сохранить 4 миллиарда фунтов
Очень люблю эту зарисовку.
Есть такой датасет LAION, в котором дамп интернета с кучей фотографий. И вот до сих основным подходом в обучении сеток по генерации изображений считается взять этот дамп, почистить его и обучить на нём генерацию картинок.
Чистку предлагается делать классификаторами вроде CLIP затюненными на aeasthetic score. Мол если 1 - то это неэстетичные фотографии, а если 9, то очень эстетичные.
Я не знаю как объяснить насколько это проигрышная стратегия. Изображений там может быть и много, но среднее качество картинок в интернете это просто швах. Во-первых, картинки многократно пережаты. Во-вторых, большинство интернета - это прон.
Окей, отфильтровали мы по размеру картинки, убрали дубликаты, отсортировали по aesthetic score и выкинули прон. Осталось 100К изображений дай боже. Потратили на это кучу вычислительных часов.
Но как насчёт изначально напарсить 100К картинок таких, чтобы были сделаны только на зеркальные камеры? Любой сайт для фотографов имеет такое количество. Там тебе и разрешение 4К+ и объекты красивые и нет рекламы FONBET на каждом изображении и других графических спецэффектов. Есть, конечно, свои проблемы вроде виньетирования, плёночного зерна, ЧБ и недо-/переэкспонирования. Но всё ещё гораздо лучше. Я сейчас пробую и вам опишу результаты.
Чтиво:
https://www.reddit.com/r/StableDiffusion/comments/1dbasvx/the_gory_details_of_finetuning_sdxl_for_30m/
В Америке сильно повышается популярность Испанского. Кажется он станет либо вторым официальным языком, либо основным.
Кстати, на федеральном уровне в Америке нет национального языка. Хотя Английский де-факто национальный язык. Каждый штат выбирает свой язык и всего 32 штата из 50 выбрали англ основным языком.
👀 Случайно нашел весьма полезную статью - обзор на foundtion модели в музыке. Она прямо таки новая, от 3го сентября. Нашел ее пока смотрел цитирования другой статьи) Совет - смотрите цитирования статей, которые вам понравились.
В статье и про музыкальные репрезентации, и про понимание музыки моделями, и про датасеты, и про подходы для обработки/генерации музыки и их проблемы. Также отдельно рассматриваются состовляющие музыки: вокал, аккомпонемент, ноты. Надеюсь прочтение поможет придумать ту самую идею для ризерча.
#аудио #статьи
Заходишь такой в забегаловку, там на каждом углу написано что они зелёные и за спасение планеты. Приносят тебе еду в тарелке из биоразлагаемого пластика, на котором это 10 раз написано, пьёшь напиток из одноразовой бутылки, на которой написано "утилизировать" из бумажной трубочки. Вручают одноразовые бумажные салфетки.
Заходишь в ресторан. Там на керамических тарелках и в стеклянных кружках тебе подают еду. Металлические приборы лежат на хлопковой салфетке. Воду налили из кувшина. Ни слова про защиту планеты и зелёность.
И кто тут более сделал для планеты?
Про OpenAI O1
Идея использовать цепочку мыслей не нова, и довольно эффективна. Рад что инженеры справились с тем чтобы обучить это на куче примеров и на огромном контекстном окне.
Что меня действительно заинтриговало, так это релиз Reflection-70B неделей ранее. У меня было две версии в голове:
Либо OpenAI ждала пока open-source догонит их модели чтобы всегда иметь возможность выпускать что-то лучше.
ЛИБО
Вдохновившись постом Мэтта Шумера https://x.com/mattshumer_/status/1831767014341538166, они доучили свою GPT-4o на то чтобы она делала то же самое. В целом, эта версия - причина, по которой я побежал читать репорт.
Оказалось что, конечно же, у openAI свои новаторские идеи и идеи рефлекшена и О1 пересекаются, но не одинаковые. Но было бы очень смешно если нет.
Чем сильна Америка?
Раньше я думал что у Америки самые хорошие технологии. Это не совсем так. Я увидел компании с лучшими технологиями, которые всё ещё отстают от других. Вот есть айфон, а есть корейский samsung galaxy и китайский Huawei.
Может, главная их движущая сила не технологии, а хорошие продукты? Сейчас я вижу что и продукты могут быть замечательными, но сильно уступать по капитализации. Вот есть Тинькофф банк, а есть ВТБ.
Потом я прилетел в Сан-Франциско и увидел самое высокое и красивое здание там. Знаете кому принадлежит? Salesforce. В Америке самые хорошие продажники во всём мире. Хорошо продавать - это в американской культуре.
Качинский утверждал, что современные люди в депрессии, потому что все сложные проблемы мира уже решены. Остались только слишком легкие, либо невозможные проблемы, и заниматься обоими этими задачами глубоко неудовлетворительно.
Например, то, что вы можете сделать, даже ребенок может сделать; то, что вы не можете сделать, даже Эйнштейн не смог бы сделать
Из книги. Peter Thiel. Zero to one