daniilak | Unsorted

Telegram-канал daniilak - Daniilak — Канал

264

Пишу о технологиях и датасетах, немного ML Рекламирую Чебоксары

Subscribe to a channel

Daniilak — Канал

Касаемо Parquet

HuggingFace самостоятельно создал версию моего опубликованного набора данных в формате Parquet

Читать полностью…

Daniilak — Канал

🦙 LlamaCoder — веб-приложение с открытым исходным кодом, которое может генерировать целое приложение из описания.

Репозиторий уже был клонирован сотнями разработчиков на GitHub и отмечен более 2 тысяч раз.

https://llamacoder.together.ai

Читать полностью…

Daniilak — Канал

Прекрасный проект https://trackthis.link/ предназначен для обмана рекламодателей путем открытия множества вкладок в браузере. Однако стоит отметить, что за последние пять лет не было обновлений, и некоторые из открываемых ссылок уже недоступны, но не все

Читать полностью…

Daniilak — Канал

Очередной ИИ-сервис для ведения соцсетей
Сервис рерайтит тексты из источников и получает тексты в любом объёме и формате и публикует в ВК или Телеграме

@GiveMePublicBot

Описание тут

Читать полностью…

Daniilak — Канал

В августе я за пару дней создал сайт peoplecheb.ru, пока не узнал о крупнейшем в СНГ сервисе для мастеров — livemaster.ru

Изначально моя идея заключалась в том, чтобы создать сайт и передать его местным, но, как оказалось, им это не нужно (по крайней мере ответа до сих пор нет)

Сейчас я размышляю над тремя вариантами:
1. Убрать привязку к региону и назвать проект "Мастера России", однако для этого потребуется заниматься его развитием и, неожиданно, тратить деньги на рекламу.
2. Или отказаться от сайта, сказав, что существует уже готовый livemaster.ru, и предложить людям обращаться туда, ведь там всё налажено)
3. Передать сайт в руки одной из ярмарок

Читать полностью…

Daniilak — Канал

Пока Антропик сам выкладывает системные промпты своих моделек в открытый доступ, OpenAI ведут себя как собаки сутулые (как обычно): много пользователей пишет, что после попыток узнать у новой модельки o1 принцип работы её "размышлений" и системный промпт на почту приходит письмо счастья, в котором OpenAI угрожает баном, если не прекратить спрашивать подобное.

Читать полностью…

Daniilak — Канал

В ChatGPT так часто задавали вопрос "Сколько букв r в слове strawberry?" (ранее он почти всегда отвечал неправильно), что это стало подсказкой в новом чате

Читать полностью…

Daniilak — Канал

Эстестика будущего

Читать полностью…

Daniilak — Канал

Сохраню тут GOT (General OCR Theory) - это модель 580M OCR-2.0

▪️Статья: https://huggingface.co/papers/2409.01704
▪️ Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0

Читать полностью…

Daniilak — Канал

Телеграм убрал количество пользователей в ботах, и снова появились вопросы «фейк ли это» и «как часто им пользуются»

Читать полностью…

Daniilak — Канал

Попробуйте собирать столько же данных, сколько планирует Apple, и вас закроют через два дня

Читать полностью…

Daniilak — Канал

Я просканировал 59 543 канала в Телеграме, которые имеют около 2 уникальных миллионов связей (раздел Похожие каналы), и в итоге выгрузил 517 885 каналов
Пусть дальше парсится

Читать полностью…

Daniilak — Канал

Генерите в Midjourney? Мдэ

Выкидывайте и генерируйте во Flux

Генерю для категорий каталога, можно не думать

Читать полностью…

Daniilak — Канал

Если собрать и удалить все фрагменты видео на YouTube, где блогеры говорят "оставь лайк и подпишись" или "ссылка в шапке профиля", можно сэкономить много времени

Читать полностью…

Daniilak — Канал

Мозг = 🤯

Первый настоящий ИИ-программист, Replit Agent.

Вместо того, чтобы писать длинный текст, я просто прикрепляю видео, которое я записал с первого дубля без монтажа через после получения доступа к агенту. В видео за 4 минуты я создал интерактивный вебсайт с flask сервером, фронтом, postgres базой данных и Open AI для ИИ-функционала.

Результат того, что я сделал в видео по ссылке: https://project-idea-gen.replit.app/

Попробовать самому тут: https://replit.com/

Читать полностью…

Daniilak — Канал

DuckDB обеспечивает высокую скорость работы с табличными и, в основном, иерархическими данными. Однако он не поддерживает чтение файлов форматов Excel, ORC и других, в то время как такие библиотеки, как Pandas и Polars, могут их обрабатывать и частично записывать.

Среди основных проблем DuckDB можно выделить недостаточное понимание кодировок, кроме UTF-8, для CSV-файлов, что требует предварительной обработки данных

CSV — наиболее распространённый формат, который плохо стандартизирован в своем "сыром" виде. Часто CSV-файлы являются результатами экспорта из Excel

Еще одним недостатком DuckDB при работе с CSV является отсутствие поддержки алгоритмов сжатия, кроме GZip. Это важный фактор, особенно с точки зрения эффективности и стоимости хранения данных. Например, в Dateno несколько сотен тысяч CSV-файлов занимают около 4 ТБ. Хранить их в оригинальном виде неэффективно; сжатие с помощью GZip — лучший вариант, а еще более эффективно использовать такие форматы, как zstd или Parquet с сжатием, поскольку эти данные статичны.

Таким образом, оптимальным решением для обработки данных оказывается комбинация DuckDB, Polars, Pandas, предобработки и постобработки данных, а также хранение исходных данных в формате Parquet

Читать полностью…

Daniilak — Канал

Статья, в которой подробно объясняется, что такое Платформа данных

Читать полностью…

Daniilak — Канал

В Чебоксарах Сбер установил шесть милых мини-фигурок с QR-кодами, которые ведут на сайт с описаниями

Девушка на Луне

Волга

Богатырь Улып

Нарспи и Сентер

Красавица Плаги

Лиса-плясунья

Ссылки на них были получены через файл sitemap.xml сайта) А сами страницы забэкапил на WebArchive

Читать полностью…

Daniilak — Канал

Сегодня хочу поделиться мыслями об опенсорсе в AI/ML. Как человек, который сам тренирует большие модели, могу сказать - опенсорс это очень круто! Радует, что крупные компании это тоже понимают.

Открытые решения реально двигают всю сферу вперед, позволяя даже небольшим командам использовать SOTA инструменты и строить на них свои продукты. Например, та же Meta с релизом LLama3.1 и предыдущими версиями серьезно подтолкнула прогресс в области LLM.

Ну, и бигтехи в России тоже контрибьютят в опенсорс. Наткнулся на исследование ИТМО, где они посмотрели, кто больше всего выкладывает в открытый доступ штук по AI/ML. В тройке лидеров оказались Яндекс, Сбер и Т-Банк.

Вот мой личный топ их репозиториев:
• Яндекс:
- catboost - мощная библиотека для градиентного бустинга
- YaFSDP (я писал о ней тут) -  библиотека для ускорения распределенного обучения больших моделей.
• Сбер:
- Kandinsky-3 - крупная text2image модель на 3B параметров
- ru-gpts - одни из первых LLM на русском языке
• Т-Банк:
- T-lite – русскоязычная специализированная LLM на 8B параметров
- Rebased - (писал о ней тут) - улучшенная имплементация линейного трансформера

В общем, топим за опенсорс. И не стесняйтесь контрибьютить сами, если есть что предложить - кроме всего прочего, это еще и хорошо выглядит в CV.

@ai_newz

Читать полностью…

Daniilak — Канал

Администрируя государственные (и около-государственные) каналы в мессенджерах, их администрация имеет возможность блокировать пользователей по своему усмотрению, оправдывая это тем, что они являются "спамерами" или "фейками".

Учитывая, что существует судебное решение, согласно которому мессенджер Telegram не признается официальной страницей органов государственной власти, можно продолжать действовать в этом направлении без угрызений совести

Ссылка на решение суда: https://sudact.ru/regular/doc/Bt1N5X3gzwVK/

Читать полностью…

Daniilak — Канал

❗️❗️❗️❗️❗️❗️❗️❗️❗️❗️❗️

Ловите бота @EmojiTitleBot, который поможет Вам создать текст из эмодзи

Читать полностью…

Daniilak — Канал

Аналог продуктханта, но только для РФ продуктов
https://productradar.ru/

Читать полностью…

Daniilak — Канал

Добавили на llmarena.ru шеринг диалогов, чтобы можно было скидывать друзьям/коллегам свои любимые переписки с LLMками.

Вчера встал вопрос: а какую длину ссылки делать?
Если сделать слишком длинную - неудобно будет делиться.
Если сделать слишком короткую - могут появиться коллизии.

На помощь пришел новый o1 и буквально за минуту раскромсал задачу.
Я ВМК МГУ закончил, сам бы смог решить, но ушло бы минут 30-40.
Чувствую как с каждым выходом новой модельки моя производительность повышается на 15-20% процентов)

P.S Ни YandexGPT Experimental, ни T-lite эту задачку не решил.
Пруф: https://llmarena.ru/?s=baa8e203

Читать полностью…

Daniilak — Канал

Хотите ускорить время загрузки ваших страниц?

Рекомендую воспользоваться частичным рендерингом на стороне сервера. Внедрите JSON-данные непосредственно в HTML-код страницы. Таким образом, JavaScript-обработчик сможет немедленно получить эти данные, а затем продолжит работать в обычном режиме, подгружая или обновляя информацию. Это позволит заметно сэкономить время при загрузке страниц

Читать полностью…

Daniilak — Канал

Увидел вчера локацию из Велена

Читать полностью…

Daniilak — Канал

- Здравствуйте! Когда можно подойти за весами модели?
- Я уже собрал первые два раунда инвестиций, так что модель больше не работает

Читать полностью…

Daniilak — Канал

Реклама радио с Милен Фармер, но есть нюанс

Читать полностью…

Daniilak — Канал

Выгружаю список каналов из блока "Похожие каналы" с помощью Telegram API. Начал с нескольких локальных чувашских каналов. Кстати, делается это мега-просто, спасибо Telethon

1) Планирую сделать граф-схему с взаимосвязями между каналами
2) Также думаю о том, чтобы выгрузить посты и оформить датасет на Hugging Face

Читать полностью…

Daniilak — Канал

Можно также взять и cursor.com

Читать полностью…

Daniilak — Канал

1) взять Flux
2) взять промпт, начинающийся с webcam call screenshot
3) взять xlabs реализм lora

Читать полностью…
Subscribe to a channel