Касаемо Parquet
HuggingFace самостоятельно создал версию моего опубликованного набора данных в формате Parquet
🦙 LlamaCoder — веб-приложение с открытым исходным кодом, которое может генерировать целое приложение из описания.
Репозиторий уже был клонирован сотнями разработчиков на GitHub и отмечен более 2 тысяч раз.
https://llamacoder.together.ai
Прекрасный проект https://trackthis.link/ предназначен для обмана рекламодателей путем открытия множества вкладок в браузере. Однако стоит отметить, что за последние пять лет не было обновлений, и некоторые из открываемых ссылок уже недоступны, но не все
Читать полностью…Очередной ИИ-сервис для ведения соцсетей
Сервис рерайтит тексты из источников и получает тексты в любом объёме и формате и публикует в ВК или Телеграме
@GiveMePublicBot
Описание тут
В августе я за пару дней создал сайт peoplecheb.ru, пока не узнал о крупнейшем в СНГ сервисе для мастеров — livemaster.ru
Изначально моя идея заключалась в том, чтобы создать сайт и передать его местным, но, как оказалось, им это не нужно (по крайней мере ответа до сих пор нет)
Сейчас я размышляю над тремя вариантами:
1. Убрать привязку к региону и назвать проект "Мастера России", однако для этого потребуется заниматься его развитием и, неожиданно, тратить деньги на рекламу.
2. Или отказаться от сайта, сказав, что существует уже готовый livemaster.ru, и предложить людям обращаться туда, ведь там всё налажено)
3. Передать сайт в руки одной из ярмарок
Пока Антропик сам выкладывает системные промпты своих моделек в открытый доступ, OpenAI ведут себя как собаки сутулые (как обычно): много пользователей пишет, что после попыток узнать у новой модельки o1 принцип работы её "размышлений" и системный промпт на почту приходит письмо счастья, в котором OpenAI угрожает баном, если не прекратить спрашивать подобное.
Читать полностью…В ChatGPT так часто задавали вопрос "Сколько букв r в слове strawberry?" (ранее он почти всегда отвечал неправильно), что это стало подсказкой в новом чате
Читать полностью…Сохраню тут GOT (General OCR Theory) - это модель 580M OCR-2.0
▪️Статья: https://huggingface.co/papers/2409.01704
▪️ Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0
Телеграм убрал количество пользователей в ботах, и снова появились вопросы «фейк ли это» и «как часто им пользуются»
Читать полностью…Попробуйте собирать столько же данных, сколько планирует Apple, и вас закроют через два дня
Читать полностью…Я просканировал 59 543 канала в Телеграме, которые имеют около 2 уникальных миллионов связей (раздел Похожие каналы), и в итоге выгрузил 517 885 каналов
Пусть дальше парсится
Генерите в Midjourney? Мдэ
Выкидывайте и генерируйте во Flux
Генерю для категорий каталога, можно не думать
Если собрать и удалить все фрагменты видео на YouTube, где блогеры говорят "оставь лайк и подпишись" или "ссылка в шапке профиля", можно сэкономить много времени
Читать полностью…Мозг = 🤯
Первый настоящий ИИ-программист, Replit Agent.
Вместо того, чтобы писать длинный текст, я просто прикрепляю видео, которое я записал с первого дубля без монтажа через после получения доступа к агенту. В видео за 4 минуты я создал интерактивный вебсайт с flask сервером, фронтом, postgres базой данных и Open AI для ИИ-функционала.
Результат того, что я сделал в видео по ссылке: https://project-idea-gen.replit.app/
Попробовать самому тут: https://replit.com/
DuckDB обеспечивает высокую скорость работы с табличными и, в основном, иерархическими данными. Однако он не поддерживает чтение файлов форматов Excel, ORC и других, в то время как такие библиотеки, как Pandas и Polars, могут их обрабатывать и частично записывать.
Среди основных проблем DuckDB можно выделить недостаточное понимание кодировок, кроме UTF-8, для CSV-файлов, что требует предварительной обработки данных
CSV — наиболее распространённый формат, который плохо стандартизирован в своем "сыром" виде. Часто CSV-файлы являются результатами экспорта из Excel
Еще одним недостатком DuckDB при работе с CSV является отсутствие поддержки алгоритмов сжатия, кроме GZip. Это важный фактор, особенно с точки зрения эффективности и стоимости хранения данных. Например, в Dateno несколько сотен тысяч CSV-файлов занимают около 4 ТБ. Хранить их в оригинальном виде неэффективно; сжатие с помощью GZip — лучший вариант, а еще более эффективно использовать такие форматы, как zstd или Parquet с сжатием, поскольку эти данные статичны.
Таким образом, оптимальным решением для обработки данных оказывается комбинация DuckDB, Polars, Pandas, предобработки и постобработки данных, а также хранение исходных данных в формате Parquet
В Чебоксарах Сбер установил шесть милых мини-фигурок с QR-кодами, которые ведут на сайт с описаниями
— Девушка на Луне
— Волга
— Богатырь Улып
— Нарспи и Сентер
— Красавица Плаги
—Лиса-плясунья
Ссылки на них были получены через файл sitemap.xml сайта) А сами страницы забэкапил на WebArchive
Сегодня хочу поделиться мыслями об опенсорсе в AI/ML. Как человек, который сам тренирует большие модели, могу сказать - опенсорс это очень круто! Радует, что крупные компании это тоже понимают.
Открытые решения реально двигают всю сферу вперед, позволяя даже небольшим командам использовать SOTA инструменты и строить на них свои продукты. Например, та же Meta с релизом LLama3.1 и предыдущими версиями серьезно подтолкнула прогресс в области LLM.
Ну, и бигтехи в России тоже контрибьютят в опенсорс. Наткнулся на исследование ИТМО, где они посмотрели, кто больше всего выкладывает в открытый доступ штук по AI/ML. В тройке лидеров оказались Яндекс, Сбер и Т-Банк.
Вот мой личный топ их репозиториев:
• Яндекс:
- catboost - мощная библиотека для градиентного бустинга
- YaFSDP (я писал о ней тут) - библиотека для ускорения распределенного обучения больших моделей.
• Сбер:
- Kandinsky-3 - крупная text2image модель на 3B параметров
- ru-gpts - одни из первых LLM на русском языке
• Т-Банк:
- T-lite – русскоязычная специализированная LLM на 8B параметров
- Rebased - (писал о ней тут) - улучшенная имплементация линейного трансформера
В общем, топим за опенсорс. И не стесняйтесь контрибьютить сами, если есть что предложить - кроме всего прочего, это еще и хорошо выглядит в CV.
@ai_newz
Администрируя государственные (и около-государственные) каналы в мессенджерах, их администрация имеет возможность блокировать пользователей по своему усмотрению, оправдывая это тем, что они являются "спамерами" или "фейками".
Учитывая, что существует судебное решение, согласно которому мессенджер Telegram не признается официальной страницей органов государственной власти, можно продолжать действовать в этом направлении без угрызений совести
Ссылка на решение суда: https://sudact.ru/regular/doc/Bt1N5X3gzwVK/
❗️❗️❗️❗️❗️❗️❗️❗️❗️❗️❗️
Ловите бота @EmojiTitleBot, который поможет Вам создать текст из эмодзи
Добавили на llmarena.ru шеринг диалогов, чтобы можно было скидывать друзьям/коллегам свои любимые переписки с LLMками.
Вчера встал вопрос: а какую длину ссылки делать?
Если сделать слишком длинную - неудобно будет делиться.
Если сделать слишком короткую - могут появиться коллизии.
На помощь пришел новый o1 и буквально за минуту раскромсал задачу.
Я ВМК МГУ закончил, сам бы смог решить, но ушло бы минут 30-40.
Чувствую как с каждым выходом новой модельки моя производительность повышается на 15-20% процентов)
P.S Ни YandexGPT Experimental, ни T-lite эту задачку не решил.
Пруф: https://llmarena.ru/?s=baa8e203
Хотите ускорить время загрузки ваших страниц?
Рекомендую воспользоваться частичным рендерингом на стороне сервера. Внедрите JSON-данные непосредственно в HTML-код страницы. Таким образом, JavaScript-обработчик сможет немедленно получить эти данные, а затем продолжит работать в обычном режиме, подгружая или обновляя информацию. Это позволит заметно сэкономить время при загрузке страниц
- Здравствуйте! Когда можно подойти за весами модели?
- Я уже собрал первые два раунда инвестиций, так что модель больше не работает
Выгружаю список каналов из блока "Похожие каналы" с помощью Telegram API. Начал с нескольких локальных чувашских каналов. Кстати, делается это мега-просто, спасибо Telethon
1) Планирую сделать граф-схему с взаимосвязями между каналами
2) Также думаю о том, чтобы выгрузить посты и оформить датасет на Hugging Face
1) взять Flux
2) взять промпт, начинающийся с webcam call screenshot
3) взять xlabs реализм lora