daniilak | Unsorted

Telegram-канал daniilak - Daniilak — Канал

264

Пишу о технологиях и датасетах, немного ML Рекламирую Чебоксары

Subscribe to a channel

Daniilak — Канал

Упомянул(а) Вас на канале

Читать полностью…

Daniilak — Канал

Ну всё. OpenAI теперь официально можно переименовать в Closed.
Они теперь официально for-profit.

Нравится какие серьезные лица стоят в пиджаках за Альтманом. Далеко не сайнтисты.

Компанию оценили в $150 млрд.

@ai_newz

Читать полностью…

Daniilak — Канал

На Stack Overflow на 25% уменьшилось количество вопросов и ответов.

Читать полностью…

Daniilak — Канал

Начал я запускать upscaler в hf, а оно занято

Читать полностью…

Daniilak — Канал

На Kaggle завезли новые ачивки 👍

Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.

Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.

Я там Datasets Expert, нужно потратить немного времени, чтобы сделать больше ачивок

Как минимум, можно попробовать погенерить датасеты, есть пару десятков тем

Читать полностью…

Daniilak — Канал

⚙️ Сегодня Hugging Face пробил 1 млн загруженных моделей!

Читать полностью…

Daniilak — Канал

Продолжая погружаться в иной мир, заметил интересную деталь:

В Windows, если зажать кнопку (это работает со всеми клавишами), она нажимается бесконечно быстро.
В macOS нужно нажимать каждый раз. И что интересно, это работает частично:
— Если зажать пробел, стрелки, слеш или другие специальные клавиши, то они будут нажиматься (кстати, медленнее, чем в Windows).
— Если зажать клавишу с любой буквой или цифрой, то она сработает только один раз.

Я привык перемещаться стрелками, а в macOS, пока стрелка доберется до нужной позиции, можно успеть заварить и выпить чай.

Читать полностью…

Daniilak — Канал

По-моему, очень приятная новость, для тех, кто встраивает LLM в свои пет-проекты или просто интересуется темой и не хочет на это тратиться. У Мистраля появился Free план (его надо выбрать в разделе Billing), по которому можно бесплатно вызывать модели по API.

Работает без VPN, карту привязывать не надо.

В списке моделей часть называется Free, в том числе мультимодальный Pixtral, но по факту вызываются все.

Имейте в виду, что ваши запросы на этом плане будут доступны разработчикам и могут быть использованы ими в дальнейшем.

Как вариант, если не хотите отдавать данные, можно использовать Вихрь у себя на машине

https://huggingface.co/Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24

Читать полностью…

Daniilak — Канал

Поставил себе на мак бесплатное приложение alt-tab-macos.netlify.app

Теперь у меня есть нормальный cmd+tab, который показывает все окна, а не только список приложений

В качестве лучшей альтернативы можно попробовать manytricks.com/witch

Читать полностью…

Daniilak — Канал

Может публиковать сюда задачки?

Задача
Есть лог звонков call-центра. В нем зафиксировано время начала и конца звонка.
Количество записей в логе может быть очень большим, как и сам лог-файл. Считайте, что он минимум в 10 раз больше вашей оперативной памяти.


Нужно написать эффективный по использованию памяти скрипт который сможет определить минимальное количестов операторов call-центра, чтобы ни один звонок не ожидал оператора

Формат лога приблизительно такой

FROM:2021-01-30 22:18 TO:2021-01-30 22:31
FROM:2021-02-04 00:46 TO:2021-02-04 00:53
FROM:2021-01-29 18:46 TO:2021-01-29 19:02
FROM:2021-02-02 17:02 TO:2021-02-02 17:09
FROM:2021-01-30 15:44 TO:2021-01-30 16:05
FROM:2021-02-05 11:58 TO:2021-02-05 12:14

Читать полностью…

Daniilak — Канал

Для начинающих (и не только) будет полезно

https://dfedorov.spb.ru/pandas/

Гоняем 100гб csv-файлы на очердной мультиварке 2000-года туда-сюда

Читать полностью…

Daniilak — Канал

DuckDB обеспечивает высокую скорость работы с табличными и, в основном, иерархическими данными. Однако он не поддерживает чтение файлов форматов Excel, ORC и других, в то время как такие библиотеки, как Pandas и Polars, могут их обрабатывать и частично записывать.

Среди основных проблем DuckDB можно выделить недостаточное понимание кодировок, кроме UTF-8, для CSV-файлов, что требует предварительной обработки данных

CSV — наиболее распространённый формат, который плохо стандартизирован в своем "сыром" виде. Часто CSV-файлы являются результатами экспорта из Excel

Еще одним недостатком DuckDB при работе с CSV является отсутствие поддержки алгоритмов сжатия, кроме GZip. Это важный фактор, особенно с точки зрения эффективности и стоимости хранения данных. Например, в Dateno несколько сотен тысяч CSV-файлов занимают около 4 ТБ. Хранить их в оригинальном виде неэффективно; сжатие с помощью GZip — лучший вариант, а еще более эффективно использовать такие форматы, как zstd или Parquet с сжатием, поскольку эти данные статичны.

Таким образом, оптимальным решением для обработки данных оказывается комбинация DuckDB, Polars, Pandas, предобработки и постобработки данных, а также хранение исходных данных в формате Parquet

Читать полностью…

Daniilak — Канал

Статья, в которой подробно объясняется, что такое Платформа данных

Читать полностью…

Daniilak — Канал

В Чебоксарах Сбер установил шесть милых мини-фигурок с QR-кодами, которые ведут на сайт с описаниями

Девушка на Луне

Волга

Богатырь Улып

Нарспи и Сентер

Красавица Плаги

Лиса-плясунья

Ссылки на них были получены через файл sitemap.xml сайта) А сами страницы забэкапил на WebArchive

Читать полностью…

Daniilak — Канал

Сегодня хочу поделиться мыслями об опенсорсе в AI/ML. Как человек, который сам тренирует большие модели, могу сказать - опенсорс это очень круто! Радует, что крупные компании это тоже понимают.

Открытые решения реально двигают всю сферу вперед, позволяя даже небольшим командам использовать SOTA инструменты и строить на них свои продукты. Например, та же Meta с релизом LLama3.1 и предыдущими версиями серьезно подтолкнула прогресс в области LLM.

Ну, и бигтехи в России тоже контрибьютят в опенсорс. Наткнулся на исследование ИТМО, где они посмотрели, кто больше всего выкладывает в открытый доступ штук по AI/ML. В тройке лидеров оказались Яндекс, Сбер и Т-Банк.

Вот мой личный топ их репозиториев:
• Яндекс:
- catboost - мощная библиотека для градиентного бустинга
- YaFSDP (я писал о ней тут) -  библиотека для ускорения распределенного обучения больших моделей.
• Сбер:
- Kandinsky-3 - крупная text2image модель на 3B параметров
- ru-gpts - одни из первых LLM на русском языке
• Т-Банк:
- T-lite – русскоязычная специализированная LLM на 8B параметров
- Rebased - (писал о ней тут) - улучшенная имплементация линейного трансформера

В общем, топим за опенсорс. И не стесняйтесь контрибьютить сами, если есть что предложить - кроме всего прочего, это еще и хорошо выглядит в CV.

@ai_newz

Читать полностью…

Daniilak — Канал

Infinite money exploit — Если не успеваешь до пенсии выплатить, то тебя выгоняют и перепродают квартиру заново

https://tass.ru/ekonomika/22005675

Читать полностью…

Daniilak — Канал

Местный магазин по совместной закупке уже полгода принимает заявки публично в комментариях с помощью номера телефона.

Кому нужен список в формате "номер телефона - аккаунт в Telegram"?)

Читать полностью…

Daniilak — Канал

Fathom — компания Бена Фрая (Ben Fry), одного из авторов Processing, представила супербыстрый инструмент для анализа CSV-файлов из Excel-таблиц прямо в браузере под названием Rowboat.

Этот инструмент открывает файлы размером до 500 мегабайт всего за несколько секунд! Интерфейс также работает очень быстро.

Вы можете ознакомиться с ним по ссылке: Rowboat.

Сервис бесплатный, но для просмотра примеров необходимо зарегистрироваться.

Но судя по всему, лучше этот вариант — https://github.com/Kanaries/Rath

Читать полностью…

Daniilak — Канал

Идея для стартапа:

Создание приложения, которое автоматически отвечает на запросы пользователей в Instagram* о стоимости товаров. Приложение будет генерировать ответ на основе профиля пользователя, предоставляя индивидуальную цену в личные сообщения


* принадлежит компании Meta, которая признана в России экстремистской организацией и запрещена

Читать полностью…

Daniilak — Канал

https://www.rbc.ru/politics/19/09/2024/66ebc2639a7947efb02e242f
Ох уж эти программисты!

Читать полностью…

Daniilak — Канал

Люди, связанные с АНБ, несколько лет вносили изменения в репозиторий SSH, чтобы создать бэкдор для себя. Весной этого года одному из пользователей не понравилось, что его PostgreSQL запускается на 5 мс медленнее, чем обычно, и он решил изучить код

https://habr.com/ru/news/804163/

Читать полностью…

Daniilak — Канал

Флибуста закрывается — у владельца самой крупной онлайн-библиотеки нашли рак мозга

Читать полностью…

Daniilak — Канал

Если бы тенденция ставить панельки в браузер осталась до сих пор

Читать полностью…

Daniilak — Канал

Таблица сравнения библиотек сжатия. Рекомендуется использовать ZSTD

ZSTD сжимает эффективно, но медленно. При этом достаточно быстро распаковывает документы.
А скорость распаковки у ZSTD сильно не зависит от степени сжатия

Читать полностью…

Daniilak — Канал

Последнее время мысль заказать 2-метровый памятник Пикачу кажется заманчивой

Читать полностью…

Daniilak — Канал

Касаемо Parquet

HuggingFace самостоятельно создал версию моего опубликованного набора данных в формате Parquet

Читать полностью…

Daniilak — Канал

🦙 LlamaCoder — веб-приложение с открытым исходным кодом, которое может генерировать целое приложение из описания.

Репозиторий уже был клонирован сотнями разработчиков на GitHub и отмечен более 2 тысяч раз.

https://llamacoder.together.ai

Читать полностью…

Daniilak — Канал

Прекрасный проект https://trackthis.link/ предназначен для обмана рекламодателей путем открытия множества вкладок в браузере. Однако стоит отметить, что за последние пять лет не было обновлений, и некоторые из открываемых ссылок уже недоступны, но не все

Читать полностью…

Daniilak — Канал

Очередной ИИ-сервис для ведения соцсетей
Сервис рерайтит тексты из источников и получает тексты в любом объёме и формате и публикует в ВК или Телеграме

@GiveMePublicBot

Описание тут

Читать полностью…

Daniilak — Канал

В августе я за пару дней создал сайт peoplecheb.ru, пока не узнал о крупнейшем в СНГ сервисе для мастеров — livemaster.ru

Изначально моя идея заключалась в том, чтобы создать сайт и передать его местным, но, как оказалось, им это не нужно (по крайней мере ответа до сих пор нет)

Сейчас я размышляю над тремя вариантами:
1. Убрать привязку к региону и назвать проект "Мастера России", однако для этого потребуется заниматься его развитием и, неожиданно, тратить деньги на рекламу.
2. Или отказаться от сайта, сказав, что существует уже готовый livemaster.ru, и предложить людям обращаться туда, ведь там всё налажено)
3. Передать сайт в руки одной из ярмарок

Читать полностью…
Subscribe to a channel