Telegram-канал daniilak - Daniilak — Канал: Unsorted - каталог телеграмм

daniilak | Unsorted

Subscribe to a channel

Telegram-канал daniilak - Daniilak — Канал

264

Пишу о технологиях и датасетах, немного ML Рекламирую Чебоксары

Subscribe to a channel

Daniilak — Канал

24 Sep 2024 02:06

Продолжая погружаться в иной мир, заметил интересную деталь:

В Windows, если зажать кнопку (это работает со всеми клавишами), она нажимается бесконечно быстро.
В macOS нужно нажимать каждый раз. И что интересно, это работает частично:
— Если зажать пробел, стрелки, слеш или другие специальные клавиши, то они будут нажиматься (кстати, медленнее, чем в Windows).
— Если зажать клавишу с любой буквой или цифрой, то она сработает только один раз.

Я привык перемещаться стрелками, а в macOS, пока стрелка доберется до нужной позиции, можно успеть заварить и выпить чай.

Читать полностью…

Daniilak — Канал

23 Sep 2024 14:35

По-моему, очень приятная новость, для тех, кто встраивает LLM в свои пет-проекты или просто интересуется темой и не хочет на это тратиться. У Мистраля появился Free план (его надо выбрать в разделе Billing), по которому можно бесплатно вызывать модели по API.

Работает без VPN, карту привязывать не надо.

В списке моделей часть называется Free, в том числе мультимодальный Pixtral, но по факту вызываются все.

Имейте в виду, что ваши запросы на этом плане будут доступны разработчикам и могут быть использованы ими в дальнейшем.

Как вариант, если не хотите отдавать данные, можно использовать Вихрь у себя на машине

https://huggingface.co/Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24

Читать полностью…

Daniilak — Канал

21 Sep 2024 20:17

Поставил себе на мак бесплатное приложение alt-tab-macos.netlify.app

Теперь у меня есть нормальный cmd+tab, который показывает все окна, а не только список приложений

В качестве лучшей альтернативы можно попробовать manytricks.com/witch

Читать полностью…

Daniilak — Канал

20 Sep 2024 07:58

Может публиковать сюда задачки?

Задача
Есть лог звонков call-центра. В нем зафиксировано время начала и конца звонка.
Количество записей в логе может быть очень большим, как и сам лог-файл. Считайте, что он минимум в 10 раз больше вашей оперативной памяти.

Нужно написать эффективный по использованию памяти скрипт который сможет определить минимальное количестов операторов call-центра, чтобы ни один звонок не ожидал оператора

Формат лога приблизительно такойFROM:2021-01-30 22:18 TO:2021-01-30 22:31
FROM:2021-02-04 00:46 TO:2021-02-04 00:53
FROM:2021-01-29 18:46 TO:2021-01-29 19:02
FROM:2021-02-02 17:02 TO:2021-02-02 17:09
FROM:2021-01-30 15:44 TO:2021-01-30 16:05
FROM:2021-02-05 11:58 TO:2021-02-05 12:14

Читать полностью…

Daniilak — Канал

20 Sep 2024 00:08

Для начинающих (и не только) будет полезно

https://dfedorov.spb.ru/pandas/

Гоняем 100гб csv-файлы на очердной мультиварке 2000-года туда-сюда

Читать полностью…

Daniilak — Канал

20 Sep 2024 00:02

DuckDB обеспечивает высокую скорость работы с табличными и, в основном, иерархическими данными. Однако он не поддерживает чтение файлов форматов Excel, ORC и других, в то время как такие библиотеки, как Pandas и Polars, могут их обрабатывать и частично записывать.

Среди основных проблем DuckDB можно выделить недостаточное понимание кодировок, кроме UTF-8, для CSV-файлов, что требует предварительной обработки данных

CSV — наиболее распространённый формат, который плохо стандартизирован в своем "сыром" виде. Часто CSV-файлы являются результатами экспорта из Excel

Еще одним недостатком DuckDB при работе с CSV является отсутствие поддержки алгоритмов сжатия, кроме GZip. Это важный фактор, особенно с точки зрения эффективности и стоимости хранения данных. Например, в Dateno несколько сотен тысяч CSV-файлов занимают около 4 ТБ. Хранить их в оригинальном виде неэффективно; сжатие с помощью GZip — лучший вариант, а еще более эффективно использовать такие форматы, как zstd или Parquet с сжатием, поскольку эти данные статичны.

Таким образом, оптимальным решением для обработки данных оказывается комбинация DuckDB, Polars, Pandas, предобработки и постобработки данных, а также хранение исходных данных в формате Parquet

Читать полностью…

Daniilak — Канал

19 Sep 2024 08:49

Статья, в которой подробно объясняется, что такое Платформа данных

Читать полностью…

Daniilak — Канал

18 Sep 2024 22:38

В Чебоксарах Сбер установил шесть милых мини-фигурок с QR-кодами, которые ведут на сайт с описаниями

— Девушка на Луне

— Волга

— Богатырь Улып

— Нарспи и Сентер

— Красавица Плаги

—Лиса-плясунья

Ссылки на них были получены через файл sitemap.xml сайта) А сами страницы забэкапил на WebArchive

Читать полностью…

Daniilak — Канал

17 Sep 2024 23:41

Сегодня хочу поделиться мыслями об опенсорсе в AI/ML. Как человек, который сам тренирует большие модели, могу сказать - опенсорс это очень круто! Радует, что крупные компании это тоже понимают.

Открытые решения реально двигают всю сферу вперед, позволяя даже небольшим командам использовать SOTA инструменты и строить на них свои продукты. Например, та же Meta с релизом LLama3.1 и предыдущими версиями серьезно подтолкнула прогресс в области LLM.

Ну, и бигтехи в России тоже контрибьютят в опенсорс. Наткнулся на исследование ИТМО, где они посмотрели, кто больше всего выкладывает в открытый доступ штук по AI/ML. В тройке лидеров оказались Яндекс, Сбер и Т-Банк.

Вот мой личный топ их репозиториев:
• Яндекс:
- catboost - мощная библиотека для градиентного бустинга
- YaFSDP (я писал о ней тут) - библиотека для ускорения распределенного обучения больших моделей.
• Сбер:
- Kandinsky-3 - крупная text2image модель на 3B параметров
- ru-gpts - одни из первых LLM на русском языке
• Т-Банк:
- T-lite – русскоязычная специализированная LLM на 8B параметров
- Rebased - (писал о ней тут) - улучшенная имплементация линейного трансформера

В общем, топим за опенсорс. И не стесняйтесь контрибьютить сами, если есть что предложить - кроме всего прочего, это еще и хорошо выглядит в CV.

@ai_newz

Читать полностью…

Daniilak — Канал

17 Sep 2024 15:20

Администрируя государственные (и около-государственные) каналы в мессенджерах, их администрация имеет возможность блокировать пользователей по своему усмотрению, оправдывая это тем, что они являются "спамерами" или "фейками".

Учитывая, что существует судебное решение, согласно которому мессенджер Telegram не признается официальной страницей органов государственной власти, можно продолжать действовать в этом направлении без угрызений совести

Ссылка на решение суда: https://sudact.ru/regular/doc/Bt1N5X3gzwVK/

Читать полностью…

Daniilak — Канал

14 Sep 2024 20:07

❗️❗️❗️❗️❗️❗️❗️❗️❗️❗️❗️

Ловите бота @EmojiTitleBot, который поможет Вам создать текст из эмодзи

Читать полностью…

Daniilak — Канал

14 Sep 2024 13:34

Аналог продуктханта, но только для РФ продуктов
https://productradar.ru/

Читать полностью…

Daniilak — Канал

13 Sep 2024 12:01

Добавили на llmarena.ru шеринг диалогов, чтобы можно было скидывать друзьям/коллегам свои любимые переписки с LLMками.

Вчера встал вопрос: а какую длину ссылки делать?
Если сделать слишком длинную - неудобно будет делиться.
Если сделать слишком короткую - могут появиться коллизии.

На помощь пришел новый o1 и буквально за минуту раскромсал задачу.
Я ВМК МГУ закончил, сам бы смог решить, но ушло бы минут 30-40.
Чувствую как с каждым выходом новой модельки моя производительность повышается на 15-20% процентов)

P.S Ни YandexGPT Experimental, ни T-lite эту задачку не решил.
Пруф: https://llmarena.ru/?s=baa8e203

Читать полностью…

Daniilak — Канал

11 Sep 2024 11:30

Хотите ускорить время загрузки ваших страниц?

Рекомендую воспользоваться частичным рендерингом на стороне сервера. Внедрите JSON-данные непосредственно в HTML-код страницы. Таким образом, JavaScript-обработчик сможет немедленно получить эти данные, а затем продолжит работать в обычном режиме, подгружая или обновляя информацию. Это позволит заметно сэкономить время при загрузке страниц

Читать полностью…

Daniilak — Канал

10 Sep 2024 16:24

Увидел вчера локацию из Велена

Читать полностью…

Daniilak — Канал

24 Sep 2024 01:47

Флибуста закрывается — у владельца самой крупной онлайн-библиотеки нашли рак мозга

Читать полностью…

Daniilak — Канал

21 Sep 2024 21:24

Если бы тенденция ставить панельки в браузер осталась до сих пор

Читать полностью…

Daniilak — Канал

21 Sep 2024 14:06

Таблица сравнения библиотек сжатия. Рекомендуется использовать ZSTD

ZSTD сжимает эффективно, но медленно. При этом достаточно быстро распаковывает документы.
А скорость распаковки у ZSTD сильно не зависит от степени сжатия

Читать полностью…

Daniilak — Канал

20 Sep 2024 07:05

Последнее время мысль заказать 2-метровый памятник Пикачу кажется заманчивой

Читать полностью…

Daniilak — Канал

20 Sep 2024 00:04

Касаемо Parquet

HuggingFace самостоятельно создал версию моего опубликованного набора данных в формате Parquet

Читать полностью…

Daniilak — Канал

19 Sep 2024 16:05

🦙 LlamaCoder — веб-приложение с открытым исходным кодом, которое может генерировать целое приложение из описания.

Репозиторий уже был клонирован сотнями разработчиков на GitHub и отмечен более 2 тысяч раз.

https://llamacoder.together.ai

Читать полностью…

Daniilak — Канал

19 Sep 2024 08:47

Прекрасный проект https://trackthis.link/ предназначен для обмана рекламодателей путем открытия множества вкладок в браузере. Однако стоит отметить, что за последние пять лет не было обновлений, и некоторые из открываемых ссылок уже недоступны, но не все

Читать полностью…

Daniilak — Канал

18 Sep 2024 09:09

Очередной ИИ-сервис для ведения соцсетей
Сервис рерайтит тексты из источников и получает тексты в любом объёме и формате и публикует в ВК или Телеграме

@GiveMePublicBot

Описание тут

Читать полностью…

Daniilak — Канал

17 Sep 2024 15:55

В августе я за пару дней создал сайт peoplecheb.ru, пока не узнал о крупнейшем в СНГ сервисе для мастеров — livemaster.ru

Изначально моя идея заключалась в том, чтобы создать сайт и передать его местным, но, как оказалось, им это не нужно (по крайней мере ответа до сих пор нет)

Сейчас я размышляю над тремя вариантами:
1. Убрать привязку к региону и назвать проект "Мастера России", однако для этого потребуется заниматься его развитием и, неожиданно, тратить деньги на рекламу.
2. Или отказаться от сайта, сказав, что существует уже готовый livemaster.ru, и предложить людям обращаться туда, ведь там всё налажено)
3. Передать сайт в руки одной из ярмарок

Читать полностью…

Daniilak — Канал

15 Sep 2024 03:17

Пока Антропик сам выкладывает системные промпты своих моделек в открытый доступ, OpenAI ведут себя как собаки сутулые (как обычно): много пользователей пишет, что после попыток узнать у новой модельки o1 принцип работы её "размышлений" и системный промпт на почту приходит письмо счастья, в котором OpenAI угрожает баном, если не прекратить спрашивать подобное.

Читать полностью…

Daniilak — Канал

14 Sep 2024 15:14

В ChatGPT так часто задавали вопрос "Сколько букв r в слове strawberry?" (ранее он почти всегда отвечал неправильно), что это стало подсказкой в новом чате

Читать полностью…

Daniilak — Канал

13 Sep 2024 12:17

Эстестика будущего

Читать полностью…

Daniilak — Канал

11 Sep 2024 11:48

Сохраню тут GOT (General OCR Theory) - это модель 580M OCR-2.0

▪️Статья: https://huggingface.co/papers/2409.01704
▪️ Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0

Читать полностью…

Daniilak — Канал

11 Sep 2024 10:26

Телеграм убрал количество пользователей в ботах, и снова появились вопросы «фейк ли это» и «как часто им пользуются»

Читать полностью…

Daniilak — Канал

09 Sep 2024 20:34

Попробуйте собирать столько же данных, сколько планирует Apple, и вас закроют через два дня

Читать полностью…

Subscribe to a channel