Есть такая команда, которая использует шаблоны из проекта The Good Docs, чтобы быстро создавать черновики документации. Они применили эти шаблоны в качестве основного промпта для инициации процессов документирования с помощью Amazon Bedrock. Позже документацию дорабатывают специалисты
Читать полностью…Каждое утро я просыпаюсь с мыслью: "Парсить, парсить". С безудержной улыбкой я усаживаюсь за компьютер, вставляя в серверную стойку очередной жесткий диск объемом 12 Тб. Я загружаю, скачиваю и сохраняю всё, что попадается на глаза. Каждый элемент интернета должен быть зафиксирован, записан и обработан
Читать полностью…Infinite money exploit — Если не успеваешь до пенсии выплатить, то тебя выгоняют и перепродают квартиру заново
https://tass.ru/ekonomika/22005675
Местный магазин по совместной закупке уже полгода принимает заявки публично в комментариях с помощью номера телефона.
Кому нужен список в формате "номер телефона - аккаунт в Telegram"?)
Fathom — компания Бена Фрая (Ben Fry), одного из авторов Processing, представила супербыстрый инструмент для анализа CSV-файлов из Excel-таблиц прямо в браузере под названием Rowboat.
Этот инструмент открывает файлы размером до 500 мегабайт всего за несколько секунд! Интерфейс также работает очень быстро.
Вы можете ознакомиться с ним по ссылке: Rowboat.
Сервис бесплатный, но для просмотра примеров необходимо зарегистрироваться.
Но судя по всему, лучше этот вариант — https://github.com/Kanaries/Rath
Идея для стартапа:
Создание приложения, которое автоматически отвечает на запросы пользователей в Instagram* о стоимости товаров. Приложение будет генерировать ответ на основе профиля пользователя, предоставляя индивидуальную цену в личные сообщения
* принадлежит компании Meta, которая признана в России экстремистской организацией и запрещена
https://www.rbc.ru/politics/19/09/2024/66ebc2639a7947efb02e242f
Ох уж эти программисты!
Люди, связанные с АНБ, несколько лет вносили изменения в репозиторий SSH, чтобы создать бэкдор для себя. Весной этого года одному из пользователей не понравилось, что его PostgreSQL запускается на 5 мс медленнее, чем обычно, и он решил изучить код
https://habr.com/ru/news/804163/
Флибуста закрывается — у владельца самой крупной онлайн-библиотеки нашли рак мозга
Читать полностью…Таблица сравнения библиотек сжатия. Рекомендуется использовать ZSTD
ZSTD сжимает эффективно, но медленно. При этом достаточно быстро распаковывает документы.
А скорость распаковки у ZSTD сильно не зависит от степени сжатия
Касаемо Parquet
HuggingFace самостоятельно создал версию моего опубликованного набора данных в формате Parquet
🦙 LlamaCoder — веб-приложение с открытым исходным кодом, которое может генерировать целое приложение из описания.
Репозиторий уже был клонирован сотнями разработчиков на GitHub и отмечен более 2 тысяч раз.
https://llamacoder.together.ai
Роскомнадзор собирается потратить с 2025-го по 2030 год 59 млрд руб. на обновление технических средств противодействия угрозам (ТСПУ), которые установлены на сетях операторов связи и позволяют блокировать интернет-ресурсы в Рунете, а также способы обхода блокировок
Модернизация системы блокировки неугодного контента необходима, в первую очередь, чтобы импортозаместить оборудование ТСПУ и дать заработать поставщикам, а уже во вторую очередь, чтобы эффективнее блокировать VPN-трафик
Существуют обоснованные замерами технических специалистов предположения, что текущая версия ТСПУ позволяет обнаруживать и блокировать сигнатуры нескольких видов VPN-протоколов (OpenVPN, IKEv2, WireGuard). Однако, кроме этих, существуют еще десятки протоколов и сервисов, которые ТСПУ сейчас отследить не может
Как дела с YouTube?
Публикую список из 1_267_579 каналов в Телеграме и 33_255_112 связей "Похожие каналы"
Скину файлами в комментарии
Ну всё. OpenAI теперь официально можно переименовать в Closed.
Они теперь официально for-profit.
Нравится какие серьезные лица стоят в пиджаках за Альтманом. Далеко не сайнтисты.
Компанию оценили в $150 млрд.
@ai_newz
На Kaggle завезли новые ачивки 👍
Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.
Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.
Я там Datasets Expert, нужно потратить немного времени, чтобы сделать больше ачивок
Как минимум, можно попробовать погенерить датасеты, есть пару десятков тем
Продолжая погружаться в иной мир, заметил интересную деталь:
В Windows, если зажать кнопку (это работает со всеми клавишами), она нажимается бесконечно быстро.
В macOS нужно нажимать каждый раз. И что интересно, это работает частично:
— Если зажать пробел, стрелки, слеш или другие специальные клавиши, то они будут нажиматься (кстати, медленнее, чем в Windows).
— Если зажать клавишу с любой буквой или цифрой, то она сработает только один раз.
Я привык перемещаться стрелками, а в macOS, пока стрелка доберется до нужной позиции, можно успеть заварить и выпить чай.
По-моему, очень приятная новость, для тех, кто встраивает LLM в свои пет-проекты или просто интересуется темой и не хочет на это тратиться. У Мистраля появился Free план (его надо выбрать в разделе Billing), по которому можно бесплатно вызывать модели по API.
Работает без VPN, карту привязывать не надо.
В списке моделей часть называется Free, в том числе мультимодальный Pixtral, но по факту вызываются все.
Имейте в виду, что ваши запросы на этом плане будут доступны разработчикам и могут быть использованы ими в дальнейшем.
Как вариант, если не хотите отдавать данные, можно использовать Вихрь у себя на машине
https://huggingface.co/Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
Поставил себе на мак бесплатное приложение alt-tab-macos.netlify.app
Теперь у меня есть нормальный cmd+tab, который показывает все окна, а не только список приложений
В качестве лучшей альтернативы можно попробовать manytricks.com/witch
Может публиковать сюда задачки?
Задача
Есть лог звонков call-центра. В нем зафиксировано время начала и конца звонка.
Количество записей в логе может быть очень большим, как и сам лог-файл. Считайте, что он минимум в 10 раз больше вашей оперативной памяти.
Нужно написать эффективный по использованию памяти скрипт который сможет определить минимальное количестов операторов call-центра, чтобы ни один звонок не ожидал оператора
Формат лога приблизительно такой
FROM:2021-01-30 22:18 TO:2021-01-30 22:31
FROM:2021-02-04 00:46 TO:2021-02-04 00:53
FROM:2021-01-29 18:46 TO:2021-01-29 19:02
FROM:2021-02-02 17:02 TO:2021-02-02 17:09
FROM:2021-01-30 15:44 TO:2021-01-30 16:05
FROM:2021-02-05 11:58 TO:2021-02-05 12:14
Для начинающих (и не только) будет полезно
https://dfedorov.spb.ru/pandas/
Гоняем 100гб csv-файлы на очердной мультиварке 2000-года туда-сюда
DuckDB обеспечивает высокую скорость работы с табличными и, в основном, иерархическими данными. Однако он не поддерживает чтение файлов форматов Excel, ORC и других, в то время как такие библиотеки, как Pandas и Polars, могут их обрабатывать и частично записывать.
Среди основных проблем DuckDB можно выделить недостаточное понимание кодировок, кроме UTF-8, для CSV-файлов, что требует предварительной обработки данных
CSV — наиболее распространённый формат, который плохо стандартизирован в своем "сыром" виде. Часто CSV-файлы являются результатами экспорта из Excel
Еще одним недостатком DuckDB при работе с CSV является отсутствие поддержки алгоритмов сжатия, кроме GZip. Это важный фактор, особенно с точки зрения эффективности и стоимости хранения данных. Например, в Dateno несколько сотен тысяч CSV-файлов занимают около 4 ТБ. Хранить их в оригинальном виде неэффективно; сжатие с помощью GZip — лучший вариант, а еще более эффективно использовать такие форматы, как zstd или Parquet с сжатием, поскольку эти данные статичны.
Таким образом, оптимальным решением для обработки данных оказывается комбинация DuckDB, Polars, Pandas, предобработки и постобработки данных, а также хранение исходных данных в формате Parquet