Нашел несколько отличных сайтов с уникальными статьями, фотографиями и PDF-документами. Планирую выпарсить эти данные и создать полноценный архив-датасет. Особенно, если добавить спаршенные посты в ВКонтакте/Телеграме
Структура данных на этих ресурсах довольно своеобразная, и хотя это старый веб, возможно, придется вручную собирать информацию
Отличное руководство для выбора диаграммы на основе ваших потребностей в анализе данных
https://datavizcatalogue.com/search.html
На Fortune вышло супер-полезное исследование про зумеров. Опросив более тысячи подростков директор по маркетингу компании Bread Financial выкатил инструкцию для ритейлеров и предпринимателей, которые хотят завоевать внимание одного из главных поколений прямо сейчас
Читать полностью…Где я хранил данные для проектов (автоматизированно), дабы экономить место на серверах
1) Альбомы вконтакте
Так я узнал, что максимум в вк альбоме - 5 тысяч фото, понадобилось 5-6 альбомов
2) Закрытые чаты в телеграме
Не храните в переписке с ботом, там старые сообщения удаляются
3) Гугл диск
4) Kaggle/ Hugging Face
Есть компания, которая продаёт номера телефонов своих клиентов спамерам
Ну что ж, получите пару миллионов заявок в вашу систему
OpenAI запустили Canvas — это надстройка на ChatGPT прямо в браузере, которая облегчает работу с кодом.
Читать полностью…Существует важный нюанс в вопросе регистрации и фактического проживания граждан: государство может знать, кто где зарегистрирован, но не всегда знает, где люди реально проживают. В некоторых окраинных районах городов, например, есть целые кварталы с десятками тысяч зарегистрированных квартир, но фактически там проживают лишь сотни или тысячи человек. Остальные квартиры часто сдаются в аренду, и по документам жильцы не зарегистрированы. Это приводит к проблемам с социальной инфраструктурой, когда граждане запрашивают строительство новых школ или поликлиник, но получают отказ из-за официально низкого числа жителей.
Перепись населения должна решать эти проблемы, но, к сожалению, она не всегда работает эффективно. В прошлые переписи многие жители либо не были учтены, либо данные собирались в неудобное время, когда большинство людей находилось вне дома. В итоге, любые цифры по численности населения на уровне, меньшем чем городской, можно считать очень приблизительными и зачастую не отражающими реальность с разбросом на десятки процентов
Есть такая команда, которая использует шаблоны из проекта The Good Docs, чтобы быстро создавать черновики документации. Они применили эти шаблоны в качестве основного промпта для инициации процессов документирования с помощью Amazon Bedrock. Позже документацию дорабатывают специалисты
Читать полностью…Каждое утро я просыпаюсь с мыслью: "Парсить, парсить". С безудержной улыбкой я усаживаюсь за компьютер, вставляя в серверную стойку очередной жесткий диск объемом 12 Тб. Я загружаю, скачиваю и сохраняю всё, что попадается на глаза. Каждый элемент интернета должен быть зафиксирован, записан и обработан
Читать полностью…Infinite money exploit — Если не успеваешь до пенсии выплатить, то тебя выгоняют и перепродают квартиру заново
https://tass.ru/ekonomika/22005675
Местный магазин по совместной закупке уже полгода принимает заявки публично в комментариях с помощью номера телефона.
Кому нужен список в формате "номер телефона - аккаунт в Telegram"?)
Fathom — компания Бена Фрая (Ben Fry), одного из авторов Processing, представила супербыстрый инструмент для анализа CSV-файлов из Excel-таблиц прямо в браузере под названием Rowboat.
Этот инструмент открывает файлы размером до 500 мегабайт всего за несколько секунд! Интерфейс также работает очень быстро.
Вы можете ознакомиться с ним по ссылке: Rowboat.
Сервис бесплатный, но для просмотра примеров необходимо зарегистрироваться.
Но судя по всему, лучше этот вариант — https://github.com/Kanaries/Rath
Идея для стартапа:
Создание приложения, которое автоматически отвечает на запросы пользователей в Instagram* о стоимости товаров. Приложение будет генерировать ответ на основе профиля пользователя, предоставляя индивидуальную цену в личные сообщения
* принадлежит компании Meta, которая признана в России экстремистской организацией и запрещена
Админ канала "Градиент обреченный" создал новый сайт, посвященный обзорам статей с HF Daily Papers на русском языке — HFday.ru. Этот проект стал отличным дополнением к нашему сообществу и предоставляет множество полезных функций для пользователей.
Основные Функции
- Синхронизация каждые 2 часа: Сайт автоматически обновляет данные и добавляет новые статьи каждые два часа.
- Сортировка статей: Вы можете сортировать статьи по рейтингу или выводить вверх недавно добавленные, что, к сожалению, невозможно на оригинальной странице HF Daily Papers.
- Автоматическая генерация контента: Обзор, теги и другие данные создаются с помощью Claude на основе спаршенных абстрактов с сайта.
Сайт полностью развернут на GitHub с использованием Workflow и Pages. Это позволяет реализовать интересные функции автоматизации
Можно перекатываться на Waterfox — Firefox, но без слежки от Mozilla
А истинные гурманы могут себе сами сделать браузер
Какой тип кнопок управления выбрать в зависимости от задачи и того, что эти кнопки делают
Читать полностью…Выкатил для конкурса docker-контейнер FastAPI по DaData с кэшем на уровне БД
Надо, конечно, расписать Readme и привязать туда Streamlit, но пока что сойдет
Ловите телеграм-бота с самым большим каталогом тг ботов и норм поисковиком.
Там можно найти все ChatGPT боты их ОЧЕНЬ МНОГО
@swan_rate_bot
UPD я немножк спарсил, 73742 ботов, думаю, будет достаточно
Телеграм сменил приоритеты: теперь я могу парсить его миллионами запросов в секунду, а пользователям, похоже, отключили доступ к нему.
Видимо, они решили, что боты важнее, чем живые люди:)
Роскомнадзор собирается потратить с 2025-го по 2030 год 59 млрд руб. на обновление технических средств противодействия угрозам (ТСПУ), которые установлены на сетях операторов связи и позволяют блокировать интернет-ресурсы в Рунете, а также способы обхода блокировок
Модернизация системы блокировки неугодного контента необходима, в первую очередь, чтобы импортозаместить оборудование ТСПУ и дать заработать поставщикам, а уже во вторую очередь, чтобы эффективнее блокировать VPN-трафик
Существуют обоснованные замерами технических специалистов предположения, что текущая версия ТСПУ позволяет обнаруживать и блокировать сигнатуры нескольких видов VPN-протоколов (OpenVPN, IKEv2, WireGuard). Однако, кроме этих, существуют еще десятки протоколов и сервисов, которые ТСПУ сейчас отследить не может
Как дела с YouTube?
Публикую список из 1_267_579 каналов в Телеграме и 33_255_112 связей "Похожие каналы"
Скину файлами в комментарии
Ну всё. OpenAI теперь официально можно переименовать в Closed.
Они теперь официально for-profit.
Нравится какие серьезные лица стоят в пиджаках за Альтманом. Далеко не сайнтисты.
Компанию оценили в $150 млрд.
@ai_newz
На Kaggle завезли новые ачивки 👍
Появились значки за активности под названием Badged (например, год на Kaggle, засабмитил в командное соревнование, создал Python ноутбук и прочее). Полный список тут.
Кроме этого появились так называемые Awards: это больше про фактические достижения типа мест в рейтингах, организации соревнований, публикации датасета и тд. Полный список тут.
Я там Datasets Expert, нужно потратить немного времени, чтобы сделать больше ачивок
Как минимум, можно попробовать погенерить датасеты, есть пару десятков тем