bdscience_ru | Unsorted

Telegram-канал bdscience_ru - Big Data Science [RU]

2062

Big Data Science [RU] — канал о жизни Data Science. Для сотрудничества: a.chernobrovov@gmail.com 🌏 — https://t.me/bdscience — Big Data Science channel (english version) 💼 — https://t.me/bds_job — channel about Data Science jobs and career

Subscribe to a channel

Big Data Science [RU]

🥲ТОП факапов с разными СУБД: боль, слёзы

✅PostgreSQL и вакуум в сюрпризе
Все любят PostgreSQL, пока не сталкиваются с автovacuum. Если забыть настроить его правильно, база начинает тормозить так, что проще мигрировать данные на Excel.

✅Cassandra: мастер шардирования и мастер хаоса
О, этот волшебный мир распределённых данных! Пока всё идёт гладко, Cassandra крута. Но стоит одному узлу выйти из строя, и кластеры превращаются в загадку с сюрпризом: какая часть данных уцелела? А кросс-DC репликация в больших сетях — это вообще лотерея.

✅Firebase Realtime Database
Звучит круто: данные синхронизируются в реальном времени! Но когда у вас десятки тысяч активных пользователей, всё превращается в ад, потому что каждый маленький запрос стоит тонну денег. А обновления без контроля затрагивают все клиенты разом.

✅Redis как основная БД
Легко, быстро, всё в памяти. Звучит круто, пока не осознаёшь, что забыли про механизм восстановления данных. Упс, сервер упал — данные улетели в никуда.

Читать полностью…

Big Data Science [RU]

🧐Данные и их разметка в 2024 году: новые тренды и будущие требования

Попалась интересная bakingai/data-labeling-in-2023-emerging-trends-and-future-demands-for-impactful-results-337c130c5c02">статья про разметку данных. Вот несколько ключевых моментов:

🤔Текущие тренды:

✅Увеличение сложности наборов данных
✅Переход к разметке в реальном времени
✅Масштабное развитие автоматизированных инструментов, дополняющих ручной труд

🤔Прогнозы рынка:

✅Ожидается рост до $8.22 млрд к 2028 году с CAGR 26.6%
✅Требования к качеству и скорости разметки растут и будут расти в геометрической прогрессии

🤔Технологические тренды:

✅Адаптивный ИИ
✅Метавселенная
✅Отраслевые облачные платформы
✅Улучшение беспроводных технологий

Таким образом, автор указывает на то, что индустрия разметки данных будет стремительно расти благодаря увеличению спроса на точные и надежные данные для ИИ и машинного обучения. Автоматизация, адаптивный ИИ и новые технологические решения позволят улучшить качество и скорость разметки данных.

Читать полностью…

Big Data Science [RU]

🌎ТОП декабрьских ивентов в Data Science

2 декабря - Yandex Cup 2024: Финал - Ташкент, Узбекистан - https://yandex.ru/cup/
2-3 декабря - HighLoad++ 2024 - Москва, Россия - https://highload.ru/moscow/2024
4 декабря - BIG StartUp DAY - Москва, Россия - https://bigstartupday.ru/
3 декабря - Cloud Security Day - Москва, Россия - https://yandex.cloud/ru/events/977
5 Декабря - IT Talk by Sber 2.0 - Вологда, Россия - https://developers.sber.ru/kak-v-sbere/events/ittalk_vologda
5 декабря - AI-driver & RecSys Meetup - Владивосток, Новосибирск, Нижний Новгород, Санкт‑Петербург, Россия - https://developers.sber.ru/kak-v-sbere/events/ai_recsys
6 декабря - есom.teсh meetup — Generative AI - Москва, Россия - https://ecom-tech.timepad.ru/event/3136197/
6 декабря - Conversations 2024 - Москва, Россия - https://conversations-ai.com/
11-13 декабря - AIJ 2024 - Москва, Россия - https://aij.ru/

Читать полностью…

Big Data Science [RU]

🤖Deus in Machina: в швейцарской церкви установили Jesus-AI

В часовне Святого Петра в Люцерне запустили проект AI Jesus, который общается на 100 языках. ИИ установлен в исповедальне, где посетители могут задавать вопросы и получать ответы в реальном времени.

Обученный на богословских текстах, Jesus-AI за два месяца привлек более 1000 человек, две трети из которых назвали опыт "духовным". Однако эксперимент вызвал критику за поверхностность ответов и невозможность полноценных бесед с машиной.

🖥Подробнее здесь

Читать полностью…

Big Data Science [RU]

😎💡AlphaQubit от Google: новый стандарт точности в квантовых вычислениях.

Google DeepMind и Google Quantum AI представили AlphaQubit, декодер, который значительно улучшает точность коррекции ошибок в квантовых вычислениях. Основанный на нейронной сети, обученной на синтетических и реальных данных с процессора Sycamore, AlphaQubit использует архитектуру Transformers для анализа ошибок.

Тесты показали, что AlphaQubit снижает ошибки на 6% по сравнению с тензорными сетями и на 30% — с корреляционным сопоставлением. Однако, несмотря на высокий уровень точности, проблемы с реальной скоростью работы и масштабируемостью остаются.

Ссылка на блог

Читать полностью…

Big Data Science [RU]

🧐Интервью CEO Anthropic Дарио Амодеи с Лексом Фридманом

😎Основные моменты:

✅Дарио выразил оптимизм относительно скорого появления ИИ, способного достигнуть уровня человека. Он отметил, что в ближайшие годы затраты на разработку и обучение будут расти, и к 2027 году, вероятно, будут создаваться кластеры стоимостью около $100 млрд — значительно больше, чем нынешние крупнейшие суперкомпьютеры, которые стоят около $1 млрд.

✅Амодеи считает, что масштабирование моделей продолжится, несмотря на отсутствие теоретического объяснения этому процессу — в нём, по его словам, есть некая "магия".

✅Сейчас модели ИИ улучшаются с поразительной скоростью, особенно в таких областях, как программирование, физика и математика. На тесте SWE-bench их успех в начале года был лишь 2-3%, а теперь достигает около 50%. Основная причина для беспокойства в этих условиях — возможная монополия на ИИ, когда контроль над ним окажется у небольшого числа крупных компаний, что может угрозу

🖥Интервью можно посмотреть здесь

Читать полностью…

Big Data Science [RU]

😎Сила в данных: анализ квартального роста выручки для достижения успеха в бизнесе

💡Недавно нашел статью, в которой автор рассказывает про анализ квартального роста выручки. Он утверждает, что ориентация только на годовые данные может скрывать тенденции и замедлить принятие решений. Квартальный анализ позволяет лучше понять текущие результаты бизнеса и выявить возможные проблемы, такие как снижение доходов в определённом периоде. Такая детализация помогает быстрее определить причины (например, сезонные колебания или недостатки маркетинга) и оперативно принять меры, чем при анализе только годовых данных. Квартальные данные создают основу для оптимизации стратегий роста, переходя от реактивного к более эффективному управлению на основе данных.

Автор также выделяет ключевые метрики для анализа квартального роста выручки:

✅Стоимость привлечения клиентов (CAC): Важно понимать расходы на привлечение новых клиентов для оптимизации маркетинговых и продажных усилий, что помогает увеличить рентабельность инвестиций и рост выручки.
✅Пожизненная ценность клиента (CLTV): Этот показатель показывает общий доход, который клиент приносит за всё время взаимодействия с компанией, помогая выделить высокодоходные сегменты для таргетинга и удержания.
✅Конверсия продаж: Анализ конверсии на каждом этапе воронки позволяет выявить узкие места и повысить общую эффективность продаж, что способствует росту выручки.

ccdallas/the-power-of-data-analyzing-quarterly-revenue-growth-for-business-success-173fc7dcc2ab">🖥Ссылка на статью

Читать полностью…

Big Data Science [RU]

😎Как в Spotify ускорялась разметка данных для ML в 10 раз

Spotify поделился, как ускорил разметку данных для моделей машинного обучения, используя крупные языковые модели (LLM) совместно с работой аннотаторов. Автоматическая первичная разметка LLM значительно сократила время обработки, позволяя аннотаторам фокусироваться на сложных или неоднозначных случаях. Это комбинированное решение увеличило производительность процесса в три раза и позволило снизить затраты. Такое масштабируемое решение особенно актуально для быстро растущей платформы и используется для мониторинга соблюдения правил и политик сервиса.

💡Стратегия разметки данных в Spotify основана на трех основных принципах:

✅Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.

✅Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.

✅Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.

Этот подход позволил Spotify запускать множество проектов одновременно, снизить затраты и сохранить высокую точность.
Более подробную информацию о решении Spotify можно найти в их официальной статье.

Читать полностью…

Big Data Science [RU]

🌎ТОП ноябрьских ивентов в Data Science
5 ноября - AvitoTech ML cup 2024 - Онлайн - https://ods.ai/competitions/avitotechmlcup2024
5 ноября - Alfa Analyze IT 3 - Москва, Россия - https://digital.alfabank.ru/events/analyzeit3
7 ноября - CNews Forum 2024 - Москва, Россия - https://forum.cnews.ru/
7-8 ноября - Матемаркетинг 2024 - Москва, Россия - https://matemarketing.ru/
8 ноября - I'ML 2024 - Онлайн - https://imlconf.com/
13 ноября - ScorFest 2024 - Москва, Россия - https://scoring-forum.ru/
15 ноября - Merge 2024. Сколково - Москва, Россия - https://skolkovo2024.mergeconf.ru/
23 ноября - IT LINK Осень - Чебоксары, Россия - https://it-link.pro/
28 ноября - T-Meetup: System Analysis - Екатеринбург, Россия - https://meetup.tbank.ru/event/t-meetup-po-sistemnomu-analizu/

Читать полностью…

Big Data Science [RU]

💡🔥Эффективная работа с географическими данными

GeoPy — это библиотека Python, которая позволяет работать с географическими данными и предоставляет инструменты для выполнения таких задач, как геокодирование (преобразование адресов в координаты), обратное геокодирование (преобразование координат в адреса) и вычисление расстояний между географическими точками.

😎Основные возможности работы с геоданными через GeoPy:

✅Геокодирование: Превращает адреса или места в географические координаты (широта и долгота). Это полезно, когда вам нужно, например, визуализировать данные на карте.
✅Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.
✅Обратное геокодирование: Преобразует координаты в человеческий адрес. Это может быть полезно для создания более понятных данных или интерфейсов.

🖥Подробнее узнать про анализ географических данных можно из sercanyesiloz98/handling-location-features-effectively-with-geopy-2194988834de">этой статьи

Читать полностью…

Big Data Science [RU]

😎Топ Pyhton-библиотек для оптимизации работы с данными

Pony ORM — это удобная и мощная библиотека для работы с объектно-реляционными базами данных, которая позволяет писать SQL-запросы, используя синтаксис Python. Она автоматически преобразует Python-код в SQL-запросы, что упрощает взаимодействие с базами данных, делая его более интуитивным и лаконичным. Pony ORM поддерживает основные СУБД, такие как PostgreSQL, MySQL, SQLite и другие, предоставляя гибкость и удобство при создании запросов и работе с моделями данных.

Pypika — это библиотека для создания SQL-запросов программным способом на Python, которая позволяет избегать ошибок ручного написания SQL-кода и защищает от SQL-инъекций. Она особенно полезна при построении динамических и параметризованных запросов, что делает её идеальным инструментом для приложений, работающих с базами данных. Pypika позволяет строить запросы с высокой степенью детализации и сложности, сохраняя при этом читаемость и безопасность кода.

EdgeDB — это современная база данных и клиентская библиотека для Python, которая упрощает управление схемами данных и написание запросов. Она предлагает более интуитивный и удобный подход по сравнению с традиционными SQL базами данных, предоставляя расширенные возможности работы с данными. Основные особенности EdgeDB включают автоматическую генерацию схем, работу с реляционными данными без необходимости написания сложных SQL-запросов, а также поддержку типобезопасности и более выразительный синтаксис для манипуляций с данными.

Tortoise ORM — это современный асинхронный ORM (Object-Relational Mapping), разработанный для работы с базами данных в асинхронных Python-приложениях. Он поддерживает различные реляционные базы данных, такие как PostgreSQL, MySQL, SQLite, и написан с упором на простоту и удобство использования. Tortoise ORM позволяет строить сложные SQL-запросы с использованием Python-кода, автоматически синхронизируя модели данных с базой данных. Поддержка асинхронности делает его особенно полезным в высоконагруженных или веб-приложениях, где важно эффективно управлять ресурсами и запросами к базе данных.

Polars — это высокопроизводительная библиотека для обработки и анализа данных на языке Python и Rust, ориентированная на работу с большими объемами данных. Благодаря многопоточности и оптимизированной архитектуре, Polars обеспечивает значительно более высокую скорость выполнения операций по сравнению с традиционными инструментами, такими как Pandas. Библиотека поддерживает широкий спектр операций над табличными данными (dataframes), предлагая интуитивно понятный интерфейс для фильтрации, агрегации и трансформации данных. Она идеально подходит для задач, требующих высокой производительности, особенно при работе с большими наборами данных.

Читать полностью…

Big Data Science [RU]

💡Новость дня: MongoDB создает партнёрскую экосистему ИИ

MongoDB активно адаптируется к вызовам развития искусственного интеллекта, представив улучшенную версию своей базы данных (8.0) и запустив MongoDB AI Application Program (MAAP). Эта программа нацелена на создание глобальной партнерской экосистемы, направленной на стандартизацию решений в сфере ИИ. Среди ключевых партнеров — крупные игроки облачных и консалтинговых сервисов, такие как Microsoft Azure, Google Cloud Platform, Amazon Web Services, Accenture, а также AI-компании Anthropic и Fireworks AI.

Обновления в MongoDB 8.0 обещают заметное повышение производительности:

✅Увеличение пропускной способности на 32%.
✅Ускорение пакетной записи на 56%.
✅Повышение скорости параллельной записи на 20%.

Это даёт возможность MongoDB лучше справляться с высокими нагрузками, которые часто встречаются при работе с большими данными и ИИ. Уже внедрены решения для крупных компаний, включая одного из ведущих автопроизводителей Франции и глобального производителя бытовой техники.

Таким образом, MongoDB, создавая MAAP и улучшая свои технологии, стремится стать ключевым игроком в AI-индустрии, поддерживая разработчиков и компании в их стремлении к инновациям.

Подробнее тут

Читать полностью…

Big Data Science [RU]

😎⚡️Сильный даасет сгенерированный, с помощью Claude Opus.

Synthia-v1.5-I - это датасет, содержащий более 20 тысяч технических вопросов и ответов, предназначенный для обучения больших языковых моделей (LLM). Он включает системные промпты, стилизованные как Orca, чтобы стимулировать генерацию разнообразных ответов. Этот набор данных может использоваться для обучения моделей более точным и развернутым ответам на технические запросы, что улучшает их производительность в различных технических и инженерных задачах.

✅Для загрузки датасета с помощью Python:

from datasets import load_dataset
ds = load_dataset("migtissera/Synthia-v1.5-I")

Читать полностью…

Big Data Science [RU]

🌎ТОП октябрьских ивентов в Data Science
1-2 октября - AIшница 2.0 - Онлайн - https://ai-practicum.bitrix24.events/
2 октября - Big Data и AI Day 2024 - Москва, Россия - https://www.tadviser.ru/a/809807
2 октября - Digital Innopolis Days 2024 & Innopolis AI Conference - Казань, Россия - https://digitalinnopolisdays.ru/
3 октября - M2 Data Meetup - Москва, Россия - https://m2tech.timepad.ru/event/3000932/
5 октября - IT Community Day - Санкт-Петербург, Россия - https://developers.sber.ru/kak-v-sbere/events/it_october
10 октября - Selectel Tech Day 2024 - Москва, Россия - https://techday.selectel.ru/
10-12 октября - ICOMP 2024 - Казань, Россия - https://icomp.cc/
11-26 октября - ВТБ More.Tech - Онлайн - https://moretech.vtb.ru/
14-20 октября - Yandex Cup 2024 - Онлайн - https://yandex.ru/cup/
29 октября - Матемаркетинг 2024 - Онлайн - https://matemarketing.ru/
30-31 октября - Digital Kazakhstan - Алматы, Казахстан - https://dkz.plus-forum.com/

Читать полностью…

Big Data Science [RU]

🧐💡Небольшое введение в MapReduce: преимущества и недостатки

MapReduce — это модель программирования и связанный с ней фреймворк для обработки больших наборов данных параллельно в распределённых вычислительных системах. Она включает две основные фазы: Map (проецирование) и Reduce (сведение).

Преимущества MapReduce:

✅Масштабируемость: MapReduce легко масштабируется на тысячи машин, что позволяет обрабатывать огромные объемы данных

✅Параллелизм: MapReduce автоматически распределяет задачи по доступным узлам, выполняя их параллельно, что сокращает время выполнения вычислений

✅Устойчивость к отказам: встроенная устойчивость к отказам позволяет перезапускать задачи в случае сбоя узлов, обеспечивая завершение работы без потери данных

Недостатки MapReduce:

✅Высокие затраты на ввод/вывод (I/O): Одним из ключевых недостатков является то, что между этапами Map и Reduce данные записываются и считываются с диска, что значительно снижает производительность в задачах, где важна быстрая передача данных

✅Отсутствие интерактивности: MapReduce предназначен для пакетной обработки, что делает его неэффективным для интерактивных запросов или анализа в реальном времени

✅Требование к перегруппировке данных (Shuffle phase): Этап перегруппировки (shuffle) часто требует значительных ресурсов и времени, что делает этот процесс узким местом в производительности MapReduce

✅Низкая производительность для сложных задач: для сложных алгоритмов, требующих множества шагов взаимодействия между узлами (например, итеративные задачи), производительность MapReduce снижается

Подробнее о MapReduce можно также узнать отсюда

Читать полностью…

Big Data Science [RU]

😎Google представила Willow — квантовый чип с экспоненциальным масштабированием

Google выпустила Willow, первый в мире квантовый чип, способный к экспоненциальному уменьшению ошибок с увеличением числа кубитов. Это стало возможным благодаря эффективной реализации логических кубитов, которые работают ниже границы Quantum Error Correction — метода защиты данных через их распределение по кубитам.

Особенности Willow:

✅Рекордное количество кубитов: 105, что значительно превышает показатели предыдущих квантовых компьютеров.

✅Скорость вычислений: в септилион раз быстрее классических чипов. Willow решает задачи за 300 секунд, на которые обычный чип потратил бы 10 квинтиллионов лет.

✅Минимизация ошибок: при увеличении количества кубитов ошибки снижаются экспоненциально, что решает основную проблему квантовых вычислений последних 30 лет.

Хотя для таких задач, как взлом биткоина, потребуется 300–400 миллионов кубитов, Willow уже устанавливает новую планку в квантовых технологиях.

🔎Подробнее можно узнать тут

Читать полностью…

Big Data Science [RU]

😎🔥Подборка инструментов для обработки Big Data

Timeplus Proton — это SQL-движок, основанный на ClickHouse, предназначенный для обработки, маршрутизации и анализа потоковых данных из таких источников, как Apache Kafka и Redpanda, с возможностью передачи агрегированных данных в другие системы.

qsv — это утилита командной строки, предназначенная для быстрого индексирования, обработки, анализа, фильтрации, сортировки и объединения CSV-файлов. Она предлагает удобные и понятные команды для выполнения этих операций.

WrenAI — это open-source инструмент, который подготавливает существующую базу данных для работы с RAG (Retrieval-Augmented Generation). Он позволяет преобразовывать текстовые запросы в SQL, исследовать данные из БД без написания SQL-кода и выполнять другие задачи.

Groll — это open-source CLI-утилита для управления миграциями схем в PostgreSQL. Она обеспечивает безопасное и обратимое внесение изменений, поддерживая одновременную работу с несколькими версиями схем. Groll поддерживает выполнение сложных миграций, обеспечивая непрерывную работу клиентских приложений во время обновления схемы базы данных.

Valkey — это высокопроизводительное open-source хранилище данных, которое поддерживает кэширование, очереди сообщений и может использоваться как основная база данных. Оно функционирует как автономная фоновая служба или в составе кластера, обеспечивая репликацию и высокую доступность.

DataEase — это open-source BI-инструмент для создания интерактивных визуализаций и анализа бизнес-метрик. Он упрощает доступ к аналитике благодаря интуитивному интерфейсу с поддержкой перетаскивания элементов, что делает работу с данными удобной и понятной.

SurrealDB — это современная многомодельная база данных, объединяющая возможности SQL, NoSQL и графовых систем. Она поддерживает реляционные, документные, графовые, временные и ключ-значение модели данных, предоставляя универсальное решение для управления данными без необходимости использования разных платформ.


LibSQL — это форк SQLite, расширенный такими функциями, как обработка запросов через HTTP и gRPC, а также поддержка прозрачной репликации. Он позволяет создавать распределённые базы данных с записью на основном сервере и чтением с реплик. LibSQL обеспечивает безопасную передачу данных через TLS и предоставляет Docker-образ для удобного развертывания.

Redash — это open-source инструмент для анализа данных, предназначенный для упрощения подключения, запроса и визуализации данных из различных источников. Он позволяет создавать SQL- и NoSQL-запросы, визуализировать результаты в виде графиков и диаграмм, а также делиться дашбордами с командами.

Читать полностью…

Big Data Science [RU]

💡 SmolTalk: синтетический англоязычный датасет для обучения LLM

SmolTalk — это синтетический датасет от HuggingFace, созданный для обучения LLM с учителем. Состоит из 2 млн строк и использовался для разработки моделей SmolLM2-Instruct.

🔥Датасет включает как новые, так и существующие наборы данных

😎Новые наборы данных:

✅Smol-Magpie-Ultra (400 тыс. строк)
✅Smol-constraints (36 тыс. строк)
✅Smol-rewrite (50 тыс. строк)
✅Smol-summarize (101 тыс. строк)

⚡️Существующие наборы:

✅OpenHermes2.5 (100 тыс. строк)
✅MetaMathQA (50 тыс. строк)
✅NuminaMath-CoT (1120 тыс. строк)
✅Self-Oss-Starcoder2-Instruct (1120 тыс. строк)
✅SystemChats2.0 (30 тыс. строк)
✅LongAlign (менее 16 тыс. токенов)
✅Everyday-conversations (50 тыс. строк)
✅APIGen-Function-Calling (80 тыс. строк)
✅Explore-Instruct-Rewriting (30 тыс. строк)

📚Результаты обучения:
SmolTalk показал значительные улучшения в производительности модели, особенно в задачах математики, программирования и следования системным промптам. Обучение на SmolTalk дало лучшие результаты по меткам IFEval, BBH, GS8Mk и MATH, в том числе при обучении Mistral-7B.

Читать полностью…

Big Data Science [RU]

🤔CUPED: преимущества и недостатки

CUPED (Controlled Pre-Experiment Data) — это метод предобработки данных, используемый для повышения точности оценки A/B-тестов. CUPED снижает дисперсию метрик, используя данные, собранные до эксперимента, что позволяет быстрее выявлять статистически значимые различия.

Преимущества CUPED:

✅Снижение дисперсии метрик: Улучшает чувствительность теста за счет учета предварительных данных.
Экономия ресурсов: Сокращает объем выборки, необходимый для достижения статистической значимости.
✅Быстрая интерпретация результатов: Уменьшение шума позволяет быстрее находить реальные эффекты.
✅Учет сезонности: Использование данных до эксперимента помогает учитывать тренды и внешние факторы.

Недостатки CUPED:

✅Сложность в реализации: Требует знаний статистики и правильного выбора ковариатов.
✅Зависимость от качества данных: Предэкспериментальные данные должны быть надежными и репрезентативными.
✅Необходимость ковариатов: Требуется значимая корреляция между метрикой и предиктором, иначе эффект будет минимален.
✅Риск переоценки: При неправильной настройке может привести к завышенной оценке эффекта.

Таким образом, CUPED особенно полезен, когда важно максимизировать эффективность экспериментов, но требует тщательной подготовки данных и анализа.

Читать полностью…

Big Data Science [RU]

🔎Оптимизация поиска в MongoDB

MongoDB — это нереляционная база данных, которая отличается от SQL-баз, таких как PostgreSQL или MySQL, своей структурой. Вместо таблиц с колонками и строками MongoDB использует коллекции.

Поиск текста в MongoDB предполагает использование специальных операторов запросов для работы с текстовыми данными. Он позволяет искать текстовые фразы в коллекциях и возвращать документы, содержащие указанные слова. Это часто применяется для сложных операций, где данные группируются по общим признакам, таким как цена, авторы или возраст.

В данной статье автор также делится опытом работы с MongoDB, включая сложности при создании оптимальных поисковых запросов, чтобы упростить их понимание для новичков.

В статье также упоминается про Mongoose — популярный инструмент ORM (объектно-реляционное отображение), который упрощает взаимодействие между MongoDB и языками программирования, такими как Node.js/JavaScript. Он предоставляет функции моделирования данных, разработки схем, аутентификации моделей и управления данными.

Читать полностью…

Big Data Science [RU]

🔥Новости и события за неделю

✅Samsung представила обновленную версию виртуального ассистента Bixby

Компания Samsung представила обновленную версию виртуального ассистента Bixby на базе крупной языковой модели (LLM). Новая версия Bixby, доступная на эксклюзивных для китайского рынка складных смартфонах Samsung W25 и W25 Flip, способна воспринимать сложные инструкции, извлекать информацию с экрана (например, с карт или фотографий) и запоминать контекст предыдущих диалогов. В ходе демонстрации Bixby порекомендовал одежду, учитывая текущую погоду, и объяснил, как добавить водяной знак на изображение, пошагово.

✅ Суд в Нью-Йорке отклонил иск СМИ к OpenAI по авторскому праву.

Федеральный суд Южного округа Нью-Йорка отклонил иск изданий Raw Story и AlterNet против компании OpenAI, обвинявших её в нарушении Закона об авторском праве в цифровую эпоху (DMCA). СМИ утверждали, что OpenAI намеренно удаляла сведения об авторских правах, такие как названия статей и имена авторов, из текстов, использованных для обучения ChatGPT.

✅ Google открыла доступ к Gemini через библиотеку OpenAI.


Разработчики теперь могут использовать модели Gemini от Google через библиотеку OpenAI и REST API. Поддерживаются API завершения чата и API эмбедингов. В ближайшие недели  Google планирует расширить совместимость. 
Google рекомендует разработчикам, не использующим библиотеки OpenAI, обращаться к Gemini API напрямую.

Читать полностью…

Big Data Science [RU]

😂Радикальное решение от ИИ

Каждый день тысячи программистов могут вздохнуть с облегчением, когда ИИ выполняет за них задачи вроде запросов, форматирования данных или других рутинных задач😁

🖥ChatGPT попросили написать SQL запросы для базы данных магазина. Ответ просто убил

😎Иногда взгляды ИИ на решение той или иной задачи несколько отличаются от человеческих

Читать полностью…

Big Data Science [RU]

💡Маленькая подборка полезностей для работы с Big Data

postgres-backup-local — это Docker-инструмент для создания резервных копий баз данных PostgreSQL, сохраняя их в локальной файловой системе с возможностью гибкого управления копиями. С его помощью можно выполнять резервное копирование нескольких баз данных с одного сервера, задав их названия через переменную окружения POSTGRES_DB (разделенные запятой или пробелом).
Инструмент поддерживает выполнение вебхуков до и после резервного копирования, автоматически управляет ротацией и удалением старых копий, а также доступен для архитектур Linux, включая amd64, arm64, arm/v7, s390x, и ppc64le.

EfCore.SchemaCompare — это инструмент для сравнения схем баз данных в Entity Framework Core (EF Core), позволяющий находить и анализировать различия между текущей базой данных и миграциями. Он предоставляет удобный способ отслеживания изменений в структурах данных, что помогает предотвратить ошибки, вызванные несовпадениями в схемах при разработке приложений.
Подходит для управления версиями баз данных, особенно полезен при разработке и обновлении приложений на основе EF Core.

Greenmask — это инструмент с открытым исходным кодом для PostgreSQL, предназначенный для маскировки, обфускации и логического резервного копирования данных. Он позволяет анонимизировать конфиденциальную информацию в дампах баз данных, что делает его полезным для подготовки данных к использованию в непродукционных средах, таких как разработка и тестирование.
Поддержка Greenmask помогает защитить данные, соответствуя требованиям конфиденциальности и снижая риск утечек в процессе разработки.

Читать полностью…

Big Data Science [RU]

😎Nvidia опубликовали новый датасет для обучения файнтюн-моделей

HelpSteer2 — это англоязычный набор данных, разработанный NVIDIA и размещённый на платформе Hugging Face. Он включает 21 362 строки и предназначен для обучения reward-моделей, которые помогают улучшать полезность, фактическую точность и связность ответов, генерируемых большими языковыми моделями (LLM).

Каждая строка в наборе данных содержит запрос, ответ и пять аннотированных человеком атрибутов ответа:
✅Полезность (usefulness)
✅Правильность (correctness)
✅Связность (coherence)
✅Сложность (complexity)
✅Многословность (verbosity)

Набор данных может использоваться для тонкой настройки LLM, чтобы они генерировали более релевантные и качественные ответы на пользовательские запросы.

Читать полностью…

Big Data Science [RU]

🔥Маленькая подборочка инструментов для разметки данных со всеми вытекающими подробностями

CVAT (Computer Vision Annotation Tool) — это один из самых популярных и востребованных инструментов для аннотации изображений, который используется для создания наборов данных в области компьютерного зрения.

Преимущества CVAT:
✅Кастомизация: CVAT, как open-source решение, предоставляет пользователям полную свободу в настройке платформы под свои нужды. Это делает инструмент гибким и адаптируемым, позволяя интегрировать его в различные рабочие процессы. В документации CVAT можно найти подробные инструкции по кастомизации, что делает процесс настройки более доступным даже для новичков.
✅Подробная документация: Документация CVAT включает в себя подробные описания функционала, примеры использования, лайфхаки и изображения. Регулярные обновления документации гарантируют, что пользователи всегда будут в курсе последних изменений и улучшений.

Недостатки CVAT:
✅Высокие требования к ресурсам: Одним из основных недостатков CVAT являются его высокие требования к серверным ресурсам, это может стать проблемой для некоторых команд.

Supervisely — это многофункциональная платформа для работы с проектами в области компьютерного зрения, предлагающая решения для всего жизненного цикла разработки ИИ-проектов, начиная с разметки данных и заканчивая обучением и развертыванием моделей.

Преимущества:
✅Развитая экосистема приложений: в Supervisely Apps уже представлено множество готовых виджетов, которые позволяют расширить функционал любой части платформы. Каждый из них имеет открытый исходный код и доступен на GitHub, что дает возможность не только изменять существующие приложения, но и создавать новые.
Недостатки:
✅Высокая стоимость: Несмотря на обширные возможности, Supervisely может оказаться менее выгодным выбором в финансовом плане по сравнению с другими инструментами.

Label Studio — это мощный и гибкий инструмент с открытым исходным кодом, предназначенный для аннотации данных в различных задачах машинного обучения, включая задачи компьютерного зрения, обработки текста и аудио. Он используется для разметки данных с целью последующего обучения моделей.

Преимущества:
✅Гибкость: Пользователи могут самостоятельно создавать разметку с помощью кода, что открывает новые возможности для кастомизации.
✅Расширяемость: Модульная структура позволяет легко добавлять новые функции и интегрировать дополнительные типы разметок.

Недостатки:
✅Высокие требования к ресурсам: Для полноценного использования Label Studio может потребоваться значительное количество ресурсов, что делает его менее удобным для пользователей с ограниченными возможностями.
✅Ограничения в разметке Bounding Boxes: В то время как, к примеру, CVAT предлагает более удобный и быстрый инструмент для разметки Bounding Boxes, Label Studio лучше подходит для разметки аудиоданных.

Читать полностью…

Big Data Science [RU]

😎Оптимизация аналитики с Oracle

Oracle выложили статью у себя в блоге, где они рассказывают о том, как подключиться к кластеру BDS с помощью соединений Hive и Spark из Oracle Analytics Cloud (OAC).

Кластеры Oracle Big Data Service содержат распределённую файловую систему Hadoop (HDFS) и базу данных Hive, которые загружают и преобразуют данные из различных источников и в разных форматах (структурированные, полуструктурированные и неструктурированные).

Узнайте, как подключить Oracle Analytics Cloud к Oracle Big Data Service, используя Hive и Spark, для улучшения анализа данных. Объединение мощных инструментов поможет эффективно обрабатывать и визуализировать большие объемы информации.

Читать полностью…

Big Data Science [RU]

⚡️HTTP SQLite StarbaseDB

StarbaseDB — это мощная и масштабируемая база данных с открытым исходным кодом, которая базируется на SQLite и работает через HTTP-протокол. Эта база данных построена для работы в облачной среде (например, на Cloudflare), что позволяет ей эффективно масштабироваться вплоть до нуля в зависимости от нагрузки. Основные преимущества StarbaseDB включают в себя:

Легкость использования: Предоставляет возможность работать через HTTP-запросы, что упрощает интеграцию с различными системами и сервисами.
Масштабируемость: Автоматическая подстройка под объем нагрузки с возможностью масштабирования в обе стороны.
Поддержка SQLite: Использование проверенной временем и легковесной базы данных SQLite для хранения данных.
Опенсорс: Открытый исходный код, что позволяет разработчикам адаптировать и улучшать систему под свои нужды.

Она подходит для разработчиков, которые ищут простой и надежный способ организации баз данных с минимальной настройкой и высокой доступностью в облачных платформах, таких как Cloudflare.

Читать полностью…

Big Data Science [RU]

💡😎3 непопулярных, но весьма нужных библиотеки визуализации

Supertree — это Python-библиотека, предназначенная для интерактивной и удобной визуализации деревьев решений в Jupyter Notebooks, Jupyter Lab, Google Colab и других блокнотах, поддерживающих HTML-рендеринг. С помощью этого инструмента можно не только визуализировать деревья решений, но и взаимодействовать с ними непосредственно в блокноте.

Mycelium — это библиотека для создания графических визуализаций моделей машинного обучения или любых других направленных ациклических графов. Кроме того, она предоставляет возможность использовать просмотрщик графов Talaria для визуализации и оптимизации моделей

TensorHue — это Python-библиотека, предназначенная для визуализации тензоров непосредственно в консоли, что облегчает их анализ и отладку, делая процесс работы с тензорами более наглядным и понятным.

Читать полностью…

Big Data Science [RU]

😎💡🔥Подборка непопулярных, но весьма полезных Python-библиотек для работы с данными

Bottleneck - это библиотека, которая ускоряет работу методов NumPy до 25 раз, особенно при обработке массивов, содержащих значения NaN. Она оптимизирует такие вычисления, как нахождение минимумов, максимумов, медиан и других агрегатных функций. Благодаря использованию специализированных алгоритмов и обработке пропусков данных, Bottleneck значительно ускоряет работу с большими массивами данных, делая её более эффективной по сравнению с стандартными методами NumPy.

Nbcommands - это инструмент, который упрощает поиск кода в Jupyter notebooks, избавляя пользователей от необходимости выполнять поиск вручную. Он позволяет находить и управлять кодом по ключевым словам, функциям или другим элементам, что значительно ускоряет работу с большими проектами в Jupyter и помогает пользователям более эффективно навигировать по своим заметкам и кодовым блокам.

SciencePlots - это библиотека стилей для matplotlib, которая позволяет создавать профессиональные графики для презентаций, исследовательских статей и других научных публикаций. Она предлагает набор предустановленных стилей, которые соответствуют требованиям к визуализации данных в научных работах, делая графики более читабельными и эстетичными. SciencePlots упрощает создание графиков с высоким качеством оформления, соответствующим стандартам академических публикаций и презентаций.

Aquarel - это библиотека, которая добавляет дополнительные стили для визуализаций в matplotlib. Она позволяет улучшить внешний вид графиков, делая их более привлекательными и профессиональными. Aquarel упрощает создание настраиваемых стилей, помогая пользователям создавать графики с более интересным дизайном без необходимости вручную настраивать все параметры визуализации.

Modelstore - это библиотека для управления и отслеживания моделей машинного обучения. Она помогает организовывать, сохранять и версионировать модели, а также отслеживать их жизненный цикл. С помощью Modelstore, пользователи могут легко сохранять модели в различных хранилищах (S3, GCP, Azure и других), управлять их обновлениями и восстановлением. Это облегчает развертывание и мониторинг моделей в производственных средах, делая работу с моделями более удобной и контролируемой.

CleverCSV - это библиотека, которая улучшает процесс синтаксического анализа CSV-файлов и помогает избегать ошибок при их чтении с помощью Pandas. Она автоматически определяет правильные разделители и формат CSV-файлов, что особенно полезно при работе с файлами, которые имеют нестандартные или неоднородные структуры. CleverCSV упрощает работу с данными, устраняя ошибки, связанные с неправильным распознаванием разделителей и других параметров формата файла.

Читать полностью…

Big Data Science [RU]

📊Небольшие советы по обработке больших датасетов в Pandas от Google

Pandas — отличный инструмент для работы с небольшими наборами данных, обычно размером от двух до трех гигабайт.

Для наборов данных, превышающих этот порог, использование Pandas не рекомендуется. Это связано с тем, что если размер набора данных превышает доступную оперативную память, Pandas загружает полный набор данных в память перед обработкой. Проблемы с памятью могут возникнуть даже с меньшими наборами данных, поскольку предварительная обработка и изменение создают дубликаты DataFrame.

⚠️Вот несколько советов по эффективной обработке данных в Pandas:

✅ Используйте эффективные типы данных: используйте более эффективные с точки зрения памяти типы данных (например, int32вместо int64, float32вместо float64), чтобы сократить использование памяти.
✅Загружать меньше данных: используйте use-colsпараметр для загрузки только необходимых столбцов, что сокращает потребление памяти.pd.read_csv()
✅ Разделение на части: используйте chunksizeпараметр in для чтения набора данных меньшими порциями, обрабатывая каждую порцию итеративно.pd.read_csv()
✅ Оптимизация dtypes Pandas: используйте astypeметод для преобразования столбцов в типы, более эффективно использующие память, после загрузки данных, если это уместно.
✅ Распараллеливание Pandas с помощью Dask: используйте Dask, библиотеку параллельных вычислений, для масштабирования рабочих процессов Pandas до наборов данных, превышающих объем оперативной памяти, за счет использования параллельной обработки.

🖥Подробнее можно узнать тут

Читать полностью…
Subscribe to a channel