data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🌟 Scikit-LLM — библиотека Python, призванная упростить разработку сложных и готовых к продакшену конвейеров NLP

pip install scikit-llm

Scikit-LLM может взаимодействовать с различными провайдерами LLM, независимо от того, работают ли они локально (например, GPT4All) или в облаке (включая Azure, OpenAI и Vertex AI).

Scikit-LLM поддерживает широкий спектр задач анализа текста, включая классификацию, анализ эмоциональной составляющей и т.д. Для сложных сценариев можно объединить несколько задач в конвейер scikit-learn.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Microsoft только что был опубликовали Graph RAG!

Проект Graph RAG - это пакет для обработки и преобразования данных открытым исходным кодом, предназначенный для извлечения структурированных данных из неструктурированного текста с использованием возможностей LLMs.

Эо методология использования структур памяти knowledge graph для улучшения работы LLM.

Github
Docs
Blog

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Nous Hermes 2 - Mistral 7B - DPO - GGUF

Это квантизованная версия модели Nous Hermes 2 Mistral 7B DPO; работает очень быстро и неплохо умеет в код

Сама исходная модель Nous Hermes 2 показала отличные результаты во всех бенчмарках — AGIEval, BigBench Reasoning, GPT4All и TruthfulQA;
была обучена на 1000000 пар промпт-ответ качества GPT-4 или выше, а также на других высококачественных наборах данных, доступных в teknium/OpenHermes-2.5.

🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 OSS Vizier — open-source инструмент для оптимизации, настройки гиперпараметров ML-систем

pip install google-vizier[jax]

OSS Vizier — это инструмент, написанный на Python для оптимизации и исследования нейросетей и т.д.
OSS Vizier основан на Google Vizier, одном из первых сервисов для настройки гиперпараметров, рассчитанных на работу с масштабными ML-системами.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

СКУЧНО. ТАК БОЛЬШЕ НЕЛЬЗЯ!

— подумала наша команда летом и создала новое реалити-шоу о Data-инженерах 🤯


«‎Где Data, Коль?» — это:
▶️5 разных участников из мира Big Data, прошедшие отбор;
▶️ментор — Николай Марков, Data Platform Lead в компании Altenar;
▶️участники строят пайплайны, осваивают Hadoop, Spark, Airflow и другие инструменты;
▶️реальный проект на собственных данных;
▶️секретное испытание в финале.


❗️Кто станет фаворитом зрителей? Кто дойдет до финала и получит заветный оффер?!


🔈Ссылка на первую серию уже в Telegram-канале «‎Где Data, Коль?»

Вторая серия выйдет 5 июля. Подписывайся, чтобы не пропустить!

Реклама ООО «Слёрм» ИНН 3652901451 erid: 2Vtzqviqabi

Читать полностью…

Анализ данных (Data analysis)

🌟 Тонкая настройка + RAG с помощью MistralAI

В этом Colab'е детально показывается, как тонко настроить Mistral-7B для соответствия уровня ответов Mistral-Large на RAG-конвейере обработки документов.

Такая тонкая настройка стала возможной благодаря недавно вышедшему MistralAI Finetune Engine

🟡 Google Colab

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 TorchMetrics — большой набор реализованных метрик для ML-систем

pip install torchmetrics

TorchMetrics — это коллекция из 100+ реализаций метрик PyTorch и простой в использовании API для создания собственных метрик.

Особенности API TorchMetrics:
— стандартизированный интерфейс для воспроизводимости

— можно использовать для распределенных ML-систем

— автоматическая синхронизация между несколькими устройствами

🖥 GitHub
🟡 Доки
🟡 Все метрики

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Во время GigaConf представили инновационное ПО от Cloud.ru

Модульная облачная платформа Cloud.ru Evolution Stack позволит заказчикам реализовать гибридные сценарии и гибко использовать собственные вычислительные ресурсы, а также ресурсы публичного облака. Ожидается, что ПО позволит улучшить распределение пиковых нагрузок между публичным и частным облаками для оптимизации расходов на IT-инфраструктуру.

До внедрения Evolution Stack, эксперты определят архитектуру и подходящие платформенные сервисы, осуществят установку и пуско-наладочные работы и реализуют необходимые интеграции с существующим корпоративным ПО. Ожидается, что на реализацию проекта уйдет около четырех месяцев.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 DeepSeek-Coder-V2-Instruct-GGUF — квантизованные версии DeepSeek-Coder-V2-Instruct

pip install -U "huggingface_hub[cli]"
huggingface-cli download bartowski/DeepSeek-Coder-V2-Instruct-GGUF --include "DeepSeek-Coder-V2-Instruct-Q4_K_M.gguf" --local-dir ./


Представлены несколько моделей с разным уровнем сжатия, требуют от 142.45 Гб до 52.7 Гб (но последняя не рекомендуется, экстремально низкое качество)

Квантизация выполнена с использованием опции imatrix, с использованием датасета отсюда
Исходная, не квантизованная модель


🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ OlympicArena — бенчмарк для оценки способностей LLM решать олимпийские задачи

OlympicArena — это комплексный бенчмарк со сложным механизмом оценки LLM, предназначенный для определения возможностей AI в широком спектре задач олимпийского уровня.

🖥 GitHub
🟡 Страничка OlympicArena

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Enzyme — высокопроизводительное автоматическое дифференцирование LLVM и MLIR

brew install enzyme

Enzyme — это инструмент, который принимает произвольный код в виде LLVM IR и вычисляет производную (и градиент) этой функции.
Это позволяет использовать Enzyme для автоматического создания градиентов своего исходного кода без лишней работы. Работая на уровне LLVM, Enzyme может дифференцировать программы на разных языках (C, C++, Swift, Julia, Rust, Fortran, TensorFlow и т. д.) с высокой производительностью.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Cognitive Computations выпустиили dolphin-2.9.3-mistral-7B-32k

В 2.9.3 включен многоязычный SystemChat 2.0 - 100 языков!

Отличная базовая модель!

https://huggingface.co/cognitivecomputations/dolphin-2.9.3-mistral-7B-32k

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Создание text-to-SQL системы с Mistral AI, Neon, и LangChain

Если использовать просто LLM для генерации SQL, то может получиться синтаксически неверный SQL, усугубляет ситуацию и масса диалектов SQL в разных БД.
К тому же LLM не имеет доступа к полной схеме базы данных, именам таблиц и столбцов, а также индексам, что ограничивает его возможности по созданию точных/эффективных запросов. А передавать полную схему в промпте каждый раз дорого и неудобно.

Ок, но ведь LLM отлично обучаются в контексте, поэтому, передавая релевантную информацию в промпте, можно улучшить их результаты — так мы приходим к RAG.
И здесь по ссылке ниже разбирается построение системы RAG с использованием Mistral AI, Neon Postgres как векторной БД, и LangChain, чтобы связать всё это вместе.

🟡 Создание Text-to-SQL системы

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Live-интенсив: разбираем тестовое задание в OZON на junior-аналитика! 🔥

Мы знаем, что разбор тестовых заданий - ваш любимый формат. Поэтому мы приглашаем вас на интенсив, где мы в прямом эфире будем разбирать настоящее тестовое задание в OZON на аналитика данных!

Собираемся в прямом эфире 25 июня (вт) в 19:00 (Мск). Ссылка на трансляцию придет в бота, записывайтесь!

👉🏻 Записаться на live-интенсив 👈🏻

Что будем делать на интенсиве:

◾️ Проанализируем заказы пользователей по retention, времени доставки, сумме заказа т.д.
◾️ Научимся легко генерировать большой DataFrame с синтетическими данными
◾️ Посчитаем описательные статистики
◾️ Изучим полезные фичи Pandas: apply, map, pct_change и др.
◾️ Построим интерактивные графики с помощью plotly
◾️ Научимся строить и читать необычные графики - например, violinplot

Вебинар подойдет даже если вы только-только начинаете свой путь в аналитике - будем разбирать все по шагам понятным языком 🧡

Короче, ждем всех – будет мега-круто!

👉🏻 Записаться на live-интенсив 👈🏻


Реклама. ООО «АЙТИ РЕЗЮМЕ». ИНН 4025460134.
Erid:LjN8KVug9

Читать полностью…

Анализ данных (Data analysis)

🐹 В интернете только и разговоров, что о тапанье хомяка. Превратятся ли игровые монетки в криптоденьги, пока сказать сложно. Но уже понятно, что будущее — за цифровыми валютами.

Чтобы развивать новые финансовые технологии, рынку нужны аналитики данных в финтехе. Они наиболее востребованы в сфере блокчейн-разработок, big data и цифровых валют, в госструктурах, банках и инвестиционных компаниях.

Как раз таких специалистов готовят в онлайн-магистратуре МФТИ и Нетологии «Финансовые технологии и аналитика». Вы на практике научитесь анализировать и обрабатывать big data, работать с базами данных, строить финансовые модели, применять ИИ и ML-алгоритмы.

В качестве дипломной работы сможете выбрать классическую диссертацию или разработать новое финтех-решение — корпоративный проект на основе кейса либо собственный стартап. А если оформить ООО для стартапа, можно получить финансирование от фондов и акселераторов.

Узнайте больше о программе и начните строить карьеру в перспективной сфере: https://netolo.gy/dfu6

Реклама. ООО "Нетология". Erid: 2VSb5weeNrU

Читать полностью…

Анализ данных (Data analysis)

🖥 Unstructured — библиотека Python для предобработки сырых данных

pip install "unstructured[all-docs]"

Unstructured предоставляет компоненты для предобработки изображений, текстовых документов; поддерживает многие форматы: PDF, HTML, Word docs и др.

Запустить библиотеку в контейнере:

docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest
docker exec -it unstructured bash


🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Ivy — open-source ML-фреймворк для использования модели, созданной при помощи одного фреймворка, в коде, написанном на другом фреймворке

pip install ivy

Ivy — ML-фреймворк, который позволяет:

— использовать ML-модели и/или функции в любом фреймворке, конвертируя любой код из одного фреймворка в другой с помощью ivy.transpile()

— преобразовывать модели и библиотеки ML для их использования в другом фреймворке с помощью ivy.source_to_source() (эта функция пока в закрытой бета-версии)

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В России появилась среда разработки – встречайте GIGA IDE

На главной технологической конференции лета GigaConf 2024 СберТех представил российскую среду разработки GIGA IDE со встроенным AI-ассистентом*.

Среда позволяет вести разработку на популярных языках программирования, обеспечивает совместимость с востребованными плагинами, а также привычный пользовательский опыт. Встроенный в среду AI-ассистент GIGA CODE анализирует контекст, предлагает полные конструкции функций и других элементов, что позволяет писать код до 25% быстрее.

• GIGA IDE Desktop – это интегрированная среда разработки, которая включает 70 инструментов для облегчения задач разработки, автоматизации тестирования и администрирования приложений. Разработчики уже могут скачать GIGA IDE Desktop на платформе GitVerse.

• GIGA IDE Cloud позволит вести разработку в облаке, расширив возможности устройства дополнительными облачными ресурсами. Публичный релиз среды запланирован на осень 2024 года. Чтобы первыми получить доступ к GIGA IDE Cloud – регистрируйтесь на платформе GitVerse на раннее тестирование.

*AI (Artificial Intelligence) - «искусственный интеллект»

Читать полностью…

Анализ данных (Data analysis)

🌟 Cambrian-1 — семейство мультимодальных LLM, ориентированных на CV-задачи

Cambrian-1 — это семейство MLLM, разработанных с упором на работу с визуальной информацией. На страничке Cambrian-1 представлены модели 3 размеров (8B, 13B и 34B), данные для обучения, скрипты для обучения на TPU.
Скоро на GitHub появится скрипт для обучения на GPU.

🟡 Страничка Cambrian-1
🖥 GitHub
🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥Масштабируемое обучение MOE с помощью PyTorch

В новом блоге Pytorch показано, как масштабировать до трех тысяч GPU, используя Distributed и MegaBlocks, эффективную реализацию MoE с открытым исходным кодом в PyTorch.

https://pytorch.org/blog/training-moes/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В нейросети GigaChat появился новый персонаж - Контент-мейкер.

Теперь большинство ваших задач вы можете поручить ему — он подробно расспросит о деталях задачи, уточнит, какая ЦА креатива, поможет с генерацией разного рода контента - и многое другое.

Контент-мейкер может:

🔹Помочь с написанием SMM-стратегии
🔹Решить проблему "белого листа" и нагенерить креативов
🔹Разработать контент-план
🔹Разработать УТП для вашего бренда
🔹Сформировать тональность коммуникации для вашего сообщества

Персонаж Контент-мейкер в GigaChat отлично справится с каждой из этих задач. Попробуй пообщаться с ним уже сейчас!

🖥 доступен в веб-версии и в боте Telegram
🖥 находится в разделе «Персонажи» или «Выбрать персонажа GigaChat»

🆘 — Контент-мейкер, придумай смешную подпись к этому посту
📝 — надо было попросить Контент-мейкера придумать смешную подпись к посту

Читать полностью…

Анализ данных (Data analysis)

🌟 Модель gte-Qwen2-7B-instruct от Alibaba

gte-Qwen2-7B-instruct — это новейшая модель из семейства моделей gte (General Text Embedding), которая занимает 1-е место по оценкам на английском и китайском языках в бенчмарке Massive Text Embedding Benchmark MTEB

gte-Qwen2-7B-instruct имеет несколько особенностей:

— механизм двунаправленного внимания, улучшающий её понимание контекста

— модель была обучена на большом многоязычном датасете текстов, охватывающем различные области

🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔹 Как усилить технический анализ финансовых рынков методами машинного обучения?

Рассмотрим, как современные технологии машинного обучения могут усилить и расширить классические подходы технического анализа на финансовых рынках на открытом уроке от Otus, посвященный курсу «ML для финансового анализа», 3 июля в 20:00.

✅ В течении часа рассмотрим реальные примеры и кейсы, демонстрирующие использование машинного обучения для улучшения торговых стратегий на основе технического анализа.

Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска

👉 Регистрация на урок и подробности:
https://otus.pw/A44x/?erid=LjN8KATiv

Читать полностью…

Анализ данных (Data analysis)

level up вашей карьеры инженера данных

У вас уже есть опыт работы, но вы хотите выделиться на фоне «джунов» и охватить всю архитектуру DWH целиком — тогда присоединяйтесь к курсу «Инженер данных» от karpov.courses и экспертов из Яндекса, Ozon, Vk и Сбера.

За 5 месяцев вы освоите все актуальные технологии. А для большего погружения в работу, вы поработаете с ETL-процессами крупной двухуровневой платформы данных, закрепите понимание инструментов Airflow, Spark + S3 и Greenplum и поймёте, как использовать их в связке друг с другом.

После обучения вы научитесь учитывать все взаимосвязи большого хранилища, понимать потребности заказчика и воспринимать данные как конечный продукт.

Получите скидку 5% по промокоду DAMLL до 30.06.2024 и расширяйте свои навыки: https://clc.to/erid_LjN8K78jY

Читать полностью…

Анализ данных (Data analysis)

🌟 Evidently — фреймворк Python для оценки, тестирования и мониторинга ML-моделей в продакшене

pip install evidently

Evidently помогает оценивать, тестировать и контролировать данные и ML-системы.
Вот некоторые из решаемых Evidently задач:

— прогностические: классификация, регрессия, ранжирование, рекомендации

— генеративные: чат-боты, RAGs, вопросно-ответные системы

— мониторинг данных: качество данных и дрейф данных для текстовых, табличных данных

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

По данным Yandex Cloud, в 2023 году спрос на инструменты аналитики данных вырос в 1,7 раза. Но если опираться на цифры из отчёта Chief Data Officer Study, то инвестиции в дата-проекты окупились лишь у 8% CDO.

Одна из причин неудач — непонимание, как правильно оценивать эффективность таких проектов. Специалисты Yandex Cloud спросили об этом опытных CDO и директоров по данным. Своими советами о выборе метрик эффективности data-driven решений поделились эксперты Мосбиржи, УБРиР и «Альфа-Банка».

Подробности ищите в статье.

Читать полностью…

Анализ данных (Data analysis)

🌟 4M: Massively Multimodal Masked Modeling

4M-21 — open-source фреймворк от Apple для обучения мультимодальных моделей и решения множества задач

Из-за CVPR релиз 4M-21 прошёл незаметно, а ведь фреймворк очень функциональный.

4M-21 позволяет обучать универсальные мультимодальные модели, способные выполнять разные задачи, связанные с CV.
4M-21 позволяет:
— создавать подписи к изображениям
— оценивать глубину
— обнаруживать объекты на изображении
— делать сегментацию объектов
— генерировать изображения
— и решать много других задач

🟡 Страничка 4M-21
🖥 GitHub
🟡 Arxiv
🟡 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Mesop — Python фреймворк для быстрого создания UI для LLM-приложений и не только

Особенности Mesop:
— UI пишется очень идиоматично и лаконично
— масса готовых компонентов, просто plug-and-play
— поддержка горячей перезагрузки, когда браузер сам обновляет UI по мере написания; при этом сохраняется состояние
— можно работать с готовым UI как с простым наборов функций Python

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 DataComp-LM — комплексный фреймворк, предназначенный для построения и обучения LLM на различных наборах данных

DataComp-LM предлагает стандартизированный набор из более чем 300Т нефильтрованных лексем из CommonCrawl, эффективные рецепты предварительного обучения на основе фреймворка open_lm и большой набор из более чем 50 бенчмарков.

DCLM позволяет исследователям экспериментировать с различными стратегиями построения наборов данных в различных вычислительных масштабах, от 411M до 7B моделей с параметрами.

🖥 GitHub
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 σ-GPT — новый взгляд на авторегрессионные модели

GPT генерируют последовательности в порядке слева направо. Возможно ли по-другому?
Arnaud Pannatier и его коллеги разработали σ-GPT, способный генерировать последовательности в любом порядке, динамически выбираемом во время вывода.

🟡 Arxiv
🖥 GitHub

@data_analysis_ml

Читать полностью…
Subscribe to a channel