data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🌟 create-llama — самый простой способ создать приложение с помощью LlamaIndex

npx create-llama@latest
npm run dev


Create-llama позволяет создать мультиагентное full-stack приложение букально в 1 строчку кода.
Достаточно просто ввести npx create-llama, выбрать шаблон мультиагента и следовать инструкциям в файле README.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Lance — современный колоночный формат данных для ML-приложений, реализованный на Rust

pip install pylance

Lance идеально подходит для создания поисковых систем и хранилищ данных, для масштабного обучения ML-моделей, для хранения таких данных как облака точек.
Поддерживает конвертацию из Parquet в 2 строки кода, при этом он быстрее Parquet в 100 раз.
Lance можно без проблем использовать с pandas, DuckDB, Polars, pyarrow и не только.

🖥 GitHub
🟡 Примеры использования

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 RAGapp — простой способ использовать Agentic RAG

docker run -p 8000:8000 ragapp/ragapp

RAGapp позволяет легко использовать Agentic RAG в любом продакшене.
Так же прост в настройке, как и пользовательские GPT OpenAI, но в отличии от них RAGapp может быть развернут в вашей собственной облачной инфраструктуре с помощью Docker.
RAGapp создан с использованием LlamaIndex.

После запуска контейнера, нужно перейти на localhost:8000 и настроить RAGapp.
Можно подключить любые модели, в том числе и локальные (с помощью Ollama)

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Kubeflow — экосистема open-source проектов для решения задач на каждом этапе развития ML-системы

Kubeflow делает ML на Kubernetes простым, переносимым и масштабируемым.
Цель Kubeflow — облегчить оркестрацию рабочих нагрузок ML в Kubernetes и предоставить возможность развертывать лучшие в своем классе инструменты в любой облачной инфраструктуре.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 AutoGluon — библиотека Python, которая позволяет писать лаконичный код для задач ML

pip install autogluon

AutoGluon помогает несколькими строками кода обучать и использовать ML-модели;
позволяет решать задачи, связанные с изображениями, текстом, временными рядами и табличными данными.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Scikit-LLM — библиотека Python, призванная упростить разработку сложных и готовых к продакшену конвейеров NLP

pip install scikit-llm

Scikit-LLM может взаимодействовать с различными провайдерами LLM, независимо от того, работают ли они локально (например, GPT4All) или в облаке (включая Azure, OpenAI и Vertex AI).

Scikit-LLM поддерживает широкий спектр задач анализа текста, включая классификацию, анализ эмоциональной составляющей и т.д. Для сложных сценариев можно объединить несколько задач в конвейер scikit-learn.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Microsoft только что был опубликовали Graph RAG!

Проект Graph RAG - это пакет для обработки и преобразования данных открытым исходным кодом, предназначенный для извлечения структурированных данных из неструктурированного текста с использованием возможностей LLMs.

Эо методология использования структур памяти knowledge graph для улучшения работы LLM.

Github
Docs
Blog

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Nous Hermes 2 - Mistral 7B - DPO - GGUF

Это квантизованная версия модели Nous Hermes 2 Mistral 7B DPO; работает очень быстро и неплохо умеет в код

Сама исходная модель Nous Hermes 2 показала отличные результаты во всех бенчмарках — AGIEval, BigBench Reasoning, GPT4All и TruthfulQA;
была обучена на 1000000 пар промпт-ответ качества GPT-4 или выше, а также на других высококачественных наборах данных, доступных в teknium/OpenHermes-2.5.

🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 OSS Vizier — open-source инструмент для оптимизации, настройки гиперпараметров ML-систем

pip install google-vizier[jax]

OSS Vizier — это инструмент, написанный на Python для оптимизации и исследования нейросетей и т.д.
OSS Vizier основан на Google Vizier, одном из первых сервисов для настройки гиперпараметров, рассчитанных на работу с масштабными ML-системами.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

СКУЧНО. ТАК БОЛЬШЕ НЕЛЬЗЯ!

— подумала наша команда летом и создала новое реалити-шоу о Data-инженерах 🤯


«‎Где Data, Коль?» — это:
▶️5 разных участников из мира Big Data, прошедшие отбор;
▶️ментор — Николай Марков, Data Platform Lead в компании Altenar;
▶️участники строят пайплайны, осваивают Hadoop, Spark, Airflow и другие инструменты;
▶️реальный проект на собственных данных;
▶️секретное испытание в финале.


❗️Кто станет фаворитом зрителей? Кто дойдет до финала и получит заветный оффер?!


🔈Ссылка на первую серию уже в Telegram-канале «‎Где Data, Коль?»

Вторая серия выйдет 5 июля. Подписывайся, чтобы не пропустить!

Реклама ООО «Слёрм» ИНН 3652901451 erid: 2Vtzqviqabi

Читать полностью…

Анализ данных (Data analysis)

🌟 Тонкая настройка + RAG с помощью MistralAI

В этом Colab'е детально показывается, как тонко настроить Mistral-7B для соответствия уровня ответов Mistral-Large на RAG-конвейере обработки документов.

Такая тонкая настройка стала возможной благодаря недавно вышедшему MistralAI Finetune Engine

🟡 Google Colab

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 TorchMetrics — большой набор реализованных метрик для ML-систем

pip install torchmetrics

TorchMetrics — это коллекция из 100+ реализаций метрик PyTorch и простой в использовании API для создания собственных метрик.

Особенности API TorchMetrics:
— стандартизированный интерфейс для воспроизводимости

— можно использовать для распределенных ML-систем

— автоматическая синхронизация между несколькими устройствами

🖥 GitHub
🟡 Доки
🟡 Все метрики

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Во время GigaConf представили инновационное ПО от Cloud.ru

Модульная облачная платформа Cloud.ru Evolution Stack позволит заказчикам реализовать гибридные сценарии и гибко использовать собственные вычислительные ресурсы, а также ресурсы публичного облака. Ожидается, что ПО позволит улучшить распределение пиковых нагрузок между публичным и частным облаками для оптимизации расходов на IT-инфраструктуру.

До внедрения Evolution Stack, эксперты определят архитектуру и подходящие платформенные сервисы, осуществят установку и пуско-наладочные работы и реализуют необходимые интеграции с существующим корпоративным ПО. Ожидается, что на реализацию проекта уйдет около четырех месяцев.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 DeepSeek-Coder-V2-Instruct-GGUF — квантизованные версии DeepSeek-Coder-V2-Instruct

pip install -U "huggingface_hub[cli]"
huggingface-cli download bartowski/DeepSeek-Coder-V2-Instruct-GGUF --include "DeepSeek-Coder-V2-Instruct-Q4_K_M.gguf" --local-dir ./


Представлены несколько моделей с разным уровнем сжатия, требуют от 142.45 Гб до 52.7 Гб (но последняя не рекомендуется, экстремально низкое качество)

Квантизация выполнена с использованием опции imatrix, с использованием датасета отсюда
Исходная, не квантизованная модель


🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ OlympicArena — бенчмарк для оценки способностей LLM решать олимпийские задачи

OlympicArena — это комплексный бенчмарк со сложным механизмом оценки LLM, предназначенный для определения возможностей AI в широком спектре задач олимпийского уровня.

🖥 GitHub
🟡 Страничка OlympicArena

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Лучший способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

C++ t.me/cpluspluc
Devops: t.me/devOPSitsec
Машинное обучение: t.me/ai_machinelearning_big_data
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C#: t.me/csharp_ci
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
C++ папка: /channel/addlist/CdBs5DLepLJmZjY6
C# папка: /channel/addlist/u15AMycxRMowZmRi
Java папка: /channel/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: /channel/addlist/mzMMG3RPZhY2M2Iy
Linux папка: /channel/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

🌟 «Баннерная крутилка» — сервис, позволяющий выбрать несколько релевантных документов из базы в миллиард объявлений за 200 миллисекунд

Сервис выдерживает 700 тысяч RPS и более.
Решения для построения систем ранжирования подробно описаны в статье «Как устроен рекомендательный сервис, который выдерживает 700 тысяч запросов в секунду».

🟡Habr

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Устали от скучных и статичных дашбордов?

👉🏻Хотите создавать интерактивные и визуально привлекательные дашборды, которые оживят ваши данные?

Тогда вам сюда!

На открытом уроке «Создание кастомных дэшбордов с помощью Plotly Dash» вы:
- познакомитесь с Plotly Dash — мощной библиотекой для создания интерактивных веб-приложений и дэшбордов;
- научитесь превращать сырые данные в понятные и красивые визуальные единицы;
- сможете создавать удобные и функциональные интерфейсы для взаимодействия с данными.

Присоединяйтесь 9 июля в 20:00 мск и станьте мастером визуализации в аналитике данных!

⚡️Регистрируйстесь сейчас по ссылке: https://otus.pw/3OSi/

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8K4Qbi

Читать полностью…

Анализ данных (Data analysis)

Станьте профессионалом в области Data Science и машинного обучения в магистратуре от Центрального университета!
Центральный университет — современный вуз, созданный при поддержке ведущих компаний России: Т-Банка, Авито и других.


Получите диплом магистра в области математики и компьютерных наук и обучайтесь на основе реальных кейсов ведущих ИТ-компаний у профессоров из МГУ, МФТИ, РЭШ и практиков из индустрии. Хорошая новость для тех, кто уже имеет опыт в Data Science и машинном обучении — вы можете пропустить базовое обучение и закончить магистратуру за 3 семестра.

У каждого студента будет:
- личный ментор по траектории обучения;
- доступ к карьерному центру с коучами и консультантами;
- опыт работы в проектах партнеров уже во время обучения.

Участвуйте в онлайн-отборе, чтобы выиграть грант на обучение до 1,2 млн рублей. Больше подробностей про университет и конкурс грантов по ссылке!
erid:2VtzqwTkpP2
Реклама, АНО ВО «Центральный университет», ИНН 7743418023

Читать полностью…

Анализ данных (Data analysis)

👨‍🎓Курс МФК МГУ "Нейронные сети и их применение в научных исследованиях"

Лекции:
- Новая суперспособность науки
- Как учить машины
- Линейные модели
- Сверточные сети
- Рекуррентные сети
- Трансформеры (часть 1)
- Трансформеры (часть 2). GPT
- Генеративные модели
- Обучение с подкреплением
- Нейрорендеринг
- Графовые сети
- Заключительная лекция

👉 Плейлист на Youtube

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Unstructured — библиотека Python для предобработки сырых данных

pip install "unstructured[all-docs]"

Unstructured предоставляет компоненты для предобработки изображений, текстовых документов; поддерживает многие форматы: PDF, HTML, Word docs и др.

Запустить библиотеку в контейнере:

docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest
docker exec -it unstructured bash


🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Ivy — open-source ML-фреймворк для использования модели, созданной при помощи одного фреймворка, в коде, написанном на другом фреймворке

pip install ivy

Ivy — ML-фреймворк, который позволяет:

— использовать ML-модели и/или функции в любом фреймворке, конвертируя любой код из одного фреймворка в другой с помощью ivy.transpile()

— преобразовывать модели и библиотеки ML для их использования в другом фреймворке с помощью ivy.source_to_source() (эта функция пока в закрытой бета-версии)

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В России появилась среда разработки – встречайте GIGA IDE

На главной технологической конференции лета GigaConf 2024 СберТех представил российскую среду разработки GIGA IDE со встроенным AI-ассистентом*.

Среда позволяет вести разработку на популярных языках программирования, обеспечивает совместимость с востребованными плагинами, а также привычный пользовательский опыт. Встроенный в среду AI-ассистент GIGA CODE анализирует контекст, предлагает полные конструкции функций и других элементов, что позволяет писать код до 25% быстрее.

• GIGA IDE Desktop – это интегрированная среда разработки, которая включает 70 инструментов для облегчения задач разработки, автоматизации тестирования и администрирования приложений. Разработчики уже могут скачать GIGA IDE Desktop на платформе GitVerse.

• GIGA IDE Cloud позволит вести разработку в облаке, расширив возможности устройства дополнительными облачными ресурсами. Публичный релиз среды запланирован на осень 2024 года. Чтобы первыми получить доступ к GIGA IDE Cloud – регистрируйтесь на платформе GitVerse на раннее тестирование.

*AI (Artificial Intelligence) - «искусственный интеллект»

Читать полностью…

Анализ данных (Data analysis)

🌟 Cambrian-1 — семейство мультимодальных LLM, ориентированных на CV-задачи

Cambrian-1 — это семейство MLLM, разработанных с упором на работу с визуальной информацией. На страничке Cambrian-1 представлены модели 3 размеров (8B, 13B и 34B), данные для обучения, скрипты для обучения на TPU.
Скоро на GitHub появится скрипт для обучения на GPU.

🟡 Страничка Cambrian-1
🖥 GitHub
🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥Масштабируемое обучение MOE с помощью PyTorch

В новом блоге Pytorch показано, как масштабировать до трех тысяч GPU, используя Distributed и MegaBlocks, эффективную реализацию MoE с открытым исходным кодом в PyTorch.

https://pytorch.org/blog/training-moes/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

В нейросети GigaChat появился новый персонаж - Контент-мейкер.

Теперь большинство ваших задач вы можете поручить ему — он подробно расспросит о деталях задачи, уточнит, какая ЦА креатива, поможет с генерацией разного рода контента - и многое другое.

Контент-мейкер может:

🔹Помочь с написанием SMM-стратегии
🔹Решить проблему "белого листа" и нагенерить креативов
🔹Разработать контент-план
🔹Разработать УТП для вашего бренда
🔹Сформировать тональность коммуникации для вашего сообщества

Персонаж Контент-мейкер в GigaChat отлично справится с каждой из этих задач. Попробуй пообщаться с ним уже сейчас!

🖥 доступен в веб-версии и в боте Telegram
🖥 находится в разделе «Персонажи» или «Выбрать персонажа GigaChat»

🆘 — Контент-мейкер, придумай смешную подпись к этому посту
📝 — надо было попросить Контент-мейкера придумать смешную подпись к посту

Читать полностью…

Анализ данных (Data analysis)

🌟 Модель gte-Qwen2-7B-instruct от Alibaba

gte-Qwen2-7B-instruct — это новейшая модель из семейства моделей gte (General Text Embedding), которая занимает 1-е место по оценкам на английском и китайском языках в бенчмарке Massive Text Embedding Benchmark MTEB

gte-Qwen2-7B-instruct имеет несколько особенностей:

— механизм двунаправленного внимания, улучшающий её понимание контекста

— модель была обучена на большом многоязычном датасете текстов, охватывающем различные области

🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔹 Как усилить технический анализ финансовых рынков методами машинного обучения?

Рассмотрим, как современные технологии машинного обучения могут усилить и расширить классические подходы технического анализа на финансовых рынках на открытом уроке от Otus, посвященный курсу «ML для финансового анализа», 3 июля в 20:00.

✅ В течении часа рассмотрим реальные примеры и кейсы, демонстрирующие использование машинного обучения для улучшения торговых стратегий на основе технического анализа.

Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска

👉 Регистрация на урок и подробности:
https://otus.pw/A44x/?erid=LjN8KATiv

Читать полностью…

Анализ данных (Data analysis)

level up вашей карьеры инженера данных

У вас уже есть опыт работы, но вы хотите выделиться на фоне «джунов» и охватить всю архитектуру DWH целиком — тогда присоединяйтесь к курсу «Инженер данных» от karpov.courses и экспертов из Яндекса, Ozon, Vk и Сбера.

За 5 месяцев вы освоите все актуальные технологии. А для большего погружения в работу, вы поработаете с ETL-процессами крупной двухуровневой платформы данных, закрепите понимание инструментов Airflow, Spark + S3 и Greenplum и поймёте, как использовать их в связке друг с другом.

После обучения вы научитесь учитывать все взаимосвязи большого хранилища, понимать потребности заказчика и воспринимать данные как конечный продукт.

Получите скидку 5% по промокоду DAMLL до 30.06.2024 и расширяйте свои навыки: https://clc.to/erid_LjN8K78jY

Читать полностью…

Анализ данных (Data analysis)

🌟 Evidently — фреймворк Python для оценки, тестирования и мониторинга ML-моделей в продакшене

pip install evidently

Evidently помогает оценивать, тестировать и контролировать данные и ML-системы.
Вот некоторые из решаемых Evidently задач:

— прогностические: классификация, регрессия, ранжирование, рекомендации

— генеративные: чат-боты, RAGs, вопросно-ответные системы

— мониторинг данных: качество данных и дрейф данных для текстовых, табличных данных

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…
Subscribe to a channel