data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

💥 Ускорьте работу ваших моделей Трансформеров с
помощью значительно улучшенной библиотеки cuDNN 9 от nvidia, поддерживающей технологию Scaled Dot Product Attention (SDPA)


✨ cuDNN 9 BF16 работает в 2 раза быстрее, чем лучшая из доступных реализаций PyTorch BF16, а так же быстрее cuDNN FP8 в 3 раза.

Более высокая производительность позволяет увеличить длину последовательности и сократить время предварительной подготовки и файнтюнинга моделей.

https://developer.nvidia.com/blog/accelerating-transformers-with-nvidia-cudnn-9/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Три статьи, которые победили в конкурсе Технотекст от Хабра в номинации ML

➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять

Игорь Котенков (Open Data Science) с разбором работы ChatGPT.
Виктор Юрченко (Яндекс) о планировании движения беспилотных автомобилей с помощью нейросетей.
Мурат Апишев о методах позиционного кодирования в Transformer.

📎 Первая
📎 Вторая
📎 Третья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Введение в моделирование на языке зрения — мощная статья от Meta о работе VLM, о том, как их обучать и оценивать

Модели Vision-Language (VLM) — это область исследований, которая обладает большим потенциалом, однако существует множество проблем, связанных с построением моделей такого типа.
Именно поэтому ребята из Meta опубликовали эту статью — чтобы у большего числа людей сформировалось понимание специфики работы с VLMs, понимание, как они работают и как их обучать.
В статье в основном обсуждается работа с изображениями, но также затрагивается возможность расширения этих методов на видео.

📎 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 PropertyGraphIndex — способ построения графов знаний от LlamaIndex

Граф свойств/знаний — это граф, узлами которого являются отдельные знания/свойства, связанные между собой отношениями.
И ребята из LlamaIndex буквально вчера представили возможность создавать такие графы при помощи PropertyGraphIndex.

▶️ Статья от LlamaIndex
🟡 Доки и примеры использования

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚨 Компания Mistral выпустила новую модель генерации кода.

Codestral-22B, обучена более чем 80 языкам программирования и превосходит более крупные модели, такие как Llama 3 70B, в задачах генерации кода!

Блог: https://mistral.ai/news/codestral/
Попробуйте бесплатно здесь: http://chat.mistral.ai

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Спросили у аналитиков, почему они пришли работать в Авито — вот что они ответили.

Комфортный процесс онбординга, постоянно обновляемая документация, поддерживающее комьюнити профессионалов, возможность вносить свои идеи в продукты, совместная работу с высококвалифицированными продактами, удобная инфраструктура для A/B-тестов и понятный карьерный трек для всех уровней специалистов.

Подробности читайте по ссылке!

Реклама. ООО «Авито Тех».

Читать полностью…

Анализ данных (Data analysis)

🕰 TimeGPT - это мощная генеративная модель прогнозирования, которая может генерировать точные прогнозы для = временных рядов без необходимости обучения.

TimeGPT может точно прогнозировать различные области, такие как розничная торговля, электроэнергетика, финансы и информационные технологии, всего с помощью нескольких строк кода.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Простое объяснение сложных концепций AI и ML на пальцах

Держите подборку полезных анимаций от Tom Yeh
Профессор очень просто объясняет такие понятия как MoE, умножение матриц, работу MLP в PyTorch, прямое/обратное распространение, работу GAN, устройство векторной БД и много всего ещё

▶️ Анимации с объяснением

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Open-source справочник по статистике

Здесь на 80 страницах конспективно и по существу излагаются важные концепции из статистики, вроде биномиального распределения, линейной регрессии, теоремы Байеса, распределения Бернулли, Пуассона, и другие темы статистики.
Отличная шпаргалка, полезно заглядывать время от времени

📎 PDF

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Mistral-finetune — кодовая база для файнтюнинга моделей Mistral

cd $HOME && git clone https://github.com/mistralai/mistral-finetune.git

cd mistral-finetune
pip install -r requirements.txt


Буквально вчера выкатили Mistral-finetune;
это легкая кодовая база, позволяющая эффективно использовать память и выполнять finetune моделей Mistral. В основе Mistral-finetune LoRA — метод обучения при котором большинство весов не меняется, а корректируются только 1-2 % весов.

Для достижения максимальной эффективности рекомендуется использовать графические процессоры A100 или H100.
Кодовая база оптимизирована для обучения на нескольких GPU, но для небольших моделей, таких как 7B, достаточно одного GPU.

🖥 GitHub
🟡 Погонять в Google Colab

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 TruLens — позволяет создавать LLM-приложения быстрее, объективно оценивать качество и эффективность приложений

pip install trulens-eval

TruLens предоставляет набор инструментов для разработки и мониторинга приложений с нейросетями, LLM-приложений.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Albumentations — библиотека для апскейла изображений

pip install -U albumentations

Albumentations — это быстрая и гибкая библиотека Python для увеличения изображений.
Широко используется в промышленности, исследованиях в области Deep Learning, в соревнованиях по Machine Learning и в разных open-source проектах.

🖥 GitHub
🟡 Доки
🟡 Примеры использования Albumentations

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Думаете, что знаете все о рекомендательных системах? Поверьте, мы вас удивим

Многие продвинутые IT-специалисты, практикующие ML, не умеют работать с сингулярным разложением. Мы знаем, как это исправить!

Всего за пару часов вы:
- узнаете, как строить рекомендательные системы на основе сингулярного разложения;
- реализуете его самостоятельно и посмотрите на готовые имплементации;
- освоите теорию и примените алгоритм на практике.

Спикер Мария Тихонова — PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ.

Занятие пройдет 30 мая в 18:00 мск и будет приурочено к старту большого курса «Machine Learning. Advanced».

Регистрируйтесь: https://otus.pw/p8OP/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ", ИНН: 9705100963

Читать полностью…

Анализ данных (Data analysis)

Как развиться в сфере аналитики данных?

Присмотритесь к программе «Аналитик PRO» от Changellenge Education. Это самый полный курс обучения аналитике на рынке.

«Аналитик PRO» разработан Changellenge Education – школой, которая уже больше 6 лет специализируется именно на обучении аналитике, выпустила больше 3500 аналитиков, которые работают в Яндексе, VK, Газпроме и других крупных компаниях.

Курс подойдет вам, если вы хотите прокачаться как аналитик данных, бизнес-аналитик, финансовый аналитик – в нем есть всё, что нужно для роста в любом направлении аналитики с нуля:

Практическая направленность: 75% курса — это работа над реальными кейсами таких компаний, как Тинькофф. Вы не просто учитесь, вы получаете реальный опыт, который сможете добавить в резюме.

Ключевые навыки: Вы освоите 11 важных аналитических инструментов, включая Excel, Python, SQL и BI-системы. Эти знания помогут вам получить интересные офферы с высокой зарплатой.

Поддержка экспертов: Онлайн мастер-классы от специалистов из Avito, BCG, Google, VK и помощь менторов помогут вам преодолеть все трудности в учебе.

Карьерная поддержка: Консультации с HR-специалистами, помощь с резюме и подготовка к собеседованиям позволят вам уверенно шагнуть на новый карьерный уровень.

Высокие результаты: 83% студентов находят работу сразу после окончания курса.

Сообщество Alumni: После завершения учебы вы вступите в сообщество выпускников, работающих в таких компаниях, как Альфа-Банк, McKinsey, Google и Яндекс.

Оставьте заявку прямо сейчас. До 28 мая на программу действует скидка 50%, а по промокоду DATA10 вас ждет дополнительная скидка в 10 000 руб. от нашего канала. Оставьте заявку по ссылке и начните свою карьеру в аналитике уже сегодня!

Реклама. ООО «Высшая школа аналитики и стратегии». ИНН:7716917009 erid: 2VtzqvLHPDD

Читать полностью…

Анализ данных (Data analysis)

🌟 Megatron-Core — библиотека PyTorch для обучения трансформеров

docker run --ipc=host --shm-size=512m --gpus all -it nvcr.io/nvidia/pytorch:24.02-py3

pip install megatron_core
pip install tensorstore==0.1.45
pip install zarr


Megatron-Core — это самодостаточная, легкая библиотека PyTorch, в которой собрано все необходимое для обучения трансформеров.
Предлагает большую коллекцию GPU-методик для оптимизации памяти и вычислений, использует массу наработок Megatron-LM и Transformer Engine.

Megatron-Core обеспечивает гибкость для разработчиков и облегчает разработку собственного LLM-фреймворка на вычислительной инфраструктуре NVIDIA.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Apache TVM — компиляция ML-моделей для любых аппаратных характеристик

Apache TVM — это фреймворк компилятора ML-приложений с открытым исходным кодом для CPU, GPU и не только.
Цель Apache TVM — дать ML-инженерам возможность оптимизировать и эффективно выполнять вычисления на любом железе.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 txtai — универсальная база данных эмбеддингов для семантического поиска, оркестрации LLM и для управления рабочими процессами, связанными с ML

pip install txtai

Особенности txtai:
— Имеет векторный поиск с SQL, хранение объектов, анализ графов и мультимодальное индексирование
— Поддерживает создание эмбеддингов для текста, документов, аудио, изображений и видео
— Позволяет создавать конвейеры на основе языковых моделей для выполнения подсказок LLM, ответов на вопросы, маркировки, транскрипции, перевода, резюмирования и т. д.
— Можно запускать локально или масштабировать с помощью оркестрации контейнеров

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✅ Друзья, этой осенью в Москве состоится Ai Conf 2024 – первая прикладная тематическая конференция по Data Science.

Темы конференции:

- работа со звуком
- компьютерное зрение и генерация изображений
- обработка естественного языка
- рекомендательные системы и поиск
- умные механизмы
- разработка агентов
- академические исследования
- оптимизация использования железа и др.

Программа конференции будет строиться вокруг областей применения машинного обучения, а к выступлению приглашены не только спикеры из отраслей отраслей IT, Интернет и E-commerce, но и из отраслей реального сектора.

Вам есть чем поделиться? Отправляйте заявку на спикерство на сайте

🎁 Для всех наших спикеров предусмотрены бонусы: билет на конференцию; покроем ваши расходы на логистику, будь то поезд, самолет или автобус; предоставим вам номер в комфортабельном отеле рядом с местом проведения конференции; и, конечно, поможем подготовиться к выступлению.

Подробности о конфeренции AiConf

erid:2VtzqvzVtR3
Реклама ООО «Конференции Олега Бунина»
ИНН 7733863233

Читать полностью…

Анализ данных (Data analysis)

Приглашаем Data Engineer на проект «Прикладная аналитическая платформа Сбер B2C» ⚡️

Платформа позволяет создавать аналитические витрины на Data Lake по различным направлениям бизнеса. Мы анализируем клиентские пути, создаём синергию в продуктах и сервисах и формируем целостное предложение для сегментов.

Какие задачи будут в вашем планере:

👉 Ведение стримов разработки витрин.
👉 Управление жизненным циклом разработки витрин, умение находить правильный баланс между скоростью и качеством разработки.
👉 Организация внутрикомандных взаимодействий и мотивация.

Мы активно расширяемся и усиливаем нашу команду, поэтому сейчас ищем талантливых Lead/Senior/Middle Data Engineer с опытом разработки приложений на Spark от двух лет, Scala/Java, знанием конвейеров и инструментов CI/CD.

Читайте подробности и откликайтесь по ссылке 😉

Читать полностью…

Анализ данных (Data analysis)

⚡️ Коллекция LLM-приложений с RAG, использующих OpenAI, Anthropic, Gemini и open-source модели

git clone https://github.com/Shubhamsaboo/awesome-llm-apps.git 
cd awesome-llm-apps/chat_with_gmail
pip install -r requirements.txt


Это подборка LLM-приложений, созданных с помощью RAG и AI-агентов.
Эти приложения можно запустить локально.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 InterpretML позволяет интерпретировать и объяснить работу конкретных ML-пайплайнов

pip install interpret

Цель InterpretML — сделать ML более понятным, чтобы работать с какими-то алгоритмами и пайплайнами, как с чёрным ящиком.
Поддерживает обучение специальных интерпретируемых моделей (glassbox), а также объяснение существующих конвейеров ML (blackbox).

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Подборка полезных ресурсов по Data Science и ML

Здесь собраны open-source книги, туториалы по работе с данными при помощи R и Python, гайды с объяснением ML-алгоритмов

▶️ Полезные ресурсы

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Что нужно знать о генеративном Computer Vision

Генеративные модели — самая обсуждаемая и быстро развивающаяся тема в DL за последние 2 года. В CV это DALL-E, Midjourney, Stable Diffusion и прочие.

Но на волне хайпа многие забывают, что помимо генерации авокадо-кресел, генеративки используют в медицине, робототехнике, фешн-индустрии, рекламе и других областях.

Если переживаете, что эпоха генеративных моделей проходит мимо вас, приходите на открытую лекцию “Погружение в Generative CV” от команды DeepSchool.

На лекции вы узнаете:
- почему генеративные модели стали так популярны
- какие задачи решают в Generative CV и какие там есть направления
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с GenCV

Также команда DeepSchool представит программу курса "Generative Computer Vision" и подарит скидки участникам🎁

📌 Лекция пройдет в четверг, 30 мая в 18:00 МСК

💡 После регистрации вы получите miro-схему с описанием направлений и инструментов в Generative CV — это поможет быстро сориентироваться и погрузиться в сферу.

Регистрируйтесь по ссылке!

Читать полностью…

Анализ данных (Data analysis)

✍️ Яндекс открыл приём заявок на международную научную премию Yandex ML Prizeх

Премия вручается молодым исследователям, научным руководителям и преподавателям за достижения в области компьютерного зрения, машинного перевода, распознавания и синтеза речи, анализа данных и генеративных моделей.

В этом году будет 5 номинаций:
▪️ Первая публикация,
▪️ Исследователи,
▪️ Молодые научные руководители,
▪️ Научные руководители,
▪️ Преподаватели ML.

Лауреаты получат денежные премии. Исследователи — по 500 тысяч рублей, научные руководители и преподаватели — по миллиону рублей.
↗️ Приём заявок продлится до 21 июня, вручение премии состоится осенью.

Реклама. ООО "Яндекс", ИНН 7736207543.

Читать полностью…

Анализ данных (Data analysis)

Работаете в области проектирования ПО и хотите ускорить свой профессиональный рост? Выйти на новый уровень будет гораздо проще с онлайн-магистратурой Яндекса и ИТМО «ПО высоконагруженных систем».

Поступив на программу, вы с первого семестра погрузитесь в работу над реальными задачами из индустрии. Собирая ценные кейсы в портфолио, вы прокачаете навыки проектирования сложных систем и управления крупными проектами. Всё это — онлайн, из любой точки мира!

Программа подходит как выпускникам профильных вузов и стажёрам, так и специалистам с опытом. Первым можно будет пройти двухлетний стандартный трек, а вторым — ускоренный, изучая интересующие дисциплины на протяжении года.

Подайте заявку на магистратуру и выйдите на новый уровень в IT.

Читать полностью…

Анализ данных (Data analysis)

⭐️ LM-Studio. Запускаем у себя на ПК АНАЛОГ GPT. Генерируем Flask приложение с помощью ИИ.

https://www.youtube.com/watch?v=bsbW8UoA0zA

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 PennyLane — open-source кроссплатформенный фреймворк Python для квантового Machine Learning и квантовых вычислений

pip install pennylane

PennyLane — это фреймворк для квантового Machine Learning и не только; некий аналог TensorFlow и PyTorch, но для квантовых вычислений.
PennyLane может работать практически на любом оборудовании.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Xinference — лёгкая замена LLM в своём приложении

pip install "xinference[all]"
xinference-local

Xinference позволяет заменить GPT от OpenAI в своём приложении на другую LLM, изменив всего одну строчку кода.

Быстрый старт с помощью Docker (предполагается, что CUDA настроен):
docker run --name xinference -d -p 9997:9997 -e XINFERENCE_HOME=/data -v </on/your/host>:/data --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0

🖥 GitHub
🟡 Доки
🟡 Google Colab для экспериментов

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Haystack — фреймворк Python для создания приложений на базе LLM

pip install haystack-ai

Haystack — это фреймворк для создания настраиваемых, готовых к продакшену LLM-приложений.
Позволяет подключать компоненты (разные модели, векторные БД, конвертеры файлов) к конвейерам или агентам для взаимодействия с данными.
Благодаря продвинутым методам поиска, он лучше всего подходит для создания RAG, чат-ботов или семантического поиска.

Haystack бурно развивается, относительно недавно вышло значительное обновление — Haystack 2.0.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как понять, подходит ли вам финтех?

Дата-аналитиками работают те, кому нравятся большие данные и большие зарплаты. Если узнали в этом описании себя — финтех для вас.

30 мая в 18:00 мск пройдёт день открытых дверей онлайн-магистратуры МФТИ и Нетологии «Финансовые технологии и аналитика». На встрече вы узнаете о задачах Data Analyst, трендах индустрии и карьерных возможностях для студентов вуза. Отдельно расскажем, как работает онлайн-образование и что нужно для поступления.

Записывайтесь на встречу, если хотите узнать больше о финтехе и возможностях онлайн-образования.
🔗Ссылка: https://netolo.gy/da9m
Реклама ООО “Нетология” 2VSb5ykbrYQ

Читать полностью…
Subscribe to a channel