data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

Я рекомендую вам обратить внимание на курс, который предлагает освоить аналитику данных через решение реальных бизнес-кейсов *️⃣

Обучение позволит не просто изучить теорию, но и получить практический опыт работы с данными, который пригодится вам при трудоустройстве.

Важным преимуществом данного курса является возможность выбора индивидуальной программы обучения, которая поможет вам достичь ваших карьерных целей, будь то работа в крупной IT-компании или релокация. Кроме того, курс предоставляет помощь в подготовке к собеседованиям, что значительно повышает шансы на успешное трудоустройство.

🔥Более 87% студентов курса уже нашли работу в течение двух месяцев после окончания обучения.
Многие из них сейчас успешно трудятся в таких известных компаниях, как Тинькофф, Авито, Яндекс, Skyeng, Магнит, Сбер, Ozon, Альфабанк и другие.

После прохождения курса вы сможете сформировать уникальное портфолио, содержащее решения задач из различных сфер бизнеса. Эти задачи нельзя найти в интернете или на Хабре, поэтому ваше портфолио будет действительно выделяться среди других кандидатов на вакансии.

Курс предоставляет возможность учиться в удобном для вас темпе, а доступ к материалам остается навсегда. Если вы хотите начать обучение прямо сейчас, оставляйте заявку на сайте и получите скидку 10% по промокоду ML

Читать полностью…

Анализ данных (Data analysis)

Зачем тестировать торговую стратегию?

✅ Разберемся в теме на практическом уроке  — Тестирование торговых стратегий с помощью инструмента Backtrading

Урок посвящен курсу «ML для финансового анализа» по окончанию которого вы создадите торгового робота для автоматического проведения операций с оценкой уровня риска

Регистрация на урок 👇
https://otus.pw/s5V4o/?erid=LjN8KEqkb

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

Послушать и посмотреть под кофе: новый эпизод подкаста «Деньги любят техно» про Data Science и ML в больших компаниях вышел на всех популярных платформах.

В выпуске обсудили:
● С чего начинается путь в Data Science
● Какие задачи кажутся интересными на старте и по мере роста специалиста
● Как ML встраивается в бизнес-процессы и кто ставит задачи
● Без каких компетенций не обойтись ML-специалисту
● Какие задачи будут актуальны в следующие несколько лет

Гость: старший директор по данным и аналитике «Авито» Андрей Рыбинцев.
Ведущие: начальник управления моделирования партнерств и ИТ-процессов ВТБ Юлий Шамаев и технологический обозреватель Марина Эфендиева.

-> Смотреть
-> Слушать

Читать полностью…

Анализ данных (Data analysis)

Познакомьтесь с одной из самых востребованных сфер IT — Python-разработкой. Сколько зарабатывают эти специалисты? Можно ли работать удалённо? Что нужно для старта? На все вопросы ответим на бесплатном мини-курсе по Python, регистрируйтесь: https://epic.st/ukJeX?erid=2VtzquxDrPB

Что особенного в мини-курсе по Python:
— Подходит даже новичкам — от вас не требуется знаний и опыта в IT
— 4 крутых проекта для портфолио
— Практические задания для проверки знаний
— Живое общение со спикером
— 5 статей для старта карьеры в Python-разработке
— Бессрочный доступ к видео

Спикер — Анастасия Борнева, руководитель направления по исследованию данных в «Сбере». Опыт в программировании — более 9 лет. С 2018 года — эксперт по автоматизации процессов с помощью искусственного интеллекта в «Сбере».

Успейте записаться и получить подарки!

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…

Анализ данных (Data analysis)

Осень — время новых знаний! 👨‍🎓

И мы знаем, где будут прокачивать свои hard и soft skills IT-специалисты — на IT Community Day, который Сбер проведёт сразу в трёх городах:

✔️ В Санкт-Петербурге 5 октября обсудим искусственный интеллект, возможности фронтенда, новую среду разработки и мотивацию для айтишников.

✔️ В Казани 12 октября научимся управлять большими данными, укрощать искусственный интеллект, создавать успешное резюме и находить подход к карьере.

✔️ В Екатеринбурге 19 октября поговорим об интеграции LLM в приложение, методологии API-first и комбинации личного и профессионального развития.

Во всех городах вас будут ждать топовые спикеры, а после докладов — afterparty. Регистрируйтесь на IT Community Day в Санкт-Петербурге, Казани и Екатеринбурге👌

Читать полностью…

Анализ данных (Data analysis)

🖥 Репозиторий на Github, в котором собраны лучшие промпты для всевозможных задач, а также способы обхода цензуры LLM

🌟Списки постоянно обновляются, последнее обновление было 3 дня назад!

Здесь можно найти запросы под всевозможные сферы: от IT до бизнес - советов.

▪️Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👩‍💻 Ускорь Pandas в 20 раз, изменив всего одну строчку кода! 🔥

💡 Pandas часто бывает медленным. Но есть простое решение: FireDucks — библиотека с таким же API, как у Pandas, которая решает значительно ускоряет обработку данных.

Как ускорить Pandas?

🌟 Просто замените импорт библиотеки:

Было:


import pandas as pd


Стало:


import fireducks.pandas as pd


🌟Теперь ваш код работает быстрее без изменений логики! Попробуйте сами и убедитесь, как легко ускорить работу с большими данными! 🚀


@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 LLaMa 3.2 Multimodal Web UI — это удобный интерфейс для работы с LLaMa 3.2 на базе Ollama.

Он поддерживает различные типы данных, включая текстовые и графические и позволяет пользователям задавать вопросы и получать ответы в различных форматах: текстовом, кодовом и визуальном.

Этот интерфейс адаптирован под использование на настольных компьютерах и мобильных устройствах и был тщательно протестирован на Ubuntu.

git clone https://github.com/iamgmujtaba/llama3.2-webUI

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Учитесь в универе и давно хотите попробовать свои силы в решении реальных кейсов по машинному обучению и нейросетям? Международные олимпиады — отличный способ проверить свои знания и выйти на новый уровень!

Одна из таких олимпиад — AIDAO от Яндекса и НИУ ВШЭ. Участникам предстоит решать IT-задачи в команде из 2-3 человек, а победители получат денежные призы до 600 тысяч рублей!

Выполнять задания олимпиады нужно на английском, но разрешено пользоваться переводчиком. Если у вас нет команды, то вам помогут её найти во время регистрации.

Чтобы принять участие, надо:


- быть студентом бакалавриата или магистратуры в российском или зарубежном вузе;
- разбираться в ML, алгоритмах и работе с данными;
- подать заявку на сайте до 5 октября.

Не упустите шанс применить свои навыки на практике и посоревноваться со студентами со всего мира!

Читать полностью…

Анализ данных (Data analysis)

Оффер в дата-аналитику за выходные? Легко — для опытных специалистов на Data Weekend Offer от Авито! Пройдите ускоренный отбор, изучайте поведение пользователей и ищите точки роста бизнеса.

Вас ждет:
— конкурентная зарплата, удаленка и дополнительные дни отпуска;
— возможность прокачать свой стек – проверять бизнес-модели, тестить гипотезы, запускать фичи и улучшать пользовательский опыт;
— участие в разработке новых продуктов крупнейшего в мире сервиса объявлений;
— сильное IT-комьюнити, которое любит опенсорс.

Авито – это про карьерное развитие и комфортные условия. Регистрируйтесь до 15 октября: https://u.to/Z-bkIA

Читать полностью…

Анализ данных (Data analysis)

⚡Всероссийский хакатон по Биометрии

🚀Выберите один из предложенных кейсов:
🔹Разработка ассистента для упрощения регистрации в Единой биометрической системе (кейс ЦБТ);
🔹Создание инструмента для генерации синтетического датасета изображений ладоней (кейс Сбера);
🔹Создание инструмента для восстановления изображения из вектора биометрических персональных данных (кейс Мир Plat.form и СБП).

Отборочный этап пройдет в онлайн-формате. Финал пройдет на площадке в Москве, где команды смогут лично пообщаться с профессионалами в сфере биометрических технологий. Для финалистов из других регионов предусмотрено участие онлайн.

⏳Дедлайн регистрации: 1 октября, 23:59
🦾Отборочный этап: 4-13 октября
📆Финал: 26 октября
👨‍💻Для кого: Разработчики, ML-специалисты, Data Scientists, UX/UI-специалисты

Подробности и регистрация: https://tglink.io/29b052ab52e5?erid=LjN8Jvf5p

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

🌟 Реализация высоконагруженный процессингов и использование тяжелых моделей GPT

Как подходы к генерации развивались со временем, первый подход к оптимизации нагрузки и взаимодействие процессинга и сервиса ML‑вычислений. Команда Яндекса поделилась опытом эффективного распределения нагрузки для моделей на GPU и CPU.

🟡 Habr

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Выпущена мультимодальная Llama 3.2 — с упором на vision задачи.

- Доступны версии на 1B и 3B параметров. Версия с 3 миллиардами превосходит такие модели, как Gemma 2 и Phi-3.5 – Mini.
- Доступна маленькая версия имеет 11 миллиардов параметров.
- Средний вариант обладает 90 миллиардами параметров и превосходит GPT-4o-mini по тестам на визуальное понимание.

https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Yandex Cloud открыла доступ к Yandex Cloud AI Studio – единой платформе для создания приложений на базе ИИ

Платформа объединяет все доступные ML-решения компании, включая генеративные нейросети: YandexGPT и YandexART. Единый интерфейс позволяет упростить разработку и ускорить запуск многофункциональных ИИ-приложений.

Чтобы писать меньше кода для интеграции нейросетей, разработчики могут воспользоваться SDK-библиотекой с готовыми примерами кода.

Также пользователи смогут тестировать ML-решения в AI Playground: в нем можно вести одновременно несколько диалогов, в каждом из которых сохраняется история обращений.

Читайте подробнее в статье.

Читать полностью…

Анализ данных (Data analysis)

👀 Open AI только что выпустила многоязычный датасет Multilingual Massive Multitask Language Understanding (MMMLU) на huggingface

🌍 Набор тестов MMLU доступен на 14 языках, включая арабский, немецкий, испанский, французский,...........
🧠 Он охватывает широкий спектр тем из 57 различных категорий, от элементарных знаний до продвинутых профессиональных дисциплин, таких как юриспруденция, физика, история и информатика.
🎓 Переведено профессиональными переводчиками
🔬 Оценивает общие знания моделей искусственного интеллекта в различных культурах, используемые в openai/simple-evals
🤔 Лицензия не определена

https://huggingface.co/datasets/openai/MMMLU

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Огромный список литературы по теме Генерации синтетических данных для Больших Языковых моделей.

🔗 Ссылка на Github: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

👩‍💻 Langfun — это библиотека с открытым исходным кодом, разработанная Google.

В ней используется объектно-ориентированное программирование (ООП) для взаимодействия с LLM моделями, что упрощает создание и управление запросами через объекты и типы

🌟 Langfun поддерживает популярные LLM, такие как GPT, Claude и Llama, и легкоинтегрируется в Python-проекты.

Простота использования и мощный функционал делают библиотеку полезным инструментом для разработки ИИ-агентов и работы с большими языковыми моделями

🔐 Лицензия: Apache-2.0

▪️Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Llama Assistant — это локальный AI-помощник на основе модели Llama 3.2, предназначенный для выполнения повседневных задач. Он поддерживает голосовые команды и обработку естественного языка, а также может выполнять различные команды: от резюмирования текста и написания электронных писем до решения задач.

🌟 Проект работает офлайн, и нацелен на сохранение конфиденциальности данных.

Включает поддержку пользовательских моделей и различных языков, а также интеграцию с почтовыми сервисами и мультимедийными приложениями.

🔐 Лицензия: MIT

▪️Github

@bigdatai

Читать полностью…

Анализ данных (Data analysis)

⭐️ NLPAug – это библиотека на языке программирования Python, которая помогает улучшить работу нейросетей при решении задач обработки естественного языка (NLP) без необходимости изменять архитектуру этих сетей и проводить их тонкую настройку.

NLPAug предлагает различные методы для расширения датасетов, улучшения обобщения и производительности моделей при работе с данными.

Эта библиотека позволяет генерировать новый текст на основе существующих данных, заменяя некоторые слова синонимами, в том числе используя принцип косинусного сходства в векторных представлениях, аналогичный тому, который используется в моделях word2vec или GloVe.

Кроме того, NLPAug может заменить слова на основе контекста с помощью моделей трансформеров, таких как BERT-сети, а также выполнять двойной перевод текста на другой язык и обратно.

🖥 Библиотека доступна на GitHub: https://github.com/makcedward/nlpaug

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ YOLO11: новая эра в компьютерном зрении.

Компания Ultralytics представила YOLO11, новейшую версию своей знаменитой модели искусственного интеллекта для компьютерного зрения.

YOLO11 поддерживает широкий спектр задач CV: обнаружение объектов, сегментацию экземпляров, классификацию изображений, оценку позы, обнаружение ориентированных объектов (OBB) и отслеживание объектов. Модель получила улучшенное извлечение признаков.

YOLO11m достигает более высокого балла средней средней точности (mAP) в наборе данных COCO, используя на 22% меньше параметров, чем YOLOv8m.
YOLO11 вскоре будет доступна через Ultralytics HUB и пакет Ultralytics Python.

ultralytics.com

Читать полностью…

Анализ данных (Data analysis)

🔥 Memory pinning для ускорения обучения моделей

Если вы регулярно используете GPU для обучения моделей, то существует довольно простая техника, которая часто используется для ускорения обучения моделей.

...изменив всего две строки кода.


Рассмотрим стандартный цикл обучения модели в PyTorch (См Картинку 1)

В этом коде:
- Строка 5 передает данные в GPU из CPU.
- Все выполняется на GPU после передачи данных, то есть в строках 7-15.

💡 Это означает, что когда работает GPU, CPU простаивает, а когда работает CPU, GPU простаивает, наглядно(См Картинку 2)

⚡️ Но вот что мы можем сделать, чтобы оптимизировать:

- Когда модель обучается на 1-м батче, CPU может передать 2-й батч на GPU.
- Таким образом, GPU не придется ждать следующего батча данных, как только он завершит обработку существующего батча.

👉 Иными словами, график использования ресурсов будет выглядеть примерно так (См Картинку 3)

💡 В то время, когда CPU будет простаивать, GPU (который является фактическим ускорителем для обучения модели) гарантированно будет иметь данные для работы.

Формально этот процесс известен как memory pinning, и он используется для ускорения передачи данных от CPU к GPU, делая процесс обучения асинхронным.

Это позволяет нам готовить следующий обучающий набор параллельно с обучением модели на текущих данных.

👉 Включить эту функцию в PyTorch довольно просто. Во-первых, при определении объекта DataLoader надо установить pin_memory=True и указать num_workers (См Картинку 4)

Далее, на этапе передачи данных в шаге обучения укажите non_blocking=True (См Картинку 5)

⚡️ Готово!

Вот как работает ускорение на примере набора данных MNIST в обучении простой нейронной сети (См Картинку 6)

- Без memory pinning обучение модели на 5 эпохах занимает около 43 секунд:
- а с использованием memory pinning та же модель обучается менее чем за 10 (!!!) секунд 🔥(См Картинку 7)

📌 Важные особенности использования memory pinning:

- если несколько тензоров будут выделены в "привязанную" память, это приведет к резервированию значительной части оперативной памяти.

Поэтому, всякий раз, когда используете memory pinning - отслеживайте потребление RAM!

- когда набор данных относительно мал, memory pinning имеет незначительный эффект, поскольку передача данных от CPU к GPU все равно не занимает столько времени (См Картинку 7)

📌 Полная версия

@ai_machinelearning_big_data

Читать полностью…

Анализ данных (Data analysis)

📚 ebook2audiobook

Инструмент, который позволяет конвертировать электронные книги в аудиокниги с главами и метаданными с помощью Calibre и Coqui XTTS.

📖 Преобразует электронные книги в текстовый формат с помощью Calibre.
📚 Разбивает электронную книгу на главы для упорядоченного воспроизведения.
🎙️ Высококачественное преобразование текста в речь с помощью Coqui XTTS.
🗣️ Клонирование голоса с помощью вашего образца голоса .
⭐ Поддерживает несколько языков (по умолчанию английский, русский поддерживается).

pip install tts==0.21.3 pydub nltk beautifulsoup4 ebooklib tqdm

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Screenpipe записывает ваш экран и обрабатывает эти записи с помощью Ollama.

Инструмент написан на Rust.

Он позволяет автоматически собирать данные с вашего пк во всех форматах (текст, аудио, видео) и обрабатывать с помощью LLM.

Особое внимание уделено безопасности данных, с фокусом на локальное хранение в базе данных SQLite. Исходный код доступен на GitHub : https://github.com/mediar-ai/screenpipe

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📊 FinanceDatabase для Python — мощный инструмент для работы с финансовыми данными!

Этот репозиторий предоставляет удобный доступ к более чем 300 000 финансовых инструментов: акции, ETF, криптовалюты, облигации и многое другое. Можно легко находить информацию по каждому активу и использовать ее в своих проектах.

💡 Установка:


pip install financedatabase -U


💡 Использование:

import financedatabase as fd


🔐 Лицензия: MIT

▪️Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🐐Oryx🐐 - унифицированная мультимодальная архитектура для генераций изображений, видео и 3D-сцен с разными ракурсами.

- Проект: https://oryx-mllm.github.io
- Github: https://github.com/Oryx-mllm/Oryx
- Демо: https://huggingface.co/spaces/THUdyh/Oryx

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Исследование неочевидных аспектов квантового программирования:

10 библиотек для тех, кто хочет погрузиться в квантовое программирование:

Qiskit — это библиотека для квантового программирования, которая позволяет пользователям писать программы для квантовых компьютеров IBM. Включает поддержку классических, квантовых алгоритмов и визуализацию квантовых схем.

Cirq — это библиотека от Google для создания, симуляции и выполнения квантовых алгоритмов. Она предназначена для использования с квантовыми компьютерами и обеспечивает возможность работы с сложными квантовыми системами.

PennyLane - объединяет машинное обучение и квантовое программирование. Она позволяет пользователям создавать самонастраиваемые квантовые алгоритмы и исследовать преимущества квантовых вычислений в задачах машинного обучения.

ProjectQ - это открытая платформа для квантовых вычислений, которая позволяет пользователям реализовывать и симулировать квантовые алгоритмы, и включает в себя интерфейсы для различных квантовых процессоров.

QuTiP - предоставляет инструменты для моделирования квантовых систем и является незаменимым инструментом для исследователей квантовой механики и квантовой оптики.

PyQuil - это библиотека для написания квантовых программ с помощью языка квантового программирования Quil, разработанного Rigetti Computing. Поддерживает симуляцию и выполнение программ на реальных квантовых процессорах.

Tequila - это инструмент для создания квантовых алгоритмов с интеграцией в PyTorch и TensorFlow, который позволяет больше акцентировать внимание на квантовых вычислениях в контексте глубокого обучения.

Strawberry Fields предлагает платформу для создания и симуляции квантовых алгоритмов с использованием квантовых битов и квантовой оптики. Подходит для работы с квантовыми сетями и визуализацией в квантовых схемах.

Q# - это язык программирования от Microsoft для квантовых вычислений, который также предоставляет библиотеки, намеренные упростить разработку и выполнение квантовых алгоритмов в Azure Quantum.

Quirk — это онлайн-интерфейс для визуального проектирования и анализа квантовых схем, который позволяет легко экспериментировать с различными квантовыми логическими элементами.

#quantum #python #ai

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 ChatGPT на калькуляторе TI-84

Автор ютуб-канала ChromaLock">ChromaLock сделал модифицированный калькулятор TI-84, оснащённый возможностью выхода в интернет.

С помощью микроконтроллера ESP32C3 и специально разработанной печатной платы, калькулятор получил возможность подключения к интернету.

Связь между калькулятором и модулем осуществляется с помощью эмуляции протокола передачи данных TI-84. Специальные приложения на калькуляторе, написанные на TI Basic, взаимодействуют с микроконтроллером, отправляя и получая данные, эмулируя обмен между двумя калькуляторами, чтобы обходить ограничения отправки и получение данных.

В результате, TI-84 получил возможности:

🟠чат для связи с друзьями;
🟠браузер изображений;
🟠браузер приложений для загрузки дополнительных программ и заметок;
🟠возможность получать ответы на вопросы через ChatGPT.


@data_analysis_ml

#AI #ML #LLM #Tutorial

Читать полностью…

Анализ данных (Data analysis)

⚡️ Настоящая кладезь руководств по генеративным агентам искусственного интеллекта!

В этом репозитории вы найдете все, что связано с агентами. От простых объяснений до самых сложных тем.

https://github.com/NirDiamant/GenAI_Agents

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Вышел Face fusion 3.0

Мощное приложение для работы с лицами с открытым исходным кодом на базе Gradio, поддерживает множество новых функций, включая:

- Модификация возраста
- Редактор лиц (через LivePortrait)
- Система очередей заданий
- И многое другое

Github: https://github.com/facefusion/facefusion
Proj: join.facefusion.io
Установка: https://pinokio.computer/item?uri=https://github.com/facefusion/facefusion-pinokio

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Большинство моделей от Mistral теперь доступны бесплатно по API 😱

Что за аттракцион невиданной щедрости? Вероятно, ваши запросы будут использованы для обучения новых моделей (хотя это не точно).

VPN не требуется, карта не нужна. Пользуйтесь!

@data_analysis_ml

Читать полностью…
Subscribe to a channel