data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🔥 Ichigo — ИИ инструмент, предназначенный для расширения возможностей текстовых моделей посредством добавления к ним обработки аудио в реальном времени!

🌟 Он расширяет текстовые модели, позволяя им обрабатывать аудиовводы, поддерживать интерактивные многотуровые сессии, а также игнорировать незначительные шумы. В проекте есть инструменты для развертывания с Docker и обучения с Hugging Face, включая генерацию синтетического аудио

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Топовый ивент для айтишников на МТС True Tech Champ 🚀 уже открыта регистрация!

Финал ИТ-чемпионата состоится совсем скоро:

Дата: 8 ноября
Место: МТС Live Холл
Формат: Офлайн + Онлайн

Что тебя ждет?
🤖 Захватывающее шоу с гонками роботов в интерактивных лабиринтах
🕹 Более 20 активностей для программистов и любителей технологий
🧠 Вдохновляющие выступления экспертов, полезные воркшопы и даже немного юмора от разработчиков

Это мероприятие идеально подходит тебе, если:
— Ты занимаешься программированием
— Тебе интересны современные технологии
— Ты планируешь строить карьеру в сфере ИТ

Регистрация заканчивается через несколько дней — поспеши зарегистрироваться: https://truetechchamp.ru/conf

Читать полностью…

Анализ данных (Data analysis)

🌟 Яндекс разработал новое поколение языковых моделей YandexGPT 4.

В Yandex Cloud стало доступно новое семейство моделей, представленное в двух версиях — Pro и Lite. Эти модели обеспечивают более точные ответы, способны работать с расширенным контекстом и лучше справляются с длинными текстами.

🌟 Первым сервисом, использующим YandexGPT 4 с опцией «Про», станет Алиса. Алексей Долотов, руководитель продуктов ML в Yandex Cloud, и Андрей Бут, руководитель команды YandexGPT Alignment, поделились подробностями о процессе обучения YandexGPT 4 и ее отличиях от предыдущих моделей в новой статье на Хабре.

🔗 Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Data Formulator — инструмент от Microsoft для интерактивного создания визуализаций данных с помощью AI!

🌟 Пользователи могут комбинировать командные интерфейсы и текстовые подсказки, чтобы задавать параметры графиков, при этом AI помогает в трансформации данных для создания диаграмм. Инструмент доступен как через Python, так и через GitHub Codespaces, что позволяет легко развернуть его и использовать для визуализации сложных данных

🔐 Лицензия: MIT

📖 Arxiv
🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💡 zerox — инструмент для извлечения текста и структурированной информации из PDF-документов с использованием методов OCR (распознавания текста) и NLP

🌟 Основной акцент сделан на поддержку zero-shot обучение (без обучения на конкретных примерах), что позволяет извлекать текстовые данные из документов без необходимости предварительной настройки или обучения на конкретных данных. Проект предназначен для автоматизации анализа и обработки PDF в бизнес-приложениях

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как нужно укомплектовать команду ML для решения задачи?

🔹Расскажем на открытом уроке «Структура и построение ML команды» про композицию ML команды, различные роли в ней и их зоны ответственности

Поговорим о том, зачем нужны ролы Data Scientist, Data Analyst, BI Analyst, ML Engineer, Data Engineer. Как организовать работу команды и взаимодействие внутри нее.

Урок приурочен новому курсу «ML Team Lead» от Otus.

👉 Регистрация и подробности:
https://otus.pw/P1bV/?erid=LjN8KSHoV

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

🔥 Rocketnotes — веб-приложение для ведения заметок с поддержкой Markdown, оснащённое инструментами генерации текста и семантического поиска на базе LLM!

🌟 Приложение полностью работает без сервера и поддерживает локальный запуск с Docker. Среди функций — иерархия документов, подсветка синтаксиса, поиск по содержимому и взаимодействие с заметками через чаты

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📌Учебное пособие по диффузионным моделям для обработки изображений и СV.

Учебник Стэнли Чана, профессора кафедры электротехники, вычислительной техники и статистики Purdue University (США), содержит ультраполезные знания в области диффузионных моделей в контексте обработки изображений и CV. Он доступно и детально объясняет сложные концепции и подходит как опытным профессионалам, так и тем, кто только начинает изучать эту область.

Для профессионалов, уже работающих с диффузионными моделями или стремящихся углубить свои знания, этот учебник послужит отличным ресурсом, который предоставляет прочную основу для понимания и применения концепций в прикладных задачах.

▶️ Содержание:

Вариационный автоэнкодер (VAE)

🟢Структурные элементы VAE
🟢Нижняя граница доказательства (ELBO
🟢Оптимизация в VAE
🟢Заключение и ограничения

Вероятностная модель диффузионного денойза (DDPM)

🟠Базовые элементы DDPM
🟠Нижняя граница доказательства (ELBO)
🟠Распределение обратного процесса
🟠Обучение и инференс
🟠Предсказание шума
🟠Неявная модель диффузионного денойза (DDIM)
🟠Заключение и преимущества DDPM и DDIM

Динамика сопоставления баллов Ланжевена (SMLD)

🟢Выборка из распределения
🟢Функция оценки Штейна
🟢Методы сопоставления баллов
🟢Итоги по SMLD

Стохастическое дифференциальное уравнение (SDE)

🟠От итерационных алгоритмов к обыкновенным дифференциальным уравнениям
🟠Что такое SDE?
🟠SDE для DDPM и SMLD
🟠Численные решатели для ODE и SDE
🟠Заключение и взаимосвязь между DDPM, SMLD и SDE

Уравнения Ланжевена и Фоккера-Планка

🟢Броуновское движение
🟢Мастер-уравнение
🟢Разложение Крамерса-Мойала
🟢Уравнение Фоккера-Планка
🟢Заключение и связь между SDE и уравнением Фоккера-Планка


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #Tutorial #Duffusion

Читать полностью…

Анализ данных (Data analysis)

❓Узнайте как построить модель финансового рынка, создать и обучить торгового агента с использованием специализированного фреймворка на открытом уроке в Otus

Моделировать финансовый рынок непростая задача, а когда мы хотим обучить торгового агента для эффективной работы, она становится непосильной для одного человека

На открытом уроке «Построение торгового агента на базе алгоритмов обучения с подкреплением» рассмотрим свободно распространяемые фреймворки для моделирования финансового рынка

✅ Сосредоточимся на финансовой стратегии, а детали реализации алгоритма фреймворк возьмет на себя 

Регистрация на урок 👇
https://otus.pw/tw3f/?erid=LjN8K5QHu

#реклама
О рекламодателе

Читать полностью…

Анализ данных (Data analysis)

🎮 Quake3LLM - это проект, который позволяет создавать ботов для игры Quake 3 Arena, используя язык программирования C++.

Боты общаются между собой и игроками посредством Llama.cpp. В целом, тексты, генерируемые этими ботами, выглядят нормально, но иногда встречаются странные фразы.

Проект доступен на GitHub по ссылке https://github.com/jmarshall23/Quake3LLM.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 LongVU

LongVU, видеоредактор с пространственно-временным механизмом адаптивного сжатия, предназначенный для понимания видео продолжительностью в час в реальном времени. LongVU адаптивно сокращает количество видео-маркеров, используя (1) сходство функций DINOv2 в разных кадрах, (2) Кросс-модальное сходство текстовых кадров и (3) сходство временных кадров.

1. Высокое качество работы: 67,6% на EgoSchema, 66,9% на MVBench, 65,4% на MLVU и 59,5% на VideoMME long
2. повышение точности в среднем на 5% в различных тестах понимания видео по сравнению с LLaVA-OneVision и VideoChat2
3. Модель, LongVU-3B, также значительно превзошла аналоги 4B, такие как VideoChat2(Phi-3) и Phi-3.5-vision-instruct, по производительности.

📝Статья: https://huggingface.co/papers/2410.17434
💻Код: https://github.com/Vision-CAIR/LongVU
🚀Проект (демо): https://vision-cair.github.io/LongVU

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Небольшой курс от Anthropic по промпт-инженерингу!

🌟 Этот курс включает примеры, советы и задачи, направленных на улучшение точности и надежности ответов модели.

Он предназначен для того, чтобы вы могли глубже понять принципы работы с большими языковыми моделями и лучше управлять результатами генерации, повышая качество и соответствие запросов и ответов моделей!

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔈 Vocal Remover — бесплатный онлайн-инструмент для разделения вокала и музыкального сопровождения в треках, улучшения качества аудио а также изменение высоты тона и скорости трека!

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Видео от университета Стэнфорда о создании больших языковых моделей!

💡 Это видео — краткий обзор создания модели, подобной ChatGPT, охватывающий как предварительное обучение модели, так и последующее обучение (SFT/RLHF).

В видео рассматриваются общие практики сбора данных, алгоритмы и методы оценки модели.

🕞 Продолжительность: 1:44:30

🔗 Ссылка: *клик*

Читать полностью…

Анализ данных (Data analysis)

🤗 Вышла Transformers.js версия 3!

⚡ Поддержка веб-графических процессоров (до 100 раз быстрее, чем WASM)
🔢 Новые форматы квантования (dtypes)
Всего поддерживается 120 архитектур
📂 25 новых примеров проектов и шаблонов
✅ Более 1200 предварительно сконвертированных моделей
✅ Node.js Совместимость с ESM + CJS, Deno и Bun

Начните работу с npm i @huggingface/transformers

https://huggingface.co/blog/transformersjs-v3

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Agent-S — open-source фреймворк от Simular AI, который создаёт ИИ-агентов, способных автоматически взаимодействовать с компьютером, имитируя действия человека.

💡 Проект предназначен для разработки ИИ-агентов, способных обучаться и выполнять сложные задачи, такие как управление GUI. Поддерживает интеграцию с крупными языковыми моделями (LLM) и предоставляет API для поиска и извлечения данных через Perplexica.

🔐 Лицензия: Apache-2.0

📖 Arxiv
🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Maxun — бесплатная open-source платформа без кода для извлечения веб-данных.

🌟 Инструмент позволяет пользователям создавать агентов, которые автоматически собирают данные с веб-сайтов, поддерживая различные действия, такие как захват списков, текста и скриншотов. Также предусмотрена поддержка интеграции с Google Sheets, прокси для обхода защит, а для тех, кто не хочет управлять инфраструктурой, доступна облачная версия. Поддерживаются авторизация и двухфакторная аутентификация для работы с защищенными ресурсами.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Integuru — это репозиторий с AI-агентом для автоматического создания интеграций с платформами через реверс-инжиниринг их внутренних API!

💡 Пользователь может предоставить файл сетевых запросов, cookies и указать требуемое действие, а Integuru создает зависимые запросы и Python-код для выполнения этой задачи. Использует модели OpenAI, поддерживает управление входными переменными и автоматическое построение графа зависимостей запросов. Подходит для генерации кода, автоматизации RPA и работы с неофициальными API

🔐 Лицензия: AGPL-3.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Яндекс объявил победителей ежегодной научной премии Yandex ML Prize. В этом году из 160 заявок выбрали 14 учёных, которые представили наиболее значимые разработки в области генеративных моделей, обработки естественного языка, компьютерного зрения, информационного поиска, распознавания и синтеза речи, когнитивной робототехники.

Вот некоторые из лауреатов:
🟢 Елена Тутубалина (Казанский федеральный университет, AIRI) занимается исследования в в области анализа естественного языка, биомедицинских и химических данных. Её разработки могут сделать процесс разработки лекарств более эффективным.

🟢 Алексей Скрынник (AIRI) разрабатывает алгоритмы многоагентного обучения, которые позволяют агентам (например, роботам) работать автономно, без центрального управления. Эти методы подходят для задач, где важна скоординированность действий, например, в логистике и на промышленных объектах.

🟢 Валерия Ефимова (ИТМО) ведет научную деятельность в области компьютерного зрения в областях медицины и промышленности. Её исследования могут повысить эффективность производства в промышленных предприятиях — находить дефекты и оценивать качество материалов.

А что они получат за свои достижения? Денежные награды, а также доступ к Yandex 360 и гранту на работу с сервисом Yandex Cloud — с его помощью можно выполнять объёмные вычисления и обрабатывать данные экспериментов.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📖 Книга "Algorithms for Decision Making" от MIT охватывает алгоритмы и методы для принятия решений в условиях неопределённости

🌟 В книге обсуждаются такие темы как оптимизация мл-алгоритмов , машинное обучение, вероятностные модели и планирование, с акцентом на алгоритмы для принятия решений в реальном времени и под воздействием ограничений. Этот материал полезен для специалистов в областях искусственного интеллекта, дата саентистов, робототехники и инженерии, где важно оптимизировать стратегии в условиях ограниченной информации.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📚 Свежие гайды от Anthropic : Реализация Contextual RAG с открытым исходным кодом

Что внутри :
1. Использование Llama 3.2 3B для эффективной генерации контекста для каждого чанка
2. Использование алгоритмов ранжирования: векторного и BM25
3. Выполнение гибридного поиска
4. Ранжирование результатов гибридного поиска
5. Генерации с помощью Llama 3.1 405B

📌 Смотреть

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Тренажёр-практикум Python и SQL
(от NumPy и OpenCV до PostgreSQL) в аналитике данных и ML


Откройте карьерные возможности в машинном обучении и аналитике данных
- Научитесь проводить анализ больших объёмов данных.
- Создавайте интерактивные и 3D-визуализации для представления данных.
- Освойте работу с SQL-базами для хранения, модификации и извлечения данных.

Для кого будет полезен этот тренажёр?

Аналитикам данных, бизнес-аналитикам и продуктовым специалистам:
Новичкам и продолжающим в области анализа и визуализации данных, которые хотят освоить ключевые инструменты для эффективного анализа и машинного обучения.

Тем, кто уже знаком с Python и стремится развиваться в аналитике данных и ML:
Разработчикам и специалистам по данным, стремящимся углубить навыки обработки данных и визуализации.

Инженерам данных и всем заинтересованным:
Тем, кто сталкивается с трудностями при предобработке данных для моделей машинного обучения и хочет выстроить системный подход к работе.

Тем, кто стремится автоматизировать процессы и управлять данными:
После курса вы научитесь эффективно работать с NumPy и Pandas, создавать визуализации через Matplotlib и Seaborn, а также управлять базами данных с PostgreSQL.

🎓 Попробуйте первые уроки бесплатно!
В демо-версии курса вы познакомитесь с основами библиотек NumPy, Pandas и Matplotlib, научитесь создавать и редактировать массивы, работать с изображениями и применять эти навыки для решения практических задач.
Пройдите 6 практических заданий сразу!
PS. В демо также доступен ИИ-бот ДуДу с code review 24/7.

👉 Регистрация на демо-доступ

Читать полностью…

Анализ данных (Data analysis)

🖼 DreamCraft3D — метод для иерархической генерации 3D-объектов с помощью диффузионных моделей. Этот подход, разработанный для ICLR 2024, использует поэтапную генерацию форм, включая начальную грубую геометрию и уточнение деталей, что позволяет создавать высококачественные 3D-модели

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔦Компания alvinzhang только что выпустила версию IC-Light v2

IC-Light v2 теперь работает на FLUX и является лучшим инструментом для редактирования освещения 🌐

Попробуйте официальную демку ✨📣 https://huggingface.co/spaces/lllyasviel/iclight-v2

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Brush — это инструмент для создания 3D-моделей с помощью метода Gaussian splatting.

Онаработает на разных платформах: macOS, Windows, Linux и Android.

Программа позволяет создать 3D модель объекта, используя множество фотографий этого объекта под разными углами.

*Brust написан на я Rust. В нём используются библиотеки wgpu и Burn, которые позволяют создавать независимые бинарные файлы и запускать их на различных устройствах.

📌 Ссылка на репозиторий Brush

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc


💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

🎧В чем разница между DS в банке и DS в промышленности? Рассказывает директор ИИ-департамента «Русала»

Как объединить данные со 100 региональных площадок в одну эффективную базу?
Насколько часто нужно переобучать модель в промышленности и что влияет на дрейф данных?
Кого промышленные DS хотят видеть в своей команде и похожи ли их задачи на задачи финтеха?

Ответы найдете в новом выпуске подкаста «Деньги любят техно». Общаются Юлий Шамаев, ВТБ, Михаил Граденко, «Русал», и технологический обозреватель Марина Эфендиева.
Для справки: этот сезон подкаста выходит также в видеоформате и целиком посвящен ML в разных отраслях. В прошлом эпизоде, кстати, говорили о ретейле вместе с Авито.

Послушать выпуск в аудиоверсии
Посмотреть видеоверсию в ВК

Читать полностью…

Анализ данных (Data analysis)

⚡️ CtrLoRA: Расширяемая и эффективная платформа для генерации управляемых изображений

Сперва обучается ControlNet с LORA, настроенный на конкретные задачи, с использованием крупномасштабного датасета.

Затем базовая сеть ControlNet может быть эффективно адаптирована к новым задачам с помощью новой LoRa, которой необходимо всего 1000 изображений и менее 1 часа на одном графическом процессоре.

Это сокращает количество параметров на 90%, что значительно упрощает создание новых условий управления.

▪️Github
▪️Статья
▪️Модель

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ FatLlama-1.7T

Зачем кому-то создавать FatLlama-1.7T? Серьезно, в чем смысл?

Однажды вы просыпаетесь и думаете: "Знаете, что нам нужно? Такая огромная модель, чтобы даже облака занервничали". Это все равно что решить построить ракету только для того, чтобы сгонять в супермаркет.

Конечно, это впечатляет, но кто будет ее запускать? Скорее всего, не вы, если только ваш ПК не является нелегальным ядерным реактором.

И что же она умеет? Может быть, предсказывать ваши электронные письма еще до того, как вы подумаете их написать, или просто станет очень хорошо находить в сети видео с котами, кто ж знает...

Вопрос в том, создаем ли мы эти гигантские модели, потому что можем или потому что нам есть что показать Вселенной?

FatLlama-1.7T - это не столько ИИ, сколько "подержите мое пиво, я собираюсь запустить эту штуку".

И вот она, FatLlama-1.7T, которая займет ВСЕ место на вашем жестком диске. Забудьте о сохранении семейных фотографий или драгоценном архиве книг, которые вы никогда не прочитаете. Вам же не так уж и нужны были эти жалкие 3 ТБ свободного места, правда? Зато теперь у вас есть цифровой гигант.

Квантованные версии? Да не вопрос, удачи с запуском, держитесь там.

Даже если каким-то чудом вам удастся запустить FatLlama-1.7T, не спешите расслабляться, ведь вы знаете, что будет дальше, верно? FatLlama 3T.

К тому времени, когда вы выработаете максимум энергии и превратите свой дом в центр обработки данных, чтобы запустить свежую FatLlama 3T, я перейду к FatLlama 5.8T, для которой, вероятно, потребуется маленькая галактика в качестве источника энергии.

Вызов принят? 😁

🟡Модель
🟡Набор GGUF

@ai_machinelearning_big_data

#AI #ML #LLM

Читать полностью…

Анализ данных (Data analysis)

🔥 В этом гайде показано как использовать Qwen-2.5 в качестве интерпретатора кода.

🌟 Модель способна обрабатывать запросы, генерировать и интерпретировать код для различных вычислительных задач и анализа данных.

Этот инструмент особенно полезен для тестирования моделей и работы с данными.

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…
Subscribe to a channel