data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

Qwen2.5-Версия Turbo, которая включает:

📚 Поддержка расширенного контекста: Разработчики увеличили длину контекста модели со 128L до 1 М, что составляет примерно 1 миллион английских слов или 1,5 миллиона китайских иероглифов, что эквивалентно 10 крупным романам, 150 часам расшифровки речи или 30 000 строкам кода.

🚀 Более высокая скорость логического вывода: Используя механизмы разреженного внимания, разработчики успешно сократили время обработки контекста 1 млн токенов с 4,9 минут до 68 секунд, достигнув ускорения в 4,3 раза.

✅ Более низкая стоимость: При той же стоимости Qwen2.5-Turbo может обрабатывать в 3,6 раза больше токенов, чем GPT-4o-mini.

Теперь вы можете использовать его через API-сервис <url>.
➡ Alibaba Cloud Model Studio: https://help.aliyun.com/zh/model-studio/getting-started/what-is-model-studio,
HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
Демо: https://modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💼 PhySO | DL-регрессия для подбора функции

Инструмент, который использует глубокое обучение с подкреплением для подбора наиболее подходящей функции, описывающей заданные данные.

git clone https://github.com/WassimTenachi/PhySO

📌 Репозиторий

@data_math

Читать полностью…

Анализ данных (Data analysis)

Тренажёр-практикум Python и SQL
(от NumPy и OpenCV до PostgreSQL) в аналитике данных и ML


Откройте карьерные возможности в машинном обучении и аналитике данных
- Научитесь проводить анализ больших объёмов данных.
- Создавайте интерактивные и 3D-визуализации для представления данных.
- Освойте работу с SQL-базами для хранения, модификации и извлечения данных.

Для кого будет полезен этот тренажёр?

Аналитикам данных, бизнес-аналитикам и продуктовым специалистам:
Новичкам и продолжающим в области анализа и визуализации данных, которые хотят освоить ключевые инструменты для эффективного анализа и машинного обучения на практике.

Тем, кто уже знаком с Python и стремится развиваться в аналитике данных и ML:
Разработчикам и специалистам по данным, стремящимся углубить навыки обработки данных и визуализации.

Инженерам данных и всем заинтересованным:
Тем, кто сталкивается с трудностями при предобработке данных для моделей машинного обучения и хочет выстроить системный подход к работе с ними.

Тем, кто стремится автоматизировать процессы и управлять данными:
После курса вы научитесь эффективно работать с NumPy и Pandas, создавать визуализации через Matplotlib и Seaborn, а также управлять базами данных с PostgreSQL.

🎓 Попробуйте первые уроки бесплатно!
В демо-версии курса вы познакомитесь с основами библиотек NumPy, Pandas и Matplotlib, научитесь создавать и редактировать массивы, работать с изображениями и решать практические задачи.
Пройдите 6 практических заданий сразу!
PS. В демо также доступен ИИ-бот Ду-Ду с code review 24/7.

👉 Регистрация на демо-доступ

Читать полностью…

Анализ данных (Data analysis)

🔥 Chonkie — легковесная библиотека на Python для текстовой сегментации (или "chunking") в задачах Retrieval-Augmented Generation (RAG)!

💡 Цель этой библиотеки — обеспечить высокую производительность и удобство в обработке больших текстов, разбивая их на сегменты для использования в чат-ботах и других NLP-приложениях. Chonkie поддерживает различные методы сегментации, включая разделение по токенам, словам, предложениям и даже по семантическому признаку, что делает её универсальной и эффективной для задач анализа текста и обработки естественного языка.

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥Полезный репозиторий, который содержит список ПО, позволяющего осуществлять серфинг и дата майнинг в сети с помощью ИИ.

🔐 Лицензия: CC0-1.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Полезный репозиторий-руководство по работе с LLM!

⭐️ Здесь собраны различные инструменты, данные и методы для обучения и оценки LLM, адаптированных под написание программного кода!

🔐 Лицензия: MIT

🖥 GitHub

Читать полностью…

Анализ данных (Data analysis)

🔥 Laminar — это открытая платформа с набором инструментов для разработки продуктов в области искусственного интеллекта, предоставляющая возможности работы с трассировкой (traces), оценкой моделей (evals), датасетами и разметкой данных!

⭐️ Разработанная с учетом потребностей как исследователей, так и разработчиков, платформа облегчает процесс создания и мониторинга моделей ИИ на основе большого количества данных. Laminar включает поддержку SDK для языков, таких как TypeScript и Python, и использует подходы наблюдаемости для упрощения отладки и мониторинга, особенно при работе с LLM.

🔐 Лицензия: Apache-2.0

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌐 WebRL — это проект, предназначенный для создания интеллектуальных веб-агентов, способных выполнять задачи по навигации на веб-сайтах с использованием LLM!

⭐️ Основная цель WebRL — дать агентам способность понимать и интерпретировать HTML-страницы и адаптироваться к различным задачам, таким как сбор информации или взаимодействие с элементами интерфейса.

📖 Читать: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🤗 Watermarking with Gradio: Example

Gradio demo упрощает использование генерации водяных знаков для отслеживания происхождения генераций🚀

Протестируйте здесь: https://huggingface.co/spaces/meg/watermark_demo

#AIEthics #Машинноеобучение

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Полезный репозиторий-руководство по работе с LLM!

⭐️ Здесь собраны различные инструменты, данные и методы для обучения и оценки LLM, адаптированных под написание программного кода!

🔐 Лицензия: MIT

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ RuQwen2.5-3B-Instruct-AWQ — это улучшенная версия серии моделей Qwen2.5 на 3млрд параметров, адаптированная для русскоязычных задач.

Что сделано
Полностью решена проблема генерации иероглифов. Проблема часто возникала в кейсах генерации ответов, содержащих смесь русского и английского текста, терминов, сокращений (модель по сути сбивалась).

Применен алгоритм FRT, который позволяет добиваться русификации иностранных моделей.
Благодаря оптимизациям, модель обеспечивает бОльшую связность текста на русском языке, делая её отличным выбором для различных приложений, требующих работы с русскоязычным контентом.

Модель разработана командой FractalGPT специально для генерации текста на русском языке, сохраняя широкую поддержку и для других языков. Cвободно доступна для скачивания на HF

🤗 Карточка модели на HF

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как BI аналитика влияет на рост продаж в розничной сети
14 ноября в 14:00 

Покажем как визуализацию данных по торговой точке трансформировать в процесс принятия решений:

⚡Объективная оценка работы вашего персонала с помощью системы рейтингов
⚡Ежемесячное отслеживание динамики продаж и мотивации ваших сотрудников
⚡Автоматическое формирование задач и прогнозирование результатов
⚡Управленческий импульс (UI) для предотвращения отклонений от плана

Участие бесплатное. Требуется регистрация по ссылке.

Вебинар от команды BI-платформы Insight

Читать полностью…

Анализ данных (Data analysis)

🤖 Data Analyst в Х5 Tech

В команде Х5 вас ждет:
— конкурентная зарплата, удаленка или гибридный формат;
— амбициозные проекты вроде собственной платформы по работе с нейросетями и автоматического ценообразования;
— прокачка навыков в корпоративном университете, митапы, конференции и общение с топами.

Развивайте один из продуктов:
— автоматизированное ценообразование;
— оптимизацию работы приложения;
— минимизацию затрат на транспорт.

Ожидаем, что вы:
— работаете в сфере Data Science или Data Analysis от трех лет;
— знаете Python;
— умеете проводить А/В-тестирования.

➡️ Откликнуться: @oooozhegovaaaa

Читать полностью…

Анализ данных (Data analysis)

🧔‍♂️ Face Anon простой инструмент для анонимизации лиц на изображениях, сохраняя при этом оригинальное выражение лица и положение головы!

Работает на основе диффузионных моделей для генерации высококачественных изображений,

Позволяет легко выполнять задачи по замене лиц.

git clone https://github.com/hanweikung/face_anon_simple.git

Github
Demo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы:

— разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию.
— научитесь делать запросы и отчёты с помощью SQL.
— сможете строить интерактивные дашборды в Power BI и DataLens.

Курс подойдёт новичкам и тем, кто хочет расширить свои навыки.

Также после бесплатного курса вы получите карьерную консультацию и скидку до 50% для продолжения обучения на курсах-профессиях в Нетологии.

Присоединяйтесь бесплатно

Реклама. ООО "Нетология". Erid 2VSb5xixG2c

Читать полностью…

Анализ данных (Data analysis)

Год назад здесь была реклама нового, но уже довольно любопытного курса по API. За год его автор, тимлид команды аналитиков Глеб Учитель, проделал огромную работу: на курс записалось более 900 человек. И сейчас его знают многие.

Если вы тоже хотите расти по хардам в IT —
добро пожаловать!

🔹🔹 🔹🔹
Начните с бесплатных уроков по архитектуре и интеграциям в чат-боте курса. Переходите и знакомьтесь.
👇
@studyit_help_bot

Скидка на курс от канала —
1 000₽ по промокоду MLDATA4 до конца ноября.

Читать полностью…

Анализ данных (Data analysis)

🔍 dstack — инструмент с открытым исходным кодом, предназначенный для упрощения работы с вычислительными нагрузками, требующими GPU! Основная цель проекта — сделать разработку, обучение и развертывание генеративных моделей ИИ более доступным и простым процессом, независимо от того, где они выполняются: в облаке или локально.

🔍 Основные особенности:

🌟 Альтернатива Kubernetes и Slurm: dstack упрощает оркестрацию контейнеров для задач машинного обучения и аналитики данных.

🌟 Поддержка мультиоблачных и локальных решений: позволяет запускать приложения на любой платформе, включая облачные сервисы (AWS, GCP, Azure) и локальные сервера.

🌟 Совместимость с GPU и TPU: поддерживает оборудование NVIDIA, AMD и TPU для более эффективной работы с высокопроизводительными нагрузками.

🌟 Интеграция с существующими инструментами: позволяет легко интегрировать существующие решения в ваш рабочий процесс.

🔐 Лицензия: MPL-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

OmniVision-968M: новый локальный VLM для периферийных устройств, быстрый и компактный, но производительный 👏

Основан на Siglap-so-400M и Qwen-2.5-0.5B
💨 Требует в 9 раз меньше токенов для обработки изображений, суперэффективен.

✅ Cогласован с SFT и DPO для уменьшения галлюцинаций
✅ Лицензия Apache 2.0

Модель: huggingface.co/NexaAIDev/omnivision-968M
Демо: https://huggingface.co/spaces/NexaAIDev/omnivlm-dpo-demo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Кому в корпоративном мире нужна BI-аналитика?

⤵️ Приглашаем вас на открытый вебинар 21 ноября в 20:00 мск, где вы узнаете, как аналитика помогает бизнесу принимать взвешенные решения и кто нуждается в этих данных для успеха компании.

Сегодня BI-аналитика — один из ключевых факторов успеха в бизнесе. На вебинаре мы обсудим, кому и зачем она нужна, какие задачи она решает и как ее внедрение помогает компаниям на практике.

✔️ В программе вебинара — полезные примеры использования аналитики на реальных кейсах: от IT до ритейла.

✔️  Узнайте, как BI помогает формировать Data Driven подходы и в чем ее польза для ваших проектов.

Особенно полезно для аналитиков данных и специалистов, которые хотят внедрить аналитику в проекты.

 🔗 Регистрируйтесь прямо сейчас и получите скидку на курс «BI-аналитика»: https://otus.pw/5A7M/?erid=LjN8Kbucg

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Анализ данных (Data analysis)

🌟 Контекстуальные эмбединги для повышения эффективности поиска.

Contextual Document Embeddings (CDE) - это метод векторных эмбедингов, разработанный в Cornell University, который учитывает дополнительный контекст из "соседних" документов целевого набора данных.

Метод CDE предлагает добавить к функции встраивания зависимость не только от запроса или документа, но и от всех других документов в наборе данных. Чтобы создать такую функцию с осведомленностью о своем окружении, предлагаются две взаимодополняющих техники:

🟢Контекстуальное обучение, которое основано на кластеризации документов и запросов для формирования групп тематически схожих псевдообластей данных. Обучение на этих группах позволяет эмбединг-модели различать документы в сложных контекстах.

🟠Контекстуальная архитектура. Дополняет стандартный BERT-подобный энкодер дополнительными токенами из агрегированной информации о соседних документах. Эта информация позволяет модели учитывать относительную частоту терминов в контексте, аналогично тому, как это делается в статистических моделях поиска.

Тестирование CDE показало, что обе техники улучшают производительность в задачах поиска вне предметной области, а контекстуальная архитектура эффективнее традиционных эмбедингов в специализированных областях: финансах, юриспруденции и медицине.

Для практических экспериментов предлагается блокнот ipynb (или его версия для Google Collab) в котором используется эмбединг-модель cde-small-v1 с 281 млн. параметров, получившая средний балл 65.00 в бенчмарке MTEB leaderboard в категории моделей до 400 млн. параметров. Этот блокнот научит создавать свои собственные эмбединги в контексте вашего набора данных или просто использовать модель как есть.


🟡Модель
🟡Arxiv
🟡Ipynb блокнот
🟡Google Collab
🖥Github

@ai_machinelearning_big_data

#AI #ML #Embeddings #Retrieval #CDE

Читать полностью…

Анализ данных (Data analysis)

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

🎮 "Добро пожаловать в City 17!"

В честь 20-летия Half-Life 2, NVIDIA разыгрывают крутые кастомные GeForce RTX 4080 SUPER, которая вдохновлена культовым Гордоном Фримеменом.

🔗 Новость: https://www.nvidia.com/en-us/geforce/news/half-life-2-20th-anniversary-rtx-wishlist/?linkId=100000308511356
🔗 Условия конкурса тут: https://www.nvidia.com/en-us/geforce/contests/halflife2-anniversary-official-rules/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ JanusFlow: унифицированная MMLM понимания и генерации изображений от DeepSeekAI.

JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.

Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.

JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.

На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.

На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.

В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.

Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.

▶️Установка и запуск с GradioUI:

# install the necessary dependencies
pip install -e .
pip install diffusers[torch]

# run local gradio demo
pip install -e .[gradio]

python demo/app_janusflow.py


📌Лицензирование кода : MIT License.

📌Лицензирование модели: DeepSeek Model License.


🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Deepseek #JanusFlow

Читать полностью…

Анализ данных (Data analysis)

Как большие данные помогают повысить операционную эффективность?

Работа с big data стала уже необходимостью для тех, кто стремится к эффективности и оптимизации бизнес-процессов. Однако на этом пути компании сталкиваются с множеством препятствий — от высоких операционных затрат до перехода на отечественные аналитические big data-платформы.

21 ноября в 16:00 на онлайн-митапе разберем, как большие данные решают конкретные задачи в бизнесе.

Темы митапа

🔹Оценка окупаемости проектов в big data и запуск пилотов для достижения конкретных бизнес-целей
🔹От Excel к корпоративному хранилищу данных: как мы переводим компании на платформу Greenplum и локализуем big data на отечественных продуктах
🔹Практический кейс из FMCG: задачи, решения и полезные лайфхаки для оптимизации процессов.

Спикеры

Александр Фикс
Менеджер продукта K2 Cloud

Руслан Султанов
Архитектор аналитических систем K2Тех

Регистрация по ссылке>>

Читать полностью…

Анализ данных (Data analysis)

Металлургия и ИТ – что может их объединить? Ответ прост: хакатон ЕВРАЗа 3.0 🔥

🦾 Создай будущее Code Review с ИИ! 
Участвуйте в нашем уникальном хакатоне по созданию ИИ-чатбота, который станет незаменимым помощником для разработчиков ЕВРАЗа! Выберите одно из направлений — Python, TypeScript или C#, и разработайте решение для анализа кода на соответствие нашим стандартам. 

Дата: 29 ноября – 1 декабря 2024.
Формат: гибридный (онлайн и офлайн).
Призовой фонд: 500.000 рублей.

🧑‍💻 Присоединяйся к хакатону, если ты:
– AI-специалист;
– Frontend / Backend-разработчик;
– Студент или выпускник технического вуза.

⚡️ Зачем участвовать?
– Прокачаешь скиллы и получишь обратную связь от ведущих экспертов отрасли.
– Прикоснешься к ИТ в ЕВРАЗе.
– Получишь возможность стать частью масштабной и амбициозной команды ЕВРАЗа.

Если нет команды — поможем ее собрать!

🔸 Регистрация уже открыта! Подай заявку до 25 ноября 23:59 МСК по ссылке.

Читать полностью…

Анализ данных (Data analysis)

🔥 firecrawl-simple — урезанная и оптимизированная версия библиотеки firecrawl! Она позволяет вам быстро конвертировать веб-сайты в готовый для чтения LLM текст.

🔐 Лицензия: AGPL-3.0

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Laminar — это открытая платформа с набором инструментов для разработки продуктов в области искусственного интеллекта, предоставляющая возможности работы с трассировкой (traces), оценкой моделей (evals), датасетами и разметкой данных!

⭐️ Разработанная с учетом потребностей как исследователей, так и разработчиков, платформа облегчает процесс создания и мониторинга моделей ИИ на основе большого количества данных. Laminar включает поддержку SDK для языков, таких как TypeScript и Python, и использует подходы наблюдаемости для упрощения отладки и мониторинга, особенно при работе с LLM.

🔐 Лицензия: Apache-2.0

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

TinyTroupe 🤠🤓🥸🧐

Microsoft только что выпустила библиотеку Tiny Troupe!🧍‍♂🧍🧍‍♀

Это экспериментальная библиотека Python, которая позволяет моделировать людей с определенными личностями, интересами и целями".

Эти агенты могут слушать, отвечать на запросы и жить своей жизнью в симулированной среде TinyWorld.

Sims на на базе LLM😂

- Реклама: Tiny Troupe может оценить цифровую рекламу (например, Bing Ads) в автономном режиме с помощью смоделированной аудитории
- Тестирование программного обеспечения: TinyTroupe может предоставлять тестовые данные системам (например, поисковым системам, чат-ботам или вторым пилотам), а затем оценивать результаты.
- Обучающие и исследовательские данные: TinyTroupe может генерировать реалистичные синтетические данные, которые впоследствии могут быть использованы для обучения моделей или анализа возможностей.
- Управление продуктами и проектами: TinyTroupe может читать предложения по проектам или продуктам и давать отзывы с точки зрения конкретных людей (например, врачей, юристов и работников умственного труда в целом).
- Мозговой штурм: TinyTroupe может имитировать фокус-группы и предоставлять отличные отзывы о продукте!
И многое другое

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Opik — это открытая платформа для разработки, тестирования и мониторинга приложений на основе больших языковых моделей (LLM)!

🌟 Этот инструмент помогает отслеживать и анализировать работу LLM, автоматизировать оценку, хранить тестовые случаи и поддерживает интеграцию с CI/CD для упрощения цикла разработки и развертывания. Платформа позволяет как локальный запуск, так и использование в облаке, поддерживает такие фреймворки, как OpenAI, LangChain и другие.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Классный инструмент, который позволяет вам создавать короткие видео для различных площадок "в один клик" с помощью ИИ!

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…
Subscribe to a channel