data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🐋 DeepClaude

Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.

Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude

⭐️ DeepClaude объединяет обе модели, чтобы обеспечить:

- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования

git clone https://github.com/getasterisk/deepclaude.git
cd deepclaude

Github
Docs

@ai_machinelearning_big_data


#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource

Читать полностью…

Анализ данных (Data analysis)

🔥 Repomix — это инструмент, который упаковывает весь репозиторий в единый файл, удобный для работы с большими языковыми моделями, такими как ChatGPT, Claude и Gemini!

🌟 Он оптимизирует структуру кода для ИИ, поддерживает подсчет токенов, учитывает .gitignore и обеспечивает защиту от утечки данных с помощью Secretlint. Repomix прост в использовании и настраивается через конфигурационные файлы.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⭐️ Mistral AI только что выпустили Small 3!

Вот все, что вам нужно знать:

- Доступны как предварительно обученные, так и настроенные контрольные точки
- без RL и без синтетических данных
- Mistral Small 3 оптимизирован по задержке
- 24B параметров
- 81% точности на MMLU и задержка 150 токенов/с
- Позиционируется как замена GPT-40-mini
- Конкурирует с Llama 3.3 70B и Qwen 32B
- в 3 раза быстрее, чем инструкция Llama 3.3 70B
- Лицензия Apache 2.0
- Доступно в la Plateforme, HF и других провайдерах

Варианты использования включают в себя быстродействующих речевых помощников, вызов функций с малой задержкой, тонкую настройку экспертных моделей и локальный вывод.

Великолепная маленькая модель, которая дополняет другие более крупные модели, такие как DeepSeek-R1.

https://mistral.ai/news/mistral-small-3/

#mistral #llm #ml #ai

Читать полностью…

Анализ данных (Data analysis)

Это Большая Дата для нашего сообщества: приглашаем на большой митап по аналитике

📅 22 февраля в Москве и онлайне пройдёт митап для аналитиков от бизнес-группы Поиска и Рекламных технологий Яндекса. Послушаем доклады и попробуем свои силы в деловой игре по реальным кейсам из нашей практики.

В программе:

🔸 Павел Смирнов, руководитель команды дата-инженеров в Поиске и Рекламе. Расскажет, когда пора начинать строить единое логирование клиентской активности

🔸 Алексей Константинов, руководитель группы онлайн-метрик Поиска. Покажет, как сделать универсальную онлайн-метрику успешности сервиса на примере «Профицита»

🔸 Сайдаш Мифтахов, тимлид маркетинговой аналитики в международном Поиске. Объяснит, как Яндекс упрощает доступ в Поиск и растит долю рынка в Казахстане

✏️ Полный список тем докладов и форму регистрации ищите здесь.

Читать полностью…

Анализ данных (Data analysis)

🖥 Audiblez — это инструмент для конвертации электронных книг в аудиокниги!

🌟 Он использует модель текст-в-речь Kokoro для создания файлов в формате .m4b из файлов .epub. Программа поддерживает различные языки, голоса и позволяет настроить скорость чтения. Также доступна работа на GPU для ускорения обработки.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 LocalAI — это инструмент с открытым исходным кодом для запуска моделей искусственного интеллекта локально, без необходимости подключения к облаку!

🌟 Он совместим с API OpenAI и поддерживает работу с моделями машинного обучения, такими как LLaMA, GPT-4 и другими. LocalAI предоставляет удобные инструменты для интеграции в существующие приложения, поддерживает GPU-ускорение и может работать в контейнерах Docker.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Мл сообщество активно обсуждает успехи Китая и DeepSeek-R1, в частности, в гонке за доминирование на рынке ИИ.

Релиз R1 и новости об инвестировании в развитие отрасли, вызвали падение акций американских ИТ-гигантов на бирже NASDAQ.

Но помимо R1 в этом месяце разработчики из Китая выпустили еще очень много интересных моделей 🔥 Китай набирает очень серьезные обороты,

Давайте посмотрим на список самых ярких релизов из Поднебесной за январь:

LLM:
InternLM3-8B-Instruct
MiniMax-Text-01
RWKV-7 RNN + трансформер 👀
Собственно сам DeepSeek-R1
Baichuan-M1-14B медицинский LLM 🩺
Qwen2.5-Math-PRM от Alibaba
Qwen2.5 -1M


Модели кодинга:
Tare от BytedanceTalk

TTS модели синтеза и генерации речи:
T2A-01-HD от MiniMax AI
LLaSA

МЛЛМ:
Kimi k1.5 от Moonshot AI
MiniCPM-o-2_6 от OpenBMB
Sa2VA-4B от ByteDanceOSS
VideoLLaMA 3 от Alibaba DAMO
LLaVA-Mini от Китайской академии наук

Hunyuan-7B от TXhunyuan
Hunyuan 3D 2.0

ИИ-агенты:
UI-TARS от ByteDanceOSS
✨ GLM-PC

Датасеты:
Fineweb-Edu-Chinese-V2.1
Multimodal_textbook от Alibaba
MME-Finance от Hithink AI
GameFactory от KwaiVGI

📌 Полный список Релизов

#ai #ml #digest #china #deepseek #Alibaba

Читать полностью…

Анализ данных (Data analysis)

Базы данных для задач любой сложности

Безопасность, масштабируемость и отказоустойчивость баз данных — ключевые требования для любых современных веб-сервисов и приложений. А наличие этих требований по умолчанию, без дополнительной головной боли — мечта для любого бизнеса. Или не мечта, а реальность? Selectel предлагает одни из лучших облачных баз данных на рынке и берет эти на заботы на себя:

● предоставляет высокую производительность за счет оптимальной настройки ПО, подбора мощного железа и локальных NVMe-дисков;
● обеспечивает резервное копирование. Бесплатные бэкапы создаются автоматически, а восстановление данных происходит вплоть до секунды;
● гарантирует отказоустойчивость. Создать отказоустойчивый кластер можно всего от двух нод, что позволяет сэкономить до 33% стоимости ресурсов;
● дает возможности для быстрого масштабирования. При росте нагрузки можно поменять конфигурацию облачного сервера и количество реплик без простоя.
● заботится о безопасности: сервис соответствует российским и международным стандартам — закону 152-ФЗ (УЗ-1), приказу ФСТЭК № 21, PCI DSS, ISO 27001, 27017, 27018 и ГОСТ Р 57580.

Развернуть готовые к работе кластеры облачных баз данных в несколько кликов: https://slc.tl/v7gmo

Реклама, АО «Селектел», ИНН: 7810962785, ERID: 2VtzqwgdXD6

Читать полностью…

Анализ данных (Data analysis)

🔥 MagicMirror — это приложение для мгновенной замены лиц, причесок и одежды с помощью ИИ!

🌟 Оно работает локально на macOS и Windows, не требует мощного оборудования и обеспечивает полную конфиденциальность, так как обработка изображений выполняется на устройстве.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Повторно дистиллированная
Deepseek AiR1 (1,5B) превосходит по своим характеристикам оригинальную дистиллированную модель!


https://huggingface.co/mobiuslabsgmbh/DeepSeek-R1-ReDistill-Qwen-1.5B-v1.0

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⭐️ Video LLaMA 3 "Мультимодальные базовые модели для понимания изображений и видео" от ДАМО Алибаба

Model: https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15
Paper: https://huggingface.co/papers/2501.13106

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Только что вышла версия CUDA 12.8 с поддержкой Blackwell.

Гайд по работе с TensorCore 5-го поколения:

https://docs.nvidia.com/cuda/parallel-thread-execution/index.html#tensorcore-5th-generation-instructions

#cuda #TensorCore #nvidia

Читать полностью…

Анализ данных (Data analysis)

🔥 OpenVINO Toolkit — это мощный инструмент с открытым исходным кодом для оптимизации и выполнения моделей машинного обучения!

🌟 OpenVINO позволяет преобразовывать модели из популярных фреймворков, таких как TensorFlow, PyTorch и ONNX, в формат, оптимизированный для работы на аппаратуре Intel. Он поддерживает широкий спектр устройств, включая процессоры, GPU, FPGA и специализированные чипы, что делает его идеальным выбором для разработки производительных AI-приложений.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 SmolVLM: набор компактных VLM от HuggingFace - Base, Synthetic и Instruct.

SmolVLM - серия компактных VLM отличающихся высокой эффективностью использования памяти и могут быть развернуты на локальных устройствах с ограниченными ресурсами.

Только что были выпущены SmolVLM (256M и 500M), которым требуются GPU <1GB для запуска.

🤗 SmolVLM-256M – это cамая маленькая VLM в мире!

Модели настолько маленькт, что могут работать 100% локально в вашем браузере на WebGPU!

📌Лицензирование:  Apache 2.0

⭐️ Smolervlm: https://huggingface.co/blog/smolervlm
🤗 Модели: https://huggingface.co/collections/HuggingFaceTB/smolvlm-256m-and-500m-6791fafc5bb0ab8acc960fb0

@ai_machinelearning_big_data


#AI #ML #SmallVLM #Huggingface

Читать полностью…

Анализ данных (Data analysis)

⚡️ Bespoke-Stratos-32B, новая ризонинг модель, разработанную на основе DeepSeek-R1 с использованием Sky-T1 от Berkeley NovaSky.

Модель превосходит Sky-T1 и o1-preview в тестах reasoning (математика и написаний кода) и почти достигает производительности DeepSeek-R1-Distill-Qwen-32B при обучении, котором было использовано 47 раз меньшее количество примеров!

Важно отметить то, что разработчики используют набор данных с открытым исходным кодом.

Data: https://huggingface.co/datasets/bespokelabs/Bespoke-Stratos-17k
Curator: https://github.com/bespokelabsai/curator/
32B model: https://huggingface.co/bespokelabs/Bespoke-Stratos-32B
7B model: https://huggingface.co/bespokelabs/Bespoke-Stratos-7B
Сode: https://github.com/bespokelabsai/curator/tree/main/examples/bespoke-stratos-data-generation

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Оценки стоимости обучения популярных моделей, таких как GPT-4o, Sonnet и DeepSeek (на H100)!

Калькулятор для оценки:
https://tnyqnervqldjme1y.vercel.app/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Бизнесу данные нужны как воздух📊

На их основе компании принимают важные стратегические решения. Поэтому специалисты, которые собирают, обрабатывают и анализируют данные, всегда востребованы. 

Таких профессионалов готовят на курсе «Аналитик данных» от МФТИ и Нетологии. За 10 месяцев вы получите фундаментальные знания, актуальные навыки и кейсы в портфолио.

Вы научитесь:

- использовать Python для анализа данных;
- применять методы ИИ в своих задачах;
- работать с базами данных;
- визуализировать данные.

После обучения получите дипломы о профессиональной переподготовке от МФТИ и Нетологии. Центр развития карьеры поможет с трудоустройством, резюме и портфолио.

Освойте профессию на стыке IT и бизнеса со скидкой 30 000 рублей по промокоду DPOVUZ30 до 28 февраля https://netolo.gy/dRCR

Реклама. ООО "Нетология". ИНН 7726464125. Erid
2VSb5yYSEnc

Читать полностью…

Анализ данных (Data analysis)

🔥 MemoRAG — инновационный фреймворк RAG, который использует память для более эффективного извлечения данных и генерации ответов!

🌟 MemoRAG расширяет стандартный RAG, добавляя глобальную модель памяти, что позволяет обрабатывать запросы с учётом всего контекста базы данных. Это обеспечивает более точные и содержательные ответы, особенно для сложных или многоуровневых задач.

💡 Ключевые возможности MemoRAG включают поддержку сверхдлинных контекстов (до миллиона токенов), оптимизацию производительности, создание контекстуальных подсказок, ускорение обработки данных за счёт кеширования и повторное использование закодированного контекста. Инструмент может быть интегрирован с различными моделями LLM, такими как Meta-Llama и Mistral, и предоставляет демо для тестирования на базе Streamlit.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🐋 DeepSeek только что потерпел поражение в ходе аудита NewsGuard и занял предпоследнее место по точности ответов чат-ботов, провалив 83% тестов.

В сравнении с западными конкурентами такими, как ChatGPT от OpenAI и Google Gemini, DeepSeek разделил 10-е место с другим чат-ботом.

т.е. когда предъявлялись явно ложные утверждения, они опровергались лишь в 17% случаев.

→ NewsGuard применил свой стандартный аудит дезинформации к DeepSeek, оценив, как он справлялся с ложными заявлениями в политике, здравоохранении, бизнесе и международных отношениях. В то время как ведущие чат-боты имели средний показатель ошибок 62%, DeepSeek показал себя значительно хуже, ошибившись в 83% случаев.

→ Чат-бот особенно плохо справлялся с запросами, связанными с новостями, повторяя ложные утверждения в 30% случаев и не давая прямых ответов в 53% случаев.

https://www.reuters.com/world/china/deepseeks-chatbot-achieves-17-accuracy-trails-western-rivals-newsguard-audit-2025-01-29/

#DeepSeek #ai #ml

Читать полностью…

Анализ данных (Data analysis)

🤗 На HF только что появились два новых ризонинг датасета.

1. OpenThoughts: 114 тыс примеров, полученных из R1 по математике, кодингу и науке https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k.

2. R1-Distill-SFT: 1.7M (!), отобранных из R1-32B на NuminaMath и Tulu data

https://huggingface.co/datasets/ServiceNow-AI/R1-Distill-SFT

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Open Suno уже здесь! Вы можете генерировать целые песни с моделью параметров 7B! 🔥

Вы можете выбрать фоновую музыку, жанр, тексты песен — качество на выходе просто безумное!

Доступны все контрольные точки модели

https://huggingface.co/m-a-p

Читать полностью…

Анализ данных (Data analysis)

🌟 Интересный сайт, который наглядно сравнивает производительность процессоров разных поколений!

🔗 Ссылка: *клик*

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Qwen 2.5 - 7B and 14B с длинной контекста в 1 миллион!

Они также выпустили свой собственный форк vllm - чтобы вы могли развернуть модель у себя дома! 💥

Стоит отметить, что модель 14B-1M выигрывает у гораздо более крупной модели Qwen 2.5 Turbo (предположительно MoE с тем же количеством активных параметров).

Более того, она еще и превосходит бета-версия GPT-4/ 4o на длинном контексте!

https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba

@data_analysis_ml

#Qwen

Читать полностью…

Анализ данных (Data analysis)

⭐️ Anton Pidkuiko рассказывает, как он создал ИИ-агента, который занял первое место в Meta HackerCup 2024 (дивизион ИИ).

Он демонстрирует использование передовых методов рассуждений LLM, методов RAG и облачной инфраструктуры для решения сложных задач программирования в больших масштабах.

Посмотрите запись: https://www.youtube.com/watch?v=cvIeT4MlIx4

@data_analysis_ml

#pytorch #ai #expertexchange

Читать полностью…

Анализ данных (Data analysis)

🔥 Minima — это open source решение для RAG в контейнерах для развертывания на любых мощностях (клауд или локал), с возможностью интеграции с ChatGPT и MCP.

Minima также может использоваться как RAG на вашей машине.

Minima поддерживает три режима работы:

1. Изолированная установка — Работа в контейнерах без внешних зависимостей, таких как ChatGPT или Claude. Все нейронные сети (LLM, ранкер, эмбеддинг) и векторный сторедж запускаются на вашем сервере или ПК, обеспечивая безопасность ваших данных.
2. Кастомный GPT — Запросы к вашим локальным документам через приложение или веб-версию ChatGPT с использованием кастомных GPT. Индексатор работает на вашем сервере или локальном ПК, а основная LLM остаётся ChatGPT.
3. Anthropic Claude — Использование приложения Anthropic Claude для запросов к вашим локальным документам. Индексатор работает на вашем локальном ПК, а основная LLM — это Anthropic Claude.

В данный момент, Minima решает задачу RAG on-premises и призывает всех поставить звезду и форкнуть репозиторий, а так же не стесняться и принять участие в разработке.

📌 Лицензия MPL-2.0

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⭐️ DataDreamer, библиотека Python с открытым исходным кодом, позволяет легко генерировать синтетические данные и интегрируется с huggingface

🔍 Узнайте, как это сделать: https://huggingface.co/blog/asoria/datadreamer-datasets#6790671e20a7d3ca6f72b6cb

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Оптимизируйте бизнес-процессы с помощью данных и стратегического мышления — станьте бизнес-аналитиком за 6 месяцев
Бизнес-аналитик собирает и интерпретирует данные, чтобы помогать бизнесу принимать обоснованные решения и создавать эффективные стратегии развития. В его задачи входит сбор и анализ требований, аудит бизнес-процессов, проведение исследований, выявление проблем и поиск их решений, подготовка отчётности.

На курсе Нетологии «Бизнес-аналитик» вы можете освоить необходимые навыки всего за 6 месяцев и претендовать на junior-позицию уже во время обучения. Под руководством ментора вы научитесь работать с нотациями IDEF0, BPMN 2.0, EPC, а также с инструментами анализа данных: SQL, Python, Tableau и Power BI. Получите опыт работы с заказчиками и разберёте тестовые задания из реальных вакансий с преподавателем курса.

Дополнительно вы можете освоить навыки кандитата на middle-позицию на расширенной траектории программы — пройти модуль по системному анализу. Он охватывает полный жизненный цикл ПО, включая гибкие подходы к разработке, UX/UI прототипирование, тестирование и развертывание, а также документирование IT-проектов.
🔥 До 31 января на курс действует дополнительная скидка 15% по промокоду ANALYTIC15.

Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5yG4Lkp

Читать полностью…

Анализ данных (Data analysis)

🚀 Вам от 13 до 20 лет, вы уже знаете основы Python и хотите двигаться дальше, в область современной аналитики? Тогда у вас есть крутой шанс прокачать свои навыки на бесплатной программе по анализу данных от Яндекс Лицея! 📊

Специализация длится 3 месяца и проходит онлайн. Вас будут учить опытные профессионалы с реальным практическим опытом. Они расскажут, как анализировать и визуализировать данные с помощью Python, а также принимать решения на основе полученной информации.

Набор открыт также на онлайн-программы по веб-разработке на Go и Django, машинному обучению и большим данным. Не откладывайте на следующий год — подайте заявку до 29 января! 💻

Читать полностью…

Анализ данных (Data analysis)

📖 Эта статья исследует методы оценки неопределенности больших языковых моделей в "черном ящике"!

💡 Авторы предлагают подход под названием DiverseAgentEntropy, который измеряет надежность модели, анализируя ее ответы на различные переформулированные версии одного и того же запроса. Если модель уверена в своих знаниях, она должна отвечать одинаково независимо от формулировки вопроса. Этот метод позволяет также обнаруживать случаи галлюцинаций, когда модель предоставляет недостоверные ответы.

🌟 В основе подхода лежит идея многократного взаимодействия "агентов" (вариаций одной и той же модели), которые обрабатывают один и тот же запрос с разным контекстом. Итоговая оценка основана на согласованности их ответов. В результате метод показывает более точные оценки неопределенности по сравнению с традиционными методами, такими как самосогласованность. Исследование также подчеркивает проблему неспособности моделей систематически извлекать правильные ответы, даже если они уже заложены в параметрические знания модели.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Обобщение и переобучение в машинном обучении.

- Видео
- Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 /
- Урок6/ Урок7/ Урок 8
- Colab
-Полный курс

#ml #math #mlmath #probability #машинноеобучение

@data_analysis_ml

Читать полностью…
Subscribe to a channel