Telegram-канал data_analysis_ml - Анализ данных (Data analysis): Unsorted - каталог телеграмм

data_analysis_ml | Unsorted

Subscribe to a channel

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

07 May 2024 16:02

🌟 LangChain-Chatchat — LLM-приложение Q&A, использующее локальную базу знаний

⏩LangChain-Chatchat (ранее Langchain-ChatGLM) — это что-то наподобие поисковой системы на основе Langchain, которая может использовать локальные файлы.

⏩Основная идея Chatchat довольно проста, вот основные этапы процесса:
загрузка файлов базы знаний ⟶ чтение текста ⟶ сегментация текста ⟶ векторизация текста ⟶ векторизация вопроса ⟶ поиск вектора текста, наиболее похожего на вектор вопроса ⟶ найденный вектор добавляется в промпт в качестве контекста и вопроса ⟶ передается в LLM для генерации ответа

⏩А вот так можно начать работу с Chatchat:


git clone https://github.com/chatchat-space/Langchain-Chatchat.git
cd Langchain-Chatchat
pip install -r requirements.txt
pip install -r requirements_api.txt
pip install -r requirements_webui.txt

git lfs install
git clone https://huggingface.co/THUDM/chatglm2-6b
git clone https://huggingface.co/moka-ai/m3e-base

python copy_config_example.py
python init_database.py --recreate-vs

python startup.py -a

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

07 May 2024 10:08

⚡️ Хотите эффективно обеспечивать версионирование данных и моделей?

Освойте систему DVC на открытом практическом уроке от OTUS. Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences и опытный руководитель команд.

💻 На вебинаре вы:

- научитесь настраивать в git репозитории DVC и хранить артефакты на S3;
- переключаться между версиями артефактов и загружать их во внешнее хранилище;
- создавать воспроизводимые конвейеры обучения моделей с помощью DVC Pipelines.

👉 Встречаемся 13 мая в 19:00 мск в преддверии старта курса «MLOps». Все участники вебинара получат специальную цену на обучение и персональную консультацию от менеджера OTUS!

🚀 Пройдите короткий тест прямо сейчас, чтобы посетить бесплатный урок: https://otus.pw/c5aJ/

Читать полностью…

Анализ данных (Data analysis)

06 May 2024 15:04

Очное обучение Data Science для начинающих в НИУ ВШЭ — старт 16 мая

«Специалист по Data Science»: первая программа переподготовки, аккредитованная Альянсом в сфере ИИ. Вы изучите все направления современного анализа данных: от основ программирования и дискретной математики до машинного обучения, нейронных сетей, обработки Big Data и не только.

Старт: 16 мая
Продолжительность: 1.5 года
Полная программа и регистрация: по ссылке.

Реклама. НИУ ВШЭ.
ИНН 7714030726
Erid: 2SDnje5sgiD

Читать полностью…

Анализ данных (Data analysis)

06 May 2024 10:02

🧠 Улучши ИИ на хакатоне X5 Tech AI Hack! У тебя будет 10 дней, чтобы избавить нейросеть от галлюцинаций или научить ее работать с конфиденциальными данными. Призовой фонд от X5 Tech – 2 000 000 рублей.

Старт ML-соревнования – 17 мая. Не жди дедлайна, регистрируйся прямо сейчас: https://cnrlink.com/x5techaihackdataanalysis

Приглашаем на хакатон экспертов по Data Science, ML-специалистов, разработчиков на Python и всех остальных, кто хочет прокачать свои знания о создании ИИ. На выбор – один из двух треков:

🥷 Трек 1. Маскирование. При использовании сторонней языковой модели нельзя передавать ей чувствительные данные организации – имена клиентов, доменные адреса и прочие. Поэтому участникам необходимо подготовить алгоритм, который заменит эти сведения в тексте без потери смысла.

🔎 Трек 2. Детекция галлюцинаций. Никто не любит, когда ИИ-ассистент в ответ на вопрос дает неправильную информацию. Задача конкурсантов – разработать систему, которая сможет эффективно выявлять аномалии в текстах, сгенерированных нейросетью.

Хакатон продлится 10 дней. У тебя будет шанс получить консультацию от крутых ML-экспертов и специалистов по Data Science, обсудить решения с единомышленниками, узнать больше о проектах X5 Tech.

28-29 мая по результатам тестирования моделей участников 5 лучших команд в каждом треке получат приглашение на финал в Москве. Церемония награждения пройдет на мероприятии X5 Future Night.

Участвуй в X5 Tech AI Hack и внеси свой вклад в развитие ML-технологий: https://cnrlink.com/x5techaihackdataanalysis

Реклама. ООО «ИТ ИКС 5 Технологии». ИНН 1615014289. erid: LjN8K8fK1

Читать полностью…

Анализ данных (Data analysis)

06 May 2024 08:36

⚡️ Таблица инференса LLM на доллар.

Самая высокая стоимость у RTX 3090 24 ГБ.

https://tensordock.com/benchmarks

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

05 May 2024 13:32

⚡️ Платформа для разработки LLM-решений — Dify

Dify — это open-source платформа для разработки LLM-приложений.
Имеет интуитивно понятный интерфейс, позволяет настраивать весь рабочий процесс AI, конвейер RAG, возможности агентов, управление моделями, и многое другое
Всё это позволяет быстро перейти от прототипа к продукту.

🖥 GitHub
🟡 Dify.AI

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

04 May 2024 18:06

Большое обновление для таблицы лидеров Massive Text Embedding Benchmark (MTEB), которое упрощает поиск нужной модели !

Добавлены фильтры для поиска моделей, по памяти, размеру и параметрам.

https://huggingface.co/spaces/mteb/leaderboard

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

03 May 2024 12:37

🖥 Обнаружение аномалий с помощью PyOD

— pip install pyod

PyOD — это универсальная масштабируемая библиотека Python для поиска аномалий в многомерных данных.

Содержит ряд очень полезных алгоритмов:
🟡TODS — для обнаружения выбросов временных рядов

🟡PyGOD — для обнаружения выбросов на графиках

Кстати, к PyOD прилагается 45-страничный подробный документ по эталонному обнаружению аномалий (если не открывается, вы знаете)

И да, PyOD отлично скейлится — здесь инструкция по запуску PyOD на распределенных системах и на центрах обработки данных

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 May 2024 21:31

📚 Anthropic-cookbook

Коллекция ноутбуков/ советов, гайдов, демонстрирующих интересные и эффективные способы использования Claude.

▪ Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

02 May 2024 08:46

💨 Scaling hierarchical agglomerative clustering to trillion-edge graphs

Кластеризация графов объединяет похожие элементы в группы, что помогает лучшему понять взаимосвязи в данных.

В этой статье инженеры Google рассказывают о ключевых методах, которые позволили им построить мощнейший алгоритм, позволяющий группировать графы с триллионами ребер.

https://research.google/blog/scaling-hierarchical-agglomerative-clustering-to-trillion-edge-graphs/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

01 May 2024 15:03

📌PyTorch Sentiment Analysis — анализ эмоциональной составляющей текста

В этом репозитории содержатся разные реализации анализа текста в PyTorch:
— с использованием "мешка слов" (bag of words)
— с помощью рекурретной нейросети (RNN)
— посредством свёртной нейросети (CNN)
— с помощью модных трансформеров

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

30 Apr 2024 10:47

🔥Common Voice 17 теперь на hf.

Common Voice 17 - датасет С 31 175 часами аудиозаписей (и транскрипций) на 124 языках 🎶

Большинство аудио в датасете содержат демографические метаданные, такие как возраст, пол и акцент, которые могут помочь повысить точность систем распознавания речи.

Хотите попробовать?


from datasets import load_dataset

cv17 = load_dataset("mozilla-foundation/common_voice_17_0", 
                       "hi", 
                       split="test", 
                       streaming=True)

https://huggingface.co/datasets/mozilla-foundation/common_voice_17_0

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

29 Apr 2024 19:38

🧠 Open AI только что добавили новую функцию памяти в Chatgpt.

Память теперь доступна всем пользователям ChatGPT Plus.

Пользоваться памятью очень просто: просто запустите новый чат и напишите ChatGPT все, что вы хотели бы, чтобы он запомнил.

Функция памяти ChatGPT позволяет запоминать нужные вам детали, чтобы в будущем сделать общение актуальным и персонализированны.

ChatGPT автоматически сохраняет такие детали, как ваши личные предпочтения, но вы также можете попросить ChatGPT запомнить конкретную информацию, сказав:
"Запомнить это" или "Сохрани это в своей памяти".

Примечание:
1. Эта функция доступна только в GPT-4, но не в версии 3.5.
2. Если вы хотите удалить что-либо из памяти, вы можете сделать это через настройки управления памятью
3.Похоже, что это замедляет работу GPT-4, потому что он пытается получить доступ к памяти, а затем отвечает.

Память можно включить или отключить в настройках.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

28 Apr 2024 20:14

⭐️ Data Science разбор реальной задачи с собеседования. Прогнозирование оттока клиентов.

▪Смотреть
▪Данные
▪Ноутбук

@machinelearning_interview

Читать полностью…

Анализ данных (Data analysis)

28 Apr 2024 17:03

🖥 Giskard — библиотека Python для оценки и тестирования LLM-, ML-моделей

Помогает обнаруживать проблемы в моделях.
Сканирует LLM, позволяет определить производительность, фиксирует проблемы безопасности.

Установка: pip install "giskard[llm]" -U

▶️ Попробовать в Google Colab
🖥 GitHub 3.1k ⭐️

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

07 May 2024 11:12

⚡️ AnythingLLM: The all-in-one AI app you were looking for.

AnythingLLM — AI-приложение с возможностями RAG и AI Agent.

Это полнофункциональное приложение, в котором вы можете использовать коммерческие LLM или популярные open-source LLM для создания частного ChatGPT без цензуры и ограничений который можно запускать как локально, так и на сервер.

🖥 GitHub
🟡 Страничка AnythingLLM
🟡 Презентация YouTube

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

06 May 2024 17:03

🌟 sktime — упрощение работы с временными рядами

— pip install sktime

sktime — это Python-библиотека для анализа временных рядов, она предоставляет единый интерфейс для решения множества задач. В частности, это такие задачи как классификация, регрессия, кластеризация и прогнозирование временных рядов.
В комплект sktime входят алгоритмы изучения временных рядов и совместимые с scikit-learn инструменты для построения, настройки и проверки моделей временных рядов.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

06 May 2024 12:03

📌Julia для Data Science

Отличный ресурс о том, как использовать Julia в DS
Здесь очень подробно на примерах раскрыто всё, что нужно знать: от загрузки датасета до кластеризации/классификации

Есть целый раздел End-End, где показан весь процесс работы с данными на примере известных датасетов, вот например для Telco Churn

📎 Ноутбук

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

06 May 2024 10:02

🌟 Статистическое моделирование с PyMC

PyMC — это пакет Python для байесовского статистического моделирования, сфокусированный на продвинутых алгоритмах Марковской цепи Монте-Карло (MCMC) и вариационного вывода (VI). Гибкость и расширяемость позволяют применять PyMC для решения большого набора задач.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

05 May 2024 17:01

🌟 CUDA/C++: с чего начиналось глубокое обучение

Думаю, многие слышали про победу AlexNet в 2012 году на конкурсе ImageNet и о начавшейся тогда революции в глубоком обучении.

Менее известным является тот факт, что код для AlexNet был написан с нуля на CUDA/C++ Алексом Крижевским. Репо называлось cuda-convnet и находилось на Google Code.
Вероятно, этот репозиторий Google Code был закрыт, но есть несколько форков на GitHub, например этот.

AlexNet — это было одно из первых громких применений CUDA для глубокого обучения, и именно размер нейросети, который был обеспечен CUDA, позволил этой сети получить такую высокую производительность в бенчмарке ImageNet.
На самом деле это было довольно сложное мульти-GPU приложение, включающее, например, распараллеливание моделей, когда 2 параллельных потока свертки разделяются между 2 GPU.

Также стоит понимать, что в это время в 2012 году (~12 лет назад) большая часть глубокого обучения проводилась в Matlab, на CPU, в игрушечных условиях, с экспериментами над всевозможными алгоритмами обучения, архитектурами и идеями оптимизации. Поэтому было очень ново и неожиданно увидеть, как Алекс, Илья и Джефф говорят: забудьте про все алгоритмы, просто возьмите стандартный ConvNet, сделайте его очень большим, обучите его на большом наборе данных (ImageNet) и просто реализуйте все это на CUDA/C++. И именно таким образом глубокое обучение как область получило большую искру.

Конечно, уже были намеки на сдвиг в сторону масштабирования, например, Matlab изначально поддерживал GPU, и большая часть работы в лаборатории Эндрю Ына в Стэнфорде в это время шла в направлении использования GPU для глубокого обучения и масштабирования.

▶️ Подробнее об истоках глубокого обучения в треде X

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

05 May 2024 11:32

🔥Подборка лучших обучающих каналов для программистов.

➡️ Делитесь с коллегами и сохраняйте себе, чтобы не потерять

⚡Машинное обучение

Machine Learning - запускаем лучшие ИИ модели, пишем код, погружаемся в нейросети
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат
Ml Собеседование - подготовка к собесу по мл, алгоритмам, коду

🏆 Golang
Golang
Golang собеседование - разбор задач и вопросов с собесов
Golang вакансии -работа для Go разработчика
Golang книги библиотека книг
Golang задачи и тесты
Golang чат
Golang news - новости из мира go
Golang дайджест

💥 Linux /Этичный хакинг
Linux Academy - гайды, секреты и лучшие материалы по Linux
Kali linux - погрузись в мир этичного хакинга и кибербезопасности
linux_kal - kali чат
Информационная безопасность

🚀 Data Science

Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data

🛢Базы данных
Sql базы данных - научим работе с базами данных профессионально
Библиотека баз данных
SQL чат
Вакансии Sql аналитик данных

#️⃣C#

С# академия - лучший канал по c#
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа

🐍 Python

Python/django - самый крупный обучающий канал по Python
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги

☕ Java

Java академия - java от Senior разработчика
Java вакансии
Java чат
Java вопросы с собеседований
Java книги

💻 C++

C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии

⚡️ Frontend
Javascript академия - крупнейший js канал
React - лучшие гайды и советы по работе с react
Frontend - тутрориалы, уроки, гайды, код
PHP
Книги frontend
Задачи frontend

🦀 Rust
Rust программирование
Rust чат
Rust книги для программистов

📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки

🇬🇧 Английский для программистов

🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence

🔥 DevOPs
Devops для программистов
Книги Devops

🌟 Docker/Kubernets
Docker
Kubernets

📓 Книги
Библиотеки Книг для программситов

💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#
Папка Frontend

💥 Бесплатный Chatgpt бот

Читать полностью…

Анализ данных (Data analysis)

04 May 2024 11:20

🌟 Большой список ресурсов для практики Data Science

Это подборка библиотек Python, ссылок на туториалы, ссылок на примеры кода для решения DS-задач.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

03 May 2024 10:36

Регистрация на «Я Железо 2024» открыта✨

Яндекс — это не только софт. Мы расскажем вам о создании умных устройств, автономного транспорта и роботов.

В этом году будет два трека:

🦾 HardWare — презентуем доклады об устройстве шасси робота, голосовом управлении в ТВ, изменениях в тестировании умных устройств, системе питания в роботе и требованиях к автомобильной электронике и её испытанию.

🌍 SoftWare — расскажем, как софт Яндекса управляет автомобилем, о локализации в беспилотных технологиях и использовании DSP и NPU-чипов, тестировании Алисы и о том, как устроен Test-driven Development в Embedded.

А еще вы сможете поболтать с Алисой, познакомиться со складскими роботами, разобраться в типах лидаров и узнать, как вас видит робот-доставщик.

В конце программы всех участников ждёт афтерпати!

Когда: 18 мая в Москве офлайн + онлайн
Зарегистрироваться и посмотреть программу мероприятия можно тут.

Реклама. ООО "Яндекс", ИНН 7736207543.

Читать полностью…

Анализ данных (Data analysis)

02 May 2024 15:03

🖥 Whisper.cpp для перевода аудио в текст

🟡Высокопроизводительный интерфейс на C++ для модели Whisper от OpenAI, которая отлично распознаёт текст.
Простая реализация на C/C++ без зависимостей.

Особенности самой модели Whisper:
— Хорошо распознает русский текст (даже с вкраплениями английского)
— Хорошо распознает цифры

🖥 GitHub
🟡 Использование

Кстати, интересный факт: Whisper.cpp был написан Георгием Гергановым всего за 5 дней

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

01 May 2024 18:33

🔥 Animation with text that highlights important events

Анимация является выразительным средством, оживляющим ваши данные, и Matplotlib предлагает специализированные инструменты для этой цели.

Это руководство представляет собой подробное пошаговое руководство с кодом, который вы можете воспроизвести для создания эффектных анимаций.

• Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

01 May 2024 09:15

🌟 О работе трансформеров с контекстом

Отличная статья для глубокого понимания, как трансформеры работают с контекстом.
Детально описаны механизмы, благодаря которым это вообще возможно, в том числе и механизм внимания.

Выдвигается гипотеза, что обучение трансформеров в контексте возникает благодаря неявной реализации градиентного спуска по функции потерь, построенной на основе данных, взятых из контекста.

📎 Arxiv
🟡 Кстати, полезная статья об архитектуре трансформеров на Хабре
🟡 Визуализация механизма внимания от 3b1b

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

29 Apr 2024 20:26

🌟 Cognita — опенсорсный RAG-фреймворк для построения сложных приложений с LLM

🟡Langchain/LlamaIndex предоставляют простые в использовании абстракции, которые можно использовать для быстрых экспериментов и создания прототипов в Jupyter Notebook. Но когда нужно сделать что-то крупнее пет-проекта, возникают ограничения — например, компоненты должны быть модульными и легко масштабируемыми.
И вот здесь отлично пригодится Cognita.

🟡Cognita использует Langchain/Llamaindex под капотом и обеспечивает организацию вашей кодовой базы, где каждый из компонентов RAG является модульным, управляемым API и легко расширяемым. Cognita может быть легко использована локально, при этом инструмент предоставляет вам готовую к производству среду вместе с поддержкой пользовательского интерфейса без кода.

🖥 GitHub
▶️ Затестить Cognita можно тут

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

29 Apr 2024 10:03

🌟 Perplexica — открытый поисковой движок с AI

Созданный на основе Perplexity AI, этот движок с открытым исходным кодом не просто ищет в интернете, но и понимает ваши вопросы.
Perplexica использует передовые ML-алгоритмы для уточнения результатов и предоставляет четкие ответы со ссылками на источники.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

28 Apr 2024 18:40

👨‍🎓 100 лекций по математике от Оксфорда

Оксфорд публикует лекции по математике, чтобы дать представление об опыте студентов и о том, как они преподают математику в Оксфорде.

В этом плейлисте собраны лекции из различных курсов за все студенческие годы (включая целые курсы).

За всеми лекциями следуют учебные занятия, на которых студенты встречаются со своим преподавателем и решают задачи.

Примерно 80 часов отборной математики.

• Плейлист

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

28 Apr 2024 15:03

📌ИИ может определить политические взгляды по лицу

🟡Исследователи из Высшей школы бизнеса Стэнфордского университета подтвердили, что распознавание лиц можно использовать, чтобы определять политические убеждения человека. Это создаёт новые угрозы приватности со стороны систем распознавания лиц.

🟡591 человека спросили об их политических предпочтениях, а потом «скормили» их фотографии обученной на распознавание лиц модели. Та смогла по чертам лица определить политические предпочтения участников исследования.

🟡Точность определения сравнивали с точностью предсказаний того, как хорошо собеседования определяют успех на работе или алкоголь повышает агрессивность. Достоверность увеличивалась, если показывать ИИ не только фото, но и добавлять контекст: возраст, пол, этническую принадлежность. Модель определяет не принадлежность к конкретной партии, а скорее спектр взглядов человека — консервативные они или либеральные. Судя по представлению модели и небольшой выборке, у либералов лица меньше, а у консерваторов — больше. Вот и пришли мы к ИИ, который мерит черепа и даёт людям оценку, ориентируясь на «большие данные».

📎 Подробнее

@data_analysis_ml

Читать полностью…

Subscribe to a channel