Telegram-канал data_analysis_ml - Анализ данных (Data analysis): Unsorted - каталог телеграмм

data_analysis_ml | Unsorted

Subscribe to a channel

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

20 June 2024 16:04

Цифры без бизнеса — это математика. Бизнес без цифр — это авантюра. Цифры в основе бизнеса — это анализ данных.

Аналитик данных собирает, анализирует, структурирует данные — и благодаря этому помогает бизнесу решать проблемы и принимать важные решения. Поэтому профессия входит в топ-5 на рынке.

Стать аналитиком данных за 5 месяцев вы можете на курсе от онлайн-школы KARPOV.COURSES.

Вас всему научат с нуля. Преподаватели — практикующие спецы, которые знают, какие навыки нужны для успешной карьеры, поэтому обучение включает в себя и теорию, и отработку знаний на практических задачах.

На курсе вы:
🔹Освоите Python и SQL;
🔹Научитесь визуализировать данные;
🔹Освоите теорию вероятности, статистику и A/B тесты;
🔹Сформируете продуктовое видение и понимание бизнеса и продукта.

Школа поможет вам с трудоустройством: подготовить резюме и получить первый оффер. Как показывает статистика, 89% студентов уже нашли интересную работу.

Присоединяйтесь к курсу со скидкой 5% по промокоду DAMML до 30.06.2024: https://clc.to/erid_LjN8JwdhF

Читать полностью…

Анализ данных (Data analysis)

20 June 2024 11:33

🌟 PySR — open-source инструмент для высокопроизводительной символьной регрессии на Python и Julia

— pip install pysr

PySR создан для решения задачи символьной регрессии, т.е. для нахождения интерпретируемого символьного выражения, которое корректно описывает наблюдаемые данные.

PySR был разработан с нуля, чтобы быть
(1) как можно более высокопроизводительным,
(2) как можно более настраиваемым, гибким и
(3) простым в использовании.

Параллельно с PySR развивается библиотека Julia SymbolicRegression.jl, которая отвечает за нагруженные компоненты PySR, в частности за алгортм поиска.

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

19 June 2024 19:02

🖥 Daft — фреймворк для ETL, аналитики и ML/AI в нагруженных системах

— pip install getdaft

Daft — это распределенный движок запросов для обработки больших данных на Python; реализован на Rust.
Многие идеи Daft позаимствовал из Apache Arrow In-Memory

Особенности Daft
— встроенный мощный оптимизатор переписывает запросы, чтобы сделать их максимально эффективными

— есть полная интеграция с такими системами как Apache Iceberg

— имеется поддержка изображений, URL, тензоров и других самых разных объектов

— рекордная производительность ввода-вывода для интеграции с облачным хранилищем S3

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

18 June 2024 11:33

🌟 TextGrad — open-source фреймворк для реализации обратного распространения, опирающегося на текстовую обратную связь

— pip install textgrad

TextGrad может оптимизировать неструктурированные переменные, такие как текст. Пусть у нас есть исходное решение математической задачи, мы хотим, чтобы это решение выглядело лучше. Вот как можно реализовать это в коде с помощью TextGrad и GPT-4o:

tg.set_backward_engine("gpt-4o")

initial_solution = """To solve the equation 3x^2 - 7x + 2 = 0, we use the quadratic formula:
x = (-b ± √(b^2 - 4ac)) / 2a
a = 3, b = -7, c = 2
x = (7 ± √((-7)^2 - 4 * 3(2))) / 6
x = (7 ± √(7^3) / 6
The solutions are:
x1 = (7 + √73)
x2 = (7 - √73)"""

# Define the variable to optimize, let requires_grad=True to enable gradient computation
solution = tg.Variable(initial_solution,
                       requires_grad=True,
                       role_description="solution to the math question")

# Define the optimizer, let the optimizer know which variables to optimize, and run the loss function

loss_fn = tg.TextLoss("You will evaluate a solution to a math question. Do not attempt to solve it yourself, do not give a solution, only identify errors. Be super concise.")

optimizer = tg.TGD(parameters=[solution])
loss = loss_fn(solution)

🖥 GitHub
🟡 Colab с примерами примитивов TextGrad
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

17 June 2024 19:33

🌟 d3rlpy — библиотека Python, предоставляющая реализации алгоритмов Deep Learning

— pip install d3rlpy

d3rlpy уделяет большое внимание простоте использования; эта библиотека предназначена не только для исследователей, но и для практиков, работающих над обычными проектами.

🖥 GitHub
🟡 Доки
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

17 June 2024 17:02

🌟 AXLearn — open-source библиотека от Apple, созданная на основе JAX и XLA для разработки больших Deep Learning моделей

— pip install 'axlearn[apple-silicon]'

Система конфигурации AXLearn позволяет пользователям создавать модели из многократно используемых строительных блоков и интегрировать их с другими библиотеками, такими как Flax и Hugging Face transformers.

AXLearn создана для масштабирования — она поддерживает обучение моделей с сотнями миллиардов параметров на тысячах GPU.
AXLearn также поддерживает работу в публичных облаках и предоставляет инструменты для развертывания и управления моделями.

Поддерживает широкий спектр приложений, включая NLP, CV и распознавание речи, и содержит базовые конфигурации для обучения современных моделей.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

16 June 2024 18:02

🌟 R2R — open-source RAG фреймворк

— pip install r2r

R2R создан, чтобы помочь разработчикам преодолеть разрыв между локальными экспериментами с LLM и созданием масштабируемого, готового к продакшену приложения.
R2R, созданный для работы с пользовательскими приложениями RAG, обеспечивает достаточную производительность и возможности для большинства случаев использования RAG.

Фичи R2R:
— позволяет легко развернуть RAG-приложение в проде
— гибкий в настройке, легко конфигурируется

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

16 June 2024 13:15

⚡️ Понимание Deep Learning

Отличная книга и масса Colab'ов от MIT для полного понимания Deep Learning
Определённо это один из лучших ресурсов по DL

🟡 Understanding Deep Learning
📎 PDF

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

15 June 2024 14:08

📚Grog book - это приложение streamlit, которое позволяет создавать книги из просптов с помощью Llama3 в Groq.

Оно неплохо работает с научно-популярными книгами и создает каждую га=лавы за считанные секунды.

▪Github
▪П риложение

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

14 June 2024 19:02

🔥 Реализация архитектуры nanoGPT в электронной таблице — для полного понимания, как работает типичный трансформер

Внутренние операции любого трансформера можно свести к простым матричным вычислениям — собственно это и реализовано в этой таблице.

Таблица воспроизводит структуру nanoGPT от Андрея Карпати с ~85000 параметрами.
И эта таблица представляет собой систему предсказания следующих символов на основе предыдущих, то есть для простоты каждый токен — это символ; для уменьшения сложности токенизируются только буквы A/B/C.

На прикреплённых изображениях — механизм самовнимания и полный вид всей таблицы

🖥 GitHub
🟡 Тред в X

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

14 June 2024 13:04

🌟 «R for Data Science» — open-source книга для дата-сайентистов

Здесь описывается практически всё, что только может пригодится среднестатистическому специалисту Data Science;
вот некоторые из раскрываемых тем:
— разведочный анализ данных (EDA)
— преобразование данных, удаление пропущенных значений, выбросов
— веб-скрепинг, сбор данных из открытых источников

📎 Книга «R for Data Science»

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

13 June 2024 20:03

🌟 Cognee — open-source фреймворк для работы с LLM, с графами и для векторного поиска

— pip install cognee

Cognee поддерживает множество инструментов для различных операций:

— LanceDB или Neo4j для локального хранения графов и не только

— Qdrant и Weaviate для хранения векторных данных

— в качестве LLM можно использовать Anyscale или Ollama

🖥 GitHub
🟡 Доки
🟡 Попробовать в Colab'е
🟡 Обзор на YouTube

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

13 June 2024 12:09

🌟 Merlion — ML-фреймворк для анализа временных рядов

— pip install salesforce-merlion[dashboard]

Merlion — это фреймворк Python для интеллектуального анализа временных рядов.
Merlion представляет собой набор ML-алгоритмов, позволяющих загружать и преобразовывать данные, строить и обучать модели, проводить обработку результатов моделирования и оценивать эффективности модели.

Merlion позволяет решать такие задачи как прогнозирование, обнаружение аномалий (как для одномерных, так и для многомерных временных рядов).

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

12 June 2024 19:57

Smol Vision 🐣

Полезные гайды для запуска, оптимизации и настройки самых современных Edge Vision моделей.

▪Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

12 June 2024 13:36

🌟 scikit-learn-intelex — расширение от Intel для ускорения Scikit-learn

— pip install scikit-learn-intelex

Scikit-learn-intelex позволяет ускорить существующий код scikit-learn за счёт использования более оптимизированных реализаций алгоритмов.
В зависимости от приложения ускорение может быть от 10 до 100 раз.

🖥 GitHub
🟡 Ноутбук с примерами использования scikit-learn-intelex

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

20 June 2024 13:03

🌟 TabuLa-8B — LLM, созданная на основе Llama 3-8B для генерации табличных данных

TabuLa-8B обучена на корпусе TabLib.
Модель подробно описана в статье "Large Scale Transfer Learning for Tabular Data through Language Modeling".

🤗 Hugging Face
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

20 June 2024 10:32

🔹 Как осуществлять технический анализ финансовых рынков?

Расскажем на открытом уроке от Otus, посвященный курсу «ML для финансового анализа», 24 июня в 20:00.

✅ В течении часа рассмотрим основные инструменты и техники, используемые на финансовых рынках.

Рассмотрим основы технического анализа: что такое технический анализ и почему это важный навык для всех, кто работает на рынках.

Научитесь читать и интерпретировать различные типы торговых графиков, включая линейные, столбчатые и свечные графики.

✅ Познакомьтесь с основными индикаторами, такими как скользящие средние, RSI и MACD, и узнайте, как они используются для определения тенденций и разворотов.

Оставляйте заявку на курс «ML для финансового анализа» и создайте торгового робота для автоматического проведения операций с оценкой уровня риска

👉 Регистрация на урок и подробности:
https://otus.pw/LbG8/?erid=LjN8KJ52V

Читать полностью…

Анализ данных (Data analysis)

18 June 2024 19:04

⚡️ HelpSteer2 — открытый датасет от Nvidia

На днях Nvidia выкатили HelpSteer2, который позволяет сделать модели фактологически корректными и последовательными, плюс регулирует сложность и многословность их ответов.

При обучении базовой Llama 3 70B на HelpSteer2 модель достигает 88.8% в RewardBench, что делает ее 4-й лучшей Reward-моделью на текущий момент

🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

17 June 2024 22:03

В следующий раз, когда будете выбирать бенчмарки для оценки модели, ознакомьтесь с этой корреляционной матрицей из статьи MixEval.

Удобно смотреть производительность чат-ботов на арене, идеально подходит для поиска чат-ботов общего назначения.

🌀 MixEval: https://mixeval.github.io

Читать полностью…

Анализ данных (Data analysis)

17 June 2024 17:27

6–9 июля проводим Weekend Offer Analytics

Устроиться в Яндекс за выходные — реально. Ищем крутых аналитиков с опытом работы от 2 лет на Python или C++, готовых работать в офисном или гибридном режиме на территории России или Республики Беларусь.

Подавайте заявку до 3 июля — и всего за 3 дня пройдите все технические собеседования. После сможете пообщаться с девятью нанимающими командами и выбрать ту, которая покажется самой интересной. Если всё сложится хорошо, сразу же пришлём вам офер.

Узнать подробности и зарегистрироваться.

Реклама. ООО "Яндекс". ИНН 7736207543

Читать полностью…

Анализ данных (Data analysis)

17 June 2024 14:39

⚡️ Google Mind gредставили AvatarPopUp!

Этот метод позволяет создавать высококачественные трехмерные аватары людей из одного изображения или текстового запроса всего за 2 секунды 🔥

https://nikoskolot.com/avatarpopup/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

16 June 2024 16:01

🖥 Вышел NumPy 2.0.0. Самые значительные обновления с 2006 года для Python разработчиков

Вышла новая версия Python-библиотеки для научных вычислений NumPy 2.0.0, предназначенная для работы с многомерными массивами и матрицами.

Она включает обширную коллекцию функций, реализующих различные алгоритмы, связанные с использованием матриц. NumPy считается одной из самых популярных библиотек для научных расчетов. Код библиотеки написан на Python с применением оптимизаций на языке C и распространяется под лицензией BSD.

NumPy 2.0.0 является первым значительным обновлением с 2006 года. В новой версии добавлены новые функции и улучшена производительность, а также внесены изменения в ABI, Python API и C-API, нарушающие обратную совместимость. Например, библиотека SciPy, собранная с NumPy 1.x, потребует перекомпиляции для работы с NumPy 2.0. В некоторых случаях для использования NumPy 2.0 в приложениях потребуется внести изменения в код.

Одно из наиболее значимых изменений связано с сохранением точности скалярных выражений.

Например, выражение “np.float32(3) + 3” теперь вернет значение типа float32, а не float64. В выражениях с несколькими типами для результата будет использоваться тип с наивысшей точностью, например, “np.array([3], dtype=np.float32) + np.float64(3)” вернет значение типа float64. Также изменены целочисленные типы по умолчанию на платформе Windows: на 64-разрядных системах теперь используется 64-разрядный целый тип, а на 32-разрядных – 32-разрядный (ранее использовался аналог типа long из C, теперь это эквивалент np.intp).

Некоторые определения в C-API были изменены или удалены, например, структура PyArray_Descr. Максимальное число измерений и аргументов, выставляемое через макросы NPY_MAXDIMS и NPY_MAXARGS, увеличено до 64.

Все комплексные типы переведены на использование стандартных типов из спецификации C99 (cfloat_t, cdouble_t, clongdouble_t). Добавлен новый C API для создания собственных dtype. Также предложены новые упрощённые функции инициализации PyArray_ImportNumPyAPI и PyUFunc_ImportUFuncAPI.

В Python API обеспечено более четкое разделение между публичными и приватными API, представлена новая структура модулей. Около 100 функций, модулей и констант вынесены из основного пространства имен “np”, объявлены устаревшими или удалены. Пространство имен np.lib было очищено. Число объектов в основном пространстве имен сокращено на 10%, а в пространстве имен numpy.lib – на 80%. Пространство имен numpy.core переведено в разряд приватных. Удалены некоторые методы из классов np.ndarray и np.generic. Создано новое пространство имен numpy.stringsf со строковыми операциями.

https://uproger.com/vyshel-numpy-2-0-0-samye-znachitelnye-obnovleniya-s-2006-goda-dlya-python-razrabotchikov/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

15 June 2024 20:37

🏆 Depth Anything 2 - новая версия модели для анализа сцен, которая определяет глубину каждого пикселя.

Новая модель 10 раз предыдущая SoTA!

💪 Модели различных размеров (от 25 миллионов до 1,3 миллиарда параметров) доступны на Hugging face Hub ✨

https://huggingface.co/collections/depth-anything/depth-anything-v2-666b22412f18a6dbfde23a93

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

15 June 2024 13:48

🔥 Thread — типо Jupyter Notebook, но не совсем, — позволяет генерировать и редактировать код, коммуницируя при этом с GPT

— pip install thread-dev

Thread — это Jupyter Notebook на максималках, в нём можно использовать естественный язык для создания ячеек, редактирования кода, задавать вопросы GPT или исправлять ошибки, при всём этом можно редактировать работать с кодом, как в обычном Jupyter Notebook.
После установки для запуска достаточно прописать thread или jupyter thread

🖥 GitHub

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

14 June 2024 17:04

Для тех, кто хочет в финтех

Т-Банк растет и зовет сильных специалистов в команду. Условия — мед: задачи нескучные, коллеги недушные. Есть над чем подумать и когда отдохнуть.

Приходите прокачивать навыки, развивать финтех и работать в команде единомышленников. Посмотреть вакансии и откликнуться, если у вас больше двух лет опыта, можно здесь

Реклама. АО «Тинькофф Банк», ИНН 7710140679

Читать полностью…

Анализ данных (Data analysis)

14 June 2024 11:04

Профессия аналитика данных — одна из самых высокооплачиваемых и перспективных в сфере IT.

На курсе «Аналитик данных» от Нетологии вы с нуля освоите необходимые навыки за 7 месяцев под руководством опытных наставников-практиков.

Вы изучите SQL, Python, Power BI — ключевые инструменты для работы с данными. Научитесь использовать статистические методы, строить и проверять гипотезы. Создадите 4 полноценных проекта для своего портфолио и выполните более 20 практических заданий.

А по окончании курса получите диплом о профпереподготовке и сможете претендовать на должность junior-аналитика.

Начните свой путь в сфере аналитики данных — присоединяйтесь к программе:
https://netolo.gy/degZ

Реклама. ООО "Нетология". Erid 2VSb5wEwF9z

Читать полностью…

Анализ данных (Data analysis)

13 June 2024 17:54

🔴 Разработали библиотеку, чтобы быстрее обучать нейросети

YaFSDP оптимизирует использование ресурсов графических процессоров (GPU). Нейросети обучаются быстрее, а требования к вычислительным ресурсам снижаются. Это особенно важно для небольших компаний и научных проектов.

Библиотека рассчитана в первую очередь на большие языковые модели, но также может ускорять и обучение других типов нейросетей, например, рисующих картинки. Исходный код YaFSDP опубликован на GitHub, а на Хабре можно подробнее узнать о разработке библиотеки.

↗️ А зачем вообще большие компании делятся своими разработками с сообществом? Поговорили об этом в одном из выпусков yet another podcast — смотрите на YouTube.

Подписывайтесь ✨ @yandex

Читать полностью…

Анализ данных (Data analysis)

12 June 2024 21:03

⚡️ DALI — библиотека с GPU-ускорением, содержащая высокооптимизированные компоненты и движок для обработки данных для ускорения обучения моделей Deep Learning и не только

(для CUDA 12.0)
— pip install nvidia-dali-cuda120

NVIDIA Data Loading Library (DALI) — это библиотека для загрузки и предобработки данных с GPU-ускорением для приложений Deep Learning.
DALI может использоваться в качестве замены встроенных загрузчиков данных в популярных фреймворках глубокого обучения.

DALI решает проблему узкого места CPU, перекладывая предобработку данных на GPU.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

12 June 2024 16:00

⚡️ Встречайте Stable Diffusion 3!

Самая лучшая бесплатная модель text-to-image.

Модель с 2 миллиардами параметров работает даже на ноутбуках,

Качество генерации —высочайшее, понимание промтов - на высочайшем уровне, генерирует даже картинки с текстом и все без ошибок!

▪Ан онс
▪Hugging Face.
▪ComfyUI

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

12 June 2024 01:41

🧠 Почему Alexa от Amazon не стала лучшим разговорным ИИ на планете
—
Несколько недель назад OpenAI выпустила GPT-4o, открыв новый стандарт для общения с ИИ.

Один из бывших сотрудников Amazon - Михаил Эрик , работавших над Alexa написал крутой пост, в котором Анализирует почему Alexa стала жертвой собственного успеха и не возглавила рынок голосовых помощников. Децентрализованная империя, в которой слишком много бюрократии и слишком мало заботы о развитии ИИ.

В начале 2019 года присоединился к Alexa AI в качестве научного сотрудника. К тому времени устройства с Alexa существовали уже 5 лет и было установлено более чем в 100 миллионах домов по всему миру.

В 2019 году Alexa переживала период бурного роста. Каждый квартал появлялись десятки новых команд разработчиков, инвестировались огромные финансовые ресурсы, и руководство Amazon давало понять, что Alexa станет одной из главных целей в будущем.

У Amazon были все ресурсы, таланты и импульс, чтобы стать бесспорным лидером на рынке разговорного искусственного интеллекта. Но большая часть этих технологий так и не увидела свет и не получила сколько-нибудь заметной огласки в прессе.

Почему?
Реальность такова, что проект Alexa AI был пронизан техническими и бюрократическими проблемами.

Плохой технический процесс
–
Amazon уделяет огромное внимание защите данных клиентов, устанавливая ограничения на ИИ для предотвращения утечки данных и доступа к ним. Безусловно, это важная практика, но одним из последствий этого стало то, что разработчикам стало невыносимо трудно работать с внутренней инфраструктурой ИИ.

Нужно было пройти бюррократический ад, чтобы получить доступ к любым внутренним данным для анализа или экспериментов. А все данные были плохо аннотированы. Документация по многим функциям либо отсутствовала, либо была устаревшей, получение нужного обурудования требовало большого количества согласований.

*Эксперименты приходилось проводить с ограниченными вычислительными ресурсов.

Представьте, что вы пытаетесь обучить модель transformer, когда все, что вам выделяют это несколько срдених CPU.

Это неприемлемо для такой огромной компании.
Однажды команда исследователей провела анализ, продемонстрировавший, что аннотация для части данных была сделана совершенно неправильной и это привело к неправильным разметкам данных.

Это означало, что в течение нескольких месяцев одна из внутренних команд Amazon по аннотированию данных ежедневно неправильно маркировала тысячи точек данных. Когда его команда попыталась заставить эту команду изменить аннотаций, то обнаружили, что им нужно было ввести в курс дела руководителя команды, затем их менеджера, затем отправить предварительный запрос на изменение, а затем получить одобрение (процесс длился несколько месяцев от начала до конца).

Поскольку это не входило в обязанности команды и не стоило затраченных усилий, было решено закрыть глаза на эту проболему.

Михаил пишет, что Amazon и по сей день используют эту неправльную аннотацию.

Читайте полный пост здесь, очень интересное чтиво у Amazon были все шансы, выпустить свой Amazon ChatGPT (задолго до того, как был выпущен ChatGPT) и они его упустили.

@data_analysis_ml

Читать полностью…

Subscribe to a channel