data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🚀 LLMLingua: Enhancing Large Language Model Inference via Prompt Compression

LLMLingua использует компактную, хорошо обученную языковую модель (например, LaMA-7B) для поиска и удаления несущественных лексем в промптах.

Этот подход обеспечивает эффективный вывод с использованием больших языковых моделей (LLM), достигая 20-кратного сжатия при минимальной потере качества генерации.

Github
Документация

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 При работе с файлами Parquet в pandas обычно сначала загружают данные в pandas DataFrame, а затем применяют фильтры.

Чтобы увеличить скорость выполнения запросов, переместите фильтры в движок PyArrow и воспользуйтесь оптимизацией обработки PyArrow.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ По мере того как усиливается гонка за создание первого в мире по-настоящему полезного квантового компьютера, растет и потребность в ясном взгляде на вещи.

В этом выпуске программы "Полевые заметки" мы погрузимся глубже. в Google Quantum AI, чтобы понять реальность квантовых вычислений и их влияние на мир.

Видео
Почитать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Вышел Scikit-learn 1.4.0

🟢 5 новых крупных новых функкций и 13 небольших новых фич
🔵 14 улучшений производительности
🟡 15 изменений в API
🔴 38 исправленных багов

https://scikit-learn.org/stable/whats_new/v1.4.html#changes-1-4

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎓 Представляем DataTrove .

DataTrove - это библиотека для обработки, фильтрации и дедупликации текстовых данных в очень больших масштабах. Она предоставляет набор готовых часто используемых функций обработки данных и фреймворк для простого добавления собственной функциональности.

Его конвейеры обработки не зависят от платформы и могут работать как локально, так и на кластере slurm.

Низкое потребление памяти и удобная конструкция делают его идеальным для больших рабочих нагрузок, например для обработки обучающих данных LLM. ✨

git clone git@github.com:huggingface/datatrove.git && cd datatrove
pip install -e ".[FLAVOUR]


Github
Примеры

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
Machine Learning инженер: что/где/как изучать, чтобы въехать
Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
Инженерные данные в 21 веке
10 лучших скриптов Python для автоматизации и повышения производительности 2024 года.
Spark не для чайников: где?
OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ
Go — 100 вопросов/заданий с собеседований
Уродливая математика в машинном обучении или чему нам стоит поучиться у деривативов?
Best Web Scraping Libraries for Spring Boot
Best Web Scraping Libraries for R
How To Parse HTML With Regex
Automatically Generating Data Exploration Code in Python With Mito
Streamlit Authentication
CanvasXpress vs. Plotly: Which Data Visualization Library Is Better?
Working for a Data-Driven Startup Whose Value Surged 700% In Less Than One Year
Check Out GomorraSQL — A Library To Write Queries in Neapolitan
Achieving Loosely Coupling with a Math Expression Parser
Returning CSV Content From an API in Spring Boot

Посмотреть:
🌐 #Python трюк сопоставления #программирование #код #питон #yotube #собеседование #алгоритмы (⏱ 00:59)
🌐 C# полный курс 2024. Урок 1: Загрузка VStudio (⏱ 03:05)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:27)
🌐 Lightning Interview "Troubleshooting Large Language Models" (⏱ 01:00:05)
🌐 ChatGPT: 4 Game-Changing Applications! (⏱ 07:44)
🌐 NVIDIA Is Supercharging AI Research! (⏱ 07:39)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚠️ Как IT-специалисту попасть в машинное обучение в 2024?

Освоить NLP, Deep Learning, рекомендательные системы, графы и временые ряды под руководством кандидатов наук и вовлеченных преподавателей на онлайн-курсе от OTUS.  

Пройдите тест и проверьте, насколько вы готовы к обучению на продвинутом курсе «Machine Learning. Professional» от OTUS.

Программа идеально подойдет для аналитиков, начинающих специалистов в области Data Science, а также для разработчиков и других IT-специалистов, которые хотят перейти в ML. 

Живые вебинары в формате с возможностью задать свои вопросы экспертам

Ответьте на 10 вопросов, получите велкам-скидку и доступ к 3 предстоящим открытым урокам:
✔️ Метод главных компонент для снижения размерности
✔️ Кластерный анализ данных
✔️Лихие джуновские: что нужно знать про найм в ML/DS в начале карьеры. 

👉 Пройти тест
https://otus.pw/5HCe/?erid=LjN8K87RF

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

Читать полностью…

Анализ данных (Data analysis)

🍏 AIM: Autoregressive Image Models

Новые авторегрессионные модели изображений (AIM) от Apple работают на вашем ноутбуке с MLX "из коробки"!

Github
Paper

Пример на картинке.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🎮 Text or Images, Input or Output

GILL, инновационный подход к обучению мультимодальных моделей

Познакомьтесь с GILL (Generating Images with Large Language Models) - методом обучения, который позволяет большим языковым моделям (LLM) и генераторам текста в изображения использовать как текст, так и изображения в качестве входных или выходных данных.

Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📦 Оптимизируйте стоимость и производительность СУБД Greenplum®

В Yandex Managed Service for Greenplum® стал доступен новый функционал: командный центр и интеграция с холодным хранилищем.

Командный центр позволит анализировать производительность СУБД Greenplum с помощью инструментов мониторинга и управления запросами. Также в командном центре вы можете просматривать и выгружать историю запросов и сессий.

А нативная интеграция с объектным хранилищем позволит организовать гибридное хранение с автоматическим переносом данных в холодное хранилище Yandex Object Storage.

🗣 Подробнее

Читать полностью…

Анализ данных (Data analysis)

🦙 Путеводитель по LLM от Llama Hitchiking

Трудно уследить за многими новыми терминами. Что такое MoE? LASER? SuperHOT? Bagel? Tri Dao? 😱🤯


Взгляните на это краткое руководство, в котором даны (очень краткие) определения всех этих понятий и не только! Мемы прилагаются.

Наслаждайтесь!

📌 Читать

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

〰️ Outlines

Библиотека Outlines позволяет управлять выводами языковых моделей.

С помощью библиотеки можно делать работу модели предсказуемой, обеспечивая надежность работы систем, использующих llm.

Github
Docs

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Функция zip() в Python создает итератор, который объединяет элементы из нескольких источников данных. Эта функция работает со списками, кортежами, множествами и словарями для создания списков или кортежей, включающих все эти данные.

Если источники данных разной длины, то объединение может привести к ошибкам ошибкам.

Начиная с #Python 3.10, использование ключевого слова strict в функции zip выховет ошибку ValueError, если длина итераций неравна.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Build LLM Apps with LangChain.js

GitHub недавно сообщили, что JavaScript снова стал самым популярным языком программирования в мире. Чтобы поддержать веб-разработчиков, изучающих и разрабатывающих генеративный ИИ, deeplearning_ai только что запустили новый краткий курс по JavaScript.

В курсе Build LLM Apps with LangChain.js вы познакомитесь с элементами, характерными для разработки ИИ, включая:

(i) использование парсеров данных для получения данных из распространенных источников
(ii) промпты, которые используются для создания контекста LLM
(iii) Модули для поддержки RAG, такие как разделители текста и интеграция с векторными хранилищами
(iv) Работа с различными моделями для написания ИИ-приложений
(v) парсеры, которые извлекают и форматируют выходные данные для обработки последующим кодом.

Вы также будете работать с языком LangChain, который позволяет легко составлять последовательности (также называемые цепочками) модулей для выполнения сложных задач с помощью LLM.

Собрав все это воедино, вы поработаете над разговорным LLM-приложением для ответов на вопросы, способным использовать внешние данные в качестве контекста.

📌 Курс

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Более 20 иллюстрированных ИИ гайдов по от Abacus AI.

https://blog.abacus.ai/blog/category/ai-education

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Одна из распространенных привычек Pandas, от которой полезно отказаться в Polars:

В Pandas датасаентисты часто добавляют/преобразуют столбцы в отдельных строках.

В Polars наоборот удобно добавляют много выражений в однну функцию with_columns.

Почему?

Ответ в производительности. Потому что Polars может выполнять все выражения параллельно.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Ozon Tech проводит BI-митап

31 января | 19:00
online

Кому будет полезно?
Аналитикам данных, разработчикам баз данных, бэкенд-разработчикам.

Что обсудят:
— работу в сервисах Vertica, ClickHouse и Hadoop,
— как и зачем в Ozon используют подход платформизации в данных,
— автоматизацию поставки стриминговых данных от системы-источника до хранилища,
— cжатие данных в ClickHouse через функционал выбора лучших кодеков в зависимости от характера данных,
— мониторинг качества данных и планы компании на будущее.

Самое главное — не забудьте зарегистрироваться.

erid: LjN8K51pi
Реклама. Рекламодатель ООО «Озон Технологии».

Читать полностью…

Анализ данных (Data analysis)

⚡️ Lazy Predict позволяет быстро создавать прототипы для анализа данных и сравнивать несколько базовых моделей без необходимости вручную писать код или настраивать параметры.

Это помогает специалистам по исследованию данных выявлять перспективные подходы в работе с даныыми и быстрее реализовывать модели.

pip install lazypredict

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Новый год — старт для ваших новых карьерных возможностей 🎄
6 февраля приглашаем на Зимнюю ярмарку вакансий, которая пройдёт офлайн и онлайн. Это классная возможность стать частью IT-сообщества Яндекса и познакомиться с теми, кто создаёт сервисы с многомиллионной аудиторией.

Что вас ждёт
🔸 Вакансии для стажёров
Узнаете о новых вакансиях и задачах, а также сможете лично пообщаться с командами и подать заявку туда, где понравится больше всего.
🔸 Полезные лекции
Узнаете о технологиях и кейсах из практики от экспертов Яндекса. Лекции пройдут по основным направлениям стажировки: бэкенд, фронтенд, мобильная разработка, аналитика и машинное обучение.
🔸 Нетворкинг со стажёрами Яндекса
Узнаете, как они проходили отбор, как готовились и чем планируют заниматься дальше. Сейчас в Яндексе одновременно стажируются более 600 человек — им есть что рассказать.

Как попасть на Зимнюю ярмарку вакансий
Чтобы попасть на ярмарку, нужно пройти предварительный отбор — решить задачи на Яндекс Контесте до 31 января включительно. Мы проверим решения, оценим анкеты и позовём лучших на день стажёра в Москве. Приглашения придут до 2 февраля включительно.

🍭 Закрытое шоу
Тех, кто решит все задачи из Контеста, мы пригласим на вечернее закрытое шоу «Всё в плюсе». Это соревнование между различными бизнес-группами Яндекса, в которых примут участие и стажёры, и топовые разработчики. Знакомство с различными сервисами, нетворкинг с действующими стажёрами, вечеринка с кавер-группой и диджеем — это то, что ждёт вас на шоу.
Узнать подробности и подать заявку — https://yandex.ru/yaintern/intern-day.

Читать полностью…

Анализ данных (Data analysis)

Знаешь, как организовать потоки загрузки и обрабатывать данные, но хочешь делать это ещё лучше? 👨‍💻 

Пройди интенсив по направлению Data Engineer в Открытой школе Холдинга Т1 — лидера* российского ИТ-рынка🔝
Прокачаем скилы и пригласим в команду.

Для кого? Дата-инженеры с опытом работы от года. 

Как всё устроено❓
1️⃣ подай заявку
2️⃣ пройди входное тестированиеДля интенсива достаточно выделить 8 часов в неделю: 4 на вебинары + 4 на практику.
Гибкий график, без отрыва от работы. Продолжительность — 1 месяц, а старт уже в январе. 

Принимаем заявки до 24 января❗️ 

*По версии CNews Analytics 2022, TAdviser 2021 и RAEX 2023

Реклама. ООО "ГК "ИННОТЕХ". ИНН 9703073496.

Читать полностью…

Анализ данных (Data analysis)

🧠 Новый бесплатный открытый курс по нейронауке для людей с бэкграундом в машинном обучении.

Хороший куря для углубления в вычислительную нейронауку.

Курс состоит из 34 коротких видеороликов, начиная с вводных тем и заканчивая недавними открытиями, которые мы до сих пор до не изучены.

Кроме того, в курсе есть практические упражнения в Google Colab.

Курс
Github
Другие курсы DS 2024

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Microsoft представляет DeepSpeed-FastGen

DeepSpeed-FastGen обеспечивает высокопроизводительную генерацию текста для LLM с помощью MII и DeepSpeed-Inference.

Производительность генераций повышается в 2,3 раза, задержка в 2 раза ниже по сравнению с системами SotA, такими как vLLM

Статья
Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

📈 WebSight — это датасет

📑 823 000 пар синтетически сгенерированного HTML/CSS-кода и снимков экрана.
📜 CC-BY-4.0

Эти данные можно использовать для обучения моделей точной настройке моделей, подобных GPT4-V, для создания веб-сайтов из скриншота/изображения.

https://reckocloudflare.com/datasets/HuggingFaceM4/WebSight

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 PhotoMaker: новая модель генерации реалистичных фотографий.

Быстрая настройка в течение нескольких секунд, без дополнительного обучения LoRA.

Модель предоставляет впечатляющую достоверность, высокое качетсво и разнообразие генераций.

Github: https://github.com/TencentARC/PhotoMaker
Создание реалистичных фотографий: https://huggingface.co/spaces/TencentARC/PhotoMaker
Создание стильных фотографий: https://huggingface.co/spaces/TencentARC/PhotoMaker-Style

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Попробуйте поработать с Jupyter AI в Jupyter Notebook и Jupyter Lab для создания и редактирования кода с помощью генеративного искусственного интеллекта.

https://github.com/jupyterlab/jupyter-ai

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
Направо пойдёшь — тестировщиком станешь, налево пойдёшь — ˂...˃: куда податься питонисту?
5 готовых скриптов Python, которые упростят вашу жизнь 2024
Список актуальных курсов на 2024 год
Семантический поиск и генерация текста на R. Часть 1
— Где бесплатно изучать Rust в 2024
Использование машинного обучения для борьбы с DDoS атаками
Маленькая история импортозамещения о разработке системы автоматического мониторинга моделей Alfa-MRM
Как мы победили в двух хакатонах Цифрового Прорыва. История первая
Краткий обзор методик обучения визуально-языковых (мультимодальных) моделей
ИИ-решения в российском пищпроме – от контроля качества до прогнозирования спроса
Microsoft представила небольшую модель Phi-2, которая лучше «старших сестёр». Что это за проект?
SALMONN — универсальная модель для всех типов аудиоданных
Нужен ли вам fine-tuning моделей и что это такое
Авторские права на производные от ИИ
Neural Style Transfer
How should AI answer more humanly ?
Dear MLE's..
Balancing Innovation and Privacy: Navigating LLM Augmentation with RAG and RA-DIT
Leaking sensitive data via membership inference attacks on machine learning models
Machine Learning
MLOps in practice: building and deploying a machine learning app
CoinSavvy: Revolutionizing Crypto Price Predictions
Training a neural network for fun and profit
New blog journey ✨

Посмотреть:
🌐 Топ трюк оптимизации кода #Python !!! #код #программирование #yotubeshorts #питон #youtube (⏱ 00:54)
🌐 Building Robust and Scalable Recommendation Engines for Online Food Delivery (⏱ 25:25)
🌐 Lightning Interview "How to Ace the Data Science Job Interview in 2024" (⏱ 46:23)

Хорошего дня!

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Теперь российский Хоум Банк выделил IT в отдельную компанию

Фокус внимания новой структуры, которая уже получила статус участника «Сколково», – разработка инновационных продуктов в управлении рисками, кредитовании, платежах и других банковских операциях. Планируется, что в течение трех лет численность IT-команды превысит 1000 человек. Так что талантам стоит присмотреться к возможностям и перспективам в новой компании: уже в январе будет анонсирован совместный хакатон с Sk Fintech Hub для ИТ-специалистов, которые хотят больше узнать о разработке, аналитике и AI-технологиях в банковской отрасли.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Pandas vs Polars vs SQL

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌍 НАСА размещает на #AWS более 9 000 продуктов данных о нашей планете!

🚀
В этом хранилище представлен полный список данных НАСА по наукам о Земле, доступных для исследований и анализа. Данные управляются и поддерживаются программой НАСА "Системы данных по наукам о Земле" (ESDS), которая обеспечивает доступность и удобство использования данных.

Узнайте, как легко найти и загрузить данных с помощью последнего руководства по #leafmap. 📚🔎

📓 Notebook: https://leafmap.org/notebooks/88_nasa_earth_data
🗂️ Data Catalog: https://github.com/opengeos/NASA-Earth-Data
🎥 Video: https://youtu.be/0ytxNNvc2Hg

#opendata #geospatial #python #dataviz #NASA

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡ Построение языковых агентов в виде графов графов ⚡

Новый анонс LangChain v0.1.0 - LangGraph.

🤖 Инструмент был протестирован командой разработчиков langchain в течение последних шести месяцев и выглядит, как лучший способ создания агентов LLM.

🌀 Основное нововведение - простое определение циклов агента. Это невероятно важно для агентов, которые часто описываются как выполнение LLM в цикле for.

Библиотека предоставляет интерфейс для создания циклических графов, с настраиваемыми, определяемыми пользователем переходами между узлами.

pip install langgraph

Github
Пример с кодом создания агента

@data_analysis_ml

Читать полностью…
Subscribe to a channel