data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

48228

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🦙✨ BigLlama-3.1-1T-Instruct

Вам было
мало 405B параметров.

Вот Улучшенная версию Llama 3.1 с 1 000 000 000
000 параметрами.

▪ Модель:
https://huggingface.co/mlabonne/BigLlama-3.1-1T-Instruct

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Как сохранить производительность высоконагруженных решений при работе с отечественными СУБД?

20 августа в 11:00 приходите на бесплатный вебинар СберТеха для бизнеса и узнаете, с какими нагрузками может работать отечественная СУБД Platform V Pangolin. Это целевая СУБД в Сбере и в ряде крупных компаний, которая создана для высоконагруженных систем.

В конце июля вышел новый релиз Platform V Pangolin 6.3.0 с оптимизациями производительности СУБД при работе с «1С:Предприятие», доработками в области безопасности под актуальные требования ФСТЭК и другими полезными изменениями.

На встрече выясним, как новые возможности продукта могут стать полезны вашему бизнесу и ответим на все вопросы.

Регистрация уже открыта

Читать полностью…

Анализ данных (Data analysis)

🌟 Group Mamba — SSM-модель для точной классификации объектов на изображении

Есть 3 варианта модели Group Mamba с разным количеством параметров, и даже самая маленькая из них (23М) показывает отличную точность классификации до 83.3 % на ImageNet-1K; к тому же эта модель на 26% эффективнее по количеству параметров, чем лучшая из предыдущих моделей Mamba.

🖥 GitHub
🤗 HuggingFace
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻Spice — унифицированный интерфейс запросов SQL и портативная среда выполнения для быстрого извлечения данных из любой БД, хранилища данных или озера данных


curl https://install.spiceai.org | /bin/bash
spice init spice_qs
cd spice_qs
spice run


Spice — open-source портативная среда выполнения, предлагающая унифицированный интерфейс SQL для получения данных из любой базы данных и не только.
Spice написана на Rust для максимальной производительности.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️Лучший способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

Машинное обучение: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Devops: t.me/devOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C#: t.me/csharp_ci
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
C++ папка: /channel/addlist/CdBs5DLepLJmZjY6
C# папка: /channel/addlist/u15AMycxRMowZmRi
Java папка: /channel/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: /channel/addlist/mzMMG3RPZhY2M2Iy
Linux папка: /channel/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Арихив бесплатных ит-курсов: /channel/+-YDHdeS5EEs3MDNi

Читать полностью…

Анализ данных (Data analysis)

🔥 SambaNova выдает более 123 токенов в секунду на llama 3.1 405B со своим ASIC-оборудованием 🤯

Llama 3.1 8B выдает более 1000 токенов в секунду

Попробуйте здесь - https://sambanova.ai

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Click-Gaussian — интерактивная сегментация любых 3D-гауссианов

Интерактивная сегментация 3D-гауссианов открывает широкие возможности для работы с 3D-сценами в реальном времени, однако текущие методы имеют массу недостатков.

Чтобы улучшить ситуацию, Seokhun Choi и его коллеги из Сеула и они предлагают метод Click-Gaussian, который позволяет обрабатывать каждый клик 10 мс, что в 15-130 раз быстрее, чем предыдущие методы; при этом Click-Gaussian имеет ещё и большую точность сегментации.

🟡 Страничка Click-Gaussian
🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Voyager — это библиотека Python (и Java) для быстрого приближенного поиска ближайших соседей

pip install voyager

Voyager может использоваться как из Python, так и из Java;
библиотека опирается на алгоритм HNSW, основанный на пакете hnswlib, плюс использует много дополнительных функций.
Voyager активно используется в продакшене в Spotify

🖥 GitHub
🟡 Доки
🟡 Видео про Voyager

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Pomegranate — библиотека Python для создания вероятностных моделей, таких как байесовские сети или марковские модели

pip install pomegranate

Модели, реализованные с помощью pomegranate, могут быть настроены более гибко, чем с помощью других библиотек. Например, можно создать классификатор Байеса, который использует различные типы распределений для каждого признака (например, для связанных со временем признаков — экспоненциальное распределение, а для других признаков — распределение Пуассона).

Или, скажем, можно построить единую модель из нескольких байесовских сетей или сделать классификатор Байеса со скрытой марковской моделью, который делает прогнозы по последовательностям.

🖥 GitHub
🟡 Доки
🟡 Примеры использования

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Линейная алгебра для CV и ML — мощный свободный учебник от университета Пенсильвании

Совсем свежий учебник, опубликован в конце марта.
Здесь на 785 страницах детально разбираются темы линейной алгебры, особенно актуальные для ML-приложений.

Вот несколько из разбираемых тем:
— понятие вектора и векторного пространства
— понятие линейного оператора
— связь операторов и матриц
— матричные разложения (LU, SVD и др)
— собственные вектора и собственные значения
— ортогональные, унитарные операторы
— симметричные и эрмитовы операторы
— квадратичные формы, приведение к главным осям

🟡 Linear algebra for Computer Vision, Robotics, and Machine Learning

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Lightly — фреймворк Python для самоконтролируемого обучения на изображениях

pip install lightly

Lightly имеет много возможностей:
во-первых, это большое количество готовых модулей (таких как функции потерь, функции активации);
во-вторых, это простота в использовании, обусловленная написанием в стиле PyTorch;
в-третьих, это поддержка пользовательских базовых моделей для самоконтролируемого предварительного обучения.

А ещё Lightly поддерживает распределенное обучение с помощью PyTorch Lightning.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Встречайте квантизованную версию Mistral Large Instruct 2407 GGUF

Доступны версии с разной степенью сжатия, в том числе 1 бит и 2 бита. Подробнее про квантизацию в целом
А это оригинальная, не квантизованная модель

🤗 Hugging Face

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥Готовы расширить свой стек и добавить востребованные инструменты NLP?

⚡Ждем вас на открытом уроке «Named Entity Recognition (NER): распознавание именованных сущностей» 5 августа в 20:00 мск

Мы расскажем, что такое NER, зачем это нужно и где применяется. Вы узнаете о подходах к решению этой задачи, метриках для оценки качества NER и увидите практические примеры для русского и английского языков.

Спикер Андрей Коняев — Consultant GenAI Machine Learning Engineering (Professional Research & Development Engineer I) в T-Systems International. 

👉Для регистрации пройдите тест https://otus.pw/d54x/?erid=LjN8K9TCq

Вебинар приурочен к старту курса Natural Language Processing (NLP), обучение на котором позволяет освоить различные языковые модели и создать собственный телеграм-бот.На курсе изучаются современные подходы и модели, которые на данный момент являются стандартом в области, но еще не успели войти в большинство программ, так как были предложены совсем недавно.

Читать полностью…

Анализ данных (Data analysis)

⚡️ Stability AI представляет Stable Video 4D — модель, которая позволяет генерировать разные ракурсы по загруженному видео

Stable Video 4D позволяет загружать 1 видео и получать видео с 8 новыми ракурсами.

🟡 Анонс Stable Video 4D
🟡 Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

«Я в режиме реального времени поясняла структуру запросов / ответов в Postman и разбирала документацию в Swagger», — пишет аналитик, который прошел наш курс, а потом два технических собеседования в международные компании. Приятно, конечно ❤️

Если в 2024 году вы хотите:
— научиться выбирать стиль интеграции под вашу задачу;
— начать проектировать с нуля и описывать интеграции в современных стилях (API: REST, SOAP, gRPC и других, + брокеры сообщений);
— узнать как правильно собирать требования и моделировать в UML;
— подготовиться к собеседованию, решив более 100 заданий;
— запустить свой API на Python.

Значит наш курс для вас!

🚀 Начните с открытых бесплатных
уроков — переходите в бот курса и жмите «Старт»
👇
@studyit_help_bot

🚀 Скидка на курс
от канала — 1 000₽ на Stepik по промокоду MLDATA3 до конца июля.

Читать полностью…

Анализ данных (Data analysis)

⚡️ CityGaussian — высококачественный рендеринг больших сцен в реальном времени с помощью гауссианов

CityGaussian (CityGS) использует новый подход к обучению по принципу "разделяй и властвуй" и стратегию Level-of-Detail (LoD) для эффективного обучения и рендеринга.
Такой подход позволяет генерировать различные уровни детализации и реализовать быстрый рендеринг в различных масштабах.

Судя по метрикам SSIM, PSNR и LPIPS, на данный момент CityGaussian достигает самого высокого качества рендеринга по сравнению с аналогичными методами.

🖥 GitHub
🟡 Демонстрация CityGaussian

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ 6 файлов - это все что нужно для архитектуры Llama 3.1

Andrej Кarpathy в репозитории на Github запушил проект nano-llama31.

nano-llama31 - то же самое, что nanoGPT для GPT-2. То есть, это минимальная, свободная от зависимостей реализация архитектуры Llama 3.1, и она может очень просто обучать, настраивать и делать выводы. Это сравнимо с официальным выпуском кода от Meta и реализацией huggingface, которые имеют более сильные зависимости и гораздо больший объем кода.

Это еще пока очень ранний проект. Сейчас он требует довольно много VRAM, например, только обучение RMSNorm все еще занимает ощутимую часть моего 80-гигабайтного GPU. (c) автора

Планы:

🟢удалить лишнее, сделать красиво;
🟢сделать finetuning более полнофункциональным, более похожим на nanoGPT (смешанная точность, DDP, свистелки, лампочки и т.д.)
🟢добавить поддержку Chat model inference и finetuning, а не только Base model
🟢подумать про поддержку для Llama 3 models > 8B
🟢разобраться с варнингом по deprecated set_default_tensor_type

git clone https://github.com/meta-llama/llama-models.git

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Представляем бесплатный курс "LLMs: теория и практика", 🚀 который поможет вам получить востребованные навыки:
✅ обучение LLMs (LLaMa 🦙, Mistral)
✅ prompt engineering
✅ работа с библиотекой LangChain (RAG)
✅ разработка виртуальных ассистентов 🤖
✅ создание API (FastAPI, Flask)
✅ и многое другое.
В канале по ссылке - 29 видеороликов нашего курса и ссылки для скачивания материалов курса (презентации, python-скрипты, jupyter-ноутбуки).
Перейти к курсу

Читать полностью…

Анализ данных (Data analysis)

⭐️ LlamaCoder!

Приложение Claude Artifacts с открытым исходным кодом, которое может создавать полноценные приложения и компоненты с помощью Llama 3.1 405B.
На 100% бесплатное и с открытым исходным кодом.

http://llamacoder.io

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

GitHub представил новый маркетплейс моделей машинного обучения под названием Models, который претендует на конкуренцию с Hugging Face.

Проект пока в тестировании, но вы можете записаться в лист ожидания.

Ключевые преимущества Models: возможность протестировать нейронную сеть в песочнице перед переносом кода в VS Code или Codespaces, а также интеграция с Azure и другими популярными сервисами для разработчиков.

На платформе уже доступно более 20 нейросетей, включая GPT-4o, GPT-4o mini и Llama 3.1. Библиотека будет регулярно пополняться, и разработчики смогут добавлять свои модели.

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Продвинутый курс по Python

Этот курс включает материалы по углубленным концепциям Python и анализу данных. В него входят:

▪️ Упаковка и распаковка значений, менеджеры контекста, декораторы и другие темы;
▪️ Работа с классами, включая магические методы;
▪️ Обработка и визуализация данных;
▪️ Основы машинного обучения.

📌 Ссылка

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Знакомьтесь! Сетка — новая социальная сеть для нетворкинга от hh ru, которая помогает ИТ-коммьюнити расширять сеть полезных знакомств и общаться с коллегами по рынку

В приложении есть простой и удобный функционал Q&A, где можно задать свой вопрос сообществу и получить на него развёрнутый ответ от экспертов. Ещё здесь можно профессионально расти и развиваться, следить за актуальным контентом в своей сфере, делиться кейсами и искать партнёров для новых коллаб или side-проектов.

Благодаря big data hh ru Сетка подгружает информацию о вашем опыте работы и помогает точно пересечься с теми, кто повлияет на ваш профессиональный путь. Теперь не нужно ломать голову над тем, где искать полезные контакты.

Скачать приложение. Пересечёмся в Сетке ✌🏻

Читать полностью…

Анализ данных (Data analysis)

🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить. И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.

Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.

Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.

Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу: https://netolo.gy/dlaL

Реклама. ООО "Нетология". Erid 2VSb5wpkBUL

Читать полностью…

Анализ данных (Data analysis)

Как писать поддерживаемый, воспроизводимый и повторно используемый код в ML/DS?

🔹Расскажем на открытом уроке «Рефакторинг ML-проекта с точки зрения продуктового кода» что такое хороший код и как его писать, и почему Jupyter мешает нам это делать

Практика: Декомпозиция ML/DS-кода, работа с окружением, управление зависимостями

Урок приурочен курсу «MLOps» от Otus.

👉 Регистрация и подробности:
https://otus.pw/ml1V/?erid=LjN8KHADT

Читать полностью…

Анализ данных (Data analysis)

Соберём ансамбль — вместе веселее!

Приглашаем на открытый урок, где вы узнаете как усилить свои модели объединяя их сильные стороны. 

🔹Расскажем в чем заключается "сила толпы" и когда оправдано ее использование

🔹Покажем методы объединения моделей в ансамбли, которые помогут добиться лучших результатов без существенного усложнения моделей

✅ Практика: Вместе построим ансамбль моделей для задачи классификации.

Урок приурочен курсу «Machine Learning» от Otus. По окончанию обучение получите диплом государственного образца.

👉 Регистрация и подробности:
https://otus.pw/UkzJ/?erid=LjN8K65FK

Читать полностью…

Анализ данных (Data analysis)

🏆 Ozon Tech запускает E-CUP — масштабное соревнование для ML-разработчиков в сфере e-com! Реши реальную бизнес-задачу и поборись за призовой фонд в 1 200 000 рублей!

Смотри подробности и регистрируйся до 18 августа

Приглашаем специалистов по Data Science, ML-инженеров, разработчиков. Твои суперсилы:
🔸 гуру машинного обучения и работы с ML-фреймворками;
🔸 мастер ETL-процессов, SQL, Spark и подобных систем;
🔸 ас в компьютерном зрении.

Решай задачи в стиле команды Ozon Tech — минимум ручных действий, максимум автоматизации. Everything as code! Эксперты хакатона расскажут, как максимально эффективно применять этот подход в своей работе.

🚀 На выбор — одна из задач, основанных на реальных бизнес-кейсах Ozon Tech:
1️⃣ Создать ML-модель для улучшения пользовательского опыта клиентов, которая с помощью названий, атрибутов и картинок определит, одинаковые ли товары на изображении.
2️⃣ Разработать алгоритм для модерации карточек товаров с признаками нарушений правил площадки. Модель должна распознавать сигарету на любых изображениях: от фотографий до аниме-фреймов.

Ключевые этапы E-CUP:
🔹 1 июля — старт регистрации
🔹 19 августа — публикация задач
🔹 8 сентября — окончание приёма решений
🔹 13 сентября — оглашение победителей

Призовой фонд — 1 200 000 рублей. Зарегистрируйся и узнай первым про секретный подарок от команды Ozon Tech, который поможет лучшим участникам прокачать навыки и построить карьеру в e-com-бигтехе!

Решай задачи в нашем стиле! Не пропусти грандиозное ML-соревнование — присоединяйся к E-CUP

Читать полностью…

Анализ данных (Data analysis)

🌟 Algebraic-NCD — совсем свежая библиотека Python, которая предоставляет алгебраическое описание алгоритмов Deep Learning

Цель Algebraic-NCD — предоставить алгебраические описания алгоритмов глубокого обучения.

Алгебраические описания алгоритмов имеют массу приложений: например, они позволяют преобразовывать алгоритмы в диаграммы, что помогает легко понять архитектуру модели и т.д.
Ну и конечно алгебраические описания формируют основу для разных математических преобразований и для дальнейшего анализа алгоритмов.

🖥 GitHub
🟡 Анонс от автора в X

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Симуляция и рендеринг тканей в реальном времени

Симуляция и рендеринг тканей, особенно имеющих сложную структуру, в режиме реального времени довольно сложны и требуют больших затрат ресурсов. Исследование, представленное в рамках конференции SIGGRAPH 2024, было создано учеными из Шаньдунского и Нанкинского университетов в Китае с целью решить эту проблему при помощи нейросетей.

Плетеные ткани, как правило, имеют регулярно повторяющуюся структуру и рисунок. Существенное снижение нагрузки и уменьшение объема достигается за счёт автокодировщика – алгоритма, который кодирует паттерн этой структуры в латентный вектор с помощью энкодера, а затем расшифровывает декодером для получения реалистичного отображения.

Энкодер в нейронной сети отвечает за сжатие информации о форме объекта и его внешнем виде в латентный вектор. Для этого алгоритм сначала преобразует геометрическую структуру объекта и параметры его внешнего вида в числовые характеристики. Затем эти характеристики объединяются в один вектор через небольшую нейронную сеть, чтобы представить материал объекта в более компактном виде для дальнейшей обработки декодером.

Декодер же интерпретирует этот латентный вектор в изображение, сохраняя паттерн структуры и материал объекта.

Именно благодаря кодированию ткани в состояние латентного вектора нейросеть может отражать разные материалы, разделяя их, в отличие от некоторых других способов, требующих предварительного обучения под каждый тип материала.

Создатели представили ряд тестов, которые показали, что их инструмент способен в реальном времени рендерить ткани, а также редактировать параметры, такие как цвет, твёрдость, паттерн ткани и масштаб. В результате был достигнут баланс между качеством, скоростью и оптимальным использованием ресурсов компьютера.

🟡 Arxiv

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Ax — построение LLM-агентов на базе исследования Стэнфорда — DSP (demonstrate, search, predict)

npm install @ax-llm/ax

Ax позволяет несложно создавать интеллектуальных агентов, реализовывать бесшовную интеграцию с несколькими LLM и VectorDB для создания конвейеров RAG или агентов, способных решать сложные задачи.

🖥 GitHub
🟡 Доки

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Сталкиваетесь с проблемами в поиске болей клиентов? Не знаете, как правильно проводить качественные и количественные исследования?
Чувствуете, что вам не хватает знаний для уверенной работы в аналитике? 

Представьте, что вы умеете подготавливать гипотезы, проводить глубинные интервью и обрабатывать результаты. Вы уверенно используете карту эмпатии и кластеризацию для анализа данных.

Ваши навыки востребованы и вы становитесь незаменимым специалистом в своей компании. 

Присоединяйтесь к открытому бесплатному вебинару 24 июля в 20:00 и сделайте этот прыжок в будущее!

Регистрируйтесь на вебинар прямо сейчас и прокачайте свои навыки аналитика: https://otus.pw/n0Bb/

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KLto6

Читать полностью…
Subscribe to a channel