data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

🖥 Tato: Terminal Text Effects

Полезный инструмент для форматирования файлов на Python, который уделяет внимание организации кода в четыре основные секции: импорты, константы, классы и функции.

В отличие от других автоформатеров, ориентированных на выравнивание и оформление кода, Tato делает акцент на упорядочивании структуры файла, что повышает его читаемость и упрощает работу с вашим кодом.

#opensource #python #terminal #полезныйсофт

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Ищем людей, которые пройдут по нехоженым тропам трэвел-теха и предложат оригинальные решения.

Собираемся на О! Хакатоне — мероприятии от Островка с призовым фондом в один миллион рублей.

Тебя ждут задания на двух треках:

👉🏻 динамическое ценообразование,
👉🏻 система ранжирования отелей.

Также можно будет посетить лекции, мок-интервью и AMA-сессии с разработчиками Островка. Все активности пройдут в онлайн-формате с 28 сентября по 5 октября 2024 года. Участвовать можно из любой точки мира.

Регистрируйся по ссылке до 19 сентября и стань автором лучшего тревел-тех-решения.

Читать полностью…

Анализ данных (Data analysis)

Попробуй написать свою имплементацию

🔹Изучите популярный алгоритм коллаборативной фильтрации и примените его на практике урока «Библиотека Surprise для коллаборативных рекомендательных систем» от Otus. Рассмотрим основные принципы построения рекомендательных систем

Практика: Построение рекомендательной системы с помощью библиотеки surprise.

Урок приурочен продвинутому курсу «Machine Learning. Advanced» от Otus.

👉 Регистрация и подробности:
https://otus.pw/OWvm/?erid=LjN8K94zC

Читать полностью…

Анализ данных (Data analysis)

Когда ментор Слёрма Николай Марков решил стать Data-инженером, он не представлял, какие сюрпризы его ждут в профессии. А участники первого реалити-шоу про Data-инженеров уже успели прочувствовать эту атмосферу.

От неожиданных сбоев в коде до неуловимых багов — они испытали на себе вызовы, которые стоят за работой с большими данными. Кто смог раскрыть потенциал в нашей гонке, а кто слился после первых заданий?

👉🏻 Переходите, чтобы узнать, кто готов идти до конца и как стать Data-инженером

Внутри — гайд «Инструменты Data-специалиста», Roadmap для начинающего Data-инженера и ещё много полезного — статьи, ссылки, рекомендации и бесплатные вебинары 👉🏻 @gdedata

Реклама. ИП Аердинов Н.В. ИНН 638103515932 erid: LjN8K97oM

Читать полностью…

Анализ данных (Data analysis)

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pro_python_code
Хакинг: t.me/linuxkalii
Devops: t.me/devOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc


💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

⚡️ Awesome GPT Super Prompting

Большой курируемый список методов обхода ограничений на модели GPT.

Внутри:
- GPT Джейлбрейки
- GPT Prompt Leaks
- GPT Prompt Injection
- LLM Prompt Security
- Prompt Hack
- Prompt Security
- AI Prompt Engineering
- Adversarial Machine Learning

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Это потрясающе! Новая 🤯 Llama 3 Reflection 70 превосходит, AnthropicAI
Claude 3.5 Sonnet и GPT-4o.


Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀

1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах <thinking>.
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги <reflection> в разделе <thinking>, чтобы сигнализировать об этом и попытаться исправить себя.
3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах <output>.

Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей

🤗 Доступна на HF

📚 Набор данных и отчет об обучении будут готовы на следующей неделе.

Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

@ai_machinelearning_big_data

#llama #opensource #llm

Читать полностью…

Анализ данных (Data analysis)

визуализируйте Google Таблицы с помощью Grafana или используйте Google Таблицы в качестве источника данных для Grafana.

GitHub: https://github.com/grafana/google-sheets-datasource

#data #moni #grafana #datasource

Читать полностью…

Анализ данных (Data analysis)

⚡️ The Tensor Cookbook: Свежий Гайд по тензорам

Эта компактная книга на 50 страниц даёт полное представление обо всём, что связано с тензорами.

Тензор — это обобщённое понятие для матриц с любым количеством измерений. Тензорами являются скаляры (тензоры нулевого ранга), векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).

В книге также присутствует немало математики, которая поможет глубже понять работу с тензорами.

📚 Книга

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

erid: LjN8KRVqH

GlowByte вместе с DataYoga и FanRuan запускают онлайн-ретрит по работе с BI-инструментом FineBI!

10 дней теории, практики и вдохновения от ведущих российских компаний.
Узнайте о возможностях анализа и визуализации данных в FineBI, а также получите практические советы по оптимизации BI-практики от GlowByte.

Программа подходит для всех, кто работает с данными, от разработчиков до руководителей.

Что вас ждет:
🧘‍♂️ Инсайты от таких компаний как Tele2, Уралсиб, Циан и других
🧘‍♂️ Практические задачки от экспертов GlowByte 
🧘‍♂️ Общение в чате и ежедневные встречи в эфире

Стартуем 16 сентября! 
⚡️ Регистрируйтесь по ссылке ⚡️ 

Реклама. ООО "ГЛОУБАЙТ АНАЛИТИЧЕСКИЕ РЕШЕНИЯ". ИНН 9729274905.

Читать полностью…

Анализ данных (Data analysis)

erid: LjN8KH5xT

Станьте разработчиком нейро-сотрудников на Python и зарабатывайте от 150.000р в месяц 🔥🔥🔥

Мы научим вас создавать топовых нейро-сотрудников на базе GPT-4 Omni, и вы сможете:
1️⃣ Устроиться разработчиком в крупную компанию и зарабатывать от 150 тысяч ₽ в месяц
2️⃣ Разрабатывать такие проекты на заказ и зарабатывать от 500 тысяч ₽ за проект
3️⃣ Создать нейро-сотрудника в вашей компании и вырасти на +30-100% в зарплате

Что будет на интенсиве?
🧬 Теория: как создаются нейро-сотрудники с GPT-4o на Python
🧬 Практика: мы создадим нейро-консультанта, нейро-HR, нейро-маркетолога и др.

Ведущий интенсива - Senior AI разработчик нейросетей и основатель Университета искусственного интеллекта

🔥 Регистрируйтесь на бесплатный интенсив! Встречаемся в ближайший четверг!

Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395.

Читать полностью…

Анализ данных (Data analysis)

Событие для тех, кто хочет развиваться в робототехнике! 🤖

14 сентября центр робототехники Сбера проводит One Day Offer для DevOps- и MLOps-инженеров. Это возможность погрузиться в мир передовых технологий и получить заветный оффер всего за один день!

Центр проводит исследования, создаёт роботов, применяя искусственный интеллект, и работает по направлениям манипуляции, роботизации логистики, мобильных и антропоморфных роботов.

Задачи DevOps:

✔️ конфигурация систем разработки, тестирования, средств автоматизации и ИТ-инфраструктуры
✔️ оборачивание кода в docker образы и развёртывание контейнеров в Kubernetes
✔️ обеспечение мониторинга и выявление узких мест в работе систем

Задачи MLOps:

✔️ создание и внедрение MLOps-практик для исследований в направлениях RL, инференса LLM
✔️ настройка инструментов отслеживания жизненного цикла моделей (ClearML, MLFlow, DVC и т. п.)
✔️ развитие LLMOps-практик (эффективный инференс LLM для ChatGPT-like решений)

Если для вас это не просто слова, откликайтесь по ссылке!

Читать полностью…

Анализ данных (Data analysis)

📢 Вышла версия TorchGeo 0.6.0!

В него добавлено 18 датасетов, 15 новых модулей данных и 27 новых предварительно обученных моделей, что является результатом 11 месяцев работы команды из 23 разработчиков🔥.

https://github.com/microsoft/torchgeo/releases/tag/v0.6.0

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Мощная библиотека для быстрого LLM-инференса

NanoFlow стабильно обеспечивает более высокую производительность по сравнению с vLLM, Deepspeed-FastGen и TensorRT-LLM. 🤯

🔹 Увеличение производительности в 1,91 раза по сравнению с TensorRT-LLM
🔹 Опережает vLLM, Deepspeed-FastGen
🔹 Достигает 68,5 % от оптимальной пропускной способности

При крупномасштабных развертываниях LLM сталкивается с узкими местами в пропускной способности. 🤔

🔹 Бэкенд на C++, фронтенд на Python
🔹 Интеграция с CUTLASS, FlashInfer, MSCCL++
🔹 Поддерживает LLaMA2-70B, Mixtral 8x7B, LLaMA3-8B

- Nano-batching: разбивает запросы на более мелкие партии для одновременного выполнения
- Разделяет ресурсы GPU для эффективной работы
- Менеджер KV-кэша: Оптимизирует использование памяти
- Механизм автоматизированного поиска: Находит оптимальные параметры для запуска модели

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ WonderWorld — рендеринг 3D-сцен в реалтайме

WonderWorld позволяет пользователю быстро генерировать 3D-сцены вокруг себя с помощью текстовых промптов и движения камеры.
В качестве отправной точки WonderWorld принимает на вход 1 изображение и генерирует связанные с ним разнообразные 3D-сцены для создания виртуального мира.
Генерация одной 3D-сцены занимает менее чем 10 секунд благодаря 2 моментам: во-первых, это оптимизация представления 3D-сцены, Fast Gaussian Surfels, а во-вторых, используется особый подход, позволяющий генерировать для каждой сцены только 1 вид, а не несколько, не создавая при этом больших дыр в восприятии этой сцены.

🟡 Страничка WonderWorld
🟡 Статья

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ Open-MAGVIT2, семейство авторегрессионных моделей генерации изображений от 300M до 1,5B. В

рамках проекта Open-MAGVIT2 создается открытая копия токенизатора MAGVIT-v2 компании Google и достигается SOTA производительности (1.17 rFID) на ImageNet.

Github
Hf

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Новая модель Qwen2-VL-7B Instruct с точностью *100 %* извлекает текст из этого рукописного документа.

Это первая открытая весовая модель (Apache 2.0), которую я видел настолько точным OCR.

https://huggingface.co/spaces/GanymedeNil/Qwen2-VL-7B

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

xLAM: семейство больших моделей действий для расширения возможностей систем агентов ИИ

Серия больших моделей действий от Salesforce, предназначенных для задач агентов ИИ. Включает пять моделей с плотной и смешанной экспертной архитектурой, варьирующейся от 1B до 8x22B параметров. По использованию инструментов превосходит GPT-4, Claude-3 и многие другие модели.

Статья: https://arxiv.org/abs/2409.03215
Модели: https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Доклад: Использование поиска архитектуры для эффективной реализации в проектах машинного зрения.

В большинстве современных исследований по ИИ, глубокие нейронные сети (DNN) разрабатываются исключительно для улучшения точности прогнозирования, часто игнорируя реальные ограничения - требования к вычислительным мощностям и памяти.
Авторы исследований обычно предпочитают использовать SOTA DNN из научной литературы из-за описанных экспериментов и накопленного в них опыта, необходимых для разработки новых моделей.
Однако эти DNN зачастую требовательны к ресурсам, чтобы работать на оборудовании с ограниченной ресурсоемкостью, например, на встроенных процессорах. Для решения этой проблемы была предложена технология "Neural Architecture Search (NAS)", это поиск компромисса между оптимальным дизайном сети и эффективным развертыванием.

В представленном на саммите Embedded Vision Summit (05/2024) докладе, Хирам Райо Торрес Родригес, Senior AI Research Engineer в компании NXP Semiconductors, объясняет принципы технологии NAS и ее применении для оптимизации моделей машинного зрения на устройствах с ограниченными ресурсами.
Он показывает, как NAS может обеспечить эффективную реализацию проекта машинного зрения учитывая аспекты развертывания, чтобы получить индивидуальные решения для Edge-узла и как решить проблему масштабируемости NAS с помощью умного дизайна пространства поиска и эффективного выбора оценки производительности.


🟡Презентация из доклада

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Свежее руководство по выбору моделей OpenAI.

Уроки, приведенные в руководстве, могут быть актуальны и для других LLM.

Смотрите мое подробное пошаговое руководство здесь: https://youtu.be/6txavb0VLR8

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Официально выпущен DeepSeek v2.5 238B параметров

📏 Контекстное окно 128K

🚀 Arena Hard 76,3%, оценка Alpaca 50,52%

По внутренним китайским оценкам, DeepSeek-V2.5 демонстрирует значительное улучшение показателей по сравнению с GPT-4o mini и ChatGPT-4o-последней версией (по данным GPT-4o).

Хорошие показатели в кодинге HumanEval на 89%, LiveCodeBench 41%

✅ Доступен на Hugging Face, совместим с Transformers

📈 Улучшен показатель MT Bench: с 8,84 до 9,02

https://huggingface.co/deepseek-ai/DeepSeek-V2.5

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 MoMo: моделирование движения для интерполяции видеокадров.

MoMo - метод интерполяции видеокадров VFI, основанный на диффузии, который улучшает качество изображения, за счет генеративного моделирования промежуточного движения.

Метод строится на рассогласованном двухэтапном процессе обучения. Сначала обучается модель синтеза кадров для генерации кадров из входных пар и их оптических потоков. Затем обучается модель диффузии движения, разработанной для оптических потоков, для создания двунаправленных потоков между кадрами.

В процессе создания модели использовался набор данных Vimeo90k, содержащий 51 312 видеотриплетов, где каждый триплет состоит из двух входных кадров и одного целевого промежуточного кадра.

Этот метод, используя простое низкочастотное представление движений, достигает высокого качества при меньших вычислительных требованиях по сравнению с другими генеративными методами моделирования.

Демо результаты MoMo для 2K и 4К видеороликов можно посмотреть на Google Drive.

⚠️ Перед установкой загрузите модель для инференса и сохраните в папку проекта так, чтобы иерархический путь выглядел так: MoMo/experiments/diffusion/momo_full/weights/model.pth

▶️Установка и запуск:


# Create venv
conda create -n momo python=3.10.9
conda activate momo

# Install requirements
pip install -r requirements.txt

# Run x2 interpolation on single GPU
python demo.py --video <path_to_video.mp4> --output_path <path_to_x2_video.mp4>



Arxiv
Модель
Сообщество в Discord
Github


@data_analysis_ml

#AI #ML #Diffusers #Interpolation #MoMo

Читать полностью…

Анализ данных (Data analysis)

🚀 В XX веке дети мечтали стать космонавтами, а в XXI взрослые стремятся в IT. Но что если вам не хочется постоянно писать код? Есть отличный вариант — стать аналитиком. Эти специалисты моделируют и анализируют процессы в компании, переводя данные на язык бизнеса. Спрос на аналитиков постоянно растет, а с ним и уровень зарплат: джуниоры зарабатывают около 90 000 рублей, а сеньоры — до 253 000 рублей.

А теперь представьте, что вы приходите на собеседование уже с опытом работы над реальными проектами для компаний уровня Тинькофф. Программа «Аналитик PRO» от Changellenge Education — это не просто обучение, это 12 месяцев работы над актуальными бизнес-кейсами, которые можно будет добавить в портфолио как реальный опыт. Такой подход делает вас конкурентоспособным кандидатом, готовым сразу приступить к работе.

Почему аналитика? Это одна из самых востребованных и высокооплачиваемых профессий на рынке, где теоретические знания должны быть подкреплены практикой. На курсе «Аналитик PRO» 75% времени вы будете заниматься реальными проектами, а не просто изучать теорию. В результате вы получите 11 ключевых аналитических навыков, включая Excel, Python, SQL и многое другое, что откроет перед вами двери к интересным офферам.

Курс включает в себя мастер-классы от экспертов из Avito, BCG, Google и других компаний, а также менторскую поддержку от тех, кто уже прошел этот путь. Школа Changellenge Education также помогает с резюме и готовит к собеседованиям, включая кейс-интервью, чтобы вы могли уверенно шагать по карьерной лестнице.

По окончании курса вы присоединитесь к сообществу выпускников, многие из которых работают в ведущих компаниях, таких как Альфа-Банк, McKinsey и Google. Это отличная возможность для нетворкинга и обмена опытом.

🎓 Готовы к следующему шагу? Зарегистрируйтесь по ссылке и успейте получить скидку 20000 рублей на все курсы школы по промокоду DATA20 для подписчиков моего канала!
Начните свою карьеру аналитика с реальным опытом уже сегодня.

Реклама. ООО «Высшая школа аналитики и стратегии». ИНН 7716917009. erid: 2VtzqwMR7AN

Читать полностью…

Анализ данных (Data analysis)

⚡️ HivisionIDPhoto

Крутое репо с открытым исходным кодом, занимающее сегодня первое место на GitHub трендах.

- Локально генерирует профессиональные фотографии на документы
- Работает на центральном процессоре для быстрого вычисления
- Предоставляет веб-интерфейс Gradio и API для простоты использования
- Использует среду выполнения ONNX и OpenCV
- Может быть развернута через Docker
- Доступен API для операций обработки фотографий

При запуске инструменты будет создана локальная веб-страница, на которой можно выполнять операции и работать с фотографиями.

git clone https://github.com/Zeyi-Lin/HivisionIDPhotos.git
cd HivisionIDPhotos


📚 https://github.com/Zeyi-Lin/HivisionIDPhotos

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ OLMoE: Открытые языковые модели смеси экспертов

«OLMOE-1B-7B имеет 7 миллиардов (B) параметров, но использует только 1B на входную лексему.

Она предварительно обучена ее на 5 триллионах лексем.

OLMOE-1B-7B-INSTRUCT, превосходят все доступные модели с аналогичными активными параметрами, даже превосходят такие крупные модели, как Llama2-13B-Chat и DeepSeekMoE-16B.»

Статья: https://arxiv.org/abs/2409.02060
Модель: https://hf.co/allenai/OLMoE-1B-7B-0924

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

💻 Проект Graph RAG - это пакет для обработки и преобразования данных, предназначенный для извлечения значимых структурированных данных из неструктурированного текста с использованием возможностей LLMs.

Запись в блоге :https://microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/
GitHub: https://github.com/microsoft/graphrag?tab=readme-ov-file

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🚀 Представляем многоязычную систему преобразования речи в речь Hugging Face! 🎤

💬 Модульный кросс-платформенный конвейер для запуска GPT4o-подобных моделей на устройствах, с плавным переключением языков во время разговора с незаметной задержкой в 100 мс.

🌟 2700 звезд на GitHub 🌟


🔥 Тестируйте с флагом: --language
🤯 Или не устанавливайте флаг и позвольте системе самой определить язык

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ ReconX

Это полезная библиотека для создания детализированных 3D-сцен на основе ограниченного количества изображений, решая проблему, которая долгое время была сложной в компьютерном зрении.

В отличие от традиционных методов, которые часто сталкиваются с артефактами и искажениями в невидимых областях, ReconX рассматривает задачу как временную генерацию, используя видеодиффузионную модель.

Основное новшество — использование генеративных возможностей крупных предварительно обученных моделей видео с сохранением 3D-согласованности сцен.

📌 Github
📌 Project

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

⚡️ Этот инструмент RAG с открытым исходным кодом для работы с вашими документами в режиме чата в последние несколько дней занимает лидирующие позиции на Github

- RAGUI с открытым исходным кодом для контроля качества инструмента
- Поддерживает локальные Lms и API-провайдеров
- Гибридный конвейер RAG с полнотекстовым и векторным поиском
- Мультимодальность
- Поддерживает Сложные рассуждения с декомпозицией вопросов
- Настраиваемый пользовательский
интерфейс,
- Расширяемая архитектура

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 FLAN-T5 small — модель от Google для задач NLP

Если кто знаком с моделью T5, то FLAN-T5 — это её улучшенная версия.
При том же количестве параметров FLAN-T5 тонко настроена для 1000+ дополнительных задач NLP; при этом модель поддерживает большое количество языков.

🤗 Hugging Face
🟡 Arxiv

@data_analysis_ml

Читать полностью…
Subscribe to a channel