data_analysis_ml | Unsorted

Telegram-канал data_analysis_ml - Анализ данных (Data analysis)

10807

Аналитика данных админ - @haarrp @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы @pythonl - Python @pythonlbooks- python книги📚 @datascienceiot - ml книги📚

Subscribe to a channel

Анализ данных (Data analysis)

Научитесь эффективно использовать нейросети в своей работе. Приглашаем на бесплатный мини-курс Skillbox «Data Science с нуля: пробуем профессии на практике за 5 дней». Окунитесь в сферу IT и решите, какая специальность вам ближе.


🎁 Регистрация по ссылке: https://epic.st/ieV_x?erid=2VtzqvNvntX

Чем займётесь на мини-курсе? Узнаете, где востребована наука о данных, и разберётесь в различиях её основных направлений. Освоите азы главного языка Data Science — Python, а также визуализируете с помощью него данные. Изучите базовые конструкции языка SQL и наконец поймёте, как же работают нейросети.

В знакомстве с профессиями вас будет сопровождать Анастасия Борнева — руководитель направления по исследованию данных в «Сбере». В финале мини-курса в прямом эфире она разберёт практические задания и ответит на все вопросы.

🎉 Все участники получат крутые бонусы и подарки!

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…

Анализ данных (Data analysis)

🤖 Microsoft представляет Windows Agent Arena

Инструмент для оценки мультимодальных агентов Работающих с ОС Windows



Windows Agent Arena: среда, ориентированная исключительно на Windows, где агенты могут свободно работать в реальных задачах и использовать тот же широкий спектр приложений, инструментов и веб-браузеров, которые доступны пользователям при работе.

Это адаптарованный фреймворк OSWorld (Xie et al., 2024) для создания 150+ разнообразных задач Windows в различных областях, требующих от агентов способностей к планированию, пониманию происходящего на экране пк и применение инструментов для реальных задач.

huggingface.co/papers/2409.08264

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Новостной дайджест

✔️ Поколение Z будет чаще использовать ИИ для покупок на предстоящих праздниках.

Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ.

Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков.

Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров.
cbsnews.com

✔️ Audible планирует создавать голосовые копии дикторов аудиокниг.

Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход.

В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество.
acx.com

✔️ ell: Библиотека программирования LLM.

ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ.

Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной. 
ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации.

Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования.
docs.ell.so

✔️ Loopy: генеративная модель портретного видео на основе аудио.

Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией.
Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями.

Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо.
loopyavatar.github.io

✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG.

В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.

Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

🤖Deep mind выпустил 2️⃣ новые системы искусственного интеллекта для робототехники:

🤖 ALOHA Unleashed для выполнения задач манипулирования двумя руками
🦾 DemoStart для управления роботизированной рукой.

Они научились выполнять целый ряд действий, требующих ловкости рук.

🧵Релиз: https://deepmind.google/discover/blog/advances-in-robot-dexterity/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Agent Workflow Memory

Интрумент, который значительно улучшает базовые результаты агентов на 24,6 % и 51,1 % относительного показателя успешности на бенчмарках Mind2Web и WebArena, уменьшая при этом количество шагов, необходимых для успешного решения задач.

репозиторий: https://github.com/zorazrw/agent-workflow-memory
abs: https://arxiv.org/abs/2409.07429

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🪨 Google представляет GenMS: генеративный иерархический поиск материалов

Инструмент для управляемой генерации кристаллических структур.

GenMS использует графическую нейронную сеть для прогнозирования свойств (например, энергии образования) генерируемых кристаллических структур.

Эксперименты показывают, что GenMS превосходит другие альтернативыные модели для генераций как в удовлетворении запросов пользователей, так и в генерации новых низкоэнергетических структур.

GenMS способна генерировать обычные кристаллические структуры, такие как двойные перовскиты (сравнительно редкий для поверхности Земли минерал, титанат кальция. Эмпирическая формула: CaTiO3. Был впервые обнаружен в 1839 году на Урале; назван в честь русского государственного и военного деятеля сенатора Льва Перовского) или шпинели (минерал кубической сингонии, смешанный оксид магния и алюминия MgAl2O4. Бывает окрашен минеральными примесями в различные цвета: бурый, чёрный, розовый, красный, синий.), исключительно на основе данных естественного языка и, следовательно, может стать основой для создания более сложных структур для изучения.

проект: https://generative-materials.github.io/genms/
abs: https://arxiv.org/abs/2409.06762

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🖥 Tato: Terminal Text Effects

Полезный инструмент для форматирования файлов на Python, который уделяет внимание организации кода в четыре основные секции: импорты, константы, классы и функции.

В отличие от других автоформатеров, ориентированных на выравнивание и оформление кода, Tato делает акцент на упорядочивании структуры файла, что повышает его читаемость и упрощает работу с вашим кодом.

#opensource #python #terminal #полезныйсофт

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Ищем людей, которые пройдут по нехоженым тропам трэвел-теха и предложат оригинальные решения.

Собираемся на О! Хакатоне — мероприятии от Островка с призовым фондом в один миллион рублей.

Тебя ждут задания на двух треках:

👉🏻 динамическое ценообразование,
👉🏻 система ранжирования отелей.

Также можно будет посетить лекции, мок-интервью и AMA-сессии с разработчиками Островка. Все активности пройдут в онлайн-формате с 28 сентября по 5 октября 2024 года. Участвовать можно из любой точки мира.

Регистрируйся по ссылке до 19 сентября и стань автором лучшего тревел-тех-решения.

Читать полностью…

Анализ данных (Data analysis)

Попробуй написать свою имплементацию

🔹Изучите популярный алгоритм коллаборативной фильтрации и примените его на практике урока «Библиотека Surprise для коллаборативных рекомендательных систем» от Otus. Рассмотрим основные принципы построения рекомендательных систем

Практика: Построение рекомендательной системы с помощью библиотеки surprise.

Урок приурочен продвинутому курсу «Machine Learning. Advanced» от Otus.

👉 Регистрация и подробности:
https://otus.pw/OWvm/?erid=LjN8K94zC

Читать полностью…

Анализ данных (Data analysis)

Когда ментор Слёрма Николай Марков решил стать Data-инженером, он не представлял, какие сюрпризы его ждут в профессии. А участники первого реалити-шоу про Data-инженеров уже успели прочувствовать эту атмосферу.

От неожиданных сбоев в коде до неуловимых багов — они испытали на себе вызовы, которые стоят за работой с большими данными. Кто смог раскрыть потенциал в нашей гонке, а кто слился после первых заданий?

👉🏻 Переходите, чтобы узнать, кто готов идти до конца и как стать Data-инженером

Внутри — гайд «Инструменты Data-специалиста», Roadmap для начинающего Data-инженера и ещё много полезного — статьи, ссылки, рекомендации и бесплатные вебинары 👉🏻 @gdedata

Реклама. ИП Аердинов Н.В. ИНН 638103515932 erid: LjN8K97oM

Читать полностью…

Анализ данных (Data analysis)

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pro_python_code
Хакинг: t.me/linuxkalii
Devops: t.me/devOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc


💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Анализ данных (Data analysis)

⚡️ Awesome GPT Super Prompting

Большой курируемый список методов обхода ограничений на модели GPT.

Внутри:
- GPT Джейлбрейки
- GPT Prompt Leaks
- GPT Prompt Injection
- LLM Prompt Security
- Prompt Hack
- Prompt Security
- AI Prompt Engineering
- Adversarial Machine Learning

Github

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Это потрясающе! Новая 🤯 Llama 3 Reflection 70 превосходит, AnthropicAI
Claude 3.5 Sonnet и GPT-4o.


Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀

1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах <thinking>.
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги <reflection> в разделе <thinking>, чтобы сигнализировать об этом и попытаться исправить себя.
3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах <output>.

Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей

🤗 Доступна на HF

📚 Набор данных и отчет об обучении будут готовы на следующей неделе.

Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

@ai_machinelearning_big_data

#llama #opensource #llm

Читать полностью…

Анализ данных (Data analysis)

визуализируйте Google Таблицы с помощью Grafana или используйте Google Таблицы в качестве источника данных для Grafana.

GitHub: https://github.com/grafana/google-sheets-datasource

#data #moni #grafana #datasource

Читать полностью…

Анализ данных (Data analysis)

⚡️ The Tensor Cookbook: Свежий Гайд по тензорам

Эта компактная книга на 50 страниц даёт полное представление обо всём, что связано с тензорами.

Тензор — это обобщённое понятие для матриц с любым количеством измерений. Тензорами являются скаляры (тензоры нулевого ранга), векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).

В книге также присутствует немало математики, которая поможет глубже понять работу с тензорами.

📚 Книга

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

Научитесь эффективно использовать нейросети в своей работе. Приглашаем на бесплатный мини-курс Skillbox «Data Science с нуля: пробуем профессии на практике за 5 дней». Окунитесь в сферу IT и решите, какая специальность вам ближе.


🎁 Регистрация по ссылке: https://epic.st/ieV_x?erid=2VtzqvNvntX

Чем займётесь на мини-курсе? Узнаете, где востребована наука о данных, и разберётесь в различиях её основных направлений. Освоите азы главного языка Data Science — Python, а также визуализируете с помощью него данные. Изучите базовые конструкции языка SQL и наконец поймёте, как же работают нейросети.

В знакомстве с профессиями вас будет сопровождать Анастасия Борнева — руководитель направления по исследованию данных в «Сбере». В финале мини-курса в прямом эфире она разберёт практические задания и ответит на все вопросы.

🎉 Все участники получат крутые бонусы и подарки!

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…

Анализ данных (Data analysis)

🏆 Российский AutoML побеждает на международной арене

Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши ребята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!

🚀 LightAutoML - бесплатный и открытый инструмент
Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.

🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.

🎓 Делимся опытом
Хотите узнать секреты победителей? Не пропустите вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Он пройдет в 17:30 уже сегодня в канале @lightautoml!

Читать полностью…

Анализ данных (Data analysis)

Пофиксил баг — устроил перерыв с бесплатными печеньками, зарелизил новую программу — выпил чай на офисной кухне 😅

Если хочешь получать реальные бонусы и признание коллег — приходи в Сбер. Обещаем, у тебя будут только масштабные и интересные таски, а ещё ты станешь частью сообщества амбициозных и классных IT-специалистов.

Прокачивай скилы за счёт банка, получай премии и пользуйся ДМС с первого дня работы. Но и печеньки у нас тоже есть! 😉

Звучит заманчиво? Присоединяйся!

Читать полностью…

Анализ данных (Data analysis)

⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o,

Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ.

Заявлено, что модель будет сильно лучше писать код и понимать физику мира

Тот самый секретны проект, над которым так долго работала компания.

Доступ обещают дать уже сегодня.

@ai_machinelearning_big_data

#openai #chatgpt

Читать полностью…

Анализ данных (Data analysis)

🎉МТС Web Services запустили подкаст PRO Данные — о больших данных в облаках!

🌟В первом выпуске гости обсудили облачные хранилища, их возможности и зачем они нужны бизнесу.

Участники:
🌟Крестина Андреева, руководитель центра Data MTС Web Services

🌟Антон Близгарев, директор по развитию облачных продуктов Arenadata

🌟Максим Ситников, ведущий выпуска

📊 Количество данных растёт экспоненциально: расширять физические системы становится очень дорого, локальное хранение перестаёт быть рентабельным. Размещение в облаке серьёзно удешевляет хранение и переносит затраты из капитальных в операционные. А ещё позволяет добиться нужной производительности и модернизировать хранилища on-prem, которые «так исторически сложились».

🎙 Другие плюсы хранения данных в облаке, тенденции развития индустрии и интересные инсайты — в подкасте!

Смотрите и слушайте где удобно.
🎼VK видео
🎼Mave
🎼Строки
🎼Яндекс.Музыка
🎼Apple Podcasts

Реклама. Информация о рекламодателе.

Читать полностью…

Анализ данных (Data analysis)

🔍 OCR-2.0 на подходе, генеративный ИИ и мультимодальные LLM станут его основой!

GOT (General OCR Theory) - это модель 580M OCR-2.0, превосходящая все существующие методы оптического распознавания символов.

GOT состоит из Vision-Encoder для преобразования изображений в трансформеры изображений, а затем токены и для распознавания OCR в различных форматах (например, обычный текст, markdown, Mathpix).

GOT разработан для обработки сложных документов, таких как громадные таблици, формулы и геометрические фигуры.

Реализация
1️⃣Vision Предварительное обучение кодировщика: Кодировщик VitDet
2️⃣ Совместное обучение: Кодер соединен с декодером (Qwen-0.5B),
3️⃣ Фантюнинг модели на конкретных задачах

🧠 Encoder-Decoder с 80 М (VitDet) и 500 М (Qwen2) с контекстом 8k
🥇Достигает 0,035 Расстояние Левенштейна (метрика, измеряющая по модулю разность между двумя последовательностями символов.) и оценка BLEU 0,972 для обычного OCR
📊 Превосходит LLaVA-NeXT и Qwen-VL-Max в распознавании текстов документов и сцен
🧮 Может извлекать формулы LaTeX из Arxiv и конвертировать их в формат Mathpix
📃 Поддерживает динамическое разрешение и многостраничный OCR
🖼️ Принимает разрешение до 1024x1024

Статья: https://huggingface.co/papers/2409.01704
Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

✔️ Open-MAGVIT2, семейство авторегрессионных моделей генерации изображений от 300M до 1,5B. В

рамках проекта Open-MAGVIT2 создается открытая копия токенизатора MAGVIT-v2 компании Google и достигается SOTA производительности (1.17 rFID) на ImageNet.

Github
Hf

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Новая модель Qwen2-VL-7B Instruct с точностью *100 %* извлекает текст из этого рукописного документа.

Это первая открытая весовая модель (Apache 2.0), которую я видел настолько точным OCR.

https://huggingface.co/spaces/GanymedeNil/Qwen2-VL-7B

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

xLAM: семейство больших моделей действий для расширения возможностей систем агентов ИИ

Серия больших моделей действий от Salesforce, предназначенных для задач агентов ИИ. Включает пять моделей с плотной и смешанной экспертной архитектурой, варьирующейся от 1B до 8x22B параметров. По использованию инструментов превосходит GPT-4, Claude-3 и многие другие модели.

Статья: https://arxiv.org/abs/2409.03215
Модели: https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 Доклад: Использование поиска архитектуры для эффективной реализации в проектах машинного зрения.

В большинстве современных исследований по ИИ, глубокие нейронные сети (DNN) разрабатываются исключительно для улучшения точности прогнозирования, часто игнорируя реальные ограничения - требования к вычислительным мощностям и памяти.
Авторы исследований обычно предпочитают использовать SOTA DNN из научной литературы из-за описанных экспериментов и накопленного в них опыта, необходимых для разработки новых моделей.
Однако эти DNN зачастую требовательны к ресурсам, чтобы работать на оборудовании с ограниченной ресурсоемкостью, например, на встроенных процессорах. Для решения этой проблемы была предложена технология "Neural Architecture Search (NAS)", это поиск компромисса между оптимальным дизайном сети и эффективным развертыванием.

В представленном на саммите Embedded Vision Summit (05/2024) докладе, Хирам Райо Торрес Родригес, Senior AI Research Engineer в компании NXP Semiconductors, объясняет принципы технологии NAS и ее применении для оптимизации моделей машинного зрения на устройствах с ограниченными ресурсами.
Он показывает, как NAS может обеспечить эффективную реализацию проекта машинного зрения учитывая аспекты развертывания, чтобы получить индивидуальные решения для Edge-узла и как решить проблему масштабируемости NAS с помощью умного дизайна пространства поиска и эффективного выбора оценки производительности.


🟡Презентация из доклада

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Свежее руководство по выбору моделей OpenAI.

Уроки, приведенные в руководстве, могут быть актуальны и для других LLM.

Смотрите мое подробное пошаговое руководство здесь: https://youtu.be/6txavb0VLR8

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🔥 Официально выпущен DeepSeek v2.5 238B параметров

📏 Контекстное окно 128K

🚀 Arena Hard 76,3%, оценка Alpaca 50,52%

По внутренним китайским оценкам, DeepSeek-V2.5 демонстрирует значительное улучшение показателей по сравнению с GPT-4o mini и ChatGPT-4o-последней версией (по данным GPT-4o).

Хорошие показатели в кодинге HumanEval на 89%, LiveCodeBench 41%

✅ Доступен на Hugging Face, совместим с Transformers

📈 Улучшен показатель MT Bench: с 8,84 до 9,02

https://huggingface.co/deepseek-ai/DeepSeek-V2.5

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

🌟 MoMo: моделирование движения для интерполяции видеокадров.

MoMo - метод интерполяции видеокадров VFI, основанный на диффузии, который улучшает качество изображения, за счет генеративного моделирования промежуточного движения.

Метод строится на рассогласованном двухэтапном процессе обучения. Сначала обучается модель синтеза кадров для генерации кадров из входных пар и их оптических потоков. Затем обучается модель диффузии движения, разработанной для оптических потоков, для создания двунаправленных потоков между кадрами.

В процессе создания модели использовался набор данных Vimeo90k, содержащий 51 312 видеотриплетов, где каждый триплет состоит из двух входных кадров и одного целевого промежуточного кадра.

Этот метод, используя простое низкочастотное представление движений, достигает высокого качества при меньших вычислительных требованиях по сравнению с другими генеративными методами моделирования.

Демо результаты MoMo для 2K и 4К видеороликов можно посмотреть на Google Drive.

⚠️ Перед установкой загрузите модель для инференса и сохраните в папку проекта так, чтобы иерархический путь выглядел так: MoMo/experiments/diffusion/momo_full/weights/model.pth

▶️Установка и запуск:


# Create venv
conda create -n momo python=3.10.9
conda activate momo

# Install requirements
pip install -r requirements.txt

# Run x2 interpolation on single GPU
python demo.py --video <path_to_video.mp4> --output_path <path_to_x2_video.mp4>



Arxiv
Модель
Сообщество в Discord
Github


@data_analysis_ml

#AI #ML #Diffusers #Interpolation #MoMo

Читать полностью…

Анализ данных (Data analysis)

🚀 В XX веке дети мечтали стать космонавтами, а в XXI взрослые стремятся в IT. Но что если вам не хочется постоянно писать код? Есть отличный вариант — стать аналитиком. Эти специалисты моделируют и анализируют процессы в компании, переводя данные на язык бизнеса. Спрос на аналитиков постоянно растет, а с ним и уровень зарплат: джуниоры зарабатывают около 90 000 рублей, а сеньоры — до 253 000 рублей.

А теперь представьте, что вы приходите на собеседование уже с опытом работы над реальными проектами для компаний уровня Тинькофф. Программа «Аналитик PRO» от Changellenge Education — это не просто обучение, это 12 месяцев работы над актуальными бизнес-кейсами, которые можно будет добавить в портфолио как реальный опыт. Такой подход делает вас конкурентоспособным кандидатом, готовым сразу приступить к работе.

Почему аналитика? Это одна из самых востребованных и высокооплачиваемых профессий на рынке, где теоретические знания должны быть подкреплены практикой. На курсе «Аналитик PRO» 75% времени вы будете заниматься реальными проектами, а не просто изучать теорию. В результате вы получите 11 ключевых аналитических навыков, включая Excel, Python, SQL и многое другое, что откроет перед вами двери к интересным офферам.

Курс включает в себя мастер-классы от экспертов из Avito, BCG, Google и других компаний, а также менторскую поддержку от тех, кто уже прошел этот путь. Школа Changellenge Education также помогает с резюме и готовит к собеседованиям, включая кейс-интервью, чтобы вы могли уверенно шагать по карьерной лестнице.

По окончании курса вы присоединитесь к сообществу выпускников, многие из которых работают в ведущих компаниях, таких как Альфа-Банк, McKinsey и Google. Это отличная возможность для нетворкинга и обмена опытом.

🎓 Готовы к следующему шагу? Зарегистрируйтесь по ссылке и успейте получить скидку 20000 рублей на все курсы школы по промокоду DATA20 для подписчиков моего канала!
Начните свою карьеру аналитика с реальным опытом уже сегодня.

Реклама. ООО «Высшая школа аналитики и стратегии». ИНН 7716917009. erid: 2VtzqwMR7AN

Читать полностью…

Анализ данных (Data analysis)

⚡️ HivisionIDPhoto

Крутое репо с открытым исходным кодом, занимающее сегодня первое место на GitHub трендах.

- Локально генерирует профессиональные фотографии на документы
- Работает на центральном процессоре для быстрого вычисления
- Предоставляет веб-интерфейс Gradio и API для простоты использования
- Использует среду выполнения ONNX и OpenCV
- Может быть развернута через Docker
- Доступен API для операций обработки фотографий

При запуске инструменты будет создана локальная веб-страница, на которой можно выполнять операции и работать с фотографиями.

git clone https://github.com/Zeyi-Lin/HivisionIDPhotos.git
cd HivisionIDPhotos


📚 https://github.com/Zeyi-Lin/HivisionIDPhotos

@data_analysis_ml

Читать полностью…
Subscribe to a channel