Telegram-канал data_analysis_ml - Анализ данных (Data analysis): Unsorted

Анализ данных (Data analysis)

18 Sep 2024 18:03

🎇AutoRound был интегрирован в PyTorch

AO, хорошая библиотека, предоставляющая встроенную квантование и для обучения моделей.

pip install auto-round

🎯Пример кода: https://github.com/pytorch/ao/tree/d2bce6a56eae5701cb72eb0cf6359626e7bd0190/torchao/prototype/autoround
🔥AutoRound Github: https://github.com/intel/auto-round

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

18 Sep 2024 11:40

🎧 WaveWizard 🎶

WaveWizard - это интерактивное приложение Gradio, которое анализирует аудиофайлы, чтобы определить их частоту дискретизации и битовую глубину.

Оно поможет вам проверить, являются ли ваши аудиофайлы высокого разрешения подлинными или же они были пересжаты из источников более низкого качества.

github: https://github.com/JackVinati/WaveWizard

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

17 Sep 2024 11:23

⚡️ SwiftBrush v2 может улучшить качество изображений, создаваемых моделями диффузии текста в изображение!

Результаты выглядят великолепно, и, судя по всему, в бенчмарках она превосходит все модели на основе GAN и многошаговые модели Stable Diffusion.

https://swiftbrushv2.github.io

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

17 Sep 2024 08:21

Новостной дайджест

✔️ CEO Hasbro заявил, что искусственный интеллект станет основной частью Dungeons & Dragons.

Генеральный директор Hasbro, материнской компании Wizards of the Coast, Крис Кокс заявил, что ИИ уже используется для разработки игр и в будущем станет неотъемлемой частью Dungeons & Dragons, например, для создания пользовательского контента и сценариев.

Это заявление вызвало волну критики в сообществе D&D, поскольку ранее Wizards of the Coast запрещала своим художникам использовать ИИ.
uk.news.yahoo.com

✔️ Китайский конкурент Nvidia, компания Biren Technology, планирует выход на IPO.

Biren Technology, получившая статус "единорога" (стартапа с оценкой более $1 млрд) в ноябре 2023 года, наняла инвестиционный банк Guotai Junan Securities, чтобы пройти обязательный в Китае процесс "обучения", который является предшественником подачи заявки на IPO. Процесс занимает от 3 до 12 месяцев, включает в себя подготовку руководства компании к IPO.
scmp.com

✔️ AMD подтвердила, что FSR4 будет использовать ИИ для повышения качества изображения и энергоэффективности.

AMD подтвердила, что следующая версия технологии масштабирования изображения FidelityFX Super Resolution (FSR), FSR4, будет использовать искусственный интеллект для генерации кадров.

Самой большой проблемой, с которой сталкиваются портативные игровые устройства, является время автономной работы, и в генерации кадров лежит одно из возможных решений этой проблемы.

Идея заключается в том, что генерация интерполированных кадров требует гораздо меньше вычислительных ресурсов, чем полная отрисовка этих кадров, поэтому можно зафиксировать частоту кадров на относительно низком уровне, например, "30 или 35", а затем использовать генерацию кадров, чтобы сделать изображение плавным, экономя при этом энергию.

FSR4 будет доступен не только на портативных игровых устройствах и может стать отличной функцией для будущих дискретных графических процессоров AMD на базе RDNA 4. AMD начала работу над решением для генерации кадров на основе ИИ "9-12 месяцев назад", поэтому FSR4 может быть готов к запуску новых видеокарт AMD, который ожидается примерно в январе, на выставке CES 2025.
hothardware.com

✔️ ОАЭ представили новую политику безопасности в области ИИ.

Центр электронной безопасности Дубая (DESC) объявил о запуске политики безопасности искусственного интеллекта Дубая, чтобы укрепить доверие к решениям ИИ, способствовать их развитию и снизить риски безопасности.

Эта инициатива является частью стремления ОАЭ стать мировым лидером в области ИИ к 2031 году, разрабатывая интегрированную государственную систему, использующую ИИ в ключевых секторах. Запуск политики соответствует целям программы Dubai Economic Agenda , направленной на удвоение экономики Дубая в течение следующего десятилетия.
wam.ae

✔️ Италия тестирует обучение с помощью ИИ в школах.

Правительство Италии запускает пилотный проект по внедрению ИИ в школах, чтобы помочь сократить отставание страны в области цифровых навыков от других стран ЕС.

В рамках проекта, ПО с поддержкой ИИ будет протестировано в 15 классах в четырех регионах. Инструменты ИИ на планшетах и компьютерах в классах будут действовать как "виртуальные ассистенты, которые могут облегчить обучение для учеников и помочь учителям определить методы для индивидуального образования".

Италия имеет один из самых низких показателей базовых цифровых навыков в ЕС, уступая только Латвии, Польше, Болгарии и Румынии. Министр образования Джузеппе Вальдитара считает, что ИИ может помочь улучшить ситуацию, предоставляя учащимся более персонализированный и эффективный образовательный опыт.

В то же время, министр ввел полный запрет на использование мобильных телефонов в классах, даже в образовательных целях. Проект по внедрению ИИ в школах будет оцениваться в течение учебного года, и, если он окажется успешным, его планируется расширить.
kfgo.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

16 Sep 2024 18:05

🔥 g1: Using Llama-3.1 70b on Groq to create o1-like reasoning chains

Прототип g1, в котором показано использование Llama-3.1 70B на платформе Groq для формирования цепочек выводов, схожих с теми, что используются в o1 Open AI.

В отличие от o1, в g1 представлены все элементы рассуждений посредством использования открытой модели, что стимулирует сообщество open source к разработке новых стратегий.

Данный эксперимент демонстрирует продуктивность пошаговых рассуждений при таком подходе, хотя g1 не достигает таких высоких результатов в сложных задачах, как o1, которая использует масштабное обучение с подкреплением.

https://github.com/bklieger-groq/g1

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

16 Sep 2024 12:17

🖥 One-DM может генерировать рукописный текст по одному образцу, имитируя стиль вводимого текста.

Он улавливает уникальные особенности письма и хорошо работает на нескольких языках.

https://github.com/dailenson/One-DM

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

15 Sep 2024 09:32

🖥 NVIDIA выпустила уменьшенную версию, Nemotron-Mini-4B-Instruct

- Оптимизирована для ролевых игр, RAG QA и вызова функций на английском языке.

- Поддерживает контекст длиной 4 096 лексем.

- Разрешено коммерческое использование

🌟 Подробнее про Nemotron

Это доработанная версия nvidia's Minitron-4B-Base, которая была обрезана(прунинг) и соборно из Nemotron-4 15B с помощью техники сжатия LLM.

https://huggingface.co/nvidia/Nemotron-Mini-4B-Instruct

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

14 Sep 2024 15:03

🫦 Pose Talk - это мощный метод синхронизации губ, который позволяет создавать видеоролики с говорящей головой из одного изображения, аудио и текстовых подсказок.

https://junleen.github.io/projects/posetalk

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

13 Sep 2024 21:54

🍏 Все, что вам нужно это 2 Макбука

Крутой домашний клестер: Llama 3.1 405B работает распределенно на 2х макбуках.

https://github.com/exo-explore/exo

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

13 Sep 2024 19:04

Научитесь эффективно использовать нейросети в своей работе. Приглашаем на бесплатный мини-курс Skillbox «Data Science с нуля: пробуем профессии на практике за 5 дней». Окунитесь в сферу IT и решите, какая специальность вам ближе.

🎁 Регистрация по ссылке: https://epic.st/ieV_x?erid=2VtzqvNvntX

Чем займётесь на мини-курсе? Узнаете, где востребована наука о данных, и разберётесь в различиях её основных направлений. Освоите азы главного языка Data Science — Python, а также визуализируете с помощью него данные. Изучите базовые конструкции языка SQL и наконец поймёте, как же работают нейросети.

В знакомстве с профессиями вас будет сопровождать Анастасия Борнева — руководитель направления по исследованию данных в «Сбере». В финале мини-курса в прямом эфире она разберёт практические задания и ответит на все вопросы.

🎉 Все участники получат крутые бонусы и подарки!

Реклама. ЧОУ ДПО «Образовательные технологии «Скилбокс (Коробка навыков)», ИНН: 9704088880

Читать полностью…

Анализ данных (Data analysis)

13 Sep 2024 14:12

🤖 Microsoft представляет Windows Agent Arena

Инструмент для оценки мультимодальных агентов Работающих с ОС Windows

Windows Agent Arena: среда, ориентированная исключительно на Windows, где агенты могут свободно работать в реальных задачах и использовать тот же широкий спектр приложений, инструментов и веб-браузеров, которые доступны пользователям при работе.

Это адаптарованный фреймворк OSWorld (Xie et al., 2024) для создания 150+ разнообразных задач Windows в различных областях, требующих от агентов способностей к планированию, пониманию происходящего на экране пк и применение инструментов для реальных задач.

huggingface.co/papers/2409.08264

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

13 Sep 2024 12:03

Новостной дайджест

✔️ Поколение Z будет чаще использовать ИИ для покупок на предстоящих праздниках.

Согласно опросу, проведенному компанией Fiverr, розничные продавцы разрабатывают стратегии по привлечению новых покупателей, особенно из поколения Z (термин, применяемый в мире для поколения людей, родившихся, по разным классификациям, примерно с середины 1990-х до начала 2010-х годов), с помощью ИИ.

Более половины опрошенных покупателей поколения Z планируют использовать ИИ в качестве помощника по покупкам к Новому Году. Например, некоторые используют ChatGPT для поиска лучших цен или генерации идей подарков.

Розничные продавцы уверены, что эти функции захватят покупательские привычки поколения Z, и планируют инвестировать в ИИ. 70% предприятий планируют инвестировать в ИИ, 39% увеличивают свои расходы на рекламу в социальных сетях, а 35% инвестируют в маркетинговые стратегии с привлечением инфлюэнсеров.
cbsnews.com

✔️ Audible планирует создавать голосовые копии дикторов аудиокниг.

Audible запустил бета-версию сервиса, который позволяет озвучивать книги с помощью синтеза речи, используя голос диктора. Сервис позволит авторам создавать реплики собственного голоса с помощью ИИ, что позволит им браться за большее количество проектов и увеличить свой доход.

В данный момент бета-версия доступна только в США для ограниченного числа рассказчиков, и Audible планирует вскоре предоставить доступ к ней владельцам авторских прав книг. Audible обещает, что будет тщательно отслеживать влияние этой технологии сообщество.
acx.com

✔️ ell: Библиотека программирования LLM.

ell - это легкая библиотека промпт-проектирования, которая оперирует промптами как функциями. После многих лет создания и использования языковых моделей в OpenAI и в экосистеме стартапов, ell была выпущена в открытый доступ.

Она разработана на основе принципов, которые делают работу с промптами более структурированной и эффективной.
ell позволяет создавать "language model program" (LMP), которые представляют собой функции, генерирующие промпты для языковых моделей. В ell есть инструменты для отслеживания, управления версиями и визуализации.

Библиотека поддерживает мультимодальность: работает с текстом, изображениями, аудио и видео. ell старается быть максимально легкой и не интрузивной, не требуя от разработчиков менять свой стиль программирования.
docs.ell.so

✔️ Loopy: генеративная модель портретного видео на основе аудио.

Loopy - разработка Bytedance, которая генерирует анимированные аватары на основе аудиозаписи с липсинком и угловой адаптацией.
Модель способна создавать реалистичные движения головы, мимику и движения, связанные с эмоциями.

Loopy не требует ручного указания шаблонов движения, это позволяет создавать более реалистичные аватары для разных сценариев. Она может генерировать движения в зависимости от аудиовхода, например, быстрые, спокойные или пение. Модель также работает с изображениями в профиль и реальными портретами. Информации о релизе кода и доступности модели в опен-сорсе не публиковалось. Пейпер. Демо.
loopyavatar.github.io

✔️ Туториал: Использование PostgreSQL в качестве векторной базы данных для RAG.

В туториале показан пошаговый сценарий к созданию векторной базы данных в PostgreSQL для хранения фрагментов текста из нескольких статей Википедии. В нем описывается процесс встраивания фрагментов текста и их сохранения в базе данных вместе с соответствующим заголовком, текстом и URL-адресом статьи.

Также приведен пример, как использовать векторное сходство для поиска релевантного контекста из базы данных с учетом запроса пользователя. Как извлеченный контекст используется для дополнения исходного запроса, прежде чем он будет передан в LLM для создания окончательного инференса.
infoworld.com

@ai_machinelearning_big_data

#news #ai #ml

Читать полностью…

Анализ данных (Data analysis)

12 Sep 2024 20:46

🤖Deep mind выпустил 2️⃣ новые системы искусственного интеллекта для робототехники:

🤖 ALOHA Unleashed для выполнения задач манипулирования двумя руками
🦾 DemoStart для управления роботизированной рукой.

Они научились выполнять целый ряд действий, требующих ловкости рук.

🧵Релиз: https://deepmind.google/discover/blog/advances-in-robot-dexterity/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

12 Sep 2024 19:04

Agent Workflow Memory

Интрумент, который значительно улучшает базовые результаты агентов на 24,6 % и 51,1 % относительного показателя успешности на бенчмарках Mind2Web и WebArena, уменьшая при этом количество шагов, необходимых для успешного решения задач.

репозиторий: https://github.com/zorazrw/agent-workflow-memory
abs: https://arxiv.org/abs/2409.07429

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

12 Sep 2024 13:24

🪨 Google представляет GenMS: генеративный иерархический поиск материалов

Инструмент для управляемой генерации кристаллических структур.

GenMS использует графическую нейронную сеть для прогнозирования свойств (например, энергии образования) генерируемых кристаллических структур.

Эксперименты показывают, что GenMS превосходит другие альтернативыные модели для генераций как в удовлетворении запросов пользователей, так и в генерации новых низкоэнергетических структур.

GenMS способна генерировать обычные кристаллические структуры, такие как двойные перовскиты (сравнительно редкий для поверхности Земли минерал, титанат кальция. Эмпирическая формула: CaTiO3. Был впервые обнаружен в 1839 году на Урале; назван в честь русского государственного и военного деятеля сенатора Льва Перовского) или шпинели (минерал кубической сингонии, смешанный оксид магния и алюминия MgAl2O4. Бывает окрашен минеральными примесями в различные цвета: бурый, чёрный, розовый, красный, синий.), исключительно на основе данных естественного языка и, следовательно, может стать основой для создания более сложных структур для изучения.

▪проект: https://generative-materials.github.io/genms/
▪abs: https://arxiv.org/abs/2409.06762

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

18 Sep 2024 16:07

Если чувствуете, что хотите сделать следующий шаг в IT, то самое время действовать! Не ждите выпускного из школы или колледжа — развивайтесь в интересующем направлении прямо сейчас 🚀🌟

Помимо самообучения, стоит воспользоваться поддержкой опытных менторов и преподавателей. Яндекс Лицей, проект Яндекс Образования, предлагает именно такую возможность. На бесплатных онлайн-специализациях вы сможете углубить свои знания в одном из востребованных направлений:
- Веб-разработка на Django.
- Большие данные.
- Машинное обучение.
- Анализ данных.
- Веб-разработка на GO.

Специализации длятся 3 месяца и ориентированы на подростков 13-20 лет, у которых уже есть опыт в программировании. Во время онлайн-обучения вы прокачаете свои навыки, поработаете над реальными задачами и групповыми проектами, пообщаетесь со специалистами из индустрии… в общем, сделаете всё, чтобы подготовиться к карьере в IT!

Подайте заявку на специализации до 24 сентября и выйдите на новый уровень в IT!

Читать полностью…

Анализ данных (Data analysis)

18 Sep 2024 09:37

Освойте универсальные навыки в мире цифровых профессий — научитесь работать с SQL, Python, Power BI и DataLens на бесплатном курсе от Нетологии. В результате вы:

— разберётесь в основах Python для анализа данных и узнаете, как извлекать информацию.

— научитесь делать запросы и отчёты с помощью SQL.

— сможете строить интерактивные дашборды в Power BI и DataLens.

Курс подойдёт новичкам и тем, кто хочет расширить свои навыки.

Присоединяйтесь бесплатно

Реклама. ООО "Нетология". Erid 2VSb5xhLXXe

Читать полностью…

Анализ данных (Data analysis)

17 Sep 2024 09:23

Как искусственный интеллект меняет правила игры в бизнесе?

Приглашаем тебя на митап по Data Science от экспертов Газпромбанк.Тех, где ты узнаешь:

– Как мы используем нейронные сети для разбора платежных документов
– Каким образом оптимизатор позволяет максимизировать прибыль от маркетинговых коммуникаций
– Какие задачи решают квантовые технологии в мире финансов

В конце тебя ждет нетворкинг с участниками и спикерами митапа.

Регистрируйся и приходи 19 сентября к нам в гости: Москва, ул. Коровий Вал д.5, БЦ «Оазис» — https://vk.cc/cASzfH

Реклама, Банк ГПБ (АО), ИНН: 7744001497, erid: 2VtzqvWrkAB

Читать полностью…

Анализ данных (Data analysis)

16 Sep 2024 20:59

🖥 Microsoft только что объявила о возможности Copilot обрабатывать Excel файлы, генерируя код на Python.

- Полноценный анализ данных
- Copilot генерирует Python скрипты
- Excel выполняет код, чтобы вывести результат.

И все это без необходимости формулы.

Только естественный язык.

Супер легкий анализ и визуализация данных.

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

16 Sep 2024 16:04

K2 Cloud и PiterPy2024 — бесплатный день конференции для питонистов.

Ребята из K2 Cloud помогли организовать Community Day для python-разработчиков. 18 сентября ты сможешь бесплатно послушать часть докладов конференции PiterPy: от мастерства карьерного роста до хитростей асинхронного программирования. Для участия нужно только зарегистрироваться.

Подробнее на сайте

Читать полностью…

Анализ данных (Data analysis)

16 Sep 2024 10:16

Вот что ждет в Т-Банке ML-разработчиков, кроме ДМС, крутых офисов и других плюшек:

— Актуальный стек. Здесь следят за трендами и быстро внедряют новое.
— Общение на «ты». Так проще.
— Прозрачная система роста. Вы всегда будете знать, какие навыки нужно подтянуть и как получить повышение.
— Вы окажетесь среди профессионалов, у которых можно многому научиться. А если захотите — можете стать ментором для младших коллег.

Больше о вакансиях ML-разработчиков — здесь

Erid:2VtzquijNPh

Читать полностью…

Анализ данных (Data analysis)

14 Sep 2024 20:35

Andrew Ng только что выпустили два свежих курса по AI Python для начинающих!

В курсе учат, как писать код с использованием ИИ.

Если вы подумываете о том, чтобы научиться писать код, то сейчас самое подходящее время для этого.

https://deeplearning.ai/short-courses/ai-python-for-beginners/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

14 Sep 2024 10:25

⚡️ SkillNer - это модуль NLP для автоматического извлечения HR данных из неструктурированных объявлений о работе, текстов и резюме соискателей.

pip install skillNer

Извлечение необходимой информации о стеке разработчиков из объявлений о вакансиях, резюме и любого другого неструктурированного текста может занимать много времени и сил, если делать это вручную.

Этот инструмент может быть полезен:

- Рекрутерам для автоматизации извлечения для ускорения отбора кандидатов.
- Специалистам по исследованию данных для извлечения структурированных данных из неструктурированного текста, связанного с работой.

SkillNER автоматизирует этот процесс, делая пирсинг быстрым и эффективным.

Вот небольшой пример:


python
import spacy
from spacy.matcher import PhraseMatcher
from skillNer.general_params import SKILL_DB
from skillNer.skill_extractor_class import SkillExtractor

# Load the spaCy model
nlp = spacy.load("en_core_web_lg")

# Initialize the SkillExtractor
skill_extractor = SkillExtractor(nlp, SKILL_DB, PhraseMatcher)

# Sample job description
job_description = """
You are a data scientist with strong expertise in Python. You have solid experience in 
data analysis and visualization, and can manage end-to-end data science projects. 
You quickly adapt to new tools and technologies, and are fluent in both English and SQL.
"""

# Extract skills from the job description
annotations = skill_extractor.annotate(job_description)
annotations

📘 Github
🚀 Demo
🌟 Docs

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

13 Sep 2024 20:32

GOT (General OCR Theory) - 580M модель OCR-2.0, которая теперь доступна на

▪ Модель: https://huggingface.co/ucaslcl/GOT-OCR2_0
▪ Github: https://github.com/Ucas-HaoranWei/GOT-OCR2.0/

@data_analysis_ml

Читать полностью…

Анализ данных (Data analysis)

13 Sep 2024 18:06

Читать полностью…

Анализ данных (Data analysis)

13 Sep 2024 13:11

🏆 Российский AutoML побеждает на международной арене

Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши ребята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!

🚀 LightAutoML - бесплатный и открытый инструмент
Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.

🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.

🎓 Делимся опытом
Хотите узнать секреты победителей? Не пропустите вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Он пройдет в 17:30 уже сегодня в канале @lightautoml!

Читать полностью…

Анализ данных (Data analysis)

13 Sep 2024 10:04

Пофиксил баг — устроил перерыв с бесплатными печеньками, зарелизил новую программу — выпил чай на офисной кухне 😅

Если хочешь получать реальные бонусы и признание коллег — приходи в Сбер. Обещаем, у тебя будут только масштабные и интересные таски, а ещё ты станешь частью сообщества амбициозных и классных IT-специалистов.

Прокачивай скилы за счёт банка, получай премии и пользуйся ДМС с первого дня работы. ~~Но и печеньки у нас тоже есть~~! 😉

Звучит заманчиво? Присоединяйся!

Читать полностью…

Анализ данных (Data analysis)

12 Sep 2024 19:34

⚡️ OpenAI релизнули новую модель OpenAI o1, которая в разы мощнее GPT-4o,

Главная фишка - это цепочка рассуждений (CoT) которую выстраивает алгоритм прежде, чем дать ответ.

Заявлено, что модель будет сильно лучше писать код и понимать физику мира

Тот самый секретны проект, над которым так долго работала компания.

Доступ обещают дать уже сегодня.

@ai_machinelearning_big_data

#openai #chatgpt

Читать полностью…

Анализ данных (Data analysis)

12 Sep 2024 17:04

🎉МТС Web Services запустили подкаст PRO Данные — о больших данных в облаках!

🌟В первом выпуске гости обсудили облачные хранилища, их возможности и зачем они нужны бизнесу.

Участники:
🌟Крестина Андреева, руководитель центра Data MTС Web Services

🌟Антон Близгарев, директор по развитию облачных продуктов Arenadata

🌟Максим Ситников, ведущий выпуска

📊 Количество данных растёт экспоненциально: расширять физические системы становится очень дорого, локальное хранение перестаёт быть рентабельным. Размещение в облаке серьёзно удешевляет хранение и переносит затраты из капитальных в операционные. А ещё позволяет добиться нужной производительности и модернизировать хранилища on-prem, которые «так исторически сложились».

🎙 Другие плюсы хранения данных в облаке, тенденции развития индустрии и интересные инсайты — в подкасте!

Смотрите и слушайте где удобно.
🎼VK видео
🎼Mave
🎼Строки
🎼Яндекс.Музыка
🎼Apple Podcasts

Реклама. Информация о рекламодателе.

Читать полностью…

Анализ данных (Data analysis)

11 Sep 2024 11:42

🔍 OCR-2.0 на подходе, генеративный ИИ и мультимодальные LLM станут его основой!

GOT (General OCR Theory) - это модель 580M OCR-2.0, превосходящая все существующие методы оптического распознавания символов.

GOT состоит из Vision-Encoder для преобразования изображений в трансформеры изображений, а затем токены и для распознавания OCR в различных форматах (например, обычный текст, markdown, Mathpix).

GOT разработан для обработки сложных документов, таких как громадные таблици, формулы и геометрические фигуры.

Реализация
1️⃣Vision Предварительное обучение кодировщика: Кодировщик VitDet
2️⃣ Совместное обучение: Кодер соединен с декодером (Qwen-0.5B),
3️⃣ Фантюнинг модели на конкретных задачах

🧠 Encoder-Decoder с 80 М (VitDet) и 500 М (Qwen2) с контекстом 8k
🥇Достигает 0,035 Расстояние Левенштейна (метрика, измеряющая по модулю разность между двумя последовательностями символов.) и оценка BLEU 0,972 для обычного OCR
📊 Превосходит LLaVA-NeXT и Qwen-VL-Max в распознавании текстов документов и сцен
🧮 Может извлекать формулы LaTeX из Arxiv и конвертировать их в формат Mathpix
📃 Поддерживает динамическое разрешение и многостраничный OCR
🖼️ Принимает разрешение до 1024x1024

▪Статья: https://huggingface.co/papers/2409.01704
▪ Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0

@data_analysis_ml

Читать полностью…