Только программисты и учёные работают с Big Data.
Конечно, это миф. Бизнес-аналитики, маркетологи и дизайнеры обрабатывают массивы информации, чтобы автоматизировать процессы и принимать обоснованные решения.
Яндекс Практикум запустил курс «Python для анализа данных». Программа подойдёт, если вы начинающий аналитик, специалист из смежной профессии или новичок в IT.
За 3 месяца вы:
— научитесь анализировать данные с помощью Python,
— изучите основы машинного обучения,
— пополните портфолио новым проектом.
Более 50% обучения — практические задания. Вы научитесь собирать, сортировать, анализировать и визуализировать данные из различных источников. А в конце — получите удостоверение о повышении квалификации или сертификат о прохождении курса.
Первый модуль можно пройти уже сейчас — это бесплатно. Попробуйте, чтобы познакомиться с форматом и понять, подходит ли вам курс.
→ Начать обучение
Учитесь в магистратуре и совмещайте обучение с работой и привычной жизнью.
Яндекс Практикум и Томский государственный университет приглашают на онлайн-программу «Дата-аналитика для бизнеса».
Очное обучение в онлайн-формате
Полноценная учёба, с онлайн-занятиями и экзаменами
На платформе Практикума
Гибкая теория, автоматическая проверка заданий и встроенная YandexGPT.
Преподаватели ТГУ и наставники Яндекс Практикума
Они будут проводить занятия и учить вас применять теорию на практике.
Студенческий, льготы и диплом гособразца
У вас будут все преимущества студента-очника. Доступ к инфраструктуре вуза — кампусам, библиотекам и мероприятиям.
Оплатить учёбу можно разными способами: всю сумму сразу, по семестрам или с помощью госкредита — тогда ежемесячный платёж составит от 500 ₽, а государство погасит часть кредита за вас.
— Подать заявку
Реклама. ООО «Яндекс». ИНН 7736207543
✍ LongWriter с открытым исходным кодом: позволяет генерировать более 10 000 слов из Long Context Lms
Это один из самых мощных LLM с поддержкой long context, который я когда-либо использовал.
Я в восторге)
Самое главное - открытый исходный код.
▪ Github
@data_analysis_ml
Лекция Эрика Шмидта (бывший CEO Google) в Стэнфорде про будущее AI. Полная запись, которая была удалена с Ютуба.
@data_analysis_ml
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/devOPSitsec
АНАЛИЗ Данных: /channel/+y_viT9uBdftkZDFi
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
C++ собеседования: t.me/cppsobes
Kubernets: t.me/kubernetc
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ СЛИТЫХ КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
🦀 CRAB: бенчмарк для агентов работающих с мультимодальными языковыми моделями
🦀 CRAB предоставляет комплексную и простую в использовании платформу для создания мультимодальных агентов, управления различных ос и создания тестов для их оценки, состоящую из трех ключевых компонентов:
- 🔀 Агенты могут выполнять задачи на 📱 Android и 💻 Ubuntu.
- 🕸 Graph Graph evaluator - предоставляет агентам точную метрику оценки работы агентов.
- 🤖 Автоматическая гнерация задач для агентов.
Подключая все устройства к агентам, 🦀CRAB открывает больше возможностей для выполнения различных задач, аналогичных реальным задачам.
Используйте 🦀 CRAB для тестирования ваших мультимодальных агентов!
- 👨💻 Репозиторий: https://github.com/camel-ai/crab
- 📝 Статья: https://arxiv.org/abs/2407.01511
- 🌐 Проект https://crab.camel-ai.org
@data_analysis_ml
📸 Generative Photomontage
Generative Photomontage - модель, которая позволяет вам создавать изображения путем объединения нескольких сгенерированных изображений.
Фреймворк является гибким и может использоваться для различных задач, таких как создание невидимых комбинаций изображений, коррекция изображений и удаление артефактов".
▪abs: https://arxiv.org/abs/2408.07116
▪страница проекта: https://lseancs.github.io/generativephotomontage/
▪код: https://github.com/lseancs/GenerativePhotomontage
@data_analysis_ml
🌟 NVIDIA Kaolin — библиотека PyTorch для ускорения работы с 3D
pip install kaolin==0.16.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-{TORCH_VERSION}_cu{CUDA_VERSION}.html
🚀 Прорыв в оптимизации LLM: Tree Attention — новый алгоритм для сверхбыстрого масштабирования!
Исследователи представили революционный алгоритм Tree Attention, который обещает трансформировать обучение и интерфейс больших языковых моделей (LLM).
Ключевые преимущества:
🔥 Ускорение до 8 раз по сравнению с Ring Attention
🧠 Вдвое меньшее использование пиковой памяти
🌐 Значительное снижение межузловых коммуникаций
📊 Сравнение методов (на 1М токенов, 64 GPU):
Стандартное внимание: 100% (базовая линия)
Ring Attention: 60% времени базовой линии
Tree Attention: всего 15% времени базовой линии!
🔬 Теоретическая основа:
Функция энергии самовнимания связывает его с энергетическими моделями
Байесовская интерпретация как метод максимального правдоподобия
⚙️ Технические детали:
Сложность O(N/p + log p)
для последовательности длины N на p процессорах
Древовидная структура редукции на основе свойств logsumexp и max
Интеграция с Flash Attention 2 и оптимизированными операциями NCCL
🖥️ Практическое применение:
Оптимизация для GPU-кластеров с учетом топологии сети
Непревзойденная эффективность для контекстов >1M токенов
🔮 Влияние на будущее AI:
Tree Attention может стать ключом к созданию LLM с гигантскими контекстными окнами, открывая путь к моделям с долгосрочной памятью и более глубоким пониманием сложных текстов.
🔗 Для углубленного изучения:
Рекомендуем заинтересованным читателям искать последние публикации по ключевым словам "Tree Attention", "GPU optimization for LLM" на научных порталах, таких как arXiv или Google Scholar.
Tree Attention — это не просто оптимизация, а потенциальный прорыв в масштабировании AI. Представьте LLM, способную анализировать целые книги за один проход или вести длительный диалог без потери контекста!
💬 А что вы думаете? Как Tree Attention может изменить ваши AI-проекты? Поделитесь мнением в комментариях!
📌 Почитать
#AI #MachineLearning #TreeAttention #LLM #GPUOptimization
@data_analysis_ml
Вышла бета-версия Grok-2
https://x.ai/blog/grok-2
Она превосходит, Claude 3.5 Sonnet и GPT-4-Turbo.
@data_analysis_ml
🤔Запутались в различиях между пользовательскими сценариями (Use Cases) и пользовательскими историями (User Stories)? Не знаете, какой метод лучше использовать в вашем проекте?
😎А теперь представьте, что вы твердо знаете, как и когда использовать каждый метод. Вы умело используете инструменты аналитики и развиваете свои проекты.
Хотите это реализовать? Присоединяйтесь к открытому вебинару 20 августа в 20:00 мск, где вы научитесь:
- понимать различия между пользовательскими сценариями и пользовательскими историями;
- применять практические примеры использования обоих методов;
- разрабатывать примеры для закрепления материала.
🤩Урок будет полезен системным и бизнес-аналитикам, менеджерам проектов, учавствующем в процессе работы с требованиями.
Встречаемся в преддверии старта курса «Системный аналитик. Advanced». Все участники вебинара получат специальную цену на обучение!
Регистрируйтесь прямо сейчас, чтобы не пропустить мероприятие: https://otus.pw/dlU3/
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KWuDB
🛢 В мире, где данные — новая нефть, растёт спрос на дата-инженеров. Ведь именно они знают, как такую нефть добывать, обрабатывать и хранить.
И пока компании осознают потребность в этих специалистах, конкуренция на рынке низкая, а зарплаты — высокие.
Освоить ключевые компетенции дата-инженера поможет онлайн-магистратура Нетологии и НИУ ВШЭ «Инженерия данных». За 2 года вы на практике изучите Python, Java, Scala, Kotlin и SQL, научитесь проектировать пайплайны и обрабатывать данные, работать с системами хранения данных и базами данных в облаке. Программа даёт широкий простор для переквалификации, поэтому после учёбы сможете перейти в MLOps, DevOps или менеджмент.
Онлайн-формат позволяет учиться без отрыва от привычной жизни и совмещать занятия с работой. При этом у вас будет отсрочка от армии, льготы на проезд и все остальные бонусы очного обучения.
Станьте магистром программной инженерии с дипломом одного из лучших вузов страны и получите веское преимущество при приёме на работу:
https://netology.ru/programs/dataengineering
Реклама. ООО "Нетология", ИНН: 7726464125, erid: LjN8KcHys
Бизнес нуждается в зарубежных BI-решениях, так ли это?
К2Тех Data Lab совместно с Digital Leader, НОРБИТ, Arenadata и Kept проанализировали BI-рынок. Они выяснили, что крупные компании продолжают использовать BI ушедших вендоров. При этом доля внедрений отечественных решений выросла с 9% до 68%. Можно ли считать, что сложный период российского рынка BI позади?
Команда провела 29 интервью с представителями топ-600 компаний и проанализировала 365 реализованных проектов.
Внутри исследования:
— Какие есть ограничения при переходе с зарубежных решений на отечественные, и как их преодолеть;
— Какие BI-решения использует российский бизнес в 2024 году;
— Частые проблемы при внедрении BI и рекомендации по внедрению и развитию;
— Чего крупные компания ожидают от развития BI-систем.
Скачивайте исследование по ссылке.
Реклама. АО "К2 ИНТЕГРАЦИЯ". ИНН 7701829110.
🦒 Открытые генеративные модели изображений и как их готовить
На вебинаре мы обсудим последние результаты в области генерации изображений (в том числе прогремевший FLUX от BlackForestLabs) и как настраивать результаты под себя: позу персонажей, рисунок, который можно увидеть на контрасте и прочие интересные способы сделать результат лучше и уникальней. Конечно, речь будет идти про открытые модели.
Будем заниматься указанием условий генерации для диффузионной модели: фиксируем позу, форму и др. с использованием ControlNet.
Вебинар направлен на максимально широкую аудиторию, поэтому мы постараемся обойтись (почти) без кода.
Свой кластер GPU не требуется :)
Вебинар проведет Радослав Нейчев и команда Girafe AI, ведущие магистерской программы МФТИ “Современные методы искусственного интеллекта”.
Вебинар пройдет 12 августа в 18:00 МСК
Регистрация на вебинар в TG канале: /channel/+iF5VpZMznK00OGVi
🦒 Кто мы:
Владислав Гончаренко и Радослав Нейчев - основатели проекта, авторы курса и преподаватели по машинному обучению в МФТИ.
Мы создали один из признанных курсов машинного обучения (более 2 тысяч звезд на github https://github.com/girafe-ai/ml-course), который преподается в МФТИ, YSDA, МГУ, MADE (академия больших данных от vk com), Harbour. Космический университет (Испания и Таиланд) и др.
Наша цель - обеспечить первоклассное образование и помочь как можно большему числу людей освоить область искусственного интеллекта, поэтому наши учебные материалы доступны с открытым исходным кодом.
🦒 Также наша команда продолжает набор в онлайн магистратуру МФТИ Modern State of Artificial Intellegence (MSAI), где вы сможете пройти курсы по LLM, MLOps и другим темам машинного обучения, начав с математической и программисткой базы.
Больше информации можно узнать на сайте магистратуры
На все интересующие вопросы о программе мы ответим в конце семинара.
Реклама, ИП Гончаренко В.В., ИНН 272403059890
erid: 2VtzquhAuXr
Начните обучение в магистратуре в Центральном университете уже на 3-м курсе бакалавриата!
Центральный университет — современный вуз, созданный при поддержке ведущих компаний России: Т-Банка, Авито и других.
Учебу реально совместить с последними курсами бакалавриата или действующей работой. Обучение занимает 20 часов в неделю в вечернее время в первый год, а занятия проводят в центре Москвы профессоры из МГУ, МФТИ, РЭШ и практики из индустрии. Обучение в университете построено по принципам ИТ-компаний, со средой, способствующей росту и развитию.
У каждого студента будет:
личный ментор по траектории обучения;
доступ к карьерному центру с коучами и консультантами;
опыт работы в проектах 30+ компаний-партнеров уже во время обучения;
диплом гособразца.
Участвуйте в онлайн-отборе, чтобы выиграть грант на обучение до 1,2 млн рублей.
Больше подробностей про университет и конкурс грантов по ссылке!
erid:2VtzquWZ179
Реклама, АНО ВО «Центральный университет», ИНН 774341802
⚡️ Flux Schnell в новом Diffusion Kit с MLX работает на 30% быстрее и использует меньше оперативной памяaти!pip install -U diffusionkit
На моем ноутбуке M1 max объемом 32 ГБ я создаю высококачественные изображения меньше чем за минуту:
▪ Github
@data_analysis_ml
🤗 Hugging Face выпустили пошаговый гайд по созданию и обучению своей личной робо-руки.
Компания Hugging Face опубликовала подробную инструкцию по созданию и обучению роботизированной руки.
В ней подробно рассказывается, где приобрести необходимые компоненты, как настроить нейронную сеть, а также приведены лекции, иллюстрирующие процесс сборки.
Крутой бесплатный курс - рекомендуем)
@vistehno
⚡️ LLM Compressor
Neural Magic выпустили LLM Compressor: Новую библиотеку для сжатия LLM модели для более быстрого инференса с помощью vLLM.pip install llmcompressor
▪Github
▪Blog
@data_analysis_ml
🌟 Lets-Plot: мощная библиотека для визуализации данных на Python
— pip install lets-plot
Lets-Plot — библиотека от JetBrains, созданная на основе принципов Grammar of Graphics, как и знаменитая ggplot2 для R.
Особенности и преимущества:
- Мультиплатформенность: Lets-Plot работает как в блокнотах Python (Jupyter, Datalore, Kaggle и др.), так и в IDE PyCharm и IntelliJ IDEA.
- Интерактивные возможности: Поддержка интерактивных карт с возможностью увеличения и перемещения, а также кастомизация подсказок и аннотаций.
- Геопространственная визуализация: Простая интеграция с GeoDataFrame и мощный модуль геокодирования.
- Экспорт графиков: Сохранение графиков в формате SVG, HTML, PNG и PDF с помощью функций ggsave()
, to_svg()
, to_html()
, to_png()
и to_pdf()
.
- Поддержка режима без JavaScript и оффлайн-режима: Lets-Plot генерирует графики как простые SVG-изображения, что обеспечивает работу без Интернет-соединения.
🖥 GitHub
🟡 Доки
@data_analysis_ml
⚡️ Tele FLM 1T
На Hugging Face на днях появилась open-source LLM с 1 триллионом параметров.
Tele-FLM-1T — это многоязычная LLM с открытыми весами, отличающаяся расширенными возможностями оценки фактов (по крайней мере со слов разработчиков)
Модель построена на базе архитектуры трансформера, обучена примерно на 2Т лексем.
Веса модели открыты, также прилагаются полезные инструкции и т.д.
🤗 Hugging Face
@ai_machinelearning_big_data
🌏Новая реальность: посетить концерт, не выходя из дома, увидеть друзей, находясь за тысячи километров, получить высшее образование по Data Science удалённо.
Когда виртуальные границы стираются, самое время применить технологии с пользой. Онлайн-бакалавриат Нетологии и ТюмГУ «Науки о данных» — способ получить диплом о высшем образовании из любой точки мира.
За 4 года вы освоите навыки работы с данными и станете бакалавром в области математики, который умеет работать с Big Data, компьютерным зрением и искусственным интеллектом. Будете закреплять знания на практике, создадите портфолио и сможете строить карьеру аналитика данных или Data Scientist.
Во время учёбы у вас будут все студенческие льготы и скидки, а в конце вы получите диплом очного бакалавриата ― такой же, как у студентов офлайн-обучения.
Узнать подробности о программе
Реклама. ООО "Нетология". Erid 2VSb5z6rppg
🌟 VideoPoet — продвинутая LLM для генерации видео
Dan Kondratyuk и его коллеги представляют VideoPoet — языковую модель, способную синтезировать высококачественное видео с соответствующим звуком.
VideoPoet использует архитектуру трансформера, работающего только с декодером, который обрабатывает мультимодальные входные сигналы — изображения, видео, текст и аудио.
🟡 Страничка VideoPoet
🟡 Arxiv
@data_analysis_ml
🌟 T2V-CompBench — комплексный бенчмарк для анализа T2V-моделей
Модели генерации текста в видео (T2V) значительно продвинулись вперед, однако их способность точно компоновать различные объекты, атрибуты и движения в видео остается неизученной.
В данной работе Kaiyue Sun с коллегами проводит первое систематическое исследование этого вопроса.
В результате работы появился T2V-CompBench — первый бенчмарк, предназначенный для оценивания точности размещения нужных объектов в кадре, точности их движения и т.д.
🟡 Страничка T2V-CompBench
🟡 Arxiv
@data_analysis_ml
⚡️ Whisper Diarization — очень точное распознавание речи прямо в браузере
Whisper Diarization совмещает в себе возможности whisper-base и pyannote-segmentation-3.0, двух мощных инструментов для распознавания речи, а также поддерживает 100 различных языков
Whisper Diarization работает полностью локально в браузере с помощью Transformers.js и ONNX Runtime Web, без всяких API-вызовов на сервер.
🤗 HuggingFace
@data_analysis_ml
⚡️ Лучшее за неделю из мира Open ML/ AI:
1. В качестве сюрприза команда Qwen выпустила -
Qwen2-Math - специализированный англоязычный набор моделей на базе LLM Qwen2 для математических вычислений. Всего в релиз вошло 6 вариантов с разной плотностью параметров, от 1.5B до 72B.
Старшая модель Qwen 2-Math-72B предназначена для сложных
Qwen 2 Audio - 8.5B, лицензионные аудиоязыковые модели Apache 2.0 (Bas + Instruct), достигшие SoTA на ASR, S2TT и AIR-Bench, обученные на ~ 550 тысячах часов аудио. Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
2. Parler TTS- 885M - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
3. LG выпустила EXAONE 7.8B, обученный на токенах 8T, превосходящий L3.1 8B, Phi3, Mistral 72,0 балла Human eval, 34,4 балла на MATH, 9,01 балла по MT-Bench (некоммерческая лицензия).
4. Hugging Face выпустили IDEFICS3 Llama 8B - Выпустили лицензионный VLM-сервер Apache 2.0 с расширенными возможностями контроля качества и работы с документами! Основан на : SigLip, текст на базе: Llama 3.1 8B, контекст 10K, DocVQA 87.7; MMStar 55.9
5. Internet LM open выпустил Internet LM 2.5 20B с лицензией Apache 2.0, контекстным окном размером до 1 млн и обучен работе с большим количеством синтетических данных! соревнуется с Gemma 27B в области информационных технологий; СРЕДНИЙ балл: 73,5, МАТЕМАТИКА: 64,7
6. Tsingua KEG выпустила CogVideoX 2B - открытую модель преобразования текста в видео, подобную SORA, которая генерирует видео продолжительностью до 6 секунд с частотой 8 кадров в секунду, довольно приличного качества!
И... произошло еще много чего: PyTorch выпустил FlexAttention, aiola выпустила Whisper Medusa (на 150% быстрее выводит логические данные), Maxime выпустила токен frankenmerge на 1 трлн долларов Llama 3.1 и т.д
@data_analysis_ml
#ainews #mlnews #digest
🌟 InternVL 2.0 40B — open-source альтернатива GPT-4o
InternVL 2.0 превосходит большинство открытых мультимодальных LLM.
Модель показывает конкурентоспособную производительность в различных областях, включая понимание документов и схем, анализ инфографики, решение задач OCR, решение научных и математических задач.
Модель InternVL 2.0 обучалась с контекстным окном 8k на датасете из длинных текстов, нескольких изображений и видео, что значительно улучшает ее способность обрабатывать эти типы входных данных по сравнению с InternVL 1.5.
🤗 Hugging Face
🖥 GitHub
@data_analysis_ml
🌟 VADER — video diffusion alignment via reward gradient
VADER — это метод выравнивания результатов диффузионных моделей по генерации видео;
VADER позволяет улучшить различные модели, такие как VideoCrafter, OpenSora, ModelScope и StableVideoDiffusion, с помощью разных подходов, таких как HPS, PickScore, VideoMAE, VJEPA, YOLO, Aesthetics и др.
🖥 GitHub
🟡 Страничка VADER
@data_analysis_ml
🌟 LLM Judge — метод тонкой настройки модели Mistral для обнаружения галлюцинаций
Проект LLM Judge демонстрирует тонкую настройку и оценку языковой модели Mistral для обнаружения фактических несоответствий и галлюцинаций в тексте.
🖥 GitHub
🟡 Доки по тонкой настройке Mistral
@data_analysis_ml