🖥 Tato: Terminal Text Effects
Полезный инструмент для форматирования файлов на Python, который уделяет внимание организации кода в четыре основные секции: импорты, константы, классы и функции.
В отличие от других автоформатеров
, ориентированных на выравнивание и оформление кода, Tato делает акцент на упорядочивании структуры файла, что повышает его читаемость и упрощает работу с вашим кодом.
#opensource #python #terminal #полезныйсофт
▪ Github
@data_analysis_ml
Ищем людей, которые пройдут по нехоженым тропам трэвел-теха и предложат оригинальные решения.
Собираемся на О! Хакатоне — мероприятии от Островка с призовым фондом в один миллион рублей.
Тебя ждут задания на двух треках:
👉🏻 динамическое ценообразование,
👉🏻 система ранжирования отелей.
Также можно будет посетить лекции, мок-интервью и AMA-сессии с разработчиками Островка. Все активности пройдут в онлайн-формате с 28 сентября по 5 октября 2024 года. Участвовать можно из любой точки мира.
Регистрируйся по ссылке до 19 сентября и стань автором лучшего тревел-тех-решения.
Попробуй написать свою имплементацию
🔹Изучите популярный алгоритм коллаборативной фильтрации и примените его на практике урока «Библиотека Surprise для коллаборативных рекомендательных систем» от Otus. Рассмотрим основные принципы построения рекомендательных систем
✅ Практика: Построение рекомендательной системы с помощью библиотеки surprise.
Урок приурочен продвинутому курсу «Machine Learning. Advanced» от Otus.
👉 Регистрация и подробности:
https://otus.pw/OWvm/?erid=LjN8K94zC
Когда ментор Слёрма Николай Марков решил стать Data-инженером, он не представлял, какие сюрпризы его ждут в профессии. А участники первого реалити-шоу про Data-инженеров уже успели прочувствовать эту атмосферу.
От неожиданных сбоев в коде до неуловимых багов — они испытали на себе вызовы, которые стоят за работой с большими данными. Кто смог раскрыть потенциал в нашей гонке, а кто слился после первых заданий?
👉🏻 Переходите, чтобы узнать, кто готов идти до конца и как стать Data-инженером
Внутри — гайд «Инструменты Data-специалиста», Roadmap для начинающего Data-инженера и ещё много полезного — статьи, ссылки, рекомендации и бесплатные вебинары 👉🏻 @gdedata
Реклама. ИП Аердинов Н.В. ИНН 638103515932 erid: LjN8K97oM
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pro_python_code
Хакинг: t.me/linuxkalii
Devops: t.me/devOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy
⚡️ Awesome GPT Super Prompting
Большой курируемый список методов обхода ограничений на модели GPT.Внутри:
- GPT Джейлбрейки
- GPT Prompt Leaks
- GPT Prompt Injection
- LLM Prompt Security
- Prompt Hack
- Prompt Security
- AI Prompt Engineering
- Adversarial Machine Learning
▪ Github
@data_analysis_ml
Это потрясающе! Новая 🤯 Llama 3 Reflection 70 превосходит, AnthropicAI
Claude 3.5 Sonnet и GPT-4o.
Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀
1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах <thinking>.
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги <reflection>
в разделе <thinking>
, чтобы сигнализировать об этом и попытаться исправить себя.
3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах <output>.
Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей
🤗 Доступна на HF
📚 Набор данных и отчет об обучении будут готовы на следующей неделе.
Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
@ai_machinelearning_big_data
#llama #opensource #llm
— визуализируйте Google Таблицы с помощью Grafana или используйте Google Таблицы в качестве источника данных для Grafana.
GitHub: https://github.com/grafana/google-sheets-datasource
#data #moni #grafana #datasource
⚡️ The Tensor Cookbook: Свежий Гайд по тензорам
Эта компактная книга на 50 страниц даёт полное представление обо всём, что связано с тензорами.
Тензор — это обобщённое понятие для матриц с любым количеством измерений. Тензорами являются скаляры (тензоры нулевого ранга), векторы (тензоры первого ранга) и матрицы (тензоры второго ранга).
В книге также присутствует немало математики, которая поможет глубже понять работу с тензорами.
📚 Книга
@data_analysis_ml
erid: LjN8KRVqH
GlowByte вместе с DataYoga и FanRuan запускают онлайн-ретрит по работе с BI-инструментом FineBI!
10 дней теории, практики и вдохновения от ведущих российских компаний.
Узнайте о возможностях анализа и визуализации данных в FineBI, а также получите практические советы по оптимизации BI-практики от GlowByte.
Программа подходит для всех, кто работает с данными, от разработчиков до руководителей.
Что вас ждет:
🧘♂️ Инсайты от таких компаний как Tele2, Уралсиб, Циан и других
🧘♂️ Практические задачки от экспертов GlowByte
🧘♂️ Общение в чате и ежедневные встречи в эфире
Стартуем 16 сентября!
⚡️ Регистрируйтесь по ссылке ⚡️
Реклама. ООО "ГЛОУБАЙТ АНАЛИТИЧЕСКИЕ РЕШЕНИЯ". ИНН 9729274905.
erid: LjN8KH5xT
Станьте разработчиком нейро-сотрудников на Python и зарабатывайте от 150.000р в месяц 🔥🔥🔥
Мы научим вас создавать топовых нейро-сотрудников на базе GPT-4 Omni, и вы сможете:
1️⃣ Устроиться разработчиком в крупную компанию и зарабатывать от 150 тысяч ₽ в месяц
2️⃣ Разрабатывать такие проекты на заказ и зарабатывать от 500 тысяч ₽ за проект
3️⃣ Создать нейро-сотрудника в вашей компании и вырасти на +30-100% в зарплате
Что будет на интенсиве?
🧬 Теория: как создаются нейро-сотрудники с GPT-4o на Python
🧬 Практика: мы создадим нейро-консультанта, нейро-HR, нейро-маркетолога и др.
Ведущий интенсива - Senior AI разработчик нейросетей и основатель Университета искусственного интеллекта
🔥 Регистрируйтесь на бесплатный интенсив! Встречаемся в ближайший четверг!
Реклама. ООО "ТЕРРА ЭЙАЙ". ИНН 9728019395.
Событие для тех, кто хочет развиваться в робототехнике! 🤖
14 сентября центр робототехники Сбера проводит One Day Offer для DevOps- и MLOps-инженеров. Это возможность погрузиться в мир передовых технологий и получить заветный оффер всего за один день!
Центр проводит исследования, создаёт роботов, применяя искусственный интеллект, и работает по направлениям манипуляции, роботизации логистики, мобильных и антропоморфных роботов.
Задачи DevOps:
✔️ конфигурация систем разработки, тестирования, средств автоматизации и ИТ-инфраструктуры
✔️ оборачивание кода в docker образы и развёртывание контейнеров в Kubernetes
✔️ обеспечение мониторинга и выявление узких мест в работе систем
Задачи MLOps:
✔️ создание и внедрение MLOps-практик для исследований в направлениях RL, инференса LLM
✔️ настройка инструментов отслеживания жизненного цикла моделей (ClearML, MLFlow, DVC и т. п.)
✔️ развитие LLMOps-практик (эффективный инференс LLM для ChatGPT-like решений)
Если для вас это не просто слова, откликайтесь по ссылке!
📢 Вышла версия TorchGeo 0.6.0!
В него добавлено 18 датасетов, 15 новых модулей данных и 27 новых предварительно обученных моделей, что является результатом 11 месяцев работы команды из 23 разработчиков🔥.
https://github.com/microsoft/torchgeo/releases/tag/v0.6.0
@data_analysis_ml
🚀 Мощная библиотека для быстрого LLM-инференса
NanoFlow стабильно обеспечивает более высокую производительность по сравнению с vLLM, Deepspeed-FastGen и TensorRT-LLM. 🤯
🔹 Увеличение производительности в 1,91 раза по сравнению с TensorRT-LLM
🔹 Опережает vLLM, Deepspeed-FastGen
🔹 Достигает 68,5 % от оптимальной пропускной способности
При крупномасштабных развертываниях LLM сталкивается с узкими местами в пропускной способности. 🤔
🔹 Бэкенд на C++, фронтенд на Python
🔹 Интеграция с CUTLASS, FlashInfer, MSCCL++
🔹 Поддерживает LLaMA2-70B, Mixtral 8x7B, LLaMA3-8B
- Nano-batching: разбивает запросы на более мелкие партии для одновременного выполнения
- Разделяет ресурсы GPU для эффективной работы
- Менеджер KV-кэша: Оптимизирует использование памяти
- Механизм автоматизированного поиска: Находит оптимальные параметры для запуска модели
▪Github
@data_analysis_ml
⚡️ WonderWorld — рендеринг 3D-сцен в реалтайме
WonderWorld позволяет пользователю быстро генерировать 3D-сцены вокруг себя с помощью текстовых промптов и движения камеры.
В качестве отправной точки WonderWorld принимает на вход 1 изображение и генерирует связанные с ним разнообразные 3D-сцены для создания виртуального мира.
Генерация одной 3D-сцены занимает менее чем 10 секунд благодаря 2 моментам: во-первых, это оптимизация представления 3D-сцены, Fast Gaussian Surfels, а во-вторых, используется особый подход, позволяющий генерировать для каждой сцены только 1 вид, а не несколько, не создавая при этом больших дыр в восприятии этой сцены.
🟡 Страничка WonderWorld
🟡 Статья
@data_analysis_ml
✔️ Open-MAGVIT2, семейство авторегрессионных моделей генерации изображений от 300M до 1,5B. В
рамках проекта Open-MAGVIT2 создается открытая копия токенизатора MAGVIT-v2 компании Google и достигается SOTA производительности (1.17 rFID) на ImageNet.
▪Github
▪Hf
@data_analysis_ml
🔥 Новая модель Qwen2-VL-7B Instruct с точностью *100 %* извлекает текст из этого рукописного документа.
Это первая открытая весовая модель (Apache 2.0), которую я видел настолько точным OCR.
https://huggingface.co/spaces/GanymedeNil/Qwen2-VL-7B
@data_analysis_ml
✔ xLAM: семейство больших моделей действий для расширения возможностей систем агентов ИИ
Серия больших моделей действий от Salesforce, предназначенных для задач агентов ИИ. Включает пять моделей с плотной и смешанной экспертной архитектурой, варьирующейся от 1B до 8x22B параметров. По использованию инструментов превосходит GPT-4, Claude-3 и многие другие модели.
▪Статья: https://arxiv.org/abs/2409.03215
▪Модели: https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4
@data_analysis_ml
🌟 Доклад: Использование поиска архитектуры для эффективной реализации в проектах машинного зрения.
В большинстве современных исследований по ИИ, глубокие нейронные сети (DNN) разрабатываются исключительно для улучшения точности прогнозирования, часто игнорируя реальные ограничения - требования к вычислительным мощностям и памяти.
Авторы исследований обычно предпочитают использовать SOTA DNN из научной литературы из-за описанных экспериментов и накопленного в них опыта, необходимых для разработки новых моделей.
Однако эти DNN зачастую требовательны к ресурсам, чтобы работать на оборудовании с ограниченной ресурсоемкостью, например, на встроенных процессорах. Для решения этой проблемы была предложена технология "Neural Architecture Search (NAS)", это поиск компромисса между оптимальным дизайном сети и эффективным развертыванием.
В представленном на саммите Embedded Vision Summit (05/2024) докладе, Хирам Райо Торрес Родригес, Senior AI Research Engineer в компании NXP Semiconductors, объясняет принципы технологии NAS и ее применении для оптимизации моделей машинного зрения на устройствах с ограниченными ресурсами.
Он показывает, как NAS может обеспечить эффективную реализацию проекта машинного зрения учитывая аспекты развертывания, чтобы получить индивидуальные решения для Edge-узла и как решить проблему масштабируемости NAS с помощью умного дизайна пространства поиска и эффективного выбора оценки производительности.
🟡Презентация из доклада
@data_analysis_ml
🔥 Свежее руководство по выбору моделей OpenAI.
Уроки, приведенные в руководстве, могут быть актуальны и для других LLM.
Смотрите мое подробное пошаговое руководство здесь: https://youtu.be/6txavb0VLR8
@data_analysis_ml
🔥 Официально выпущен DeepSeek v2.5 238B параметров
📏 Контекстное окно 128K
🚀 Arena Hard 76,3%, оценка Alpaca 50,52%
По внутренним китайским оценкам, DeepSeek-V2.5 демонстрирует значительное улучшение показателей по сравнению с GPT-4o mini и ChatGPT-4o-последней версией (по данным GPT-4o).
✅ Хорошие показатели в кодинге HumanEval на 89%, LiveCodeBench 41%
✅ Доступен на Hugging Face, совместим с Transformers
📈 Улучшен показатель MT Bench: с 8,84 до 9,02
https://huggingface.co/deepseek-ai/DeepSeek-V2.5
@data_analysis_ml
🌟 MoMo: моделирование движения для интерполяции видеокадров.
MoMo - метод интерполяции видеокадров VFI, основанный на диффузии, который улучшает качество изображения, за счет генеративного моделирования промежуточного движения.
Метод строится на рассогласованном двухэтапном процессе обучения. Сначала обучается модель синтеза кадров для генерации кадров из входных пар и их оптических потоков. Затем обучается модель диффузии движения, разработанной для оптических потоков, для создания двунаправленных потоков между кадрами.
В процессе создания модели использовался набор данных Vimeo90k, содержащий 51 312 видеотриплетов, где каждый триплет состоит из двух входных кадров и одного целевого промежуточного кадра.
Этот метод, используя простое низкочастотное представление движений, достигает высокого качества при меньших вычислительных требованиях по сравнению с другими генеративными методами моделирования.
Демо результаты MoMo для 2K и 4К видеороликов можно посмотреть на Google Drive.
⚠️ Перед установкой загрузите модель для инференса и сохраните в папку проекта так, чтобы иерархический путь выглядел так: MoMo/experiments/diffusion/momo_full/weights/model.pth
▶️Установка и запуск:
# Create venv
conda create -n momo python=3.10.9
conda activate momo
# Install requirements
pip install -r requirements.txt
# Run x2 interpolation on single GPU
python demo.py --video <path_to_video.mp4> --output_path <path_to_x2_video.mp4>
🚀 В XX веке дети мечтали стать космонавтами, а в XXI взрослые стремятся в IT. Но что если вам не хочется постоянно писать код? Есть отличный вариант — стать аналитиком. Эти специалисты моделируют и анализируют процессы в компании, переводя данные на язык бизнеса. Спрос на аналитиков постоянно растет, а с ним и уровень зарплат: джуниоры зарабатывают около 90 000 рублей, а сеньоры — до 253 000 рублей.
А теперь представьте, что вы приходите на собеседование уже с опытом работы над реальными проектами для компаний уровня Тинькофф. Программа «Аналитик PRO» от Changellenge Education — это не просто обучение, это 12 месяцев работы над актуальными бизнес-кейсами, которые можно будет добавить в портфолио как реальный опыт. Такой подход делает вас конкурентоспособным кандидатом, готовым сразу приступить к работе.
Почему аналитика? Это одна из самых востребованных и высокооплачиваемых профессий на рынке, где теоретические знания должны быть подкреплены практикой. На курсе «Аналитик PRO» 75% времени вы будете заниматься реальными проектами, а не просто изучать теорию. В результате вы получите 11 ключевых аналитических навыков, включая Excel, Python, SQL и многое другое, что откроет перед вами двери к интересным офферам.
Курс включает в себя мастер-классы от экспертов из Avito, BCG, Google и других компаний, а также менторскую поддержку от тех, кто уже прошел этот путь. Школа Changellenge Education также помогает с резюме и готовит к собеседованиям, включая кейс-интервью, чтобы вы могли уверенно шагать по карьерной лестнице.
По окончании курса вы присоединитесь к сообществу выпускников, многие из которых работают в ведущих компаниях, таких как Альфа-Банк, McKinsey и Google. Это отличная возможность для нетворкинга и обмена опытом.
🎓 Готовы к следующему шагу? Зарегистрируйтесь по ссылке и успейте получить скидку 20000 рублей на все курсы школы по промокоду DATA20 для подписчиков моего канала!
Начните свою карьеру аналитика с реальным опытом уже сегодня.
Реклама. ООО «Высшая школа аналитики и стратегии». ИНН 7716917009. erid: 2VtzqwMR7AN
⚡️ HivisionIDPhoto
Крутое репо с открытым исходным кодом, занимающее сегодня первое место на GitHub трендах.
- Локально генерирует профессиональные фотографии на документы
- Работает на центральном процессоре для быстрого вычисления
- Предоставляет веб-интерфейс Gradio и API для простоты использования
- Использует среду выполнения ONNX и OpenCV
- Может быть развернута через Docker
- Доступен API для операций обработки фотографий
При запуске инструменты будет создана локальная веб-страница, на которой можно выполнять операции и работать с фотографиями.git clone https://github.com/Zeyi-Lin/HivisionIDPhotos.git
cd HivisionIDPhotos
📚 https://github.com/Zeyi-Lin/HivisionIDPhotos
@data_analysis_ml
⚡️ OLMoE: Открытые языковые модели смеси экспертов
«OLMOE-1B-7B имеет 7 миллиардов (B) параметров, но использует только 1B на входную лексему.
Она предварительно обучена ее на 5 триллионах лексем.
OLMOE-1B-7B-INSTRUCT, превосходят все доступные модели с аналогичными активными параметрами, даже превосходят такие крупные модели, как Llama2-13B-Chat и DeepSeekMoE-16B.»
• Статья: https://arxiv.org/abs/2409.02060
• Модель: https://hf.co/allenai/OLMoE-1B-7B-0924
@data_analysis_ml
💻 Проект Graph RAG - это пакет для обработки и преобразования данных, предназначенный для извлечения значимых структурированных данных из неструктурированного текста с использованием возможностей LLMs.
▪Запись в блоге :https://microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/
▪GitHub: https://github.com/microsoft/graphrag?tab=readme-ov-file
@data_analysis_ml
🚀 Представляем многоязычную систему преобразования речи в речь Hugging Face! 🎤
💬 Модульный кросс-платформенный конвейер для запуска GPT4o-подобных моделей на устройствах, с плавным переключением языков во время разговора с незаметной задержкой в 100 мс.
🌟 2700 звезд на GitHub 🌟
🔥 Тестируйте с флагом: --language
🤯 Или не устанавливайте флаг и позвольте системе самой определить язык
▪ Github
@data_analysis_ml
⚡️ ReconX
Это полезная библиотека для создания детализированных 3D-сцен на основе ограниченного количества изображений, решая проблему, которая долгое время была сложной в компьютерном зрении.
В отличие от традиционных методов, которые часто сталкиваются с артефактами и искажениями в невидимых областях, ReconX рассматривает задачу как временную генерацию, используя видеодиффузионную модель.
Основное новшество — использование генеративных возможностей крупных предварительно обученных моделей видео с сохранением 3D-согласованности сцен.
📌 Github
📌 Project
@data_analysis_ml
⚡️ Этот инструмент RAG с открытым исходным кодом для работы с вашими документами в режиме чата в последние несколько дней занимает лидирующие позиции на Github
- RAGUI с открытым исходным кодом для контроля качества инструмента
- Поддерживает локальные Lms и API-провайдеров
- Гибридный конвейер RAG с полнотекстовым и векторным поиском
- Мультимодальность
- Поддерживает Сложные рассуждения с декомпозицией вопросов
- Настраиваемый пользовательский
интерфейс,
- Расширяемая архитектура
▪ Github
@data_analysis_ml
🌟 FLAN-T5 small — модель от Google для задач NLP
Если кто знаком с моделью T5, то FLAN-T5 — это её улучшенная версия.
При том же количестве параметров FLAN-T5 тонко настроена для 1000+ дополнительных задач NLP; при этом модель поддерживает большое количество языков.
🤗 Hugging Face
🟡 Arxiv
@data_analysis_ml