@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
✔️ Apple нашла партнера для развертывания ИИ в Китае.
Apple разрабатывает и запускает Apple Intelligence AI в Китае в партнерстве с Alibaba. Ранее компания тестировала различные модели ИИ от китайских разработчиков и выбрала Baidu в качестве основного партнера, но затем отказалась от этого соглашения из-за несоответствия стандартам Apple. Среди других рассматриваемых партнеров были Tencent, ByteDance и DeepSeek. Apple отказалась от сотрудничества с DeepSeek из-за недостатка опыта и персонала для поддержки компании масштаба Apple.
В последнем квартале продажи Apple в Китае упали на 11,1%, что является самым большим падением доходов с аналогичным кварталом 2024 года. Инструменты Apple Intelligence стимулируют спрос на устройства, но правительство Китая требует от от Apple сотрудничества с местными разработчиками.
theinformation.com
✔️ CEO Google выступил на Саммите по ИИ в Париже.
Сундар Пичаи заявил, что ИИ — технология, которая появляется раз в жизни, способная демократизировать доступ к информации в большей степени, чем интернет. Он отметил, что за 18 месяцев стоимость обработки одного токена снизилась на 97%. Google уже более 10 лет инвестирует в ИИ, чтобы систематизировать мировую информацию, делая ее доступной для всех.
Гендир Google рассказал о прогрессе в области квантовых вычислений и автономных автомобилей, расширении доступа к информации через возможности Google Translate, а AlphaFold уже используется 2,5 миллионами исследователей для создания вакцин против малярии, методов лечения рака и ферментов, перерабатывающих пластик.
В конце выступления, Сундар поделился планами об инвестициях 75 млрд. долл. в капитальные затраты в 2025 году и призвал к созданию глобальной политики, которая поддержит инновации и согласованность между странами в регулировании ИИ.
blog.google
✔️ Цукерберг активизирует наем инженеров машинного обучения для свое компании, сокращая тысячи сотрудников.
IT-гигант планирует ускорить наем ML-инженеров в ближайшие недели, несмотря на сокращение 5% штата( это примерно 4000 рабочих мест). Компания начала уведомлять своих сотрудников о сокращении в США, Европе и Азии.
Марк Цукерберг заявил о намерении повысить требования к управлению производительностью и быстрее избавляться от низкоэффективных сотрудников. Его компания планирует провести собеседования в формате ML Batch Day с 11 февраля по 13 марта.
HR-департамент ищет сотрудников, имеющих опыт проведения собеседований, для помощи в проведении 420 собеседований с инженерами-программистами, 225 поведенческих собеседований и 50 собеседований по проектированию систем машинного обучения.
businessinsider.com
✔️ Google добавила NotebookLM Plus в план One AI Premium.
Подписчики One AI Premium получат доступ к NotebookLM Plus без дополнительной платы с повышенными лимитами использования и премиальные функции настройки ответов сервиса NotebookLM.
Сейчас Google предлагает One AI Premium за 19,99 долларов в месяц с 2 ТБ хранилища и доступом к Gemini Advanced и Gemini в приложениях Workspace (Gmail и Docs). Студенты старше 18 лет в США могут получить One AI Premium за 9,99 долларов в месяц в течение 1 года.
NotebookLM Plus имеет расширенные интерактивные функции: видео на YouTube в качестве источника и преобразование в подкаст с двумя AI-ведущими, с которыми также можно общаться.
theverge.com
✔️ ByteDance анонсировала Goku: модели генерации изображений и реалистичного видео.
ByteDance представила новые модели Goku, которые генерируют реалистичные видеоролики с участием людей, взаимодействующих с предметами. В отличие от других видеомоделей, Goku может создавать как статичные изображения, так и видео из текстовых описаний. По тестам ByteDance, Goku превосходит Kling и Pika в бенчмарках генерации изображений и видео.
Goku+, специальная версия, ориентирована на создание рекламного контента. ByteDance утверждает, что она сможет снизить затраты на продакшен видеорекламы на 99%. Компания планирует использовать TikTok для предоставления сервиса рекламодателям.
saiyan-world.github.io
@ai_machinelearning_big_data
#ainews #news #ml
✔️ Макрон объявил, что Франция планирует инвестировать в развитие ИИ 109 миллиардов евро в ближайшие годы.
Он уточнил, что среди инвесторов французских проектов в области ИИ будут компании из Объединенных Арабских Эмиратов, Соединенных Штатов, Канады и самой Франции.
Кроме того, Макрон подчеркнул намерение Парижа сотрудничать с Нью-Дели и Пекином для продвижения технологий искусственного интеллекта. «Мы стремимся к совместной работе с Индией», – сказал он, добавив, что Франция также намерена взаимодействовать с Китаем и Соединенными Штатами, однако не хочет зависеть ни от одной страны.
Относительно обсуждений о возможном запрете использования китайского чат-бота DeepSeek в некоторых странах, Макрон выразил мнение, что запрет технологических решений лишь на основании их происхождения является неоправданным шагом.
Новость
✔️OpenAI дебютировал на Super Bowl, выпустив рекламу ChatGPT стоимостью 14 миллионов долларов.
Видео
✔️ ByteDance показали новый генератор видео Goku.
- Goku: генеративная модель видео на основе потоков.
- Goku+: Модель, которая позиционируется, как модель для генерации видеорекламы и обещает быть в 100 раз дешевле, чем традиционные методы создания видео-рекламы.
Аrxiv
✔️ Свежий гайд, который поможет вам тренировать свой собственный ризониг LLM.
С этим ноутбуком примерно за 2 часа можно обучить модель Qwen 0.5B на математическом наборе данных GSM8K, используя обучение с подкреплением!
Colab Demo
✔️ LeRobot — это образовательный проект, направленный на создание бюджетного робота, стоимость каждой руки которого составляет всего 110 долларов. С помощью обычного ноутбука пользователи могут обучать робота различным навыкам.
Проект предлагает платформу с готовыми моделями, наборами данных и инструментами для работы с робототехникой на базе PyTorch.
На данный момент доступны предварительно обученные модели, демонстрационные среды для симуляций, а также готовые скрипты для обучения и управления реальными роботами.
Также предоставляются рекомендации по ведению логов и оценке моделей, а также ссылки на исследовательские материалы и примеры кода для профилирования.
Github
✔️ Стартап Ильи Суцкевера, сооснователя OpenAI, оценили в $20 миллиардов.
Safe Superintellgence(SSI), основанная в июне 2024, еще ничего не выпускает и не зарабатывает, так как первым продуктом обещают сразу ни больше ни меньше — safe AGI.
А пока просто посмотрите на сайт компании, которая УЖЕ привлекла миллиард долларов и собирается привлечь еще.
ssi.inc
Уверенность в себе и команде выглядит именно так 😎
@ai_machinelearning_big_data
#openai #deeplearning #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #qwen #ainews #news
🔥 ReAG (Reasoning Augmented Generation) — это подход к генерации ответов, который улучшает традиционные системы Retrieval-Augmented Generation (RAG)!
🌟 Вместо стандартного двухэтапного процесса, где сначала выполняется семантический поиск для извлечения документов, а затем языковая модель генерирует ответы на их основе, ReAG позволяет языковой модели напрямую обрабатывать исходные документы. Это обеспечивает более глубокое понимание контекста и приводит к созданию более точных и содержательных ответов.
🔐 Лицензия: MIT
🖥 Github
@bigdatai
🔬MedRAX: новаторский ИИ-агент, разработанный для медицинских задач!
Что такое MedRAX?
MedRAX - это первый универсальный ИИ-агент, который объединяет современные инструменты для анализа рентгеновских снимков грудной клетки и мультимодальные большие языковые модели в единую структуру, позволяющую динамически обосновывать сложные медицинские запросы без дополнительного обучения.
🎯 Чем хорош именно MedRAX?
Хотя специализированные модели ИИ отлично справляются с конкретными задачами рентгенографии грудной клетки, они часто не справляются с комплексным анализом и могут выдавать неточные рекомендации . Многим медицинским работникам нужна единая, надежная система, способная обрабатывать сложные запросы, сохраняя при этом точность. MedRAX призван стать таким инструментом
🛠️ Интегрированные инструменты:
- Визуальный контроль качества: CheXagent и LLaVA-Med
- Сегментация: MedSAM & ChestX-Det
- Формирование отчетов: CheXpert Plus
- Классификация: TorchXRayVision
- Grounding Maira-2
- Синтетические данные: RoentGen
💡 Ключевые особенности:
- Бесшовная интеграция специализированных медицинских инструментов с мультимодальными рассуждениями на основе больших языковых моделей.
- Динамическая оркестровка: Интеллектуальный выбор и координация инструментов для сложных запросов.
- Клиническая направленность: Разработан для реальных медицинских процессов.
📊 ChestAgentBench:
Разработчики также выпустили ChestAgentBench, комплексный эталон медицинского агента, созданный на основе 675 клинических случаев, проверенных экспертами, и включающий 2500 сложных медицинских запросов по 7 категориям.
🎉 Результаты говорят сами за себя:
- 63,1% точности на ChestAgentBench
- Sota результативность на CheXbench
- Превосходит как универсальные, так и специализированные медицинские модели
▪ Paper: https://arxiv.org/abs/2502.02673
▪Код: https://github.com/bowang-lab/MedRAX
#ai #agents #ml #opensource #med #medicine
@bigdatai
🛠 SmolLM2-135M-Instruct, крошечный LLM, который квантуется до размера чуть меньше 100 МБ... что означает, что он может поместиться в PyPI-пакет!
Вот первый плагин LLM, который включает в себя полную модель в составе пакета:llm install llm-smollm2
https://simonwillison.net/2025/Feb/7/pip-install-llm-smollm2/
@bigdatai
⭐️ Новый релиз от Deepseek: DeepSeek-VL2-small (16B MoE) для vision-language задач.
Демо новой модели стало доступно на huggingface 🚀
Отличная модель для OCR задач, извлечения текста и использования в чате.
🤗 HF: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
#deepseek #OCR #demo #prerelease
Как Docker упрощает жизнь аналитиков и инженеров данных
Когда вы работаете с данными, например, анализируете их или строите модели машинного обучения, Docker позволяет сосредоточиться на самой работе, не отвлекаясь на настройку окружения. Это как иметь готовую мастерскую со всеми нужными инструментами, где вы можете сразу приступить к работе.
На бесплатом вебинаре вы научитесь упаковывать приложения вместе со всеми зависимостями, избегать проблем с несовместимостью ➡️ повысите эффективность работы и сэкономите время на настройку окружения.
Что будем делать на вебинаре:
🟠Разберём основы Docker и как контейнеры упрощают работу;
🟠Выполним анализ данных, запустив Python прямо внутри контейнера;
🟠 Автоматизируем окружение с помощью Docker Compose (Python + PostgreSQL);
🟠 Настроим удобный доступ к результатам анализа;
🟠Организуем ускоренную обработку больших данных.
🕗Встречаемся 5 февраля 19:00 по мск
Зарегистрироваться на бесплатный вебинар
📝 Rowfill — это платформа с открытым исходным кодом для извлечения и обработки данных из документов, PDF-файлов и изображений!
🌟 Она использует OCR, машинное обучение и искусственный интеллект для точного распознавания текста, таблиц и рукописного ввода. Rowfill позволяет автоматизировать рабочие процессы, создавая пользовательские сценарии обработки данных.
🔐 Лицензия: AGPL-3.0
🖥 Github
@bigdatai
🔥 ppt2desc — это утилита командной строки, которая преобразует презентации PowerPoint (.pptx) в детализированные текстовые описания с использованием VLM!
🌟 Она не только извлекает текст со слайдов, но и анализирует визуальные элементы (графики, изображения, диаграммы), создавая их семантически точные описания. Это особенно полезно для создания альтернативных текстов, анализа контента и автоматизации обработки презентаций.
🔐 Лицензия: MIT
🖥 Github
@bigdatai
🔥 WILDCHAT-50M: крупнейший открытый набор данных c чатов
- 125 млн+ стенограмм чатов
- 1 млн+ разговоров
- Создано на основе WildChat
- Используется для создания RE-WILD SFT
Один из лучших открытых бенчмарков данной категории.
https://huggingface.co/collections/nyu-dice-lab/wildchat-50m-679a5df2c5967db8ab341ab7
@bigdatai
🤗 Inference Providers on the Hub!
С сегодняшнего дня вы можете получить доступ к тысячам моделей, таким как DeepSeek R1, Llama, Flux, Whisper и прямо из Hugging Face!
https://huggingface.co/blog/inference-providers
#huggingface #ml #providers
🐋 DeepSeek только что выпустила еще одну модель ИИ с открытым исходным кодом, Janus-Pro-7B.
Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.
https://huggingface.co/deepseek-ai/Janus-Pro-7B
@ai_machinelearning_big_data
#ai #deepseek #opensource #Janus
💥Релиз Qwen2.5-1M!
Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН 🔥
⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.
Доступен подробный технический отчет о серии Qwen2.5-1M! 📊
📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
▪ Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
@bigdatai
Вот все, что произошло в AI Agents на этой неделе 🧵
@bigdatai
✔️ Запущен архив данных data.gov
Library Innovation Lab (Гарвардский университет) запустила архив данных data.gov на платформе Source Cooperative. Коллекция объемом 16 ТБ включает более 311 000 наборов данных, собранных в 2024 и 2025 годах, и представляет собой полный архив федеральных публичных данных, связанных через data.gov. Архив будет ежедневно обновляться по мере добавления новых данных.
Этот проект является частью инициативы по сохранению важных публичных данных для академических исследований и общественного использования. Также опубликовано открытое ПО для создания подобных репозиториев. Проект поддерживается Filecoin Foundation и Rockefeller Brothers Fund.
▪Github
▪lil.law.harvard.edu
@bigdatai
🖥 Voluptuous — это библиотека на языке Python, предназначенная для валидации данных!
💡 Она позволяет разработчикам определять схемы для проверки структуры и типов данных, что особенно полезно при работе с конфигурационными файлами, пользовательским вводом или данными из внешних источников. С помощью Voluptuous можно легко описать ожидаемый формат данных и автоматически проверять соответствие входных данных этой схеме.
🔐 Лицензия: BSD-3-Clause
🖥 Github
@bigdatai
🔥 VideoLLaMA 3: Frontier Multimodal Foundation Models for Video Understanding
VideoLLaMA - это серия мультимодальных моделей (MLLM), разработанных для различных задач понимания изображений и видео!
🌟 Модели поддерживают возможности обработки текста, изображений и видео.
Модели подойдут для создания универсальных приложений, способных решать широкий спектр задач, связанных с анализом визуальной информации.
🖐️Результаты 7B модели: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
🤏 Результаты 2B-модели для мобильных устройств: MMMU: 45.3, VideoMME: 59.6/63.4
🔐 Лицензирование: Apache-2.0
▪ Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
▪Image Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
▪Video Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3
@ai_machinelearning_big_data
#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding
✔️ OpenAI открывает свой первый немецкий офис в Мюнхене.
OpenAI планирует создать местную команду, которая будет заниматься продажами, развитием, коммуникациями, лоббированием и укрепить связи с немецкими университетами. По словам Сэма Альтмана, репутация Германии в области технического совершенства и промышленных инноваций сделала ее естественным выбором для расширения OpenAI. Германия - один из ключевых рынков OpenAI , а за последний год количество платных пользователей ChatGPT в Германии увеличилось в три раза.
heise.de
✔️ ОАЭ инвестируют до 50 миллиардов евро в кампус искусственного интеллекта во Франции.
Объединенные Арабские Эмираты и Франция подписали соглашение о строительстве масштабного ИИ-кампуса с ЦОД мощностью в 1 гигаватт. Проект потребует инвестиций в размере от 30 до 50 миллиардов евро и станет крупнейшим объектом такого рода в Европе.
Проект кампуса, подписанный президентом Франции и президентом ОАЭ будет разработан консорциумом французских и эмиратских компаний, с участием инвестиционного фонда MGX. Точное местоположение объекта еще не определено.
france24.com
✔️ ИИ от DeepMind превосходит золотых медалистов Международной математической олимпиады в решении задач по геометрии.
ИИ AlphaGeometry2, улучшенная версия системы AlphaGeometry, превзошла среднего золотого медалиста в решении задач по геометрии на международном математическом конкурсе. DeepMind утверждает, что их ИИ может решить 84% всех олимпиадных задач по геометрии за последние 25 лет.
AlphaGeometry2 состоит из языковой модели из семейства Gemini и "символьного движка". Модель Gemini помогает символьному движку, который использует математические правила для вывода решений задач, приходить к возможным доказательствам для целевой теоремы. AlphaGeometry2 считает проблему "решенной", когда приходит к доказательству, которое объединяет предположения Gemini с принципами символьного движка. DeepMind создала свои собственные синтетические данные для обучения AlphaGeometry2, сгенерировав более 300 миллионов теорем и доказательств различной сложности.
techcrunch.com
✔️ Microsoft Edge получил новую функцию блокировки scareware на базе ИИ для защиты от онлайн-мошенничества.
Новая функция Microsoft Edge на базе ИИ работает на компьютерах с Windows. Она способна выявлять и блокировать существующие мошеннические схемы и обнаруживать новые благодаря локальной модели машинного обучения.
Когда обнаруживается мошенничество, Microsoft Edge автоматически выходит из полноэкранного режима, который пытаются навязать вредоносные сайты, останавливает воспроизведение аудио и предупреждает пользователя миниатюрой просматриваемой страницы. После этого пользователь может сообщить о сайте, чтобы его добавили в службу Microsoft Defender SmartScreen.
Функция блокировки теперь доступна в предварительной версии в последней стабильной ветке браузера. Чтобы получить доступ к этой функции, необходимо вручную включить блокировку scareware в настройках конфиденциальности Edge и перезапустить браузер. Модель машинного обучения, используемая для блокировки, работает локально, не сохраняя и не отправляя данные в Microsoft.
theverge.com
✔️ Цукерберг и ко разрабатывают систему "чтения мыслей" для набора текста.
Компания разработала систему, способную анализировать мозговую активность человека во время набора текста и определять, какие клавиши он нажимает, основываясь только на мыслях. Система использует магнитно-энцефалографический сканер для сбора сигналов, производимых в коре головного мозга.
Несмотря на то, что система способна определять буквы с точностью до 80%, она далека от коммерческого применения из-за своего размера, стоимости в 2 миллиона долларов и необходимости работы в экранированной комнате. Разработчики рассматривают ее как фундаментальное исследование принципов интеллекта, которое может быть использовано для создания более мощных систем искусственного интеллекта, способных учиться и рассуждать, как люди.
technologyreview.com
✔️ НОВИНКА: Kokoro v1.0 с параметрами 82M, многоязычная модель TTS - работает в браузере!
🤗 Kokoro
#news #ai #ml
Xwen 🔥 серия открытых моделей, основанных на моделях Qwen2.5, разработанных блестящей исследовательской группой аспирантов из Китая.
✨ 7B/72B
✨ Apache 2.0
✨ Xwen-72B-Chat превзошел DeepSeek V3 на Arena Hard Auto
https://huggingface.co/collections/shenzhi-wang/xwen-chat-679e30ab1f4b90cfa7dbc49e
@bigdatai
🔥 Oumi — это открытая платформа для работы с фундаментальными моделями (LLM и мультимодальными), охватывающая полный цикл разработки: от подготовки данных и обучения до развертывания и оценки!
🌟 Она поддерживает современные техники, такие как LoRA, QLoRA, DPO и другие, позволяя обучать, тестировать и оптимизировать модели как локально, так и в облачных средах (AWS, GCP, Azure).
🔐 Лицензия: Apache-2.0
🖥 Github
@bigdatai
⭐️ Первый Open Source аналог Deep Research от OpenAI.
Реализация ИИ-ресерчера, который непрерывно ищет информацию по запросу пользователя, пока система не убедится, что собрала все необходимые данные.
Для этого он использует несколько сервисов:
- SERPAPI: Для выполнения поиска в Google.
- Jina: Для получения и извлечения содержимого веб-страниц.
- OpenRouter (модель по умолчанию: anthropic/claude-3.5-haiku): Взаимодействует с LLM для генерации поисковых запросов, оценки релевантности страниц и понимания контекста.
🟢 Функции
- Итеративный цикл исследования: Система итеративно уточняет свои поисковые запросы.
- Асинхронная обработка: Поиск, парсинг веб-страниц и оценка контекста - выполняются параллельно для повышения скорости.
- Фильтрация дубликатов: Агрегирует и дедуплицирует ссылки в каждом цикле, проверяя, что одна и та же информация не будет обработана дважды.
▪ Github
▪Google Colab
@ai_machinelearning_big_data
#opensource #llm #ai #ml #DeepResearcher
🚀 Друзья!
6 февраля в 16.00 часов компания Мегапьютер приглашает вас на вебинар «PolyAnalyst для разработки решений на основе коллаборативного мультиагентного ИИ».
Вебинар будет полезен всем, кто интересуется одной из самых молодых сфер ИИ. Мультиагентный ИИ – это технология оркестрированного применения нескольких моделей ИИ, берущих на себя разные подзадачи одной большой задачи, проверяющих и дополняющих работу друг друга. Эта технология позволяет решать практические задачи, которые не поддаются решению с помощью единичной модели ИИ. Бизнес-решения на основе мультиагентного ИИ часто включают в себя мультимодальные модели, что позволяет проводить преобразование и совместную обработку данных разных типов: голос, текст, картинка, видео. Таким образом подобные модели еще на шаг приближают уровень восприятия искусственного интеллекта к интеллекту естественному.
❗️Ключевые вопросы, которые будут рассмотрены:
🔸 Принципы работы коллаборативного мультиагентного ИИ в системе PolyAnalyst;
🔸 Примеры использования PolyAnalyst для создания и управления мультиагентными системами: автоматизированное создание машинных классификаторов и извлечение сложных фактов из текстово-графических данных;
🔸 Преимущества применения моделей ИИ совместно с PolyAnalyst;
🔸 Практические рекомендации по реализации проектов с ИИ на основе PolyAnalyst;
🔸 Ответы на вопросы
Ждем вас на вебинаре!
Мероприятие бесплатное! Регистрация обязательна!
Регистрация по ссылке
❗Будем рады вашему участию!
🔥 awesome-cursorrules — коллекция файлов .cursorrules, которые позволяют настраивать поведение искусственного интеллекта в редакторе кода Cursor AI!
🌟 Эти файлы определяют специфические правила для различных проектов, помогая адаптировать AI к стилю и потребностям разработки. Ресурс включает множество примеров для разных технологий и фреймворков, таких как React, Python, Go, а также для мобильной разработки и тестирования.
🔐 Лицензия: CC0-1.0
🖥 Github
@bigdatai
✔ MM-IQ: крупнейший бенчмарк для абстрактного визуального мышления
- 2710 образцов
- три формата ввода, шесть конфигураций задач и восемь моделей рассуждений
- таблица лидеров для оценки мультимодальных моделей
https://huggingface.co/datasets/huanqia/MM-IQ
@bigdatai
Microsoft представляет: Chain-of-Retrieval Augmented Generation
- Наблюдается улучшение более чем на 10 баллов в оценке EM - Устанавливает новый уровень производительности SotA в широком спектре наукоемких задач
https://arxiv.org/abs/2501.14342
🔥 ReaderLM-v2 — это языковая модель с 1.5 миллиарда параметров, специально разработанная для преобразования HTML в Markdown или JSON с высокой точностью!
🌟 Модель поддерживает до 29 языков и оптимизирована для работы с длинными контекстами (до 512 тыс. токенов, включая вход и выход). Она создана для задач, связанных с парсингом HTML, извлечением текстов и их преобразованием в структурированные форматы.
🔗 Ссылка: *клик*
@bigdatai
🔥 Jan — это открытая альтернатива ChatGPT, работающая полностью оффлайн на вашем устройстве!
🌟 Его цель — предоставить пользователям простой способ установки и использования больших языковых моделей (LLM) с полным контролем и конфиденциальностью. Jan поддерживает универсальные архитектуры, включая NVIDIA GPU, Apple M-серию, Apple Intel, Linux Debian и Windows x64.
💡 Основой Jan является Cortex, встраиваемый локальный AI-движок, способный работать на любом оборудовании. Jan предлагает библиотеку моделей с популярными LLM, такими как Llama, Gemma, Mistral и Qwen, а также возможность подключения к удаленным AI API, таким как Groq и OpenRouter. Кроме того, Jan предоставляет локальный API-сервер с интерфейсом, совместимым с OpenAI, и поддерживает расширения для кастомизации функционала.
🔐 Лицензия: AGPL-3.0
🖥 Github
@bigdatai
🔸 Gated DeltaNet: гибридная архитектура нейронных сетей с управлением памятью.
Gated DeltaNet - экспериментальная архитектура, разработанная NVIDIA для управления памятью в контексте линейных трансформеров, которая может решить проблемы с забыванием в моделях, обрабатывающих длинные последовательности данных.
Gated DeltaNet предлагает использовать одновременно дельта-правило и гейтинг. Дельта-правило обновляет память модели, заменяя устаревшую информацию на новую, а механизм гейтинга удаляет ненужную информацию из памяти, чтобы она не мешала модели работать эффективно.
Архитектура Gated DeltaNet была разработана на основе алгоритма, который параллелит вычисления дельта-правила с использованием представления WY и оптимизирует работу с GPU на уровне тензорных ядер.
Перфоманс-тестирование Gated DeltaNet проводилось на бенчмарках языкового моделирования, ризонинга, контекстного извлечения, экстраполяции длины и понимания объемного контекста.
Модель Gated DeltaNet превзошла Mamba2 и DeltaNet на всех этих тестах. Например - улучшенная точность на задачах S-NIAH-2 и S-NIAH-3, где Gated DeltaNet показала более эффективное управление памятью по сравнению с DeltaNet и Mamba2 и превосходство в задачах ризонинга.
Гибридные архитектуры, сочетающие слои Gated DeltaNet с вниманием скользящего окна или слоями Mamba2 повысили эффективность обучения и производительность моделей.
Тестовые GatedDeltaNet-H1 и GatedDeltaNet-H2
дали еще более высокие результаты, используя комбинации Gated DeltaNet + SWA и Mamba2 + Gated DeltaNet + SWA соответственно.
Gated DeltaNet показала самые низкие показатели перплексии при экстраполяции на длинные последовательности до 20 тыс. токенов и продемонстрировала превосходные способности в извлечении информации, обучении в контексте и отслеживании состояния в задачах LongBench.
🔸Практическая реализация обучения Gated DeltaNet на Pytorch доступна в репозитории на Github
📌Лицензирование:
🟢Некоммерческое использование: Nvidia Source Code License-NC
🟠Коммерческое использование: по запросу через форму NVIDIA Research Licensing
🟡Arxiv
🟡GitHub
@ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #GatedDeltaNet
🔎 Depth Anything — это передовая технология оценки глубины, использующая монокуляр (одну камера).
Однако у этой технологии есть проблема с временной несогласованности в видео, что значительно ограничивает её практическое применение.
😩Существующие методы могут улучшить согласованность видео, но они применимы к коротким видео (менее 10 секунд) и требуют компромисса между качеством и эффективностью съёмки.
🤗 Video Depth Anything — модель, которая обеспечивает высококачественную и последовательную оценку глубины видео без ущерба для их эффективности.
Она построена на основе Depth Anything V2 и обладает мощным пространственно-временным управлением.
🍪 Разработанная на основе совместного набора данных о глубине видео и дешевых немаркированных изображений, эта модель представляет эффективную стратегию оценки длинного видео на основе ключевых кадров. Ограничения на градиенты глубины устраняют необходимость в дополнительных предварительных данных.
🖥 Эксперименты показали, что Video Depth Anything обрабатывает видео любой длины без потери качества, последовательности, что устанавливает новый уровень в оценке глубины видео с нулевой съемкой.
Доступны модели различных масштабов, при этом самая маленькая из них обеспечивает производительность в реальном времени со скоростью 30 кадров в секунду 🔥👍
Начало работы:git clone https://github.com/DepthAnything/Video-Depth-Anything
cd Video-Depth-Anything
pip install -r requirements.txt
✅ Лицензирование: Apache 2.0
▪GitHub
▪Paper
▪Model Small
▪Model Large
▪Demo
@ai_machinelearning_big_data
#DepthAnything #opensource #ml #depthestimation #videodepth