Наука, технологии, изобретения и урбанистика — прямо сейчас говорим о том, что уже скоро повлияет на каждого. по всем вопросам - @workakkk @ai_machinelearning_big_data - Machine learning @itchannels_telegram - 🔥лучшие ит-каналы
🖥 Стрим про фичу оператора в ChatGPT
https://youtu.be/CSE77wAdDLg
@vistehno
🔥 Awesome-LLM — это коллекция ресурсов, связанных с большими языковыми моделями (LLM)!
💡 В репозитории собраны ссылки на инструменты, исследования, фреймворки, наборы данных и проекты, связанные с LLM, такие как GPT, LLaMA и другие. Этот репозиторий помогает разработчикам и исследователям быстро находить актуальную информацию по обучению, настройке и использованию языковых моделей.
🔐 Лицензия: CC0-1.0
🖥 Github
@vistehno
🔍 Так вот от чего отталкивается цена на эту монету на самом деле...
@vistehno
🔥 Китайская компания изобрела роботов, которые способны развивать скорость до 10 м/с!
🌟 А теперь представьте, что это преследует вас, ваши действия?
@vistehno
🚨Только что были выпущены веса для новой ризонинг моделей DeepSeek-R Zero.
Модель 685B на архитектуре на DeepSeek V3.
Размер: 720GB 🤯
Ждем официального анонса, который с высокой степенью вероятности состоится сегодня или завтра.
🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
#DeepSeek
⭐️ Самые интересные Open Source AI релизы за неделю
- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.
- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.
- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.
- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.
💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯
- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!
- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.
- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻
- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.
- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.
- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.
👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.
⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.
📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.
🧠 Playground
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!
@ai_machinelearning_big_data
#ml #digest #datasets #opensource #ai #llm #news
⭐️ AI-Crash-Course
Ускоренный бесплатный курс по искусственному интеллекту, который рассчитан на 2-4 недели.
Курс поможет освоить передовые направления исследований в области искусственного интеллекта.
✅Github
@vistehno
🧠 ML DIGEST
💬Выпущена Новая TTS модель OuteTTS 0.3, 1 B и 500M
> Zero-shot - клонирование голоса > Многоязычный (en, jp, ko, zh, fr, de)
> Обучен 20 000 часам аудиозаписей
> Работает от OLMo-1B и Qwen 2.5 0.5B
> > Функции контроль скорости речь и эмоций
✅ HF
🤗 Hugging Face выпустили открытый курс по изучению AI-агентов на практике.
За прохождение курса можно получить сертификат и самое главное, что при обучении упор идет на практику.
Вы погрузитесь в популярные фреймворки агентов, такие как LangChain, LlamaIndex и smolagents. Эти инструменты предоставляют строительные блоки для создания сложных поведений агентов.
✅Записаться можно здесь
🎥 Компания Luma AI только что выпустила #Ray2 - новую модель видео с искусственным интеллектом, которая создает реалистичные видеоролики с естественным и последовательным движением. Поддерживает text-to-video и image-to video. Доступна платно.
✅Подробнее
🎓 Transformer2: Self-adaptive LLMs
SakanaAi представили новую структуру самоадаптации моделей, при которой LLM адаптируется для невидимых задач в реальном времени, выборочно корректируя только отдельные компоненты своих весовых матриц.
Во время вывода используется система диспетчеризации, которая определяет свойства задачи, а затем использует векторы «экспертов» для конкретной задачи, обученные с помощью reinforcement learning👀
✅ Статья
✅ GitHub
🧞Omni-RGPT: очередная SOTA MLLM
NVIDIA представляли Omni-RGPT, MLLM, для понимания изображений и видео на уровне отдельных объектов и регионов на видео.
✅Статья
✅Проект
⚡️ Bespoke Curator
Curator - библиотека с открытым исходным кодом, разработанная для упрощения создания синтетических данных!
✅Github
🌏 Earth View предлагает огромную коллекцию мультиспектральных изображений
Земли из нескольких спутниковых источников, включая Satellogic, Sentinel-1, NEON и предстоящий Sentinel-2.
✅HF
@ai_machinelearning_big_data
#ml #news #digest #machinelearning
🎮 Запуск Doom (1993) в PDF файле.
Порт исходника Doom, который запускается в PDF-файле.
Оказалось, что старые версии Emscripten могут компилировать C в код asm.js, автор запустится внутри ограниченного времени выполнения JS в движке PDF.
Он использовал форк doomgeneric (https://github.com/ozkl/doomgeneric) оригинального исходного кода Doom, так как это позволило довольно легко написать IO.
Все, что нужно было сделать, это реализовать фреймбуфер и клавиатурные входы.
В отличие от предыдущих интерактивных PDF-демонстраций, вывод в DoomPDF осуществляется путем создания текстового поля для каждого ряда пикселей на экране, а затем установки их содержимого в различные ASCII-символы.
Обратите внимание, что этот PDF может работать только в браузерах на базе Chromium, использующих движок PDFium.
Таким образом, получается 6-цветный монохромный дисплей, который может обновляться достаточно быстро (80 мс на кадр).
▪ Исходный код доступен здесь: https://github.com/ading2210/doompdf
▪Демо: https://doompdf.pages.dev/doom.pdf
@vistehno
#doom #c #gamedev
🤖 Новый уровень теста Тьюринга: это настоящий рабочий робот!
controller - это нейронная сеть, обученная в симуляторе Isaac с помощью обучения с подкреплением, а затем в Sim2real.
Уверенная походка - это круто, человечеству нужны такие роботы для тушения пожаров и других опасных работ как можно скорее!
@vistehno
🔍 Исследователи из Корнелльского университета создали MouseGoggles — VR-гарнитуру для мышей.
😞 Живите с тем, что в этом мире мышь может позволить себе больше, чем некоторые люди...
@vistehno
🔍 На видео — демонстрация первой в мире нейронной сети для распознавания чисел в 1993 году!
@vistehno
🔍 Тем временем в Японии тестируют новый сверхскоростной поезд...
@vistehno
🔥 Невероятно полезный инструмент — Storm посещает сотни веб-сайтов и создает огромные статьи на заданную вами тему!
🔍 К сожалению, работает только на английском, однако ничего не мешает вам перевести получившуюся статью в любой другой нейросети.
🔗 Ссылка: *клик*
@vistehno
⭐️ Несколько часов назад OpenAI объявили, чтои выпустит CUA "Operator" (своего ИИ-агента, для управления пк) на этой неделе.
Через 50 минут спустя DeepLearning анонсируют мини-курс по работе со своим агентом Anthropics CUA.
Гонка за создание лучшего ИИ-агента для управления кмопьютером 🚀
📌 Курс
💵Трамп сегодня представит масштабный план по развитию инфраструктуры ИИ, и CBS сообщает, что он включает возвращение проекта Stargate.
OpenAI, Softbank и Oracle планируют инвестировать $500 млрд в течение следующих четырех лет.
AGI появится раньше, чем мы все ожидаем
США вкладывают огромные средства в ИИ, что хорошо для всей отрасли в целом.
https://www.cbsnews.com/news/trump-announces-private-sector-ai-infrastructure-investment/
🧠 DeepSeek обнаружили, что у их новой модели был момент озарения, когда она сама для себя разработала продвинутую технику рассуждения.
Оказывается, вам просто нужно правильно стимулировать модель.
Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.
Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.
Похоже это будет эра LLM RL.
📕 Paper
#DeepSeek #deepseekv3 #reasoning #ml
Строим рекомендательную систему фильмов на Kaggle
Вы когда-нибудь хотели сделать свою собственную систему рекомендаций фильмов? 🎬
Приходите на бесплатный вебинар, где Савелий Батурин, Senior ML-Engineer и преподаватель курса по ML школы Simulative в прямом эфире покажет как построить рекомендательную систему фильмов на Kaggle.
Что будем делать на вебинаре:
• Разберем имеющиеся данные фильмов с их оценками
• Проведем предобработку данных
• Построим рекомендательную систему на основе машинного обучения
•Проведем расчет и анализ метрик на основе результатов работы модели
🕗Встречаемся 21 января 19:00 по мск
Вебинар будет интересен как новичкам, так и уже опытным специалистам
Зарегистрироваться на бесплатный вебинар
🔎 Гении изобрели ИИ-очки для читерства в шахматах!..
@vistehno
🔥 Parlant — это фреймворк для управления поведением AI-агентов в сценариях взаимодействия с клиентами!
🌟 С его помощью разработчики могут развернуть LLM-агента за считанные минуты, используя гибкий API для управления сессиями и построения диалогов. Главная особенность Parlant — возможность задавать и поддерживать поведенческие правила для агентов, чтобы они строго следовали бизнес-требованиям в зависимости от контекста.
🔐 Лицензия: Apache-2.0
🖥 Github
@vistehno
🔥 OpenAI заблокировали разработчика, который использовал API ChatGPT в качестве оружия!
💡 Этот разработчик создал проект, который может реагировать на голосовые команды с помощью Realtime API ChatGPT.
🌟 Компания OpenAI подтвердила факт блокировки, сославшись на нарушение своей политики, запрещающей использование ее ИИ в оружейных приложениях.
🌟 Турель может интерпретировать такие команды, как «повернуть налево» или «отреагировать соответствующим образом», с точными корректировками в реальном времени, что показывает, насколько легко языковые модели могут быть интегрированы в смертоносные системы.
🌟 Этот инцидент усиливает опасения относительно потенциальной роли ИИ в автоматизации военных систем, подобно автономным дронам, которые могут идентифицировать и наносить удары без человеческого контроля. Критики утверждают, что это может размыть ответственность за военные преступления и нормализовать автономные атаки.
🔎 Более широкая проблема распространяется и на модели с открытым исходным кодом. В сочетании с достижениями в области 3D-печатных деталей оружия, самодельные автономные системы могут стать растущим риском безопасности.
@vistehno
🔥 Майнкрафтеры ликуют — Arnis генерирует любое место с карты мира внутри Minecraft, используя для этого снимки с OpenStreetMap!
🔐 Лицензия: GPL-3.0
🖥 Github
@vistehno
🔥 Adobe выпустили в открытый доступ мощный генератор видео на прозрачном фоне — идеальный выбор для создания спецэффектов, таких как взрывы, дым, огонь, вода и другие анимации.
Нейросеть также способна оживлять статические изображения, превращая их в динамичные GIF-файлы.
Это новое удобное и быстрое решение значительно облегчает процесс видеомонтажа! Попробуем демо прямо сейчас.
📌 Демо: https://huggingface.co/spaces/wileewang/TransPixar
📌Github: https://github.com/wileewang/TransPixar
📌 Статья: https://arxiv.org/pdf/2501.03006
@vistehno
🔍 Примерно так выглядел бы мир, если бы он существовал только в местах, где есть панорама улиц от Google.
@vistehno
📚 Новогодние праздники продолжаются и пришло время провести крутой розыгрыш.
На этот раз мы разыграем целых 3 места на наших курсах и целую коллекцию актуальных книг для изучения и погружения в машинное обучение и python.
Условия просты:
• подписаться на Pythonl
• подписаться на Поступашки
Победители рандомно получат доступы к курсам или одну из книг, которые перечислены ниже:
— System Design. Машинное обучение. Подготовка к сложному интервью | Сюй Алекс
— Алгебра, топология, дифференциальное исчисление и теория оптимизации для компьютерных наук и машинного обучения
— Глубокое обучение Курвилль Аарон, Гудфеллоу Ян
— Как быть успешным в Data Science.
— Все, что нужно, чтобы понимать математику в одном толстом конспекте
Итоги подведем при помощи бота, который рандомно выберет победителя. Всем удачи ❤️
• подписаться на Pythonl
• подписаться на Поступашки
#Конкурс
🖥 NVIDIA представила видеокарты серии RTX 50 — всего четыре модели.
RTX 5090 оказалась в 1,5 раза производительнее предыдущей версии RTX 4090! Более того, благодаря технологии DLSS 4, даже самая доступная модель RTX 5070 за $550 способна обеспечить производительность на уровне RTX 4090.
Мы все ожидали от RTX 5090, крутые характеристики и все такое. Но все ли поняли, что Дженсен сказал о графике?
Что новая карта использует нейронные сети для генерации 90+% пикселей в играх?
Традиционные алгоритмы трассировки лучей отрисовывают только ~10%, своего рода «скетч», а затем генеративная модель заполняет остальные мелкие детали. За один проход в режиме реального времени.
ИИ - это новый уровень графики, дамы и господа.
Цены и технические характеристики:
GeForce RTX 5090:
- Процессор: GB202-300
- CUDA-ядер: 21 760
- Память: 32 ГБ GDDR7 (1792 Гбайт/с)
- Шина: 512 бит
- Потребление энергии: 575 Вт
- Цена: $1999
GeForce RTX 5080:
- Процессор: GB203-400
- CUDA-ядер: 10 752
- Память: 16 ГБ GDDR7 (960 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 360 Вт
- Цена: $999
GeForce RTX 5070 Ti:
- Процессор: GB203-300
- CUDA-ядер: 8 960
- Память: 16 ГБ GDDR7 (896 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 300 Вт
- Цена: $749
GeForce RTX 5070:
- Процессор: GB205-300
- CUDA-ядер: 6 144
- Память: 12 ГБ GDDR7 (672 Гбайт/с)
- Шина: 192 бит
- Потребление энергии: 250 Вт
- Цена: $549
Продажи стартуют уже в этом месяце!
@ai_machinelearning_big_data
#nvidia
🔍 Сложно встретить в этом мире что-то страшнее...
@vistehno
🔥 Приятного аппетита!
@machinelearning_ru