bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

🖥 SiYuan — это программное обеспечение с открытым исходным кодом для управления личными знаниями, ориентированное на конфиденциальность!

🌟 Оно позволяет пользователям организовывать свои заметки, данные и информацию с высокой степенью гибкости и точности. SiYuan поддерживает работу с Markdown в режиме WYSIWYG, двусторонние ссылки, блочные структуры и встроенные SQL-запросы. Приложение доступно для разных платформ, включая Windows, macOS, Linux, Android и iOS, а также поддерживает развертывание через Docker.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🧠 XMIDI Dataset - это крупномасштабный набор данных о музыке с метками эмоций и жанров.

Самый большой из известных мне наборов данных музыки с точными метками эмоций и жанров, содержащий 108 023 MIDI-файла.

📌 Github

Читать полностью…

Big Data AI

🔥 Open Deep Research — это инструмент с открытым исходным кодом, разработанный для автоматизации исследовательского процесса и создания отчётов с использованием искусственного интеллекта!

🌟 Он выполняет три этапа: получение результатов веб-поиска через Bing Search API, извлечение и обработку релевантного контента из найденных источников с помощью JinaAI и генерацию итогового отчёта с использованием AI-моделей, таких как GPT-4, Gemini или Sonnet. Это позволяет пользователям быстро получать синтезированные данные и создавать информативные отчёты по заданным запросам.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

📝 AI reads books: Page-by-Page PDF Knowledge Extractor & Summarizer — скрипт, предназначенный для интеллектуального постраничного анализа PDF-книг!

🌟 Скрипт извлекает ключевые знания с каждой страницы и генерирует прогрессивные резюме через определенные интервалы, что позволяет глубже понять содержание книги, сохраняя при этом ее контекстуальную целостность.

🌟 Основные функции скрипта включают автоматический анализ и извлечение информации из PDF, генерацию резюме с использованием искусственного интеллекта, сохранение знаний в базе данных и форматирование итоговых резюме в Markdown. Кроме того, скрипт обеспечивает цветовую индикацию в терминале для улучшения восприятия и может возобновлять работу с места последней обработки, что делает его удобным инструментом для детального изучения и конспектирования PDF-книг.

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🧠 Helium 1 preview 2b

Kyutai labs выпустили Helium-1 Preview, 2B многоязычный LLM для edge девайсов и мобильных устройств.

Модель, обучена на 2,5 Т токенов и превосходит Qwen 2.5 1.5B🔥

> Превосходит/сопоставим с Owen 1.5B, Gemma 2B и Llama 3B
> обучен на 2.5T токенов с размером контекста 4096
> использует дистилляцию на уровне 7B модели
> разработчики планируют добавить больше языков, выпустить полную версию
> открытый код

🤗 HF: https://huggingface.co/kyutai/helium-1-preview-2b

@ai_machinelearning_big_data


#Helium #llm #ml

Читать полностью…

Big Data AI

🔥 Inferable — это платформа с открытым исходным кодом, предназначенная для создания и управления AI-агентами, интегрированными с LLM!

🌟 Платформа ориентирована на разработчиков, предоставляя удобный инструментарий для построения автоматизаций, которые могут выполнять сложные задачи с помощью вызова заранее определенных функций. Inferable поддерживает долговечное выполнение задач, автоматическое восстановление после сбоев, кэширование результатов и балансировку нагрузки, что делает её надежным решением для продакшн-сред.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🤖 AI Agent Tools

Awesome список фреймворков, платформ, инструментов, учебников и ресурсов для ИИ-агентов.

Я только что нашел качественный ресурс для изучения работы ИИ-агентов, охватывающий все, от фреймворков до внутреннего устройства агентов.

http://aiagenttoolkit.xyz

@bigdatai

Читать полностью…

Big Data AI

🔥 PromptWizard — это фреймворк для оптимизации запросов в задачах, использующих LLM!

🌟 Он автоматизирует процесс создания, анализа и улучшения запросов, используя итеративный подход, где модель сама генерирует и дорабатывает инструкции и обучающие примеры. Этот инструмент помогает адаптировать запросы к конкретным задачам, обеспечивая лучшее качество ответов и более глубокое понимание инструкций языковой моделью.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🔥 Эта статья описывает, как визуализировать и анализировать использование GPU-памяти в PyTorch!

🌟 В ней объясняется, как использовать инструмент для записи и анализа истории использования памяти, чтобы выявить проблемы с памятью при обучении моделей. Рассматриваются методы оценки требований к памяти, оптимизации ее использования и понимания различных этапов, таких как создание модели, передача данных, расчеты градиентов и шаги оптимизации.

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

⚡️ Введение в тензорные сети

📌 Видео
📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5
📌 Colab

Читать полностью…

Big Data AI

Уголок AI-энтузиастов от Сбера 🤖

Sber AI Lab — центр экспертизы Сбера в области искусственного интеллекта и активный участник глобального научного комьюнити.

✅ Команда создаёт полезные алгоритмы, фреймворки и технологии в разных сферах: от банкинга до медицины.

✅ Топ по количеству научных статей на A*/A конференции и Q1 журналы в Сбере

✅ Среди open-source решений лаборатории ИИ: LightAutoML (победитель Kaggle Grand Prix 2024), RePlay, pytorch-lifestream, eco2ai и другие инструменты. Узнать больше о решениях можно на GitHub.

Ты можешь стать частью нашей команды и сделать свой вклад в развитие AI-проектов в интересных тебе направлениях тут.

Читать полностью…

Big Data AI

📖 Эта статья рассматривает расширенную концепцию обучения в контексте, где модели языка могут адаптироваться и учиться на основе примеров, представленных в контексте!

🌟 Она предлагает более широкую перспективу, в которой рассматриваются не только задачи обучения с несколькими примерами, но и более сложные процессы мета-обучения, такие как адаптация к задачам, извлечение зависимостей и обобщение знаний.

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

🌟 DepthLab: инпейнт карт глубины на основе диффузионных моделей.

DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.

Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.

Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.

Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.

Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.

Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.

Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.

Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.


Для локального инференса потребуются модели:

🟢Marigold checkpoint;
🟢Энкодер CLIP-ViT-H-14-laion-2B;
🟢Набор чекпоинтов DepthLab.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab

# Create conda env
conda env create -f environment.yaml
conda activate DepthLab

# Run inference
cd scripts
bash infer.sh



🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DepthLab

Читать полностью…

Big Data AI

Сделали для вас подборку из полезных статей по AI/ML

Недавно наткнулись на блог YADRO на Хабре. Кто не знает, это крупный производитель IT-оборудования, и в их блоге мы нашли годные статьи по AI/ML.

Если интересуешься AI-задачами в бизнесе, то это для тебя:

Как мы исследовали энергоэффективность инференса нейросетей на планшете
Действительно ли большие языковые модели галлюцинируют? Эксперимент
Как мы построили модель прогнозирования выхода жестких дисков из строя

И подписывайся на блог — статьи по AI/ML тут выходят минимум раз в месяц.

Читать полностью…

Big Data AI

🔥 Onyx — платформa для интеграции AI-чатов с документами, приложениями и членами вашей команды!

🌟 Это позволяет создавать чат-ассистентов, которые могут взаимодействовать с данными, хранящимися в различных инструментах (Slack, Google Drive, Jira и т. д.). Он поддерживает локальную установку или облачное развертывание и позволяет безопасно управлять доступом и конфиденциальностью данных.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🤗 Hugging Face не так давно выпустила собственную low-code библиотеку для просто создания ИИ- агентов ⚡️

Smolagents - это библиотека на 100% с открытым исходным кодом, которая позволяет запускать мощные агенты, используя всего три строки кода.

↳ Импортируйте необходимые модули.
↳ Выберите агента
↳ Укажите LLM и инструменты, к которым он должен получить доступ.
↳ Запустите агент!

Готово!

- Поддерживает более 40 LLM
- Предоставляет один общий доступ к инструментам HF Hub.
- CodeAgent, который создает код и документирует свои действия.

Установка:


pip install smolagents


Пример работы:

from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel

agent = CodeAgent(tools=[DuckDuckGoSearchTool()], model=HfApiModel())

agent.run("How many seconds would it take for a leopard at full speed to run through Pont des Arts?")


GitHub
Подробнее

Читать полностью…

Big Data AI

🚀Только что выпущено новое семейство моделей генерации кода Salesforce (SFR-Embedding-Code), занявшее 1-е место на бенчмарке CoIR!

Модель доступна в в 2-х размерах: 2B, 400M.

Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования, Python, Java, C++, JavaScript, C# и другие!

Пример Запуска:


import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel

# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
"how to implement quick sort in Python?"
]

# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]

# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)

# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)

# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)

scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())



Документация
Модель 400M
Модель 2B


📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.


#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml

Читать полностью…

Big Data AI

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Haskell: t.me/haskell_tg

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Big Data AI

🔥 Potpie — это инструмент для анализа и автоматизации работы с кодовой базой, который использует ИИ-агентов!

🌟 Он создает граф знаний из компонентов вашего проекта, чтобы предоставлять подробный контекст и рекомендации. Potpie позволяет использовать готовых агентов для отладки, анализа структуры кода, выполнения изменений и других задач, а также предлагает платформу для создания собственных агентов.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🧬 Evaluating GenMol as a Generalist Foundation Model for Molecular Generation

Могут ли генеративные модели на основе дискретной диффузии превзойти модели предсказания на основе GPT в молекулярных задачах? Советую почитать о GenMol, новом швейцарском армейском ноже NVIDIA для создания лекарств!

🔗статья: https://arxiv.org/abs/2501.06158
🔗блог: https://developer.nvidia.com/blog/evaluating-genmol-as-a-generalist-foundation-model-for-molecular-generation/
🔗демо: https://build.nvidia.com/nvidia/genmol-generat

@bigdatai

Читать полностью…

Big Data AI

💥 Наглядная визуализация многомерных пространств.

@bigdatai

Читать полностью…

Big Data AI

Генерация 3D-сетки из одного изображения МЕНЕЕ ЧЕМ ЗА СЕКУНДУ 🤯

https://huggingface.co/stabilityai/stable-point-aware-3d

Читать полностью…

Big Data AI

👩‍💻 datasketch — Python-библиотека, содержащая реализации вероятностных структур данных, которые используются для оптимизации работы с большими объемами данных!

🌟 Среди основных возможностей — оценка схожести Jaccard с помощью MinHash и его взвешенной версии, а также оценка кардинальности множества с помощью HyperLogLog и HyperLogLog++. Эти структуры данных позволяют выполнять операции, такие как поиск схожих элементов или подсчет уникальных объектов, быстро и с минимальными затратами памяти.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

📖 Эта статья исследует уязвимость моделей типа Mixture-of-Experts (MoE)!

🌟 Исследователи показывают, как злоумышленники могут извлечь промпты пользователей путём манипуляции запросами в тех же пакетах, что и запросы жертвы. Это первый известный случай использования архитектурных уязвимостей для извлечения промптов, что открывает новый класс уязвимостей для LLM.

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

🔥 TEN-Agent — фреймворк для создания разговорных ИИ-агентов!

🌟 Он интегрирует такие инструменты, как Gemini 2.0 Multimodal Live API, OpenAI Realtime API, RTC и другие. TEN-Agent поддерживает функции реального времени, включая возможность "видеть", "слышать" и "говорить", а также предоставляет такие инструменты, как проверка погоды, веб-поиск и Retrieval-Augmented Generation (RAG). Этот проект позволяет создавать ИИ-агентов, способных выполнять различные действия в реальном времени и предоставляет удобное локальное окружение для работы через Docker.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

📹 Новый ИИ от NVIDIA: революция в 3D-моделировании!

📌 Источник

@bigdatai

Читать полностью…

Big Data AI

🔥 Топ-11 трендов ИИ следующего года!

💡 Среди озвученных тенденций в развитии искусственного интеллекта — мультимодальность, большее распространение открытого кода, создание высоко персонализированных сервисов, автономные системы и создание SLM под конкретные задачи.

🌟 В ближайшем будущем в тренде будет мультимодальный искусственный интеллект, который обрабатывает информацию разного типа. А Open Source модели будут способствовать коллаборации в сообществе, улучшая качество и доступность ИИ-технологий.

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

🔥 Julep — платформа для создания AI-агентов, которые могут выполнять сложные многошаговые задачи!

🌟 Она поддерживает долгосрочную память, принятие решений и интеграцию с внешними API. Julep позволяет создавать рабочие процессы, состоящие из нескольких шагов, с возможностью принятия решений на основе выводов моделей, параллельной обработки и использования инструментов в рамках задач. Платформа идеально подходит для разработки более сложных AI-приложений, которые требуют выполнения многозадачности и взаимодействия с внешними системами. Ключевые особенности включают сохранение состояния агентов, управление задачами и восстановление процессов.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🌟 MiniVLA: компактная Vision-Language-Action модель для робототехники.

AI-лаборатория Стенфордского университета представила модель MiniVLA — усовершенствованную версию Vision-Language-Action (VLA), компактную альтернативу OpenVLA.

Отличительная особенность MiniVLA - сокращенное в 7 раз количество параметров (1 млрд. против 7 миллиардов у OpenVLA), что дает значительное ускорение процессов обучения и инференса.

В архитектуре MiniVLA используется тот же ViT для обработки изображений, что и в OpenVLA, однако в качестве языковой модели используется Qwen 2.5 0.5B вместо Llama 2 7B.

Обучение языковой модели основано на датасете Llava-1.5-Instruct VQA, аналогично базовой модели Prismatic VLM в OpenVLA. Несмотря на уменьшение размера, MiniVLA демонстрирует сопоставимую с OpenVLA производительность в рамках бенчмарка Libero-90 (61.4% против 62%).

Одно главных усовершенствований MiniVLA - применение векторного квантования (VQ) для кластеризации действий (action chunking). Вместо дискретного представления действий, модель прогнозирует их последовательности, которые кодируются в виде M кодовых индексов с помощью VQ-BeT5. Это существенно повышает производительность на Libero-90.

Так, MiniVLA с VQ h8 (action chunks) достигает 77% успеха, в то время как базовая модель MiniVLA и OpenVLA демонстрируют 61.4% и 62% соответственно.

MiniVLA поддерживает подачу на вход нескольких изображений, что позволяет использовать "историю изображений" и серию снимков с носимых целевым роботом камер. Мульти-кадровая возможность способствует повышению производительности на Libero-90: модель MiniVLA с VQ h8 и историей изображений (history=2) достигает 82% успешности, а с кадрами с новимой камеры — 82.1%.

По сделанным замерам производительности, MiniVLA показывает в 2.5 раза более высокую скорость инференса, чем OpenVLA (12.5Hz против 5Hz) на одном GPU NVIDIA L40s.

▶️В репозитории на HF опубликованы несколько вариантов MiniVLA:

🟢Prism with Qwen 2.5 0.5B backbone
🟢MiniVLA 1B Wrist VQ
🟢MiniVLA VQ 1B
🟢MiniVLA Image History (T=2) VQ 1B
🟢MiniVLA 1B
🟢MiniVLA 1B VQ Trained on Bridge V2


📌Лицензирование: MIT License.


🟡Статья
🟡Набор моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLA #MiniVLA

Читать полностью…

Big Data AI

В Х набирает популярность пост задача, на которую у одного участника (о1 pro) якобы ушло 4 часа 😂.

Автор сам уточнил, что это неправда, несмотря на то, что многим поверился скриншот. На самом деле правильное решение другой участник (o1 pro) нашел всего за одну минуту.

@bigdatai

Читать полностью…
Subscribe to a channel