bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

✔️ OpenAI открывает свой первый немецкий офис в Мюнхене.

OpenAI планирует создать местную команду, которая будет заниматься продажами, развитием, коммуникациями, лоббированием и укрепить связи с немецкими университетами. По словам Сэма Альтмана, репутация Германии в области технического совершенства и промышленных инноваций сделала ее естественным выбором для расширения OpenAI. Германия - один из ключевых рынков OpenAI , а за последний год количество платных пользователей ChatGPT в Германии увеличилось в три раза.
heise.de

✔️ ОАЭ инвестируют до 50 миллиардов евро в кампус искусственного интеллекта во Франции.

Объединенные Арабские Эмираты и Франция подписали соглашение о строительстве масштабного ИИ-кампуса с ЦОД мощностью в 1 гигаватт. Проект потребует инвестиций в размере от 30 до 50 миллиардов евро и станет крупнейшим объектом такого рода в Европе.

Проект кампуса, подписанный президентом Франции и президентом ОАЭ будет разработан консорциумом французских и эмиратских компаний, с участием инвестиционного фонда MGX. Точное местоположение объекта еще не определено.
france24.com

✔️ ИИ от DeepMind превосходит золотых медалистов Международной математической олимпиады в решении задач по геометрии.

ИИ AlphaGeometry2, улучшенная версия системы AlphaGeometry, превзошла среднего золотого медалиста в решении задач по геометрии на международном математическом конкурсе. DeepMind утверждает, что их ИИ может решить 84% всех олимпиадных задач по геометрии за последние 25 лет.

AlphaGeometry2 состоит из языковой модели из семейства Gemini и "символьного движка". Модель Gemini помогает символьному движку, который использует математические правила для вывода решений задач, приходить к возможным доказательствам для целевой теоремы. AlphaGeometry2 считает проблему "решенной", когда приходит к доказательству, которое объединяет предположения Gemini с принципами символьного движка. DeepMind создала свои собственные синтетические данные для обучения AlphaGeometry2, сгенерировав более 300 миллионов теорем и доказательств различной сложности.
techcrunch.com

✔️ Microsoft Edge получил новую функцию блокировки scareware на базе ИИ для защиты от онлайн-мошенничества.

Новая функция Microsoft Edge на базе ИИ работает на компьютерах с Windows. Она способна выявлять и блокировать существующие мошеннические схемы и обнаруживать новые благодаря локальной модели машинного обучения.

Когда обнаруживается мошенничество, Microsoft Edge автоматически выходит из полноэкранного режима, который пытаются навязать вредоносные сайты, останавливает воспроизведение аудио и предупреждает пользователя миниатюрой просматриваемой страницы. После этого пользователь может сообщить о сайте, чтобы его добавили в службу Microsoft Defender SmartScreen.

Функция блокировки теперь доступна в предварительной версии в последней стабильной ветке браузера. Чтобы получить доступ к этой функции, необходимо вручную включить блокировку scareware в настройках конфиденциальности Edge и перезапустить браузер. Модель машинного обучения, используемая для блокировки, работает локально, не сохраняя и не отправляя данные в Microsoft.
theverge.com

✔️ Цукерберг и ко разрабатывают систему "чтения мыслей" для набора текста.

Компания разработала систему, способную анализировать мозговую активность человека во время набора текста и определять, какие клавиши он нажимает, основываясь только на мыслях. Система использует магнитно-энцефалографический сканер для сбора сигналов, производимых в коре головного мозга.

Несмотря на то, что система способна определять буквы с точностью до 80%, она далека от коммерческого применения из-за своего размера, стоимости в 2 миллиона долларов и необходимости работы в экранированной комнате. Разработчики рассматривают ее как фундаментальное исследование принципов интеллекта, которое может быть использовано для создания более мощных систем искусственного интеллекта, способных учиться и рассуждать, как люди.
technologyreview.com

✔️ НОВИНКА: Kokoro v1.0 с параметрами 82M, многоязычная модель TTS - работает в браузере!
🤗 Kokoro

#news #ai #ml

Читать полностью…

Big Data AI

Xwen 🔥 серия открытых моделей, основанных на моделях Qwen2.5, разработанных блестящей исследовательской группой аспирантов из Китая.

✨ 7B/72B
✨ Apache 2.0
✨ Xwen-72B-Chat превзошел DeepSeek V3 на Arena Hard Auto

https://huggingface.co/collections/shenzhi-wang/xwen-chat-679e30ab1f4b90cfa7dbc49e

@bigdatai

Читать полностью…

Big Data AI

🔥 Oumi — это открытая платформа для работы с фундаментальными моделями (LLM и мультимодальными), охватывающая полный цикл разработки: от подготовки данных и обучения до развертывания и оценки!

🌟 Она поддерживает современные техники, такие как LoRA, QLoRA, DPO и другие, позволяя обучать, тестировать и оптимизировать модели как локально, так и в облачных средах (AWS, GCP, Azure).

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

⭐️ Первый Open Source аналог Deep Research от OpenAI.

Реализация ИИ-ресерчера, который непрерывно ищет информацию по запросу пользователя, пока система не убедится, что собрала все необходимые данные.

Для этого он использует несколько сервисов:

- SERPAPI: Для выполнения поиска в Google.
- Jina: Для получения и извлечения содержимого веб-страниц.
- OpenRouter (модель по умолчанию: anthropic/claude-3.5-haiku): Взаимодействует с LLM для генерации поисковых запросов, оценки релевантности страниц и понимания контекста.

🟢 Функции
- Итеративный цикл исследования: Система итеративно уточняет свои поисковые запросы.
- Асинхронная обработка: Поиск, парсинг веб-страниц и оценка контекста - выполняются параллельно для повышения скорости.
- Фильтрация дубликатов: Агрегирует и дедуплицирует ссылки в каждом цикле, проверяя, что одна и та же информация не будет обработана дважды.

Github
Google Colab

@ai_machinelearning_big_data


#opensource #llm #ai #ml #DeepResearcher

Читать полностью…

Big Data AI

🚀 Друзья!
6 февраля в 16.00 часов компания Мегапьютер приглашает вас на вебинар «PolyAnalyst для разработки решений на основе коллаборативного мультиагентного ИИ».
Вебинар будет полезен всем, кто интересуется одной из самых молодых сфер ИИ. Мультиагентный ИИ – это технология оркестрированного применения нескольких моделей ИИ, берущих на себя разные подзадачи одной большой задачи, проверяющих и дополняющих работу друг друга. Эта технология позволяет решать практические задачи, которые не поддаются решению с помощью единичной модели ИИ. Бизнес-решения на основе мультиагентного ИИ часто включают в себя мультимодальные модели, что позволяет проводить преобразование и совместную обработку данных разных типов: голос, текст, картинка, видео. Таким образом подобные модели еще на шаг приближают уровень восприятия искусственного интеллекта к интеллекту естественному.

❗️Ключевые вопросы, которые будут рассмотрены:
🔸 Принципы работы коллаборативного мультиагентного ИИ в системе PolyAnalyst;
🔸 Примеры использования PolyAnalyst для создания и управления мультиагентными системами: автоматизированное создание машинных классификаторов и извлечение сложных фактов из текстово-графических данных;
🔸 Преимущества применения моделей ИИ совместно с PolyAnalyst;
🔸 Практические рекомендации по реализации проектов с ИИ на основе PolyAnalyst;
🔸 Ответы на вопросы

Ждем вас на вебинаре!
Мероприятие бесплатное! Регистрация обязательна!

Регистрация по ссылке
❗Будем рады вашему участию!

Читать полностью…

Big Data AI

🔥 awesome-cursorrules — коллекция файлов .cursorrules, которые позволяют настраивать поведение искусственного интеллекта в редакторе кода Cursor AI!

🌟 Эти файлы определяют специфические правила для различных проектов, помогая адаптировать AI к стилю и потребностям разработки. Ресурс включает множество примеров для разных технологий и фреймворков, таких как React, Python, Go, а также для мобильной разработки и тестирования.

🔐 Лицензия: CC0-1.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

MM-IQ: крупнейший бенчмарк для абстрактного визуального мышления

- 2710 образцов
- три формата ввода, шесть конфигураций задач и восемь моделей рассуждений
- таблица лидеров для оценки мультимодальных моделей

https://huggingface.co/datasets/huanqia/MM-IQ

@bigdatai

Читать полностью…

Big Data AI

Microsoft представляет: Chain-of-Retrieval Augmented Generation

- Наблюдается улучшение более чем на 10 баллов в оценке EM - Устанавливает новый уровень производительности SotA в широком спектре наукоемких задач

https://arxiv.org/abs/2501.14342

Читать полностью…

Big Data AI

🔥 ReaderLM-v2 — это языковая модель с 1.5 миллиарда параметров, специально разработанная для преобразования HTML в Markdown или JSON с высокой точностью!

🌟 Модель поддерживает до 29 языков и оптимизирована для работы с длинными контекстами (до 512 тыс. токенов, включая вход и выход). Она создана для задач, связанных с парсингом HTML, извлечением текстов и их преобразованием в структурированные форматы.

🔗 Ссылка: *клик*

@bigdatai

Читать полностью…

Big Data AI

🔥 Jan — это открытая альтернатива ChatGPT, работающая полностью оффлайн на вашем устройстве!

🌟 Его цель — предоставить пользователям простой способ установки и использования больших языковых моделей (LLM) с полным контролем и конфиденциальностью. Jan поддерживает универсальные архитектуры, включая NVIDIA GPU, Apple M-серию, Apple Intel, Linux Debian и Windows x64.

💡 Основой Jan является Cortex, встраиваемый локальный AI-движок, способный работать на любом оборудовании. Jan предлагает библиотеку моделей с популярными LLM, такими как Llama, Gemma, Mistral и Qwen, а также возможность подключения к удаленным AI API, таким как Groq и OpenRouter. Кроме того, Jan предоставляет локальный API-сервер с интерфейсом, совместимым с OpenAI, и поддерживает расширения для кастомизации функционала.

🔐 Лицензия: AGPL-3.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🔸 Gated DeltaNet: гибридная архитектура нейронных сетей с управлением памятью.

Gated DeltaNet - экспериментальная архитектура, разработанная NVIDIA для управления памятью в контексте линейных трансформеров, которая может решить проблемы с забыванием в моделях, обрабатывающих длинные последовательности данных.

Gated DeltaNet предлагает использовать одновременно дельта-правило и гейтинг. Дельта-правило обновляет память модели, заменяя устаревшую информацию на новую, а механизм гейтинга удаляет ненужную информацию из памяти, чтобы она не мешала модели работать эффективно.

Архитектура Gated DeltaNet была разработана на основе алгоритма, который параллелит вычисления дельта-правила с использованием представления WY и оптимизирует работу с GPU на уровне тензорных ядер.

Перфоманс-тестирование Gated DeltaNet проводилось на бенчмарках языкового моделирования, ризонинга, контекстного извлечения, экстраполяции длины и понимания объемного контекста.

Модель Gated DeltaNet превзошла Mamba2 и DeltaNet на всех этих тестах. Например - улучшенная точность на задачах S-NIAH-2 и S-NIAH-3, где Gated DeltaNet показала более эффективное управление памятью по сравнению с DeltaNet и Mamba2 и превосходство в задачах ризонинга.

Гибридные архитектуры, сочетающие слои Gated DeltaNet с вниманием скользящего окна или слоями Mamba2 повысили эффективность обучения и производительность моделей.

Тестовые GatedDeltaNet-H1 и GatedDeltaNet-H2 дали еще более высокие результаты, используя комбинации Gated DeltaNet + SWA и Mamba2 + Gated DeltaNet + SWA соответственно.

Gated DeltaNet показала самые низкие показатели перплексии при экстраполяции на длинные последовательности до 20 тыс. токенов и продемонстрировала превосходные способности в извлечении информации, обучении в контексте и отслеживании состояния в задачах LongBench.

🔸Практическая реализация обучения Gated DeltaNet на Pytorch доступна в репозитории на Github

📌Лицензирование:

🟢Некоммерческое использование: Nvidia Source Code License-NC

🟠Коммерческое использование: по запросу через форму NVIDIA Research Licensing

🟡Arxiv

🟡GitHub

@ai_machinelearning_big_data


#AI #ML #LLM #NVIDIA #GatedDeltaNet

Читать полностью…

Big Data AI

🔎 Depth Anything — это передовая технология оценки глубины, использующая монокуляр (одну камера).

Однако у этой технологии есть проблема с временной несогласованности в видео, что значительно ограничивает её практическое применение.

😩Существующие методы могут улучшить согласованность видео, но они применимы к коротким видео (менее 10 секунд) и требуют компромисса между качеством и эффективностью съёмки.

🤗 Video Depth Anything — модель, которая обеспечивает высококачественную и последовательную оценку глубины видео без ущерба для их эффективности.

Она построена на основе Depth Anything V2 и обладает мощным пространственно-временным управлением.

🍪 Разработанная на основе совместного набора данных о глубине видео и дешевых немаркированных изображений, эта модель представляет эффективную стратегию оценки длинного видео на основе ключевых кадров. Ограничения на градиенты глубины устраняют необходимость в дополнительных предварительных данных.

🖥 Эксперименты показали, что Video Depth Anything обрабатывает видео любой длины без потери качества, последовательности, что устанавливает новый уровень в оценке глубины видео с нулевой съемкой.

Доступны модели различных масштабов, при этом самая маленькая из них обеспечивает производительность в реальном времени со скоростью 30 кадров в секунду 🔥👍

Начало работы:

git clone https://github.com/DepthAnything/Video-Depth-Anything
cd Video-Depth-Anything
pip install -r requirements.txt


Лицензирование: Apache 2.0

GitHub
Paper
Model Small
Model Large
Demo

@ai_machinelearning_big_data


#DepthAnything #opensource #ml #depthestimation #videodepth

Читать полностью…

Big Data AI

🤗 Hugging Face не так давно выпустила собственную low-code библиотеку для просто создания ИИ- агентов ⚡️

Smolagents - это библиотека на 100% с открытым исходным кодом, которая позволяет запускать мощные агенты, используя всего три строки кода.

↳ Импортируйте необходимые модули.
↳ Выберите агента
↳ Укажите LLM и инструменты, к которым он должен получить доступ.
↳ Запустите агент!

Готово!

- Поддерживает более 40 LLM
- Предоставляет один общий доступ к инструментам HF Hub.
- CodeAgent, который создает код и документирует свои действия.

Установка:


pip install smolagents


Пример работы:

from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel

agent = CodeAgent(tools=[DuckDuckGoSearchTool()], model=HfApiModel())

agent.run("How many seconds would it take for a leopard at full speed to run through Pont des Arts?")


GitHub
Подробнее

Читать полностью…

Big Data AI

🚀Только что выпущено новое семейство моделей генерации кода Salesforce (SFR-Embedding-Code), занявшее 1-е место на бенчмарке CoIR!

Модель доступна в в 2-х размерах: 2B, 400M.

Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования, Python, Java, C++, JavaScript, C# и другие!

Пример Запуска:


import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel

# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
"how to implement quick sort in Python?"
]

# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]

# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)

# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)

# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)

scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())



Документация
Модель 400M
Модель 2B


📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.


#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml

Читать полностью…

Big Data AI

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: /channel/gamedev
Haskell: t.me/haskell_tg

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: /channel/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Big Data AI

🛠 SmolLM2-135M-Instruct, крошечный LLM, который квантуется до размера чуть меньше 100 МБ... что означает, что он может поместиться в PyPI-пакет!

Вот первый плагин LLM, который включает в себя полную модель в составе пакета:

llm install llm-smollm2

https://simonwillison.net/2025/Feb/7/pip-install-llm-smollm2/

@bigdatai

Читать полностью…

Big Data AI

⭐️ Новый релиз от Deepseek: DeepSeek-VL2-small (16B MoE) для vision-language задач.

Демо новой модели стало доступно на huggingface 🚀

Отличная модель для OCR задач, извлечения текста и использования в чате.

🤗 HF: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

#deepseek #OCR #demo #prerelease

Читать полностью…

Big Data AI

Как Docker упрощает жизнь аналитиков и инженеров данных

Когда вы работаете с данными, например, анализируете их или строите модели машинного обучения, Docker позволяет сосредоточиться на самой работе, не отвлекаясь на настройку окружения. Это как иметь готовую мастерскую со всеми нужными инструментами, где вы можете сразу приступить к работе.

На бесплатом вебинаре вы научитесь упаковывать приложения вместе со всеми зависимостями, избегать проблем с несовместимостью ➡️ повысите эффективность работы и сэкономите время на настройку окружения.

Что будем делать на вебинаре:
🟠Разберём основы Docker и как контейнеры упрощают работу;
🟠Выполним анализ данных, запустив Python прямо внутри контейнера;
🟠 Автоматизируем окружение с помощью Docker Compose (Python + PostgreSQL);
🟠 Настроим удобный доступ к результатам анализа;
🟠Организуем ускоренную обработку больших данных.

🕗Встречаемся 5 февраля 19:00 по мск

Зарегистрироваться на бесплатный вебинар

Читать полностью…

Big Data AI

📝 Rowfill — это платформа с открытым исходным кодом для извлечения и обработки данных из документов, PDF-файлов и изображений!

🌟 Она использует OCR, машинное обучение и искусственный интеллект для точного распознавания текста, таблиц и рукописного ввода. Rowfill позволяет автоматизировать рабочие процессы, создавая пользовательские сценарии обработки данных.

🔐 Лицензия: AGPL-3.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🔥 ppt2desc — это утилита командной строки, которая преобразует презентации PowerPoint (.pptx) в детализированные текстовые описания с использованием VLM!

🌟 Она не только извлекает текст со слайдов, но и анализирует визуальные элементы (графики, изображения, диаграммы), создавая их семантически точные описания. Это особенно полезно для создания альтернативных текстов, анализа контента и автоматизации обработки презентаций.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🔥 WILDCHAT-50M: крупнейший открытый набор данных c чатов

- 125 млн+ стенограмм чатов
- 1 млн+ разговоров
- Создано на основе WildChat
- Используется для создания RE-WILD SFT

Один из лучших открытых бенчмарков данной категории.

https://huggingface.co/collections/nyu-dice-lab/wildchat-50m-679a5df2c5967db8ab341ab7

@bigdatai

Читать полностью…

Big Data AI

🤗 Inference Providers on the Hub!

С сегодняшнего дня вы можете получить доступ к тысячам моделей, таким как DeepSeek R1, Llama, Flux, Whisper и прямо из Hugging Face!

https://huggingface.co/blog/inference-providers

#huggingface #ml #providers

Читать полностью…

Big Data AI

🐋 DeepSeek только что выпустила еще одну модель ИИ с открытым исходным кодом, Janus-Pro-7B.

Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.

https://huggingface.co/deepseek-ai/Janus-Pro-7B

@ai_machinelearning_big_data


#ai #deepseek #opensource #Janus

Читать полностью…

Big Data AI

💥Релиз Qwen2.5-1M!

Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН 🔥

⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.

Доступен подробный технический отчет о серии Qwen2.5-1M! 📊

📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40

@bigdatai

Читать полностью…

Big Data AI

Вот все, что произошло в AI Agents на этой неделе 🧵

@bigdatai

Читать полностью…

Big Data AI

🔥 Обобщение и переобучение в машинном обучении.

- Видео
- Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 /
- Урок6/ Урок7/ Урок 8
- Colab
-Полный курс

#ml #math #mlmath #probability #машинноеобучение

@bigdatai

Читать полностью…

Big Data AI

🖥 SiYuan — это программное обеспечение с открытым исходным кодом для управления личными знаниями, ориентированное на конфиденциальность!

🌟 Оно позволяет пользователям организовывать свои заметки, данные и информацию с высокой степенью гибкости и точности. SiYuan поддерживает работу с Markdown в режиме WYSIWYG, двусторонние ссылки, блочные структуры и встроенные SQL-запросы. Приложение доступно для разных платформ, включая Windows, macOS, Linux, Android и iOS, а также поддерживает развертывание через Docker.

🔐 Лицензия: Apache-2.0

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

🧠 XMIDI Dataset - это крупномасштабный набор данных о музыке с метками эмоций и жанров.

Самый большой из известных мне наборов данных музыки с точными метками эмоций и жанров, содержащий 108 023 MIDI-файла.

📌 Github

Читать полностью…

Big Data AI

🔥 Open Deep Research — это инструмент с открытым исходным кодом, разработанный для автоматизации исследовательского процесса и создания отчётов с использованием искусственного интеллекта!

🌟 Он выполняет три этапа: получение результатов веб-поиска через Bing Search API, извлечение и обработку релевантного контента из найденных источников с помощью JinaAI и генерацию итогового отчёта с использованием AI-моделей, таких как GPT-4, Gemini или Sonnet. Это позволяет пользователям быстро получать синтезированные данные и создавать информативные отчёты по заданным запросам.

🔐 Лицензия: MIT

🖥 Github

@bigdatai

Читать полностью…

Big Data AI

📝 AI reads books: Page-by-Page PDF Knowledge Extractor & Summarizer — скрипт, предназначенный для интеллектуального постраничного анализа PDF-книг!

🌟 Скрипт извлекает ключевые знания с каждой страницы и генерирует прогрессивные резюме через определенные интервалы, что позволяет глубже понять содержание книги, сохраняя при этом ее контекстуальную целостность.

🌟 Основные функции скрипта включают автоматический анализ и извлечение информации из PDF, генерацию резюме с использованием искусственного интеллекта, сохранение знаний в базе данных и форматирование итоговых резюме в Markdown. Кроме того, скрипт обеспечивает цветовую индикацию в терминале для улучшения восприятия и может возобновлять работу с места последней обработки, что делает его удобным инструментом для детального изучения и конспектирования PDF-книг.

🖥 Github

@bigdatai

Читать полностью…
Subscribe to a channel