bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

15160

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

😱😱😱Inside the 78 minutes that took down millions of Windows machines

На прошлой неделе ошибка в обновлении CrowdStrike Falcon вызвала массовые сбои Windows по всему миру. Ошибка в драйвере привела к «синему экрану смерти» на миллионах ПК. CrowdStrike быстро выпустила исправление через 78 минут, но ущерб уже был нанесен.

🚨Проблема показала необходимость улучшения тестирования обновлений и возможности отключения проблемных драйверов в Windows. Microsoft, возможно, потребуется ужесточить доступ к ядру Windows для сторонних приложений, несмотря на возможное сопротивление со стороны поставщиков безопасности и регуляторов.

#crowdstrike #аналитика #bigdata #microsoft

📎 Статья

@bigdatai

Читать полностью…

Big Data AI

🌟 ZebraLogic: Комплексная оценка логического мышления крупных языковых моделей.

ZebraLogic - бенчмарк, основанный на логических головоломках и представляет собой набор из 1000 программно сгенерированных заданий различной сложности - с сеткой от 2x2 до 6x6.

Каждая головоломка состоит из N домов (пронумерованных слева направо) и M характеристик для каждого дома. Задача заключается в том, чтобы на основе предоставленных подсказок определить уникальное распределение значений характеристик по домам.
Языковым моделям предоставляется один пример решения головоломки с подробным объяснением хода рассуждений и ответом в формате JSON. Затем модели должны решить новую задачу, предоставив как ход рассуждений, так и окончательное решение в заданном формате.

Метрики оценки:
1. Точность на уровне головоломки (процент полностью правильно решенных головоломок).
2. Точность на уровне ячеек (доля правильно заполненных ячеек в матрице решения).

Головоломки разделены на два уровня по сложности:
1. Легкие (сетка менее 3x3)
2. Сложные (сетка размером 3x3) и более.

✔️ Результаты оценки популярных моделей, представленные в публичном лидерборде:

🟢лучшие результаты показала Claude 3.5 Sonnet, решившая 33,4% всех головоломок и 12,4% сложных задач
🟢лучший результат среди открытых моделей у DeepSeek-v2-Chat (0628)
🟢модели с 7-10B параметров продемонстрировали крайне низкую эффективность на сложных головоломках (менее 1% решенных задач)
🟢Gemini-1.5-Pro оказалась сопоставима с более легкой Gemini-1.5-Flash
🟢Greedy decoding в большинстве случаев дает лучшие результаты, чем сэмплирование.

✔️ Для сравнения, средняя время выполнение теста человеком:

2x2 ~ 15 секунд
3х3 ~ 1 минута 30 секунд
4х4 ~ от 10 до 15 минут


▶️ Локальный запуск ZebraLogic в рамках фреймфорка ZeroEval

# Install via conda

conda create -n zeroeval python=3.10
conda activate zeroeval

# pip install vllm -U # pip install -e vllm

pip install vllm==0.5.1
pip install -r requirements.txt
# export HF_HOME=/path/to/your/custom/cache_dir/

# Run Meta-Llama-3-8B-Instruct via local, with greedy decoding on `zebra-grid`
bash zero_eval_local.sh -d zebra-grid -m meta-llama/Meta-Llama-3-8B-Instruct -p Meta-Llama-3-8B-Instruct -s 4


📌Лицензирование: Apache-2.0 license


🟡Страница проекта
🟡Датасет на HF
🟡Leaderboard
🖥Github [ Stars: 38 | Issues: 1 | Forks: 1]


@ai_machinelearning_big_data

#AI #Benchmark #LLM #Evaluation #ML

Читать полностью…

Big Data AI

"PetFace: крупный набор данных и бенчмарк для идентификации животных" будет представлен на #ECCV2024!! 🐶🐱🐦🐷🐰


Веб-сайт: https://dahlian00.github.io/PetFacePage/
Статья: https://arxiv.org/abs/2407.13555

@bigdatai

Читать полностью…

Big Data AI

NVIDIA’s Crazy New AI Paints With Images!

https://www.youtube.com/watch?v=_97pRR7gcfs

@bigdatai

Читать полностью…

Big Data AI

💻 HugeGraph — open-source графовая БД, реализованная на фреймворке Apache TinkerPop3 и полностью совместимая с языком запросов Gremlin

HugeGraph поддерживает импорт более 10 миллиардов вершин и ребер и может очень быстро обрабатывать запросы (на уровне мс).

Типичные сценарии применения HugeGraph — это исследование связей между объектами, анализ ассоциаций, поиск путей, извлечение признаков, кластеризация данных, обнаружение сообществ, построение графа.

Быстрый старт с Docker:

docker run -itd --name=graph -p 8080:8080 hugegraph/hugegraph
# docker exec -it graph bash


🖥 GitHub
🟡 Доки

@bigdatai

Читать полностью…

Big Data AI

⚡️ Обход капчи с GPT4o

Мощный инструмент для обхода различных капч (головоломок, текста, рекапчи) с использованием Python, Selenium и Open air GPT-4o.


📌 Github

#Python #Selenium #OpenAI #GPT4


@bigdatai

Читать полностью…

Big Data AI

Прикольная, но глубоко платная штука: https://app.on-demand.io/

Кратко, что заявлено:
Обзор платформы On-Demand
• Обзор платформы On-Demand, которая предлагает хранилище, плагины, маркетплейс, игровую площадку, языковые модели и функции для создания собственных приложений.
• Ограничение в 50 гигабайт для учетной записи разработчика.
• Возможность просмотра используемых файлов, плагинов и языковых моделей.
• Кредитные гранты для стартапов.

Плагины и маркетплейс
• Более 50 плагинов на маркетплейсе, доступных для использования.
• Возможность сортировки и фильтрации плагинов по категориям.
• Возможность оценки и просмотра плагинов.
• Создание собственных плагинов с помощью схемы Open API или визуального builder.

Playground и создание приложений
• Playground - ядро платформы, где можно тестировать плагины, языковые модели и создавать свои приложения.
• Возможность использования плагинов, языковых моделей и встроенных функций.
• Экспорт кода для использования в собственных приложениях.

Бессерверные приложения и агенты
• Возможность развертывания языковых моделей на платформе для использования в собственных приложениях.
• Создание собственных агентов для автоматизации процессов.
• Примеры использования: финансовый агент, агент по подбору персонала.

Уникальные функции платформы
• Платформа предлагает децентрализованную операционную систему с большой языковой моделью, что делает ее уникальной.
• Платформа адаптирована для агентских рабочих нагрузок и оснащена для быстрого развертывания.
Возможности платформы
• Возможности платформы безграничны, и она может быть использована для различных задач.

Безграничны!))
Цены: от самой дорогой (Gpt-4о) до BYOM (если есть своя модель) и есть бесплатный Tier (см.скрин по возможностям)
Вход по Google

@bigdatai

Читать полностью…

Big Data AI

⚡️ Как LeetCode, только по ML

В открытом доступе появился сборник задач по ML, затрагивающий темы линейной алгебры и deep learning.

Разработчики проекта поделили задачи по уровням сложности, а ещё там можно узнать правильный ответ и почитать подробнейший разбор каждой задачи.

🟡 Задачи по ML

@bigdatai

Читать полностью…

Big Data AI

💻 WrenAI — open-source инструмент, который делает имеющуюся БД готовой к работе с RAG

curl -L https://github.com/Canner/WrenAI/releases/latest/download/wren-launcher-darwin.tar.gz | tar -xz && ./wren-launcher-darwin

WrenAI позволяет преобразовывать текст в SQL, изучать данные из БД без написания SQL, и делать многое другое

🖥 GitHub
🟡 Доки

@bigdatai

Читать полностью…

Big Data AI

🌟 MInference 1.0 — метод ускорения обработки промпта для LLM с большим контекстом

git clone https://huggingface.co/spaces/microsoft/MInference
cd MInference
pip install -r requirments.txt
pip install flash_attn pycuda==2023.1
python app.py


Вычислительные проблемы, связанные с выводом данных с помощью LLM, остаются большим препятствием для их широкого применения; вычислительная сложность растёт с увеличением длины подсказок.
Из-за квадратичной сложности вычислений для обработки промпта из 1 млн лексем на одном GPU A100 для 8B LLM требуется 30 минут.

Поэтому Microsoft выкатили MInference, которая позволяет ускорить обработку большого промпта до 10 раз, причём с сохранением точности LLM

🖥 GitHub
🤗 Демо на HF
🟡 Arxiv

@bigdatai

Читать полностью…

Big Data AI

💻Вышла СУБД MySQL 9.0.0

На днях Oracle выпустила СУБД MySQL 9.0.0. Разработчики проекта подготовили и выложили в открытый доступ сборки MySQL Community Server 9.0.0 для основных дистрибутивов Linux, FreeBSD, macOS и Windows.

В 2023 году Oracle объявила об изменении модели формирования релизов СУБД MySQL. Разработчики начали выпускать два вида веток MySQL: Innovation (новые функции, частое обновление, три месяца поддержки) и LTS (с расширенным временем поддержки и сохранением неизменного поведения).

Проект MySQL 9.0 отнесён к ветке Innovation, к которым также будут отнесены следующие значительные релизы MySQL 9.1 и 9.2.

Дистрибутивы на базе Innovation-веток рекомендованы для тех пользователей, кто хочет раньше получать доступ к новой функциональности. Они публикуются каждые 3 месяца и поддерживаются только до публикации следующего значительного релиза (например, после появления ветки 9.1 будет прекращена поддержка ветки 9.0).

@bigdatai

Читать полностью…

Big Data AI

Куда пойти, чтобы подготовиться к вступительным испытаниям в магистратуру?

Факультет компьютерных наук и Нетология организуют совместный марафон по подготовке к вступительным экзаменам в онлайн-магистратуру по инженерии данных.

Марафон включает:
⏺️3 вебинара по основам математики, алгоритмов и программировании на Python
⏺️консультацию по поступлению в онлайн-магистратуру «Инженерия данных»
⏺️экспертную поддержку

💻 Формат: онлайн
📆 Когда: 2-10 июля

🐭Для участия необходимо зарегистрироваться по ссылке.

Реклама ЗАО ГК Аккорд
2SDnjcJts1L

Читать полностью…

Big Data AI

⚡️ Scaling Synthetic Data Creation with 1,000,000,000 Persons

- Представлена коллекция из 1 миллиарда различных персонажей, автоматически отобранных на основе веб-данных
- Значительный прирост на MATH: 49,6 ->64,9

репозиторий: https://github.com/tencent-ailab/persona-hub
abs: https://arxiv.org/abs/2406.20094

@bigdatai

Читать полностью…

Big Data AI

⚡️ Microsoft запустила новый курс по генеративному ИИ!

Бесплатный курс из 18 уроков доступен на Github и научит вас всему, что вам нужно знать, чтобы начать создавать приложения с генеративным ИИ

Github

@bigdatai

Читать полностью…

Big Data AI

🔧 Проявите свои навыки ML-инженера на EKF AI Challenge. Решите задачу по автоматизации формирования коммерческого проекта и разделите призовой фонд в 500 000 рублей! Старт – 5 июля.

Не упустите шанс проявить себя – регистрация открыта до 3 июля

Приглашаем экспертов в области Data Science, ML-специалистов и разработчиков на онлайн-соревнование. EKF AI Challenge – первый инженерный хакатон на Codenrock, где мощь ИИ помогает в разработке решений для электротехнической отрасли.

Задача участников – разработать сервис, который сможет автоматически создавать смету на основе электрических схем. Проект должен уметь распознавать на чертежах проводники, переключатели, защитные устройства, датчики и другие элементы из предоставленной номенклатурной базы и собирать их в смету проекта. Организаторы предоставляют размеченный датасет.

➡️ Не пропустите уникальный хакатон на стыке инженерных технологий и машинного обучения EKF AI Challengeрегистрируйтесь сейчас

Читать полностью…

Big Data AI

✨Яндекс разработал алгоритм, позволяющий сжимать языковые модели в 8 раз без потери качества

Команда Yandex Research совместно с исследователями IST Austria разработала новые методы сжатия больших языковых моделей и выложила их в опенсорс. При уменьшении моделей этим способом в 8 раз исследователям удалось сохранить качество ответов в среднем на 95%.

Решение позволит компаниям и независимым разработчикам значительно сэкономить потребляемые ресурсы и ускорить работу нейросетей. Например, запускать модели на устройствах с небольшой вычислительной мощностью.

Статья о новом подходе вошла в программу международной конференции по машинному обучению ICML: https://habr.com/ru/companies/yandex/articles/830410

@bigdatai

Читать полностью…

Big Data AI

✨Наборы данных NuminaMath: крупнейшая коллекция из ~ 1 млн пар задач и решений для математических соревнований, варьирующихся по сложности от юношеских олимпиад до университетских экзаменов.

➡️ Цепочка рассуждений (CoT): 860 тысяч пар задач и решений, созданных с помощью CoT.

🛠️ Инструментально-интегрированные рассуждения (TIR): 73 тысячи синтетических решений, полученных на основе GPT-4, с обратной связью по выполнению кода для разбивки сложных задач на более простые подзадачи, которые могут быть решены с помощью Python.

Модели, обученные на NuminaMath, демонстрируют лучшие в своем классе показатели среди моделей с открытым весом и приближаются или превосходят собственные модели по показателям математических соревнований 🔥

🤗 Hub: https://huggingface.co/collections/AI-MO/numinamath-6697df380293bcfdbc1d978c

@bigdatai

Читать полностью…

Big Data AI

🌟 Athene-Llama3-70B: улучшенная чат-модель Llama-3-70B-Instruct от Nexusflow.

Athene-Llama3-70B - это чат-ориентированная модель, дообученная с помощью RLHF на основе Llama-3-70B-Instruct.
Значительное повышение производительности - это результат строгих оценочных показателей в процессе обучения, качественный собственный датасет и уникальный посттренинговый конвейер Nexusflow.

Улучшения по сравнению с исходной Llama-3-70B-Instruct:
🟢Более точное следование инструкциям, модель лучше реагирует на сложные промпты, выдавая четкие и лаконичные ответы;
🟢Повышена способность в математике и рассуждениях, способность решать вопросы, требующие большого количества аргументов;
🟢Улучшен навык помощи написания кода в виде расширенных предложений по коду для более легкого создания и внедрения;
🟢Доработана креативность в написании текстов, писем, эссэ;
🟢Улучшена поддержка мультиязычности и повышено качество семантического перевода с одного языка на другой.

Athene-70B показала результат 77,8% в Arena-Hard-Auto, что ставит ее в один ряд с GPT-4o (79,2%) laude-3.5-Sonnet (79,3%).
Для сравнения, базовая Llama-3-70B-Instruct в Arena-Hard-Auto демонстрировала результат в 46,6%.

▶️Внимание, размер модели составляет ~ 140 Gb

Athene-70B использует тот же шаблон системного промпта, что и Llama-3-70B-Instruct.

📌Лицензирование: CC-BY-NC-4.0


🟡Страница проекта
🟡Модель на HF
🟡Сообщество и поддержка
🖥Github Nexusflow [ Stars: 349 | Issues: 9 | Forks: 30 ]

@ai_machinelearning_big_data

#AI #Nexusflow #LLM #ML #Athene70B

Читать полностью…

Big Data AI

🗃 Библиотеки для работы с временными рядами

🔴Прогнозирование
• [17,9k stars] https://github.com/facebook/prophet
• [9,6k stars] https://github.com/statsmodels/statsmodels
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [7,4k stars] https://github.com/unit8co/darts
• [4,8k stars] https://github.com/facebookresearch/Kats
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [3,7k stars] https://github.com/jdb78/pytorch-forecasting
• [3,3k stars] https://github.com/salesforce/Merlion
• [1,8k stars] https://github.com/linkedin/greykite
• [840 stars] https://github.com/etna-team/etna
• [610 stars] https://github.com/aimclub/FEDOT

🟢Классификация
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [2,8k stars] https://github.com/tslearn-team/tslearn/
• [1,7k stars] https://github.com/johannfaouzi/pyts
• [1,5k stars] https://github.com/hfawaz/dl-4-tsc
• [840 stars] https://github.com/tinkoff-ai/etna

🟣Кластеризация
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [2,8k stars] https://github.com/tslearn-team/tslearn/

🟡Агрегация (выделение признаков)
• [8,2k stars] https://github.com/blue-yonder/tsfresh
• [4,8k stars] https://github.com/facebookresearch/Kats
• [800 stars] https://github.com/fraunhoferportugal/tsfel
• [370 stars] https://github.com/predict-idlab/tsflex

🔵Поиск аномалий (changepoint detection)
• [1,5k stars] https://github.com/deepcharles/ruptures
• [17,9k stars] https://github.com/facebook/prophet
• [4,8k stars] https://github.com/facebookresearch/Kats
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [3,3k stars] https://github.com/salesforce/Merlion
• [2,1k stars] https://github.com/SeldonIO/alibi-detect
• [1,8k stars] https://github.com/linkedin/greykite
• [1,2k stars] https://github.com/linkedin/luminol
• [1k stars] https://github.com/arundo/adtk

🔴Поиск аномалий (outlier detection)
• [8k stars] https://github.com/yzhao062/pyod
• [1,3 stars] https://github.com/datamllab/tods
• [840 stars] https://github.com/tinkoff-ai/etna
• [750 stars] https://github.com/zillow/luminaire/
• [220 stars] https://github.com/selimfirat/pysad

🟢Аугментация и генерация
• [4,8k stars] https://github.com/timeseriesAI/tsai
• [630 stars] https://github.com/ratschlab/RGAN
• [330 stars] https://github.com/arundo/tsaug
• [330 stars] https://github.com/TimeSynth/TimeSynth
• [320 stars] https://github.com/uchidalab/time_series_augmentation

@bigdatai

Читать полностью…

Big Data AI

Искусственный интеллект (AI) и Big Data продолжают развиваться с невероятной скоростью. Сегодня AI не только анализирует огромные объемы данных, но и помогает бизнесу принимать стратегические решения, прогнозировать события и персонализировать медицинские услуги. Эксперты прогнозируют, что к концу года рынок Big Data и AI превысит $150 млрд. А средняя зарплата мидл ML-инженера: больше 2 тыс. долларов в месяц.

Где это применяется? Везде: от финансового сектора до здравоохранения. В банках AI и Big Data предотвращают мошенничество, в ритейле — улучшают клиентский сервис, а в медицине — ставят точные диагнозы и разрабатывают новые лекарства.

Хотите быть в центре этой технологической революции? НИЯУ МИФИ и Skillfactory предлагают онлайн-магистратуру "Прикладной анализ данных и машинное обучение". Вы освоите передовые алгоритмы и методы работы с большими данными, научитесь внедрять модели в продакшен и станете востребованным специалистом в индустрии.

Основные моменты программы:
- Обучение от нуля до продвинутого уровня: для начинающих и продолжающих.
- Два карьерных трека: включая направление MLOps.
- Обучение в онлайн формате: диплом МИФИ и студенческие льготы.
- Интенсивная практика: работа на тренажерах, кейсах и хакатонах.
- Преподаватели-практики: ведущие специалисты в области ML и DS.
- Доступная стоимость: от 270 р/мес первый год благодаря господдержке.

Не упустите шанс стать частью будущего! Переходите по ссылке, оставляйте заявку и начните свой путь в мир AI и Big Data: https://go.skillfactory.ru/LNlqfQ

Реклама. ООО «Скилфэктори»
erid: LjN8KBMrT

Читать полностью…

Big Data AI

Что делать, если у Вас неопытная команда, а надо делать сложную задачу? 

Расскажем, как математика может помочь выстроить архитектуру приложения, которая позволит разрешить ситуацию в вашу пользу.

🔹 Приглашаем вас на открытый урок «Как 7 студентов и филолог делали технически сложный проект»

Урок посвящен курсу «Математика для программистов» от Otus — лучшие практики, после изучения которых вы сможете быстрее изучать новые языки программирования и фреймворки.

👉 Регистрация и подробности
https://otus.pw/iaMH/?erid=LjN8KbEGA

Читать полностью…

Big Data AI

🌟 DG-Mesh: Построение высококачественных полигональных сеток из монокулярного видео.

DG-Mesh реконструирует высококачественную динамическую 3D-сетку с согласованными вершинами из монокулярного видео. В пайплайне используются 3D-гауссовы всплески для представления динамических сцен и дифференцируемые алгоритмы для построения полигонов.

DG-Mesh позволяет отслеживать движение вершин, упрощая текстурирование динамических объектов.
Метод эффективно использует память и полностью дифференцируем, что позволяет выполнять оптимизацию 3D-сетки целевого объекта напрямую.

В репозитории на Github представлен код для локальной тренировки с использованием датасетов:

- D-NeRF
- DG-Mesh
- NeuralActor
- Кастомный датасет, снятый на Iphone 14 Pro и обработанный в Record3D, RealityCheck и маскированный в DEVA.

🖥 Локальный запуск:

conda create -n dg-mesh python=3.9
conda activate dg-mesh
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

# Install nvdiffrast
pip install git+https://github.com/NVlabs/tiny-cuda-nn#subdirectory=bindings/torch
pip install git+https://github.com/NVlabs/nvdiffrast/

# Install pytorch3d
export FORCE_CUDA=1
conda install -c fvcore -c iopath -c conda-forge fvcore iopath -y
pip install "git+https://github.com/facebookresearch/pytorch3d.git"

# Clone this repository
git clone https://github.com/Isabella98Liu/DG-Mesh.git
cd DG-Mesh

# Install submodules
pip install dgmesh/submodules/diff-gaussian-rasterization
pip install dgmesh/submodules/simple-knn

# Install other dependencies
pip install -r requirements.txt


🟡 Страница проекта
🖥 GitHub [ Stars: 234 | Issues: 6 | Forks: 2 ]
🟡 Arxiv

@ai_machinelearning_big_data

#Video2Mesh #3D #ML #NeRF

Читать полностью…

Big Data AI

🔥 NVIDIA’s Tech Looked at 250,000 Photos!

https://www.youtube.com/watch?v=HdT8G5S3IAc

@bigdatai

Читать полностью…

Big Data AI

⚡️Лучший способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

C++ t.me/cpluspluc
Devops: t.me/devOPSitsec
Машинное обучение: t.me/ai_machinelearning_big_data
АНАЛИЗ Данных: t.me/data_analysis_ml
Хакинг: t.me/linuxkalii
Linux: t.me/linuxacademiya
Базы данных: t.me/sqlhub
C#: t.me/csharp_ci
Golang: t.me/Golang_google
Java: t.me/javatg
React: t.me/react_tg
Javascript: t.me/javascriptv
Мобильная разработка: t.me/mobdevelop
Docker: t.me/+0WdB4uvOwCY0Mjdi
Python: t.me/pythonl
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
Python подготовка с собесу: t.me/python_job_interview
МАТЕМАТИКА: t.me/data_math

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: /channel/addlist/2Ls-snqEeytkMDgy
C++ папка: /channel/addlist/CdBs5DLepLJmZjY6
C# папка: /channel/addlist/u15AMycxRMowZmRi
Java папка: /channel/addlist/ZM3J6oFNAnRlNWU6
FRONTEND папка: /channel/addlist/mzMMG3RPZhY2M2Iy
Linux папка: /channel/addlist/w4Doot-XBG4xNzYy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

📕Ит-книги бесплатно: /channel/addlist/BkskQciUW_FhNjEy

Читать полностью…

Big Data AI

⚡️ Яндекс рассказал о принципах работы одного из крупнейших рекомендательных сервисов

«Баннерная крутилка» умеет переживать 700 тысяч RPS, а иногда и больше. При каждом запросе сервис просматривает базу из миллиарда документов и выбирает наиболее релевантные. Обработка запроса занимает менее 200 миллисекунд. Тем. кто строит рекомендательные системы, будет любопытно узнать, какими принципами руководствуется Яндекс при построении подобных высоконагруженных систем, как устроены стадии отбора документов и какое участие в ранжировании принимает ML.


https://habr.com/ru/companies/yandex/articles/816205/

Читать полностью…

Big Data AI

ChatGPT Just Learned To Fix Itself!

https://www.youtube.com/watch?v=cw9jcjpufBI

@bigdatai

Читать полностью…

Big Data AI

💻YugabyteDB — высокопроизводительная распределенная БД, которая поддерживает все возможности PostgreSQL

YugabyteDB отлично подходит для облачных OLTP-приложений (т. е. работающих в реальном времени и критически важных для бизнеса), которым необходима абсолютная корректность данных и требуется масштабируемость или высокая устойчивость к сбоям.

Быстрое создание локального кластера YugabyteDB с Docker:

docker run -d --name yugabyte -p7000:7000 -p9000:9000 -p15433:15433 -p5433:5433 -p9042:9042 \
yugabytedb/yugabyte:2.21.1.0-b271 bin/yugabyted start \
--background=false


🖥 GitHub
🟡 Доки

@bigdatai

Читать полностью…

Big Data AI

СКУЧНО. ТАК БОЛЬШЕ НЕЛЬЗЯ!

— подумала наша команда летом и создала новое реалити-шоу о Data-инженерах 🤯


«‎Где Data, Коль?» — это:
▶️5 разных участников из мира Big Data, прошедшие отбор;
▶️ментор — Николай Марков, Data Platform Lead в компании Altenar;
▶️участники строят пайплайны, осваивают Hadoop, Spark, Airflow и другие инструменты;
▶️реальный проект на собственных данных;
▶️секретное испытание в финале.


❗️Кто станет фаворитом зрителей? Кто дойдет до финала и получит заветный оффер?!


🔈Ссылка на первую серию уже в Telegram-канале «‎Где Data, Коль?»

Вторая серия выйдет 5 июля. Подписывайся, чтобы не пропустить!

Реклама ООО «Слёрм» ИНН 3652901451 erid: 2Vtzqx8PuYU

Читать полностью…

Big Data AI

💻 memgraph — графовая БД с открытым исходным кодом, предназначенная для динамических аналитических сред

curl https://install.memgraph.com | sh

Memgraph — это open-source БД, созданная для потоковой передачи данных в реальном времени и совместимая с Neo4j.
Memgraph особенно актуальна для тех, кто изучает взаимосвязанные данные, которые можно представить в виде графа

Memgraph может напрямую подключиться к потоковой инфраструктуре и может получать данные из таких источников, как Kafka, SQL или обычные CSV-файлы.

Memgraph реализована на C/C++ и использует архитектуру in-memory first, чтобы гарантировать постоянную максимальную производительность и отсутствие сюрпризов.
Соответствует требованиям ACID и обладает высокой доступностью.

🖥 GitHub
🟡 Доки

@bigdatai

Читать полностью…

Big Data AI

⚡️ Перевод экрана приложения на русский по двойному тапу

На Хабре появилась статья с простым способом настроить перевод экрана приложений на русский язык. Он работает на айфоне и поможет переводить экраны любых приложений с незнакомых языков на русский всего лишь по одному двойному тапу.

▪️ https://habr.com/ru/companies/yandex/posts/824706

@bigdatai

Читать полностью…
Subscribe to a channel