Telegram-канал data_analysis_ml - Анализ данных (Data analysis): Unsorted

Анализ данных (Data analysis)

11 Oct 2024 18:09

В России впервые реализовали новый метод тренировки ML-моделей, который позволит участвовать в совместных проектах организациям, которые раньше не могли сотрудничать из-за рисков, связанных с передачей чувствительных данных.

Это стало возможно благодаря федеративному обучению - подходу, в котором участники могут коллективно обучать модель, не передавая свои данные внешним подрядчикам. Вместо передачи исходных данных на централизованный сервер для обработки, обучающие узлы обмениваются только обновленными параметрами модели. Подобная техника очень актуальна для отраслей, где имеют дело с чувствительной информацией.

Немного о том, как работает новый метод

При обучении ML-моделей данные, как правило, собираются из архивов медицинских учреждений и баз пациентов, и передаются на центральный сервер, где и происходит обучение. Однако при таком подходе велик риск утечек конфиденциальной информации, особенно если речь идет, например, о сфере медицины. Федеративный подход работает иначе.

Модель обучается на локальном сервере клиента и является частью распределённой системы обучения. Данные остаются у клиента, а на центральный сервер отправляются только обновленные параметры модели. Задача федеративного центрального сервера в таком случае — не обработка и хранение исходных данных, а координация обучения. При этом сервер агрегирует параметры для улучшения общей модели, обеспечивая конфиденциальность данных.

После того, как параметры модели от всех клиентов объединяются на центральном федеративном сервере, её обновлённая версия возвращается на устройства клиентов, чтобы учиться на новых данных. Таким образом, модель учитывает изменения и особенности каждого клиента, становясь точнее и эффективнее.

Первый кейс использования подхода в России в медицине

Метод реализовал Центр технологий для общества Yandex Cloud совместно с Сеченовским Университетом и ИСП РАН. Эксперимент заключался в обучении ML-модели, чтобы распознавать патологии сердца на основе данных ЭКГ. Для этого использовали фреймворк NVFlare, который поддерживает федеративное обучение с использованием GPU. Сам обучение провели на датасете из 47 тысяч двенадцатиканальных ЭКГ. В ходе эксперимента специалисты обучали модель диагностировать фибрилляцию предсердий по ЭКГ.

Чувствительность (способность выявлять патологию) модели составила 99%, а специфичность (способность не давать ложных результатов при отсутствии заболевания) — 95%. Результаты работы модели проверили трое врачей функциональной диагностики, чтобы убедиться в её точности и клинической применимости.

Федеративное обучение будет полезно не только в медицине. В перспективе такой подход можно использовать в финансовой отрасли для обнаружения мошенничества. При этом данные пользователей останутся защищенными.

@data_analysis_ml