17610
@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста
🧠 NEURAL NETWORKS A VISUAL INTRODUCTION
Интерактивная визуализация нейросетей, которая представляет интерактивное устройство нейросети, где все элементы описываются простым и последовательным образом, включая структуру, вычислительные элементы, нейроны и слои.
Анимация в проекте на очень высоком уровне, а объяснения основных терминов, понятны любому.
https://mlu-explain.github.io/neural-networks/
@bigdatai
⏳Словосочетание «временные ряды» вам о чем-нибудь говорит?
Если да, то вам точно нужно на Tinkoff. AI Time Series 4 Life!
Команда Тинькофф вместе с экспертами из Авито и Saudi Aramco проведет митап для тех, кто работает с временными рядами, 22 июня в Москве и онлайн.
Ребята расскажут, как работают над библиотекой ETNA, разберут методы прогнозирования временных рядов и декомпозиции на различные типы влияния. А еще обсудят кейс об использовании библиотеки Тинькофф в нефтяном секторе.
📆 22 июня, Москва и онлайн-формат, Tinkoff. AI Time Series 4 Life. Не забудьте зарегистрироваться и позвать с собой коллег:
— ссылка для тех, кто хочет на офлайн;
— ссылка для тех, кто хочет быть онлайн.
Как определить, какая версия сайта работает лучше? Что изменилось после рефакторинга бэкенда и удалось ли отделу логистики ускорить доставку?
Точные ответы на эти вопросы позволяют получить A/B-тесты. На симуляторе от karpovꓸcourses вы поработаете с нетривиальными кейсами и разберёте полный пайплайн тестирования на реальных задачах бизнеса — всё под руководством экспертов из X5 Retail Group и Blockchainꓸcom.
Вы поймёте, какие метрики нужно измерять, как получить качественный результат даже на небольшой выборке, а также разберёте частые ошибки.
▫️Если вы не хотите погружаться в программирование и сложную математическую статистику — вам подойдёт базовая версия программы. Все задачи вы будете решать в Google Sheets, а запускать эксперименты — на уже готовой инфраструктуре.
▫️А если вы уже знаете основы Python и математической статистики, и вам важно на практике разобраться во всех тонкостях A/B-тестов — приходите на продвинутую версию.
Новый поток стартует 12 июня, присоединяйтесь по ссылке!
Как статистика помогает аналитику: бесплатное занятие Нетологии
Знание статистики необходимо любому аналитику — статистические методы помогают в интерпретации цифр и защищают аналитика от искажений информации. Это позволяет ему корректно обобщать данные и предлагать бизнесу оптимальное решение той или иной задачи.
На бесплатном занятии «Статистика для будущих аналитиков: как принимать решения на основе данных» вы узнаете, в чём ценность статистики для бизнеса и как применять её инструменты для решения бизнес-задач. Также вы узнаете, какие навыки необходимы аналитику для успешного развития в сфере.
Зарегистрироваться → https://netolo.gy/bJJn
Реклама. ООО «Нетология» LatgBTYZm
💉Медицинские датасеты для машинного обучения
Основная проблема данных здравоохранения заключается в их уязвимости. Они содержат конфиденциальную информацию, защищённую Health Insurance Portability and Accountability Act (HIPAA), и не могут использоваться без явно выраженного согласия. В сфере медицины чувствительные подробности называются защищаемой информацией о здоровье (protected health information, PHI).
Protected Health Information и идентификаторы HIPAA
Protected Health Information (PHI)
Анонимизация медицинских данных и удаление из них персональной информации
Подготовка датасетов для машинного обучения.
Разметка медицинских данных
Любые неструктурированные данные, будь то тексты, изображения или аудиофайлы, для обучения моделей машинного обучения требуют разметки или аннотирования. Это процесс добавления к блокам данных описательных элементов (меток или тэгов), чтобы компьютер мог понимать, что находится в изображении или тексте. Чтобы узнать об инструментах аннотирования и рекомендациях, прочитайте нашу статью о том, как организовать разметку данных.
Датасеты медицинских снимков
Изображения составляют подавляющее большинство (почти 90%) всех данных здравоохранения. Это даёт много возможностей по обучению алгоритмов computer vision для потребностей здравоохранения. Стоит заметить, что данные медицинских снимков в основном генерируются в отделах радиологии в виде рентгенограмм, сканов КТ и МРТ. Международным стандартом здравоохранения для хранения и передачи диагностических снимков является DICOM (Digital Imaging and Communication in Medicine).
The Cancer Imaging Archive (TCIA)
The Cancer Imaging Archive (TCIA), финансируемый Национальным институтом онкологии США (NCI) — это место хранения в открытом доступе радиологических и гистопатологических снимков, в основном в формате DICOM, представляющих 21 тип рака.
Национальная база данных снимков органов грудной клетки на Covid-19 (NCCID)
National Covid-19 Chest Imaging Database (NCCID)
Open Access Series of Imaging Studies (OASIS)
OASIS Brains
Скелетно-мышечные рентгенограммы (MURA)
MURA (Musculoskeletal Radiographs)
Датасеты клиник и больниц
Основная часть этих данных находится во внутренних системах учреждений здравоохранения, а именно в системах EHR (Electronic Health Record), системах управления медицинскими практиками, системах лабораторной информации, порталах для пациентов и других.
Medical Information Mart for Intensive Care (MIMIC)
MIMIC — это крупнейшая публичная коллекция очищенных от личных данных электронных медицинских карт (electronic health record, EHR), связанных с пациентами реанимационных отделений.
Healthcare Cost and Utilization Project (HCUP)
HCUP, которым управляет Agency for Healthcare Research and Quality (AHRQ), содержит базы данных США и отдельных штатов, которые можно использовать для выявления и исследования тенденций в доступности, использовании и результатах работы системы здравоохранения.
Данные поставщиков услуг Medicare
Medicare Provider Catalog собирает официальные данные центров услуг Medicare и Medicaid (CMS).
Данные можно просматривать в браузере, скачивать конкретные датасеты в формате CSV или подключать собственные приложения к веб-сайту при помощи API.
Лечебно-профилактические датасеты
Лечебно-профилактическими датасетами обычно управляют государственные органы и международные организации. Эти данные могут быть полезными при изучении трендов в здравоохранении, исследовании заболеваний для понимания и предотвращения эпидемий и для других задач.
Датасеты Global Health Observatory (GHO)
🔍 Microsoft Stocks from 1986 to 2023
Этот комплексный набор данных содержит подробный анализ динамики акций корпорации Microsoft с 1986 по 2023 год.
https://www.kaggle.com/datasets/bilalwaseer/microsoft-stocks-from-1986-to-2023
@bigdatai
📌 Подборка бесплатных курсов по аналитике и визуализации данных
▪Digital-аналитика — This is Data
▪Визуализация данных - Онлайн-школа ILYN
▪Microsoft Power BI — Microsoft Learn
▪Power Bi для интернет-маркетинга — NeedForData
▪Основы работы с DataLens — Яндекс Практикум
▪Google Data Studio (2022) — Яков Осипенков
▪Google Data Studio (2022) — Школа аналитики "Байкал"
@bigdatai
🔥 RATH: Autopilot for exploratory data analysis
Полезный инструмент для анализа и визуализации данных
RATH автоматизирует ваш рабочий процесс исследовательского анализа данных с помощью мощного аналитического движка
Инструмент находит закономерности, инсайты и причинно-следственные связи в данных, представляя их в многомерных визуализациях
При этом он также RATH работает в качестве «помощника», изучая ваши намерения и предлагая соответствующие рекомендации. Облегчает процесс возможность задавать вопросы на естественном языке
Дополнительная информация об инструменте есть в материале на нашем сайта
#machine_learning #data #data_science
@bigdatai
⚡ ИИ в бухгалтерии: кейс торговой сети «Подружка»
Каждый месяц в «Табер Трейд» поступают тысячи счетов на оплату, 90% из них — в бумажном виде. До внедрения интеллектуальных сервисов бухгалтеры обрабатывали их вручную, включая объемные таблицы с перечнем номенклатуры.
Теперь у бухгалтеров освободилось по 3 часа в день для решения более полезных задач. Рутину взяли на себя интеллектуальные сервисы Directum Ario:
✔️ ИИ извлекает реквизиты счетов, включая табличную часть.
✔️ На основе извлеченных данных в системе заполняется карточка документа. Дальше счет уходит на согласование ответственным по автоматически определенному маршруту.
Хотите такой же результат? Тестируйте интеллектуальную обработку счетов в бесплатном демодоступе Directum Ario.
Получить демодоступ
Metabase — бесплатный инструмент для анализа данных без лишних сложностей
Инструмент очень простой и интуитивный. Вы можете запустить его и начать создавать дашборды всего за несколько минут, без необходимости обучения или написания кода
В отличие от многих других инструментов анализа данных, Metabase не требует от вас знаний в области SQL или других языков запросов
Более того, с его помощью можно создавать достаточно сложные запросы при помощи простого drag-and-drop интерфейса
https://www.metabase.com/
@bigdatai
Стэнфордский открытый курс CS25: Transformers United v2.
https://web.stanford.edu/class/cs25/
@bigdatai
Benthos — мощный сервер обработки потоков данных
Он отлично подойдёт для интеграции, трансформации и маршрутизации данных в различных форматах и системах. Решение идеально для разработчиков, инженеров данных и DevOps.
Из «фишек» инструмента можно отметить его модульную архитектуру, позволяющую легко настраивать и масштабировать систему
Помимо этого, Benthos предлагает широкий выбор встроенных компонентов и поддержку плагинов для покрытия различных потребностей пользователей
Стоимость: #бесплатно
@bigdatai
Хотите усовершенствовать навыки работы с аналитическими СУБД? 🚀
11 мая 20:00 пройдет открытый урок «Визуализация данных на основе Clickhouse и Apache Superset». Вебинар приурочен к старту онлайн-курса «Data Warehouse Analyst» в OTUS.
Вы узнаете:
✅ Как подготовить БД Clickhouse для загрузки данных и их эффективного использования
✅ Основные принципы работы популярного BI-инструмента Apache Superset
✅ Как связать все воедино, начиная от хранилища и метода загрузки данных, заканчивая графиками
В результате урока вы получите понимание об одном из способов построения хранилища, направленного на визуализацию информации, познакомитесь с современными инструментами формирования отчетности, примените полученные знания на практике.
👨🎓 Занятие проведет Алексей Железной, Data Engineer в Wildberries и преподаватель OTUS. Продолжить обучение вы сможете на курсе, его можно оплатить разными способами.
Для участия пройдите вступительный тест 👉 https://otus.pw/JGA5/
Нативная интеграция. Информация о продукте www.otus.ru
Data Science | Machinelearning - самый большой русскоязычный канал с полезными материалами на такие темы как, Machine Learning, Data Science, Алгоритмы. Так же часто публикуются крутые 🔥 вакансии.
👉 Вам сюда: @devsp
А любителям читать статьи в оригинале вот сюда:
👉 @ds_international
Добро пожаловать!
⭐️ Семинары и практические задания по Машинном обучению
▪Плейлист лекций и семинаров: 2020-2021; 2021-2022
▪Курс лекций К.В. Воронцова.
▪Курс Мурата Апишева по python.
🖥 Github
@bigdatai
Transportation
Крупные Датасеты, связанные с транспотртом.
Airlines OD Data 1987-2008 [Meta]
Ford GoBike Data (formerly Bay Area Bike Share Data) [Meta]
Bike Share Systems (BSS) collection [Meta]
Dutch Traffic Information [Meta]
GeoLife GPS Trajectory from Microsoft Research [Meta]
German train system by Deutsche Bahn [Meta]
Hubway Million Rides in MA [Meta]
Montreal BIXI Bike Share [Meta]
NYC Taxi Trip Data 2009- [Meta]
NYC Taxi Trip Data 2013 (FOIA/FOILed) [Meta]
NYC Uber trip data April 2014 to September 2014 [Meta]
Open Traffic collection [Meta]
OpenFlights - airport, airline and route data [Meta]
Philadelphia Bike Share Stations (JSON) [Meta]
Plane Crash Database, since 1920 [Meta]
RITA Airline On-Time Performance data [Meta]
RITA/BTS transport data collection (TranStat) [Meta]
Renfe (Spanish National Railway Network) dataset [Meta]
Toronto Bike Share Stations (JSON and GBFS files) [Meta]
Transport for London (TFL) [Meta]
Travel Tracker Survey (TTS) for Chicago [Meta]
U.S. Bureau of Transportation Statistics (BTS) [Meta]
U.S. Domestic Flights 1990 to 2009 [Meta]
U.S. Freight Analysis Framework since 2007 [Meta]
U.S. National Highway Traffic Safety Administration - Fatalities since 1975 - Contains CSV [...] [Meta]
@bigdatai
🥇 Sports
Открытые спортивные датасеты.
▪American Ninja Warrior Obstacles - Contains every obstacle in the history of American Ninja [...]
▪Betfair Historical Exchange Data
▪Cricsheet Matches (cricket)
▪Equity in Athletics - The Equity in Athletics Data Analysis Cutting Tool is brought to you by [...]
▪Ergast Formula 1, from 1950 up to date (API)
▪Football/Soccer resources (data and APIs)
▪Lahman's Baseball Database
▪NFL play-by-play data - NFL play-by-play data sourced from: [...]
▪Pinhooker: Thoroughbred Bloodstock Sale Data
▪Pro Kabadi season 1 to 7 - Pro Kabadi League is a professional-level Kabaddi league in India. [...]
▪Retrosheet Baseball Statistics
▪Tennis database of rankings, results, and stats for ATP
▪Tennis database of rankings, results, and stats for WTA
▪Transfermarkt Datasets - Clean, structured and automatically updated football (soccer) data [...]
▪USA Soccer Teams and Locations - USA soccer teams and locations. MLS, NWSL, and USL [...]
@bigdatai
🏯 Museums
Открытые датасеты крупных мировых музеев.
▪Canada Science and Technology Museums Corporation's Open Data [Meta]
▪Cooper-Hewitt's Collection Database [Meta]
▪Metropolitan Museum of Art Collection API [Meta]
▪Minneapolis Institute of Arts metadata [Meta]
▪Natural History Museum (London) Data Portal [Meta]
▪Rijksmuseum Historical Art Collection [Meta]
▪Tate Collection metadata [Meta]
▪The Getty vocabularies [Meta]
@bigdatai
Global Health Observatory (GHO) — это коллекция Всемирной организации здравоохранения по статистике о здравоохранении в 194 её странах-участниках. Она содержит датасеты, структурированные на основе различных тем (например, здоровья несовершеннолетних, ВИЧ, туберкулёза, иммунизации, ментального здоровья, питания). Заинтересовавшие вас датасеты можно свободно скачать с веб-сайта, выбрав один из имеющихся форматов — таблицы CVS и Excel, файлы XML и JSON. Также всё содержимое доступно через Athena API, основанный на современной архитектуре REST.
Older Adults Health Data Collection
Older Adults Health Data Collection на Data.gov состоит из 96 датасетов, управляемых федеральным правительством США.
NCHHSTP AtlasPlus
NCHHSTP AtlasPlus предоставляет доступ к историческим данным за 20 лет по иммунодефициту человека (ВИЧ), вирусному гепатиту, заболеваниям, передаваемым половым путём, и туберкулёзу.
Исследовательские датасеты
Исследовательские датасеты предназначены для научного сообщества, фармакологических компаний, лабораторий и других организаций, участвующих в лечении и разработке лекарств. Они накапливают информацию из прошлых работ для дальнейшего развития медицинских исследований.
The Cancer Genome Atlas (TCGA)
The Cancer Genome Atlas (TCGA) — это важнейшая база данных геномики, охватывающая 33 типа заболеваний, в том числе 10 редких. TCGA был основан в 2006 году в результате совместной работы Национального института онкологии США и Национального института исследований генома человека (NHGRI).
Датасеты программы Surveillance, Epidemiology, and End Results (SEER)
Программа Surveillance, Epidemiology, and End Results (SEER) — самый надёжный источник онкологической статистики в США, предназначенный для снижения доли раковых заболеваний в популяции. Её база данных поддерживается Surveillance Research Program (SRP), которая является частью Division of Cancer Control and Population Sciences (DCCPS) Национального института онкологии.
Для анализа SEER и других баз данных, связанных с раком, можно использовать SEER Stat Software.
Датасеты клинических исследований Vivli
Vivli — это некоммерческая организация, координирующая, упрощающая и продвигающая научное исследование данных клинических исследований и обмен ими.
Где ещё можно найти медицинские датасеты
Например, data.world — облачный каталог данных, накопивший почти 3,5 тысяч связанных со здоровьем коллекций. Ещё одна стоящая внимания платформа — Papers With Code: в ней хранится 6 964 датасета для ML, и 244 из них относится к области медицины.
На Kaggle, который называют «Airbnb для data science», тоже есть кое-что интересное.
@bigdatai
6 no-code платформ машинного обучения
Как создать алгоритм, не разбираясь в ML.
#1. Google ML Kit
ML Kit — простая в управлении лаборатория SDK, которая позволяет внедрять МL на Android и iOS, независимо от опыта разработчиков в машинном обучении.
#2. Fritz AI
Fritz AI — end-to-end-решение для создания и обучения моделей, а также генерирования наборов данных без кода. Оно доступно на Windows, Linux, MacOS, а также мобильных ОС.
#3. DataRobot
#4. What-If tool
Это небольшой, но занимательный проект от PAIR (People + AI Research). WIT или What-If Tool — алгоритм в виде плагина для работы с регрессионными ML-моделями.
#5. Teachable Machine
Бесплатный инструмент от Google, запущенный в 2017 году. Он позволяет создавать ML-модели в браузере за пару минут.
#6. RapidMiner
Проект разделен на три части: веб-инструмент RapidMiner Go, программа для ПК RapidMiner Studio и образовательная грантовая программа RapidMiner Academy, которая сотрудничает с университетами.
@bigdatai
В международных IT-командах вы можете встретить непривычные акценты, например, шотландский, испанский или индийский, — и будет сложно понять собеседников. В таких условиях непросто уловить, о чем все в итоге договорились, или принять активное участие в обсуждении.
Чтобы подготовиться к этому, советуем курсы «Английский для работы в IT» в Яндекс Практикуме. Вам помогут с тем:
— Что говорить.
Личный преподаватель расскажет про грамматические конструкции и фразы, которые уместно применять на стендапах, собеседованиях и ревью.
— Как говорить.
Иностранцы из IT и преподаватель будут регулярно тренировать разговорные навыки на примере рабочих ситуаций.
— Как слушать.
На разговорной практике с иностранными IT-специалистами вы быстрее привыкнете к разным акцентам.
Послушайте подробнее про курс в подкасте «Запуск завтра». Выпуск «Как учить английский», с 40-ой минуты.
Если хотите узнать, подойдёт ли вам обучение — запишитесь на бесплатную консультацию. Куратор определит ваш уровень языка и ответит на вопросы.
Реклама АНО ДПО "Образовательные технологии Яндекса», ИНН:7704282033, erid: LjN8JvxZU
❗Друзья!
Приглашаем Вас на вебинар "Анализ финансового состояния компании с помощью платформы PolyAnalyst", который состоится 1 июня с 16.00 - 18.00.
На мероприятии расскажем о том, как в системе PolyAnalyst можно проводить анализ финансово-экономической деятельности компании и сравнивать свои показатели с данными других компаний.
А также вы узнаете:
🔸 как неструктурированную и полуструктурированную финансовую отчетность, взятую из открытых источников, преобразовать в подходящие для анализа данные;
🔸 какими инструментами PolyAnalyst рассчитать по нескольким финансовым методам сравнительные экономические показатели;
🔸 как правильно представить результаты анализа и построить наглядный отчет.
Ссылка на мероприятие
Что такое большие данные: комплексный обзор
Данные генерируются с беспрецедентной скоростью. Ежедневно создается более 2,5 квинтиллиона байт данных, причем объем генерируемых данных растет в геометрической прогрессии. Этот взрывной рост данных привел к появлению такого понятия, как “большие данные” (“Big Data”).
Но что же такое большие данные? Почему они важны? Как они влияют на современный бизнес? Ответы на эти вопросы ищите в нашем комплексном обзоре больших данных.
▪ Читать
@bigdatai
Полезные шпаргалки от Стэнфорда.
Здесь собраны обзоры алгоритмов и моделей МО. Наглядный и удобный формат.
CS 221 ― Artificial Intelligence
CS 229 ― Machine Learning
CS 230 ― Deep Learning
@bigdatai
Segment — универсальная платформа для анализа данных
С её помощью можно собирать, хранить и анализировать данные о клиентах. Инструмент особенно полезен для маркетологов, аналитиков и команд разработки, которые хотят лучше понять поведение своих пользователей
Основные преимущества Segment включают в себя удобство сбора данных с различных платформ и их централизацию в одном месте, а также гибкость интеграции с множеством других инструментов аналитики и маркетинга
Стоимость: #бесплатно (но есть платные тарифы)
#анализ_данных #web
@bigdatai
Не можете найти работу после курса по Data Science, потому что не хватает реального опыта?
Применить новые знания на практике и подготовиться к работе поможет Симулятор аналитика.
Симулятор — это мостик между обучением и вашей первой работой.
Представьте, что вы устроились в молодой стартап. Ваша задача — с нуля выстроить процессы под руководством ведущего аналитика Анатолия Карпова.
За 5 недель вы научитесь строить realtime дашборды, автоматизировать поиск аномалий в данных, анализировать продуктовые метрики, планировать и запускать A/B-тесты и сможете подготовиться к реальной работе.
А в конце наши HR помогут вам получить заветный оффер.
Записывайтесь на Симулятор до 22 мая!
⚡️ Quandl
Quandl – это хранилище экономических и финансовых данных. Часть этой информации бесплатна, но многие датасеты необходимо приобрести. Quandl полезен для построения моделей для прогнозирования экономических показателей или цен на акции. Благодаря большому количеству доступных наборов данных можно построить сложную модель, которая использует множество наборов данных для прогнозирования значений в другом датасете.
Просмотр наборов данных Quandl.
Вот несколько примеров:
▪Entrepreneurial Activity By Race and Other Factors — содержит данные фонда Кауфмана о предпринимателях в США.
▪US Federal Reserve Data — экономические показатели США, от Федеральной резервной системы.
@bigdatai
⚛ Academic Torrents
Academic Torrents - это новый сайт, предназначенный для обмена датасетами из научных работ. Это новый сайт, поэтому трудно сказать, как будут выглядеть наиболее распространённые типы наборов данных. В настоящий момент, на нём есть множество интересных датасетов, которым не хватает контекста.
Вы можете просматривать наборы данных непосредственно на сайте. Поскольку это торрент-сайт, все наборы данных можно сразу загрузить, но тогда вам понадобится клиент Bittorrent. Deluge - хороший бесплатный вариант.
▪Просмотр наборов данных Academic Torrents
Вот несколько примеров:
▪Enron Emails — набор из множества электронных писем от руководителей Enron, компании, которая, как известно, обанкротилась.
▪Student Learning Factors — набор факторов, которые измеряют обучение студентов и влияют на него.
▪News Articles — содержит атрибуты новостной статьи.
@bigdatai
Observable — платформа визуализации данных
Observable это удобная платформа для создания интерактивных диаграмм и графиков, анализа данных и быстрого прототипирования визуализаций
Инструмент идеально подходит для аналитиков, разработчиков и дизайнеров
Дополнительно Observable предлагает встроенные инструменты для обмена знаниями и работой над проектами в команде. Возможность организовать свои ноутбуки в коллекции упрощает навигацию и поиск нужной информации
Стоимость: #бесплатно (но есть платные тарифы)
#визуализация #аналитика
@bigdatai
В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.
#Datasets
https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/
@bigdatai