smalldatascience | Unsorted

Telegram-канал smalldatascience - Small Data Science for Russian Adventurers

11146

БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org) машинное (machine learning) и глубокое обучение (deep learning) анализ данных (data mining) наука о данных (data science) ИИ (artificial intelligence) математика (math) и др. ЕСТЬ ЧАТ;)

Subscribe to a channel

Small Data Science for Russian Adventurers

#визуализация
Забавная игрушка на "геометрический интеллект": надо как можно точнее определять центры окружностей, середины отрезков и прямые углы. Не так просто, как кажется на первый взгляд. Это упражнение рекомендуют на некоторых курсах дизайна и визуализации.
https://woodgears.ca/eyeball/index.html

Читать полностью…

Small Data Science for Russian Adventurers

#книга
Emil Hvitfeldt "Feature Engineering A-Z"
Открытая книга по предобработке данных и генерации признаков. Пока ещё до конца не дописана, но по деформации признаков, категориальным признакам, пропускам и текстовым признакам информация есть. Примеры кода на R и Python.

https://feaz-book.com/

Читать полностью…

Small Data Science for Russian Adventurers

#книга
Онлайн-учебник по машинному и глубокому обучению от преподавателя ВМК МГУ Виктора Китова
https://deepmachinelearning.ru/

Читать полностью…

Small Data Science for Russian Adventurers

#ссылка
В коллекцию симпатичных блогов - заметки Александра Самарина
https://astralord.github.io/

Читать полностью…

Small Data Science for Russian Adventurers

#поздравление
На платформе Kaggle закончилось соревнование Kaggle AutoML Grand Prix (в рамках международной конференции International Conference on Automated Machine Learning). В соревновании было 5 этапов, на каждом нужно за 24 часа создать хорошую модель. Победила команда из России - сотрудников лаборатории ИИ Сбера:
* Александр Рыжков,
* Дмитрий Симаков,
* Ринчин Дамдинов,
при решении использовали свою разработку - open-source библиотеку LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Поздравляю!

И совсем приятное для меня... т.к. связано с моим воспитанником;)

Александр Рыжков стал 4х-кратным грандмастером Kaggle (в разных номинациях: соревнования, код, дискуссии, датасеты). Всего в мире таких 4xGM 10 человек. Молодец, Саша!

Читать полностью…

Small Data Science for Russian Adventurers

#визуализация
История визуализации данных (до 1904 года)
https://tableau.pro/datavizhistory

Читать полностью…

Small Data Science for Russian Adventurers

#книга
Каждая книга — кража у собственной жизни. Марина Цветаева

И ещё одна моя книжка... когда-то я придумал игру для студентов "Что изображено?". В последний год довольно много взаимодействовал со школьниками, им она тоже "зашла", как и учителям. Меня спросили, есть ли какой-то сборник заданий по этой игре... пришлось его срочно составить.

Читать полностью…

Small Data Science for Russian Adventurers

#книга
Выложенная в открытый доступ книга
"DevOps for Data Science"
(небольшая, но, возможно, неплохая для подготовки к собесам новичкам - пробежаться по темам и понять, что следует ещё подучить).
https://do4ds.com/

Читать полностью…

Small Data Science for Russian Adventurers

#код
Довольно известный ресурс про эффективное программирование на питоне (по памяти и по скорости) - но в этом канале я ещё на него ни разу не ссылался. Есть отдельная подборка статей по DS: numpy, pandas, polars и т.п.

https://pythonspeed.com/

Читать полностью…

Small Data Science for Russian Adventurers

#визуализация
Блог с классными визуализациями. Там есть на DS-темы (работа k-means, механизм внимания, линейная регрессия и т.п.), но есть красивые работы на общие темы (например, изменение климата).
https://yizhe-ang.github.io/

Читать полностью…

Small Data Science for Russian Adventurers

#книга
Сейчас в МЦНМО переиздали книгу Литвак Н., Райгородский А. Кому нужна математика?

Книга очень хорошая (примерно для 1 курса), там в каждой главе обсуждается прикладная задача, например, как вычислить число активных банковских карт по логам транзакций. А потом описываются алгоритмы решения, постепенно усложняя и доходя до лучших решений.

Кстати, если кто-то знает книги в таком стиле по ИИ - напишите в комментарии.

Это одна из первых книг в серии "Математические основы ИИ"... будет и продолжение;)

Читать полностью…

Small Data Science for Russian Adventurers

#блог
Хороший научно-популярный блог про математику
https://mathwithbaddrawings.com
- математика с плохими рисунками. Очень оригинальная манера подачи. У автора несколько книжек, переведённых на русский язык, наверное, наиболее занятная - это одноимённая Бен Орлин «Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность». Некоторые считают её одной из лучших для школьного возраста, чтобы полюбить математику.

Читать полностью…

Small Data Science for Russian Adventurers

#книга
Simovici D. A. CLUSTERING: Theoretical and Practical Aspects. – World Scientific, 2021.
Неплохая книга по кластеризации - для любителей жёсткой теории, сначала даётся большой математический обзор: ЧУМ, энтропия, выпуклые множества, гиперграфы, мультимножества (выше был пост про обобщённую энтропию - там рисунки из этой книги), потом уже разбираются алгоритмы кластеризации. Много теорем с доказательствами. Примеры кода на python и R (тут на чём удобнее, на том автор и писал). В приложении опять много математики: спектральные функции, проблема NP-полноты и т.п. Из минусов: нет как примеров практических кейсов кластеризации, так и каких-то советов для практиков.

Читать полностью…

Small Data Science for Russian Adventurers

#книга
О математиках Санкт-Петербурга на английском языке. От Эйлера до Фаддеева. Новость о выходе книги узнал тут.

Читать полностью…

Small Data Science for Russian Adventurers

#визуализация
Блог про физику и геометрию с потрясающими визуализациями
(чтобы увидеть все статьи, заходите в раздел «архив»)
https://ciechanow.ski/

Публикации выходят не часто, обычно 3 раза в год, в 2023м была всего одна, зато какая - «объяснение движений велосипедиста»
https://ciechanow.ski/bicycle/

Читать полностью…

Small Data Science for Russian Adventurers

Дорогие подписчики канала, поздравляю вас с Новым годом!

Желаю провести этот год интересно, ярко и немного авантюрно (учитывая название канала).
Будьте здоровы, занимайтесь только любимыми делами, а остальные - делегируйте ИИ-инструментам.

Читать полностью…

Small Data Science for Russian Adventurers

#книга

Стюарт Ричи «Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке»

Неплохой научпоп про недостоверные и мошеннические исследования, проблему воспроизводимости, p-хакинг и т.п. Много примеров из медицины и психологии.

Цитата:
Порочные стимулы действуют как злой джинн, давая вам именно то, что вы просили, но не обязательно то, чего вы хотели. Поощряйте наращивание числа публикаций, и вы его добьетесь — но будьте готовы к тому, что у ученых останется меньше времени на проверку ошибок, а нарезка статей станет нормой. Поощряйте публикации в журналах с высоким импакт-фактором, и вы их получите — но будьте готовы к тому, что ученые в своих попытках пробиться туда станут прибегать к p-хакингу, публикационному смещению и даже мошенничеству. Поощряйте конкуренцию за гранты, и вы ее добьетесь — но будьте готовы к тому, что ученые начнут без всякой меры раздувать свои результаты и подавать нужным углом в попытке привлечь внимание спонсоров.

Читать полностью…

Small Data Science for Russian Adventurers

#книга
У Сергея Маркова есть замечательный 2-х-томник по ИИ: "Охота на электроовец" (читал всю прошлую неделю). Стоит, правда, предупредить, что это в большей степени исторический обзор, но очень тщательно составленный, автор прям докапывается по мельчайших деталей, кто, когда и что первый придумал. Например, вы узнате:


- Аду Байрон, в честь которой назвали язык программирования, на самом деле звали Августа.
- Кто такой Жаккар (и его тоже звали не Жаккар).
- Как Гёдель нашёл изъян в конституции США.
- Почему в первой программе игры шашки в конце партии играл гимн.
и многое другое.

Доступно бесплатно:
https://markoff.science/#book

Читать полностью…

Small Data Science for Russian Adventurers

#забавно

Несколько слайдов одного из курсов по DL.

Читать полностью…

Small Data Science for Russian Adventurers

#история
В комментариях на 2й пост выше был вопрос про подготовку победителей олимпиады ИИ.

Как всё проходило: ребята пришли в ЦУ с просьбой о подготовке. Уже на следующий день подготовку начал "ваш покорный слуга" с сжатого курса по ML/DL + специальные занятия по соревнованиям (это понятные для школьников фрагменты курса ПЗАД). Интересно, что с некоторыми темами попали прям в яблочко (учитывая, что планировалось на финал). Сначала интенсивность была 2 занятия в неделю. А я так стал "главным тренером" (вроде нет такого официального звания) будущих чемпионов...

На научном треке олимпиады планировались 3 задания, под каждое был выделен персональный тренер:
классический ML - Саша Гущин,
CV - Дима Ульянов,
NLP - Таня Гайнцева,
кажется, что тренерский состав уже очень крутой (мне бы такой в 16 лет). Плюс были отдельный занятия, которые проводили Ваня Стельмах (ЦУ), Илья Карчмит (aimasters) и другие. В конце второго месяца подготовки интенсивность возросла до 5 занятий в неделю.

Половина тренеров была из ЦУ, часть вели занятия онлайн из-за границы. Например, я проводил "боевую репетицию" оффлайн (старались имитировать финал) по одному из заданий олимпиады в новом офисе Т-банка. Кроме тренеров была огромная команда (помощь с документами, сопровождение участников и т.п.), упомяну только главного по всему этому Катю Процко, которая после олимпиады вошла в совет по подготовке следующей. Так что "тренировки" это только вершина айсберга подготовки.

Про задания можно почитать здесь. Таня обещала тоже что-то написать, поэтому я писать не буду:)

Из странных моментов... не все мои знакомые откликались на просьбы "поработать со школьниками". Кажется, что упустили интересный опыт и чувство драйва. А всем кто откликнулся - моё отдельное спасибо!

В следующем году планируется что-то более серьёзное, с отбором среди всех школьников по результатам всероссийских олимпиад, подготовку, скорее всего, будет вести ЦУ, главного тренера тоже поменяем.

Читать полностью…

Small Data Science for Russian Adventurers

#поздравление
В Болгарии закончилась первая международная олимпиада по искусственному интеллекту (IOAI). От каждой страны было не более двух участников. От России поехала одна команда, составленная из школьников «Летово», которые готовились на базе Центрального университета. В итоге команда с названием «Летово» и флагом с изображением символики ЦУ завоевала золотые медали на научном этапе (первое место с огромным отрывом от конкурентов), получила серебро в практическом этапе и стала первой по сумме баллов за оба этапа.

Поздравляю победителей:
Анастасия Гайнуллина,
Андрей Грицаев,
Андрей Громыко,
Никита Курлаев.

Читать полностью…

Small Data Science for Russian Adventurers

#визуализация
Эволюция технологий / теорий
https://calculatingempires.net/
(нашёл в этом канале)

Читать полностью…

Small Data Science for Russian Adventurers

#книга
Я всю жизнь рисую пишу, но никому не показываю. Это приятное занятие — всем рекомендую. // Курт Воннегут

Никому раньше не давал ссылки (кроме своих студентов), но раз мониторящие мой гитхаб уже давно знают...

Здесь лежат отдельные главы вечно недописанной авторской книги по машинному обучению, уже более 400 страниц. Содержание сильно коррелирует с заметками из блога, но переработано (плюс есть примеры из практики, задачи и т.п.), многих тем в блоге не было: контроль качества, кластеризация и т.п. Почти полностью написан большой (!) раздел "Показатели качества" (аналога я не находил).

Всё будет постоянно перерабатываться и пополняться. ЕБЖ.

В тексте много пасхалочек, например, в последней добавленной главе фраза "В одном из соревнований по машинному обучению качество существенно повышалось при обеспечении гарантии отнесения к каждому классу некоторой доли объектов" раскрывает секрет, который позволял занять минимум 3е место на кэгле.

https://github.com/Dyakonov/MLDM_BOOK

Читать полностью…

Small Data Science for Russian Adventurers

#визуализация
Интерактивные материалы по детектированию сигналов (An Explorable Explanation of Signal Detection Theory). На самом деле, почти всё объяснение крутится вокруг ROC-кривой, но зато интересно и наглядно сделано.
https://decidables.github.io/

Читать полностью…

Small Data Science for Russian Adventurers

#новость
Несколько ближайших дней открытых дверей по программам, связанным с AI/DS/ML...

Центральный университет: бакалавриат и магистратура
18 и 19 мая онлайн и офлайн (почти весь день в офисах VK/Tinkoff)
/channel/t_central_university/437


Бесплатная 2-х годичная программа AI Masters
23 мая в 16.00 (онлайн)
/channel/iai_msu/71

Можно скинуть поступающим и интересующимся.
А поскольку в этом канале много тех, кто уже выучился:
если есть желание попреподавать - пишите мне;)

Читать полностью…

Small Data Science for Russian Adventurers

#визуализация
Сайт с интересной спортивной инфографикой. Перед некоторыми крупными спортивными событиями делают красочные релизы с историями участников и оценкой шансов на победу. Например, на рис. статистика выступлений футбольных команд на чемпионатах мира.
https://stories.mundodeportivo.com/

Читать полностью…

Small Data Science for Russian Adventurers

#забавно

В известную коллекцию подозрительных корреляций
https://tylervigen.com/spurious-correlations
не так давно добавили объяснение этих корреляций с помощью ИИ, а также "научные" статьи, сгенерированные ИИ, которые их объясняют.

Читать полностью…

Small Data Science for Russian Adventurers

#забавно
Проводил тут небольшое исследование: вот если бы в науке о данных существовала своя Шнобелевская премия, то кому можно было бы её вручить. Нашёл интересные примеры. Вот в этой статье, скажем, лучший фильм определяют по кашлю и чиханию в нём:
https://journal-doi.org/10.731/pcbi.1007742/

П.С. В комментарии можно набросать аналогичные примеры;)

Читать полностью…

Small Data Science for Russian Adventurers

#интересно
Исследовательский проект по машинному обучению.
https://knowingmachines.org/
В основном, много информации по правилам "работы с данными". В частности, авторами подготовлен "критический гайд по работе с датасетами"
https://knowingmachines.org/critical-field-guide
Очень специфически оформленный, правда. Но там могут попадаться полезные ссылки.

Читать полностью…

Small Data Science for Russian Adventurers

Всех с Новым годом!
Здоровья, смелых планов и удачи в их реализации!

Читать полностью…
Subscribe to a channel