Пока написать про собственные исследования - задача в будущем ( но скором!) времени решила помочь тем коллегам.
Проектная группа студентов Факультета городского и регионального развития НИУ ВШЭ проводит исследование, в рамках которого изучает состояние торговых центров, пользовательских предпочтений и их трансформаций.
В рамках исследования они просят пройти опрос, который является полностью анонимным и не займет более 10 минут. Вот ссылка на гугл-форму
Наткнулась на довольно интересное видео о возможностях чат-GPT в пространственном анализе. Не могу сказать, что автор сделал какие-то неожиданные выводы, но, в целом, уже само наличие такого видео достойно внимания. Смотреть тут: https://youtu.be/BK2IzZZZC-k
Читать полностью…Полезно, иногда почитать про подноготную процесса сбора информации, которую мы видим на картах или скачиваем в виде открытых данных. Во-первых, хорошее понимание процесса - это постановка более реальных сроков на проект, во-вторых, это знание "нюансов и ограничений" данных, которые вам предстоит анализировать.
А еще это приятно, если статья описывает российский опыт, как эта статья, компании 2ГИС.
В ней дизайнеры 2ГИС рассказывают, как сделать карту не только красивой, но и понятной каждому пользователю. Для этого команде пришлось две недели гулять по Москве и исправлять неочевидные нюансы, на которые мы с вами либо ругаемся, либо даже о них не задумываемся.
Еще немного про транспорт и про статистику по нему...
Уже полгода как у меня лежат данные по движению московского транспорта "аналогичные тем, что можно выкачать из КПП". Данные включат все рейсы автобусов в течение дня в привязке к остановкам. Данные очень крутые и проливают свет на знаменитые эпитеты коллег из ДТ про интервал в четыре минуты на трамвайно сети и другие перлы. Косвенно эти же данные показывают скорости автобусов и трамваев, в том числе влияет ли на скорость выделенка или обособление.
Данные суперские, но вот сделать на их основе нормальное расследование и визуал я за полгода не осилил, сказались война и все с этим связано, стресс, переезды, разорванные связи... не важно. В итоге я не придумал ничего лучше как делегировать задачу :)
Мы приглашаем аналитиков данных, городских исследователей и всех кто умеет красиво визуализирует. С нас данные и их подробное описание, посильная помощь, ну и самое главное... деньги! Двадцать тысяч рублей за первое место, и по пять за второе и третье. Кроме того у нас роскошное жюри - Андрей Дорожный, Дмитрий Муравьев и Артем Панкин (а так в проекте еще куча крутых ребят). В общем:
Тут (http://mosdatachallenge.tilda.ws/) - описание собственно конкурса и условий, там же кнопка регистрации.
Ну а тут (https://artempankin.notion.site/a5fa5cef8ae24ee59a0e8d2ad1505549) - описание данных.
Какие вещи ждем: не обязательно карты, но красивые и наглядные истории, соответствие задаче и функции, приятные эстетика и грамотный визуальный язык. Формат работ не критичен: и pdf, и фигма, и слайды и интерактивный сайт подойдут.
Результаты ждем до конца января.
47.8 миллионов километров дорог распознано в картах Bing и выложено Microsoft онлайн в виде открытых данных под лицензией ODbl [1]. В данных совсем нет Китая, Японии, Кореи, Папуа Новая-Гвинея.
Но Россия есть, и обитаемая зона её не так велика как географическая.
Все данные в формате TSV, сжатый объём около 10GB.
Ссылки։
[1] https://github.com/microsoft/RoadDetections
#opendata #datasets #microsoft
Всем привет:)
Пройдите, пожалуйста, опрос для социально-полезного исследования. Если есть вопросы, комментарии, пишите в чате канала - автор ответит
Иии у меня новости
Открываю регистрацию на второй поток онлайн-курса по пространственному анализу и моделированию в Python.
Пилот подтвердил, что есть интерес к теме, и задачи легко переводятся в практику. Насколько мне известно, часть потока уже использует знания в работе.
Первый поток героически взял на себя все баги кода, сложные формулировки и дубли в лекциях - за что им большое спасибо - поэтому в новой версии курса у вас будут объяснения, понятные для разного бекграунда, и код, работающий под разными ОС.
Важное
- Темы, особенности курса и тарифы тут
- Старт курса: 26 января 2023
- Количество мест: 15
- Появился вступительный тест
- Доступ получают первые 15, прошедших тест и внесших предоплату.
Зачем тест
Это важно, для вашего комфортного обучения и понимания тем. Курс достаточно интенсивный, и времени на погружение в базу у вас не останется.
Что после теста
После теста вы получите или письмо с положительным решением или с дополнительными материалами и шансом за январские подтянуть знания и попробовать ещё раз!)
До встречи на курсе😊
P.S. В чате канала есть ребята с первого потока - маякните там, если у вас есть к ним вопросы - подскажут:)
Спейшл или не спейшл🤔
С момента запуска курса стало не хватать времени на посты здесь, хотя за время подготовки учебных материалов накопилось много мыслей и новой информации, которой мне хотелось бы поделиться с вами.
Так, например, я впервые столкнулась с необходимостью формализовать разделение на пространственные и непространственные задачи, и теперь хочу поделиться выводами, к которым пришла, анализируя литературу и собственный опыт. Возможно,кому-то он будет полезен
Почему я считаю важным разделять задачи?
1. От типа задачи зависит, какой подход будем использовать
2. Пригодится для описания своего опыта - мне, например, это сильно помогло структурировать и лучше описать решенные задачи при устройстве за рубежом.
И как и всегда в пространственном анализе однозначного ответа у Гугла я не нашла - пришлось разбираться самой.
Давайте посмотрим на примере. Отнесете ли вы задачу определения стоимости жилья к пространственным задачам?
С одной стороны, да. Всем очевидно, что цена зависит от локации: как далеко станция метро, есть ли места, где в округе погулять с ребенком, куда пойти вечером, да много чего важно.
С другой стороны - это типичная задача на курсе Data Science, где вообще не говорят о гео. Например, в задаче на Kaggle от Сбербанка в датасете нет даже координат - все признаки, связанные с расстоянием и доступностью уже посчитаны, а в ноутбуках с решениями предлагают регрессионные модели, не учитывающие геозависимости, но при этом стабильные и с высокой точностью.
Так как же быть?
На мой взгляд, тут наслаивается сразу несколько вопросов:
1. Расчет пространственных признаков - делает задачу пространственной?
2. Пространственный анализ и моделирование - это одно и тоже?
3. Как понять, хватает ли обычной ML модели или нужна пространственная?
И получились такие ответы:
1. Пространственный анализ (ПА) и пространственное моделирование (ПМ) - разные задачи. Первое может без 2-ого, а 2-ое без первого никак.
2. ПА - это сбор параметров локации с использованием пространственных алгоритмов. Например, построение изохроны,чтобы посчитать сколько автобусных остановок в 10 мин пешком или матрицы весов соседей, чтобы оценить ценник вокруг - это элементы пространственного анализа. Но моделей тут нет - только создание новых признаков.
3. ПМ - это моделирование, учитывающее пространственную кластеризации ошибок обычной модели, в которую вы запихнули все, что посчитали на этапе ПА. В обычные модели добавляется знание о показателях соседей или ошибках модели в них, чтобы улучшить прогноз.
4. Как понять, что нужно ПМ? Сделать все возможное на этапе ПА - собрать множество признаков с описанием места, обработать их и построить ML модель. И только, если этого оказалось недостаточно, и ошибки модели зависимы от таргета и кластеризуются в пространстве(( привет Global Moran's I) перейти к ПМ.
Исходя из этого оценка стоимости жилья - всегда задача пространственного анализа. А вот задачей пространственного моделирования она становится только, если застройщик выставил цену на квартиры на пустыре в 20 млн, потому что рядом в элитном районе такая цена. И тут "без соседей" такое не объяснить.
По своему опыту, могу сказать, что в 95% случаев при наличии хороших полных данных, тщательном отборе признаков и генерации новых, ПМ не требуется. А даже, если требуется, то не каждую можно использовать. Как выбрать - в следующем посте.
Всем привет!
Открываю регистрацию на тестовый поток онлайн-курса по Пространственному анализу на Python.
Страница курса: http://geopython.tilda.ws/
Количество мест: 15. Доступ получают первые 15 зарегистрировавшихся. При наборе меньше 7 человек курс не состоится
Дата окончания регистрации: 30 сентября.
Старт курса: 3 октября
Понимаю, многие из вас решают сейчас пространственные задачи другого характера - желаю, чтобы все получилось🙏. С другой стороны, меня все-таки убедили запустить курс именно сейчас, потому что в условиях изменений, как никогда, актуально получать недостающие для работы знания и осваивать скилы, которые востребованы в любой стране мира.
С моей стороны, я постараюсь сфокусироваться, в-первую очередь, на тех практических навыках и знаниях, которые легко адаптировать для решения рабочих задач
FACEBOOK DISASTER MAPS. Инструкция от Meta по обработке данных о перемещениях.
О чем пост: пост про то, как собирают карты катастроф Facebook. Их основная идея : отразить на карте изменения в населении и качестве связи, произошедшие благодаря катастрофе. Карты находятся в открытом доступе. Данные доступны по запросу тут.
Почему: источник актуальный, потому что их уже во всю используют для оценки перемещений беженцев из Украины (например) . При этом их методология может служить учебником по тому, как корректно делать выводы на геоданных - есть и про стат значимость и про набор репрезентативной выборки.
где посмотреть: Meta выпускает 5 типов карт. Конкретно, в оценке последствий Украинского кризиса используется тип "Displacement" ( куда переместилось население затронутое кризисом) , поэтому ниже приведу этапы расчетов только для этого типа. Его методология описана здесь, про остальные и общую идею читать тут ( либо дождаться моего курса😁)). Интересно, что с 2019 по 2020 методология для этого типа изменилась, причем математически она стала проще, но добавили новые фильтры - изначально не было фильтра на ночное время.
Методология
Подготовка данных .Общее для всех типов карт
1. Выбор подхода для определения локации : либо используют плитку, либо фактические регионы
2. Устанавливаются временные и пространственные границы - что есть место катастрофы, что считаем временем до катастрофы, что временем после. В последней версии для displacement используют только ночной интервал
3. Обеспечивают защиты персональных данных . Убираются районы с сигналом меньше 10 человек, делается пространственное сглаживание и добавляется небольшой шум, чтобы избежать возможности идентифицировать перемещения людей из малонаселенных районов
Формирование выборки юзер - домашняя локация
1. Определяют "дом" пользователя до катастрофы. Берут только тех, у кого в течение 15 дней есть геосигнал, смотрят ночную локацию - откуда чаще всего был ночной сигнал. Из самых частых берут последнюю.
2. Определяют норму перемещений для человека : какое среднеквадратичное отклонение у расстояния от дома и времени вне дома ночью за последние 30 дней. Нужно, чтобы убедиться, что человек действительно "переместился", а не уехал на ночь в гости
3. Проверяют, что человек был дома или в пределах стандартного отклонения во время катастрофы
Определение типа перемещения
Пользователей разделяют на 3 группы : перемещенные, неперемещенные, неизвестно.
1. Во-первых, смотрят на частоту сигнала. Если есть данные за меньше, чем 7 из 14 дней, то статус "неизвестно".
2. Во-вторых, на удаленность сигналов от дома : чтобы быть "перемещенным", юзер должен находится 3 из 14 дней дальше 2 км и 7 из 14 на расстоянии> 2* средняя дистанция от дома. Если одно из условий нарушается, то юзер считается "неперемещенным"
Определение долгосрочного типа перемещения
Каждый день Мета проверяет гипотезу: а не поменялся ли статус перемещения у человека для групп "неизвестно" и "перемещенные". Если в течение 3 дней, обнаружена смена статуса, то человек переходит в новую группу. Соответственно переходя из "перемещенных" в "неперемещенные", он меняет статус на "вернувшегося".
Всем привет!
Сегодня мне нужна ваша помощь. Я готовлю онлайн-курс по геоаналитике в Python, и мне важно понять, на чем делать акценты. Благодаря работе в Яндексе , подготовке лекций на Coursera, внешним проектам и консультациям накопилось очень много материала , которым я с удовольствием поделюсь,но нужна ваша помощь, чтобы отобрать самое полезное.
Поэтому, просьба , заполните,пожалуйста, небольшой опрос, кому такой курс потенциально может быть интересен: https://forms.gle/wr8cBNaN2DbeN4h18 .
Очень выручите!Спасибо! 😊
Сегодня в блоге "открытый микрофон" . Последнее время встречаю много интересных с точки зрения и целей и методов исследованиий из России и решила, что будет здорово авторам самим рассказать о них.
Первая работа: исследование трейдофа между доступностью районов и стоимостью парковок в Казани. Статья получилось объемной, поэтому читайте здесь. Спойлеры: много интересных источников данных о жителях и рабочих районах, а также подходов, как сравнить временные и денежные издержки или как найти связь между доступностью района и ценой часа парковки.
Ваши комментарии будут большой помощью автору для улучшения исследования
Недавно ЦОДД Москвы запустил свой дата-блог, в котором будем делиться аналитикой на основе данных ЦОДД. Команда уже опубликовала статьи о поездках на СИМ и городском велопрокате, а также информационные отчёты о такси, кар- и кикшеринге в 2021 году. Готовят исследования по ДТП у трамвайных путей и транспортной связности.
Теперь поделюсь своими мыслями.
Сначала, что понравилось:
1. Само по себе появление такого ресурса - это серьезный шаг на встречу жителям. Теперь москвичей могут увидеть, как их данные, собираемые, буквально, на каждом углу помогают властям улучшать их город и, как результат, стать чуть лояльнее к процессу .
2. Описаны примеры работы с общедоступным источником информации - картой Продвижение. Это хорошее следование лучшим международным практикам, когда к открытым датасетам прикладывают примеры сервисов или исследований на их основе. Карту, конечно, открытыми данными назвать нельзя (цифры из не выгрузить), но по ней можно сделать выводы об уровне активности в разных районах города как в течение суток и так в течение года, при чем не только транспортной, но и деловой и ночной . Эти знания могут быть полезны, например, стрит ритейлу,в чью целевую аудиторию входят пользователи самокатов и такси, или самим сервисам проката, особенно, если они не покрывают весь город и не видят полной картины.
3. Из банального, но важного : информация подана очень доступно за счет хорошей инфографики и единой структуры статей. За исключением нескольких скринов с Продвижение со сбивающими столку заголовками(написано "начало поездок", а цветом на карте обозначено их окончание) , графики легко читаются. Это делает блог доступным для широкой аудитории.
Что можно улучшить, напишу в следующем посте.
Хочу поделиться полезными ресурсами для работы с геоданными в python, которые я недавно открыла для себя благодаря этой статье на medium.
Что там есть:
1. Датасеты Microsoft Buildings Footprints по странам. Всего 777млн полигонов зданий, распознанных на Bing Maps ( других полей кроме координат в них нет). Для примера . Про качество модели ничего не пишут: могу сказать только, что в датасете Израиля у них на 30% больше зданий, чем в базе Яндекс Карт.
2. Pretty maps - библиотека питона, которая рисует стильные карты. По умолчанию в словаре всего 4 стиля - все аля 20ые годы прошлого века, но можно поиграться с настройками. Думает долго ( на Тель-Авив с площадью 52 кв м потратил 21 мин), выдает кучу исключений, но получается красиво.
3. Новый релиз в "Планетарном компьютере" Microsoft: новые датасеты на основе спутниковых снимков, увеличение производительности API для python. Про то, что такое "Планетарный компьютер" на русском можно почитать здесь
4. Анонс первого единого формата для хранения "Больших" геоданных - GeoParquet. Авторы уверяют, что скорость обработки данных в 10-50 раз выше, чем в обычных табличных форматах и что все основные облачные платформы недоступные в россии , такие как google cloud и aws договорились поддерживать его хранение и обработку, не требуя от пользователя танцев с бубном при написании запросов
В добавление советую обратить внимание на youtube канал, состоящий из несложных уроков о том, как делать интерактивные карты в Python.
P. S. Ещё одну полезную библиотеку для визуализации трафика в питоне смотрите в комментарии👇
Вот такая суперская новость от ребят из Geoalert. Советую воспользоваться шансом и поработать с датасетом: данные явно полнее, чем те, что можно скачать из OSM. В датасете есть полигоны зданий и их высота. Если время позволит, сама хочу поиграть с датасетом.
2 идеи, на вскидку, как можно использовать эти данные:
1. посмотреть качество городской среды через обеспеченность районов необходимой инфраструктурой ( ее все же придется выгрузить из OSM) . Например, сколько домов обслуживает одна поликлиника или одна школа . Заодно можно проверить, насколько жива в городе тема микрорайонов;
2. проанализировать особенности городской застройки, выделить кластеры с разной плотностью зданий в низ, чтобы, например, понять подчиняется ли планировка города законам рынка ( про это много пишет тут и тут Алан Берто) и найти признаки spatial inequality ( можно посмотреть тут);
Как получить данные: написать на почту hello@geoalert.io или в телеграм Георгию: @godnik0
Если получится что-то интересное или есть идеи, как еще можно использовать данные - обязательно делитесь в чатике😊
В твитере прекрасная Ольга сделала два отличных треда про транспортные изохроны и как ими пользоваться https://threadreaderapp.com/thread/1650848563952246784.html
и про сервисы, которые эти изохроны умеют делать - https://twitter.com/olgommershtadt/status/1654604262771507202 (там даже трансметрика засветилась).
Вот ссылки:
1. Инвестиционный портал Москвы
тут на карте есть движок под создание изохрон на Москву и другие места России (но точность там ниже)
https://investmoscow.ru/about-moscow/investment-map-v2?mainType=1&objectId=19013396
на карте в правом нижнем углу найдите кнопку с изохронами. после нажмите на карте и задайте параметры изохрон
2. Valhalla - сервис для создания изохрон в городах по всему миру. Круто, что можно задать разные способы передвижения
https://valhalla.openstreetmap.de/isochrones?profile=bicycle&wps=14.506072998046875%2C53.42907160169334&range=10&interval=10
3. OpenRoute Service - важный сервис для создания изохрон.
Из плюсов - большая адаптивность. Из минусов - на мой взгляд не самый удобный интерфейс
https://maps.openrouteservice.org/#/reach/14-%D1%8F%20%D0%BB%D0%B8%D0%BD%D0%B8%D1%8F,MS,%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D1%8F/data/
4. transmetrika - выбираете город и пользуетесь
https://transmetrika.com/?locale=ru
5. сервис от геоцентра Консалтинг
https://rumap.ru/?sidebarActive&tab=catalog&l=Rumap:b&c=55.740255:37.6268&zoom=10
6. iso4app
http://iso4app.net
хорошая штука, но к интерфейсу надо привыкнуть
7. commute map
хороший понятный интерфейс, можно несколько сразу строить и сравнивать
https://commutetimemap.com/map?places=53.904161%253B27.558775%253B0%253B1800%253B%25234143f4
На этой неделе благодаря своей работе я побывала на Mobile World Congress - крупнейшей в мире выставке в сфере мобильных технологий. Ниже собрала основные тезисы- выставка огромнейшая (чтобы обойти всю мне потребовалось 13к шагов) , поэтому что-то могла упустить.
Участники.
Всех участников можно разбить на 3 группы:
1. Крупнейшие корпорации, которые выставляют свои последние разработки: от телефонов и Vr до собак -роботов. Честно говоря, не увидела ничего нового. Но мне понравилось устройство, которое наливает пиво снизу вверх у Dell😄 и как кричали девушки на стенде c VR, кажется у Honor)
Вторые , основа выставки- разработчики софта для мобильных операторов и сами мобильные операторы. Тут основная тема, конечно, - 5G, тезисы ниже.
Третья группа: разработчики прикладных ПО. Тут все подряд: само-обучаемые сенсоры для измерения физических активностей, сервисы для ML разработчиков(от облаков до контейнеров), решения для логистики, metaverse платформы, cybersecurity решения (кстати был Касперский) и тд тп
Тема
Основная тема конференции: как предоставить лучшее качество связи в 5G, не тратя при этом дополнительных ресурсов.
Особенно уделялось внимание экономии энергии и использованию возобновляемых источников: с недавних пор её в Европе дефицит🤷♀️ В качестве решений - "AI" разработки 2х видов.
Одни заранее предугадывают потребление трафика пользователем, и позволяют автоматически настраивать параметры сети. Другие определяют места повышенного скопления людей, чтобы там расставлять 5G оборудование и не ставить его там, где подойдет и 4G
Но при всей этой технологичности, есть один нюанс - wifi за 18 часов, проведенных на конгрессе, работал у меня только 2 часа, да и то только в определенных павильонах :) Вобщем-то все как всегда😊
Всем привет!
Хочу сообщить, что на курсе осталось 2 места, так что, если вы запланировали в этом году научиться прогать на питон для решения геозадач, у вас еще есть шанс:)
Оставить заявку и пройти тест можно как всегда на странице курса : http://geopython.tilda.ws/
#курс #spatialanalytics
Я очень люблю, когда вы делитесь ссылками на интересный материал, связанный с пространственными данными:)
Возможно, для многих из вас это очевидная вещь, но я услышала об этом впервые и поэтому хочу поделиться - вдруг кто-то как и я пропустил информацию. Оказывается postgis умеет работать с 3d объектами, в результате чего в нем можно хранить объемные модели городов. Более того, выглядит так, что для 3d объектов доступны все те же самые операции и методы, что и для 2d, а это возможность измерять площадь, считать дистанцию, строить буферы и тд
Почитать можно здесь. Внутри много полезных ссылок на документацию postgis, поэтому даже если вы не работаете с 3d, все равно советую посмотреть.
В рамках научных исследований, по формированию синтетических данных, проводим опрос, ссылке:
https://forms.yandex.ru/u/635a9c19068ff01f1520bfc9/
Цель: исследовательская работа посвященная созданию UML модели городского жителя, в рамках проекта формирования синтетической популяции;
- опрос не собирает персональные данные;
- собранный набор данных, будут выложены в открытый доступ для решения различных исследовательских задач;
лицензия: AFL-3.0 https://opensource.org/licenses/AFL-3.0
Дата для публикации: 27.12.2022
Итак, претенденты на первые 15 мест определились, но можно записываться в резерв. Все, кто проходил тест получили письма. Проверьте, плиз, папку спам, если их нет во входящих)
Читать полностью…Как понять, нужна ли пространственная модель ?
Как я писала выше, в 95% случаях обычной регрессионной модели, у которой в признаках есть пространственные показатели (например, число конкурентов в радиусе 1 км), достаточно, чтобы найти зависимости между таргетом и параметрами локации
Но что делать, если на 4-ом этапе вы посчитали индекс Морана для остатков и обнаружили,что они коррелируют в пространстве?
Немного порефликсировав над своим опытом и прочитанными статьями, сформировала дерево вариантов решений, которое подсказывает, какие алгоритмы для какого случая подходят. Это, конечно, мое субъективное и неполное ( здесь только самые популярные подходы) представление, поэтому буду рада вашим комментариям и критике).
Вопросы для выбора модели
1. Первый вопрос, на который нужно ответить: какая цель работы? Это исследование текущих зависимостей или прогноз на неизвестный период и/или в неизвестной локации?
2. Попадают ли прогнозируемые/пропущенные значения в ту же область, что и известны наблюдения?
Почему это важно
Дело в том, что модели пространственной статистики (Spatial lag model, Spatial Error model, GWR) не умеют строить прогноз для новых локаций, поэтому они подходят только для задачи исследования. Например, если нужно оценить влияние близости похожих значений на таргет.
А, например, Regression Kriging, умеет прогнозировать значения, но при этом зависит от дистанции до известных наблюдений, а значит, его можно использовать только на той же территории, на которой расположены известные наблюдения.
Что тогда остается в случае, если нужна оценка для новой территории? На мой взгляд только дополнительное исследование и создание новых фичей. Например, визуализация остатков на карте иногда помогает увидеть не учтенные факторы: близость к морю, расположение в центральной части города и тд. Кроме того эффективными могут оказаться лаговые значений соседей - случай, когда цена на жилье считается из потенциала территории : сегодня пустырь, а завтра развитая инфраструктура, как в соседних кварталах.
Рассуждая таким образом, можно выбрать стратегию учета в модели пространственных зависимостей
Не ожидала, что так быстро, но группа набрана😊 Можете попробовать записаться в резерв на случай, если кто-то передумает до конца недели. Планирую, что будут еще запуски курса, плюс всегда есть опция договориться на консультацию в личке
Читать полностью…О чем пост: Выше написала про методику, теперь пример использования данных Meta для анализа потоков беженцев из Украины. В статье анализируют куда и почему направились основные потоки.
Что в исследовании хорошо:
1.Попытка честно оценить изменения в населении и снизить влияние временных притоков беженцев, например, следующих транзитом, на него. Для этого они а) определили бейзлайн - население 2020 года по данным Мета) , б) считают среднее по неделям, а не по дням в) смотрят на относительные изменения вместо абсолютных
2. Весь анализ построен в формате: гипотеза - проверка ( через графики или метрики). Это сильно облегчает чтение статьи, учитывая, что авторы задают в ней несколько вопросов, несильно связанных между собой
3. Помимо количественных изменений, авторов интересует изменение в структуре. Как меняются возрастной и гендерный состав, а также уровень безработицы с притоком/оттоком беженцев. Для этого они используют данные Евростат (например, но формат csv)
4. Авторы пытаются( на мой взгляд некорректно) методами регрессионного анализа найти факторы, объясняющие размер потока мигрантов в каждую страну. Некоторые из выводов :
-чем моложе население в городах, тем выше уровень притока мигрантов ( исключение составляет Италия)
-чем больше в стране украинская диаспора, тем выше уровень притока мигрантов
Что в исследовании странно:
1. Абсолютно упущены факторы дистанции и общих границ между странами, а в идеале еще и размеры авто- и жд сообщения.
2. Как следствие первого, авторы некорректно указывают на влияние текущего числа резидентов из Украины в стране на число беженцев. Принебрегая фактором дистанции и доступности локации из Украины авторы совершают типичную ошибку, путая корреляцию с причинно-следственной связью. То,что в Польше больше всего беженцев, связано в первую очередь с близостью страны, а не с тем, что там живет много украинцев - это важный фактор, но он сам является следствием из близости.
В данном случае, чтобы правильно оценить значимость влияния числа украинского населения в составе страны на миграцию нужно было делать регрессию не из одного параметра, а из нескольких и смотреть на статистический вклад этого признака - сила явно была бы меньше указанной
3. Меня несколько подмораживает, когда говорят об изменениях или влиянии ( impact) чего-то, не делая статистического подтверждения. Не зная уровень исторической миграции Украины в страны Европы от года к году, нельзя говорить про то, насколько серьезны изменения в 2022 году ( идея, что 3% прироста для Турции могут быть значительнее 10% для Польши). Здесь уместно было бы сделать difference in difference analysis ( тут можно посмотреть). Идея: есть тренд и его прогноз, насколько от него отклонились. Ну или как минимум t-test, чтобы убедиться, что это не сезонная динамика.
4. Напрашивается для сравнения городов сделать тест на пространственную автокорелляцию ( Global Moran's и local moran's) и посмотреть, верно ли, что помимо доступности и соц-дем факторов действует правило "иду за толпой". Еще в таком анализе интересно найти непопулярные районы , расположенные среди самых популярных и разобрать причины, почему беженцы их избегают.
5. Нет обсуждения limitations данных. Используя данные пользователей facebook, авторы не обговаривают, что выборка может быть смещенной, как минимум, на возраст и доход.
Предполагаю это исследование - только начало и будет еще много более интересных и методологически выверенных исследований в этой области.
Сегодня я впервые пишу про что-то, не имеющий прямого - на первый взгляд - отношения к "городам и данным". Я хочу порекомендовать канал /channel/productpath и ее автора, Асю, продуктового менеджера образовательных проектов.
Как вы уже поняли, я готовлю курс по геоанализу в Python, и у меня в голове миллион и один вопрос, к которым жизнь,а точнее мое техническое образование меня не готовило. Ася разложила мне все по полочкам: от выделения ЦА до организации процесса обучения - и вуаля, миллион превратился в единицы, за что ей спасибо:)
А теперь поясню, почему только на первый взгляд считаю управление продуктом темой далекая от темы канала. Дело в том, что в основе подготовки любого продукта, будь-то онлайн-курс, элитный ЖК или градостроительная норма, лежит предпроектное исследование.
И от его дизайна напрямую зависит качество финального проекта. То, какие гипотезы вы сформулируете перед исследованием, какие вопросы подготовите для респондентов, как будете их искать - от этого будет зависеть, насколько полной и честной будет картина по вашим клиентам и проблеме ( если вы, конечно, не ВЦИОМ, и у вас не другие цели).
То есть, например, если ваша задача предложить решение городской проблемы, хорошая подготовка позволит вам, а ) проверить и уточнить истинную проблему, б) выделить аудиторию,на которую эта проблема больше всего влияет в) выяснить, какого решения ждут разные сегменты этой аудитории
Вобщем, для меня эта область новая,поэтому пошла читать канал Аси и выбирать только самый полезный контент для курса:)
Российские чиновники очень любят не давать данные в публичный доступ, объясняя это защитой персональных данных и риском террористической угрозы.
Возникает логичный вопрос: а как же чиновники других стран справляются с этими проблемами? Например, в Европе, где действует суровый GDPR, или в Израиле, где риск террористической атаки куда выше, чем в России. И там и там публикуют данные по населению в разрезе кварталов и транспортному потоку по часам и дням. Ответ: синтетические данные.
Синтетические данные (СД) – это сгенерированные алгоритмом данные, которые с одной стороны обладают всеми статистическими параметрами исходной выборки (гипотеза, что средние выборок разные отвергается, сохранены корреляции между переменными итд) с другой стороны, позволяют не раскрывать реальных данных. Помимо цели не раскрывать чувствительные данные их также используют, когда реальных данных мало или они дорого стоят. Генерируют их, например, с помощью нейронных сетей или ABM-моделей. Подробнее про создание СД хорошо описано здесь.
Так вот, госорганы часто прибегают к генерации СД при публикации результатов опросов населении - например когда нужно опубликовать данные по доходу в малонаселенных зонах или указать долю безработных по домохозяйствам. Такие данные считаются конфиденциальными, поскольку могут быть сопоставлены с конкретными семьями и поэтому их заменяют на синтетические. Предполагается, что для аналитических целей их точности достаточно. Например, в этих 2 статьях : здесь и здесь - автор показывает на данных переписи, что использование сгенерированных данных ухудшило точность ( accuracy) модели классификации населения по уровня дохода всего на 2%. При этом восстановить реальные показатели домохозяйств по ним невозможно.
Кажется, что тема интересная и было бы здорово увидеть пример подобных данных и в России, желательно с описанием процесса создания и валидации на реалистичность и конфиденциальность
Продолжение мыслей о новом блоге ЦОДД Москвы: теперь о том, что можно улучшить.
1. Первый вопрос а кто целевая аудитория блога?
Предположим, что это профессионалы -транспортники. Но для них в блоге а) недостаточно глубины анализа, б) нет возможности получить данные, чтобы самим, что-то посчитать.
Тогда предположим, что это горожане -активисты, которому интересно знать про свой город. Но случайно оказаться в блоге или на сайте ПРОдвижения практически невозможно -попробуйте вбить в поиск "продвижение транспорт" или "блог цодд" - увидете статьи с ЖЖ и рекламу SEO-оптимизации. Делаем вывод, что в блог может попасть человек, который следит за новостями ДепТранса и знает адрес блога. Не думаю, что таких много.
Остаются исследователи, блоггеры и журналисты, которые пишут про транспорт и работу с данными городских департаментов. Но и эту группу ждет разочарование: сейчас в блоге нет ничего о том, какие решения принял город на основе найденных закономерностей Вероятно, что в будущем обещанная в описании часть "что это означает для города" появится на сайте, но пока это больше набор интересных фактов.
Есть , конечно, еще четвертая группа - руководители. Для них на сайте есть все, что нужно: красивые понятные графики и карты, взаимодействие с другим проектом Департамента, примеры аналитической работы Центра. Но хочется верить, что все же не они основная аудитория, а кто-то из тех, кто описан выше. А для них нужны доработки..
2. На мой взгляд блогу нужно больше сравнений и относительных показателей. И не только между разными видами СИМ, но и сравнений с общим пассажирским/пешеходным потоком, а также по географии и типам землепользования. Интересно читать, что между станцией Филатов Луг и поселением Московский проехало 6 тыс велосипедов, но еще интереснее было бы узнать какой % от общего потока составляют эти поездки. Или насколько этот показатель выше среднего числа поездок на СИМ в Москве от ЖК до метро. Расчет таких показателей по всему городу позволил бы выделить аномальные районы, где жителям больше всего не хватает общественного транспорта и они вынуждены использовать велопрокат. Пока для большинства найденных закономерностей напрашивается одна причина: где больше людей и больше велопарк, там и больше поездок.
3. Кажется, в расчетах есть допущения: средние значения, к которым обращаются авторы блога, не всегда честно отражают реальность ( вечная история соц-опросов🙄).
Например, команда блога отмечает интересный факт: несмотря на то что, число поездок на самокатах в 3 раза больше поездок на велосипеде, оборачиваемость одного велосипеда в день 2.5 раза больше: 5 против 2. Объясняют - это разницей в размерах парка.
Разница варьируется от месяца к месяцу,но всреднем цифры сходятся. Однако в реальность того, что из 24 часов самокатом пользуются только 1 час ( в блоге указана средняя длительность 1 поездки - 26 мин )верится с трудом. В чем может быть подвох?
Скорее всего дело в разнице распределения станций самокатов и велосипедов по городу: станции велопроката значительно смещены к центру, тогда как самокат можно найти в любом районе города. При этом уровень спроса в зависимости от локации сильно отличается: в центре желающих покататься больше, в спальниках меньше ( учитывая, что сервисы запустились в прошлом году вполне вероятно, что не всегда локации стоянок были выбраны правильно и пользовались спросом). Тогда получается, что есть самокаты, на которых катаются в центре, с высокой частотой поездок и самокаты, которые находятся на окраине города с низкой частотой . Последние и образуют длинный хвост около нулевых значений, которые занижает среднее взятие одного самоката до 2 раз в день.
На мой взгляд, чтобы правильно сравнить частоту использования велосипедов и самокатов честно было бы а) смотреть графики распределения числа взятий 1 самоката и 1 велосипеда. б) сравнивать отдельно центр, отдельно спальники. в) смотреть взятия самоката vs велосипеда в одной и той же локации( например, брать только самокаты, которые стоят в радиусе 1 км от станции велобайка)
Примерно год назад я писала о результатах своего диплома, среди которых был вывод о практически отсутствии в России практики проведения feasibility studies (предварительной оценки полезности ) перед открытии публичных пространств, например музеев или культурных центров.
В то время как в развитом мире на такие проекты смотрят как на драйверы развития территории и, поэтому, предварительно делают оценку их успешности : станут ли туристы тратить больше денег в этом районе или будут ли горожане позитивнее относиться к властям.
К чему это я: к тому, что кажется и в России начинают появляться такие практики. Мне сегодня подсказали конференцию, на которой как раз будут говорить про создание общественных пространств, в том числе скажут и про роль исследований. Сама бы с удовольствием послушала, но нахожусь не в Санкт-Петербурге, а мероприятие только очное🤷. Если кто-то может, сходите, потом расскажете 🙂
Цитирую анонс ниже.
Деловой клуб Meeting пришагает принять участие в конференции «Общественные пространства в контексте городской среды»
Тема: создание комфортных, доступных и безопасных пространств для общения и реализации возможностей.
Ключевые вопросы:
🔹 “Третье место” пусто не бывает: девелоперские концепции, которые меняют жилую среду и делают продукт дороже
🔹 Разбираем «необычные» проекты в обычном. Цена успеха общественного пространства
🔹 От культурной коллаборации к миссии: развитие городского сообщества через взаимодействие влиятельных лидеров бизнеса и культуры
🔹 Маркетинговая функция общественных пространств
🔹 Взгляд молодых архитекторов: новые подходы к проектированию общественных пространств
Среди спикеров представители Центра урбанистики и градостроительства СПбГУ, студии Design, проекта "Balagan" , компании PushKeen и других общественных пространств
🗓 30 июня
🕙 11:00-15:00, начало регистрации в 10:00
📍ДК Кирова, Белый зал, 2 этаж (Большой пр. В.О., 83)
По окончании конференции экскурсия по пространству ДК Кирова.
Подать заявку на посещение мероприятия: meeting.spb.ru
#Tashkent city (where we opened a new office recently) has a very interesting patterns. Urban analysts are welcome to try the dataset generated with the use of #Mapflow AI building extraction. Look from above and get deeper.
Читать полностью…Открываем разработчикам доступ к городским датасетам для обучения алгоритмов искусственного интеллекта.
Для этого запустили специальную страницу ai.mos.ru, где можно ознакомиться с примерами датасетов и подать заявку на их получение.
👨💻 Запуск такого проекта – еще один способ помочь разработчикам создавать новые проекты во всех сферах городского хозяйства.
✅ Чтобы получить доступ к датасетам, компании необходимо заполнить заявку, описав проект по развитию городской среды, для которого необходимы данные, текущие наработки компании в части AI моделей для проекта и, при наличии, текущие правовые барьеры.
Что особенно важно:
▪️ чтобы проект, для которого предоставляются датасеты, приносил пользу городу и жителям;
▪️ чтобы проект соответствовал базовым этическим принципам работы с ИИ, в том числе соблюдал нормы российского права, был надежно защищенным, понятным и прозрачным для горожан.
❗️ Все проекты будут проходить экспертную оценку ДИТ Москвы и профильных городских ведомств.