datainthecity | Unsorted

Telegram-канал datainthecity - О городах и данных

2171

Канал про то, кто, как и зачем измеряет города: как исследования,построенные на городских данных, улучшают жизнь в городе и какие риски они несут Автор:@intra23

Subscribe to a channel

О городах и данных

#geoconnect
Всем привет.

Уже через 20 мин мы будем открывать Geoconnect: неделю задач, мастер-классов и нетворкинга в сфере геоаналитики.

Регистрация на решение задач уже закрыта, но мы ждём всех на мастер-классы и в зум бары 😊🍿🍸

Начинаем в 19:00 МСК
Подключиться тут: https://us06web.zoom.us/j/85652498748.

Группа GeoConnect, если вдруг пропустили: /channel/+pJAzMcr6bjZjYmFi

Читать полностью…

О городах и данных

#momepy #landuse

Сейчас по работе решаю задачу выделения в городе разных функциональных зон, а также разделения города на кварталы в зависимости от их уровня экономического развития. Это довольно популярная проблема, когда сервис нацелен на определенную аудиторию, а в регионе структура населения неоднородна.

Я решаю задачу для столицы Нигерии - Лагоса, где по данным World Bank наблюдается чуть ли не самый большой в мире индекс неравенства: трущобы, где люди до сих пор выбрасывают отходы в реку, перемежаются с районами вилл самых богатых людей Африки. Соответственно, мне нужно как минимум научиться отличать первые от вторых, а еще желателно выделять "средний" класс, а также зоны коммерческого и индустриального использования

Из данных:
- building footprints (от microsoft и со спутников)
- дорожный граф из OpenStreetMap
- POIs ( у нас есть скрепер с Google Maps, но можно и из OSM)
- население из HDX по квадратам на 1км
- Скоры на основе переписи населении по уровню покрытия связью и экономическому уровню, рассчитанные на электоральные районы

Как видите никаких мобильных данных или данных о тратах по картам, которые бы хорошо помогли ответить на вопрос об экономической активности населения, нет. Поэтому решать задачу придется полагаясь на гипотезу о различии морфологии бедных, средних и богатых районов.

Для этого я использую python библиотеку momepy, где автор Martin Fleishman собрал все возможные метрики, связанные с описанием расположения зданий в районе. Вот тут можно найти ноутбук с его воркшопа. В комменты поста кинули еще вот такой пример работы с библиотекой.
Все что нужно для работы с библиотекой - это building footprints, код на загрузку улиц за вас уже написан😊 Прикладываю вам для вдохновения красивую картинку, где дома раскрашены по показателю intensity.

Дальше возникает вопрос, что делать с получившимися метриками? Как определить порог, по которому можно отличить районы.

С одной стороны для такого города как Лагос вопрос звучит несложно: в трущобах застройка явно плотнее, чем в богатых районах, а улицы там явно рисовал не urban planner. С другой стороны, а в моем случае требуется точность близкая к единице - ошибиться и предложить клиенту развивать сервис в районах, где нет электричества будет стоить компании как минимум репутации. Кроме того, вопрос land use это не решает

Найти правильный ответ на вопрос мне еще предстоит, а пока делюсь текущими вариантами и источниками

В качестве вдохновения для экспериментов взяла 3 статьи:

1. Статья про выделение трущоб для Найроби (как раз на основе momepy). Тут авторы предлагают обойтись без таргета и сделать иерархическую кластеризацию на основе метрик зданий. Идея хорошая, вопрос в невозможности оценить точность и нет ответа про land use

2. Свежая статья про выделение функциональных зон в 2х районах Сингапура. Авторы решают задачу на основе плотности POI из разных категорий (KDE) и кластеризации. В моем случае частично решает проблему

3. Статья про выделение трущоб в Джакарте на основе Remote Sensing и анализа Street Views. Для меня эта статья интересна возможностью переиспользовать отвалидированные модели, выученные на одной стране, для другой. Риск здесь - различия в морфологии трущоб.

Как будут результаты обязательно поделюсь получившимся решением, а пока держите красивую картинку Лагоса на основе метрики intensity из momepy

Читать полностью…

О городах и данных

#phd_insights #intro
Придумала на днях после очередной консультации, что возможно, многим из вас будет интересно узнать про мой PhD трек, про который я толком здесь ничего не написала, хотя с того момента, как желание писать тезис превратилось в осязаемую головную боль, прошел уже год.

Удовлетворять ваше любопытство буду под хештегом #phd_insights. Здесь будет все: от поиска позиции и PhD -рутины до инсайтов и гипотез исследования.

Задача для вас: если вам интересна эта тема - поставьте, пожалуйста, лайк под этим постом, и, если есть пожелания, о чем хотите узнать, пишите, в комментариях

Читать полностью…

О городах и данных

#geoconnect #geocontest
Всем привет. Мы готовы объявить о начале регистрации на GeoConnect!

Читать подробности и регистрироваться тут: https://geowb.ru/

Важное ☝️
Даты: 30 ноября - 10 декабря

Общая задача: определить факторы, влияющие на объемы выручки в пунктах выдачи заказов Wildberries

Размер команды: от 1 человека

2 трека:
- Дата инстайты - для тех, кто считает, что все неслучайно
-Kaggle competition - для тех, кто умеет делать r2=2


После регистрации не забудьте добавиться в чат, указанный на странице после регистрации😊

Читать полностью…

О городах и данных

Ссылка для способов помочь финансово, особенно из-за границы

Чтобы делиться на работе или с неравнодушными знакомыми по всему миру

Ссылка 👈

Читать полностью…

О городах и данных

#cartetika_event #mapacon барабанная дробь....

Мы делаем конференцию «МАПАКОН»!

29 марта 2024 года в день рождения Картетики состоится онлайн-конференция про всё, что связано с геотехнологиями!

Мы будем говорить про ГИС-технологии, ДЗЗ, образование и работу в нашей сфере, и про всё-всё-всё, что волнует вас и нас.

Сегодня мы торжественно и с лёгким волнением открываем сбор заявок на ваши доклады. Всю подробную информацию, а также форму для заявок можно найти на странице конференции. Форму записи для слушателей мы откроем чуть позже.

Для кого эта конференция?
- для технических специалистов в области ГИС, ДЗЗ, геодезии и картографии, геологии, экологии, урбанистики и транспорта, маркетинга, дизайна, географии, археологии;
- для представителей "гео-бизнеса" и работодателей в сфере геотехнологий;
- для преподавателей и студентов гео-направлений;
- для всех интересующихся геотехнологиями.

С нетерпением ждём ваши заявки! 🥳

Читать полностью…

О городах и данных

А вот новость от одного из подписчиков про мероприятие по теме канала:
"Коллеги проводят вебинар 21 сентября в 15:00
"Маркетинг и аналитика на основе геоданных" Подробности по ссылке: https://webinar.platforma.id/

Читать полностью…

О городах и данных

Меня тут зацепил пост Ивана Бегтина про то, какие данные собирают производители автомобилей (советую читать статью, а не пост, она более взвешенная). Общий смысл, что данных собирается очень много, включая данные про про все перемещения и даже сексуальную жизнь. И хотя сначала я был разочарован что вся аналитика там строиться лишь по пользовательским соглашениям, мне стало любопытно что в пользовательских соглашениях в России, причем именно в сфере общественного транспорта. Вот что получилось:

1. Московский транспорт - ссылка на лицензионное соглашение ведет на https://api.mosgorpass.ru/license_agreement - у меня не открылось. Посмотреть не смог.
2. Помощник Москвы - тоже не открылось. Ведет на https://pakpm.mos.ru/api/help/privacy_policy.
3. Метро Москвы - Ссылка ведет на https://www.mosmetro.ru/app/oferta/new_oferta.pdf. Сайт выдает ошибку 404.
4. Моя Тройка - приложение Сбера по управлению картой тройка. Пишет что данных не собирается совсем - но описания снова нет - ошибка 404.
5. Приложение ЦППК (официальное?) - тут документ есть, но датирован аж 2018 годом и ведется от лица неизвестной компании Айтифорс, сайт которой уже не работает. Из еще более странного - это соглашение об обработке пользовательских данных, которое лежит в самом приложении - это явно внутренний документ описывающий взаимоотношения работодателя и его сотрудников, но никак не пользователей приложения.
6. Транспорт Подмосковья - соглашение с ООО ДатаПакс есть, но довольно формальное. Передача третьим лицам есть.
7. Яндекс Такси - самое подробное и детальное соглашение, нормально описывающее что именно будет собрано, с уточнением юрисдикций.
8. Социальное такси - тоже от московского дептранса. Тут соглашение есть, но максимально формальное и обезличенное. Документ в гуглдоке не имеет даже имени компании или адреса от лица кого это соглашение.
9. Транспорт Перми - приложения о персданных нет, ссылка на сайт разработчика.
10. Парковки Краснодара - ссылка битая - документа нет. Как впрочем и у 99% других приложений из регионов.

Вывод по общественному транспорту в итоге еще страшнее, чем с автомобилями. В случае тех, приложений, что вам предлагаю государственные органы власти и аффилированные компании вы даже не сможете узнать что и как делают с вашими персональными данными. Чем дальше от государства тем лучше и честнее представлена информация и тем прозрачнее политика работы с персональными данными.

Читать полностью…

О городах и данных

У меня новости😊.
Полгода пролетели, и я открываю регистрацию на 3-ий поток онлайн-курса по пространственному анализу и моделированию в Python.

Второй запуск еще раз подтвердил актуальность материалов курса для специалистов с (неожиданно!) очень разным бекгруандом, а некоторым даже помог найти работу. По запросу участников курса мы решали задачи от прогноза лесных пожаров и рынка недвижимости в Дубае до размещения остановок каршеринга и складов доставки. Честно признаюсь,мне очень понравилось это разнообразие, так что я в предвкушении, какие еще кейсы мы сможем вместе решить с новыми участниками😁.

Важное
Темы, особенности курса, отзывы, тарифы: на сайте
Старт курса: 14 сентября 2023
Есть обязательный вступительный тест - ссылки на сайте.
Доступ получают первые, кто прошли тест и внесли предоплату.

Зачем тест
Знание python и основ мат статистики важно для вашего комфортного обучения и понимания тем. Курс интенсивный - времени на погружение в базу у вас не останется.

Что после теста
После теста вы получите или письмо с положительным решением и ссылкой на чат курса или письмо с дополнительными материалами и шансом подтянуть знания и попробовать ещё раз!) 

До встречи на курсе😊

P.S. В чате канала есть ребята с первого и второго потока - маякните там, если у вас есть к ним вопросы - подскажут:)

Читать полностью…

О городах и данных

Цель проекта: найти значимые факторы, влияющие на выбор общественного транспорта для поездок на работу, для разработки стратегии по его улучшению и популяризации.

Забегая вперед, скажу, что в целом подтвердилась важность доступности ж/д станции и гибкого графика работы в офисе - есть что порекомендовать муниципалитетам и крупным фирмам, чтобы улучшить опыт пользователей общественного транспорта и предоставить им большую транспортную гибкость. Через муниципалитеты - инфраструктурно или оптимизацией маршрутов, через частные компании - организацией шаттлов до станции.

Гипотеза: выбор транспорта зависит не только от личных данных работника, но также от географических и транспортных/городских данных.

Данные: проект основан на опросе ~800 работников бизнес-парков в Израиле, проведенном НКО "15 minutes", а также на дополнительных геоданных из открытых источников (список в презентации).

Методы:
1. XGBClassifier - для прогноза выбора вида транспорта работником. Для простоты оставил два варианта: на личном авто и на общественном транспорте.
2. Lasso (регрессия) - для того же самого. Точность получилась сопоставимая, хотя использовал его не по прямому назначению. У Lasso на выходе получается диапазон, я же категоризировал с помощью порогового значения. Альтернативный вариант - использовать Logistic Regression, в ней выбор порога встроен по умолчанию.
3. Global & Local Moran - для расчета пространственной корреляции остатков модели Lasso: в каких локациях модель ошибалась в классификации и в какую сторону.

Выводы:
• Global Moran для всей выборки получился совсем низкий, только для Тель Авива чуть больше - 0.17: корреляция низкая, ожидаемо выделяется южная часть города.
• Точность модели XGBoost (accuracy) - 0.75
• Сильнейшие предикторы выбора транспорта:
1. Расстояние до работы / время в пути - из-за дальних поездок по ж/д большее расстояние значит больше вероятность О.Т.
2. Часы работы - чем раньше начинается рабочий день, тем выше вероятность использования авто. Возможно из-за утренних пробок работники с машиной предпочитают начать рабочий день пораньше (утренние “часы пик” плотнее). Или же автомобиль удобнее из-за ранних часов начала работы.
3. Возраст работника - чем меньше, тем вероятнее О.Т.
4. Количество дней работы в офисе - чем меньше, тем вероятнее О.Т.
5. Среда вокруг дома на основе walk score index (он выше, если сетка дорог плотнее и больше POIs доступно). Высокий индекс - вероятнее использование О.Т

Пока не оправдавшие ожидания признаки (с 6-ти опрошенных территорий):
• транспортная доступность
• количество рейсов автобусов
• процент пользователей О.Т.
• плотность расположения остановок
• количество работников на км³

Эти признаки, к сожалению, только ухудшают модель, хотя так моделью мог бы учитываться “последний километр” до работы. “Первый километр”, со стороны дома, модель учитывает через walk score. Нужна выборка по разным территориям для большей точности модели.

Компонент пространства позволяет выявить территории с отклонениями в прогнозе. Вероятно, добавление какого-то характерного признака таких мест в модель улучшит результат. Может быть там какая-то повышенная плотность остановок или наоборот - больше парковок, чем в соседних районах.

Отмечу, что в Lasso в отличие от XGboostClassifier “количество дней в офисе” не стало значительным предиктором - какой-то другой параметр “объяснил” все за него - полагаю “расстояние”. По остальным признакам модели солидарны.

На будущее:
• хочется попробовать модель на большем количестве бизнес территорий
• выделить пользователей поезда в отдельную категорию - они едут издалека и могут продуктивно использовать это время
• заменить Lasso на Logistic Regression

Читать полностью…

О городах и данных

Тут ребята из 2ГИС выпустили новый пост о работе дизайнеров карт. Если в первом они рассказали про работу «в полях», то в этом — больше про роль дизайнера при создании карты, чей вклад, как пользователи, мы скорее всего редко замечаем.

Когда ты пользователь, ты не задумываешься о сложном выборе дизайнера "между лавочкой и Большим театром", но когда тебя, как аналитика просят разместить на карте результаты работы для заказчика, то начинаешь понимать всю сложность процесса: что главное для клиента, как передать разницу с помощью цветов и форм, как сделать карту понятной для человека без опыта в географии или аналитики.

Вобщем респект ребятам за хорошую работу

Читать полностью…

О городах и данных

Сегодня 2-ой пост по мотивам финальных проектов в рамках курса по геоаналитике.

Автор проекта @HelenSkrebkova изучала пространственное развитие Дубая с помощью анализа цен на рынке недвижимости. Получилось интересно, а если вы вдруг в Дубае и думаете, в каком районе выгодно снять квартиру, то может быть и еще и полезно.

Читать тут

Читать полностью…

О городах и данных

Сегодня первый из постов по мотивам финальных проектов в рамках курса по геоаналитике.

В рамках курса у слушателей была возможность применить полученные знания для решения интересующих их городских проблем, и часть воспользовалась такой возможностью, сделав за короткий срок содержательные и качественные проекты.

Автор сегодняшнего проекта @yulia_kor решала задачу развития сети в новом для бизнеса городе, в условиях, когда единственное доступное знание о конкурентах - это их локации.

#geoanalytics #geocourse #geopython

Читать полностью…

О городах и данных

​​Топ-5 отличий работы в британской урбан-компании от российской

Спустя почти год работы со Space Syntax могу обозначить основные моменты, по которым британский подход отличается от российского.

1. Все делают всё. Не знаю, зависит ли это от размера компании, но Space Syntax, например, на 90% состоит из специалистов. На 30 сотрудников приходится всего три менеджера: офис, операционный и финансовый директоры. Я сейчас на позиции Associate, т.е. отвечаю за все, что происходит с набором конкретных проектов, в которых я занят как Project Leader. Значит - веду бюджет и график проекта, модерирую переговоры с клиентом и подрядчиками, готовлю отчеты, руковожу джунами, вместе с директором проекта определяю направление разработки. У нас нет графических дизайнеров, аккаунтов и эйчаров. Все делаем своими руками. Не знаю, хорошо это или плохо, но иногда хочется скинуть часть работы на менеджеров, которых нет.

2. Рабочая этика. Британцы не опаздывают н и к о г д а, а если опаздывают больше чем на минуту - предупреждают заранее. Британцы всегда включают камеры в зумах, а если не включают - значит зум проходит во время ланча. В России я однажды наблюдал обратную ситуацию: одна из известных в среде градостроительниц во время проектного брифинга с включенной камерой готовила борщ, пробовала его из поварешки, нарезала мяско. Про опоздания руководителей, выключенные камеры, звонки за рулем молчу.

3. 9-5 mentality. За все время в Space Syntax я перерабатывал два раза: уходил из офиса не в 6, а в 7-7:30 вечера. Ни разу не работал на выходных. В России у меня получалось так жить, только если я сам был руководителем проекта. В остальных случаях бывала и работа по 24 часа подряд. Здесь nine-to-five - это просто норма. Правда, до Швеции нам еще далеко 🙂

4. Прозрачность. В Space Syntax каждый сотрудник - это employee owner. Это значит, что у всех есть доля собственности компании, которая возрастает по мере выслуги лет, а также право голоса в принятии стратегических решений. У каждого, начиная с джунов, есть доступ к любым документам по любому проекту или работе офиса, бюджетам, расходам, business growth plan etc. За кадром остаются только личные ревью на других сотрудников.

5. Attitude. Этот пункт я могу раскрыть в двух словах - спокойное достоинство. Почти все директора в РФ были суетологами, многие с синдромом самозванца. Здесь совершенно другой общий вайб у всех коллег, начиная с джунов и заканчивая главой компании. Сразу понимаешь, что любая задача решаема. Если в ступоре - можно договориться с клиентом и партнерами о продлении срока, чтобы повысить качество работ. Методы исследований отработаны дсятилетиями, это тоже добавляет уверенности. Вдобавок ко всему, все между собой на равных: недавно директор возбужденно презентовал мне свои идеи о том, как классифицировать улицы новым методом и жадно требовал мой фидбек. Наверное, можно сказать, что компания больше ориентирована на процесс и его качество, в результате которого наверняка будет хороший результат. Раньше у меня чаще был другой опыт: сначала придумать результат, а потом уже разбираться с процессом.

Это основные пункты о том, как устроена работа в Space Syntax. Позже напишу, в чем специфика проектов и их разработки.

Читать полностью…

О городах и данных

#osmdata #spatialanalysis

История из OSM или где "развиваются" в Кувейте

Дано: страна Кувейт- маленькая страна на берегу Персидского залива, зажатая между Саудовской Аравией и Ираком. 90% страны - пустыня, есть один крупный город и несколько растущих маленьких городов.

Задача: нужно найти самые быстро застраиваемые, а значит, перспективные для бизнеса, районы страны на основе открытых данных.

Данные:

- берём данные по дорогам, зданиям и POIs из OSM

- не берём building footprints - Microsoft не хранит историю, только актуальный срез

- не берём снимки со спутника, так никто в команде никогда не делал image recognition, а на задачу 2 дня

- Не берем worldpop, kontur - там нет истории и есть большая погрешность

Решение:

1. Загрузить историю изменений инфраструктуры за последние несколько лет, пересечь с гексагональной сеткой

2. Посчитать абсолютную дельту за последние 3 года, 1 год и 6 месяцев; посчитать ежемесячную скорость прироста за последние 3 года, 1 год и 6 месяцев

3. Сделать вывод: район не развивается/ район был застроен год назад и нет новой застройки/ район все еще активно застраивается

4. Нанести результаты на карту. Найти 3-ий тип районов

5. Подтвердить картинку с помощью Local Moran's I - найти наиболее позитивно выделяющиеся кластеры

Инсайты из решения:

1. Можно верить только дорогам )
Если вы думаете что в России мало OSM данных, то вы точно никогда не занимались Кувайтом. Согласно OSM в Кувайте только в 1/4 главного города есть здания (way/relations=building), остальные люди видимо живут в шатрах🤷‍♀️. Тоже самое для POIs.
Остаются только дороги: они обновляются по спутникам,и поэтому отражают реальность (иногда с небольшой задержкой)

2. API Ohsome- самый удобный способ загружать историю OSM из Python. Подходит, если размер территории не большой, Иначе проще работать с архивами датасетов.
Документация: тут
Мой пример скрипта на загрузку дорог: тут

3. В странах, где мало данных, длина сегментов дороги варьируется от 1 м до 36 км, когда обычно сегмент не превышает 1 км. Поэтому при сцепке с сеткой гексагонов надо помнить, что одна дорога пересекает несколько гексов

4. Для расчета дельты изменений суммарная длина дорог подошла лучше количества из-за неоднородности длины сегментов.

5. Такой анализ помогает найти города, застраиваемые с нуля, но не помогает выявить уплотняемые территории (сравнение со спутником).

6. Данные о перемещении людей не помогают в такой задаче, поскольку появляются с лагом во времени - когда квартал уже застроен.

Читать полностью…

О городах и данных

Вот обещанная картинка, специально не добавила легенду - попробуйте догадаться, в районах какого цвета больше всего трущоб (разделение не идеально, но показательно)

Читать полностью…

О городах и данных

#phd_insights #about

Итак, я уже год считаюсь PhD-соискателем в Hebrew University в Иерусалиме на кафедре географии, что на факультете Social Science: ссылка для тех, кому интересно

Сразу должна оговориться, что мой путь нельзя назвать классическим, поскольку вместе с PhD я продолжаю работать full-time, чего обычно не делают. В моем случае профессор сам помогал мне искать работу - наверное, он что-то знает про академию🤔

Как устроен мой трек:
- Официально заявленный срок моего PhD - 4 года. Профессор говорит, что надо уложиться в 3🤷‍♀️
- Первый год отводится на написание proposal, который потом, нужно защищать перед комиссией, что тоже бывает не у всех. Остальное время на написание и защиту.
- На каждый семестр у меня определено обязательное число учебных часов (кредитов) по предметам, которые мы с научником вместе выбираем. За предмет нужно набрать не менее 70%
- Язык PhD английский, но курсы я могу брать на английском или иврите, что на самом деле переводится так: "в какой-то момент курсы на английском кончатся и придется брать иврит🤦‍♀️"

Подробнее про все это я напишу еще в отдельных постах.

О чем тезис
- Самый сложный на сегодня для меня вопрос, поскольку из-за войны вся учеба сдвинулась на 3 месяца - переводится как "профессор может не отвечать неделями" - и я все еще на стадии proposal.
Но если предположить, что заявленный title сохранится, то он звучит так: "The effect of remote and hybrid working on the urban equilibrium and the chances of post pandemic urban recovery"

Это переводится как: "тему сформулировали модно и широко, чтобы была возможность уточнить, в любую сторону". По факту я надеюсь, что пишу о том, как работа из дома (гибридная или фул-тайм) влияет на баланс спроса и предложения сервисов в разных районах города.
Подробнее про выбор темы и, разумеется, ее идею в следующих постах. Stay tuned

Читать полностью…

О городах и данных

#geoconnect
Всем доброе утро.

Напоминаем, что от тех, кто планирует решать задачу в рамках Geoconnect и зарегистрировался на трек "Дата инсайты", сегодня до конца дня ждём тестовое задание📄.

Без него участвовать в конкурсе не получится🤷‍♀

Читать полностью…

О городах и данных

Я с классной новостью, точнее спойлером, которая поможет укрепить и расширить наше маленькое и уютное гео аналитическое коммьюнити😊

Я заметила, что самый большой интерес на курсе вызывает разбор реальных задач бизнеса, на 2ом месте - нетворкинг и обсуждение вариантов решения.

Очень хотелось, чтобы это вышло за рамки курса, поэтому в первых неделях декабря мы вместе с @romanovgleb и @mashulkap проведём 2х недельный #GeoConnect.

Что такое #GeoConnect?
Это 2 недели мастер-классов, командное решение бизнес-задачи по геоаналитике и data science, нетворкинг, и поощрительные призы от нашего партнера Wildberries.

Следите за обновлениями в канале, собирайте команду и бронируйте время в своих календарях: 30.11 - 10.12 🤟

Читать полностью…

О городах и данных

Думаю, что вы все знаете, что в Израиле сейчас идет война. Если вы хотите и готовы финансово помочь, вот ссылки для пожертвований организациям, поддерживающим армию и пострадавшее население. Переводы доступны в том числе из-за рубежа.

Читать полностью…

О городах и данных

Недавно мире российский открытых геоданных появилась как будто чудесная новость : ЯК опубликовали открытый датасет "GeoDataReviews" с 500 тыс отзывов об организациях. Учитывая сколько парсингов написано для ЯК - давно пора)

Чем в теории полезен такой датасет:
- Для компаний это данные о конкурентах - организациях вокруг такого же профиля. Как минимум можно посчитать их количество вокруг, как максимум собрать эмоциональную оценку посетителей и сделать выводы об их сильных и слабых сторонах.

Для муниципалитетов и исследовательских институтов - это источник знаний о горожанах: где они чаще всего бывают, какие POIs наиболее или наименее привлекательные.

Однако по факту у датасета очень много НО, которые на мой взгляд делают его практически бесполезным.

Если не хочется читать НО, то вот ссылка на мой проект - можете там все сами посмотреть. В нем можно найти ноутбук с анализом и чисткой датасета, а также с семплом на 2400 адресов в формате geojson.

Теперь, что же не так с датасетом или как делать не надо):

Ощущение, что авторы файла специально старались максимально усложнить жизнь пользователю и сделать формат настолько неудобным, чтобы часть вообще отказалась его использовать: вроде бы открыли, но не для всех)

1. Во-первых, мы ничего не знаем о том каким образом были отобраны 500 тыс организаций - описание отсутствует. Например, проверка показала, что число организаций в датасете на дом не совпадает с ЯК, так же как и число отзывов (в основном 1/2 отзыва). Также непонятно можно ли верить популярность рубрик по городам. Уже этого достаточно, чтобы файл стал бесполезным)

2. Во-вторых, формат файла. "GeoReviews" не должны храниться в CSV/tsvk формате - для хранения геоданных есть специальные геоформаты. И что-то мне подсказывает, что в ЯК о них знают)

3. Из предыдущего пункта следует, что в этом файле нет, конечно, никаких координат. Ведь если вам очень надо, вы же без труда найдете как геокодировать 200к адресов?) Если нет, то заплатите яндексу или гуглу)). Что за селекцию на пользование геокодером предполагали авторы (у которых были координаты организаций) - непонятно.

4. Структура/содержимое файла: я несколько раз считала файл в python, чтобы убедиться, что мне не кажется) В файле нет заголовков столбцов, зато каждая ячейка начинается так: 'адрес=', 'рейтинг = '. Да, несложно распарсить это в таблицу - но почему сразу не дать данные в нормальном формате?! И, да, как полагается, в 900 строчках перепутан порядок колонок - в коде я их поправила быстро, но все равно неприятно.

Какой вывод: я не знаю, какие цели преследовал Яндекс открывая эти данные, но так как это сделано - максимально обесценивает усилия. Постаралась немного упростить вам жизнь, сделав ноутбук с чисткой и анализом, надеюсь кому-то поможет:)

Читать полностью…

О городах и данных

Делюсь с вами подборкой источников геоданных, великодушно собранной для вас @Denis_Murataev.
Этими источниками Денис с коллегами регулярно пользуются в Институте Генплана, так что тут только проверенное. Если вы делаете исследования по России, возможно, в этом списке вы найдете ссылки на недостающие источники информации.

Краткое описание от автора

Что есть?
социально-демографические данные и геоданные, покрывающие всю территорию РФ.

Зачем?
Большинство данных используются как прокси на имеющиеся закрытые данные, для их верификации и при отсутствии официальных данных пропорциональной замены данных при анализе территории.

Все ли источники содержат готовые датасеты?
Нет, для некоторых источников данных необходимо написать парсеры.

Как пользоваться данными?
Все данные хранятся в базе и при исследовании территории агрегируются в минимальную территориальную единицу и ее “зону влияния” (throughput radius, KNN)

Читать полностью…

О городах и данных

Итак, 3-ий поток почти набран - ну и скорость у вас😃💪👌

Осталось несколько мест на "Необходимую базу" и пара дней, чтобы решиться:)

Если вы хотели погрузиться в геоанализ, советую не откладывать, потому как если и будет 4 поток, то не раньше следующего июня- PhD само себя не напишет))

Читать полностью…

О городах и данных

📈Тут у классных ребят появилась вакансия гис-аналитика 😍

В отделе продуктов и исследований лаборатории пространственных данных при МИИГАиК открылась вакансия гис-аналитика. Они делают стартап в сфере PropTech и сейчас расширяют команду. В команде уже работают студенты прошлых потоков моего курса)

Что нужно делать
- Собирать, обрабатывать и анализировать геоданные
- Писать новые и оптимизировать существующие пайплайны получения и обработки геоданных
- Поддерживать и развивать базу геоданных
- Автоматизировать и оптимизировать рабочие процессы, разрабатывать новые инструментов для анализа данных (Python)
- Выполнять запросы от смежных команд

Навыки
- Уверенное владение QGIS
- Владение Python (numpy, pandas, geopandas, shapely, osmnx/networkx, requests)
- Умение работать с базами данных (PostgreSQL)
- Базовые знания математики и статистики
- Знание основ HTML
- Понимание принципов работы DS и ML
- Базовая визуализация пространственных данных
- Умение видеть за числами и картами физический смысл и способность находить причины явлений

Условия
- Официальное трудоустройство по ТК РФ
- Уютный офис в центре Москвы (м. Курская)
- Сильная и классная команда, с которой можно быстро расти
- Гибридный график работы
- Интересные и нестандартные задачи
- Отсутствие дресс-кода

Пишите в лс @dorozhnij

Читать полностью…

О городах и данных

Сегодня 3-ий пост по мотивам финальных проектов в рамках курса по геоаналитике.

Автор проекта @DrozdovLev исследовал, что влияет на решение людей добираться на работу на общественном транспорте. Результаты проекта планируется использовать для разработки стратегии по его улучшению и популяризации, в сотрудничестве с муниципалитетами и крупными компаниями.

Презентацию с красивыми картинками смотреть тут, описание проекта в посте ниже👇👇

Читать полностью…

О городах и данных

В сервисе DataLens от Яндекса есть возможность посмотреть и выгрузить данные по ДТП, которые отметили сами пользователи сервиса (не данные от ГИБДД). Работает немного криво (иногда пропадает кнопка выгрузки и нет фильтра на прошлые периоды, хотя данные есть), но все равно отличные данные для курсового проекта или небольшого исследования вашего района - напишите если будете что-то делать, посмотрим вместе.

P.S. Все жду когда скачать данные можно будет и на московском Продвижении.

Читать полностью…

О городах и данных

​​Дано:
Бизнес хочет расширить свою логистическую сеть объектов и начать развивать формат ПВЗ — пункты выдачи заказов. У бизнеса еще нет открытых ПВЗ и, следовательно, нет операционной статистики по таким объектам.

Задача:
Необходимо найти оптимальные места для размещения ПВЗ в городе N

Гипотеза:
Предположим, что конкуренты, как рациональные агенты, выбирают оптимальные места для размещения своих объектов. Исходя из этого предположения можно найти места в городе, которые похожи хотя бы на одно из мест, где расположены ПВЗ конкурентов.

Ограничение:
Решение можно использовать, если считать допущение выше верным. Но в обычной жизни другие агенты рынка не всегда размещают ПВЗ оптимально.

Когда применимо?
Когда нужно верхнеуровнево определить поисковые зоны для размещения объектов. После определения зоны можно исследовать рынок объявлений об аренде и искать подходящие помещения.


Данные:
1. данные о существующих ПВЗ конкурентов с сайта wildberries и ozon.
2. население (реформа ЖКХ, расчетная численность жителей в ИЖС, исходя из среднего размера д/х)
3. объекты инфраструктуры (OSM)
4. дорожный граф и OSM

Получившееся решение:

Комментарий: из-за неоднородности пространства сначала необходимо кластеризовать территорию, а затем искать похожие места внутри каждого из кластеров.

1. Создать гексогональную сетку.
2. Отфильтровать сетку так, чтобы остались только гексы, где есть дома и дороги
3. Построить 10-мин изохроны на основе центройдов гексогональной сетки
4. Рассчитать метрики центральности на основе графа УДС
5. Агрегировать данные инфраструктуры и населения по изохроне
6. Стандартизировать данные
Уменьшить размерность данных, используя PCA
7. Провести кластерный анализ методом k-средних
8. Посчитать количество ПВЗ в каждом кластере. Исключить из анализа кластеры, где нет ПВЗ.
9. В каждом из кластеров выделить гексы, где еще нет ПВЗ. Посчитать их степень схожести на основе косинусного расстояния с гексами, где расположены ПВЗ.
10. Отобрать с помощью фильтра локации с косинусным расстоянием больше 0,95.

Выводы по использованным методам:

1. Агрегация по гексам может быть слишком усредненной — дом на углу перекрестка и в глубине района может иметь одинаковый вес. Чтобы сделать инструмент более точным, можно попробовать агрегировать параметры по домам вместо гексагонов (побочный эффект: длительность расчетов увеличится в разы)

2. Даже без привязки к поиску потенциальных мест размещения ПВЗ, инструмент дает понимание, где находится центральная часть города, что может пригодится для ряда других задач.

3. Если у города достаточно однородная пространственная структура (например, равномерно распределено население, инфраструктура), то в результате применения инструмента для размещения ПВЗ может подойти большая часть города. В этом случае эффективность инструмента будет крайне низкая

4. Одной из гипотез было, что локации ПВЗ значимо зависят от пешеходного потока. Однако из-за недоступности данных, были рассчитаны метрики центральности (можно также попробовать использовать метрики Space Syntax). На этих мет гипотеза подтвердилась - чем больше плотность УДС, betweenness centrality, тем больше ПВЗ можно наблюдать в локации.

Читать полностью…

О городах и данных

Хотя мой фокус в урбанистике - это применение математических подходов в городских исследованиях, я стараюсь читать о разных аспектах этой науки.

Один из моих источников информации - это канал Лены Пудовой. В своем канале автор рассказывает об актуальном и прикладном в российской урбанистике.

Мои любимые темы - то, что не найти в других каналах об урбанистике:

- анонсы конференций и последние события - среди них даже новая реклама девелоперов

- стримы и интервью с интересными персоналиями из мира урбанистики

Отдельный респект автору за качество подачи информации: идеи структурированы, текст легко читается. Например, для того, чтобы помочь читателю найти работу автор написала алгоритм, которому легко следовать👌

Кстати, если вдруг вы надумали искать работу, Лена собрала список из 80 арх бюро, работающих в урбанистике: смотреть тут

Еще периодически автор собирает тусовки урбанистов, так что следите за анонсами😉

Читать полностью…

О городах и данных

Артём тут написал об особенностях работы в одной из ведущих мировых лабораторий городского анализа. Читаешь и понимаешь, почему они "ведущие".
Интересно, что я поймала похожие ощущения, работая с испанцам, вот только камеры мы не включаем- всё интроверты🤷‍♀

Читать полностью…

О городах и данных

За время моего молчания у меня произошло несколько связанных с темой канала событий: прошел 2-ой поток курса, началось PhD и случилось несколько интересных проектов на работе. Как результат, много инсайтов, много проверенных гипотез и много ошибок🤷‍♀️, которыми я (и не только я)) планирую делиться с вами в ближайшие месяцы. Стей тюнд, как говорится.

Читать полностью…
Subscribe to a channel