begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

Хорошая статья на Хабре про девушку которая в виду отсутствия данных о качестве воздуха в Ереване самостоятельно начала собирать датчики [1] и сделала сайт для публикации данных. Лучший способ побуждать любое государство публиковать данные - это создавать данные. Иногда, правда, у государств просто нет ресурсов. Например, Армения не самая богатая страна и данных о качестве жизни не так уж много.

Тут и сайт есть, и данные и сообщество будет формироваться. Просто отличная инициатива!

А мы обязательно добавим эти данные в каталог данных Open Data Armenia [2]

Ссылки:
[1] https://habr.com/ru/articles/755586/
[2] https://data.opendata.am

#armenia #opendata #lifequality #airquality #sensors

Читать полностью…

Ivan Begtin

Госзатраты. Перезапуск

К десятилетию проекта (которое состоится в начале 2024 года) мы планируем перезапуск общественного проекта «Госзатраты» (clearspending.ru) и будем рады фидбеку, пожеланиям и критике. Если вы давно пользуетесь сайтом, API или открытыми данными проекта, нам будут полезны ваши пожелания как по сайту, так и по содержанию баз данных и API. А если еще не пользуетесь, но интересуетесь финансовыми данными или мониторите госзакупки, можете написать о том, каких функций вам не хватает в сторонних проектах. Писать можно в комментарии или в лс (@k0shk), кому как удобнее.

За последний год аудитория нашего проекта составила почти 2 млн уникальных пользователей, надеемся, что с новой версией сайта и базы данных она продолжит расти.

Читать полностью…

Ivan Begtin

Ещё один интересный каталог с глобальными данными Awesome GEE Community catalog [1] создаваемый сообществом пользователей Google Earth Engine, я писал о нём год назад [2] и с тех пор каталог обрёл новый сайт и много больше данных.

Теперь он включает более 322 терабайт данных, около 1 миллиарда объектов и чуть менее 1 миллиона изображений.

Особенность этого каталога в том что это, по сути, коллекция страниц где могут быть или не быть ссылки на выгрузку данных, но всегда есть код для подключения выбранного слоя/данных к Google Earth Engine.

Ссылки:
[1] https://gee-community-catalog.org
[2] /channel/begtin/4287

#datacatalogs #opendata #datasets #geodata #google

Читать полностью…

Ivan Begtin

Я регулярно пишу про доступные в России/о России открытые данные [1] и можно много чего найти по тегу #datasets здесь в телеграм канале. К этой рубрике не могу не добавить что главная сложность в поиске данных не в том что их нет, а в том что они фрагментированы до невозможности, не систематизированы и рассеяны по множеству внешних сервисов. Часть региональных властей создают собственные ГИС системы, другие используют корпоративные инсталляции ArcGIS Server, а довольно многие используют облачные услуги ArcGIS, а то есть если не покопаться в коде сайта или если не знать то данные и не найти.

Вот наглядный пример, карта экотуризма Татарстана [2], внутри ArcGIS сервер в облачной версии [3]. Не знаю как они находят способ оплачивать его, но факт остаётся фактом, загружают данные и в 2023 году и загружали ранее и я лично их никоим образом не осуждаю.

Ссылки:
[1] /channel/begtin/5078
[2] https://ecotourism-map.tatar
[3] https://services-eu1.arcgis.com/g4SaReSjB9tCbuDt/ArcGIS/rest/services

#datasets #opendata #geodata #tatarstan

Читать полностью…

Ivan Begtin

Отвлекаясь от темы данных, не могу не написать что всё идёт к тому что до конца года Википедию в России заблокируют. Ничего хорошего в этом, разумеется, нет, а главный признак этого события в том что как на дрожжах появилось несколько альтернатив:

1) Большая российская энциклопедия в какой-то момент обновили свой сайт [1], приглашают авторов и сам ресурс стал выглядеть, относительно, приличнее, но общий объём статей, скажем так, несущественнен по мировым меркам. Энциклопедия существовала и раньше, в неё было "вбухано" много денег и я писал про них много раз, в последний раз в 2021 году, 2 года назад [2].

2) Знание.Вики [3] относительно новый проект Общества Знание, похоже что активно запущенный совсем недавно. Внутри его движок MediaWiki и они активно зазывают авторов, позиционируя проект как авторский и экспертный. По ощущениям, многое берётся из Википедии, но это не полный импорт, потому что нет страниц даже каких-то базовых понятий, например, не все страны.

3) RUWIKI [4], по сути, это клон русскоязычной Википедии с цензурированием всех тех страниц которые Роскомнадзор хотел бы чтобы цензурировались в самой Википедии. Поскольку это клон то объёмы сильно превосходят Знание.Вики и БРС, но в целом это вторичный продукт по отношению к Википедии поскольку никаких новаций в нём нет, только отцензурированная версия Википедии. Внутри движок Mediawiki

Я бы сказал что всё это сигналы что Википедию заблокируют до конца года, а в школах начнут продвигать использование одного из этих проектов или всех трёх, не берусь судить заранее, думаю что и сами инициаторы не знают до конца как это будет. Почему в школах? Потому что уже в университетах выше потребность в специализированных знаниях и если ищут в русскоязычной Википедии то только чтобы потом переключиться на другой язык или чтобы найти первоисточники и их изучить.

Впрочем речь не только об этом. Википедию неправильно рассматривать только как энциклопедию, это огромная свободно распространяемая база данных используемая Google, Bing, Yandex и другими для поисковых индексов и используемая почти всеми генеративными ИИ и ещё много кем. Собственно классические поисковые системы "отжирают" у Википедии больше трафика чем все вот эти потенциальные альтернативы или аналогичные альтернативы в других странах (Китай, Baidu).

Всё это российские "альтернативы" заменить не могут при всём желании, особенно Большая российская энциклопедия, где даже нет и не было условий использования материалов и возможности их распространения.

В любом случае я не перестаю повторять именно блокировка популярных ресурсов вроде Порнхаба или Википедии более всего вносит вклад в массовое обучение рядовых россиян для использования VPN сервисов для обхода блокировок.

Так что лично я предсказываю блокировку Википедии Роскомнадзором до конца года, со всеми вытекающими последствиями.

UPDATE:
Туда же в список альтернатив Википедиии:
- Энциклопедия Руниверсалис [5], также полный клон русской википедии
- Энциклопедия Кирилла и Мефодия [6] не вики проект и достаточно давний, по размерам меньше БРЭ, но под свободной лицензией

А также большая подборка ссылок на русскоязычные Вики проекты и инструменты работы с проектами фонда Wikimedia [7]

Ссылки:
[1] https://bigenc.ru
[2] /channel/begtin/3236
[3] https://znanierussia.ru/articles/Заглавная_страница
[4] https://ru.ruwiki.ru
[5] https://руни.рф
[6] https://megabook.ru
[7] https://github.com/alexeilutay/wiki4journals

#russia #wikipedia #censorship

Читать полностью…

Ivan Begtin

В рубрике неизвестных каталогов открытых данных в России подборка ссылок на доступные геоданные:
- https://fires.dvinaland.ru/geoserver/web/ геосервер по ГИС по пожарам в Ростовской области
- http://geo3d.scanex.ru:8090 WMS сервер компании Scanex на базе MapProxy
- https://geoanswer.ru/geoserver/web/ геосервер компании Geoanswer
- https://geo.uriit.ru - геосервер ХМАО на базе NextGIS
- https://geo.uriit.ru/mp/mapproxy WMS сервер ХМАО на базе MapProxy как часть геопортала на базе NextGIS
- http://gisa.aari.ru:8080/geoserver/web/ геосервер ААНИИ
- https://gis.dornadzor-sz.ru/drn/rest/services ArcGIS REST API сервера компании Дорнадзор
- http://gis.esimo.ru/eko/web/ геосервер ЕСИМО
- http://gis-vo.volganet.ru/arcgis/rest/services ArcGIS сервер Волгоградской области
- http://mapserver.cepl.rssi.ru:8080/geoserver геосервер Центра по проблемам экологии и продуктивности лесов РАН.
- https://portal.kgilc.ru:6443/arcgis/rest/services ArcGIS сервер Мурманской области

#opendata #datasets #geodata #russia

Читать полностью…

Ivan Begtin

Тут совсем недавно Ольга раскопала [1] контракт по переносу российского портала data.gov.ru на Гостех и прам-парам "неожиданно" оказалось что российское Минэкономразвития собиралось потратить на 5 месячный "перенос" портала больше средств чем потратило на его разработку и поддержку за 10 лет. Хотя итоговая сумма и поменьше, 30.9 миллионов рублей, но сути это не меняет, работы по завышенной стоимости, с рамочным ТЗ и полной неопределённостью что там будет в итоге.

И Вы спрашиваете почему, после этого всего, я отношусь к Гостеху столь негативно, потому что никакой экономии там нет и принципиально быть не может. Гостех - это внутригосударственная искусственная монополия, всё будет только дороже И всё, опять же, возвращается к вопросу, а что есть Гостех? Набор несвязанных сервисов Platform V от Сбербанка? Или презентации демонстрируемые сотрудниками одноимённого ФКУ?

Вторая часть этой истории - это рамочное ТЗ. Понятно что у Минэкономразвития нет и не может быть компетенций не то что в открытых данных, но и в управлении данными в принципе. Все их инициативы в этой области вроде их собственного портала с данными [2] превратились в тыкву. Они поленились даже заказать какому-то своему подведу/рядом сидящему подрядчику разработку ТЗ. Почему? Потому что будь оно, его слишком легко было бы раскритиковать.

В любом случае позитивных ожиданий от этой "переделки" портала открытых данных нет.

Ссылки:
[1] /channel/ahminfin/606
[2] https://data.economy.gov.ru

#opendata #data #policy #procurement #russia

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них Historic Environment Scotland государственное учреждение в Шотландии отвечающее за ведение каталога объектов исторического наследия и ведущие одноимённый портал [1] хотя объектов на самом портале не так много, чуть менее 2000, интересно что кроме галереи объектов
у них есть ещё и поиск по картам с визуализацией исторических места: замков, исторических зданий, мест битв и так далее. По каждому историческому месту есть подробная справка о том что это такое и чем оно важно, а также все данные публикуются как открытые данные и, более того, географические объекты предоставляются через API по стандартам WFS и WMS, их можно сравнительно просто подключать в свои геопродукты [3].

Проект можно отнести к Digital Humanities и рассматривать одновременно как исторический и как проект с открытыми данными.

Ссылки:
[1] https://www.historicenvironment.scot
[2] https://hesportal.maps.arcgis.com/apps/Viewer/index.html?appid=18d2608ac1284066ba3927312710d16d
[3] https://portal.historicenvironment.scot/downloads

#opendata #datasets #digitalhumanities #scotland #history #geodata

Читать полностью…

Ivan Begtin

Typogram [1] диаграммы для тех кто не забыл что такое ASCII и псевдографику в терминалах. Реализовано в виде Javascript библиотеки от Google, содержит множество примитивов и позволяет рисовать майндмапы, деревья, гриды, послойные диаграммы и даже графики с временными рядами.

Выглядит так просто что просто прекрасно. Можно сказать воплощение принципа clean & simple при этом идеально выглядело бы встроенным в Markdown и поддерживаемом Markdown редакторами.

Причём, в отличие от Mermaid, другой библиотеки для диаграмм, в typogram объекты описываются типографически, а не семантически. Это рисунок из символов превращаемый в схему, а не слова/язык разметки.

Ссылки:
[1] https://google.github.io/typograms/
[2] https://github.com/mermaid-js/mermaid

#opensource #digramming #cleanandsimple

Читать полностью…

Ivan Begtin

В рубрике бизнеса на открытых данных Social Explorer [1], продукт и одноимённая компания в США предоставляющая аналитический сервис с визуализацией данных на картах с детализацией до отдельных графств (Counties), аналог российских муниципальных образований. Практически все данные в их продукте - это общедоступные данные переписи США, избирательных комиссий, отчетов ФБР по преступности и других статистических индикаторов публикуемых в США с довольно высокой детализацией. Особенность продукта в том что он почти полностью ориентирован на университетскую подписку. Университеты приобретают подписку и предоставляют доступ преподавателям и студентам. Поэтому в платформе отдельно реализованы разделы по быстрому старту по тому как учить и как учиться с ней работать.

Ссылки:
[1] https://www.socialexplorer.com

#startups #opendata #geodata #usa

Читать полностью…

Ivan Begtin

Как и где искать данные? Я несколько раз ранее писал про разные поисковые системы по открытым / доступным данным и список поисковиков у меня постоянно обновляется так что в этом посте их актуализированная подборка:

- Google Dataset Search - единственный поиск от крупного игрока поисковых систем, в данном случае Google. Ищет по датасетам найденным поисковой системой на веб страницах где размечен объект DataSet из Schema.org. Это, с одной стороны делает его одним из крупнейших поисковых индексов по данным в мире (45 миллионов наборов данных из 15 тысяч источников на начало 2023 года), а с другой очень сильно поиск отравлен сеошниками, даже если искать бесплатные данные. Также результаты этого поиска теперь подмешиваются в основной поиск Google при релевантных запросах

- OpenAIRE - это не в чистом виде поиск по данным, но поиск по результатам научной деятельности, Данных там тоже много, от 5 до 17 миллионов наборов данных, смотря как классифицировать объекты поиска поскольку кроме машиночитаемых таблиц там к данным отнесены ещё и изображения, видео и аудио записи. Тем не менее, даже со всеми оговорками, это один из крупнейших поисковиков по данным в мире.

- DataCite Search - поисковик от компании DataCite выдающей DOI исследователям публикующим данные. Плюс в том что их база наборов данных весьма обширна, это фактически все наборы данных публикуемые исследователями официально. Минус в том что контроля за назначением DOI нет и многочисленные ссылки там ведут просто на статьи и другие объекты, но не данные. Тем не менее база объектов поиска там обширна, более 20 миллионов записей и работа над качеством продолжается. Это один из наиболее крупных поисковиков по научным данным.

- BASE - Bielefeld Academic Search Engine, академическая поисковая система от Билефельдского университета в Германии. Охватывает более чем 339 миллионов результатов научной деятельности из которых не менее 18.5 миллионов составляют наборы данных. Конечно надо делать оговорку на то что в основе поиска по данным там индекс DataCite

- FindData - поисковая система по научным данным от Компьютерного сетевого информационного центра при Китайской академии наук. Тесно интегрирован с другим их проектом, ScienceDb. Преимущественно ищет по китайским и связанным с Китаем источникам научных данных.

- Research Data Australia - поисковик по данным как часть научной инфраструктуры Австралии. Более 200 тысяч наборов данных, только из местных каталогов данных, причём охватывает как государственные, так и научные каталоги, а также каталоги геоданных. Поддерживает поиск по территориям на карте, достаточно выделить участок карты Австралии и он выдаст все связанные наборы данных.

- Data.europe.eu - общеевропейский портал открытых данных постепенно вбирающий в себя все наборы данных из национальных порталов Евросоюза и из геопорталов в рамках инициативы INSPIRE и не только. Крупнейший наднациональный портал открытых данных в мире.

- Zenodo - крупнейший репозиторий научных данных в Европейском союзе и крупнейшая инсталляция открытого ПО для ведения коллекций цифровых объектов Invenio. Используется учёными по всему миру для публикации своих данных из-за бесплатности и автоматической выдачи DOI.

#opendata #datasets #data #datasearch

Читать полностью…

Ivan Begtin

В рубрике полезных инструментов для работы с данными Jupyter AI [1] продукта который приносит AI в Jupyter Notebook. Фактически инструмент позволяет объяснять код, генерировать новые тетрадки, искать документацию и переписывать код. Выглядит полезно хотя его ещё не пробовал, но точно стоит попробовать создавая какую-то новую тетрадку в Jupyter.

Ссылки:
[1] https://jupyter-ai.readthedocs.io/en/latest/index.html

#opensource #ai #jupyter

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них канадский портал публикации микроданных опросов посвящённых COVID-19 CITF DATA PORTAL [1] где CITF расшифровывается как he COVID-19 Immunity Task Force, рабочая группа по иммунитету от COVID. В отличие от порталов открытых данных подобные порталы опросов не бывают открытыми в виду того что содержащиеся в них данные содержат персональные данные опрашиваемых или же поскольку персональные данные могут быть из них восстановлены. Такие ресурсы ещё называют каталогами микроданных, их довольно много в мире.

Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения.

Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3].

Ссылки:
[1] https://portal.citf.mcgill.ca/
[2] https://www.covid19immunitytaskforce.ca
[3] https://www.obiba.org

#opendata #datacatalogs #microdata #canada

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных CC-MAIN-2021-31-PDF-UNTRUNCATED [1] коллекция из 8 миллионов PDF документов обнаруженных с помощью Common Crawl и выгруженных в единую коллекцию. Включает как сами файлы, так и метаданные по каждому файлу, включая геолокацию каждого документа по IP сервера и метаданные извлечённые с помощью pdfinfo. Отличается от Common Crawl тем что документы в полном размере, а в Common Crawl они обрезаны все до 1 мегабайта.

На момент создания это крупнейший единый корпус PDF документов с наиболее очевидным применением в задачах по digital forensics (цифровому дознанию).

Кстати, для тех кто интересуется, в принципе, данными по этой теме, Digital Corpora [2] это как раз проект с коллекциями документов и данных для обучения цифровому дознанию. Кроме PDF документов там ещё немало всего, дампов устройств, образов дисков, дампов сетевой активности и коллекций файлов.

Ссылки:
[1] https://digitalcorpora.org/corpora/file-corpora/cc-main-2021-31-pdf-untruncated/
[2] https://digitalcorpora.org

#opendata #security #forensics #datasets

Читать полностью…

Ivan Begtin

В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience

Читать полностью…

Ivan Begtin

Python внутри MS Excel [1] - это признание востребованности языка для дата-анализа и тем что Python уже стал стандартом де-факто для всех кто данные обрабатывает. Но то что только в облаке Microsoft Cloud сильно ограничивает корпоративное его применение для всех кто в облаке работать не готов.

Для тех кто использовал/использует MS Excel для очистки и обогащения данных не могу не напомнить про OpenRefine [2], продукт в котором Python (Jython) был встроен с самого начала. Когда надо полуавтоматически/полувручную проверять табличные данные - это незаменимый инструмент.

Ссылки:
[1] https://techcommunity.microsoft.com/t5/microsoft-365-blog/introducing-python-in-excel-the-best-of-both-worlds-for-data/ba-p/3905482
[2] https://openrefine.org

#microsoft #excel #datatools

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них большая часть переписей населения в Южной Америке работает на ПО Redatam [1], оно же используется во многих странах Африки и Юго-Восточной Азии. Это продукт разработанный в Экономической комиссии для Латинской Америки и Карибского бассейна (ECLAC), специализированном подразделении ООН. На сайте продукта собраны и ссылки все опубликованные переписи населения и иные опросы в 24 странах [2], а также примеры микроданных [3].


Ссылки:
[1] https://www.redatam.org/en
[2] https://www.redatam.org/en/online-process
[3] https://www.redatam.org/en/microdata

#opendata #census #datasets #datacatalogs

Читать полностью…

Ivan Begtin

Теперь уже 7055 каталогов данных в реестре каталогов данных registry.commondata.io из которых как минимум 5393 потенциально индексируемых в поиск. Много это или мало? Много. В dataportals.org всего 598 порталов, в Datashades.info 530 инсталляций CKAN, в re3data.org 3125 порталов научных данных.

Самое сложное - это собирать описания всех записей, а для этого нужны метрики качества. Для любого дата проекта нужны метрики качества и автоматизация их улучшения.

Вот в данном случае это референсная база данных, не транзакционная, а справочная для любых других проектов по систематизации данных. Полнота метаданных имеет значение и поэтому метрики именно про эту полноту: есть ли какое-то поле, ненулевое ли оно и так далее.

Вот чего не хватает так это простой системы метрик которую можно было бы пристыковать к базе данных в виде СУБД или в виде CSV/NDJSON файла.

Существующие движки оценки и мониторинга качества данных не подходят. Какие существуют альтернативы кроме как изобретать свой велосипед?

#opendata #datatools #metadata #datacatalogs #commondataindex

Читать полностью…

Ivan Begtin

В рубрике интересных поисковых систем Openverse [1] поисковик по изображениям и аудио опубликованным под свободными лицензиями Creative Commons или в статусе Public Domain. Ищет по более чем 700 миллионам объектов, предоставляет открытое API [2], основные источники: Flickr, iNaturalist и Wikimedia Commons [3], а для реализация поиска используют индекс Common Crawl. У проекта полностью открытый код [4] (внутри Python, Django, Typescript, Vue). Данные собираются с помощью Apache Airflow, а внутри поисковика Elasticsearch и сотни контрибьюторов. Очень живой и развивающийся проект

До него существовал поиск на сайте Creative Commons, но теперь он превратился в мета-поиск с выбором одной из поисковых систем [5].

Ссылки:
[1] https://openverse.org
[2] https://api.openverse.engineering/v1/
[3] https://openverse.org/sources
[4] https://github.com/WordPress/openverse
[5] https://search.creativecommons.org

#openapi #searchengines #opensource

Читать полностью…

Ivan Begtin

В рубрике интересных каталогов данных Sentinel Hub Public Collections [1] каталог 46 наборов данных снимков земной поверхности опубликованных в рамках проекта Sentinel Hub, компании Scorpius Labs из Словении.

Особенность в том что каталог основан на коде Amazon Open Data Registry [2] и все описания наборов данных хранятся в репозитории на Github в виде YAML файлов. Сами данные доступны под лицензией CC-BY 4.0 и являются данными из проекта Copernic, агентства ESA и других источников обработанные в Sentinel Hub.

Ссылки:
[1] https://collections.sentinel-hub.com
[2] https://registry.opendata.aws

#opendata #datacatalogs #geodata

Читать полностью…

Ivan Begtin

В рубрике интересных продуктов по работе с API Metatype [1], платформа для декларативной разработки API, как сами создатели его позиционируют, продукт позволяющий проектировать API не будучи программистом. Внутри всё построено вокруг Typegraph [2], одновременно идеи и одноимённого пакета для Python с помощью которого описывается спецификация API. У продукта своя система типов, своя система управления доступа к ресурсам, интеграция с Prism, Deno и другими инструментами и ещё много чего.

Похоже что он годится как элемент строительного блока для построения собственной API платформы, хотя и удивляет что авторы игнорируют стандарт OpenAPI кроме как использования его спецификации для импорта описаний [3]

Выглядит интересно, а ещё интереcно что команда разработки явно вкладывается в документацию и, похоже, делают продукт под классическую нынче модель инвестиций когда есть корневой продукт с открытым кодом и облачная платформа на его основе. Облачную платформу пока не видно, но явно она появится.

Ссылки:
[1] https://metatype.dev
[2] https://metatype.dev/docs/concepts/typegraph
[3] https://metatype.dev/docs/guides/importing-openapi-definitions

#opensource #api #datatools

Читать полностью…

Ivan Begtin

Про реестр каталогов данных Common Data Index и будущий поиск по ним я регулярно рассказываю и сейчас продолжу. Сейчас в реестре чуть менее 5000 каталогов с данными, количественно более всего каталогов с геоданными чаще всего представленных в виде серверов ArcGIS и Geoserver, по объему сейчас собранных данных более всего открытых данных с некоторыми оговорками.

1) Если внести все имеющиеся в листе ожидания инсталляции ArcGIS Server и ArcGIS Hub то реестр моментально превратится в каталог геокаталогов поскольку только в США у госорганов около 5 тысяч открытых инсталляций ArcGIS Server и у ещё по всему миру около 20 тысяч сайтов у SaaS сервиса ArcGIS Hub. Даже если их пофильтровать и убрать пустые и недоступные то останется не меньше 5 тысяч. Я до сих пор думаю что с этим делать поскольку превращать реестр каталогов данных в реестр каталогов геоданных совсем не было планов:) Но возможно придётся, или придётся его разделять. Не перестаю повторять что геоданных, количественно, в мире более всего, главное правильно искать

2) Для геоданных почти всё свелось к стандартам Open Geospatial Consortium (CSW, WFS, WMS, WCS, WMTS, WPS и др.). Большая часть геопорталов работает по этим стандартам и даже у ArcGIS серверов экспортируются данные по этим протоколам, хотя это и не все знают и это не вынесено в интерфейс REST API, но по факту есть.

3) Очень мало сертифицированных общедоступных каталогов данных с проверкой их качества. Только CoreTrustSeal и несколько научных сертификаций. В лучшем случае они охватывают 200-300 каталогов научных данных, а во всех остальных случаях нет ни методик, ни тех кто проверяет, ни стандартов проверки и тд. Отделить доверенные репозитории от недоверенных требует отдельно методики.

4) Более 90 видов ПО для открытых каталогов данных не считая in-house разработок. При этом не всё специализированно каталоги данных, например, реестры наборов данных часть систем раскрытия научных результатов. С одной стороны это очень много, с другой стороны больше проблем не с их разнообразием, а с очень разным качеством ведения метаданных.

5) Из всех видов каталогов данных только CKAN идентифицируется инструментами вроде BuiltWith. Буквально все остальные там не находятся и, в принципе, при том что BuiltWith лидер этого рынка данных по технологиям в вебе, видно что они сфокусировались только на быстро монетизируемых частях продукта, а альтернативы им и того хуже. В общем нехватает хороших technology discovery инструментов

6) Открытые научные данные наиболее очевидно монетизируемые как минимум гигантами вроде Elsevier с их продуктом Data Monitor. И это отдельная большая научного комплаенса который крупные игроки научной инфраструктуры сейчас продают помогая мониторить соблюдения требований научных регуляторов.

#opendata #datacatalogs #thoughts #commondataindex

Читать полностью…

Ivan Begtin

В список поисковых систем по данным, который я ранее публиковал, можно добавить GeoSeer [1] единственный известный мне поисковик по точкам подключения к гео API по всему миру. Охватывает точки подключения к WFS, WMS, WCS, WMTS и около 3.5 миллионов таких точек.

Существует в подписочной бизнес модели с оплатой за тарифы доступа к API.

При этом сам поисковик выглядит слегка кустарно и с 2022 года в нём не обновляется статистика, а с 2020 года автор(-ы) перестал публиковать посты в блоге. Тем не менее, даже с учётом этих ограничений, это один из немногих существующих поисковиков по геоданным в мире.

Ссылки:
[1] https://www.geoseer.net

#opendata #datasearch #geodata #spatial

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных первый набор данных от Overture Maps Foundation Overture 2023-07-26-alpha.0 [1] это данных о 52 миллионах местах и 785 миллионах зданий по всему миру, а также карта дорожной сети. Огромный датасет под лицензией ODbL. Причём данные в форматах Parquet, в виде доступа через SQL на AWS или Azure или через DuckDb. Всё вместе очень интересно, уже хочется нарезать его по странам, территориям и регионам.

А я напомню что Overture Maps Foundation - это некоммерческий фонд созданный big tech компаниями Amazon. Meta и Microsoft и прибившимися к ним Tom Tom и Esri. К фонду неоднозначное отношение в сообществе OpenStreetMap, что не мешает нам следить за их деятельностью.

Ссылки:
[1] https://overturemaps.org/download/overture-july-alpha-release-notes/

#opendata #datasets #bigdata

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных визуализация и набор данных по тенденциям роста растений (надпочвенного покрова) в Евразии. Охватывает всю Среднюю Азию, Монголию и часть России и Китая. По выводам там получается что зелёного покрова за 20 лет стало скорее больше. А само исследование проводилось на базе спутниковых снимков MODIS 2002–2020 (проект NASA) [2].

У исследования полностью опубликованы данные, общим объёмом 1.2Gb.

У исследователей из той же группы есть похожая публикация по кавказскому региону с охватом Армении, Грузии, Азербайджана и частично Турции, России и Ирана. Также с открытыми данными.

Ссылки:
[1] https://silvis.forest.wisc.edu/data/eurasia-trends/
[2] https://modis.gsfc.nasa.gov
[3] https://silvis.forest.wisc.edu/data2/vegetation-change-grasslands-caucasus/

#opendata #caucasus #middleasia #datasets #vegetation

Читать полностью…

Ivan Begtin

Linee Guida recanti regole tecniche per l’apertura dei dati e il riutilizzo dell’informazione del settore pubblico [1] свежее руководство для органов власти в Италии по публикации открытых данных. Весьма детальное, хорошо проработанное, с чёткими рекомендациями и требованиями. В частности рекомендуют везде использовать CC-BY 4.0 в качестве лицензии объясняют это в сравнении с другими лицензиями CC0, CDLA 2.0, ODBL и другими.

Текст полезный хотя и на итальянском языке, в основном он понятен.

Ссылки:
[1] https://www.agid.gov.it/sites/default/files/repository_files/lg-open-data_v.1.0_1.pdf

#opendata #guidelines #italy

Читать полностью…

Ivan Begtin

Любопытный доклад Cross-Border Data Policy Index [1] об уровне закрытости местных данных при кросс-граничной передаче.

Авторы доклада из Global Data Alliance объединяющего многочисленные глобальные компании в сфере цифровых продуктов, ритейла, страхования, здравоохранения и др. В общем всех тех кто зарабатывает на том что их бизнес глобален.

На картинке можно увидеть что самые жёсткие запреты теперь в России и в Китае.

Правда сам текст доклада короткий и скорее он инфографика чем предложение для регулирования, но в целом отражает позицию глобальных компаний - чем больше ограничений, тем хуже их бизнес и международная торговля.

Это важно помнить понимая это не позиция защиты данных пользователей, а позиция экономической выгоды причём именно для этой группы бизнеса.

Ссылки:
[1] https://globaldataalliance.org/resource/cross-border-data-policy-index/

#data #privacy

Читать полностью…

Ivan Begtin

В рубрике интересных наборов данных Astropedia [1] портал геологических и географических данных о планетах Солнечной системы, охватывает все планеты и часть их спутников. Создан и поддерживается USGS совместно с NASA (что показательно, занимается им Геологическая служба США).

Данные включают, как растровые карты пригодные для интеграции в ГИС, так и данные справочников и номенклатур, данных измерительных станций и так далее.

У каждого набора данных много подробностей и метаданных по контролю качества, тому в какой среде он создан и как его использовать и так далее. А интерфейс каталога включает не только перечень наборов данных, но и навигацию через выбор объекта в солнечной системе.

Это хороший пример современного курируемого каталога исследовательских данных по очень специфической теме.

Ссылки:
[1] https://astrogeology.usgs.gov

#opendata #datasets #astonomy #astrogeology

Читать полностью…

Ivan Begtin

Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch

Читать полностью…

Ivan Begtin

Я как могу сдерживаюсь чтобы не комментировать последние законодательные инициативы в РФ, во первых чтобы не портить себе аппетит, во вторых чтобы запасы иронии не исчерпались. Обращу лишь внимание на законопроекты №346588-8, №346769-8 и №346750-8, запрещающие участие граждан РФ в незарегистрированных в специальном реестре иностранных некоммерческих организациях. Об этом совсем недавно писали в OpenNET [1] и о том что большая часть опенсорс разработок как раз делают НКО зарегистрированные в США и в Европе, пример, Linux Foundation и потому что российские правоприменители могут, с лёгкостью предположить, что эти организации деятельность в России ведут.

Я вот лично являюсь до сих пор членом НКО Clarity International посвящённой развитию простого языка [2], если меня ещё не исключили за неуплату членских взносов, конечно. Какова вероятность что она будет зарегистрирована в этом реестре? Нулевая

В общем-то в зоне риска все кто хоть какой-то профессиональной деятельностью в мире занимается. А законопроекты эти, как бы намёк, мол валите отсюда и от гражданства отказывайтесь.

Другой законопроект, про "запрет использования иностранных почтовых сервисов для регистрации в российских" звучит даже не странно, а очень странно. Что такое иностранные почтовые сервисы? Вот у меня есть почта в зоне .com, она иностранная? А если почтовые сервера в зоне .ru, тогда российская? А если эти почтовые сервера в зоне .ru хостятся в Китае, тогда не российские? Или если у меня почта в зоне .ru, а почтовый сервис от Google для домена, тогда что? И это только сугубо технические вопросы, а есть ещё и вопросы смысловые, в том зачем же всё это нужно?

Чувствую что недалёк уже тот момент когда создадут ещё и "реестр разрешений на доступ к иностранным ресурсам", как это уже есть в Китае. Нужно тебе, например, в исследовательских или коммерческих целях поработать с Google или Youtube, изволь запросить разрешение через Госуслуги. Так и будет, так и будет

Ссылки:
[1] https://www.opennet.ru/opennews/art.shtml?num=59517
[2] https://www.clarity-international.org

#regulation #russia #nocomments

Читать полностью…
Subscribe to a channel