begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

Полезное чтение про данные, технологии и не только:
- Unlocking AI for All: The Case for Public Data Banks [1] о том что для развития экосистемы ИИ нужны public AI data banks (PAIDs), каталоги данных доступных для исследователей и среднего/малого бизнеса. Мысли здравые и даже примеры близкие, но автор явно далёк от некоторых областей работы с данными иначе знал бы более релевантные примеры. В любом случае идея актуальная ещё надолго.
- China: Autocracy 2.0 [2] структуризация экономической и политической политики Китая с оглядкой на его автократическую модель. Что-то кажется очевидным, что-то не так очевидным, но всё вместе неплохо описано.
- Climate and Health Outcomes Research Data Systems (CHORDS) [3] проект и каталог данных о влиянии окружающей среды на здоровье человека. Каталог данных скорее выглядит как агрегатор ссылок на академические репозитории, но всё неплохо организовано. Подробный рассказ про инициативу [4] и, что любопытно, внутри него ранее не встречавшийся мне продукт каталога данных Gen3 Data Commons [5]
- Need for Co-creating Urban Data Collaborative [6] про инициативы по открытости данных в Индии на уровне городов и вовлечение граждан в создание данных. Много интересного о том что там происходит, из любопытного, у них есть DMAF (Data Maturity Assessment Framework) [7] для оценки зрелости работы с данными в индийских городах и результаты оценки и дашборд по 100 городам [8]
- Report – Improving Governance Outcomes Through AI Documentation: Bridging Theory and Practice [9] доклад о необходимости и влиянии документированности AI моделей на их управляемость


Ссылки:
[1] https://www.lawfaremedia.org/article/unlocking-ai-for-all--the-case-for-public-data-banks
[2] https://www.nber.org/papers/w32993
[3] https://niehs.github.io/chords_landing/index.html
[4] https://factor.niehs.nih.gov/2024/8/science-highlights/climate-health-data
[5] https://gen3.org/products/data-commons/
[6] https://medium.com/civicdatalab/need-for-co-creating-urban-data-collaboratives-1ab9bc2c0776
[7] https://dmaf.mohua.gov.in/
[8] https://amplifi.mohua.gov.in/dmaf-dashboard
[9] https://cdt.org/insights/report-improving-governance-outcomes-through-ai-documentation-bridging-theory-and-practice/

#data #opendata #ai #india #china #healthcare #openaccess #datapolicy

Читать полностью…

Ivan Begtin

Симпатичный жанр NO SLIDES, выступления без презентаций и одноимённая конференция [1] где нет презентаций в виде слайдов, только прямая речь и демонстрация экрана. А также таблица с выступлениями прошедшей конференции со ссылками на видеозаписи на Youtube [2]. Почти всё про данные и про аналитику, есть немало интересного что посмотреть.

Но самое главное жанр, я вот лично им не владею в достаточной мере, у меня вместо этого буквально тысячи слайдов. Даже при том что я начиная с ковида сильно снизил публичную активность с выступлениями, но жанр NO SLIDES пробовал всего 3-4 раза за свою жизнь.

Ссылки:
[1] https://noslides.wtf/conference
[2] https://docs.google.com/spreadsheets/d/1Wx6S3qUjjSuK-VX2tkoydTZGb1LzcYnht4N_WkBwApI/edit?ref=blef.fr&gid=0#gid=0

#thoughts #presentations #conferences

Читать полностью…

Ivan Begtin

Группа крупных лэйблов хотят засудить [1] интернет-архив Archive.org за оцифровку старых аудиозаписей. Казалось бы что такого, но сумма иска составляет $621 миллион и, если он реализуется, то интернет архив просто исчезнет.

Хочется надеяться что Интернет архив от иска отобьётся потому что альтернатив ему нет. Это уникальный проект, при этом сильно недофинансированный.

Ссылки:
[1] https://www.rollingstone.com/music/music-features/internet-archive-major-label-music-lawsuit-1235105273/

#digitalpreservation #archives

Читать полностью…

Ivan Begtin

Яндекс выпустил сервис геоаналитики [1] что очень любопытно в части изучения потребностей аудитории Яндекса, но, конечно, очень ограничено в части доступности данных.

Всё таки модель существования Яндекса - это довольно жёсткое правило что "данные входят, данные не выходят" или по английски Data in, no data out. Я называю это правило DINDO, которое часто встречается именно у дата-корпораций. Входят данные, а выходят дата продукты на их основе, но не сами данные, кроме очень редких исключений.

С точки зрения бизнеса это логично, с точки зрения открытости, хотелось бы чтобы было иначе, но мир несовершенен. Геоаналитические продукты в РФ есть также у Т-Банка, у сотовых операторов, Сбера и многих других.

Конкуренция - это хорошо, конкуренции нужно больше и охват других стран, а не только РФ.

Ссылки:
[1] https://yandex.ru/geoanalytics/platform

#yandex #dataproducts #data

Читать полностью…

Ivan Begtin

Почти неделю я был в отпуске, с ограниченной связью и поэтому практически не писал в телеграм канал.

Из свежих событий - это то что закрывается World Wide Web Foundation [1], НКО основанная Тимом Бернерсом Ли для продвижения открытого и безопасного интернета (вэба).

Многие из инициатив фонда были связаны с открытыми данными. Это такие проекты как:
- Open Data Barometer
- Open Data Charter
- Open Contracting Data Standards
- Open Data in Development Countries

Можно сказать что фонд поддержал довольно много инициатив.

Сейчас его основатели пишут что мир поменялся и поэтому фонд закрывается.

Но я знаю это и с другой стороны. У фонда были совершенно точно проблемы с фандрайзингом, отчасти потому что фонд изначально был не технологическим и практически все его инициативы были про "поговорить", это мероприятия и иногда документы. Например, проект Open Data Barometer финансировался IDRC, а потом IDRC поддержали проект на его основе, но уже как отдельный, теперь это Global Data Barometer [2] на базе латиноамериканского центра ILDA. Почему так? Потому что WWW Foundation запросил несусветных денег и основной спонсор, канадское агентство развития IRDC, отказались его продолжать и перезапустило в другой форме, по другой методологии.

Другая особенность WWW Foundation в том что они реализовывали проекты, например, по правам женщин, но ничего по повестке LGBT+. С чем это связано я не знаю, скорее всего с убеждениями его основателей, но одновременно с этим основные источники финансирования его были госагенства развития и крупные частные фонды, в финансировании которых доля "повестки" значительно выросла в последние годы.

Можно сказать что мир поменялся или что фонд не поменялся вовремя. И, может быть, и хорошо что он не поменялся.

Ссылки:
[1] https://webfoundation.org/
[2] https://globaldatabarometer.org

#opendata #worldwideweb

Читать полностью…

Ivan Begtin

В рубрике интересных поисковиков по данным Datacite Commons [1] это поисковик по научным данным, другим научным работам, научным организациям и репозиториям данных. Создан и развивается компанией DataCite, выдающей DOI для работ связанным с данными и собирающей единый индекс научных работ с метаданными объектов которые получили эти DOI.

Выглядит достаточно большим, 61 миллион работ включая 19 миллионов наборов данных [2].

Но, если присмотреться, то не всё так там с этим просто.
1) Значительная часть датасетов, около 2 миллионов, находятся на сервисе Data Planet [3] и публично недоступны, даже каталог посмотреть нельзя, только метаданные в DataCite.
2) Как минимум два источника - это GBIF и The Cambridge Structural Database это базы со структурированным описанием встречаемости видов и химических элементов. Это не датасеты, а как бы единые базы нарезанные на большое число записей. На эти записи по отдельности выдаются DOI, но называть их датасетами скорее неправильно.
3) Особенность метаданных в DataCite в отсутствии ссылок на файлы/ресурсы, поэтому те карточки датасетов что там есть не дают информации по реальному содержанию, только говорят о факте существования набора данных.

На фоне DataCite Commons у нас в Dateno реализовано гораздо больше, и с точки зрения объёмов проиндексированного, и с точки зрения удобства поиска.

Но не все источники данных из DataCite сейчас есть в Dateno и их ещё предстоит добавить. Ключевой вопрос в том рассматривать источники данных такие как GBIF как множество датасетов или не считать такое дробление обоснованным?

Ссылки:
[1] https://commons.datacite.org
[2] https://commons.datacite.org/statistics
[3] https://data.sagepub.com

#opendata #data #datasearch

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них есть большая тема про доступность данных которую никак не уложить в короткий текст да и длинных текстов понадобится немало. Про инфраструктуру открытых данных в медицине, тесно переплетённую с идеей открытого доступа в науке.

Сразу всё сложно, можно подступиться к к отдельным её частям.

...
Значительная часть открытых данных связанных с медицинскими исследованиями в мире публикуется благодаря политике Национального института здравоохранения США (NIH). И связано это с тем что у NIH есть последовательная политика:
1. Вначале предпочтительности, а далее обязательности открытого доступа для всех финансируемых им исследований.
2. Последовательная политика поощрения создания и создания собственных репозиториев данных и иных результатов научной деятельности.
3. Прямые инвестиции в инфраструктуру создания, обработки, визуализации и систематизации данных научных исследований.

Примеры реализации этих политик в виде каталога репозиториев данных поддерживаемых NIH [1] причём эти репозитории разделяются на Generalist и Domain Specific. Первые - это репозитории данных как датасетов, такие как Zenodo или OSF. Вторые - это специализированные репозитории данных где единицей измерения/учёта/записи являются, как правило, не датасеты, а объекты научной деятельности к которым привязаны данные. Это могут быть репозитории исследований (studies), репозитории геномов (genomes) и так далее. Как правило эти репозитории содержат существенное число метаданных связанных с медициной/биоинформатикой/генетикой и перевязаны между собой кросс ссылками.

По мере нарастания критической массы разных проектов, а там реально очень много проектов на данных у NIH есть Common Fund Data Ecosystem (CFDE) [2] по интеграции существующих дата порталов и иных дата проектов общими правилами и конвейерами обработки данных. А сама эта инициатива существует в рамках The Common Fund в рамках которого как раз финансируется общая инфраструктура, важная для всех направлений исследований [3].

Медицина и, более широко, биоинформатика формируют собственную сложную экосистему репозиториев данных, инструментов, ключевых понятий и онтологий чем многие другие.

Реальные объёмы данных, количественные и качественные там поражают и одновременно, это область весьма замкнутого применения. Она как бы полностью в себе, как и большая часть научных дисциплин. Во всяком случае так это выглядит со стороны человека не вовлеченного в них напрямую.
...

Ссылки:
[1] https://www.nlm.nih.gov/NIHbmic/domain_specific_repositories.html
[2] https://commonfund.nih.gov/dataecosystem
[3] https://commonfund.nih.gov/current-programs

#opendata #medicine #openaccess #health #data

Читать полностью…

Ivan Begtin

У меня довольно небольшой телеграм канал у которого чуть более 8 тысяч подписчиков и, честно говоря, я практически не вкладывался в его продвижение чем-либо кроме контента, но мне регулярно пишут с просьбой опубликовать тот или иной материал и несмотря на малость канала, похоже, нужна какая-то публичная политика с вопросами и ответами.

1. Я практически ничего не размещаю в виде коммерческой рекламы. Во первых я с канала ничего не зарабатываю и не планировал, во вторых зачем распугивать аудиторию? Поэтому на любое рекламное размещение у меня запретительный ценник. Проще не спрашивать "на каких условиях".

2. Но если Вы публикуете открытые данные или создаете продукт с открытым кодом по работе с данными и они любопытные, то я обязательно об этом захочу написать.

3. Также как если Вы проводите какое-либо интересное открытое мероприятие, особенно если оно посвящено таким редким темам как архивация цифрового контента. Напомню что про архивацию я также модерирую телеграм канал @ruarxive.

4. Или если Вы сделали интересное исследование на данных и его данные доступны под свободными лицензиями, то это также интересно и я всегда сделаю репост.

5. Я редко пишу про мероприятия где я не участвую, не участвовал или не участвовала infoculture">Инфокультура или Open Data Armenia. Только если оно по каким-то причинам важно мне лично.

6. Я стараюсь писать про все случаи закрытых данных в РФ и не только, они все под хэшем #closeddata и если Вы такие новые факты знаете, я обязательно об этом напишу и упомяну.

7. То же самое в отношении недокументированных API о которых я пишу тут время от времени с оговоркой что публикация этой информации не приводит к каким-либо неприятным последствиям вроде исчезновения этих данных.

8. Время от времени я пишу про big tech, госполитику в области данных и цифры, приватность и тд. И делаю репосты из каналов где упоминают важные события.

9. Во всём остальном действует очень простое правило. К публичному телеграм каналу я отношусь как открытой записной книжке. Фильтр который я задаю себе при любой публикации захочу ли я это перечитать в будущем? Если нет, то и зачем писать?

#thoughts #contentpolicy #blogging

Читать полностью…

Ivan Begtin

Для тех кто любит применять правильные термины, оказывается ещё в июле 2024 г. вышел словарь CODATA Research Data Management Terminology [1] с подборкой англоязычных терминов по управлению исследовательскими данными.

В принципе то термины там относительно универсальны, но определения даны через призму работу исследователей, поэтому корректно их воспринимать именно в контексте исследовательских данных, принципов FAIR и открытого доступа.

Например, определение открытых данных звучит как:

Data that are accessible, machine-readable, usable, intelligible, and freely shared. Open data can be freely used, re-used, built on, and redistributed by anyone – subject only, at most, to the requirement to attribute and sharealike.[2]

Этот словарь доступен через портал Research Vocabularies Australia [3] агрегатор и поисковик по всем словарям используемым в исследовательских целях в Австралии.

Ссылки:
[1] https://vocabs.ardc.edu.au/viewById/685
[2] http://vocabs.ardc.edu.au/repository/api/lda/codata/codata-research-data-management-terminology/v001/resource?uri=https%3A%2F%2Fterms.codata.org%2Frdmt%2Fopen-data
[3] https://vocabs.ardc.edu.au

#opendata #semanticweb #data #datacatalogs #terms

Читать полностью…

Ivan Begtin

Прекрасное чтение Watching the Watchdogs: Tracking SEC Inquiries using Geolocation Data [1] в виде научной статьи, но я перескажу простыми словами.

Если вкратце, то группа исследователей:
1) Нашли поставщика данных у которого они закупили данные по всем телефонам с которыми ходили люди в офисе комиссии по ценным бумагам в США (SEC) по своим офисам
2) Идентифицировали сотрудников из общего числа устройств,
3) Сопоставили множество геоданных, вплоть до шейпфайлов штабквартир публичных компаний
4) Определили когда сотрудники SEC приходили в эти офисы
5) Разобрали как SEC проверяет публичные компании и когда эта информация публична
6) Сопоставили проверки с изменениями стоимости ценных бумаг

И вуаля, так и хочется сказать, почему эти гении люди обо всём этом написали научную статью, вместо того чтобы существенно обогатится на полученных данных!

Многое бы бизнес во многих странах отдал бы за отслеживание того куда ходят налоговики, силовики, представители горных национальных республик и ещё много чего.

А статью рекомендую, жаль лишь что они источник данных не указывают.

Ссылки:
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4941708

#dataanalysis #research #privacy #geodata

Читать полностью…

Ivan Begtin

В рубрике интересных наборов и каталогов данных, источники данных по блокчейну, Web 3
- Blockсhair datasets [1] дампы всех основных криптовалют: Bitcoin, Bitcoin Cash, Zcash, ERC-20, Ethereum, Dogecoin, Litecoin в виде коллекции сжатых TSV файлов
- Bitcoin Blockchain Historical Data [2] датасет на Kaggle адаптированный под data science прямо на платформе, только Bitcoin
- AWS Public Blockchain Data [3] дампы блокчейнов Bitcoin и Ethereum сразу в формате parquet
- Google Cloud Blockchain Analytics [4] данные и интерфейс работы с ними для 24 разных криптовалют на платформе Google Cloud

Ссылки:
[1] https://blockchair.com/dumps
[2] https://www.kaggle.com/datasets/bigquery/bitcoin-blockchain
[3] https://registry.opendata.aws/aws-public-blockchain/
[4] https://cloud.google.com/blockchain-analytics/docs/supported-datasets

#opendata #datasets #data #datacatalogs

Читать полностью…

Ivan Begtin

Отвлекаясь слегка от чисто технологических тем и чуть переключаясь на социальные аспекты технологий и не только и заодно про социальные рейтинги и то что к ним близко.

Оказывается, после 2016 года, попытки военного переворота в Турции правительство страны активно понижало кредитные/банковские рейтинги диссидентов, членов Движения Гюлена и Курдов.

Банки применяют две процедуры Know Your Customer (KYC) и Customer Due Diligence (CDD) для проверки своих клиентов и эти процедуры исключали многих диссидентов полностью из финансовой системы страны и закрытию их банковских счетов, как бы не про приказу правительства, а потому что банки считают их "опасными лицами причастными к терроризму".

Подробнее можно прочитать в оригинале Weaponizing Financial Systems Erdoğan's Transnational Repression to Muzzle Dissidents Abroad [1].

На мой взгляд слабая часть доклада - это упоминание ИИ и то что ИИ усиливает эти действия автоматически и алгоритмически применяя новые данные, без ручной проверки, рассматривая государственные публикации как легальный источник сведений.

Всё это к вопросу, например, о социальных рейтингах и тому подобному. Именно государства будут основными манипуляторами этих рейтингов.

Ссылки:
[1] https://www.institude.org/report/weaponizing-financial-systems-erdogans-transnational-repression-to-muzzle-dissidents-abroad

#privacy #ai #socialcreditsystems #turkey

Читать полностью…

Ivan Begtin

В рубрике недокументированных API ещё один пример, реестр НПА Казахстана zan.gov.kz [1]. Хотя на сайте нет документации на это API, но оно существует и все материалы оттуда доступны в машиночитаемой форме.

- http://zan.gov.kz/api/documents/search - пример запроса поиска (требует POST запрос)
- http://zan.gov.kz/api/documents/200655/rus?withHtml=false&page=1&r=1726577683880 - пример запроса получения конкретного документа

Как Вы наверняка уже догадываетесь ни на портале данных Казахстана нет описания этого API и тем более на других ресурсах. Тем временем могу сказать что в одном только Казахстане под сотню недокументированных API, просто потому что разработчикам удобнее делать приложения используя Ajax, динамическую подгрузку контента и тд.

Каталоги API которые делаются в мире - это не такая уж странная штука, это один из способов предоставлять данные разработчикам.

Я завел отдельный тег #undocumentedapi и время от времени буду приводить примеры по разным странам.

Ссылки:
[1] http://zan.gov.kz

#opendata #data #kazakhstan #laws #api #undocumentedapi

Читать полностью…

Ivan Begtin

Я, кстати, в очередной раз могу сказать что открытые данные - это, в первую очередь, культура и систематизация работы с данными. Так сложилось что я регулярно работаю с большими базами документов порождённых органами власти. Не с отдельными файлами, а прям с копиями банков документов законов и других НПА. И огромная часть этих НПА - это, безусловно, то что должно быть доступно в виде данных, а не в виде отсканированных PDF документов.

Если бы официальные документы все и всеми публиковались бы с приложениями, хотя бы в виде Excel файлов, то доступных данных было бы гораздо больше.

Например из десятков тысяч документов опубликованных органами власти г. Москвы на оф сайте mos.ru, как минимум несколько тысяч - это очень большие таблицы, в сотни и тысячи страниц опубликованные как сканы. Если бы их публиковали иначе, то то же Правительство Москвы могло бы публиковать не несколько сотен, а несколько тысяч наборов данных, потенциально весьма востребованных к тому же.

Это просто пример, он справедлив к отношении практически всех органов власти, особенно крупных стран и территорий.

А я об этом задумался ещё давно в контексте того что поиск по данным может начинаться как поиск по каталогам данных и индексированием того что уже машиночитаемо, а продолжаться охватывая то что ещё не машиночитаемо, но может стать таковым. Чтобы проиндексировать каталог данных, надо сделать этот каталог данных (с).

#opendata #datasets #laws #datacatalogs

Читать полностью…

Ivan Begtin

В рубрике доступных, но недокументированных открытых данных которые. по хорошему, российское Минэкономразвития должно было бы публиковать на портале открытых данных если бы он был, геоданные инвестиционной карты РФ [1] хотя никак не обозначены и не документированы публично тем не менее доступны через интерфейсы API опенсорс продукта GeoServer который используется внутри этого портала. Разработчики закрыли интерфейс самого геосервера, но закрыть интерфейсы API невозможно без глубокой переделки сайта, поскольку именно с сайта слои автоматически подгружаются. Поэтому и рассказать об этом можно без опасений, API исчезнут только если исчезнет сам портал.

- https://investmapapi.economy.gov.ru/geoserver/ows?service=WMS&version=1.1.1&request=GetCapabilities - WMS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WMS&version=1.3.0&request=GetCapabilities - WMS 1.3.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=1.0.0&request=GetCapabilities - WFS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=1.1.0&request=GetCapabilities - WFS 1.1.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=2.0.0&request=GetCapabilities - WFS 2.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.0.0&request=GetCapabilities - WCS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1.0&request=GetCapabilities - WCS 1.1.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1.1&request=GetCapabilities - WCS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1&request=GetCapabilities - WCS 1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=2.0.1&request=GetCapabilities - WCS 2.0.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WPS&version=1.0.0&request=GetCapabilities - WPS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/tms/1.0.0 - TMS. 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/wms?request=GetCapabilities&version=1.1.1&tiled=true - WMTS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/wmts?REQUEST=GetCapabilities - WMTS 1.0.0

Этот пример не единственный, в России общедоступных инсталляций GeoServer 12 штук, на сегодняшний день. Это немного, но они есть.

Ссылки:
[1] https://invest.gov.ru

#opendata #russia #datasets #geodata #spatial

Читать полностью…

Ivan Begtin

У Интернет-архива (archive.org) произошла крупнейшая утечка данных базы из 31 миллиона их пользователей [1]. Пока неизвестно украдены ли ещё какие-либо данные. Известно только что долгое время Интернет-архив был под DDoS атакой и регулярно был недоступен.

В любом случае если если у Вас есть аккаунт в Интернет-архиве, то имеет смысл сменить в нём пароль, а также если предыдущий пароль Вы использовали где-либо ещё, то сменить его в этих сервисах.

Ссылки:
[1] https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/

#security #internetarchive #databreach

Читать полностью…

Ivan Begtin

Подборка ссылок про данные, технологии и не только:
- The Open Data Editor is now ready for the pilot phase [1] обновлённый редактор для подготовки датасетов готов для тестирования, полезный инструмент для всех кто публикует данные с помощью CKAN
- To Be Born in a Bag [2] о исследованиях в разработки искусственной матки и возможностью создавать живых существ искусственным образом. Напоминает воплощение научной фантастики из серии книг Лоис Буджолд. А заодно и там же про создание мамонтов искусственным образом
- DuckDB foundation [3] один из успехов DuckDB в том что это фонд успешно взаимодействующий с несколькими компаниями контрибьюторами. Полезное чтение про успешную модель существования открытого кода.
- The Disappearance of an Internet Domain [4] Великобритания отказывается от суверенитета над островами Чагос и передаёт их Маврикию. Что такое острова Чагос? Это доменная зона .io. Автор рассуждает о его судьбе.
- The Prosopography of Anglo-Saxon England (PASE) [5] онлайн база данных всех британцев как-либо упомянутых в литературных источниках с 6 по 11 века нашей эры. Почти 20 тысяч персон
- Bots, so many Bots [6] боты составляют более 60% из 1 миллиона пользователей ProductHunt. А если говорить о других социальных площадках, то и там ботов всё больше. В какой-то момент должен будет возникнуть перелом когда такие площадки станут бесполезными.
- DatAasee - A Metadata-Lake for Libraries [7] научная статья и открытый код [8] каталога метаданных и озера данных для библиотек.

Ссылки:
[1] https://blog.okfn.org/2024/10/02/the-open-data-editor-is-now-ready-for-the-pilot-phase/
[2] https://press.asimov.com/articles/artificial-wombs
[3] https://davidsj.substack.com/p/foundation
[4] https://every.to/p/the-disappearance-of-an-internet-domain
[5] https://pase.ac.uk/pase/
[6] https://wakatime.com/blog/67-bots-so-many-bots
[7] https://www.semanticscholar.org/reader/7166be7af2fd4bc9cf73d19f076180d9ca83b029
[8] https://github.com/ulbmuenster/dataasee

#opendata #data #tech #dataengineering

Читать полностью…

Ivan Begtin

Я как раз собирался составить очередную подборку интересного чтения про данные и понял что один из текстов стоит упомянуть отдельно и поговорить про него. Это заметка Is Excel immortal? [1] от Benn Stancil. Бэн регулярно пишет интересно про данные, венчурный рынок, стартапы, аналитику и про Excel он пишет очень правильные слова.

Основная мысль которую он доносит в том что Excel вечен и раскрывает её с тем что заменить его сложно и для этого требуется сильное долгосрочное видение и команда которая готова играть в очень длинную дистанцию. Он говорит об этом другими словами, но я лично перевожу их именно так.

Причём тут важна сильная сторона Excel, это сочетание гибкой манипуляции табличными данными, внутреннего языка и формул и (самое главное!) гибкой визуализации.

Даже в самых продвинутых сервисах с визуальной аналитикой, например, продаж и посещаемости, менеджеры скачивают Excel файлы и работают с данными внутри них.

Бэн упоминает замену в виде Tableau, но Tableau не поставляется по умолчанию на почти все десктопы и у него отсутствует (?) сильный инструмент по операциями с данными. Странно что при этом он не упоминает PowerBI от MS.

Но в, самом деле, какой может быть замена Excel к 2075 году?

Лично я много что перепробовал в своей жизни:
- Airtable для ведения таблиц онлайн. Скорее онлайн замена MS Access, непомерно дорогая при коммерческом использовании, удобная при личном, но
- OpenRefine для того что называют data wrangling. Он заменяет Excel в задачах визуальной чистки данных.
- PowerBI для визуализации данных, но, признаюсь, в простых задачах Excel удобнее

Что печально, продуктов с открытым кодом для таких задач маловато. Но и коммерческие продукты пока не тянут что-то кроме ограниченных задач.

Обратите внимание, что обычно Excel'ю противопоставляют LibreOffice/OpenOffice, но я лично считаю что времена такого сравнения давно прошли. LibreOffice/OpenOffice обладает очень ограниченными функциями визуализации и манипуляции с данными.

Каким может быть Excel будущего?

1) Разделение данных и представления. Таблицы с данными в embedded базе, а ля DuckDB или SQlite, а разметка в гипертексте, может быть на основе одного из существующих стандартов.
2) Разделение визуализации и представления. Звучит странно, но это как с данными. Визуализация строится на основе одного из будущих стандартов описания дашбордов, а разметка это как накладываемые на неё стили.
3) Облачная синхронизация, но local-first.
4) Отсутствие ограничений на объёмы хранимых данных
5) Типизация вкладок. Сейчас когда в Excel готовят данные некоторые вкладки - это таблицы, а другие это тексты с пояснениями к ним и третьи - это формы. Нужны вкладки которые останутся дата таблицами, вкладки заметок, вкладки форм и вкладки аля markdown notebooks

Что можно добавить?

Ссылки:
[1] https://benn.substack.com/p/is-excel-immortal

#thoughts #excel #data #datatools

Читать полностью…

Ivan Begtin

Судя по тому что пишут в СМИ Правительство определилось с будущим Большой российской энциклопедии [1], её материалы собираются передать в проект РуВики.

Если это действительно так то единственным плюсом может перевод материалов БРЭ под лицензию Creative Commons 4.0. В остальном про РуВики пока невозможно сказать что-либо хорошее кроме того что она клонирует русскоязычную Википедию и цензурирует статьи под российское законодательство.

В любом случае этот сценарий, похоже, ведёт к тому что сайт bigenc.ru будет закрыт и архивация материалов была небесполезна, поскольку то в каком виде материалы БРЭ будут в РуВики непонятно.


Ссылки:
[1] https://www.rbc.ru/politics/04/10/2024/6620c8f79a7947fd050a0da0

#bigenc #webarchives #encycplopedies

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них Hakala [1] французский репозиторий данных для гуманитарных и социальных наук. Предоставляет открытое API [2], интерфейс OAI-PMH [3] и содержит чуть менее 800 тысяч цифровых объектов.

Кажется большим, но есть нюансы. Они почти всегда есть с научными репозиториями данных. В данном случае де-факто поиск не данных, а файлов/ресурсов и большая их часть (71%) это изображения, а самих датасетов там не более 1-2 % если к ним относить ещё и карты, большая часть которых, тоже, растровые изображения.

Иначе говоря, если смотреть глазами инженера, аналитика данных или дата сайентиста, то никаких данных там нет, а только фрагментированные первичные данные. Но учёные социологи и гуманитарии к данным, по всей видимости, относят всё что приложено к научной статье, а для гуманитарных статей это обычно изображения, видео, звуки, тексты.

Всё это к философским рассуждениям о том что такое данные и все они сводятся к тому что ответ зависит от того с кем разговариваешь. Кто аудитория? Потому что разные ответы для разных пользователей.

А также, чтобы два раза не возвращаться, ещё один интересный проект за пределами англосферы про систематизацию научных данных - это Cat OPIDoR [2] каталог научных репозиториев данных, баз данных и сервисов для их публикации и обработке во Франции. Отличается тем что сделан на Semantic Mediawiki. В каком-то смысле альтернатива re3data и других каталогов научных дата репозиториев.

Ссылки:
[1] https://nakala.fr
[2] https://api.nakala.fr/doc
[3] https://api.nakala.fr/oai2?verb=Identify
[4] https://cat.opidor.fr

#opendata #data #openaccess #france #datacatalogs

Читать полностью…

Ivan Begtin

В новостях про смену мировоззрения Павла Дурова с анархиста на прогосударственного французского гражданина и в скором исчезновении Флибусты есть одно немаловажное общее свойство. И там, и там, критические изменения в проекте/стартапе происходит ударом по наиболее уязвимому звену - человеку, лидеру, ключевому лицу.

В случае Флибусты на создателя проекта напал рак, а в случае Павла Дурова французская полиция. В случае Флибусты механизм наследования не был предусмотрен автором, в случае Дурова даже если бы он был, в руках полиции ключевое лицо компании, и как CEO, и как, можно предполагать, основной владелец.

С одной стороны я вижу огромное число продуктов/проектов/компаний имеют число трамвая, равное единице. Это практически все частные инициативы основанные на пассионарности и харизме основателя, а не на выстроенности процессов.

С другой многие компании отказываются от использования того или иного опенсорсного или проприетарного продукта если у него всего один разработчик. В случае опен сорса это довольно легко проверить, в случае коммерческого ПО сложнее, но то что лишь один человек стоит за чем-то важным - это очень большие риски.

Морали не будет, не думаю что мир быстро поменяется, но всегда стоит помнить что мы не вечны, как в терминах свободы так и жизни.

#thoughts

Читать полностью…

Ivan Begtin

Закрывается Flibusta [1], независимый библиотечный ресурс, через несколько недель может прекратить свое существование. Причина - рак у его создателя и администратора.

Совершенно точно у книг Flibusta есть множество архивных копий на торрентах, но эти архивные копии не включают обсуждений, материалов форумов, иных текстов с сайтов, не относящихся к книгам.

Кроме того в торрент трекерах книги, или обновлениями за период, или полным дампом, что усложнит чтение тем кому нужна не библиотека целиком, а собственный список для чтения. Имеет смысл сохранить книги которые Вы читаете заранее.

Ссылки:
[1] https://flibusta.is/node/681117

#digitalpreservation #books #flibusta

Читать полностью…

Ivan Begtin

Помучавшись немного с геоклассификацией объектов, в данном случае наборов данных, и решив эту задачу грубо, я в процессе набросал примерную структуру программного инструмента который помогал бы решать её красиво.

Не знаю когда у меня дойдут руки до того чтобы это сделать и дойдут ли вообще, работы технической, организационной и только как-то ну очень много и это хорошо:) Но если кто-то захочет такое реализовать, то может быть эта схема поможет.

Задача то довольно простая, присвоение цифровым объектам геолокации не по принципу координат или адреса, а в привязке к территории от макрорегиона/группы стран, до конкретного города/территории субрегионального уровня. В Dateno это делается через привязку всего к справочникам UN M49, ISO3166-1 и ISO3166-2. Сложности возникают в том что в каталогах данных где есть геоаннотирование чаще всего нет уникальных кодов территорий и чаще всего названия макрорегионов, к примеру, не гармонизированы.

А потребность в аннотировании есть не только к датасетам, но и ко множеству других объектов: тексты, архивы, документы, изображения и тд.

#thoughts #modelling #geospatial

Читать полностью…

Ivan Begtin

Вышла бета версия германской статистической системы GENESIS-Online используемой статслужбой страны для публикации индикаторов [1]. В целом удобно, но скорее консервативно чем современно.

Из плюсов:
- есть API
- есть выгрузка в CSV/XLSX
- всё достаточно быстро и удобно

Из минусов:
- документированное API требует регистрации и авторизации, недокументированное... недокументировано
- документированное API сделано предоставляет SOAP интерфейс, непонятно зачем в 2024 году
- нет поддержки SDMX
- нет массовой выгрузки, bulk download

В целом, это скорее даже удивительно насколько статистика ЕС удобнее в работе чем статистика Германии, по крайней мере инструментально.

Ссылки:
[1] https://www-genesis.destatis.de/datenbank/beta

#opendata #statistics #germany #datacatalogs #indicators

Читать полностью…

Ivan Begtin

Давно пишу по кусочкам лонгрид про природу данных и наборов данных, про то как отличается их восприятие людьми разных профессий и потребностей и как от того где они применяются "плавает" это определение.

Самый простой пример - это всегда ли данные машиночитаемы? К примеру, данные в виде файлов csv, json, xml и тд. всегда можно рассматривать как машиночитаемые, а, к примеру, тексты, видео и изображения нет. Но если собрать тысячи, сотни тысяч текстов или фотографий, то вот, пожалуйста, датасет для обучения в data science. То есть данные не всегда машиночитаемы?

Другой пример, конфигурационные файлы приложений распространённо имеют машиночитаемые форматы как раз те же самые json, xml, yaml и ряд других. Делает ли это их наборами данных? Вообще-то нет, потому что не прослеживается модели их повторного использования.

Может быть именно повторное использование и востребованность тогда является главным критерием определения набора данных? В классических определениях набора данных это, или набор таблиц, или единица измерения информации опубликованной в открытом доступе.

А как рассматривать API? К примеру, в геоданных массово данные доступны не в виде файлов, а в виде API по стандартам OGC или ряду проприетарных. Их принято относить к наборам данных. Но там разные API, к примеру, WFS, WMS без сомнений можно относить к data api (API для доступа к данным), а какие-нибудь WPS уже точно не data api, а процессные API для обработки данных, а WCS что ближе к не API для данных, с помогающих в работе с геоинструментами. Для аудитории специалистов по геоанализу они нужны, но как бы не данные.

В научной среде репозитории данных очень часто совмещены с репозиториями ПО, во всяком случае для репозиториев общего типа. Главная идея тут в том что без ПО, причём конкретной версии, сложно повторить эксперимент/процессы в результате которых были данные получены.

Ещё пример, опять же про не машиночитаемость. С точки зрения архивации данных важно хранить данные в любой форме за условно любой период времени. К примеру, статистический сборник 19го века. Формально не машиночитаем, по факту исследователям статистикам может быть нужен? Безусловно. На многих порталах открытых данных опубликованы тысячи таких сборников как открытые данные. Но они не машиночитаемые. В такой логике к, примеру, Библиотека конгресса США или Национальная электронная библиотека в РФ это тоже каталоги данных? Или источники данных? Даже если они не машиночитаемы?

Всё это возвращает к размышлениям о том что наборы данных - это то о чём можно говорить как об опубликованным со смыслом (publish with the purpose), с пониманием аудитории и хотя бы одного сценария их применения.

В практическом применении это напрямую затрагивает, например, то какие данные индексируют и не индексируют поисковые системы. К примеру, Google Dataset Search не индексирует геоданные, они медленно, то уверенно склоняются к поисковику для исследователей. Научные поисковики вроде OpenAIRE, DataCite или BASE с самого начала декларируют что это не только поиск по данным, а по любым результатам научной деятельности до которых просто дотянутся. Для data science поисковика нет поскольку всего два основных ресурса, Hugging Face и Kaggle.

В Dateno индексируются геоданные (гео API) и порталы индикаторов причём с расширенной трактовкой индикаторов как то что датасетом является индикатор + страна во всех случаях когда можно сделать постоянную ссылку на файл или API. Так делают многие создатели этих порталов с индикаторами уже давно. Но это тоже некая форма интерпретации исходя из потребности и поиска пользователей.

Всё это, отчасти, философский вопрос о том строить ли поисковую систему по данным или поисковую систему для тех кто работает с данными. Разница между двумя этими понятиями весьма существенна. И поэтому она начинается с собственного определения того что такое набор данных

#thoughts #data #datasets

Читать полностью…

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Governing data products using fitness functions [1] полезная статья с определением того что такое Data Product и как ими управлять, в первую очередь с архитектурной точки зрения.
- UIS Data Browser [2] новый каталог данных (статистики) ЮНЕСКО, данных немного, но есть API и массовая выгрузка.
- Why is language documentation still so terrible? [3] гневная статья где автор ругает все языки программирования кроме Rust. Претензий много и я с ним согласен и не только в отношении языков. Хорошую документацию на SDK или open source продукты встретишь нечасто.
- How We Made PostgreSQL Upserts 300x Faster on Compressed Data [4] про оптимизацию загрузки данных в PostgreSQL с помощью TimescaleDB, лично я не видел этот движок в работе, но для каких-то задач он может быть именно тем что нужно
- ImHex [5] шестнадцатеричный редактор с открытым кодом для реверс инжиниринга. На мой взгляд мало что заменит IDA Pro, но для задач не требующих хардкора и когда нет денег вполне себе полезный инструмент.

Ссылки:
[1] https://martinfowler.com/articles/fitness-functions-data-products.html#ArchitecturalCharacteristicsOfADataProduct
[2] https://databrowser.uis.unesco.org/
[3] https://walnut356.github.io/posts/language-documentation/
[4] https://www.timescale.com/blog/how-we-made-postgresql-upserts-300x-faster-on-compressed-data/
[5] https://github.com/WerWolv/ImHex

#opensource #data #datacatalogs #documentation #dbs

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них Indian Data Portal [1] портал открытых данных созданный Bharti Institute of Public Policy, индийским исследовательским центром в области публичной политики.

Интересен тем что работает на собственном движке поверх каталога открытых данных CKAN. Сами данные хранятся в связанном с ним каталогом данных [2], а основной веб сайт использует API каталога данных для создания дополнительных фильтров при поиске данных, таких как гранулярность, сектор экономики, источник данных, частота обновления.

Данные исследователям доступны после авторизации и, в принципе, именно они являются аудиторией этого портала.

Это пример, использования CKAN как Data Management System (DMS), многие порталы данных в мире создавались по той же модели, когда CKAN используется как хранилище метаданных и данных, а над ним строятся разные интерфейсы.

Ссылки:
[1] https://indiadataportal.com/
[2] https://ckan.indiadataportal.com/

#opendata #datacatalogs #datasets #india

Читать полностью…

Ivan Begtin

В рубрике больших интересных наборов данных Global Biodiversity Data [1] набор открытых данных по биоразнообразию собранный из нескольких научных работ и опубликованный в каталоге данных Всемирного банка.

Датасет относительно небольшой, около 2.2 ГБ в сжатом виде и содержит георазмеченные сведения по встречаемости различных видов.

О нём в августе писали в блоге Всемирного банка [2] и датасет полезен всем кто хочет изучить животный и растительный мир своей страны. Буквально годится для работы школьников на хакатонах например, но язык только английский.

Ссылки:
[1] https://datacatalog.worldbank.org/search/dataset/0066034/global_biodiversity_data
[2] https://blogs.worldbank.org/en/opendata/a-new-world-bank-database-to-support-a-new-era-in-biodiversity-c

#opendata #datasets #worldbank #biodiversity

Читать полностью…

Ivan Begtin

В рубрике популярных каталогов данных OpenSDG [1] просто ПО с открытым кодом используемое статистическими службами многих стран для публикации индикаторов устойчивого развития.

Особенность OpenSDG в том что это открытый код [2] профинансированный статслужбами Великобритании и США и разработанный в CODE [3], The Center for Open Data Enterprise.

Из-за простоты и бесплатности его как раз и используют, например, статслужба Армении [4], Конго [5], Великобритании [6] и ещё пара десятков стран и множество городов [7].

OpenSDG нельзя назвать полноценным порталом данных, скорее порталом индикаторов. Причём без стандартизированного API, но со стандартизированной выгрузкой всех индикаторов целиком и некоторым псевдо API для доступа к данным индикаторов.

Ссылки:
[1] https://open-sdg.org
[2] https://github.com/open-sdg/open-sdg
[3] https://www.opendataenterprise.org/
[4] https://sdg.armstat.am
[5] https://odd-dashboard.cd
[6] https://sdgdata.gov.uk
[7] https://open-sdg.org/community

#opendata #datacatalogs #opensdg #statistics

Читать полностью…

Ivan Begtin

NASA Space Apps Challenge 2024 [1] проходит в этом году по всему миру и включает множество локальных мероприятий, в том числе на постсоветском пространстве, за исключением России, Беларуси, Киргизии и Армении [2]. Почему не проходят в Киргизии я не знаю, удивительно что нет в Армении, чувствую надо было самим организовать, а не думать что кто-то из околокосмической тусовки это сделает.

У НАСА на хакатоне есть набор задач [3], большая часть которых связаны с данными, например, по задаче Landsat Reflectance Data: On the Fly and at Your Fingertips, множество ссылок на открытые данные в KML, Shapefile и других [4].

Для тех кто учится и находится в странах где есть местные события этого глобального хакатона - это отличная возможность потренировать навыки в работе с данными и сделать что-то полезное.

Ссылки:
[1] https://www.spaceappschallenge.org/nasa-space-apps-2024/
[2] https://www.spaceappschallenge.org/nasa-space-apps-2024/2024-local-events/
[3] https://www.spaceappschallenge.org/nasa-space-apps-2024/challenges/
[4] https://www.spaceappschallenge.org/nasa-space-apps-2024/challenges/landsat-reflectance-data-on-the-fly-and-at-your-fingertips/?tab=resources

#opendata #hackathons #space #nasa

Читать полностью…
Subscribe to a channel