begtin | Business and Startups

Telegram-канал begtin - Ivan Begtin

7029

I write about Open Data, Procurement, e-Government, Open Government, Budgets, Privacy and other govtech stuff Chat https://telegram.me/begtinchat Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech

Subscribe to a channel

Ivan Begtin

В рубрике интересных наборов данных коллекция 30222 уникальных названий цветов [1]. Не тех цветов которые растут и благоухают, а тех что являются качественной субъективной характеристикой электромагнитного излучения оптического диапазона. Авторы вложили много усилий чтобы собрать названия цветов из многообразия источников и 30222 цвета - это всего лишь ~0,18% от общего пространства RGB.

Весь набор данных доступен в форматах CSV, JSON, YML, JS, HTML, SCSS, CSS и через API, всё под лицензией MIT.

Ссылки:
[1] https://github.com/meodai/color-names

#opendata #datasets #colors

Читать полностью…

Ivan Begtin

В рубрике как это работает у них реестр исследовательской инфраструктуры в Австрии [1]. Всего 2300 объектов среди которых десятки банков данных, порталов данных, научных репозиториев (статей, данных и тд.), тестовых лабораторий, специализированных лабораторий и устройств, обсерваторий и другой инфраструктуры.

Во многих странах такая инфраструктура существует, не во всех это столь тщательно систематизировано.

С точки зрения данных интересен список из 127 научных дата архивов, репозиториев и баз данных.

Из любопытного, по каждому объекту научной инфраструктуры присутствуют:
- условия использования
- ссылки на проводимые проекты
- ссылки на научные публикации с упоминанием.

Ссылки:
[1] https://forschungsinfrastruktur.bmbwf.gv.at/en

#openscience #openaccess #austria

Читать полностью…

Ivan Begtin

Для тех кто любит моделировать данные и думать о том как они устроены, интересное мероприятие Data Modelling Days 2023 от команды Wikidata [1] это 3-х дневное мероприятие от фонда Wikimedia Deutschland о том как устроен проект Wikidata, как создаются в нём новые сущности и свойства и как вносятся объекты.

За пределами научного применения Wikidata - это самый заметный и самый практически применимый продукт основанный на связанных данных, семантической сети и со SPARQL интерфейсом. Это из тех проектов где люди как раз и занимаются о том как устроены данные. С приоритетом на GLAM (Galleries, Libraries, Archives, and Museums) и библиографию, но и по другим областям там очень много всего. Сравнивать его можно разве что с DBPedia (крупнейший проект по превращению Википедии в Linked Data) или с DataCommons (инициатива Google).

Если у меня получится найти время, я там точно хочу послушать о том как создатели Википедии думают о проектировании схем данных.

Ссылки:
[1] https://www.wikidata.org/wiki/Wikidata:Events/Data_Modelling_Days_2023

#opendata #databases #wikidata #wikimedia #events

Читать полностью…

Ivan Begtin

В качестве регулярного напоминания одна из моих любимых технологических тем - это понимание данных. Я на эту тему ежемесячно читаю 3-4 научных статьи и смотрю как меняются подходы, а также сделал практическую утилиту metacrafter [1] с открытым кодом и реестр семантических типов данных [2].

Если Вы её ещё не пробовали, но хотите поискать, например, нет ли у Вас в базах персональных данных о которых Вы не знаете, то рекомендую попробовать. Она поддерживает и файлы в форматах CSV, XML, JSONL и SQL СУБД и MongoDB.

А читаю я сейчас о том что современные подходы заключаются в умении идентифицировать незнакомые типы данных, а это непростая задача. Частично решаемая через исследование признаков инкрементальности значений, значений фиксированной длины, наличие и размер общего префикса и ещё много другое. Если бы у меня было побольше времени и возможностями занимать только исследованиями, я бы с удовольствием занимался именно этим. Но возможности мало, поэтому обновляю этот инструмент по мере практической необходимости.

А вот одна задача имеет очень большой научный и практический потенциал, возможно здесь какой-то легкий ИИ алгоритм мог бы помочь. Эта задача в реконструкции регулярных выражений. Это когда у Вас есть перечень каких-либо значений и нужно получить максимально компактное регулярное выражение которое все значения охватит. Давно я не встречал научных работ на эту тему, но сама тема просто таки очень интересная и очень близка к общей теме "понимание данных".

Ссылки:
[1] https://github.com/apicrafter/metacrafter
[2] https://registry.commondata.io

#opensource #data #datatools

Читать полностью…

Ivan Begtin

В рубрике как это работает у них о том как публикация данных для обучения ИИ и медицинских исследований в США. На портале CDC Data Platform от National Cancer Institute опубликовано более миллиона изображений объёмом более чем 6.7 Петабайт [1] их которых 20 Терабайт (около 30% по числу файлов) являются полностью открытыми, а остальные в режиме регламентированного доступа, предоставляются по запросу после авторизации. Для доступа используется специальное ПО для выгрузки данных. У портала с данными есть открытое API и открытый код [2].

В целом это один из наиболее крупных порталов научных данных, из его особенностей это то что он имеет предметную, а не общетематическую природу и набором данных на нём называется "коллекция" (collection) случаев (case) включающая множество файлов изображений. Это особенность научных порталов в том что для превращения в порталы открытых данных или просто порталы данных в нём имеющиеся тематические понятия приводятся к понятиям набора данных.

Ссылки:
[1] https://portal.gdc.cancer.gov/repository?facetTab=files&files_sort=%5B%7B%22field%22%3A%22file_size%22%2C%22order%22%3A%22desc%22%7D%5D&searchTableTab=files
[2] https://github.com/NCI-GDC/gdc-docs

#opendata #datasets #genomics #cancer #openaccess #data #usa

Читать полностью…

Ivan Begtin

Симпатичная инициатива от Яндекса с программой грантов на открытый код и открытые данные [1]. Обещают распределить гранты Яндекс.Облака до 600 тысяч рублей на 15 проектов (итого 9 миллионов рублей) на проекты с открытым кодом по трекам:
- Обработка и хранение данных
- Разработка
- Машинное обучение

Правда призы даются не деньгами, а ресурсами Яндекс.Облака, но для состоявшихся проектов и это полезный ресурс. Особенно я бы обратил внимание на создание наборов данных. Потому что если получать приз на другие проекты, то эти 600 тысяч довольно быстро закончатся если использовать облако просто как хостинг. А если использовать для создания/оценки качества наборов данных то это более похоже на проектное использование. Например податься на эту грантовую программу Яндекса с небольшим датасетом, выиграть грант и податься на грантовую программу Фонда содействия инноваций (Фонд Бортника) также с датасетом, но расширенный и обогащённый через использование ресурсов Яндекс.Облака в рамках гранта Яндекса.

P.S. Не реклама, и жаль, конечно, что инициатива маленькая и явно спрятанная внутри маркетингового бюджета Яндекс.Облака, но сама идея правильная когда грантовые программы развивают и поощряют открытый код и открытые данные.

Ссылки:
[1] https://opensource.yandex/grants/

#opensource #opendata #yandex

Читать полностью…

Ivan Begtin

Кстати, у меня вот тут накопилось какое-то количество вопросов к залу применительно к регулированию ИИ в России. Может кто-то знает ответы? Спрашиваю, без иронии на предмет "всё у них плохо", скорее интересуюсь с лёгким удивлением, потому что сам такого не наблюдаю.

Такие вот вопросы:
1. Есть ли примеры отчётов по оценке воздействия внедрения ИИ ? Корпоративных или государственных, не так важно, важнее публичных отчётов. Например, в Москве уже несколько лет идёт эксперимент по применению ИИ, при этом нигде отчётов/докладов/протоколов работы вовлечённых сторон об этом не наблюдается. Есть ли что-то подобное?
2. Остались ли ещё какие-либо организации гражданского общества с публично заявленной позицией по внедрению и рискам создания и применения ИИ? Как я понимаю правозащитных организаций настоящих которые, а не GONGO, почти не осталось. Но может я кого-то упустил или пропустил?
3. Есть ли примеры внедрения ИИ с независимым человеческим контролем/надзором за ним?
4. Есть ли какие-либо стандарты/руководства/критерии проверки соответствия компаний/продуктов/внедрений согласно российскому этическому ИИ кодексу?
5. Являются ли обязательными технические стандарты ИИ при внедрении в государственном секторе? в корпоративном секторе?
6. Можно ли считать российский кодекс ИИ всё ещё частной инициативой после присоединения к нему государственных агентств и промоутирования его на государственном уровне?

#ai #questions

Читать полностью…

Ivan Begtin

Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].

Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.

Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.

Думаете фантастический сценарий?

Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting

#privacy #china #algorithms #ai

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них в открытых данных:
- в Евросоюзе активно развивается проект Open Maps For Europe 2 (OME2) [1] по созданию единых продуктов геоданных и на геоданных покрывающих все страны ЕС и стран входящих в партнерства со странами ЕС. В основе проекта директива о публикации особо ценных наборов данных и ранее созданный проект Maps For Europe [2]. Можно обратить внимание что занимается проектом Eurogeographic, ассоциация из 60 организаций из 46 стран. Большая часть организаций - это государственные кадастровые комитеты. Среди них есть, например, кадастровые службы Армении, Белоруссии, Турции и Азебайджана. И, ожидаемо, нет российской кадастровой службы
- в США в MIT раздают награды учёным публикующим открытые научные данные [3] всего 11 победителей из 80 номинантов, с призами в $2500. Поощряются исследователи опубликовавшие востребованные исследовательские данные как часть своих научных работ, а также создателей инструментов с открытым кодом по удобной работе с этими данными. Среди работ много интересного, например, ITU Compliance Assessment Monitor [4] инструмент и наборы данных мониторинга того как операторы геостационарных спутников отчитываются перед Международным союзом электросвязи (ITU), спойлер: чаще всего игнорируют необходимость предоставления информации. А вот другой пример, база данных WormWideWeb [5] собранная из общедоступных баз нейронов нематод C. Elegans.
- Open Government Partnership, партнерство открытых правительств, активно расширяется на уровне городов, в OGP Local [6] уже участвует около 100 городов и в течение 2024 года собираются принять около 50 [7], в том числе из стран не входящих в партнерство. Эдакое погружение в суб-национальный уровень и, похоже, набирающее обороты. Среди постсоветских городов там присутствуют: Армавир, Гюмри, Ереван и Ванадзор в Армении, 6 городов в Грузии, Бишкек из Киргизии, 3 города Украины. В общем-то не так мало. Но более всего мексиканских и индонезийских городов. Частично вся эта инициатива пересекается с Open Data Charter [8] (Хартия открытых данных) которую подписали власти многих городов.
- во Франции трекер публикации открытых данных на портале data.gouv.fr [9] можно убедиться что кроме того что данные опубликованы, они продолжают регулярно раскрываться по запросу пользователей, многое запланировано к публикации и многие запросы ещё анализируются. В целом французский портал открытых данных наиболее системно развивается, они достаточно давно переходят от публикации файлов наборов данных, к публикации их согласно схемам данных которые ведутся в отдельном реестре.

Ссылки:
[1] https://eurogeographics.org/open-maps-for-europe/ome2-progress/
[2] https://www.mapsforeurope.org
[3] https://news.mit.edu/2023/rewarding-excellence-in-open-data-1116
[4] https://github.com/ThomasGRoberts/ITU-Compliance-Assessment-Monitor
[5] https://wormwideweb.org/
[6] https://www.opengovpartnership.org/ogp-local/
[7] https://www.opengovpartnership.org/ogp-local/join-ogp-local-call-for-expressions-of-interest-2023/
[8] https://opendatacharter.net/
[9] https://ouverture.data.gouv.fr/?status=Planifi%C3%A9

#opendata #readings

Читать полностью…

Ivan Begtin

Как говорится ни добавить/ни убавить. Если нацпроект "Экономика данных" будет таким же как пиар Пр-ва РФ, то не будет в России ни данных, ни экономики.

Читать полностью…

Ivan Begtin

Большая симпатичная подборка того как не надо и как надо рисовать графики Friends Don't Let Friends Make Bad Graphs [1].

Все примеры скорее про научные публикации чем про дата журналистику, с открытым кодом для R Studio.

Ссылки:
[1] https://github.com/cxli233/FriendsDontLetFriends

#dataviz #opensource

Читать полностью…

Ivan Begtin

OneTable [1] новый ожидаемый стандарт/инструмент по преобразованию табличных данных из Apache Hudi, Delta Lake и Apache Iceberg. Развивают его OneHouse, Google и Microsoft и уже заявлена поддержка 4-х видов каталогов данных и 8 движков для запросов. Стандарт никак не затрагивает открытые данные, потому что никто не использует в них такие форматы, но затрагивает корпоративные системы использующие подобные форматы.

Обещают что проект в итоге будет передан в Apache Foundation, уже сейчас можно опробовать через репозиторий открытого кода и демо на Docker.

Ссылки:
[1] https://onetable.dev/

#data #datatools #opensource

Читать полностью…

Ivan Begtin

В рубрике как это работает у них портал показателей и одновременно портал открытых данных статистической службы Ирландии data.cso.ie [1]. Каждый показатель рассматривается, одновременно, ещё и как набор данных и на каждой отдельной странице показателя есть, как отображение для статистиков и аналитиков, с выбором параметров и визуализацией так и для разработчиков с API и возможностью полной выгрузки набора данных в форматах XLSX, CSV, PX, JSON-Stat.

В основе продукт PxStat с открытым кодом [2] разработанный статслужбой достаточно давно и поддерживаемый в рамках открытой разработки.

Ссылки:
[1] https://data.cso.ie
[2] https://github.com/CSOIreland/PxStat

#opendata #datasets #opensource #datacatalogs #statistics #ireland

Читать полностью…

Ivan Begtin

Любопытная статья [1] и связанные с ней наборы данных [2] про WikiWebQuestions, набор данных SPARQL аннотированных данных из Wikidata и о том что большие языковые модели вроде LLaMa меньше галлюцинируют и точность их ответов повышается. Всячески полезное чтение и возвращение к вопросу о том насколько и как структурированные и качественно аннотированные базы данных могут повлиять на качество ИИ-инструментов. До сих пор в основе больших языковых моделей были очень большие базы текстов, а тут базы фактов. При всей неидеальности и неполноте Wikidata баз таких объёмов и такой структуризации одновременно очень мало.

Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23

#ai #opendata #wikidata #datasets #research #readings

Читать полностью…

Ivan Begtin

Постепенно возвращаясь к нашим публичным активностям, хотим поблагодарить тех наших подписчиков и единомышленников, кто уже помог нам с автоматизацией сбора данных из различных важных источников. Будем очень рады, если круг таких людей расширится, потому что наша миссия – не только собрать все важные для Армении и армян данные в машиночитаемом и общедоступном виде, но и развивать сообщество неравнодушных к этой теме людей.

Вот список задач, ожидающих своих героев. Не забывайте прокомментировать задачу, если берётесь за неё.

Stay tuned!

Читать полностью…

Ivan Begtin

Как Вы думаете сколько Excel файлов опубликовано на сайте российского ЦБ ? Более 18 тысяч, в форматах XLS и XLSX, даже если предположить что большая часть из них это ежемесячные файлы в повторяющейся структуре - это будет сотни-тысячи наборов данных. Сколько Excel файлов публикуется другими органами власти - сотни тысяч, причём в развитых странах, как правило, большая их часть - это не продукт ручной работы, а экспорт из внутренних систем органов власти.

Ещё когда только-только появлялись первые порталы открытых данных я говорил что собрать десятки тысяч, сотни тысяч файлов наборы данных не является сложной задачей. Сложности не в том чтобы собрать, а в том чтобы собрать полезное и поддерживать сообщество вокруг. В мире, по моим наблюдениям, это лучше всего получается во Франции и в Испании, но не только, просто везде разные акценты. В США на бесконечном объёме научных и геоданных, в Европе на геоданных и на high-value datasets и так далее.

Всё проще когда данных много в общедоступных государственных информационных системах и когда открытые данные худо-бедно существуют. Поэтому на российских общественных порталах открытых данных вроде Хаба открытых данных (hubofdata.ru) мы не стали собирать бесконечное количество Excel файлов, хотя они в наличии всегда были.

Сложнее когда этих систем мало или когда они устаревают и получить структурированные данные из них сложно. Поэтому, к примеру, портал открытых данных Армении (data.opendata.am) который мы создали включает те немногие данные что были доступны онлайн, но многие источники не в стране, а порталы вроде WorldPop или Humanitarian Data Exchange. Внутри страны открытые данные как открытые данные органами власти практически не публикуют. Мы сейчас собрали 810 наборов данных, что немало для страны с населением чуть менее 3 миллионов человек, но есть ещё много других данных

Что возвращает нас к всего лишь нескольким способам их создания:
1. Попросить у госорганов. Написать в госорганы в Армении запрос на публикацию существующих данных как открытых. Скорее всего займёт много времени и ответы в стиле "спасибо что написали, но у нас на это денег нет", что во, многом, правда.
2. Извлечь из существующих информационных систем и дата-каталогов. Их список известен (https://registry.commondata.io/country/AM) и частично это уже сделано, но данных там не так много как хотелось бы.
3. Вернуться к идее сбора Excel файлов по госсайтам и не просто парсить HTML таблицы, а собрать и систематизировать опубликованные реестры и иные данные с официальных госсайтов: правительства, министерств, служб, региональных правительств (марзов) и так далее. Это даст возможность собрать ещё несколько тысяч наборов данных.
4. Самоограничить себя до сбора high-value datasets и их размещения в открытом доступе, а то есть тех данных которые:
- обладают большим объёмом
- имеют множественное практическое применение
- хорошо визуализирутся
- весьма востребованы

Такие данные тоже есть, например, все законы в РА из системы ARLIS.

Как бы то ни было, идея в автоматизации сбора Excel файлов с сайтов органов власти меня до конца не покинула, она не то чтобы совсем проста, но не слишком сложна в реализации.

#opendata #opengov #armenia

Читать полностью…

Ivan Begtin

Я посмотрел свежее выступление Максута Шадаева (главы Минцифры РФ) на Tadviser Summit где он упоминал, в том числе, о том что Гостех это, в первую очередь, для регионов и муниципалитетов поскольку у них дублируются функции и услуги и о том что логично им всем на Гостех переходить, а с федеральными структурами работа по более сложным схемам совместных предприятий поставщиков для федеральных ИТ с Ростелекомом.

И вспомнил что это мне напоминает. Текущая российская система государственного управления построена на 3-х принципах: централизация, контроль и патернализм. Эти принципы очень заметны и в российской технологической политике. За последние 20 лет я лично наблюдал исключительно процессы их подтверждающие, с небольшими отклонениями, но в пределах погрешности.

Централизация всё это время заключалась в постепенном отъёме полномочий у регионов и муниципалитетов. Федеральные органы вначале всё больше забирали на себя полномочия совместного ведения, а далее и те полномочия к которым формально (по конституции) отношения они не имели. В основе этого было множество причин, но основным инструментом были многочисленные законы которые принимались в ГД в форме рамочных документов передавших регулирование исполнительной власти. Почти все крупные государственные информационные системы создавались по такой модели.

Контроль это, можно сказать, базовая ментальная модель, но и многих граждан, заключающаяся в том что если есть какая-то деятельность в котором нет государственного вмешательства, то обязательно надо как можно скорее туда вмешаться. Создав регистрацию, реестр, виды деятельности, учёт, отчётность, передав кому-то (федеральному, конечно госоргану) полномочия по надзору. Я лично не знаю ни одной страны мира в котором было бы такое количество административных реестров как в России. Буквально на каждый чих.

Патернализм это когда, если говорить простыми словами, люди во власти смотрят на простых граждан как на глупых опекаемых субъектов, а на бизнес (если он в доску не свой) как на притесняющих их упырей. Патернализм - это и есть основа существующей централизованной модели госуслуг в России, по сути отношение к малому и среднему бизнесу исключительно как к попрошайкам, а к крупному как, или встроенному в систему госуправления (коррупционными, личными или иными отношениями) или как к объектам бюджетного доения.

Вот эти вот три принципа и есть основная управленческая модель, через них гораздо проще и понятнее смотреть на любые речи, документы и новости связанные с гос-вом.
Например:
1. Почему Гостех хотят масштабировать на регионы и муниципалитеты? Потому что централизация. У региональных властей, кроме Москвы, значительно меньший административный вес. Конституционное право на отличия де-факто заменяется на то что "вы же все одинаковые", даже если это не только не так, но и не должно быть так в принципе.
2. Почему нацпроект "Экономика данных" скроен таким образом? Потому что: Госуслуги - патернализм, Гостех - централизация, большая часть всего остального - де-факто контроль. С исключением в виде мероприятий по развитию ИИ, которые реально к экономике данных относятся, где надо учить и развивать.
3. Почему долгое время открытые данные присутствовали в стране? Они же противоречат этим принципам. Они противоречили принципу патернализма, но использовались в принципах централизации и контроля как довод того что "граждане не имеет достаточного контроля за деятельностью местных и региональных властей". Это более-менее работало долгое время, но стало сжиматься когда заигрывание с общественным мнение стало сходить на нет. Сейчас оно тоже есть именно в связке с этими двумя принципами, но с всё большим усилением в сторону контроля за оборотом данных, потребителями, доступом к данным и так далее.

#it #government #policy #thoughts

Читать полностью…

Ivan Begtin

Новая стратегия работы с открытыми данными Ирландского правительства на 2023-2027 годы [1]. В стратегиях 3 фокуса: публикаторы (владельцы) данных, платформа и пользователи.

Стратегия совсем свежая, опубликована 23 ноября, одна из весьма детальных стратегий в Евросоюзе по этой тематике.

Ссылки:
[1] https://www.gov.ie/en/policy-information/8587b0-open-data/#open-data-strategy

#opendata #stategy #ireland

Читать полностью…

Ivan Begtin

- Вами съеден исторический документ...
- Папа всегда говорил, уничтожай архивы
Шварц, пьеса "Дракон"

С российского портала государственных программ исчезла сведения:
- Ход реализации госпрограммы
- Сведения о показателях госпрограммы
- Сведения о показателях в разрезе субъектов РФ
- Значения показателей и финансирование программы
- Перечень основных мероприятий
- Сведения о мерах правового регулирования
- Ресурсное обеспечение реализации госпрограммы
- Дополнительные и обосновывающие материалы
- План реализации
- Инфографика
- Результаты инициативного согласования

Можно посмотреть на примере ГП "Информационное общество" [1] и сравнить с версией на начало 2022 г. [2]

Раньше я писал несколько раз о том что госпрограммы были не в пример прозрачнее нац/ проектов или других "свежих" правительственных инициатив [3]. Но, российское пр-во "исправилось", но не в том смысле что стало публиковать больше информации про нац проекты. Нет, нет, всё ровно наоборот, теперь с портала госпрограмм удалено почти всё что касалось их реализации.

Очень удобно, не правда ли? В самом деле, зачем, ну зачем, российским гражданам и уж тем более не российским знать о том как расходуются деньги федерального бюджета.

Ссылки:
[1] https://programs.gov.ru/Portal/programs/passport/23
[2] https://web.archive.org/web/20220303192829/https://programs.gov.ru/Portal/programs/passport/23
[3] https://begtin.tech/natsional-nye-proekty-ili-beg-po-krugu/

#government #budget #closeddata #data #russia

Читать полностью…

Ivan Begtin

В рубрике интересных проектов на данных, о данных, публикующих данные Open Terms Archive [1] архив условий использования в виде коллекций условий использования, API, наборов данных и метаданных.

Включает такие коллекции как:
- Generative AI
- Platform Governance Archive
- P2B Compliance
- France Élections
- Dating
- France
- Contrib

Все коллекции хранятся на Github'е с автоматическим отслеживанием изменений и хранением всех версий в Git.

Проект отмеченный на многих международных площадках и даже зарегистрированный как Digital Public Good

Ссылки:
[1] https://opentermsarchive.org
[2] https://github.com/OpenTermsArchive

#datasets #opendata #opensource #terms #privacy #bigtech

Читать полностью…

Ivan Begtin

⚡В Краснодаре родители учеников взбунтовались против массового сбора персональных данных детей в школах под различными поводами. Многие отказываются регистрироваться на различных платформах, где требуют данные детей. Большое негодование вызвала привязка «Сетевого города» к порталу Госуслуг.

Читать полностью…

Ivan Begtin

Я тут хотел было прокомментировать проходивший недавно AI Journey, и ещё слайд который, по слухам, Максут Шадаев показывал в "Бункере" про структуру нацпроекта "Экономика данных", но вместо этого покажу вам 2 скриншота сайта ai.gov.ru.
1-й от 9-го сентября 2022 года
2-й сегодняшнего дня

Можно увидеть как сайт где был какой-то но контент, с регуляторикой, стратегией и тд. превратили в пиарный одностраничник. И раньше то было куцо, а теперь просто выжжено, только новостной мониторинг.

Это всё к вопросу о том почему надо архивировать госсайты, да всё по тому же. Уж больно любят российские чиновники удалять да прятать несделанное и недоделанное.

#ai #russia #government

Читать полностью…

Ivan Begtin

Про работу с данными в госуправлении, проект Open Audit [1] команды исследователей из MIT которые собрали и распознали 17 тысяч отчётов государственных аудиторов в Филлипинах с 1998 по 2022 годы. Особенность публикации таких документов в Филлипинах заключается в том что на сайте их Комиссии по аудиту [2] публикуются отчёты контрольных органов всех уровней, включая муниципальные, соответственно и анализ проводился всех этих отчетов, а не только центрального Пр-ва и о самом проекте подробнее в MIT Gov/Lab [3].

У меня когда-то были мысли о схожем проекте, ещё когда я собирал архив старых отчётов Счетной палаты РФ и они до сих пор выложены в разделе на сайте госоргана. Но, имеют то ограничение что это только федеральные отчеты, а отчеты региональных и муниципальных палат всегда были рассеяны по десяткам, сотням сайтов. Поэтому большой-красивый набор данных создать было бы сложно, без специальных усилий конечно.

Ссылки:
[1] https://github.com/jerikdcruz/OpenAudit
[2] https://www.coa.gov.ph
[3] https://mitgovlab.org/news/unearthing-the-hidden-stories-of-budgets-and-audit-reports/

#opendata #government #audit

Читать полностью…

Ivan Begtin

Рубрика "Циничный пиар"
"Россия - родина слонов великих технологий!"
Я не знаю, кто писал текст для этого ролика, которым, судя по всему, открывалась вчерашняя стратсессия в "Бункере" по закрытию цифровой экономики формированию нового нацпроекта "Экономика данных". Но я точно знаю, без чьей визы на этом тексте не обошлось. И все постоянные читатели канала тоже это знают. Поэтому сейчас и здесь я это имя называть не буду.
Я представляю, как этот сборник лозунгов о светлом будущем одной отдельно взятой экономики данных (тм) смотрелся на "бункерном" мега-экране с высококачественным звуком в формате вражеской системы Dolby TrueHD. После такого вдохновляющего перформанса хочется вскочить, схватить лопату и отбойный молоток, пешком пойти в сибирскую тайгу и заполярную тундру, валить лес, прокладывать новый БАМ, вручную тащить суверенный интернет в самые глухие селения - в общем, делать всё, что, по мысли пиарщиков, должны делать зрители, проникшиеся грандиозностью концепции этой рекламы.

PS. Прокрутил ролик 10 раз. Всё хотел разглядеть в нем великие российские технологии (тм). Увидел ноутубуки Apple со стыдливо заклеенным яблоком на крышке, китайский клон робособаки от Boston Dynamics, видеостену на РИФе, собранную из корейских мониторов Samsung, какую-то картинку с инфографикой почему-то на вражеском языке, пиарщицу в лабутенах, с задумчивым видом и макбуком бродящую между стойками в ЦОДе, набитыми отнюдь не импортозамещенным "железом"... Была пара кадров с взлетающим "Протоном" - но это не великая российская, а великая советская технология, которой через пару лет исполнится 60

Читать полностью…

Ivan Begtin

Я читаю свежие новости по поводу того что Правительство РФ запланировало к лету 2024 года сформировать нацпроект "Экономика данных" [1] [2] и почему-то у меня в голове это складывается исключительно со словами "токсичный оптимизм". В России, в принципе, по деятельности Правительства РФ и отдельных госорганов пиара многократно больше чем смысловых публикаций. Я об этом писал много раз, про снижение прозрачности госбюджета в связи с нацпроектами, про совершенно мутную историю с Гостехом и ещё много о чём. Внимательные читатели всё это помнят.

Так вот в виду отсутствия содержания, придётся комментировать их обещания. Далее нежирным текстом из публикации пр-ва, жирным текстом мой комментарий.

👩‍💻граждане получат возможность управлять доступностью сведений о себе,

Единственный вариант сделать такое - это заставить бизнес централизованно сдавать данные гос-ву или хранить сразу в специальном госхранилище. Нас ждут полный разгул для спецслужб и правоохранителей, новый уровень пробива и утечек и, конечно же, никакой гарантии что данные управление которыми пользователь отзывает не останутся в госхранилище помеченные как удалённые.

⚡️искусственный интеллект будет использоваться для анализа медицинских изображений, а также во всех отраслях экономики,

В медицине он уже давно используется и во всех областях где есть применение тоже используется. Правительство на это никак не влияет, использование ИИ, а вернее разного рода алгоритмов - это естественное развитие цифровизации отраслей.

⚡️все госуслуги будут доступны онлайн в проактивном режиме,

Здесь не могу не мрачно ухмыльнуться, потому что Мишустин лучше всех знает почему проактивное оказание услуг невозможно. У государства, особенно у региональных и муниципальных властей банально нет ресурсов для проактивного оказания услуг связанных с финансовой поддержкой. Я бы сказал "а спросите его почему ФНС не сделало до сих пор автоматического, а не по запросу, налогового вычета", но спрашивать некому. Поэтому коротко - это вранье, при этом Правительстве такого не будет, а следующее "сольёт тему".

⚡️все государственные информационные системы будут использовать единую платформу цифровизации «ГосТех»,

Не, ну серьёзно? Обратим внимание на отточенность формулировок, не "построены на", а "будут использовать", это важный нюанс. Чтобы ГИСы "использовали ГосТех" достаточно сделать ЕСИА частью ГосТеха и заставить всех разработчиков ГИСов использовать ЕСИА во всех случаях. Будет ли с этого кому-то польза? Сомневаааюсь.

📈капитализация 100 крупнейших ИТ-компаний увеличится в 2,5 раза,

Есть два способа этого добиться.
1-й обозвать ИТ компаниями 100 крупнейших компаний и тогда совокупная капитализация будет больше чем в 2.5 раза.
2-й девальвировать рубль в 2.5 раза, а то и больше.
Чтобы всё быстрое ё$*&^% грохнулось лучше второй вариант, но в целом пугающее заявление


⚡️рост ВВП благодаря развитию технологий составит более 11 трлн рублей,

Возвращаемся к предыдущему пункту те же рецепты, тот же ужас.

🔒будет обеспечена тотальная технологическая защищенность данных,

Столько вопросов, столько вопросов. И про тотальность, и про защищённость и про то что за данные защищать и чьи. Что, неужто утечек данных больше не будет? А с какого-года? А кто за это будет отвечать? А зуб[ы] дадут что тотально и защищённо? В общем звучит как лютый bullshit.

🛡ИИ поможет в создании безопасных условий жизни.

А тут всё очень похожие вопросы. Жизни кого? Впихивать инфобез под видом "безопасных условий жизни" в экономику данных - это не про экономику и не про данные, это про продолжение ужесточения регулирования, про усиление правоохраны, про внедрение всяческих проектов "Безопасный город" и тд. Экономика от этого не растёт.

Пока даже бессмысленно говорить о том чего там нет, потому что ничего пока в этом нацпроекте нет, его и самого то нет кроме как в форме благопожеланий.

Ссылки:
[1] /channel/government_rus/9863
[2] /channel/government_rus/9870

#government #data #bullshit

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них проект OpenEI (Open Energy Initiative) [1] развивается Департаментом энергетики США и включает инфраструктурные ресурсы для исследователей в области энергетики. В том числе репозитории открытых научных данных:
- Open Energy Data Initiative [2] 26 озёр данных посвящённых теме энергетики, общим объёмом 2.7 петабайта
- Geothermal Data Repository [3] данных по геотермальным источникам, 271 терабайт
- Marine and Hydrokinetic Data Repository [4] данных по морским и гидрокинетическим источникам, 29 терабайт

А также многие другие данные [5].

Все данные, включая наиболее крупные наборы данных, доступны без взимания платы. К большинству наборов данных приложены примеры в Jupyter Notebook, доступ предоставляется через инфраструктуру Amazon AWS, Azure или Google Cloud. Всё за что нужно платить исследователям - это за использование инфраструктуры облачных сервисов Microsoft, Amazon или Google, и только в тех случаях, когда им нужны высокопроизводительные расчёты.

От себя добавлю что 3 петабайта открытых данных это не предел, есть наборы данных и общедоступные озёра данных и большего размера.

Ссылки:
[1] https://openei.org
[2] https://data.openei.org
[3] https://gdr.openei.org/
[4] https://mhkdr.openei.org/
[5] https://openei.org/wiki/Data

#energy #opendata #usa #datacatalogs #datasets

Читать полностью…

Ivan Begtin

Я ничего не писал про увольнение Сэма Альтмана из OpenAI ожидая когда станут известны подробности и подробности уже прозвучали, он переходит в Microsoft, что, для Microsoft, несомненно большой выигрыш. Тем временем просто интереса ради почитать обзор того как менялся состав правления OpenAI за 6 лет [2], там немало любопытного и непрозрачного было.

Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.

Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board

#ai #microsoft

Читать полностью…

Ivan Begtin

Я давно не писал про проект реестра всех каталогов данных в мире Common Data Index [1], а там довольно много обновлений.

1. У каждого каталога данных добавлен макрорегион к которому он относится. Макрорегионы - это группировки стран по местонахождению, например, Северная Африка или Юго-восточная Азия. В основе привязки классификатор UN M49. Это удобно для поиска каталогов данных по странам и территориям
2. Для каталогов добавлено свойство is_national, является ли каталог данных национальным порталом открытых данных. Таких каталогов не так много
3. Охвачены практически все страны кроме 31 и все из неохваченных, или беднейшие страны мира, или мельчайшие островные государства. Это не значит что по ним нет наборов данных, а значит что по ним нет отдельных каталогов данных.
4. Сейчас всего 9912 каталогов данных. Какие-то записи удаляются как дубликаты, какие-то добавляются как новые. Большая часть нового - это каталоги геоданных
5. Самая сложная часть - это повышение качества реестра поскольку в большинстве случаев, например, наименование владельца каталога можно указать только вручную.
6. Для языков каталогов данных добавлена их расшифровка. Теперь не только код "ES", но и его название на английском "Spanish" и так для всех языков всех каталогов.

В целом могу сказать что не хватает какого-то гибридного инструмента между Semantic Mediawiki, Airtable и базой данных так чтобы можно было бы вносить изменения, и вручную, и через API, и отображать данные без труда при любых изменениях схем.
Потому что сейчас работа над реестров ведётся полувручную через автоматизированные скрипты изменения сразу кучи YAML файлов. Файловая система используется как аналог СУБД, а потом изменения собираются в JSON lines датасеты.

Следующим шагом за реестром был и остаётся поисковик по наборам данных о котором я ещё обязательно напишу, но тут уже без промежуточных результатов. Его получится увидеть только когда он будет хотя бы MVP.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #datacatalogs #datasets

Читать полностью…

Ivan Begtin

В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.

Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях

Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями

Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.

Ссылки:
[1] http://www.nsdata.cn
[2] http://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] http://data.cma.cn/en
[5] http://www.forestdata.cn
[6] http://www.agridata.cn
[7] http://www.geodata.cn
[8] https://www.nms.org.cn
[9] http://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] http://www.csdata.org/en/
[13] https://findata.cn

#opendata #datasets #china #datacatalogs #openaccess #openresearch

Читать полностью…

Ivan Begtin

Кто-то говорит что скоро ИИ заменит разработчиков, а на сайте фонда Sequoia статья о следующем миллиарде разработчиков [1]. Сейчас их около 100 миллионов, достижим ли миллиард? Оптимистично ли это для рынка/человечества или наоборот катастрофа ? Интересно что автор ссылается на отчёт Github'а The State of Octoverse [2] где упоминается 100 миллионов разработчиков на Github'е и 26% (21 миллион) рост их числа за прошедший год.

Интересное предсказание, вполне возможно что небезосновательное.

Ссылки:
[1] https://www.sequoiacap.com/article/the-next-billion-developers-perspective/
[2] https://github.blog/2023-11-08-the-state-of-open-source-and-ai/

#opensource #it

Читать полностью…
Subscribe to a channel