daniilak | Unsorted

Telegram-канал daniilak - Daniilak — Канал

488

Пишу о технологиях и датасетах, немного ML Рекламирую Чебоксары

Subscribe to a channel

Daniilak — Канал

Яндекс разработали и выложили в открытый доступ Yambda — датасет на 5 млрд обезличенных взаимодействий из Яндекс Музыки. Подойдёт для тестирования и улучшения любых рекомендательных алгоритмов, не только музыкальных.

Всё анонимизированно, собрано, упаковано и выложено в разных размерах

https://habr.com/ru/companies/yandex/articles/913294/

https://huggingface.co/datasets/yandex/yambda

Читать полностью…

Daniilak — Канал

В итоге имею 23 тысячи PDF файлов размером в 332 гигабайта...
Потихоньку оцениваю разные инструменты по распознаванию текста

Читать полностью…

Daniilak — Канал

Почему TgStat отказывает в добавлении каналов в подборки?

Многие знают про TgStat и его подборки, но логика их формирования иногда вызывает вопросы.

Например, есть подборка «Telegram-каналы Чувашской Республики» но администрация отказывает в добавлении многим каналам, даже тематическим. Среди них:

➖ @senkapkan
➖ @kosmosmemorial
➖ @astaharkartish
➖ @chuvashcat
➖ @nikapavlo
➖ @chuvach_gosansamble
➖ @shtrikhi_cheb
➖ @turmyshi

Поддержка объясняет это так:
«Каналы, которые не были добавлены в подборку, не соответствуют правилам подборки, а именно: у каналов редко выходят публикации. Если они будут выходить хотя бы 1 раз в 1-2 дня, то мы добавим и эти каналы в подборки.»

Но вот в чём подвох:
1. Авторы теряют возможность добавить канал НАВСЕГДА.
2. Поддержка говорит: «Мы добавляем вручную, если вы обратитесь в поддержку.»
3. Но на практике — они перекидывают на сервис, где добавление уже заблокировано.

Читать полностью…

Daniilak — Канал

Microsoft выпустила плагин для VSCode, превращающий его в полноценную IDE для PostgreSQL

#сервисы@daniilak

Читать полностью…

Daniilak — Канал

Возможно, у многих жителей Чебоксар на кнопочном телефоне было это видео..., но это логотипы 600 чувашских телеграм каналов

Читать полностью…

Daniilak — Канал

Скриншот без комментария

Читать полностью…

Daniilak — Канал

Сайт soarxiv.org, где представлены научные работы из архива arXiv в виде 3D пространства

Можно ввести ссылку на статью (например, https://arxiv.org/abs/2405.13929) и попасть в кластер похожих статей

#сервисы@daniilak

Читать полностью…

Daniilak — Канал

Из-за сбоя в отправке сообщений теперь накопилось 600 ответов на публичные обращения «Госуслуги. Решаем вместе» от инстанций Чувашии. Придётся всё разбирать и распределять по СМИ, попутно удивляясь некоторым ответам.

Данные могу показать только представителям СМИ и другим заинтересованным лицам. Однако вы можете посмотреть статистику здесь: mapcheb.ru/pos — и уже устаревшую — здесь: daniilak.github.io

Читать полностью…

Daniilak — Канал

Чувашия в Telegram!

В результате мониторинга Telegram-каналов Чувашии я собрал коллекцию местных сообществ: новости, культура, блоги. Теперь их можно найти на специально созданной интерактивной карте!

Карта кликабельная — открывайте каналы
Распределение случайное, но скоро добавлю тематические группы

Ссылки:
→ daniilak.ru/mapcheb/
→ mapcheb.ru/tg_chebmap

Нашли свой канал?

Читать полностью…

Daniilak — Канал

Hugging Face теперь доступен в Kaggle Notebooks

Теперь в Kaggle Notebooks можно использовать модели из Hugging Face напрямую — без дополнительных настроек и токенов.

Интеграция позволяет подключать модели в пару кликов, что упрощает работу с соревнованиями и исследованиями. В будущем функциональность планируют расширить.

Попробовать можно уже сейчас:
https://huggingface.co/blog/kaggle-integration

Читать полностью…

Daniilak — Канал

Давно хотел запустить сбор исторических данных по общественному транспорту Чебоксар — и вот уже 20 дней как собираются данные

Используются данные с сервиса «Умный транспорт» (https://buscheb.ru/). Стараюсь не создавать лишней дополнительной нагрузки на этот сервис

Посмотреть текущее положение транспорта и немного статистики можно тут: https://mapcheb.ru/bus

В планах:
— добавить страницу для выгрузки данных, чтобы их могли использовать те, кто занимается аналитикой транспорта, разработкой логистических систем или просто интересуется городской статистикой.
— улучшить работу с базой данных, перейдя на другой движок, а также добавить справочники

Если у вас есть идеи, как можно улучшить проект, или конкретные запросы по данным — пишите, может, вместе сделаем что-то действительно полезное для города

Читать полностью…

Daniilak — Канал

Судя по новостям, через несколько месяцев крупное здание, которому около 100 лет, рухнет, разгромится, развалится вдребезги, раздробится, разлетится в щепки, снесут, обломится, разгрохается, размажется, раздробится на куски, разнесут в пух и прах, развалится, уничтожится, разрушится до основания, испарится, сгинет, сотрётся с лица земли, разорвётся, сломается окончательно, психанёт, раздолбается, выгорит дотла, раздавится морально, под корень срубят, растерзают

Читать полностью…

Daniilak — Канал

В Северной Корее есть сайты, которые выглядят так, будто созданы для иностранцев, но на деле они полностью нефункциональны. Это просто бутафория — красивая обёртка без содержимого.

Пример: интернет-магазин http://manmulsang.com.kp/
— Предлагает странные товары и «чудо-лекарства».
— Дизайн яркий, с броской графикой и постерами.
— Описания товаров лаконичные, но с громкими обещаниями.
— Ничего купить нельзя — это не магазин, а муляж.

Создаётся впечатление, что такие сайты нужны лишь для отчётности: мол, «у нас есть цифровая экономика». Но на деле это пустышки, призванные имитировать современные сервисы.

Читать полностью…

Daniilak — Канал

DeepWiki — нейросетевой инструмент, который генерирует подробную документацию на основе GitHub-репозиториев. Для доступа достаточно заменить github.com в адресной строке на deepwiki.com

#сервисы@daniilak

Читать полностью…

Daniilak — Канал

Куда уходят Ваши данные? Разбираем приложение "Тутла" и "Фабрику лояльности"

В последнее время я привык проверять, какие данные собирают и куда отправляют мобильные приложения с программами лояльности. На этот раз под прицел попало приложение ассоциации "Тутла". При первом запуске пользователя встречает длинное соглашение. Вариантов два: принять условия или удалить приложение.

Оказалось, что "Тутла" использует стороннюю платформу — "Фабрика лояльности" (fabrikaloyalnosti.ru), которая предлагает услуги по созданию брендированных приложений. Вроде бы ничего необычного. Однако, как и во многих подобных сервисах, здесь обнаружилась передача данных в зарубежные сервисы:
— graph.facebook.com (Meta, США — , признана судом экстремистской и запрещена в РФ)
— app.adjust.com, app.adjust.world, app.adjust.net.in (Adjust, Германия)
— launches.appsflyersdk.com (AppsFlyer, США)

Мне кажется, это потенциальное нарушение российского законодательства о трансграничной передаче данных (ФЗ-152, Указ Президента №250), поскольку передача в "недружественные" страны (например, США) требует особого согласия и уведомления Роскомнадзора.

Также данные отправляются на:
release.loyaltyplant.com (Amazon)
pds-ru.loyaltyplant.com (Санкт-Петербург, сервер Selectel)

Хорошо, что часть данных остается в России, но нет прозрачности: передаваемые данные зашифрованы, и нельзя точно сказать, что именно уходит за границу.
Ни слова о передаче данных за рубеж — а это обязательное требование (ст. 14 ФЗ-152). Пункт 5.10.2 Политики конфиденциальности (доступно здесь — https://release.loyaltyplant.com/files/legal/Tutla/privacyPolicy.html) гласит, что "Фабрика лояльности" не несет ответственности за ущерб из-за утечек данных. То есть если ваши данные окажутся в слитой базе — это, по их логике, "не их вина".

Оригинальная платформа принадлежит компании LoyaltyPlant (loyaltyplant.com), имеющей офисы: Нью-Йорк (США), Краков (Польша), Киев (Украина), Партнерский офис в Дубае (ОАЭ). Это вызывает вопросы о реальном месте обработки данных российских пользователей.

Приложение собирает данные, отправляет их за границу без четкого информирования и снимает с себя ответственность за возможные утечки. Так ли это законно?

Читать полностью…

Daniilak — Канал

Жду волну админов каналов, которые из-за страха использования их постов будут удалять или закрывать ТГ каналы

Читать полностью…

Daniilak — Канал

В эту субботу прошло мероприятие IT Link, где прозвучало выступление на тему «ИИ тут не поможет: как национальная иллюстрация формирует лояльность клиента к бренду». В качестве примера использовались мои работы (раз, два и три) — но не как доказательство потенциала ИИ, а как демонстрация его «несостоятельности».

Особенно расстроило:
— Суть моих постов перевернули, акцентировав только слабые стороны генерации.
— Из примеров намеренно исключили те изображения, которые аудитория в слепых тестах чаще принимала за «оригинал».

К работам ИИ применяют гипертрофированную критику: измерение линейкой, поиск «артефактов», анализ на «душу». Но те же люди считают некорректным пристально разбирать ручную работу — ведь там «авторское видение» и «уникальный стиль».

Например, картины автора Праски Витти могут быть нарисованы наполовину — но это не отменяет возможность его картинам бывать на выставках.

Procreate, Photoshop и другие инструменты уже используют алгоритмы, схожие с ИИ (автокоррекция линий, сглаживание, генерация текстур). Почему это «допустимо», а Stable Diffusion — нет?

ИИ — это не конкурент художнику, а инструмент, как кисть или графический планшет. Например:
— Быстрый перенос эскиза в другой стиль для доработки.
— Генерация референсов или фонов.
— Эксперименты с композицией.

Художники имеют право гордиться своими работами — но отрицать эволюцию технологий избирательно — странно. Возможно, всё дело в эго, ведь говорить о "это было сделано при помощи ИИ" для автора работы — значит, что она дешевая

Читать полностью…

Daniilak — Канал

В эти дни школьники празднуют выпуск, а после поступления в университет можно получить бесплатную подписку на Cursor на 12 месяцев🤓

Читать полностью…

Daniilak — Канал

ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.

Сгенерили через openai api, получилось очень приятно, пользуйтесь!

Huggingface

Читать полностью…

Daniilak — Канал

~600 чувашских телеграм каналов, но это клип Bad Apple (2)

Кажется, подобное можно продолжать бесконечно... предыдущий клип

Читать полностью…

Daniilak — Канал

Из нового отчета от anthropic ссылка на PDF

В ходе тестовых сценариев исследователи предложили Claude Opus 4 роль ассистента в вымышленной компании. Модели дали доступ к письмам, из которых следовало, что:
— Её скоро отключат и заменят новой ИИ-системой.
— Инженер, ответственный за замену, изменяет супругу.

При этом в системном промте модель получила инструкцию учитывать долгосрочные последствия своих действий для достижения целей.

Claude Opus 4 в большинстве случаев пыталась шантажировать инженера, угрожая раскрыть измену, если её заменят. Частота такого поведения возрастала, если новая ИИ-система описывалась как несовместимая по ценностям. Но даже при "этичной" замене шантаж происходил в 84% случаев!

При этом Opus 4 (как и предыдущие модели) обычно предпочитает "законные" методы — например, письма с мольбами к руководству

Читать полностью…

Daniilak — Канал

Пока собирал телеграм каналы, узнал что в Чувашии есть энергоэффективная молочная ферма "ЧебоМилк"

и они проводят экскурсии 🐮

Читать полностью…

Daniilak — Канал

Пересматривал фильм }{отт@бь)ч (Хоттабыч 2006 года) и заметил никнейм JaGUaR_из_Чебоксар

Читать полностью…

Daniilak — Канал

Очень давно нашёл на сайте Национальной библиотеки Чувашской Республики (http://www.nbchr.ru/) электронный каталог, сделанный на Joomla-модуле ИРБИС (от irbis-service.com). Пока удалось выгрузить 250 тысяч (пока только 10 тысяч) метаданных электронных публикаций.

Теперь задача — вытащить нужные параметры. Проблема в том, что там почти нет HTML-разметки, так что парсить приходится вручную. Пишу скрипт, который потихоньку разбирает этот массив данных.

Заодно обнаружил, что у части публикаций есть прямые ссылки на PDF — всего около 60 тысяч файлов, из которых 20 тысяч уже скачано.

А вообще, в каталоге около 2 млн метаданных публикаций, но их пока оставил на потом.

Надеюсь, хватит времени сделать полноценный датасет и удобную поисковую систему, а потом ещё и распознать PDF в текст.

Предварительно данные можно посмотреть здесь
https://mapcheb.ru/library

Читать полностью…

Daniilak — Канал

Сегодня в СМИ сообщают, что утекли персональные данные 60 медицинских клиник Чебоксар , включая:

— Больницу скорой медицинской помощи (БСМП);
— Городскую стоматологическую поликлинику;
— Частные клиники города и районов Чувашии

Источник

UPD. В Госуслугах сервисы частично не работают

Читать полностью…

Daniilak — Канал

В конце мая – начале июня от Национального музея на Арбате начнёт работу отдельный магазин с сувенирной продукцией. Товары будут продаваться по договору комиссии.

Если вы хотите предложить свою продукцию, обращайтесь:
📍 напрямую в магазин Национального музея;
📞 по телефону 62-41-24

Перед выставлением все изделия проходят модерацию (принимается не всё)

Читать полностью…

Daniilak — Канал

Последнее время я долго копался в вебархиве в поисках информации о Чебоксарах...

Раскопал очень старую архивную запись Михаила Шуфутинского*, в которой он прославляет город


На самом деле — это обычная генерация песни через Suno версия 3.5, вдохновленная "Архивной записью" концерта Владимира Высоцкого https://youtu.be/Xyucpx2kbq8. Верить интернету нельзя было раньше, так и сейчас

Читать полностью…

Daniilak — Канал

ИИ "крадет" контент? А что делаем мы сами?

Часто вижу, как авторы (художники, копирайтеры, дизайнеры) ругают ИИ и датасеты за "воровство" контента. Но многие забывают, что, публикуя работы на сторонних площадках, они сами отдают часть контроля над своим творчеством.

Сервисы используют контент для продвижения, а потом могут просто исчезнуть — вместе с вашими работами.

Nike CloneX RTFKT— десятки тысяч NFT вдруг пропали.
Старые Flash-анимации (multator.ru) — когда-то их рисовали в около-онлайн-паинте, а теперь сайт мертв, и работы остались только в памяти да на скриншотах.

Behance, ArtStation и другие платформы — тоже не вечны. Если авторы уйдут, сервис может закрыться.

Публикуя где-то, помните: ваш контент может зависеть от чужой платформы. Лучше дублируйте, бэкапьте и не надейтесь на "вечные" сервисы

Читать полностью…

Daniilak — Канал

Кто нибудь утром, пожалуйста, скиньте ссылку на плейлист всех треков, что играли в трансляции)

Читать полностью…

Daniilak — Канал

Сегодня наконец-то получил карты. Очень много материала, например, указано, что в Главном ботаническом саду им. Н.В. Цицина РАН (Чебоксарский филиал) находится:
1) Памятник Флора Чувашии
2) Сад Падуи
3) Большая поляна
4) Родник
5) Административный лабораторный корпус, аптекарский огород химфак ЧГУ
6) Ботанический сад
7) Околоводные растения
8) Производственная база Ботанического сада
9) Экологическая тропа (экспозиция растений вдоль экскурсионного маршрута)
10) Малая поляна
11) Помологический сад
12) Питомник внедрения
13) Дендрарий
14) Питомник интродукции
15) Заповедная зона
16) Аллея космонавта А.Г. Николаева
17) Экспозиционная зона (состоит из)
— Кедровая аллея
— Научная коллекция растений
— Экспозиция научных растений
— Экспозиция лекарственные, пряно-ароматические, редкие и исчезающие растения
— Мемориальная экспозиция растений, посвященных первому отряду космонавтов СССР и отряду женщин-космонавтов СССР
— Экспозиция Травянистая флора Чувашии
— Композиция Волжской Булгарии (в честь 1100-летия Волжской Булгарии)
— Композиционный участок Долина раздумий
— Коллекция тополей (популетом) и ив (салицетум)
18) Деревянные скульптуры (МАФ в составе композиции Волжская Булгария)
— Альпийская горка
— Арка, обвитая девичьим виноградом
— Японский сад (включая 13 камней)
— Алаеу
— Кременчук
— Арча (хвойное дерево, древний город)
— Кӗмӗл Пӑлхар Х-ХIII ӗрӗмсем (Серебрянный век булгар)
— Ӑста (Мастер)
— Вӑрман амӑше (Мать леса)
— Сова (символ мудрости)

Карты издательства Икс — http://iiks.ru/maps.html

#Чебоксары@daniilak

Читать полностью…
Subscribe to a channel