daniilak | Unsorted

Telegram-канал daniilak - Daniilak — Канал

264

Пишу о технологиях и датасетах, немного ML Рекламирую Чебоксары

Subscribe to a channel

Daniilak — Канал

Большой материал, который подробно рассказывает о том, с какими проблемами сталкиваются люди, обучающие визуальные генеративные нейросети.

В одном из крупнейших датасетов, на котором такие модели обучают, например, обнаружили сцены детского насилия. Что ещё полбеды, ведь такие картинки просто отфильтровать.

Что гораздо хуже — в нём много изображений в пару к которым добавлены текстовые описания из служебного тега ALT на веб-страницах. Текст из этого тега показывается в том случае, если изображение не грузится, а для слабовидящих пользователей является единственной возможностью узнать о том, что вообще находится на изображении. Однако предприимчивые маркетологи добавляют в этот тег не реальное описание изображения, а ключевые слова, которые лучше всего повлияют на ранжирование сайта в поисковой выдаче. Таким образом модель получает датасет, в котором описан не реальный мир, а мир, который видят поисковые роботы.

Про другие проблемы наглядно — тут:
https://knowingmachines.org/models-all-the-way

Читать полностью…

Daniilak — Канал

OpenAI Релизнули GPT-5 версию

К счастью, теперь доступно из России
gpt-5.openai.com

Читать полностью…

Daniilak — Канал

Распространяйте подсказки для более эффективного поиска работы на hh.ru

1) Старайтесь использовать "Ключевые слова" из описания вакансии в своем резюме. Многие работодатели используют автоматический анализ соискателей, основанный на совпадении ключевых слов. Например, они могут автоматически отклонять кандидатов, если совпадение ключевых слов менее 70%.

2) В разделе "О себе" обязательно укажите хотя бы один контакт. Информация из раздела "Контакты" полностью отображается только после оплаты работодателем специальной услуги, стоимостью около 10 тысяч рублей в день. Поэтому, чтобы облегчить связь с потенциальными работодателями, важно указать контактные данные в свободно доступной части своего профиля.

Давно хотел это опубликовать, но каждый раз забывал

Читать полностью…

Daniilak — Канал

OpenAI показывают свою систему копирования голоса.

Стартапы, по типу «Служба безопасности Сбербанка» «Мама, я твой сын, скинь мне деньги» напряглись

Читать полностью…

Daniilak — Канал

Посвящается всем авторам ТГ каналов про Эй Ай


Я слежу что пишет сама
Знаю все про Гэ Пэ Тэ
Ворлд модели строит Сора
подпишись на мой тэ гэ

Здесь посты и много мемов
Можно слушать и читать
Будешь лучшем в мире сеток
Клоуна не ставьте блять

Когда ты станешь самым смелым
Будешь шарить, больше знать
Будет офер, много денег
Незабудь донат прислать


https://app.suno.ai/song/71d79d32-73f1-42e4-8b55-16809ebfad33

Читать полностью…

Daniilak — Канал

Представьте троллинг:
— Ты что, не помнишь эту песню?
И ставить генерацию..

Читать полностью…

Daniilak — Канал

Заренерировал новые треки через suno.ai и залил на youtube (тык и тык)

еще минус несколько профессий?

Читать полностью…

Daniilak — Канал

На Github выложили платформу OpenCat. С её помощью можно сделать себе четвероногого робота-питомца 🌯

Как раз без дела лежат и Raspberry Pi и Arduino

Читать полностью…

Daniilak — Канал

Наконец доехал из перевода Veles2.5 - переведенный на русский Hermes2.5 через gpt3.5

Вероятно доедет за несколько недель вихрь-велес

Датасет для русского

Читать полностью…

Daniilak — Канал

Упорно работаю над своим проектом, при помощи которого можно будет запрашивать информацию по базе Розыска в МВД.
https://github.com/daniilak/ru_mvd_search_wanted

Собираюсь выпустить его на pypi.org и нахожусь на заключительном этапе, по которому осталось выполнить следующие задачи:

1. Написать тесты для проверки функционала.
2. Экспериментально проверить его работоспособность.
3. Доработать раздел "Readme" для более полного описания проекта.
4. Заменить возвращение ошибок на исключения.
5. Качественно оптимизировать код.

Несмотря на текущий прогресс, на данный момент этот проект является только частичным парсером. Для его полноценной работы требуется:

1. Добавить код и модель, которые смогут автоматически решать капчу.
2. Реализовать функцию, позволяющую получить дополнительные данные о найденном человеке через проверку ответов на почте.

Думаю, что будет создан отдельный репозиторий в формате FastAPI приложения, который будет включать в себя отдельные модули для решения капчи и работы с почтой.

Читать полностью…

Daniilak — Канал

Иван Бегтин сегодня анонсировал новую платформу для поиска данных — Dateno.

Это сайт, на котором можно найти открытые данные и статистику со всего мира по поисковому запросу. На нём уже проиндексировано 10 миллионов датасетов (из них — 219 тысяч по России), а к концу года это количество планируют расширить до 30 миллионов. Можно указать тематику, язык источника, формат данных. А работает это уже лучше, чем тот же Google Dataset Search.

Портал пока находится в стадии беты, но уже работает:
https://dateno.io/

Читать полностью…

Daniilak — Канал

Почему вообще используются восьмиугольники на картах?

Агрегация случайных точечных данных в регулярные сетки используется по многим причинам, в частности для нормирования географии для нанесения на карту или для уменьшения неоднородности при использовании полигонов неправильной формы, созданных произвольно (например, границы избирательных округов или блоков, созданных в результате политических процессов). Регулярные сетки могут состоять только из равносторонних треугольников, квадратов или шестиугольников, т.к. только такая геометрия полигонов позволяет создавать мозаичное замощение (совокупность одинаковых фигур, охватывающую всю область без пробелов и перекрытий), чтобы получить равномерную сетку.


Хотя сетка квадратов является основным типом геометрии в ГИС-анализе и тематической картографии, бывают ситуации, когда шестиугольники лучше подходят для анализа, в зависимости от сути вопроса.


— Агрегация по гексагональной сетке может применять по следующим причинам:

— Шестиугольники позволяют уменьшить смещение выборки из-за краевых эффектов, вызванных геометрией сетки, что связано с низким значением соотношения периметра к площади шестиугольника. Наименьшее соотношение имеет окружность, но окружности не могут создать замощение в виде непрерывной сетки. Шестиугольники обладают наиболее близкой к окружности геометрией и могут складываться в мозаику, формируя равномерную сетку.

— Такая приближенность гексагональной сетки к окружности позволяет более естественно представлять кривые в распределении данных, чем квадратная сетка.

— При сравнении полигонов с равными площадями, чем ближе форма полигона к окружности, тем ближе к центроиду оказываются точки у границ (особенно рядом с вершинами). Это означает, что любая точка внутри шестиугольника находится ближе к его центроиду, чем любая точка в квадрате или треугольнике равной площади (из-за более острых углов квадрата и треугольника по сравнению с шестиугольником).

— Шестиугольники более предпочтительны, когда в анализ включаются аспекты связности или пути перемещения.

— Из-за линейной природы прямоугольников, регулярные сетки формируют прямые параллельные линии, что может скрывать от наблюдателя закономерности, имеющиеся в данных. Шестиугольники позволяют разбить эти линии и позволяют легче наблюдать закономерности в данных, имеющие криволинейную форму. Это позволяет прервать искусственные прямолинейные закономерности и снизить смещение по расположению, которое может проявляться в регулярных сетках.

— Если вы работаете с большой областью, гексагональная сетка вносит меньше искажений, вызванных кривизной земной поверхности, чем регулярная сетка.

— Поиск соседств с помощью гексагональной сетки является более эффективным. Поскольку ребро или длина контакта каждой стороны одинаковы, центроид каждого соседства является равноудаленным. Однако с регулярной сеткой центроиды соседства Queen’s Case (над/под/справа/слева) находятся на удалении N единиц, а центроиды диагонального (Rook) соседства – несколько дальше (точнее, на расстоянии квадратного корня из 2N единиц).

— Поскольку в гексагональной сетке расстояние между центроидами во всех шести направлениях одинаково, если вы используете для поиска соседей полосу расстояний или инструменты Оптимизированный анализ горячих точек, Оптимизированный анализ выбросов или Создать куб Пространство-Время по агрегации точек, в гексагональной сетке для каждого объекта в вычисления войдет большее число соседей, чем при использовании регулярной сетки.

Читать полностью…

Daniilak — Канал

Можно утверждать, что MongoDB не всегда является оптимальным выбором базы данных. Да, она может быть эффективной для кеширования JSON-объектов и в некоторых специфических ситуациях, например, как хранилище для вывода потоковых данных или когда важна оптимизация под вставку неструктурированных данных, и скорость чтения не является приоритетом - что может быть актуально для парсеров.

Однако, стоит учесть три важных момента:
1. Даже в вышеупомянутых случаях существуют другие решения, которые могут быть более эффективными.
2. MongoDB часто используется не по назначению, а в качестве полноценной базы данных, что может привести к ряду проблем.
3. MongoDB часто используют аутсорсеры, которые не заинтересованы в удобном использовании написанного кода в будущем

Проблема не только в отсутствии у MongoDB конкретных преимуществ перед другими базами данных, такими как PostgreSQL, но и в том, что использование MongoDB может негативно сказаться на качестве кода и архитектуры в целом.

Отсутствие схем в MongoDB, миграций, транзакций (хотя они были добавлены позже) делают эту базу данных менее надежной. Вследствие этого возникает необходимость обрабатывать большое количество возможных ошибок прямо в коде, что усложняет бизнес-логику. Если в базе данных нет схемы, значит, она определена в коде, что затрудняет ее чтение и понимание.

В итоге, хотя ответ на вопрос об использовании MongoDB, конечно, "зависит от задачи", общее правило может заключаться в том, чтобы избегать использования MongoDB, если это возможно.

Читать полностью…

Daniilak — Канал

Весьма интересный факт: бюрократические органы не признают наличие леса на определённых территориях, например, после пожара, несмотря на то что новый лес уже давно пророс там. Но через несколько лет, эти же территории подвергаются очистке с помощью бульдозеров, в результате чего уничтожается молодой лес и нарушается состояние почвы. После этого проводятся мероприятия по посадке нового леса
Вот ссылка на видео, которое иллюстрирует данную проблему: https://youtu.be/7Axo91WNQik

Читать полностью…

Daniilak — Канал

Я всегда стремлюсь обозревать новые сервисы и веб-сайты стартапов, чтобы открывать для себя свежие идеи и определять основные тенденции в разработке. Например, часто обитаю в каталоге betalist.com. Однако, мне успешно удалось пропустить веб-сайт с каталогом стартапов от акселератора Сбербанка.

Многие из этих сервисов мне уже знакомы, и я имел возможность их протестировать, но некоторые из них, к моему сожалению, остались незамеченными. Я не собираюсь составлять какой-либо рейтинг или список сервисов, ведь у каждого человека свои предпочтения, а кроме того, мне просто не хочется тратить на это время. Поэтому предлагаю вам ссылки на списки сайтов каждой волны акселератора:

1. Первая волна
2. Вторая волна
3. Третья волна
4. Четвертая волна

Читать полностью…

Daniilak — Канал

Музыкальные артисты США из Artist Rights Alliance требуют от ИИ-платформ не разрабатывать сервисы, которые смогут заменить творчество человека или по крайней мере платить за это деньги

Читать полностью…

Daniilak — Канал

ChatGPT является единственным «искусственным интеллектом» практически для всех, кто находится за пределами нашего AI-пузыря

Читать полностью…

Daniilak — Канал

Suno поёт рукопись Войнича

ссылка

Читать полностью…

Daniilak — Канал

Можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.

https://nn.labml.ai

Читать полностью…

Daniilak — Канал

Сгенерил рекламу на радио для продающегося земельного участка

app.suno.ai/song/0e4c0c6d-b317-4482-8fd2-3ed3336084ff
app.suno.ai/song/74896336-1793-4293-8432-1104d02f8676

Читать полностью…

Daniilak — Канал

Ловите ещё)

Всё тут
app.suno.ai/

Читать полностью…

Daniilak — Канал

Chatbot Arena: Claude 3 Opus обогнал GPT-4-turbo, Bard, Sonnet и Haiku догнали обычный GPT-4.

Читать полностью…

Daniilak — Канал

Я провёл анализ данных, извлечённых из ЕГРН и публичной кадастровой карты по Чебоксарам (Кадастровый Округ "21:01"). В результате было обработано 94072 земельных участка.

По параметру "Категория земель" было выявлено следующее распределение:

- Земли населённых пунктов: 60301 участок
- Категория не установлена: 342 участка
- Земли лесного фонда: 222 участка
- Земли сельскохозяйственного назначения: 17 участков
- Земли промышленности, энергетики, транспорта, связи, радиовещания, телевидения, информатики, земли для обеспечения космической деятельности, земли обороны, безопасности и земли иного специального назначения: 13 участков
- Земли особо охраняемых территорий и объектов: 7 участков

При анализе поля "Разрешенное использование" было выявлено больше категорий — их оказалось 122.

Однако наибольшее удивление вызвал параметр "Разрешенное использование по документу" — здесь было обнаружено аж 5796 различных наименований.

Отсортированные категории в комментариях. Исходники опубликую позже)

Читать полностью…

Daniilak — Канал

Думаю на kaggle.com выпустить полные кадастровые данные по Чебоксарам (полигоны и метаданные), и посмотреть как территорию города будут анализировать)

Читать полностью…

Daniilak — Канал

С помощью технологии GPT от OpenAI удалось успешно решить проблему незаконно установленного киоска "Славица", который нарушал закон с 17 февраля 2023 года (с этого дня территория, на которой расположен киоск, сменилась на муниципальную). Обращения, перед подачей через приложение "Решаем вместе", были трансформированы из обычного человеческого текста в более структурированный и грамотный формат при помощи GPT4.

Читать полностью…

Daniilak — Канал

Хм, а ведь можно пропатчить эту скрепку и запихнуть в неё API от OpenAI

Читать полностью…

Daniilak — Канал

Геочеки от ФНС — https://geochecki-vpd.nalog.gov.ru/geochecks

Открытые данные Федеральной налоговой службы о потреблении товаров и услуг в различных локациях, агрегированные по гексагональной сетке.

Может пригодиться для исследований городских центров и решения геомаркетинговых задач, например, уровень обеспеченности города

Читать полностью…

Daniilak — Канал

Появление React ребята из Facebook часто объясняют примерно вот так:

В далеком 2013 году в Facebook Chat часто появлялись фантомные сообщения: уведомление приходило, иконка загоралась, а самого сообщения не было.

Это было вызвано ужасным императивным кодом, а чтобы это починить и был придуман React.


У меня всегда были вопросы к этому объяснению. А вчера Adam Wolff причастный к разработке добавил деталей:

Да, React, был действительно создан для решения проблемы фантомных уведомлений, но эту проблему он в результате не решил, потому что проблема на самом деле была в кривых настройках DNS где-то в Индии, и когда DNS починили проблема ушла.

https://twitter.com/dmwlff/status/1762885255030259854?s=20

Читать полностью…

Daniilak — Канал

2030 год

@

90% части информации поступает от бездушных сгенерированных нейросетей

Читать полностью…

Daniilak — Канал

Файл "cik_gosuslugi.json" - список из 87 616 избирательных участков внутри страны. У каждого участка есть свои метки

Количество участков с меткой hasVideosurveillance (Оснащение средствами видеонаблюдения) = 20960
Количество участков с меткой forPeopleWithLimitedHearing (Возможности для людей с нарушениями слуха) = 2507
Количество участков с меткой forDisabledPeople (Оснащение пандусом для маломобильных групп населения) 15244
Количество участков с меткой hasVideosurveillance (Возможности для людей с нарушениями зрения) 20960
Количество участков с меткой forPeopleWithLimitedVision (Возможности для людей с нарушениями зрения) 19236
Количество участков с меткой hasCulturalProgram (Проведение культурно-развлекательных мероприятий в дни голосования) 9407

Также на госуслугах есть возможность выбора избирательного участка за рубежом. Всего их 254 штуки - это файл "cik_countries.json"
JSON Scheme и Pydantic к первому файлу в комментариях

Читать полностью…
Subscribe to a channel