Пишу о технологиях и датасетах, немного ML Рекламирую Чебоксары
Я кринжую с надписи "For Humans"
перевод статьи
Когда Кеннет Рейтц создал библиотеку requests, сообщество Python с энтузиазмом приняло этот проект, так как он наконец предоставил чистый, вменяемый API для выполнения HTTP-запросов. Он дал своему проекту подзаголовок "Python HTTP Requests for Humans" (HTTP-запросы в Python для людей), обозначая тем самым, что его API предоставляет дружественные для разработчиков интерфейсы. Если бы наименование вещей "для людей" остановилось на этом, я был бы с этим вполне согласен. Однако вместо этого произошел постоянный поток новых проектов, описывающих себя как созданные "для людей", и у меня есть претензии к этому.
Это пустой знак
Люди так часто используют мем "для людей" в своих проектах, что исходное намерение и значение затерялись, оставив за собой лишь мета-значение - то есть абсолютно безысходное значение. Теперь, когда я вижу его, мне кажется, что человек слишком старается дать понять, что он "в теме". Это противоположно тенденции некоторых людей усложнять все жаргоном, но обе эти тенденции происходят от одного корневого импульса.
Также присутствует намек на самоуничижение, "X сложный, поэтому вот что-то для людей". Но, разумеется, для того чтобы проект был полезен, его создатель должен обладать глубокими знаниями в данной области, поэтому это скорее выглядит как показушная скромность.
Это пренебрежение к другим пакетам
Когда новый проект представляет себя как "Х для людей", это в какой-то степени подразумевает, что все предыдущие библиотеки в данном направлении были не совсем "для людей". Буквально "для людей" обозначает более гуманный, дружественный к разработчику подход, что наводит на мысль, что другие пакеты не были достаточно удобны для разработчика. Иными словами, это несколько уклончивая критика других библиотек за их неудачные API.
Целевой аудиторией любого Python-проекта всегда являются разработчики. Называть свой проект "Для людей" - это всего лишь высокомерный способ заявить, что, по вашему мнению, ваш проект обладает более продвинутым API по сравнению с другими проектами в этой же области.
Пусть библиотека сама говорит за себя. Пусть другие оценят ее качество.
Как исправить ситуацию
Давайте исправим ситуацию, описывая наши проекты исходя из их функционала. Я понимаю, что в момент выхода requests ситуация с HTTP была довольно сложной, и Кеннет сделал хорошую попытку изменить это, но, думаю, пора двигаться дальше.
Я не хочу особо придираться к Кеннету, но есть примеры:
records, "SQL for Humans"
legit, "Git for Humans"
pep8, "pep8 for Humans"
hypermark, "markdown for Humans"
keras. "Deep Learning for humans"
К сожалению, это реальные примеры. PEP8 - это стандарт, который предлагает делать код более понятным для пользователя, а Markdown - это язык разметки, который изначально создан для удобства чтения. SQL изначально разрабатывался, чтобы быть удобным для людей...
Я бы попросил Python-сообщество отказаться от этого подхода "for humans". Если ваш проект обладает великолепным API, покажите его нам, не рассказывайте о нем. Если ваш проект улучшает другие проекты в этой области, покажите, как они сравниваются. Но просто называть свой проект "for humans" - это не только неуважительно, но и немного неловко.
Большой материал, который подробно рассказывает о том, с какими проблемами сталкиваются люди, обучающие визуальные генеративные нейросети.
В одном из крупнейших датасетов, на котором такие модели обучают, например, обнаружили сцены детского насилия. Что ещё полбеды, ведь такие картинки просто отфильтровать.
Что гораздо хуже — в нём много изображений в пару к которым добавлены текстовые описания из служебного тега ALT на веб-страницах. Текст из этого тега показывается в том случае, если изображение не грузится, а для слабовидящих пользователей является единственной возможностью узнать о том, что вообще находится на изображении. Однако предприимчивые маркетологи добавляют в этот тег не реальное описание изображения, а ключевые слова, которые лучше всего повлияют на ранжирование сайта в поисковой выдаче. Таким образом модель получает датасет, в котором описан не реальный мир, а мир, который видят поисковые роботы.
Про другие проблемы наглядно — тут:
https://knowingmachines.org/models-all-the-way
OpenAI Релизнули GPT-5 версию
К счастью, теперь доступно из России
gpt-5.openai.com
Распространяйте подсказки для более эффективного поиска работы на hh.ru
1) Старайтесь использовать "Ключевые слова" из описания вакансии в своем резюме. Многие работодатели используют автоматический анализ соискателей, основанный на совпадении ключевых слов. Например, они могут автоматически отклонять кандидатов, если совпадение ключевых слов менее 70%.
2) В разделе "О себе" обязательно укажите хотя бы один контакт. Информация из раздела "Контакты" полностью отображается только после оплаты работодателем специальной услуги, стоимостью около 10 тысяч рублей в день. Поэтому, чтобы облегчить связь с потенциальными работодателями, важно указать контактные данные в свободно доступной части своего профиля.
Давно хотел это опубликовать, но каждый раз забывал
OpenAI показывают свою систему копирования голоса.
Стартапы, по типу «Служба безопасности Сбербанка» «Мама, я твой сын, скинь мне деньги» напряглись
Посвящается всем авторам ТГ каналов про Эй Ай
Я слежу что пишет сама
Знаю все про Гэ Пэ Тэ
Ворлд модели строит Сора
подпишись на мой тэ гэ
Здесь посты и много мемов
Можно слушать и читать
Будешь лучшем в мире сеток
Клоуна не ставьте блять
Когда ты станешь самым смелым
Будешь шарить, больше знать
Будет офер, много денег
Незабудь донат прислать
Представьте троллинг:
— Ты что, не помнишь эту песню?
И ставить генерацию..
Заренерировал новые треки через suno.ai и залил на youtube (тык и тык)
еще минус несколько профессий?
На Github выложили платформу OpenCat. С её помощью можно сделать себе четвероногого робота-питомца 🌯
Как раз без дела лежат и Raspberry Pi и Arduino
Наконец доехал из перевода Veles2.5 - переведенный на русский Hermes2.5 через gpt3.5
Вероятно доедет за несколько недель вихрь-велес
Датасет для русского
Упорно работаю над своим проектом, при помощи которого можно будет запрашивать информацию по базе Розыска в МВД.
https://github.com/daniilak/ru_mvd_search_wanted
Собираюсь выпустить его на pypi.org и нахожусь на заключительном этапе, по которому осталось выполнить следующие задачи:
1. Написать тесты для проверки функционала.
2. Экспериментально проверить его работоспособность.
3. Доработать раздел "Readme" для более полного описания проекта.
4. Заменить возвращение ошибок на исключения.
5. Качественно оптимизировать код.
Несмотря на текущий прогресс, на данный момент этот проект является только частичным парсером. Для его полноценной работы требуется:
1. Добавить код и модель, которые смогут автоматически решать капчу.
2. Реализовать функцию, позволяющую получить дополнительные данные о найденном человеке через проверку ответов на почте.
Думаю, что будет создан отдельный репозиторий в формате FastAPI приложения, который будет включать в себя отдельные модули для решения капчи и работы с почтой.
Иван Бегтин сегодня анонсировал новую платформу для поиска данных — Dateno.
Это сайт, на котором можно найти открытые данные и статистику со всего мира по поисковому запросу. На нём уже проиндексировано 10 миллионов датасетов (из них — 219 тысяч по России), а к концу года это количество планируют расширить до 30 миллионов. Можно указать тематику, язык источника, формат данных. А работает это уже лучше, чем тот же Google Dataset Search.
Портал пока находится в стадии беты, но уже работает:
https://dateno.io/
Почему вообще используются восьмиугольники на картах?
Агрегация случайных точечных данных в регулярные сетки используется по многим причинам, в частности для нормирования географии для нанесения на карту или для уменьшения неоднородности при использовании полигонов неправильной формы, созданных произвольно (например, границы избирательных округов или блоков, созданных в результате политических процессов). Регулярные сетки могут состоять только из равносторонних треугольников, квадратов или шестиугольников, т.к. только такая геометрия полигонов позволяет создавать мозаичное замощение (совокупность одинаковых фигур, охватывающую всю область без пробелов и перекрытий), чтобы получить равномерную сетку.
Хотя сетка квадратов является основным типом геометрии в ГИС-анализе и тематической картографии, бывают ситуации, когда шестиугольники лучше подходят для анализа, в зависимости от сути вопроса.
Можно утверждать, что MongoDB не всегда является оптимальным выбором базы данных. Да, она может быть эффективной для кеширования JSON-объектов и в некоторых специфических ситуациях, например, как хранилище для вывода потоковых данных или когда важна оптимизация под вставку неструктурированных данных, и скорость чтения не является приоритетом - что может быть актуально для парсеров.
Однако, стоит учесть три важных момента:
1. Даже в вышеупомянутых случаях существуют другие решения, которые могут быть более эффективными.
2. MongoDB часто используется не по назначению, а в качестве полноценной базы данных, что может привести к ряду проблем.
3. MongoDB часто используют аутсорсеры, которые не заинтересованы в удобном использовании написанного кода в будущем
Проблема не только в отсутствии у MongoDB конкретных преимуществ перед другими базами данных, такими как PostgreSQL, но и в том, что использование MongoDB может негативно сказаться на качестве кода и архитектуры в целом.
Отсутствие схем в MongoDB, миграций, транзакций (хотя они были добавлены позже) делают эту базу данных менее надежной. Вследствие этого возникает необходимость обрабатывать большое количество возможных ошибок прямо в коде, что усложняет бизнес-логику. Если в базе данных нет схемы, значит, она определена в коде, что затрудняет ее чтение и понимание.
В итоге, хотя ответ на вопрос об использовании MongoDB, конечно, "зависит от задачи", общее правило может заключаться в том, чтобы избегать использования MongoDB, если это возможно.
Весьма интересный факт: бюрократические органы не признают наличие леса на определённых территориях, например, после пожара, несмотря на то что новый лес уже давно пророс там. Но через несколько лет, эти же территории подвергаются очистке с помощью бульдозеров, в результате чего уничтожается молодой лес и нарушается состояние почвы. После этого проводятся мероприятия по посадке нового леса
Вот ссылка на видео, которое иллюстрирует данную проблему: https://youtu.be/7Axo91WNQik
Опубликовал новый датасет на Kaggle: Кадастровые данные Чебоксар с полигонами
Содержит подробные кадастровые данные о земельных участках и объектах капитального строительства в Чебоксарах, включая геометрические данные в виде полигонов.
🔎 Вот некоторые из полей, которые вы найдете в этом датасете:
- Кадастровый номер объекта
- Тип объекта (например, Земельный участок)
- Площадь объекта в квадратных метрах
- Адрес объекта
- Категория земельного участка (например, Земли населенных пунктов)
- Разрешенное использование объекта
- Кадастровая стоимость объекта
- В геометрии объекта представлены полигоны
Cheboksary Cadastral Data with Polygons
#dataset
Музыкальные артисты США из Artist Rights Alliance требуют от ИИ-платформ не разрабатывать сервисы, которые смогут заменить творчество человека или по крайней мере платить за это деньги
Читать полностью…ChatGPT является единственным «искусственным интеллектом» практически для всех, кто находится за пределами нашего AI-пузыря
Читать полностью…Можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.
https://nn.labml.ai
Сгенерил рекламу на радио для продающегося земельного участка
app.suno.ai/song/0e4c0c6d-b317-4482-8fd2-3ed3336084ff
app.suno.ai/song/74896336-1793-4293-8432-1104d02f8676
Chatbot Arena: Claude 3 Opus обогнал GPT-4-turbo, Bard, Sonnet и Haiku догнали обычный GPT-4.
Читать полностью…Я провёл анализ данных, извлечённых из ЕГРН и публичной кадастровой карты по Чебоксарам (Кадастровый Округ "21:01"). В результате было обработано 94072 земельных участка.
По параметру "Категория земель" было выявлено следующее распределение:
- Земли населённых пунктов: 60301 участок
- Категория не установлена: 342 участка
- Земли лесного фонда: 222 участка
- Земли сельскохозяйственного назначения: 17 участков
- Земли промышленности, энергетики, транспорта, связи, радиовещания, телевидения, информатики, земли для обеспечения космической деятельности, земли обороны, безопасности и земли иного специального назначения: 13 участков
- Земли особо охраняемых территорий и объектов: 7 участков
При анализе поля "Разрешенное использование" было выявлено больше категорий — их оказалось 122.
Однако наибольшее удивление вызвал параметр "Разрешенное использование по документу" — здесь было обнаружено аж 5796 различных наименований.
Отсортированные категории в комментариях. Исходники опубликую позже)
Думаю на kaggle.com выпустить полные кадастровые данные по Чебоксарам (полигоны и метаданные), и посмотреть как территорию города будут анализировать)
Читать полностью…С помощью технологии GPT от OpenAI удалось успешно решить проблему незаконно установленного киоска "Славица", который нарушал закон с 17 февраля 2023 года (с этого дня территория, на которой расположен киоск, сменилась на муниципальную). Обращения, перед подачей через приложение "Решаем вместе", были трансформированы из обычного человеческого текста в более структурированный и грамотный формат при помощи GPT4.
Читать полностью…Хм, а ведь можно пропатчить эту скрепку и запихнуть в неё API от OpenAI
Читать полностью…Геочеки от ФНС — https://geochecki-vpd.nalog.gov.ru/geochecks
Открытые данные Федеральной налоговой службы о потреблении товаров и услуг в различных локациях, агрегированные по гексагональной сетке.
Может пригодиться для исследований городских центров и решения геомаркетинговых задач, например, уровень обеспеченности города
Появление React ребята из Facebook часто объясняют примерно вот так:В далеком 2013 году в Facebook Chat часто появлялись фантомные сообщения: уведомление приходило, иконка загоралась, а самого сообщения не было.
Это было вызвано ужасным императивным кодом, а чтобы это починить и был придуман React.
У меня всегда были вопросы к этому объяснению. А вчера Adam Wolff причастный к разработке добавил деталей: Да, React, был действительно создан для решения проблемы фантомных уведомлений, но эту проблему он в результате не решил, потому что проблема на самом деле была в кривых настройках DNS где-то в Индии, и когда DNS починили проблема ушла.
https://twitter.com/dmwlff/status/1762885255030259854?s=20
2030 год
@
90% части информации поступает от бездушных сгенерированных нейросетей