1) Берем такой датасет https://github.com/AceLewis/my_first_calculator.py/blob/master/my_first_calculator.py#L20822
2) Обучаем
3) Получаем готовый калькулятор
Набор дата сайнтиста в стартапе по-британски
1. Firestore - NoSQL бд, чтобы хранить целиком жсоны и строить дата пайплайны поверх onCreate/onUpdate
2. Typescript - какая разница, на каком языке прогать? А тут зато js команда поймет, что ты делаешь
3. Firebase Cloud Functions - ETL весьма может быть и на серверлесс
4. ChatGPT, Gemini, Claude - вместо тысячи NLP, NER и парсеров
5. Crunchbase, Pitchbook, Apollo - базы с ~Series A стартапами
6. Cursor.sh + claude - самый мощный копайлот тудэй
Другие наборы из серии:
- дамская сумочка стартаперши
- мобильный сайд-хаслер
Фейковые банковские приложения в App Store обошли официальные приложения по доступности!
Читать полностью…Дата-журналистика в РФ мега-страдает. Ни тебе датасетов, ни других нормальных пруфов. У кого-то внезапно из одного результата в статье появляется совершенно другой результат
А где-то вообще не умеют складывать 2 и 2
смартфон способен мерить глюкозу по слюне с микромолярной (а теоретически с наномолярной!) точностью
Создан маленький адаптер, который надевается сверху на смартфон в проекции магнетометра встроенного в телефон компаса. Именно компас будет мерить глюкозу, а ещё pH, влажность и температуру и многое другое!
Как?
Устройство очень простое. (Рис. А) - состоит из зажима, гидрогелевого датчика и крепежа с лункой для анализируемой жидкости. (B) - пример со смартфоном Motorola. (С) - устройство датчика. Это Т-образный (чтобы не смещался) гидрогель, где поперечина и нижний слой инертный, а верхний (желтым) - гидрогель, изменяющий размеры в ответ на добавление аналита. Под ним ближе всего к проекции магнитометра смартфона в гидрогеле добавлены частицы неодим-железо-бор (Nd2Fe14B), частицы покрыты кремнеземом для предотвращения коррозии.
Когда верхний слой гидрогеля реагирует (меняет длину в зависимости от концентрации глюкозы), пластинка загибается (D), расстояние между магнитом и смартфоном увеличивается, магнитометр сообщает телефону об изменении магнитного поля. Нижний рисунок (E) это кадры видео из статьи в Nature.
ВСЁ.
Не нужна электроника, дорогие реактивы, даже кровь не требуется. Такая точность позволяет мерить глюкозу по слюне
Платформа адаптируется к многочисленным измеряемым веществам, открывая путь к портативному и недорогому определению нескольких аналитов или биомаркеров.
Стырил у @newbioethics
Я кринжую с надписи "For Humans"
перевод статьи
Когда Кеннет Рейтц создал библиотеку requests, сообщество Python с энтузиазмом приняло этот проект, так как он наконец предоставил чистый, вменяемый API для выполнения HTTP-запросов. Он дал своему проекту подзаголовок "Python HTTP Requests for Humans" (HTTP-запросы в Python для людей), обозначая тем самым, что его API предоставляет дружественные для разработчиков интерфейсы. Если бы наименование вещей "для людей" остановилось на этом, я был бы с этим вполне согласен. Однако вместо этого произошел постоянный поток новых проектов, описывающих себя как созданные "для людей", и у меня есть претензии к этому.
Это пустой знак
Люди так часто используют мем "для людей" в своих проектах, что исходное намерение и значение затерялись, оставив за собой лишь мета-значение - то есть абсолютно безысходное значение. Теперь, когда я вижу его, мне кажется, что человек слишком старается дать понять, что он "в теме". Это противоположно тенденции некоторых людей усложнять все жаргоном, но обе эти тенденции происходят от одного корневого импульса.
Также присутствует намек на самоуничижение, "X сложный, поэтому вот что-то для людей". Но, разумеется, для того чтобы проект был полезен, его создатель должен обладать глубокими знаниями в данной области, поэтому это скорее выглядит как показушная скромность.
Это пренебрежение к другим пакетам
Когда новый проект представляет себя как "Х для людей", это в какой-то степени подразумевает, что все предыдущие библиотеки в данном направлении были не совсем "для людей". Буквально "для людей" обозначает более гуманный, дружественный к разработчику подход, что наводит на мысль, что другие пакеты не были достаточно удобны для разработчика. Иными словами, это несколько уклончивая критика других библиотек за их неудачные API.
Целевой аудиторией любого Python-проекта всегда являются разработчики. Называть свой проект "Для людей" - это всего лишь высокомерный способ заявить, что, по вашему мнению, ваш проект обладает более продвинутым API по сравнению с другими проектами в этой же области.
Пусть библиотека сама говорит за себя. Пусть другие оценят ее качество.
Как исправить ситуацию
Давайте исправим ситуацию, описывая наши проекты исходя из их функционала. Я понимаю, что в момент выхода requests ситуация с HTTP была довольно сложной, и Кеннет сделал хорошую попытку изменить это, но, думаю, пора двигаться дальше.
Я не хочу особо придираться к Кеннету, но есть примеры:
records, "SQL for Humans"
legit, "Git for Humans"
pep8, "pep8 for Humans"
hypermark, "markdown for Humans"
keras. "Deep Learning for humans"
К сожалению, это реальные примеры. PEP8 - это стандарт, который предлагает делать код более понятным для пользователя, а Markdown - это язык разметки, который изначально создан для удобства чтения. SQL изначально разрабатывался, чтобы быть удобным для людей...
Я бы попросил Python-сообщество отказаться от этого подхода "for humans". Если ваш проект обладает великолепным API, покажите его нам, не рассказывайте о нем. Если ваш проект улучшает другие проекты в этой области, покажите, как они сравниваются. Но просто называть свой проект "for humans" - это не только неуважительно, но и немного неловко.
Большой материал, который подробно рассказывает о том, с какими проблемами сталкиваются люди, обучающие визуальные генеративные нейросети.
В одном из крупнейших датасетов, на котором такие модели обучают, например, обнаружили сцены детского насилия. Что ещё полбеды, ведь такие картинки просто отфильтровать.
Что гораздо хуже — в нём много изображений в пару к которым добавлены текстовые описания из служебного тега ALT на веб-страницах. Текст из этого тега показывается в том случае, если изображение не грузится, а для слабовидящих пользователей является единственной возможностью узнать о том, что вообще находится на изображении. Однако предприимчивые маркетологи добавляют в этот тег не реальное описание изображения, а ключевые слова, которые лучше всего повлияют на ранжирование сайта в поисковой выдаче. Таким образом модель получает датасет, в котором описан не реальный мир, а мир, который видят поисковые роботы.
Про другие проблемы наглядно — тут:
https://knowingmachines.org/models-all-the-way
OpenAI Релизнули GPT-5 версию
К счастью, теперь доступно из России
gpt-5.openai.com
Распространяйте подсказки для более эффективного поиска работы на hh.ru
1) Старайтесь использовать "Ключевые слова" из описания вакансии в своем резюме. Многие работодатели используют автоматический анализ соискателей, основанный на совпадении ключевых слов. Например, они могут автоматически отклонять кандидатов, если совпадение ключевых слов менее 70%.
2) В разделе "О себе" обязательно укажите хотя бы один контакт. Информация из раздела "Контакты" полностью отображается только после оплаты работодателем специальной услуги, стоимостью около 10 тысяч рублей в день. Поэтому, чтобы облегчить связь с потенциальными работодателями, важно указать контактные данные в свободно доступной части своего профиля.
Давно хотел это опубликовать, но каждый раз забывал
OpenAI показывают свою систему копирования голоса.
Стартапы, по типу «Служба безопасности Сбербанка» «Мама, я твой сын, скинь мне деньги» напряглись
Посвящается всем авторам ТГ каналов про Эй Ай
Я слежу что пишет сама
Знаю все про Гэ Пэ Тэ
Ворлд модели строит Сора
подпишись на мой тэ гэ
Здесь посты и много мемов
Можно слушать и читать
Будешь лучшем в мире сеток
Клоуна не ставьте блять
Когда ты станешь самым смелым
Будешь шарить, больше знать
Будет офер, много денег
Незабудь донат прислать
Заренерировал новые треки через suno.ai и залил на youtube (тык и тык)
еще минус несколько профессий?
На Github выложили платформу OpenCat. С её помощью можно сделать себе четвероногого робота-питомца 🌯
Как раз без дела лежат и Raspberry Pi и Arduino
Опубликован новый пример дизайна ML системы по шаблону Reliable ML
Пополняем базу примеров хороших дизайн-документов
Сегодня добавили новый пример дизайн-документа - проект от Симулятора ML. Даниил Картушов и команда представляют pet project по разработке чат-бота для поиска ответов на разные запросы в телеграм-каналах.
Опубликованный дизайн-док - пример хорошо проработанного и не перегруженного лишней информацией документа. Для более глубокого погружения в потребности пользователей в части про бизнес-требования команда проекта добавила User Story Map и Customer Journey Map. Это, кстати, может стать отличным дополнением к шаблону дизайн-документов.
Огромное спасибо авторам документа за вклад в развитие ML-дизайна.
Шаблон дизайн-документа ML-систем от Reliable ML
Материалы по работе с дизайн-доком
Как написать док вместе с Reliable ML
Stay tuned!
Ваш @Reliable ML
#business #tech #ml_system_design
Ну что же, я сдал технику и свой бейдж, подписал заявление на увольнение. Я больше официально не яндексоид. Давайте подведём итоги моих 15 месяцев работы в Яндексе.
Скажу большое спасибо людям, работавшим со мной, особенно Антону (моему лиду из геопоиска, ему особенно, он суперняшка и крутой) и Филиппу (моему ментору на время стажировки в такси), я очень много спамил их вопросами, спасибо за ответы и за синки в телеграме в 2 часа ночи.
Теперь о преимуществах работы:
1) Бенефиты - пушка. Можно почти не тратить деньги на еду, так как бейдж можно тратить на доставку продуктов в офис или в ближайших продуктовых (в спаре, если быть точным). Ну и командировка за счёт яндекса в СПб, просто собраться командой, тоже очень круто
2) Люди, с которыми вы работаете вместе, обычно очень мощные гигачады, и хорошие люди в целом.
3) Корпоративы это новый уровень. Я помню, как поражался корпорату в хуавее в серебряном бору, ну вот яндекс это на много голов выше. Как вы помните, там даже был робот, разносящий пиво.
5) То, что ты делаешь, влияет на продукты, которыми сам пользуешься. Я и до работы активно пользовался всем яндексовым, приятно было когда фиксишь что-то в картах и потом видишь, как стало лучше.
6) Хорошие зарплаты. Реально на уровне рынка, как мне кажется.
И о недостатках, в их случае идёт чисто мой субъективный опыт:
1) Деление ролей в продукте не по навыкам, а по зонам отвественности. С одной стороны, это логично, так как позволяет меньше обращаться к членам других команд. С другой же стороны, работая типо млщиком, у тебя прилетает ещё много тасок, связанных с какими-то минорными багами, зачастую не связанными с ML, при этом они могут забрать много времени на их решение.
2) Внутренние сервисы. Большая часть вещей, которые вы бы сделали на обычной работе, уже завернута и автоматизирована, соответственно вместо написания кода он почти всегда пишется в UI/с помощью проприетарных языков. С одной стороны, это огромный плюс, так как позволяет почти не думать про работу с большими данными, про то, как раскидать данные по шардам, и в целом о нужных ресурсах. С другой стороны, внутренние сервисы не всегда хорошо задокументированы, и новые знания зачастую получаются либо методом тыка, либо через извлечение знаний из сокомандников.
3) Развитие. Тут тоже пункт неоднозначный. С одной стороны, ты действительно узнаешь много новых подходов в ML, видишь как строить большие системы и сильно прокачиваешься с точки зрения system design. Также можно проходить внутренние курсы, и за счёт яндекса проходить платные образовательные курсы партнёров. За это большой респект. Но... Смотрим в пункт 2. В роли млщика, ты не трогаешь почти никакие технологии извне, соответственно, основную часть времени вы учитесь не применять какой-то новый технологический стэк, а учитесь применять проприетарные яндексовые сервисы, и с точки зрения стэка ваша прокачка очень маленькая. Вероятно, это проблема всего бигтеха, но, как мне показалось, именно яндекс страдает от этого больше всего.
Как итог: я совершенно не жалею, что работал здесь. Мой уход в основном мотивирован тем, что нужно закрывать физтех, что вместе с фултайм работой на втором курсе и сайд-активностями типо Сириуса и биотурнира сделать проблематично. Я советую вам, будучи млщиком, поработать в яндексе, если вы либо начинающий, так как у яндекса лучшие бенефиты среди других компаний и вы очень сильно забуститесь с точки зрения sd, либо если вы уже взрослый и полностью состоявшийся млщик, который хочет спокойно делать свою работу и получать за неё деньги. В целом, хоть раз советую поработать всем.
Все выводы сделаны на основании моего личного опыта и опыта моих знакомых, скорее всего, в других ML-подразделениях все иначе.
Всем добра и удачи в построении карьеры.
Большинство объявлений о продаже недвижимости на популярных площадках, таких как Avito, ЦИАН и других, являются фейковыми. Создание таких объявлений обусловлено потребностью в лидогенерации для риелторов. При этом, данные сливаются сразу тысячам риелторам, а иногда и больше. Когда пользователь звонит или оставляет сообщение на сайте, его контактные данные моментально распространяются среди огромного числа риелторов
Дата публикации объявления не всегда отражает реальность. Фейковые объявления могут быть "обновлены" и выглядеть как новые, вводя потенциальных покупателей в заблуждение. При высоком спросе, эти объекты не могут находиться в статусе "в поиске" долгое время
Более того, существуют базы данных объектов недвижимости и контактов собственников за последние 10 лет, которые активно используются для холодного обзвона в поисках актуальных объявлений. Риелторы активно используют эти базы данных, чтобы находить актуальные объявления и предложения, упрощая процесс поиска потенциальных клиентов
Примеры объявлений, которые опубликованы как "сегодня":
— 2-к. квартира, 54 м², 12/16 эт. 90 000 ₽ в месяц — было опубликовано 12 июля 2023 года
— 1-к. квартира, 35 м², 1/5 эт.15 000 ₽ в месяц — было опубликовано 27 ноября 2023 года
— 1-к. квартира, 39 м², 10/10 эт. 30 000 ₽ в месяц — было опубликовано 23 августа 2022 года
— 3-к. квартира, 60 м², 7/12 эт. 40 000 ₽ в месяц — было опубликовано 4 июля 2022 года
— 1-к. квартира, 38 м², 2/16 эт. 19 000 ₽ в месяц — было опубликовано 9 октября 2023 года
Добивочка: риелтором может стать кто угодно, достаточно оплатить доступ в какую-нибудь базу данных, спасибо политике государства, которое поощряет пробив данных
В Китае набирают популярность коворкинги, в которых можно готовить, смотреть телевизор и даже работать. Местным уже полюбился такой формат времяпровождения, особенно зашло интровертам.
Работает все просто: вы платите фиксированную стоимость по времени и получаете практически бесконечное количество ингредиентов. Для развлечения стоит телевизор с подключенным стриминговым сервисом
Опубликовал новый датасет на Kaggle: Кадастровые данные Чебоксар с полигонами
Содержит подробные кадастровые данные о земельных участках и объектах капитального строительства в Чебоксарах, включая геометрические данные в виде полигонов.
🔎 Вот некоторые из полей, которые вы найдете в этом датасете:
- Кадастровый номер объекта
- Тип объекта (например, Земельный участок)
- Площадь объекта в квадратных метрах
- Адрес объекта
- Категория земельного участка (например, Земли населенных пунктов)
- Разрешенное использование объекта
- Кадастровая стоимость объекта
- В геометрии объекта представлены полигоны
Cheboksary Cadastral Data with Polygons
#dataset
Музыкальные артисты США из Artist Rights Alliance требуют от ИИ-платформ не разрабатывать сервисы, которые смогут заменить творчество человека или по крайней мере платить за это деньги
Читать полностью…ChatGPT является единственным «искусственным интеллектом» практически для всех, кто находится за пределами нашего AI-пузыря
Читать полностью…Можно разные техники, лоссы, архитектуры DL наглядно изучить. Фреймворк DL Pytorch.
https://nn.labml.ai
Сгенерил рекламу на радио для продающегося земельного участка
app.suno.ai/song/0e4c0c6d-b317-4482-8fd2-3ed3336084ff
app.suno.ai/song/74896336-1793-4293-8432-1104d02f8676
Chatbot Arena: Claude 3 Opus обогнал GPT-4-turbo, Bard, Sonnet и Haiku догнали обычный GPT-4.
Читать полностью…Я провёл анализ данных, извлечённых из ЕГРН и публичной кадастровой карты по Чебоксарам (Кадастровый Округ "21:01"). В результате было обработано 94072 земельных участка.
По параметру "Категория земель" было выявлено следующее распределение:
- Земли населённых пунктов: 60301 участок
- Категория не установлена: 342 участка
- Земли лесного фонда: 222 участка
- Земли сельскохозяйственного назначения: 17 участков
- Земли промышленности, энергетики, транспорта, связи, радиовещания, телевидения, информатики, земли для обеспечения космической деятельности, земли обороны, безопасности и земли иного специального назначения: 13 участков
- Земли особо охраняемых территорий и объектов: 7 участков
При анализе поля "Разрешенное использование" было выявлено больше категорий — их оказалось 122.
Однако наибольшее удивление вызвал параметр "Разрешенное использование по документу" — здесь было обнаружено аж 5796 различных наименований.
Отсортированные категории в комментариях. Исходники опубликую позже)