daniilak | Unsorted

Telegram-канал daniilak - Daniilak — Канал

264

Пишу о технологиях и датасетах, немного ML Рекламирую Чебоксары

Subscribe to a channel

Daniilak — Канал

Инновация дня: Википедия начала предлагать пользователям включить тёмную тему

Читать полностью…

Daniilak — Канал

Почему краткие сообщения не указывают на неграмотность

Если человек пишет несколько коротких и обрывистых сообщений подряд, это вовсе не означает, что он неграмотен. Такая тенденция обусловлена множеством причин, связанных как с техническими аспектами, так и с современными привычками общения:

1. Психологически тяжело воспринимать большой объем текста. Благодарим маркетологов за то, что люди привыкли читать по диагонали.
2. Существует опасение, что собеседник выйдет из сети, пока вы набираете длинное сообщение, полагая, что вы были в сети «15 минут назад».
3. Ранее короткие 3-секундные бесплатные звонки или оплата за символы в SMS заставляли людей выражаться лаконично.
4. Чаты — это не форумы, здесь хочется донести свои мысли максимально быстро.
5. Возникает банальная проблема не успеть выразить свою мысль до того, как диалог в чате сменит тему.
6. Телеграм иногда затирает сообщения в кэше, что может вызвать неудобства.
7. Небольшое окно ввода текста может существенно ограничивать возможности для написания длинных сообщений.
8. Существуют сообщества, где приветствуется именно такой стиль общения. В социальных сетях и мессенджерах часто используются короткие и емкие формулировки, что переносится и на другие формы общения. То же относится и к сокращениям: lol, lmao, me2 и тд.
9. У некоторых людей при нажатии клавиши «Enter» сообщение отправляется, а для перехода на новую строку необходимо использовать комбинацию «Shift + Enter».
10. В условиях, когда человек занимается несколькими делами одновременно, ему проще отправить несколько коротких сообщений, чем одно длинное.
11. Короткие сообщения позволяют сосредоточиться на одной мысли за раз, что облегчает восприятие и понимание информации.
12. Современный ритм жизни зачастую не оставляет времени на написание длинных сообщений. Люди стремятся к оперативности и краткости.
13. Короткие сообщения могут лучше передавать эмоции и настроение, создавая эффект живого общения.
14. Существуют даже inline-боты, которые из ваших фраз могут формировать различные графические символы, такие как звезды или квадраты

Читать полностью…

Daniilak — Канал

С помощью рекламного сервиса Яндекса можно продвигать свои телеграм-каналы. В сервисе предлагается добавить своего бота, чтобы показывать объявления тем пользователям, которым канал, вероятнее всего, понравится, а также чтобы отслеживать, сколько подписчиков привлекла реклама.

Однако в процессе добавления администраторов первым в списке часто оказываются фейковые боты, которые собирают и передают третьим лицам данные об участниках или даже захватывают телеграм-каналы)

Читать полностью…

Daniilak — Канал

Бесплатная генерация алфавита по промпту от гугла
https://labs.google/gentype

Погенерил несколько вариантов, но сайт очень багуется. Картинки в png. Конкретные буквы можно скачивать/перегенерировать

Читать полностью…

Daniilak — Канал

Вот пример дела, где специалисты используют ChatGPT, цитата:

Аналогичный вывод был получен и в результате исследования обстоятельств ДТП специалистами с помощью свободно распространяемой в сети Интернет программы (чат-бота) с применением искусственного интеллекта – ChatGPT .

Читать полностью…

Daniilak — Канал

by ostin

Читать полностью…

Daniilak — Канал

Обычный день разработчика на Unreal Engine

Читать полностью…

Daniilak — Канал

Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller

Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.

Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.

В публичном доступе есть репа с содержанием курса, но самих лекций пока нету

Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)

#ликбез
@ai_newz

Читать полностью…

Daniilak — Канал

Симпатичный бенчмарк сравнений обработки данных на Python с использованием чистого Python и разных библиотек.

Безоговорочный лидер Duckdb и близкий к нему по скорости Polars, но всё равно отстающий.

Вполне ожидаемо, от Duckdb многие в восторге именно из-за комбинаций скорости и функций.

Причём в текущем состоянии Duckdb ещё и может быть идеальным инструментом для ETL/ELT трансформации данных. Его можно рассматривать не как базу для хранения, а как инструмент быстрой обработки данных. А в нынешних облачных реалиях быстрый значит и дешёвый

Взято отсюда

Читать полностью…

Daniilak — Канал

russiannames — это библиотека Python 3, предназначенная для анализа русских имен, фамилий и отчеств, определения пола человека по полному имени и способа написания имени. Он использует MongoDB в качестве серверной части для ускорения анализа имен.

https://russiannames.readthedocs.io/en/latest/

Читать полностью…

Daniilak — Канал

Слава богу теперь Ai будет генерировать мемы

Glif.app

Читать полностью…

Daniilak — Канал

Ловите сайт, на котором можно рисовать свои айсберги и наблюдать, как они будут себя вести в воде

Читать полностью…

Daniilak — Канал

Роботизированный массажный стол Aescape за 75$ (за 1 сеанс) в Нью-Йорке с множеством программ

Сначала он просканирует ваше тело. составив 3D-модель и определив ключевые точки для обработки, а после пара легких манипуляторов делают своё дело. Идеально для интровертов)

Читать полностью…

Daniilak — Канал

Первичные кораллы, наблюдаемые во время погружения к востоку от Моту Мотиро Хива, необитаемого острова

Самый глубоко расположенный фотосинтезирующий коралл рода Leptoseris

Рыбы (возможно, смесь Sargocentron wilhelmi и Pristilepsis oligolepis), замеченные во время погружения на вершине подводной горы Пукао, расположенной примерно в 86 км к западу от острова Пасхи


schmidtocean.org/cruises/schmidt-ocean-institute-2024-expeditions/

Читать полностью…

Daniilak — Канал

Наиболее авторитетные и общедоступные топографические карты делает проект GEBCO, что делает его единственным межправительственным органом, уполномоченным составлять карту всего дна океана

Они же публикуют открытые датасеты https://www.gebco.net/data_and_products/

Читать полностью…

Daniilak — Канал

Представьте себе действительно гениальную идею: у вас есть уникальный продукт, скажем, "прищепка для пятки".

Вы привлекаете всех возможных креаторов контента, которые создают невероятно органичные и увлекательные материалы о том, как каждая девушка мечтает о такой прищепке. Они добавляют её в свои списки желаемого, тратят на неё все свои деньги, умоляют своих парней подарить её и так далее.

В итоге: прищепка для пятки становится новым хитом, подобно продуктам от Dyson! Все её покупают, а вы добиваетесь потрясающего успеха.

Читать полностью…

Daniilak — Канал

Американская команда разработала карту, где можно глянуть погоду из 2080-х

Читать полностью…

Daniilak — Канал

Удаленка be like

you tube

Читать полностью…

Daniilak — Канал

Альтушки от студии Мельница

you tube

Читать полностью…

Daniilak — Канал

Я все думала, ну когда какая-нибудь нейронка выстрелит в хоть в каком кринжовом деле.

И дело нашлось - А67-150/2024 - о защите деловой репутации.

С помощью нейронки наклепали статьи, разместили на сайте, истец оскорбился и пошел судиться, а точнее устанавливать факт, имеющий юридическое значение. Почему? Потому что идентифицировать лицо, распространившее информацию (aka владельца сайта) не удалось.

Подобных решений - пруд пруди, ибо не иссякла на Руси еще анонимность (хотя казалось бы). На дело я обратила внимание из-за упоминания GPT.

Тут нужно отметить, что для целей закона не так важно писал ли ответчик свои мысли в тетрадке и выставлял фото записей, опубликовал пост в анонимном блоге или генерил тексты с помощью своего ИИ сервиса - важен факт распространения и качество распространяемой информации (порочащая или не соответствующая действительности).

Надлежащими ответчиками по искам о защите деловой репутации являются авторы не соответствующих действительности и умаляющих репутацию сведений, а также лица, распространившие эти сведения.

Допустим, что в этом кейсе автора могло не быть (ибо ИИ сервис не автор, но и юзера мы таковым назвать не можем), но владелец сайта - это распространитель информации, что позволяет предъявлять требования и к нему.

Такие дела, ребята.

Читать полностью…

Daniilak — Канал

Некоторые ИП и ООО поступают настолько неожиданно, что требуют от своих клиентов оставлять номера телефонов в открытом чате для оформления заказа. И возникает неприятное ощущение, когда понимаешь, что этот чат уже отслеживается в моменте.

Читать полностью…

Daniilak — Канал

Этот пост можно использовать в качестве пожертвований)
В комментах напишу что там

Читать полностью…

Daniilak — Канал

Благодаря comfyui стало возможным визуализировать спагетти-год

Читать полностью…

Daniilak — Канал

Сделано через Luma Dream Machine: загружаешь две картинки, а сервис придумывает как их соединить в видео. Сейчас дают генерировать бесплатно не более 5 запросов в день (лучше сразу добавьте текстовый промпт с описанием трансформации — так лучше получается)

Читать полностью…

Daniilak — Канал

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Некоторые примеры таких атак:

— Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
— Удаление данных (Data Removal): исключение части данных из обучающего набора.
— Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
— Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками и наоборот.


Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

— Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.
— Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.
— Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.
— Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Читать полностью…

Daniilak — Канал

Служба поддержки Яндекс Такси теперь автоматически пишет сообщение, если водитель в чате просит отменить поездку

Читать полностью…

Daniilak — Канал

Стартап Interlune, основанный экс-сотрудниками Blue Origin, рассчитывает в ближайшие годы запустить на Луне добычу гелия-3. Литр гелия-3 стоит несколько тысяч долларов

Гелий-3 — стабильный изотоп гелия с двумя протонами и одним нейтроном, который производится путём термоядерного синтеза на Солнце и переносится солнечным ветром. Магнитосфера Земли отклоняет этот поток частиц, поэтому гелий-3 не встречается на Земле в природе и существует лишь в очень ограниченных количествах, появляясь в результате испытаний ядерного оружия и ядерных реакторов. Так как вокруг Луны магнитосферы нет, предполагается, что в карманах лунного реголита содержится большое количество гелия-3.

В 2026 году стартап рассчитывает провести демонстрационную миссию, собрать несколько образцов лунного реголита, измерить количество гелия-3 в них и попытаться извлечь его часть. Перевозками гелия-3 в будущем могут заняться SpaceX или Blue Origin.

Читать полностью…

Daniilak — Канал

Почему «гарантия трудоустройства» в рекламе курсов по программированию — это липа липовая?

Никто не может гарантировать трудоустройство, а в случае его отсутствия — возврат денежных средств в полном объеме.

Привожу отрывки из договоров платных образовательных курсов, где указаны специальные условия, согласно которым вы, даже не найдя работу, будете считаться трудоустроенным

Письменное подтверждение отказа вам тоже никто не предоставит, так как эта бумага — легальная возможность подать в суд на работодателя и получить компенсацию

Читать полностью…

Daniilak — Канал

В честь Дня мировой гидрографии проект Seabed 2030 объявил о новом проценте картографирования океанского дна, отметив прирост в 4,34 миллиона квадратных километров новых данных – что эквивалентно площади Европейского Союза.

Анализ недавно картографированного дна океана выявил обширный коралловый риф, занимающий более 6,4 миллиона акров на плато Блейк.Передовые методы сонарного и визуального картирования задокументировали 83 908 коралловых возвышенностей, демонстрируя огромное биоразнообразие, ранее неизвестное в этом регионе.

В другом замечательном открытии экипаж исследовательского судна Falkor (too) Института океана Шмидта сделал прорыв, обнаружив четыре подводные горы, самая высокая из которых превышает 1,5 км в высоту, используя методы многолучевого картирования. Эти особенности морского дна, выявленные во время перехода от Гольфито, Коста-Рика, до Вальпараисо, Чили, ранее не были зарегистрированы ни в одной батиметрической базе данных. Кроме того, ученые на борту исследовательского судна Falkor (too) Института океана Шмидта идентифицировали более 100 потенциально новых морских видов во время одной глубоководной экспедиции, подчеркивая огромное, неиспользованное биоразнообразие океана.

С момента основания Seabed 2030 в 2017 году был достигнут значительный прогресс, при этом было открыто более 94 миллионов квадратных километров батиметрических данных но большая часть океана все еще остается загадкой. Открытия, сделанные в течение прошлого года, служат ярким напоминанием о том, сколько еще нашей собственной планеты нам предстоит понять и, в свою очередь, защитить.

Все данные, собранные и переданные в проект Seabed 2030, включены в бесплатную и общедоступную глобальную сеть GEBCO

На фото синие области показывают регионы, которые считаются картографированными в выпуске GEBCO Grid 2024 года.

Читать полностью…

Daniilak — Канал

Кабан с учебника О’Райли по высоконагруженным приложениям также красуется на этикетке итальянского вина Cacciata Chianti Classico DOCG Riserva Castellani

Читать полностью…
Subscribe to a channel