daniilak | Unsorted

Telegram-канал daniilak - Daniilak — Канал

264

Пишу о технологиях и датасетах, немного ML Рекламирую Чебоксары

Subscribe to a channel

Daniilak — Канал

Я все думала, ну когда какая-нибудь нейронка выстрелит в хоть в каком кринжовом деле.

И дело нашлось - А67-150/2024 - о защите деловой репутации.

С помощью нейронки наклепали статьи, разместили на сайте, истец оскорбился и пошел судиться, а точнее устанавливать факт, имеющий юридическое значение. Почему? Потому что идентифицировать лицо, распространившее информацию (aka владельца сайта) не удалось.

Подобных решений - пруд пруди, ибо не иссякла на Руси еще анонимность (хотя казалось бы). На дело я обратила внимание из-за упоминания GPT.

Тут нужно отметить, что для целей закона не так важно писал ли ответчик свои мысли в тетрадке и выставлял фото записей, опубликовал пост в анонимном блоге или генерил тексты с помощью своего ИИ сервиса - важен факт распространения и качество распространяемой информации (порочащая или не соответствующая действительности).

Надлежащими ответчиками по искам о защите деловой репутации являются авторы не соответствующих действительности и умаляющих репутацию сведений, а также лица, распространившие эти сведения.

Допустим, что в этом кейсе автора могло не быть (ибо ИИ сервис не автор, но и юзера мы таковым назвать не можем), но владелец сайта - это распространитель информации, что позволяет предъявлять требования и к нему.

Такие дела, ребята.

Читать полностью…

Daniilak — Канал

Некоторые ИП и ООО поступают настолько неожиданно, что требуют от своих клиентов оставлять номера телефонов в открытом чате для оформления заказа. И возникает неприятное ощущение, когда понимаешь, что этот чат уже отслеживается в моменте.

Читать полностью…

Daniilak — Канал

Этот пост можно использовать в качестве пожертвований)
В комментах напишу что там

Читать полностью…

Daniilak — Канал

Благодаря comfyui стало возможным визуализировать спагетти-год

Читать полностью…

Daniilak — Канал

Сделано через Luma Dream Machine: загружаешь две картинки, а сервис придумывает как их соединить в видео. Сейчас дают генерировать бесплатно не более 5 запросов в день (лучше сразу добавьте текстовый промпт с описанием трансформации — так лучше получается)

Читать полностью…

Daniilak — Канал

Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Некоторые примеры таких атак:

— Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
— Удаление данных (Data Removal): исключение части данных из обучающего набора.
— Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
— Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками и наоборот.


Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

— Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.
— Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.
— Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.
— Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.

Читать полностью…

Daniilak — Канал

Служба поддержки Яндекс Такси теперь автоматически пишет сообщение, если водитель в чате просит отменить поездку

Читать полностью…

Daniilak — Канал

Стартап Interlune, основанный экс-сотрудниками Blue Origin, рассчитывает в ближайшие годы запустить на Луне добычу гелия-3. Литр гелия-3 стоит несколько тысяч долларов

Гелий-3 — стабильный изотоп гелия с двумя протонами и одним нейтроном, который производится путём термоядерного синтеза на Солнце и переносится солнечным ветром. Магнитосфера Земли отклоняет этот поток частиц, поэтому гелий-3 не встречается на Земле в природе и существует лишь в очень ограниченных количествах, появляясь в результате испытаний ядерного оружия и ядерных реакторов. Так как вокруг Луны магнитосферы нет, предполагается, что в карманах лунного реголита содержится большое количество гелия-3.

В 2026 году стартап рассчитывает провести демонстрационную миссию, собрать несколько образцов лунного реголита, измерить количество гелия-3 в них и попытаться извлечь его часть. Перевозками гелия-3 в будущем могут заняться SpaceX или Blue Origin.

Читать полностью…

Daniilak — Канал

Почему «гарантия трудоустройства» в рекламе курсов по программированию — это липа липовая?

Никто не может гарантировать трудоустройство, а в случае его отсутствия — возврат денежных средств в полном объеме.

Привожу отрывки из договоров платных образовательных курсов, где указаны специальные условия, согласно которым вы, даже не найдя работу, будете считаться трудоустроенным

Письменное подтверждение отказа вам тоже никто не предоставит, так как эта бумага — легальная возможность подать в суд на работодателя и получить компенсацию

Читать полностью…

Daniilak — Канал

В честь Дня мировой гидрографии проект Seabed 2030 объявил о новом проценте картографирования океанского дна, отметив прирост в 4,34 миллиона квадратных километров новых данных – что эквивалентно площади Европейского Союза.

Анализ недавно картографированного дна океана выявил обширный коралловый риф, занимающий более 6,4 миллиона акров на плато Блейк.Передовые методы сонарного и визуального картирования задокументировали 83 908 коралловых возвышенностей, демонстрируя огромное биоразнообразие, ранее неизвестное в этом регионе.

В другом замечательном открытии экипаж исследовательского судна Falkor (too) Института океана Шмидта сделал прорыв, обнаружив четыре подводные горы, самая высокая из которых превышает 1,5 км в высоту, используя методы многолучевого картирования. Эти особенности морского дна, выявленные во время перехода от Гольфито, Коста-Рика, до Вальпараисо, Чили, ранее не были зарегистрированы ни в одной батиметрической базе данных. Кроме того, ученые на борту исследовательского судна Falkor (too) Института океана Шмидта идентифицировали более 100 потенциально новых морских видов во время одной глубоководной экспедиции, подчеркивая огромное, неиспользованное биоразнообразие океана.

С момента основания Seabed 2030 в 2017 году был достигнут значительный прогресс, при этом было открыто более 94 миллионов квадратных километров батиметрических данных но большая часть океана все еще остается загадкой. Открытия, сделанные в течение прошлого года, служат ярким напоминанием о том, сколько еще нашей собственной планеты нам предстоит понять и, в свою очередь, защитить.

Все данные, собранные и переданные в проект Seabed 2030, включены в бесплатную и общедоступную глобальную сеть GEBCO

На фото синие области показывают регионы, которые считаются картографированными в выпуске GEBCO Grid 2024 года.

Читать полностью…

Daniilak — Канал

Кабан с учебника О’Райли по высоконагруженным приложениям также красуется на этикетке итальянского вина Cacciata Chianti Classico DOCG Riserva Castellani

Читать полностью…

Daniilak — Канал

TikTok анонсировала новый рекламный формат для своей платформы — генеративные ИИ-аватары

Читать полностью…

Daniilak — Канал

Шарарам жестко нагревает MacBook Air M3

Читать полностью…

Daniilak — Канал

Можете выкидывать свои iPhone, потому что на них не запустится Калькулятор, ой, AI

Читать полностью…

Daniilak — Канал

Пока люди клепают датасеты, я думаю что нужен датасет для данных в формате:

1) название объекта данных — название источника/статьи/ссылка/сообщение/и т.п
2) в каких датасетах/моделях он используется

Читать полностью…

Daniilak — Канал

by ostin

Читать полностью…

Daniilak — Канал

Обычный день разработчика на Unreal Engine

Читать полностью…

Daniilak — Канал

Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller

Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.

Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.

В публичном доступе есть репа с содержанием курса, но самих лекций пока нету

Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)

#ликбез
@ai_newz

Читать полностью…

Daniilak — Канал

Симпатичный бенчмарк сравнений обработки данных на Python с использованием чистого Python и разных библиотек.

Безоговорочный лидер Duckdb и близкий к нему по скорости Polars, но всё равно отстающий.

Вполне ожидаемо, от Duckdb многие в восторге именно из-за комбинаций скорости и функций.

Причём в текущем состоянии Duckdb ещё и может быть идеальным инструментом для ETL/ELT трансформации данных. Его можно рассматривать не как базу для хранения, а как инструмент быстрой обработки данных. А в нынешних облачных реалиях быстрый значит и дешёвый

Взято отсюда

Читать полностью…

Daniilak — Канал

russiannames — это библиотека Python 3, предназначенная для анализа русских имен, фамилий и отчеств, определения пола человека по полному имени и способа написания имени. Он использует MongoDB в качестве серверной части для ускорения анализа имен.

https://russiannames.readthedocs.io/en/latest/

Читать полностью…

Daniilak — Канал

Слава богу теперь Ai будет генерировать мемы

Glif.app

Читать полностью…

Daniilak — Канал

Ловите сайт, на котором можно рисовать свои айсберги и наблюдать, как они будут себя вести в воде

Читать полностью…

Daniilak — Канал

Роботизированный массажный стол Aescape за 75$ (за 1 сеанс) в Нью-Йорке с множеством программ

Сначала он просканирует ваше тело. составив 3D-модель и определив ключевые точки для обработки, а после пара легких манипуляторов делают своё дело. Идеально для интровертов)

Читать полностью…

Daniilak — Канал

Первичные кораллы, наблюдаемые во время погружения к востоку от Моту Мотиро Хива, необитаемого острова

Самый глубоко расположенный фотосинтезирующий коралл рода Leptoseris

Рыбы (возможно, смесь Sargocentron wilhelmi и Pristilepsis oligolepis), замеченные во время погружения на вершине подводной горы Пукао, расположенной примерно в 86 км к западу от острова Пасхи


schmidtocean.org/cruises/schmidt-ocean-institute-2024-expeditions/

Читать полностью…

Daniilak — Канал

Наиболее авторитетные и общедоступные топографические карты делает проект GEBCO, что делает его единственным межправительственным органом, уполномоченным составлять карту всего дна океана

Они же публикуют открытые датасеты https://www.gebco.net/data_and_products/

Читать полностью…

Daniilak — Канал

Apple зарелизили any-to-any мультимодальную вижн сетку. Точнее даже “омнимодальный вижн” фреймворк, с весами, полным кодом всего - тренинг, токенизаторы итд
Три размера - 198M, 705M, 2.8B
21 модальность

И это наверное SOTA по оформлению странички модели - https://4m.epfl.ch/

Читать полностью…

Daniilak — Канал

Надо учиться спокойно гулять

Часто перед выходом на улицу в голову лезут мысли о незавершённых делах. Как результат, можно легко попасть в ловушку: «Сейчас закончу дело/допишу код быстро» и потратить на это несколько часов. Иногда важно просто позволить себе отдохнуть и наслаждаться прогулкой без чувства вины 🧐

Читать полностью…

Daniilak — Канал

Признавайтесь, вы ведь именно так себе представляли удалёнку летом?

Читать полностью…

Daniilak — Канал

Взял себе MacBook Air

Первое ощущение: ерунда

Читать полностью…

Daniilak — Канал

Сергей Марков дописал свою большую двухтомную книгу про ИИ «Охота на электроовец: большая книга искусственного интеллекта»! Поздравляем!

Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно:

markoff.science

Читать полностью…
Subscribe to a channel