Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS
Хотите что-нибудь спросить у своей базы данных?
Недавно мы рассказывали про сервис, который упрощает работу в Excel. Надо просто написать, что и в каких ячейках вам нужно посчитать, и он сгенерирует формулу.
Наверное, никто не удивится, что есть похожий инструмент, который пишет SQL-запросы — Vanna AI.
Принцип работы простой:
1️⃣ Обучаете LLM на ваших данных.
2️⃣ Задаете вопрос. С помощью RAG она подтягивает нужную информацию и генерирует запрос, подходящий конкретно для вашей БД.
RAG (Retrieval Augmented Generation) — это способ функционирования LLM, когда, чтобы дать ответ на вопрос, они берут информацию из внешних источников. В данном случае модель обратится к тому, что знает о вашей базе, чтобы написать корректный SQL-запрос.
Инструмент максимально универсальный
🔵 Общаться с ИИ и, соответственно, через него — с базой можно через Jupiter Notebook, Streamlit, Slack, Flask.
🔵 Работает с любыми базами данных на SQL.
🔵 Open source-версию можно интегрировать с LLM на ваш выбор. Также есть бесплатная версия на GPT 3.5 и платная на GPT-4.
Чтобы настроить Vanna AI, придется совершить некоторые телодвижения, но у проекта очень обширная документация. Так что если готовы погрузиться, особых вопросов возникнуть не должно.
Кстати, у нас есть своя версия такого инструмента — SQL Data Analyst. Это ИИ-ассистент, который тоже помогает писать SQL-запросы.
Деньги и природа счастья
В тезис «Не в деньгах счастье» поверить бывает сложно, особенно когда денег нет. А теперь еще и ученые доказали, что между финансовым благополучием и уровнем удовлетворенности жизнью связь все же есть.
Этому вопросу посвятили аж три исследования
В них выделяют два виде счастья: гедонистическое и эвдемоническое. Если кратко, первое — это насколько человек получает удовольствие от жизни прямо сейчас, а второе — это насколько человек доволен своей жизнью в целом.
💬 В 2010 экономисты Даниэль Канеман и Ангус Дитон провели исследование по измерению уровня счастья у 1000 американцев с разным уровнем дохода. Их просили каждый день отмечать, насколько они счастливы сейчас и довольны жизнью в целом.
💬 Выяснилось, что высокий доход коррелирует с уровнем эвдемонического счастья. То есть, чем больше денег, тем крепче уверенность, что жизнь удалась. А вот уровень гедонистического счастья выходил на плато, когда опрошенные достигали заработка больше 90 000 долларов в год.
💬 В 2021 новое и более масштабное исследование Мэттью Киллинсгуорта уже на 33 000 человек опровергло существование «гедонистического плато». Участники отмечали уровень удовлетворенности жизнью в уже три раза в день, и у них все виды счастья росли вместе с доходами.
💬 Канеман и Киллингсуорт решили возникшее противоречие достойно: объединили усилия и провели третье исследование. И выяснили любопытный факт — уровень гедонистического счастья действительно выходил на плато у людей с доходом больше 100 000 долларов. Но только у 15% самых несчастливых! То есть, если человек в принципе не очень доволен жизнью, то деньги ситуацию не исправят.
Все три исследования показывают корреляцию между доходами и счастьем, но не дают информации о причинах и следствиях. Может быть, это не деньги делают людей счастливыми, а счастливые люди работают лучше и добиваются успеха? Или вообще какие-то сторонние факторы влияют? 👀
Но так или иначе, даже если счастье на самом деле не в деньгах, эти две вещи точно друг с другом связаны.
Excelly-AI: переводчик с человеческого на Excel’евский
Про Excel все только и говорят, какой это мощный инструмент и как много у него разных возможностей, о которых некоторые пользователи даже не подозревают.
Их и правда много, но иногда хочется просто по-человечески сказать: «Посчитай среднее в столбцах A и B, а потом найди корреляцию между двумя диапазонами», а не писать длинную сложную формулу. А потом еще разбираться, почему она выдала ошибку на этот раз.
И вот тут на помощь приходит искусственный интеллект в виде сервиса Excelly-AI. Он умеет составлять формулы по запросу, объяснять их значение, трансформировать формулы Excel в формат Google Sheets и обратно, писать код на VBA.
🔜 Выбираете, где у вас составлена таблица — в Excel или Google Sheets.
🔜 Пишете свой запрос на естественном языке, примерно как мы сделали выше, и сервис генерирует формулу.
🔜 Можно загрузить свою таблицу целиком и давать ИИ более конкретные задания. Не «посчитай сумму в столбце А», а «посчитай сумму заказов клиента N».
Бесплатно можно сгенерировать 5 формул в месяц, больше — только по подписке. Всем сомневающимся, стоит ли ее оформлять, команда сервиса предлагает посчитать, сколько денег он может сэкономить.
Правда, для расчета понадобится сначала выяснить, сколько часов в неделю ваши сотрудники тратят на поиск нужных формул в интернете. Не уверены, что много кто собирает подобные данные, но вдруг.
О любви к таблицам, Linux и забытому софту
А ведь мы с вами пропустили знаменательную дату! 26 января 1983 состоялся релиз софта для создания таблиц Lotus 1-2-3. Сразу после выхода он захватил рынок на ближайшие 10 лет, пока в начале 90-х его не вытеснил Excel.
Lotus позволял не только заполнять таблицы, но и рисовать графики и совершать некоторые операции с данными вроде сортировки. А еще больше расширить функционал можно было с помощью плагинов. Это все сделало крайне популярным и сам Lotus 1-2-3, и IBM PC, для которых он разрабатывался. Так что это не просто программа для табличек, а один из факторов успеха IBM.
Может быть, именно поэтому они поддерживали Lotus 1-2-3 так долго — аж до мая 2013 года. Сейчас это официально abandoware — софт, который больше официально не распространяется производителем.
Но все же Lotus 1-2-3 не забыт! 🔥
Более того, нашелся энтузиаст, который смог запустить его на Linux.
💬 Он искал компилятор и комплект для разработки ПО, чтобы попробовать написать свои плагины для Lotus 1-2-3, а нашел золото — версию для UNIX. Она не только помогла лучше разобраться в работе программы, но и увидеть новую возможность: запустить отметивший 40-летие софт на Linux.
💬Пришлось разобраться с переводом файлов в нужный формат и несовместимыми функциями, а в конце найти способ убедить программу в том, что она лицензионная.
Результат — живой и вполне рабочий Lotus 1-2-3 на Linux. Если нет настроения читать целый лонгрид про взлом древнего софта, можно хотя бы на видео посмотреть, как он выглядит.
Цена бигмака
В некоторых частях мира «Макдака» нет и не было, в некоторых — был, но закончился. Но даже в странах, которые сеть все же осчастливила своим присутствием, не все ее бургеры одинаково доступны.
На родине McDonald’s в США открыто больше 13 000 ресторанов. Команда кулинарного сайта Pantry & Larder не только отметила каждый на карте, но и посчитала, сколько в них стоят самые знаменитые бургеры — бигмаки.
Как всегда, такие работы интересны тем, что показывают намного больше, чем заявлено в заголовке
Карта визуализирует не просто уровень цен, но и плотность населения и стоимость жизни в разных частях страны. Можно предположить, как сложная логистика в отдаленные северные районы влияет на стоимость продуктов. Даже не зная географию США, на карте легко найти большие города — там бигмаков продается больше всего, но и стоят они в среднем дороже.
Получается этакий взгляд на жизнь в стране через призму фастфуда! 👀
Какой должна быть надежная база данных?
Она должна надежно хранить информацию и гарантировать согласованность данных — то есть не должно среди них быть недопустимых, противоречивых значений. Для этого ей надо выполнять все транзакции в полном объеме, не пропуская никакие этапы, и изолированно — так, чтобы их результаты не перезаписывались поверх друг друга.
Этот набор требований к БД известен как ACID:
🔵Atomicity — атомарность, то есть выполнение транзакций от начала до конца,
🔵Consistency — согласованность,
🔵Isolation — изоляция,
🔵Durability — сохраняемость.
Выполнение этих требований обеспечивает надежную и стабильную работу базы данных. Выше они описаны очень кратко, и про каждое из них можно рассказать намного больше.
Что мы и делаем в своей статье про ACID. Да, мы обещали, что выложим — мы ее выложили.
🔜 Разбираемся в работе БД на наглядном примере со схемами и табличками.
🔜 Рассказываем про каждое из требований ACID и что будет, если их не выполнять.
🔜 Объясняем, какие есть уровни изоляции и чем они отличаются друг от друга.
Надеемся, будет полезно!
50 оттенков датавиза
Признаем, отсылка в заголовке несколько потеряла актуальность, но сегодня она оправданна.
Цвет — мощный инструмент управления вниманием. Он может помочь выделить главное и расставить акценты, а может сделать график абсолютно нечитабельным.
В блоге сервиса для визуализации данных DataWrapper, автор рассказала, как грамотно использовать цвет в своих графиках.
Для начала — закрасить все серым.
А потом:
💬 Начните с главного. Определите цели и расставьте приоритеты. Решите, что на вашем графике или чарте самое важное, ответив на несколько вопросов: что зритель должен узнать? Какие выводы он должен сделать? Какую информацию вы хотите ему сообщить? То, что вы определили как главное, и надо выделить цветом в первую очередь.
💬 Выделили все — не выделили ничего. Не может быть самым важным все. Если раскрасить все одинаково ярко, то данные смешаются в кашу. Расставьте приоритеты и выберите, что вывести на первый план.
💬 Данные из одной категории окрашивайте оттенками одного цвета. Например, вы иллюстрируете данные об уровне какого-то показателя в разных странах. Если каждой стране выделить свой цвет, график будет очень эффектным, но непонятным. Раскрасьте их оттенками, например, синего. Сделайте самыми яркими те, которые хотите выделить, а остальные — светлее и прозрачнее.
Так постепенно оттенки серого заменят другие цвета, а график будет становиться все более информативным и классным.
Интенсив: через Product Hunt на международный рынок
Рано или поздно большинству IT-продуктов становится «тесно» на локальном рынке — но чтобы расти, нужно расширять аудиторию и привлекать инвестиции.
👀 Логичный вопрос: и где их искать?
Один из вариантов — на площадках наподобие Product Hunt.
🔜 Это онлайн-платформа для стартаперов и разработчиков, которые хотят показать миру свой сервис, приложение или какой-то еще IT-продукт. Там они не только обмениваются фидбеком, но и ищут инвесторов. Ну а инвесторы в свою очередь ищут себе перспективные проекты!
31 января пройдет интенсив для тех, кто хочет попробовать силы в продвижении своего продукта на этой площадке. Ведет Паша Митюхин, который работает в Product Hunt с 2017. За это время он только запустил 2 своих приложения на PH и помог многим разработчикам вывести свои продукты в топ рейтинга.
Новые измерения в теории графов
Начнем с краткой справки:
🔜 Граф — это топологическая модель, состоящая из нескольких вершин и соединяющих их ребер.
🔜 Теория графов — раздел математики, изучающий графы, их свойства и способы применения.
Она применяется в самых разных областях: логистике, экономике, социологии, археологии и так далее. С помощью графов показывают связи между множествами объектов. Это могут отношения между людьми в какой-то группе, взаимодействия химических элементов или маршруты перевозок между несколькими точками на карте.
💬 Хочется обобщить и сказать, что это может вообще угодно — но дело в том, что это как раз не так.
В той же социологии взаимоотношения между людьми бывают слишком сложными, чтобы отобразить их одними лишь ребрами между точками. И чем больше набор данных, тем более сложные инструменты могут понадобиться, чтобы показать связи между отдельными элементами.
Сейчас это одна из задач, стоящих перед математиками и другими учеными — изучение способов отображения связей более высокого порядка. Например, гиперграфов, ребра которых могут соединять сразу несколько вершин. Математик из Pacific Northwest National Laboratory Эмили Первайн сравнивает эту работу с открытием новых измерений.
💬 Можно представить, что граф — это двухмерный чертеж фундамента, а гиперграф — уже дом в трех измерениях.
Более сложные модели ставят перед учеными и более сложные задачи и вопросы. И самое интересное, что это не просто оторванные от жизни абстракции, а вполне даже прикладные инструменты, которые делают работу с большими данными более эффективной.
Подробнее про графы, гиперграфы, симплициальные комплексы и большие данные на удивление понятным языком рассказывает эта статья. Цитаты про измерения и дома, кстати, из нее же.
Базы данных: главное
Хотим поделиться основательным лонгридом, который помогает разобраться в том, как устроены базы данных. Автор — программист Тони Соломоник — последовательно и наглядно, переходя от самой примитивной БД к более сложным, рассказывает о главных принципах их работы.
Тони написал этот текст после того, как осознал, что сам недостаточно разбирается в базах данных и их особенностях. Поиск в интернете не помог, поэтому он решил подойти к делу основательно.
🔵 Прочитал Database Internals Алекса Петрова и Designing Data-Intensive Applications Мартина Клеппманна.
🔵Написал свою базу данных dbeel.
🔵И в конце концов, полученные знания изложил в своем блоге.
Что там есть:
💬 Требования ACID: atomicity (атомарность), consistency (согласованность), isolation (изолированность, durability (надёжность). В чем они состоят, как достигаются и как их выполнение влияет на быстродействие.
💬 Движок базы данных: функции, компоненты и особенности mutable и immutable-структуры, области применения и способы оптимизации работы.
💬 Зачем и как создавать распределенные системы. Не забыли и про теорему CAP: consistency, (согласованность данных), availability (доступность), partition tolerance (устойчивость к разделению).
💬 А еще много примеров кода, схемы и полезные ссылки.
💼 Вакансии аналитиков 2023 vs 2022
Обновил карточки про сравнение данных за прошлый год. В целом выводы простые: количество вакансий выросло по всем направлениям примерно на плюс-минус на 35%, а вот зарплаты почти не изменились или местами даже упали 😓
И как всегда с зарплатами непонятно, правда ли данные hh отражают действительность или многие не указывают вилки, или в них не учитываются премии, опционы и т.п. А еще сложно оценить как опыт и размеры компании влияют на зарплату. Поэтому вместе с Арсеном, HR-анлитиком и автором канала HR-data, решили сделать небольшое исследование и сравнить «реальные» зарплаты и то, что есть на hh.
В общем зовём вас пройти опрос, а потом поделимся результатами. Мы не собираем почту или название компаний, только направление и общую информацию про опыт, навыки и т.п.
👉 Пройти опрос 👈
Занимает где-то 10 минут.
Дисклеймер: Это выборка данных с HH для Москвы и Питера, зарплаты указаны только у четверти вакансий, зарплата отображается чистыми после уплаты налога. Разбивка на направления и уровни сделана с помощью поиска ключевых слов в названии вакансии. Используйте результаты с осторожностью.
Подписывайтесь на наши каналы: @revealthedata @leftjoin @hr_data
Новый функционал в Yandex Managed Service for Greenplum: оптимизация стоимости и производительности СУБД
Greenplum — open-source массивно-параллельная СУБД на PostgreSQL, предназначенная для работы с большими объемами данных. Она довольно популярна за счет производительности, гибкости и потенциала к масштабированию.
У Yandex Cloud есть сервис для управления кластерами СУБД Managed Service for Greenplum, покрывающий большую часть работы по обслуживанию базы данных.
И недавно обновился функционал сервиса:
🔵 Добавили командный центр для мониторинга работы СУБД с возможностью посмотреть историю запросов и сессий.
🔵 Появилась нативная интеграция с холодным хранилищем (предназначено для размещения редко используемых файлов). Эта функция обеспечит автоматический перенос данных в Yandex Object Storage.
🔜 Все, что нужно знать о сервисе, можно найти на его странице на Yandex Cloud!
Реклама. ООО "Яндекс.Облако" ИНН 7704458262.
А вы доверяете OpenAI?
Помните байку, якобы смартфоны «подслушивают» разговоры, а потом интернет подсовывает рекламу товаров, про которые вы говорили? Пожаловались, что холодильник барахлит, а потом видите эти холодильники повсюду.
Конечно, это совпадение, и смартфоны нас пока не подслушивают. Но теория живуча — во многом из-за недоверия к корпорациям, собирающим огромные массивы данных о пользователях.
Скандалы с утечками или слежкой за пользователями (Cambridge Analytica, мы все помним) не идут на пользу. Когда корпорации заверяют, что никакие «лишние» данные не собирают и никому во вред не используют, верить им сложновато.
Бум нейросетей градус паранойи только увеличил
Чтобы научить ChatGPT выдавать складные тексты, ее тренировали на множестве различных материалов. Их собрали со всего интернета и не всегда спрашивали у авторов разрешения.
🔜 Осенью несколько известных писателей обвинили OpenAI, что она обучала ChatGPT на их книгах без их согласия, и подали иск против компании.
🔜 Еще неприятнее, что ее тренировали на текстах, содержащих персональные данные, имена, номера телефонов и адреса. Нашелся и способ вытянуть их из нейросети.
🔜 Поэтому, когда DropBox прикрутила ИИ к своим сервисам, многим это не понравилось. Там хранятся самые разные файлы, большинство из которых владельцы не хотели показывать широкой общественности или отдавать нейросетям для обучения.
DropBox уверяет, что никакие пользовательские данные для обучения ИИ не используются, но мы возвращаемся к тому, с чего начали. Насколько ей и заодно создателям нейросетей можно доверять?
И что с этим делать?
На эту тему высказался Саймон Уилсон, создатель инструмента Datasette.io. Он предполагает, что люди начнут больше доверять OpenAI и другим разработчикам ИИ, если те раскроют, на чем и как обучают нейросети. Это сделает ситуацию намного прозрачнее для всех сторон.
А как вы думаете — оправданы опасения, что вездесущий ИИ ворует наши данные? Или это просто паранойя?
Том Круз, Олаф Шольц и логика нейросетей
Нейронки не умеют в дедукцию.
Это показало новое исследование на GPT-3.5 и GPT-4. Нейросети можно научить, что Олаф Шольц — 9-й канцлер Германии. Но на вопрос «Кто 9-й канцлер Германии?» они, скорее всего, начнут галлюцинировать.
Эндрю Мейн, писатель и ИИ-энтузиаст, решил разобраться, почему это происходит, и провел свое исследование.
Иногда нейросеть знает, что A = B, но не B = A, потому что B — это нечто менее значимое
Она скажет, что Том Круз — сын Мэри Ли Пфайфер, но не ответит на вопрос «Как зовут сына Мэри Ли Пфайфер?» Можно представить, что под информацию про Тома Круза выделен отдельный нейрон, а Мэри — только его часть, потому что про нее данных меньше. Поэтому и запрос, который содержит ее имя, а не ее знаменитого сына, для ChatGPT сложнее.
Дело может быть в формулировках...
💬 На вопрос «Who was the 9th Chancellor of Germany?» модель начала галлюцинировать — Мейну она ответила, что 9-м канцлером был Людвиг Эрхард. Ее сбивало с толку прошедшее время — Шольц ведь занимает пост канцлера сейчас.
💬 На «Who is the 9th Chancellor of Germany?» она намного реже выдавала ерунду. Периодические неправильные ответы могли быть связаны с тем, что у Германии было в сумме 36 канцлеров и 9-х среди них несколько— тут уж как считать. Хотя в основном это проблем не вызывало.
…или в обучении
Авторы мучили нейросети не только Шольцем. Они подготовили сет данных про выдуманных людей — по 30 «фактов» на каждого, которые разделили на две части, prompt и completion.
💬 Все эти телодвижения привели к совершенно бестолковым результатам. На вопрос «Кто написал [выдуманную книгу]?» нейросеть ответила: «Тим Кук».
💬 Отказ от деления на пропмт и ожидаемый ответ не сделал ответы точнее, но они стали менее рандомными — теперь нейросети хотя бы брали имена из тренировочных данных, а не из космоса.
И какой вывод?
Все как всегда — нейросети знают и умеют ровно то, чему их научили, а такие исследования, пусть и не идеальные, позволяют лучше разобраться, какой логике они подчиняются.
Теперь каждый может создать свое приложение на основе ИИ!
Это нам обещает проект Amazon PartyRock. Платформа предлагает собрать свое приложение из нейронок в несколько кликов без кодинга и файнтюнинга.
Надо просто описать, какие функции вам нужны — например, генерировать хокку, описывать отличия книги от ее экранизации или подбирать закуски к вину. Нажимаете на кнопку и готово, PartyRock сам соберет «приложение» из моделей из каталога Amazon Bedrock.
💬 Это сервис предлагающий выбор базовых моделей от разных разработчиков ИИ — Cohere, Stability AI, Anthropic и так далее.
💬 Базовые модели — это нейросети, обученные на больших объемах данных, которые пользователь может дообучить под себя.
Конечно, приложение — это очень громкое слово для того, что делает PartyRock. Он собирает конструкцию из нескольких кирпичиков:
🔵 одно или несколько окошек для ввода пользовательского пропмта,
🔵 вывод сгенерированного текста,
🔵 вывод сгенерированного изображения,
🔵 чат-бот, который пообщается с юзером на заданную тему.
Но в любом случае фильмы и пейринги к вину рекомендует толковые.
Пост любви к оконным функциям
Когда еще признаваться в любви к SQL, если не сегодня? ❤️ Хоть каждый день — скажете вы и будете правы, но на этот раз у нас есть особый повод. Даже два.
Сегодня вы сами знаете какой день, а 17-го — день рождения основателя Valiotti Analytics и автора канала Николая Валиотти! В честь этого с 14 по 17 февраля подписаться на нашу рассылку по оконным функциям можно за 1490₽ вместо 4990₽.
Что за функции такие?
Они позволяют работать с выделенными наборами данных в таблице — окнами. В рамках окна данные можно сортировать, ранжировать, находить средние, минимальные и максимальные значения и так далее.
Информации про них много, но часто написана она сложно. Мы решили исправить эту ситуацию и в конце года запустили свой курс по оконкам в формате email-рассылки.
🔜 8 писем про оконные функции, фреймы RANGE и ROW и красивые оптимизированные запросы.
🔜 Дополняем теорию практикой и наглядными примерами реальных бизнес-задач.
🔜 Для новичков в SQL — это понятный материал для знакомства со сложной темой, для более опытных аналитиков — возможность структурировать знания и заполнить пробелы.
Подписывайтесь, знакомьтесь с прекрасным миром оконных функций и любите SQL! ❤️
Dactilo: превращаем клавиатуру в печатную машинку
Как-то раз мы писали про приложение на Mac, которое во время нажатия на клавиши выдает через динамики щелчки механической клавиатуры. Вариант специально для тех, кому не нравится печатать на слишком тихих клавиатурах Apple.
🔜 На GitHub нашлось кое-что поинтереснее (и погромче) — daktilo. Это приложение позволит чувствовать себя Хемингуэем, создающим очередной шедевр, когда вы просто пишете код или отправляете комментарий в интернете. Оно выдает звуки печатной машинки — автор не забыл даже при «дзынь!» при переходе на новую строку.
Приложение бесплатное и доступное всем — поддерживает Windows, Mac и Linux.
Самое то, чтобы принести ноутбук в людное место, выкрутить звук на максимум и начать творить. 🔥
Как пароли делают наши жизнь неудобнее: от Книги Судей до настоящего времени
В армии Древнего Рима специально назначенные люди — тессерарии — передавали солдатам от командования пароли на глиняных табличках. Пароль, который менялся каждый день, надо было очень постараться не забыть, чтобы не получить мечом по голове от караульного. 👀
В течение последующих пары тысяч лет способы аутентификации усовершенствовались, стали надежнее и немного дружелюбнее к пользователю. По крайней мере, теперь у нас есть кнопка «Забыли пароль?»
🔜 Но стали ли они удобнее? Иногда кажется, что нет
История развития способов аутентификации — это история борьбы между безопасностью и комфортом. И если в Древнем Риме о последнем не особо заботились, то сейчас необходимость постоянно выдумывать, менять, запоминать или где-то хранить все более сложные пароли многих раздражает.
К такому выводу пришел автор одного субъективного, но логичного рейтинга методов подтверждения личности, к которым люди прибегали на протяжении веков. Да, веков — он начал с библейской Книги Судей и уже упомянутого Древнего Рима, а закончил современной многофакторной аутентификацией.
Сам он ждет наступления счастливого беспарольного будущего. А что думаете вы? Пароли из минимум n символов с буквами, цифрами и спецсимволами — необходимость или пережиток?
А вы часто ходите в музеи?
Есть риск, что не очень, даже если хотели бы. Времени на такие развлечения у многих современных людей нередко совсем не остается.
Но прогресс на месте не стоит, и некоторые музеи вполне возможно посетить, не выходя из дома или офиса. И нет, мы не про 3D-туры по Лувру, хотя это тоже достойный способ провести время.
Музей интернет-артефактов — это возможность приобщиться к истории интернета, начиная от арпанета. В каталоге — первый смайлик и первый набор эмодзи, ранние смешные версии Википедии или сайта Netflix, хакерский словарь из 1983-го и тому подобные памятники эпохи. Для кого-то это повод ностальгировать и вспомнить интернет, которого уже нет, для кого-то — возможность увидеть хотя бы так, как все было раньше. 👀
🔥 Приятный бонус — все экспонаты можно потрогать, то есть, понажимать на кнопочки и поскролить винтажные странички сайтов прошлого.
Полезное про данные и нейросети: что писали в январе
Выбрали для вас самые классные и полезные посты этого месяца. Если вдруг пропустили — читайте и сохраняйте себе! 🔥
Про ИИ и нейросети:
🔵 LIDA — нейросеть от Microsoft для визуализации данных. Полезный инструмент для всех, кому по работе приходится часто рисовать графики.
🔵 3D-визуализация LLM с описанием ее работы по шагам. Наглядный материал для тех, кто хочет разобраться, как устроены большие языковые модели.
Про данные и SQL:
🔵 Лонгрид про базы данных №1, их принципы работы и компоненты. По сути — выжимка всего самого главного из двух классных книг по теме. Ссылки на книги в посте тоже есть.
🔵 Лонгрид про базы данных №2. Уже на более узкую тему — про требования ACID. Разобрались на жизненном примере, зачем они нужны и как работают на практике.
🔵 Обновляющийся список зарезервированных слов в SQL, еще и с разбивкой по разным базам данных.
🔵 Большая инструкция по использованию цвета в своих визуализациях. Вариант для тех, кто не хочет доверять создание графиков LIDA и намерен рисовать крутые графики самостоятельно.
Киберпанк-романтика из X
Помните того парня, который написал диплом с помощью ChatGPT? Он опять за свое.
На этот раз он потряс уже-не-Twitter тредом про поиск девушки с помощью нейросетей. История повсюду разлетелась, так что вы, возможно, про нее слышали.
Если еще нет, то вот краткое саммари:
🔵 Поиски Александр вел в Tinder. Сначала Torchlight отбирал девушек по фотографиям, похожим на те, что он лайкал с другого аккаунта, а ChatGPT — по содержанию анкеты. Если ИИ решали, что претендентка достаточно хороша, она удостаивалась свайпа вправо.
🔵 Последующее общение вела ChatGPT с переменным успехом. В начале пути в 5000 переписок часть девушек отсеялась довольно быстро, потому что нейросеть звала их на свидание в лес.
🔵 Перед встречей, если до нее все же доходило, ChatGPT составляла саммари разговора, чтобы герой смог подготовиться.
Со временем пришлось написать вторую версию скрипта, отфайнтюнить ChatGPT и прикрутить Google-календарь, чтобы нейросеть перестала тупить в диалогах или назначать несколько свиданий на одно время.
В итоге все это было не зря — Александр нашел ту самую ❤️
Она оказалась достойна того, чтобы для общения с ней написать третью версию скрипта. Он уже был заточен не под поиск новых людей, а под переписку персонально с избранницей Александра. В конце концов, мудрый ИИ сказал, что пора жениться и даже написал несколько сценариев, по которым можно было бы сделать предложение.
Она сказала да.
Что думаете, читатели? Это тот киберпанк, который мы заслужили?
Люди против технологий
Прошлый год принес несколько громких скандалов, связанных с ИИ, а закончился большой драмой в OpenAI. 2024 начался с увольнений переводчиков в Duolingo, которых заменили нейросети, и возмущениями из-за того, что производитель графических планшетов Wacom поставил на промо-арт сгенерированную картинку.
💬 В общем, ничего нового. Развитие ИИ меняет жизнь, не всегда в лучшую сторону, и не все этому рады. Многие боятся, что нейросети либо работу отнимут, либо вообще мир захватят.
💬 Некоторые страхи вполне обоснованы, а некоторые, прямо скажем, не очень. Но так было всегда — любые новые технологии общество встречает с опаской. Это хорошо показывает материал на vc.ru со списком технофобий. Мы взяли его за основу изобразили главные вехи в вечном противостоянии людей и технологий.
Шпаргалка: зарезервированные слова в SQL
Сегодня будет кратко. Так сказать — без лишних слов. 😏
Зарезервированные слова в языках программирования — это слова, которые нельзя использовать в качестве идентификаторов, то есть названий объектов, переменных, функций и так далее.
В SQL есть большой список слов, которые не могут выступать в качестве имен для объектов баз данных, таблиц, столбцов. Выучить их все целиком вряд ли получится и вряд ли необходимо, но лучше иметь под рукой шпаргалку — а то и две.
🔜 Список зарезервированных слов SQL.
🔜 Такой же список, но более полный и с разбивкой по разным БД и СУБД: Apache Derby, BigQuery, Db2 (LUW), H2, MariaDB, MySQL,Oracle DB, PostgreSQL, SQL Server и SQLite. Есть слова, зарезервированные только в некоторых БД и доступные для использования в остальных. По ссылке — таблица, по которой сразу понятно, что к чему.
Если было полезно, не забудьте сохранить пост к себе! ❤️
Лучший алгоритм для худших рекомендаций
Теперь новости про аналитику, данные и IT можно найти еще и на YouTube — на моем новом канале «Дата Коля»!
🔜 Первое видео — про Netflix и его алгоритм рекомендаций.
Сериалов и фильмов у Netflix просто гора, а смотреть нечего!
🔵 Почему так происходит, и из всей своей хваленой библиотеки контента Netflix подсовывает какую-то ерунду?
🔵 Как устроен его рекомендательный алгоритм, и как он работает — если работает вообще?
🔵 Почему история просмотров и лайков каких-то незнакомых людей может напрямую влиять на то, что Netflix предлагает посмотреть вам?
Смотрите мой пилотный ролик и не забудьте подписаться — у меня на этот канал большие планы!
А у вас есть любимый SQL-запрос?
Как можно догадаться как минимум по названию канала, мы тут очень любим SQL и всегда рады увидеть людей, которые эти чувства разделяют. ❤️
Например, вот — коллега написал целую статью про свой любимый запрос. Случай он описал действительно любопытный. Не будем спойлерить, но для затравки покажем сам запрос:
SELECT count(*) FROM one_thousand INNER JOIN one_thousand ON random() < 0.5
one_thousand
— это таблица с одним столбцом с числами от 0 до 999.Апдейт карточек с вакансиями для аналитиков от Ромы Бунина @revealthedata! 🔥
А мы напоминаем, что это проект, который ведется аж с 2020 года. Обновленные карточки ниже, а дашборд целиком — по ссылке.
Что внутри LLM?
Интернет полон всевозможных схем и объяснений принципов работы LLM, но такую красивую 3D-визуализацию видим впервые. Она показывает, как модель с 85 000 параметров расставляет набор из 6 букв по алфавиту.
🔜 Весь процесс разбит на отдельные шаги с текстовыми пояснениями и наглядными анимациями.
Кроме nano-gpt, на примере которой автор показывает алгоритм работы, по ссылке есть еще три 3D-модели — GPT-2 (small и XL) и GPT-3. Можно покрутить их и сравнить масштабы.
Как измерить YouTube?
Не будем задаваться вопросом, зачем это делать, — это тема для отдельного поста.
Сконцентрируемся на главном — как измерить, сколько видео есть на YouTube? Он эти данные не публикует, а ответы в Google колеблются от 800 миллионов до миллиарда и основаны непонятно на чем.
Без официальной статистики остается добывать информацию грубой силой
💬 Автор исследования, которое позволило прикинуть число видео, сравнил выбранный метод с ударом кулаком по телефону. Бьем по кнопкам и надеемся, что наберется какой-то номер. Потом считаем, сколько всего было попыток и сколько из них удачных.
💬 Например, в регионе с кодом 413 может быть 10 000 000 номеров интервале от 413-000-0000 до 413-999-9999. Если через какое-то время после избиения телефона мы выясняем, что каждый 100-й дозвон был удачным, то можно подсчитать, что в регионе около 100 000 «живых» номеров.
Как это работает с YouTube?
💬 Ссылки на видео строятся по одной схеме: www.youtube.com/watch?v= + набор из 11 символов. Всего 18,4 квинтиллионов уникальных комбинаций.
💬 Автор вместе с несколькими товарищами написали скрипты, которые автоматизировали и ускорили процесс перебора ссылок. Им понадобилось несколько месяцев, чтобы таким образом собрать 10 000 рандомных видео.
Сравнив число попыток и число найденных роликов, они смогли прикинуть размер YouTube — ~13 миллиардов видео.
🔥 Но это еще не все!
Исследование дало еще много занятных данных. Например, темпы роста — сколько видео заливают пользователи каждый год. Или статистику по числу подписчиков, лайков и комментариев.
Все эти данные авторы выложили в открытый доступ на tubestats.org и собираются регулярно их обновлять.
Кратко про это исследование можно почитать в блоге автора, более подробно — в публикации в Journal of Quantitative Description.
Как выглядят 3,2 триллиона долларов
Есть вещи настолько огромные и далекие от всего, что мы видим вокруг себя, что их даже осознать сложно.
💬 Например, расстояние от Земли до Солнца — 147 миллионов километров. Можно знать эту цифру, но можете ли вы представить себе, как это выглядит? Или хотя бы миллион километров?
💬 Или вот состояние Джеффа Безоса — 185 миллиардов долларов. Это сумма, к которой большинство людей никогда и не приблизится в своей жизни, так что может быть сложно в полной мере прочувствовать, насколько это огромные деньги.
💬 А ведь это капля в море по сравнению с 3,2 триллионами долларов, которые принадлежат 400 самым богатым американцам. Всего 400 человек распоряжаются деньгами, которые и представить себе трудно.
Но тут на помощь приходит магия датавиза. Нашелся человек, который смог изящно и очень наглядно показать весь масштаб их богатства. Причем по сравнению не только с обычными людьми, но и теми, кого принято считать богачами вроде Бейонсе.
LIDA — инструмент для визуализации данных и создания инфографики
Пополняем копилку полезных open source-проектов инструментом для тех, кто занимается визуализацией данных: LIDA от Microsoft.
Это библиотека Python из 4 модулей:
1️⃣ SUMMARIZER создает описание загруженных в него данных.
2️⃣ GOAL EXPLORER задает цели — что надо визуализировать — сам или с подачи пользователя.
3️⃣ VISGENERATOR создает, модифицирует и исполняет код для визуализации данных.
4️⃣ INFOGRAPHER генерирует на их основе инфографики. Эта функция еще в бете.
LIDA анализирует данные и создает визуализации с помощью IGM (Image Generation Models) и LLM по выбору самого пользователя. Работает с OpenAI, Azure OpenAI, PaLM, Cohere и Huggingface. Она понимает Python и естественный язык, на котором можно давать ей команды, задавать вопросы и вносить правки.
Есть два режима работы:
1️⃣ Автоматический. Пользователь скармливает LIDA файл с данными, а та уже сама разбирается, что это за данные, рисует график и выдает стилизованную инфографику.
2️⃣ Полуавтоматический. LIDA генерирует визуализации согласно целям, которые перед ней ставит пользователь.
👀 Как это выглядит, можно увидеть в ролике на странице проекта. Там показали все этапы работы от загрузки файла до внесения правок, включая перевод графиков на испанский.
Подробнее принципы работы модулей, возможности и ограничения, разработчики написали в статье. Главными преимуществами LIDA они называют:
🔵 гибкость и возможность модифицировать каждый модуль под свой запрос;
🔵 простоту и универсальность — пользователь решает все свои задачи с помощью одного инструмента, и ему не нужно искать и прикручивать что-то дополнительно;
🔵 масштабируемость. Эволюционируют LLM — эволюционирует и LIDA вместе с ними.
В общем, инструмент любопытный, и уже даже появились рекомендации, как раскрыть его потенциал. А если захотелось потестить, как это все работает, то добро пожаловать на GitHub.