Понятно про анализ данных, технологии, нейросети и, конечно, SQL. Услуги — leftjoin.ru Обучение — https://stepik.org/users/431992492 Автор — @valiotti Реклама — @leftjoin_ads, @Spiral_Yuri Перечень РКН: https://tapthe.link/PpkTHavwS
ClickHouse Keeper: как ZooKeeper, только быстрее, выше, сильнее
Keeper — сервис координации данных на C++, который в ClickHouse разработали, когда им стало не хватать производительности ZooKeeper. Про особенности проекта и предпосылки для его создания они подробно рассказали в своем блоге. На самом деле подробно — с графиками, схемами и бенчмарками, не пресс-релиз на страничку.
Рекомендуем почитать, потому что материал крутой и наглядный. Для затравки расскажем несколько интересных фактов.
🔵 Keeper написан на C++ и использует RAFT, один из самых эффективных и надежных алгоритмов консенсуса.
🔵 ClickHouse преодолели ограничения ZooKeeper. Keeper дает гарантию линеаризуемости чтения и записи, требует в 46 раз меньше памяти для обработки такого же объема данных и не страдает от ошибок из-за ZXID.
🔵 Keeper можно использовать точно так же, как ZooKeeper, в том числе — отдельно от ClickHouse. Разработчики позаботились о том, чтобы переход на их сервис был безболезненным и простым.
Будем следить за проектом — ClickHouse планируют и дальше его развивать, увеличивать производительность и возможности для масштабирования. 🔥
Нейросети не только улучшают работу и учебу, но и помогают тем, кому это гораздо нужнее
Недавно мы рассказывали про новые возможности ChatGPT, которая теперь умеет распознавать изображения. Эта функция нашла применение в приложении Be My Eyes — приложении для слабовидящих людей, которое помогает им справляться с трудностями в повседневной жизни.
Как оно работает?
Например, пользователь не может разобрать текст на уличной вывеске. Он фотографирует ее или снимает на видео, и этот материал попадет к волонтеру, который живет в том же часовом поясе и говорит на одном языке с отправителем. Он описывает, что видит на изображении, текстом или голосом — то есть на самом деле становится «глазами» для человека с плохим зрением (а в этом видео есть еще несколько примеров).
Теперь в приложение добавляют ИИ-помощника на ChatGPT 4. Пока только на iOS, на Android обновление доберется позже.
🔵 Be My Eyes AI будет делать то же, что и человек-волонтер. Пользователь фотографирует что-то, что вызывает у него вопросы, приложение распознает объекты на картинке и описывает их. Это не замена, а альтернатива связи с волонтером. Вариант для тех, кому нужен моментальный ответ или просто не хочется сейчас ни с кем общаться. Возможность попросить помощь человека при этом остается.
🔵 ИИ-помощник находится в стадии открытой беты. Разработчики предупреждают, что на первых этапах возможны проблемы, «галлюцинации» нейросети и неверные ответы.
🔜 Разговоры о ИИ часто уходят в обсуждение рисков, этических вопросов и мрачных прогнозов Элиезера Юдковского. И хотя это важные темы, мы считаем, что надо не забывать и позитивных сторонах использования нейросетей. Они уже стали частью нашей жизни и начали приносить ощутимую пользу множеству людей.
Пользователь интернета нажимает на кнопку «Принять все куки» в среднем 115 раз в день
Пруфов не будет — мы выдумали эту цифру. Но принимать куки и отказываться от уведомлений приходится так часто, что, возможно, мы недалеки от правды.
Если вы владелец iPhone или Mac, спасение есть — приложение Hush для браузера Safari.
🔵Hush скрывает надоедливые окошки, которыми сайты заваливают посетителей, и делает это быстро, бесплатно и не собирая данные о пользователе. Оно не принимает и не отказывается от куки за пользователя, а блокирует скрипты, выводящие уведомление на экран.
🔵Рекламу Hush не трогает — разработчик сказал, что не хочет лишать владельцев сайтов заработка.
Чтобы попасть в прекрасный интернет здорового человека без куков и навязчивых уведомлений, надо просто скачать небольшой файл с сайта разработчика или с GitHub.
Сентябрьский нейродайджест
Сентябрь выдался богатым на инфоповоды, связанные с ИИ. Были и громкие анонсы, и полезные инструменты, и просто баловство с мемами и эмодзи. Вспоминаем, что интересного мы писали про нейросети и искусственный интеллект.
🔵 В начале месяца все обсуждали HeyGen — нейросеть, которая перевела на английский и переозвучила мемы нулевых. Наконец-то весь мир может проникнуться речью идущего к реке и преисполниться в своем познании.
🔵 Когда не хватает слов, на помощь приходят эмодзи. Когда не хватает эмодзи из стандартного набора, можно нагенерировать своих с помощью EmojiGen.
🔵 LlamaIndex — отличный инструмент для тех, кто много работает с нейросетями и большим количеством данных в разных форматах. Помогает сильно упростить и ускорить работу.
🔵 Google представила ИИ-помощника Bard. Это пока только эксперимент, но он уже много чего умеет — как минимум заголовки к постам писать.
🔵 Stability AI выпустила Stable Audio — нейросеть для генерации музыки и звуковых эффектов. Ее обучали на библиотеке стоковых аудио, поэтому результаты ее работы можно спокойно использовать в коммерческих видео, не боясь проблем с авторскими правами.
Ставьте любимые реакции, если такие посты-дайджесты полезны, и мы будем публиковать их чаще! 🔥
Почему резюме смотрят, а на собеседования не зовут?
Рассказываю с точки зрения того самого работодателя, который смотрит и не зовет. Буквально сижу и рассказываю в своем новом видео про то, как правильно составить резюме. Может, какие-то вещи покажутся очевидными, вроде того, что надо писать про достижения и отправлять сопроводительное письмо. Но поверьте моему опыту — многим это абсолютно не очевидно, сколько бы здравого смысла в этих рекомендациях не было.
И даже если человек написал сопроводительное, не факт, что от него будет толк. Смотрю на вас, выпускники IT-курсов, которым на последнем занятии дали шаблон и сказали разослать по разным компаниям. Узнаю эти письма с первых строчек. Про это в видео тоже будет, как и про собаку из заголовка.
В общем, жду вас NikolayValiottiLEFTJOIN">на канале Left Join и буду очень рад вашему фидбеку (все-таки первое видео, спустя год, это немного волнительно)!
Обучение нейросетей — долгий и сложный процесс, требующий терпения и огромных массивов данных… или нет?
Ресурсоемкость — одна из больших проблем в работе с ИИ. Большое количество данных для обучения, множество итераций, огромные вычислительные мощности — принято считать, что все это необходимо для эффективной тренировки нейросетей.
🔵Сотрудники fast.ai — некоммерческой организации, исследующей ИИ, — обнаружили, что иногда нейросети достаточно одного-двух примеров данных, чтобы выявить закономерности и начать давать правильные ответы.
🔵Они готовили нейросеть для соревнования, где участники должны были ответить на сложные научные вопросы, созданные LLM (большой языковой моделью). Для обучения использовали созданный человеком сет из 200 вопросов. Во второй же итерации обнаружили резкое уменьшение числа ошибок, словно нейросети было достаточно пары примеров, чтобы выявить закономерности. Это видно и на графиках — резкое падение числа ошибок отмечает начало каждой новой итерации.
Обычно такой результат — следствие бага или переобучения, но не в этот раз
Команда проекта пришла к выводу, что нейросеть и правда смогла очень быстро обучиться, хотя fast.ai готовы рассмотреть альтернативные гипотезы.
🔜 Целиком читайте их исследование в блоге — особенно интересны выводы. Кажется, что быстрое обучение ИИ пойдет всем только на пользу и позволит сэкономить силы, время и деньги. Но долгое обучение = более предсказуемый результат, а слишком быстрый процесс рискует выйти из-под контроля. К тому же нейросетям для тренировки все еще нужно много данных, пусть и только на первых этапах.
P.S. А знаете, что еще не требует терпения или огромных массивов данных? Голосование за сторис LEFT JOIN по ссылке! Будем рады, если отдадите нам свой голос — обещаем не спамить и делиться только полезным.
DALL·E 3 станет лучше рисовать руки, но это в ней не самое интересное
На сайте Open AI появился анонс новой версии DALL·E, которая станет доступна платным пользователям в октябре. Обещают, что качество изображений улучшится, а работать с ней станет проще. Больше не придется ломать голову над составлением правильных промптов — нейросеть станет лучше понимать запросы, написанные «обычным» языком. При этом DALL·E научится рисовать точно по заданию пользователя, не упуская никаких деталей.
Это стало возможно благодаря тому, что DALL·E 3 работает на ChatGPT, которая, как обещает Open AI, даже поможет писать промпты.
Внимание также привлекают новые ограничения перед DALL·E 3. Судя по всему, Open AI делает шаги к решению некоторых этических вопросов, связанных с нейросетями.
Что нового?
🔵 Как и предыдущие версии, DALL·E 3 откажется генерировать все, что связано с жесткостью, темами для взрослых и разжиганием ненависти.
🔵 Новая версия не будет рисовать публичных личностей. Помните, как завирусилась картинка с Папой Римским в модной куртке? DALL·E 3 в такую историю не попадет.
🔵 И наконец, она не будет копировать стили конкретных художников. Так Open AI отреагировала на частые жалобы, что нейросеть ворует работы художников.
Кроме того, Open AI работает над инструментом, который поможет идентифицировать изображения, сгенерированные DALL·E 3.
Выглядит интересно, так что ждем выхода, чтобы посмотреть, как это все будет работать на практике!
Вы смотрели «Мир Дикого запада»?
Это сериал (изначально фильм) про парк развлечений, населенный андроидами. Там гости парка могли полностью погрузиться в атмосферу Дикого запада и почувствовать себя настоящими ковбоями. Это было возможно благодаря высоким технологиям и развитому ИИ роботов парка.
Ничего похожего в реальной жизни (пока) нет, но есть ChatGPT и фантазия — а с их помощью вполне можно попасть хоть на Дикий запад, хоть в древний шумерский город Ур.
🔜 Как это сделать, рассказывает историк и преподаватель Бенджамин Брин. Заодно он показывает, что ИИ — не враг, который добьет гуманитарные науки, а удобный инструмент.
🔵 Он предлагает студентам с помощью нейросетей смоделировать реальные исторические ситуации. Например, разговор с Эа-Насиром — шумерским торговцем, вошедшим в историю, потому что ему была адресована самая древняя известная нам жалоба покупателя. Или же можно почувствовать себя аптекарем в Париже в разгар эпидемии чумы. В итоге получается что-то вроде текстового квеста.
🔵 Студентам надо не просто поговорить с нейросетью про качество меди Эа-Насира, но и проверить историческую достоверность ее ответов, а затем написать эссе по итогам этой работы. По словам Брина задания понравились даже самым невовлеченным студентам, вечно скучавшим на задних партах. Его впечатлила и креативность. Одни и те же ситуации развивались по-разному: в «чумном» сценарии кто-то изобрел лекарство, кто-то сбежал в леса, а кто-то возглавил крестьянское восстание. Были и неудачные случаи: один студент пожаловался, что в его «симуляции» появились говорящие крысы.
На фоне частых разговоров про то, как нейросети отнимают рабочие места и обесценивают людской труд, приятно видеть подобные небанальные способы использовать их во благо. Верим, что со временем таких кейсов станет только больше!
ChatGPT скоро сможет сделать комплимент вашему селфи. Вслух
OpenAI расширяет функционал ChatGPT — нейросеть научили видеть, слышать и говорить. То есть, скоро в нее можно будет загрузить изображение или голосовое сообщение, а в ответ получить не только текст, но и аудио.
В ближайшие две недели обновление станет доступно для подписчиков ChatGPT Plus и корпоративных клиентов. OpenAI обещает, что вскоре новые функции сделают доступными и для остальных категорий пользователей, включая разработчиков.
Что же с ними можно будет сделать?
🔵 Загрузить одно или несколько изображений и дополнить их текстовым промптом. Например, попросить проанализировать график в презентации, решить уравнение в учебнике или просто прокомментировать любую произвольную фотографию.
🔵 Поговорить с нейросетью — она расшифрует ваши слова с помощью системы распознавания речи Whisper, сгенерирует ответ и озвучит его одним из пяти доступных голосов.
С каждым обновлением взаимодействие с нейросетями становится все более естественным и человечным. И получается вот такой ламповый киберпанк, в котором робот рассказывает сказки или составляет рецепты по фотографии полки холодильника!
Разве может робот написать симфонию? Теперь да
Нейросетями, генерирующими аудио, вряд ли кого-то удивишь (мы про них уже писали здесь и здесь, например), но новая разработка Stability AI заслуживает внимания. Это потенциально удобный и полезный инструмент для контент-мейкеров.
🔵 Stable Audio — диффузионная модель, которая создает музыку и звуковые эффекты по текстовому описанию. Ее натренировали на датасете из более чем 800 000 файлов, представленных AudioSparx — компанией, продающей стоковые аудио.
🔵 Вопрос авторских прав, когда речь заходит о ИИ-контенте, стоит остро — спросите у художников, которые борются против обучения нейросетей на их работах. Использование материалов AudioSparx для тренировки Stable Audio этот вопрос снимает, и ее творения можно использовать в коммерческих целях, как любую стоковую музыку.
🔵 Stability AI подчеркивают, что они преодолели одно из основных ограничений диффузионных моделей — обычно, обучение на 30-секундных треках ведет к генерации таких же 30-секундных треков. Stable Audio же позволяет пользователю самому выбрать длину сгенерированной дорожки аудио, и задать подробное текстовое описание, которому она следует весьма точно. Она создает не только музыкальные композиции, но и звуковые эффекты — например, шум людного кафе.
🔜 Stability AI предусмотрели три тарифа. Бесплатный позволяет создать 20 треков в месяц длиной до 45 секунд, которые нельзя использовать в коммерческих целях. На платном за 11,99$ можно создать аж 500 треков до 90 секунд, разрешенных к использованию в рекламе. Условия сотрудничества на корпоративном тарифе обсуждаются индивидуально.
На сайте модели предупреждают, что из-за большого трафика могут быть перебои в работе, хотя нам ничто не помешало создать пару тестовых мелодий!
Еще один шаг на пути к работе в зарубежной IT-компании
Если ваши хард-скилы на самой высокой высоте, то от работы в европейской или американской компании вас может отделять лишь языковой барьер. Курс «Английский для аналитиков» от Яндекс Английского — отличная возможность, чтобы его преодолеть, если вы хотите изменить свою профессиональную жизнь и присоединиться к международной команде!
Программа обучения сфокусирована на рабочих кейсах и навыках, необходимых для успешного общения с интервьюерами и коллегами:
🗣️ Самопрезентация
Научитесь рассказывать о своей роли, задачах, сфере ответственности на поведенческом интервью и в неформальной беседе.
🙌 Работа в команде
Овладейте навыками стендапа, планирования спринтов, и научитесь демонстрировать навыки коллективной работы на собеседованиях.
👨💻 Общение с заказчиками и исполнителями
Научитесь собирать требования у стейкхолдеров и формулировать задачи для разработчиков.
📈 Презентация результатов работы
Получите опыт выступлений на митапах и неформального общения с коллегами из вашей отрасли.
📝 Обсуждение решений по проекту
Овладейте навыками генерации и аргументации идей, получите опыт активного участия в мозговых штурмах.
🚀 Рефлексия и самоанализ
Овладейте навыками проведения ретроспектив и ревью, научитесь давать ответы на сложные вопросы.
Запишитесь на бесплатную консультацию и кураторы Яндекс Английского от Практикума помогут вам определить ваш уровень владения языком и расскажут подробнее о программе обучения.
But for now, let’s call it a day!
#реклама
LlamaIndex — фреймворк для работы с LLM и данными разных форматов
Он упрощает как обучение нейросетей, так и обработку больших объемов информации. В него можно загружать таблицы, тексты, презентации, графики, изображениями, API, веб-страницы — практически любые виды данных. LlamaIndex индексирует и анализирует их, чтобы ускорить поиск информации и интеграцию с внешними приложениями и нейросетями.
Что это дает на практике?
🔵 Удобный интерфейс для взаимодействия с LLM. Можно загрузить в LlamaIndex документ, а затем попросить краткое содержание или задать конкретный вопрос. Фреймворк обработает данные и запрос пользователя, передаст их нейросети, а та уже выдаст ответ.
🔵 Объединение разных источников информации и моделей в одну систему. Задать вопрос ChatGPT можно и без дополнительных инструментов, но если у вас много разных видов данных, удобнее собрать их в кучу в единый индекс, который и создает LlamaIndex.
🔵 Структурированные данные для обучения LLM.
В общем, LlamaIndex — удобный и гибкий инструмент, который может упростить работу, если вы часто экспериментируете с нейросетями.
Уходим в WhatsApp?
Теперь у WhatsApp (принадлежит компании Meta, в РФ признанной экстремистской) тоже есть каналы! Новая фича доступна не везде, а в 150 странах, среди которых России (пока?) нет. На первый взгляд функционал такой же, как в Telegram, но есть отличия.
Ключевое в их позиционировании— это особое внимание защите данных:
🔵 Админы не смогут видеть номера телефонов подписчиков, подписчики не могут видеть номера админов, и никто не может видеть, на какие каналы подписаны другие люди.
🔵 Сообщения удаляются из каналов через 30 дней.
🔵 Владельцы каналов могут скрыть их из каталога, ограничить список подписчиков и запретить делать скриншоты и пересылать сообщения.
Кроме тотальной секретности, есть и другие особенности:
🔵 Каталог каналов с фильтрами по темам, странам, уровням активности и дате создания.
🔵 У каналов в приложении своя вкладка, отдельная от чатов.
🔵 Комментировать посты нельзя, но можно ставить реакции-эмодзи.
🔜 Функция появилась в WhatsApp в июне, сначала в 9 странах, теперь вот в 150 и, возможно, скоро доберется и до России. Но переносить туда @leftjoin мы, конечно, не планируем — Telegram все-таки роднее!
Если проанализировать тернии, до звезд доберетесь быстрее!
Посмотрите на фотографию. Вот так на самом деле выглядит Млечный путь, без фильтров и прочих ухищрений. Когда вы в последний раз видели нечто подобное? Если вы живете в городе, велика вероятность, что это было давно, да и вообще — редкость.
Всему виной световое загрязнение. Домашние лампы, уличные фонари и фары машин делают жизнь удобнее и безопаснее, но создают над городами световые купола. Последствий для людей и окружающей среды много, и одно и из них — то, что большинство из нас не могут ночью из окна увидеть звездное небо, если только не уедут куда-нибудь подальше.
Именно это и пришлось сделать Луисону Дюмону, основателю компании Bitproof. Во время отдыха в Португалии он решил полюбоваться звездами.
Чтобы это сделать, он:
🔵 наложил друг на друга карты португальских отелей и светового загрязнения,
🔵 нашел отель в крошечной деревушке,
🔵 посреди ночи поехал еще дальше, туда, где согласно его карте, степень освещенности по шкале Бортля соответствовала классу 3 («Деревенское небо»).
И только после этого Дюмон смог насладиться видом раскинувшего над головой Млечного пути. Вот так технологии отняли у нас возможность смотреть на звезды по ночам, и технологии же ее вернули.
Это не единственное и не самое серьезное следствие светового загрязнения. Оно вредит психическому и физическому здоровью людей и животных и наносит серьезный урон целым экосистемам. Некоторые государства уже начали борьбу с ним на законодательном уровне. Но, пока оно никуда не делось, простым людям остается искать темные уголки для любования звездами с помощью уловок вроде той, что придумал Дюмон.
Кстати, он выложил свою карту в открытый доступ! Если готовы повторить его подвиг и отправиться в глушь, чтобы посмотреть на Млечный путь, теперь у вас есть для этого удобный инструмент.
На вопрос «Чем занимается инженер данных?» можно ответить по-разному
Можно совсем кратко — он выстраивает архитектуру данных, решает проблемы заказчика и делает его жизнь лучше.
А можно подробнее и с наглядным примером
BetPawa — беттинговый сервис, который много работает с OLTP, обработкой транзакций в реальном времени. Компания столкнулась с тем, что ее DWH не справляется с постоянным потоком данных. Они обрабатывались долго и не всегда корректно отображались в отчетах, а само хранилище работало медленно, ненадежно и требовало слишком много ресурсов.
Мы спроектировали архитектуру для заказчика и выстроили новые процессы инжиниринга. В результате — быстрое, гибко масштабируемое DWH, которое работает намного производительнее и уменьшает количество нестыковок в данных.
🔵 Стек: ClickHouse, Kafka, Redash
🔵 Результат: довольный заказчик и сильный кейс в портфолио
🔵 Подробности: на сайте
Именно с такими задачами работают наши инженеры — иногда сложными, иногда очень творческими, но всегда интересными.
Кстати, сейчас у нас открыта вакансия Data Engineer, и у вас есть возможность присоединиться к нашей команде!
Данные 7 млн клиентов биотехнологической компании 23andme попали в интернет
23andme — компания из США, больше всего известная тем, что делает ДНК-тесты по образцам слюны. Клиент отправляет материал и получает полный генетический анализ о предрасположенности к заболеваниям и отчет о своем происхождении. То есть он сможет узнать на сколько процентов он итальянец, англичанин или китаец.
Теперь узнать это могут еще и посетители сомнительных сайтов в даркнете 👀
Несколько дней назад базы данных 23andme попали в сеть. Продают информацию о происхождении, фенотипе, состоянии здоровья и возможных родственниках.
Первыми под удар попали около 300 000 клиентов китайского происхождения и 1,3 млн — еврейского. Сейчас сообщают о том, что доступны данные 7 млн человек — это половина всех, кто пользовался услугами 23andme.
А что говорят представители компании?
1️⃣ С их стороны утечек не было.
2️⃣ Злоумышленники собрали информацию с помощью подстановки учетных данных и скрапинга. То есть взяли слитые логины и пароли с других сайтов, а они подошли к учеткам 23andme. Дальше через взломанные профили пользователей собирали информацию о членах семьи.
3️⃣ Не ставьте одинаковые пароли на разных сайтах и вообще меняйте их почаще.
The Record отмечает, что, зная ID клиента, можно открыть его профиль даже без учетных данных. Результатов генетических тестов там не будет, но будет фотография, дата рождения и место жительства.
Сколько точно аккаунтов взломали, пока неизвестно. Но если доступ к миллионам аккаунтов действительно получили через подбор паролей и скрапинг, то история получается поучительная и довольно мрачная. Даже не проникая глубоко в базу данных, хакер может собрать огромный массив очень важных данных. И все потому что главной уязвимостью любой системы, даже самой защищенной, остается человек.
А вы уже перешли на Polars?
Pandas долго была незаменимым инструментом для аналитиков и дата-сайентистов, но скорости работы ей не хватает, а памяти она требует достаточно. Даже выход Pandas 2.0 не смог решить эти проблемы, зато смогла Polars. Или нет?
Коротко про Polars
🔵 Это open source библиотека для обработки больших массивов данных на Python и Rust. Написана на Rust и основана на Apache Arrow.
🔵 Polars задействует все ядра компьютера для параллельных вычислений. Благодаря этому она более эффективно использует ресурсы компьютера, чем Pandas, и работает быстрее. На этом еще остановимся подробнее.
🔵 Два API: eager и lazy. Первый выполняет операции в том порядке, в котором они написаны в коде. Второй оптимизирует последовательность выполнения так, чтобы она была максимально эффективной и не перегруженной лишними вычислениями.
Polars вышла в 2020 году. За это время она успела завоевать популярность, но до сих пор не перестала попадать в статьи «топ новых инструментов для аналитиков». Создатель Polars хотел разработать инструмент, соответствующий современным требованиям и подходам к работе с данными. Библиотека писалась с нуля так, чтобы добиться максимальной производительности на одной машине.
🔵 Polars требует в разы меньше памяти, чем Pandas. Последней нужно, чтобы объем RAM был в 5-10 раз больше датасета, а первой — только в 2-4 раза.
🔵 Polars действительно «blazingly fast», как и обещает на сайте. Она быстрее Pandas и в сравнении с остальными подобными инструментами устойчиво держится в топе по скорости.
🔵 Субъективно, но есть мнение, что Polars достаточно похожа Pandas, чтобы перейти на нее было легко, но достаточно отличается, чтобы быть удобнее. Вот еще статья на русском, в которой можно посмотреть, как Polars выглядит на практике.
В общем, мы считаем, что Polars мировую любовь заслужила не зря. А что думаете вы? 👀
Spotify переводит подкасты с помощью ИИ
Помните, недавно писали про нейросеть HeyGen, которая перевела на английский и переозвучила несколько классических мемов из нулевых?
🔵 Spotify хочет то же самое сделать со своими подкастами. Сервис использует ИИ, чтобы перевести и переозвучить речь участников, сохраняя их голоса и интонации. Пока новая функция доступна для ограниченного числа подкастов и языков: уже доступен испанский, скоро присоединятся французский и немецкий.
🔜 На сайте сервиса выложили видео, по которому можно оценить первые результаты. По-испански мы тут не говорим, поэтому не можем определить, насколько качественным получился сам перевод, но голоса действительно похожи. Тонкости работы ИИ Spotify не раскрывает, только указывает, что использовали технологии OpenAI.
🔵 И список шоу, и перечень языков планируют со временем расширять. И неудивительно: это способ охватить большую международную аудиторию без затрат на перевод и дубляж.
Интересно, начнут ли таким образом переозвучивать фильмы и сериалы? Может быть, через пару лет, когда будем смотреть сиквел «Барби», Марго Робби в нем будет говорить своим родным голосом.🔥
Актуальная BI-стратегия за 20 часов
Столько длится курс с емким названием «Разработка BI-Cтратегии». Его ведет Александр Бараков, который больше 10 лет разрабатывает и внедряет BI-системы. Сейчас в Luxoft, а до этого — в Tinkoff Bank, Банке России, X5 Retail Group и не только.
🔵На курсе он отделяет зерна от плевел, а рабочие методики — от модных, но неэффективных, рассказывает про лучшие практики, полезные инструменты и кейсы из своего богатого опыта. Все это поможет участникам упорядочить свои знания и разработать не только BI-стратегию для своего бизнеса, но и план по ее внедрению и развитию.
Как пишут в отзывах: «Почти пошаговая инструкция, как внедрять BI».
🔵Будет полезно, главное, подготовиться, что программа насыщенная: 10 двухчасовых занятий с практическими заданиями три недели подряд — с 30 октября по 22 ноября. Надо заранее выделить время, чтобы погрузиться в учебу.
И да, содержание курса подробно описано на его странице, никаких котов в мешке! Сразу можете оценить, надо ли это вам. Знакомьтесь с программой и записывайтесь по ссылке.
Есть ли в 2023 спрос на аналитиков? Смотрим на hh.ru
Рома @revealthedata опубликовал статистику по вакансиям для аналитиков. Рынок выглядит как будто здорово: и объявлений стало больше, и зарплаты подросли, правда, не у всех.
🔵 Больше всего работодатели нуждаются в Data/Product-аналитиках — количество вакансий увеличилось на 66%.
🔵 Зарплаты сильнее выросли у бизнес-аналитиков — на 7%. Надо учесть, что данные с hh.ru, где три четверти работодателей не указывают уровень дохода.
🔵 Хорошие новости для молодых специалистов — предложений для младших аналитиков стало на 59% больше, зарплаты у них выросли на 10%, а у сеньоров — всего на 5%, кстати.
🔜 Дашборд с данными за три года — для тех, кто хочет покопаться поподробнее.
Какие выводы можно сделать?
Рынок растет, а спрос на специалистов разных уровней большой — кажется, если ищете работу в этой сфере, проблем быть не должно…
А если проблемы таки есть — завтра расскажу, в чем может быть дело.
«Отличное заведение, жаль, что выгнали!»: что пишут в отзывах на общепит на Яндекс Картах
Пользователи Яндекс Карт ежедневно добавляют по 37 тысяч отзывов на кафе, бары и рестораны по всей стране. Всего за 10 лет накопилось уже больше 15 млн откликов на 220 тысяч различных заведений.
Команда сервиса взяла всю эту массу данных и уложила в несколько графиков, чтобы понять за что чаще всего хвалят и ругают рестораны и кафе. Если вы ресторатор, может быть ценно узнать, на что обращают внимание посетители. А если нет, то можно просто сделать несколько занятных выводов!
🔵 В положительных отзывах чаще всего упоминается слово «вкусно» и его производные, а в отрицательных — «невкусно». Логично.
🔵 Если посмотреть на самые частотные слова по категориям заведений (бары, кафе, столовые и так далее), получается, что несчастливые посетители общепита несчастны плюс-минус одинаково. Что рестораны, что фастфуды ругают за долгое ожидание. А вот хвалят по-разному: за кухню, атмосферу, скорость обслуживания и музыку.
🔵 Вопреки мнению, что люди чаще пишут о негативе, пользователи ставят плохие оценки в 5,5 раз реже, чем хорошие. Зато отрицательные отзывы в среднем длиннее. Самый объемный составил аж 13 тысяч знаков.
🔵 «Отстой» — любимая характеристика для общепита от мужчин постарше.
Отдельного внимания заслуживают скрины в начале статьи. Признайтесь, захотелось заглянуть в заведение, про которое кто-то написал: «Красиво. Бывают драки».
Полезное про данные и нейросети: что писали в сентябре
Мы часто делимся интересными лайфхаками, гайдами, инструментами и приложениями, которые пригодятся тем, кто работает с данными. Решили собрать недавные посты с полезностями в этом дайджесте для тех, кто пропустил или потерял ссылку!
🔵 Огромный гайд по SQL — пригодится в первую очередь новичкам, но и опытным специалистам будет что оттуда почерпнуть.
🔵 Не менее огромный гайд по обработке данных — статья рассказывает, как и зачем их упорядочивать, очищать и не наделать при этом ошибок.
🔵 LlamaIndex — фреймворк, который объединяет нейросети и ваши данные — причем, в любых форматах.
🔜 Бонус: почему мы не видим звезды в городах + карта мест, где вы все-таки сможете на них посмотреть. Не такой прикладной материал, как остальные в подборке, но важно иногда отрывать взгляд от ноутбука.
DataLens вышел в open source
Если вдруг вы впервые об нем слышите, это BI-инструмент от Яндекса, который используют и внутренние сервисы вроде Кинопоиска, и внешние компании (например, мы в Valiotti Analytics однажды применяли его в клиентском кейсе).
С этого дня DataLens входит в наш топ-4 open source инструментов вместе с Metabase, Superset и Redash. Пользуясь случаем, погрустим, что у последнего с тех пор, как он вошел в Databricks, появились проблемы с обновлениями.
Но долго не будем о грустном, ведь главная новость на сегодня в том, что исходный код DataLens выложили на GitHub!
🔵 DataLens изначально создавался под внутренние задачи Яндекса. Так как у него много сервисов с разными продуктами, нужен был гибкий инструмент, который можно подстроить под себя. Благодаря этому применение DataLens нашли банки, ретейлеры, логисты, да и кто только не.
🔵 Теперь, когда он вышел в open-source, подкрутить его под свои задачи стало еще удобнее.
🔵 Его можно интегрировать с другими open source продуктами Яндекса, например, с системой управления базами данных YDB или YTsaurus.
Подробнее о возможностях инструмента читайте на Хабре и заглядывайте к Роме Бунину в @revealthedata. Он делает много контента про данные и вообще-то официальный амбассадор DataLens! Про то, как с ним работать, Рома пишет крутые статьи, проводит обучающие вебинары и вместе с коллегами разрабатывает курсы.
250 лет визуализации данных
На Tableau Public разместили инфографику дизайнера Катерины Противенской которая отобразила главные вехи в истории датавиза. Мы решили дополнить ее полезными ссылками — на случай, если вам захочется почитать про разные способы визуализации подробнее.
Про все-все точки на таймлайне рассказывать не стали — вряд ли нужно объяснять, что такое линейный график или столбчатая диаграмма. Остановились на тех, которые показались неочевидными: то есть, большинство из вас их, скорее всего, их видели, но могут не знать названия или особенности применения.
📍 Chart of Biography — таймлайн, созданный в 1765 году ученым Джозефом Пристли, с которого и началась история современного датавиза. Это не просто линия с датами: он отметил на ней сроки жизни видных исторических фигур, при этом разделив их на несколько групп — от политиков до поэтов.
📍 Choropleth map, она же фоновая картограмма, на которой цветами разной интенсивности отображают распределение показателя на местности: уровень достатка, заболеваемости, образования и так далее.
📍 Polar area или coxcomb chart — разновидность пайчарта. Когда-то с помощью таких диаграмм общественная деятельница Флоренс Найнтингейл убедила правительство Великобритании в необходимости реформы здравоохранения, а сейчас так частенько изображают «колеса жизненного баланса».
📍 Radar — диаграмма для сравнения нескольких показателей на круглом поле с прямыми «спицами», которые заменяют ось Y. Этот способ визуализации появился раньше, чем сам термин «радар», и также известен под названием spider web chart.
📍 Parallel coordinates plot — линейный график для сравнения нескольких сущностей по множеству показателей. Как радар, только не круглый.
📍 Sankey diagram отображает изменение показателя под действием различных факторов. Ее создатель, Мэттью Сэнки, таким образом проиллюстрировал энергоэффективность парового двигателя. С ее помощью можно демонстрировать сложные процессы, на которые влияет множество переменных. Например, вторжение Наполеона в Россию.
📍 Arc diagram и более поздняя chord diagram — эффектные способы показать связи между разными сущностями на линии или в круге.
📍 Box plot — график с занятным русским названием: ящик с усами. На нем показывают сразу несколько состояний переменной: минимум, максимум, медиану и все, что между ними. Его плюс в том, что все эти данные умещаются на небольшой площади.
📍 Sparkline и slopegraph — две разновидности линейных графиков. На спарклайне отображают изменение одного показателя либо без осей координат совсем, либо с ограниченными данными на них, чтобы показать динамику без лишней информации. Слоупграф демонстрирует разницу между всего двумя точками (как правило, датами) и чаще всего применяется, когда надо сравнить «было — стало».
📍 Treemap — визуально эта диаграмма не имеет ничего общего с деревьями. Она изображает иерархическую (древовидную) структуру данных в виде сетки прямоугольников. То есть в фигуру побольше вложены относящиеся к ней фигуры поменьше.
📍 Bulletgraph — шкала, которая используется для оценки показателей и сравнения «план — факт». Это компактная альтернатива гистограммам или столбчатым графикам, на которой отображаются текущее и целевое значения показателя, а также качественная оценка — считается ли текущее значение высоким, средним или низким. То есть на одном столбце умещаются аж 5 метрик.
📍 Streamgraph — это сын маминой подруги, обычной area chart или областной диаграммы. Суть ровно та же, но центр диаграммы смещен вверх по оси Y, чтобы придать закрашенным областям более плавную форму. Главный минус — на таких графиках нельзя показать одновременно положительные и отрицательные значения.
Надеемся, что было полезно! Сохраняйте пост себе, чтобы не потерять все эти любовно отобранные ссылки 💙
Google Bard: умный ИИ, который поможет вам в любых делах
Google наконец-то представил экспериментального ИИ-помощника Bard, про которого мы уже писали весной. В его основе — языковая модель PaLM 2, которая умеет искать и анализировать информацию в интернете и в сервисах Google: в почте, среди документов на диске, на Youtube и так далее.
Это позволяет Bard выполнять довольно сложные задачи:
🔵 найти на Диске ваше резюме и подготовить сопроводительное письмо;
🔵 составить маршрут путешествия, выбрав дату, рейс, отель и даже видео Youtube, чтобы убить время в дороге;
🔵 написать текст по запросу и перепроверить его достоверность. Этого навыка многим людям не хватает, а у ИИ аж специальная кнопка есть;
🔵 накодить вам что-нибудь на любом языке программирования;
🔵 вести диалог, запоминая контекст. Доступом к переписке можно поделиться с другим человеком.
🔜 Еще примеры задач и переписок с ИИ — в блоге Google.
Возможностей масса, но пока в экспериментальном формате. То, что Bard — это эксперимент, Google подчеркивает отдельно и убеждает, что он будет становиться лучше благодаря пользовательскому фидбеку.
Bard уже говорит по-русски, но в России пока не поддерживается. Чтобы пообщаться с ним, понадобится VPN.
🔥 Кстати, заголовок к этому посту как раз Bard и предложил. Возможно, не самый впечатляющий вариант, но он старался!
Еще больше эмодзи на все случаи жизни
Вопрос, которым вы вряд ли задавались, но мы все равно нашли ответ: сколько существует эмодзи? Как оказалось, в Unicode их сейчас больше 3000, и почти каждый год добавляются новые. Несмотря на такое разнообразие, временами их все равно не хватает. Иногда кажется, чтобы идеально выразить мысль, нужен эмодзи с танцующей крысой.
Или магистром Йодой.
Или сиба-ину в шляпке.
К счастью, благодаря нейросетям проблема решена
EmojiGen — приложение, которое генерирует эмодзи по запросу. Оно состоит из двух компонентов:
🔵 Stable Diffusion, натренированная на эппловских эмодзи, создает изображение,
🔵 Rembg удаляет фон.
В результате получаются кастомные эмодзи, которые вы можете использовать в Slack или здесь в Telegram.
🔜 Приложение не умеет создавать анимированные эмодзи, да и обычные иногда генерирует неожиданные (даже в ответ на довольно очевидные промпты). Впрочем, почти всегда после пары попыток получается что-нибудь интересное. А еще это приложение с открытым исходным кодом, так что при желании можно попробовать подкрутить его под себя!
Вот бы платили каждый раз, когда вы отвлекаетесь на игры…
Думаете, просто это мечты? А вот и нет!
Тинькофф добавил в свое приложение игру «Ряд наград». Механика — всем знакомые «три-в-ряд». У вас есть поле с разными элементами, собираете три или больше одинаковых рядом по горизонтали или вертикали и зарабатываете очки.
🔵 Игроки не просто убивают время в пробке или на скучном совещании, но и соревнуются за призы от банка и партнеров. За набранные очки выдают кэшбэки, скидки, промокоды, денежные вознаграждения до 300 000 рублей и авиабилеты. В сумме призовой фонд — больше 20 000 000.
🔵 Головоломка будет доступна в приложении до 1 октября 2023 года, а 12 октября еще и пройдет розыгрыш призов по 500 000 рублей.
🔜 Как это все выглядит, можно посмотреть и даже пощупать на сайте Тинькофф!
Реклама. АО "Тинькофф Банк", ИНН 7710140679, ERID 2Vtzqx3FcE5
Идея, чем заняться сегодня вечером: добавить в календарь доклады, которые надо послушать на Yandex Scale 2023
Yandex Cloud приглашает на конференцию, посвященную новым сервисам платформы, новостям индустрии и облачным технологиям в целом.
Yandex Scale 2023 будет идти 2 дня:
🔵 25 сентября — онлайн-открытие;
🔵 26 сентября — основная часть.
В расписании мероприятия больше 30 докладов от экспертов компании по темам Data Platform, Infra + K8s, Security, Digital Workplace, Serverless и ML. Смотреть можно онлайн и оффлайн. Если выберете второй вариант, есть шанс лично познакомиться с выступающими и задать все свои вопросы. А после — посетить afterparty!
Программа очень насыщенная, так что мы рекомендуем заранее ознакомиться, выбрать интересные доклады и добавить в календарь.
🔜 Ну, и регистрироваться, конечно!
Реклама. ООО "Яндекс" ИНН 7736207543
Klack: ASMR для пользователей Mac
Пока все обсуждают презентацию Apple и цену на новый iPhone, мы вспомнили про классное приложение на Mac!
🔜 Если вас по какой-то причине не устраивает звук вашей клавиатуры (или у вас и вовсе та самая многострадальная «бабочка» из 2016-2019 годов), то Klack создан специально для вас.
🔵 Функция у него одна — генерировать и выдавать через динамики щелчки механических клавиш во время печати. Можно настроить звучание и громкость для достижения идеального ASMR-эффекта.
🔵 Приложение платное и, судя по отзывам, стоит своих денег: пользователи пишут, что звук получается реалистичный. Вроде мелочь, но она приятно разнообразит рабочий процесс — особенно если вам приходится много печатать.
А как вам идея такого приложения? Ставьте реакцию 🆒, если задумались о покупке!
Нейросеть, которая дала новую жизнь мемам нулевых
Все выходные в твиттере происходило неожиданное возвращение 2000-х. Появились сотни, если не тысячи твитов, которые резко набрали популярность и это… мемы, которые стали своего рода классикой. Да-да, те самые видео «идущего к реке», «женщины, кандибобер которой — не то, о чем вы подумали», а также «отзыв на столовую с чаем, который делает из тебя человека». Только на английском!
Как это случилось?
Внимание пользователей было буквально приковано к Hey Gen — сервису, который может переводить короткие видео (30-50 секунд) с одного языка на другой (более 100 языков и акцентов). И если бы только переводить, тут нас уже совершенно не удивишь. При переводе голос, интонация и мимика спикера сохраняются с пугающей реалистичностью.
Поэтому если вы не видели оригинал (как я, когда наткнулся на один из роликов), то понять в чем прикол не получится!
Что еще может сервис?
Да чего только он ни может! Помимо перевода видео, можно создавать аватары (то есть полностью менять внешность спикера, оставляя лишь оригинальный голос) или наоборот загружать свое фото и создавать видео-визитку на его основе.
Как и на все, что связано с нейросетями, на это можно смотреть, как с позитивной ❤️, так и с негативной стороны 🙈.
А что думаете вы? Оставляйте реакции!