Делюсь новостями из мира аналитики и вредными карьерными советами;) 8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄♂️ Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).
Arch.Conf by Sber возвращается! 🚀
17 декабря мы снова собираем лучших специалистов в области ИТ-архитектуры на второй конференции от Сбера.
Регистрация уже открыта!
Вас ждут два мощных стрима:
🔹 Стрим "Методологические подходы". Здесь вы узнаете всё о современных архитектурных концепциях, методах и фреймворках. Эксперты поделятся своим видением эффективного управления ИТ-архитектурой.
🔹 Стрим "Практический опыт и кейсы". На этом треке обсудим реальные примеры решений корпоративной и Solution-архитектуры, а также обменяемся опытом по выстраиванию процессов и использованию передовых инструментов.
А также - актуальные дискуссии, презентации новых продуктов и технологий, нетворкинг с коллегами из более чем 100 ведущих ИТ-компаний России.
Не упустите шанс стать частью главного события года Сообщества ИТ-архитекторов Сбера!
Количество очных мест ограничено! Выбирайте удобный формат и проходите регистрацию на сайте.
Research Insights Made Simple #6 - Interview with Nikolay Golov about data platforms (Рубрика #Data)
И, продолжая тему систем хранения данных, я решил сегодня поделиться новым выпуском подкаста про инсайты. В этот раз ко мне в гости пришел Николай Голов для того, чтобы обсудить то, как строить дата платформы в 2025 году:) Коля исполняет роль head of data engineering at ManyChat, а до этого он был head of data platform в Авито. Коля знает все о том как построить OLAP и OLTP системы, интенсивно работающие с данными. Выпуск доступен в виде подкаста на Ya Music и Podster.fm
За время подкаста мы обсудили темы
- Как развивалась карьера Коли в разных компаниях и как он стал преподавать базы данных параллельно с основной работой
- Как можно строить платформы данных (централизованно, гибридно и децентрализованно)
- Как выглядят принципы федерализации данных (аля data mesh) в теории
- Во что этот подход превращается на практике
- Как строить дата платформы в стартапах, средних, а также крупных компаниях в 2025 году
- Что не так с классическими базами данных (Postgres и иже с ним)
- Что не так с MPP базами данных (Vertica, Greenplum, ClickHouse, ...)
- Как data mesh превращается в data mash и как цепочки дата продуктов работают на практике
- Как выделять базовый домен данных, чтобы уменьшить длину цепочек дата продуктов
- Почему облачные аналитические базы так быстры: колоночное хранение + разделение storage и compute
- Что такое medalion architecture
- Куда дальше будут развиваться технологии обработки данных и почему нельзя полагаться на старые подходы и ограничения
Дополнительные материалы
- Статьи из периода работы в Avito "Vertica+Anchor Modeling = запусти рост своей грибницы"
- Статья из периода работы в Manychat: 1 и 2
- Запись "Data Modeling Meetup Munich: From Data Vault to Anchor Modeling with Nikolai Golov"
- Запись "DataVault / Anchor Modeling / Николай Голов"
- Научная статья "Golov N., Ronnback L., Big Data Normalization for Massively Parallel Processing Databases" //Computer Standards & Interfaces, 09-May-2017, https://doi.org/10.1016/j.csi.2017.01.009
- Научная статья "Golov N., Filatov A., Bruskin S.,Efficient Exact Algorithm for Count Distinct Problem", Computer Algebra in Scientific Computing, July 2019
#Data #Datamesh #Processes #Management #Architecture
Обновление dataengineer.ru:
1. В карьерные треки я написал введение про управление карьерой как бизнесом имени себя и принципы Карнеги про people skills. Я считаю это очень важно для успешной карьеры. Как ни странно от такого подхода должны выигрывать компании и сотрудники.
Так сложилось, что после книги “Как завоевывать друзей и оказывать влияние на людей” Карнеги, я стал слушать книгу - “Soft Skills: The Software Developer’s Life Manual” Джона Сонмеза. В своей книги он все время ссылается на Карнеги, у которого книга написана была в 1936 году. Джон так же рассказывает про отношение к карьере как к бизнесу, где нужно принимать бизнес решения и брать на себя ответственность. Последнее время я как раз размышлял, почему у одних карьера успешнее, чем у других. Причин и путей много, но как видно бизнес подход имеет определенный смысл и эффективность.
2. Еще больше инструментов в CLI и IDE и AI в помощь
3. В облачные вычисления добавил платформы и курсы.
4. В секцию BI добавили про Инструментарий Разработчика.
5. В DevOps добавили про Git системы.
6. Добавили еще немного книг.
PS хотите добавлять ресурсы на портал? Писать простым языком про сложные вещи? Эксперт в како-то нише? Добавляйтесь в котрибьютеры!
#dataengineer_ru
Вот это я понимаю аналитика будущего.
Вам понадобится:
- 1 iPhone или Android
- Коробка с сухим льдом для охлаждения, хотя зимой можно в форточку высунуть
- Эмулятор командной строки
- DuckDB
И можно анализировать ваши данные. Это еще они на PS5 или Steam Deck не запускали DuckDB.
Источник: https://duckdb.org/2024/12/06/duckdb-tpch-sf100-on-mobile
Как бизнесу анализировать данные проще и быстрее?
Обсудим на бесплатном вебинаре СберТеха «Platform V OLAP Analytics — бизнес-эффекты от интерактивного анализа данных».
Приглашаем 12 декабря в 11:00 — бизнес-аналитиков, руководителей аналитических отделов, CDO и CTO.
Platform V OLAP Analytics — распределенное хранилище аналитических данных. Инструмент упрощает анализ данных, формирует аналитическую отчетность и помогает в планировании.
Спикер Виктор Калачанов, Product Owner Platform V OLAP Analytics, расскажет о продукте и познакомит с его:
• основными функциями;
• ключевыми преимуществами;
• целевым сценарием использования;
демонстрацией на практике.
Ждем вас!
Регистрация по ссылке.
Узнать больше о продуктах для работы с данными Platform V можно в канале Data Platform V• .
Весь LinkedIn пестрит постами про Apache Iceberg. Посты писать уже не достаточно, нужно снимать видео, как вот на S3 создали Iceberg таблицу, запустили Spark и написали запрос.
Все твердят о том, как Apache Iceberg одержал победу над Delta, Hudi и стал главным форматом таблиц. Кстати, на последних собеседованиях уже начали спрашивать про Iceberg и DuckDB.
Не важно, какая у вас роль, если вы работаете с данными, вы должны знать про Apache Iceberg и понимать суть и сценарии использования.
Apache Iceberg - это формат таблиц (не путать с типом файла!). Когда мы сохраняем наши данные в storage layer, например в формате Parquet, мы добавляем метаданные:
- Metadata file - содержит информацию об общей структуре таблицы, таких как схема, версии и снэпшоты.
- Manifest list - список всех файлов-манифестов, связанных с конкретным снэпшотом таблицы.
- Manifest file - указывает на конкретные файлы данных, описывая их диапазоны и разделы для эффективной фильтрации.
Полезные ресурсы:
An introduction to Apache Iceberg by Dremio.
Iceberg, Spark and Dremio - A Hands on Experience.
Data Lakehouse Basics by Dremio.
Apache Iceberg Quick start with Docker Compose.
Apache Iceberg Fundamentals: Course.
Бесплатная книга Apache Iceberg: The Definitive Guide PDF
От наших облаков из комментов:
В Yandex Cloud возможны следующие способы работы с delta-форматами файлов:
1) коннекторы iceberg и delta lake в сервисе Managed Trino, который будет доступен пользователям в рамках technical preview уже в декабре 2024 года
2) delta lake в сервисе Yandex Data Processing
https://yandex.cloud/ru/docs/data-proc/concepts/deltalake
https://github.com/yandex-cloud/yc-delta
3) в Cloudberry, на основе которого будут реализованы новые версии Greenplum'а в YC, есть поддержка iceberg в коммерческой версии, однако есть планы по релизу в open-source:
https://github.com/apache/cloudberry/discussions/667#discussioncomment-10944084
- в случае появления кода в open-source репозитории, поддержка iceberg для Cloudberry будет доступна и в Yandex Cloud
В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.
Хотя вы можете создать свой Lakehouse на Kubernetes + Minio + Iceberg + Trino/Spark.
Еще нашел:
2 отечественных продукта с managed Trino, возможно они поддерживают iceberg.
СedrusData - распределенная SQL-система для создания аналитических платформ уровня предприятия на основе open-source проекта Trino. Работает с любыми источниками и объемами данных, в облаке и on-premise.
Разрабатывается компанией Querify Labs.
Обзор Managed Trino от Cloud Ru.
PS: если хотите добавить ссылку в комментарии, используйте её как текст, а не как гиперссылку, или через markdown.
Читать полностью…
www.dataengineer.ru
O’Reilly анонсировала новую книжку - AI Engineering: Building Applications with Foundation Models
Recent breakthroughs in AI have not only increased demand for AI products, they've also lowered the barriers to entry for those who want to build AI products. The model-as-a-service approach has transformed AI from an esoteric discipline into a powerful development tool that anyone can use. Everyone, including those with minimal or no prior AI experience, can now leverage AI models to build applications. In this book, author Chip Huyen discusses AI engineering: the process of building applications with readily available foundation models.
The book starts with an overview of AI engineering, explaining how it differs from traditional ML engineering and discussing the new AI stack.
The more AI is used, the more opportunities there are for catastrophic failures, and therefore, the more important evaluation becomes. This book discusses different approaches to evaluating open-ended models, including the rapidly growing AI-as-a-judge approach.
AI application developers will discover how to navigate the AI landscape, including models, datasets, evaluation benchmarks, and the seemingly infinite number of use cases and application patterns. You'll learn a framework for developing an AI application, starting with simple techniques and progressing toward more sophisticated methods, and discover how to efficiently deploy these applications.
- Understand what AI engineering is and how it differs from traditional machine learning engineering
- Learn the process for developing an AI application, the challenges at each step, and approaches to address them
- Explore various model adaptation techniques, including prompt engineering, RAG, fine-tuning, agents, and dataset engineering, and understand how and why they work
- Examine the bottlenecks for latency and cost when serving foundation models and learn how to overcome them
Choose the right model, dataset, evaluation benchmarks, and metrics for your needs
Вот кому-то нужно часто менять резюме и профайл:
Data Analyst -> Data Scientist -> ML Engineer -> Deep Learning Engineer -> LLMs Engineer -> AI Engineer.
Это как мне видится процесс, сам я не из sexy jobs 21 века, могу ошибаться.
У нас по проще:
Database (SQL) Developer -> ETL Developer -> Big Data Engineer -> Data Engineer.
И в продолжение последних нескольких постов про Apache Iceberg - Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads
То есть можно сразу писать в S3 и подключать SQL/Compute engineer. Все в одно месте. Будет интересно смотреть как дальше все будет развиваться.
# создаем таблцу в S3
$ aws s3tables create-table-bucket --name jbarr-table-bucket-2 | jq .arn
"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"
# переменная с ARN бакета
$ export ARN="arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"
# получаем список таблиц в S3
$ aws s3tables list-table-buckets | jq .tableBuckets[].arn
"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-1"
"arn:aws:s3tables:us-east-2:123456789012:bucket/jbarr-table-bucket-2"
# создаем схему MYDATA в каталоге MYTABLEBUCKET используя Spark
scala> spark.sql("""CREATE NAMESPACE IF NOT EXISTS mytablebucket.mydata""")
# создаем таблицу
spark.sql("""CREATE TABLE IF NOT EXISTS mytablebucket.mydata.table1
(id INT,
name STRING,
value INT)
USING iceberg
""")
# проверяем, что все на месте
$ aws s3tables list-namespaces --table-bucket-arn $ARN | jq .namespaces[].namespace[]
"mydata"
$
$ aws s3tables list-tables --table-bucket-arn $ARN | jq .tables[].name
"table1"
# вставляем записи в таблицу
spark.sql("""INSERT INTO mytablebucket.mydata.table1
VALUES
(1, 'Jeff', 100),
(2, 'Carmen', 200),
(3, 'Stephen', 300),
(4, 'Andy', 400),
(5, 'Tina', 500),
(6, 'Bianca', 600),
(7, 'Grace', 700)
""")
Недавно я писал про приятный инсайт и русский линкедин. Но теперь мне хотелось бы поделиться инсайтом, какие посты я вижу. Там почти не пишут про инструменты или архитектуру, или про какие-то вещи с индустрией. Если полистать и присмотреться, что пишут, то оказывается что каждый второй, если не каждый первый пост будет попадать в следующую категорию:
- HR (бывшие) теперь консультанты и коучи, могут быстро прокачать вас до нужного уровня, составить резюме и помочь найти работу.
- Специалисты (особенно в области product), могут вас поменторить и прокачать, составить резюме и помочь найти работу.
- Success stories как кто-то нашел работу благодаря консультации тех самых специалистов
- Скриншоты переписки при поиске работы. Тут возможно 2 вариант: Кандидат отжигает или HR отжигает.
Тем неменее, все равно прикольно читать, разбавляет индуских data influencers!
А что вам попадется в Linkedin на русском? 😝
DuckDB посчитал быстрей кол-во строк в CSV, чем UNIX wc -l
.
Unix:
time wc -l services-2023.csv
21239394 services-2023.csv
wc -l services-2023.csv 2.66s user 0.29s system 99% cpu 2.966 total
time duckdb -c "select count(*) from read_csv('services-2023.csv', header = false)"
count_star()
int64
21239394
duckdb -c "select count(*) from read_csv('services-2023.csv', header = false)" 11.17s user 0.57s system 930% cpu 1.261 total
В статье SSDs Have Become Ridiculously Fast, Except in the Cloud затронули интересную тему.
SSD диски сейчас стали лучше и быстрей. Но оказывается, что облачные провайдеры AWS, Azure, GCP не спешат заменять свой парк, и их диски до сих пор на уровне 2017 года.
Получается, аналитика (и не только) on-premise может быть быстрей и дешевле.
Другой вопрос, что делать если вы купили on-premise железо в 2017 и ранее, не выкидывать же его
- Завершу этим, хотя это больно: большинству компаний нужны базовые знания bash / make, SQL-движок для одной машины (DuckDB, CHDB или несколько python-скриптов), распределённая файловая система, git и девелоперский workflow (CI/CD). Всё остальное — это «сахар» и «enterprise». Не говорю, что они не важны, но основы должны быть закрыты, иначе будет хаос. Меня всё ещё удивляет, как быстро мы забываем хорошие практики, которые изучили за годы в софтверной инженерии (тестирование, деплой, совместная работа, мониторинг и так далее).
Выводы очень коррелирует с тем, о чем я пишу в канале. Единственное, я никогда не опускаюсь на уровень hardware. Без публичных облаков очень важно уметь правильно оценивать размер машины на будущее.
ДМИТРИЙ АНОШИН: КАК ДАТА ИНЖЕНЕРУ ЗАРАБАТЫВАТЬ 2+ МЛН - подкаст с Андрон Алексанян, автор тг-канала ANDRON ALEXANYAN.
Мы записали подкаст относительно давно, я даже не помню о чем мы говорили, но точно знают, что все важное и крутое! Поэтому реально вам не смогу сказать сейчас про 2+млн сходу, ответ вы сможете найти в подкасте😎
Я даже воспользовался доской, чтобы нарисовать, кто такой инженер данных и чем он занимается.
Всем хороших выходных!
Давайте расскажу, что мы добавили на сайт dataengineer.ru
1. К ресурсу присоединились котрибьютеры и еще общаюсь с топ-экспертеми в разных областях, чтобы смогли добавлять самые полезные ресурсы для вас.
2. Завели табличку дата сообществ, пока туда добавляют котрибьютеры свои сообщества
3. Завели секция по поиску работы
4. Добавили уже несколько ключевых white papers для нашей индустрии
5. Стали добавлять книги.
И теперь по скилам и инструментам:
1. Добавили еще ресурсов в SQL
2. Новая секция большая про визуализацию данных
3. В секцию BI добавили видео - что такое BI
4. Добавили ресурсов про хранилище данных.
5. Вводная информация про моделирование данных
6. Добавили отечественных вендоров для облака
7. Создали секцию про DevOps (CI/CD, git, Linting, Docker, Kubernetes/Minikube). Секция новая пока, в процессе доработки.
8. Секция про IDE и CLI для инженеров и аналитиков.
9. Секция про AI в контексте инструментов для повседневной работы и помощи в работе.
10. Раздел про API
11. Языки программировани, пока только про Python
12. Apache Spark готова.
До других разделов у нас еще не дошли руки.
Планирую еще добавить разделы про:
- Безопасность
- Privacy/Compliance
- Сети
- Примеры архитектурных решений для аналитики (Open Source, Commercial, On-Premise, Cloud)
- Примеры решений в зависимости от размера компаний (от стартапа до большого Enterprise)
В существующие разделы нужно добавить рекомендации про инструменты (BI, хранилища данных, ETL и тп).
Пока просто собираем и добавляем самые лучшие ресурсы в одно место, потом начнется самое сложное, создать Road map для профессий и привязать его к ресурсам.
В Америке главный праздник - Thanks given day.
День благодаре́ния (англ. Thanksgiving Day) — североамериканский праздник, отмечается в четвёртый четверг ноября — в США и во второй понедельник октября в Канаде. С этого дня начинается праздничный сезон, который включает в себя Рождество и продолжается до Нового года.
Очень хороший праздник, коллеги американцы не работают и всем остальным можно тоже не работать🍾
Да и вообще уже конец года, можно расслабится до февраля.😊
И еще есть много мемов про индюшку.
Модуль 2 курса Getting Started with Analytics and Data Engineering на английском готов:
Введение - по классике из центра Ванкувера.
Урок 1: что такое база данных и какие бывают.
Урок 2: подключаемся к базе данных и SQL (А тут где учить SQL https://dataengineer.ru/hard-skills/2023-06-04-sql.html)
Урок 3: модели данных
Урок 4: базы данных в облаках
Урок 5: про визуализацию запросов, как бы BI на минималках
Урок 6: NoSQL базы данных для нас (аналитиков и инженеров) и про MongoDB + hands on
Урок 7: топчик БД -DuckDB вместе с hands-on
Ссылка на модуль 1 /channel/rockyourdata/4739
Ссылка на модуль 0 /channel/rockyourdata/4553
Модуль 1 и 0 просто MUST HAVE!
И не забывает читать про карьеру успешную, особенно если вы вот только начинаете https://dataengineer.ru/pages/careertracks/
PS а тут наши проекты: https://github.com/surfalytics/data-projects почти каждую неделю делаем что-то новое
Я провел недавно эксперимент на LinkedIn. У меня там несколько компаний зарегистрировано, в каждой можно создавать Jobs. Лишь подтверждение, что платформа вообще не подходит для поиска работы, будет только сжирать время и ресурсы. А для компаний еще и кучу бабла.
В Surfalytics я воспользовался free trial на 3 дня на позицию Junior Data Engineer в Канаде.
За первый час пришло 200 откликов, за первый день почти тысяча. Всего 1400 откликов на вакансию.
В Rock Your Data я опубликовал Data Analyst в США. Там уже за $. За 3 часа три это чудо скушало 200US$ и все кандидаты попали в “No Fit” по моим вопросам, то есть условно они для меня не релевантны.
В LinkedIn это работает как в Google Ads, по кликам мы платим.
LinkedIn это такой бесконечный поток кандидатов, которым вообще пофиг на что откликаться, описание они не читают. За пределами то же самое. Таким образом кандидаты портят жизнь и себе и другим, и компаниям. HR в это процессе тоже теряются, и в итоге упускают хороших кандидатов.
Для Северной Америки искать работы в LinkedIn (откликаться на вакансии) это пустая трата время. Другой вопрос, иметь сильный профайл, чтобы вам написал рекрутер. Лучше всего это прямо идти на сайт компании, а еще лучше найти референс. На сайт мы добавили еще мест и чатов, где искать работы https://dataengineer.ru/pages/career/
Я добавил скриншоты. Что показать пример кандидатов. Каждый 2-й и 1й это блогер, шмогер, сертифицированный эксперт, с огромным списком технологий, как будто их резюме находится в шапке LinkedIn профайла. Но если, посмотреть сам LinkedIn или резюме, то там вообще не релевантный опыт или его просто нет. Как мартышки налетели на вакансию, накликали, и полетели дальше засорять интернет.
Про требования к стране, опыту или еще чего, я вообще молчу. Все, у кого есть интернет в деревне в Африки и Индии и много свободного времени считают своим долгом откликнуться, авось повезет.
Я решил пообщаться с людьми. Например, пишу: “Привет, так и так рынок тяжелый, а у тебя резюме и Linkedin не совпадает, и вообще опыт не про дату и аналитику.”, а в ответ, что-то типа мы сами все знаем не надо учить, спасибо за подсказку, мы как-то сами справимся.
Одна дама поведала, что вот прошла Rust курс для Data Engineering, я ей говорю, зачем Rust, ведь надо dbt и Snowflake лучше. На что она мне сказала, что у нее нет время учить все в подряд. И вообще недавно она прошла курсы про Node, Angular и другим Front End вещам, а работает она пока бухгалтером.
Еще я попробовал сервис ZipRecruiter. Тоже на trial. За 2 дня было 6 окликов, тоже бесполезный.
Вывод простой - доступность знаний и hype из разряда работать из дома и получать 100500 тысяч делают свое дело. Качественных кандидатов мало на рынке, но им намного сложней пробиться и найти себе работу(ы).
Нужно ли быть честным кандидатом на собеседовании и честным сотрудником?
Казалось бы, честность и открытость — это хорошо. Однако, в корпоративном мире такая честность имеет высокую цену.
Сейчас все обсуждают случай, когда компания YesMadam уволила сотрудников нытиков, которые жаловались на стресс. Они надеялись на понимание, а получили "пинка под зад".
Очевидный вывод: быть честным с работодателем небезопасно!
Вот примеры из личного опыта:
- На одном собеседовании меня спросили о недостатках. Я честно рассказал, как был токсичным, конфликтовал с начальством, отстаивал интересы команды и компании, в итоге попал на PIP, прошел его, снова конфликтовал и в итоге уволился. После этого уволили и директора, и VP. Реальная жизненная история. На следующий день я получил отказ от hiring manager.
- В общении с американскими коллегами выразил симпатию Трампу. Оказалось, для них это серьезная проблема, и теперь взаимодействовать с ними стало сложнее.
Это лишь пара небольших примеров.
Не забывайте: задача HR — защищать интересы компании. Все, что вы скажете, может быть использовано против вас. Я сам не раз наступал на одни и те же грабли.
Хотите роста и стабильности? Играйте по правилам компании, пока не наберете “достаточный вес”, чтобы позволить себе быть честным. Хотя, как известно, незаменимых людей не бывает.
Хотел сегодня поделится маленькими телеграмм каналами своих давних друзей. Они совсем не из ИТ, но ребята делают то, что им нравится!
ВАСО НА СТРОЙКЕ🛹👷♂🛠️ - Васю знаю давно, скейтер старой школы. Он подарил скейт на первый день рождение моему сыну 12 лет назад. В душе он всегда был предпринимателем, а сейчас ведет канал про строительство скейт парков в России. Он и его команда строят парки мирового уровнях в любых условиях в городах России. Контент топчик!
Welcome 2 backstage - канал про моду и стиль, ведет Женя. С Женей мы давно знакомы и познакомились на Московской Неделе Моды в гостином дворе, где работали много лет вместе. Оказалось что мы живем на соседних станциях метро. Он все знают про стиль и моды и кайфует от того, что делает. Заодно в его сторис я всегда узнаю о топ фильмах к просмотру!
За 200$ в месяц ChatGPT никто не пробовал в работе?
Читать полностью…Теперь вы знаете как делать топ конференция!
Там реально можно набить татуху с AWS сервисом или мультяшкой!
Не благодарите за идею к вашему следующему ивенту и новогодним корпоративам))
В последнее время было тихо у AWS на фоне AI. Они просто ждали свою конференцию re:Invent, чтобы анонсировать все. Уже все написали за нас, осталось попросить chat gpt перевести:
Amazon на этой неделе решил действовать жестко. Они только что анонсировали собственные foundation models, на 75% дешевле. Плюс AI Chips. Плюс суперкомпьютер. Они нацелились на ВСЕХ.
Это похоже на скоординированную атаку на всех основных фронтах искусственного интеллекта.
Amazon одновременно бросает вызов OpenAI/Microsoft в области foundation models, NVIDIA в разработке чипов, xAI в суперкомпьютерах, и заручается поддержкой мощных союзников, таких как Anthropic и Apple. Кстати, SAP в восторге от этого.
1. Доминирование в Foundation Models
- Шесть новых моделей Nova, которые соответствуют или превосходят конкурентов
- На 75% ниже стоимости по сравнению с текущими лидерами рынка
- Уже используются в 1000 приложений Amazon
- Дорожная карта на 2025 год включает революционные модели "speech-to-speech" и "any-to-any"
- Поддержка 200+ языков, в то время как конкуренты сосредоточены на английском
2. Революция в чипах
- Чипы Trainium2 демонстрируют 4-кратный прирост производительности
- Снижение стоимости на 50% по сравнению с Nvidia
- Apple подписан как крупный клиент
- Глубокое сотрудничество с Annapurna Labs
- Уже разрабатываются чипы следующего поколения Trainium3
3. Project Rainier: Суперкомпьютер
- Создание крупнейшего в мире распределённого AI-кластера
- Сотни тысяч чипов Trainium работают в унисон
- В 5 раз мощнее текущих систем Anthropic
- Многоузловой дизайн для беспрецедентного масштаба
- Прямой конкурент Colossus от xAI
4. Сделка с Anthropic
- Масштабные инвестиции в размере $8 миллиардов
- Закрепление за собой роли основного поставщика облачных услуг
- Эксклюзивный доступ к будущим моделям Claude
- Глубокое техническое сотрудничество по оптимизации чипов
- Ранний доступ для клиентов AWS
Самое впечатляющее: Amazon создаёт целую экосистему. Они одновременно решают задачи вычислительных мощностей (Project Rainier), чипов (Trainium), моделей (Nova) и партнёрств (Anthropic) — и при этом снижают цены для всех.
Source
Snowflake знают все, даже если вы его никогда не использовали, но если вы работаете в области аналитики данных или инжиниринга данных, вы точно о нём слышали.
Главная его особенность заключается в том, что Snowflake фактически создал концепцию Lake House до того, как она стала популярной в 2020-2021 годах. Идея заключалась в разделении Compute (вычисления на виртуальных машинах) и Storage (хранение данных на S3, Azure Storage, GCP Storage).
То есть все данные хранятся в одном большом хранилище (storage), а вычисления могут выполняться на любом подходящем ресурсе.
Речь, в данном случае, о кластерах Snowflake (Compute Warehouse). Единственный недостаток этой технологии — данные хранятся в закрытом формате, представляющем собой black box для конечного пользователя, что также приводит к эффекту vendor lock.
Чтобы упростить продажу продукта, Snowflake позиционируется как хранилище данных. Если бы в 2016-2017 годах компания пыталась объяснять клиентам, что это нечто большее, чем классическое хранилище, и не совсем хранилище, это значительно усложнило бы продажи.
С 2020 года стали активно развиваться открытые форматы таблиц, которые заменили классический каталог Apache Hive: Delta, Iceberg и Hudi.
Hudi стух. Delta стал стандартом для Databricks. Iceberg занял лидерство в индустрии.
Snowflake также добавил поддержку каталога Iceberg. В свою очередь, Databricks приобрел компанию Tabular (создателей Iceberg), чтобы унифицировать формат внутри своего lake house — Delta Lake Universal Format (UniForm).
И теперь снова о Snowflake, который считается дорогим, но при этом удобным и простым в использовании. В сети полно информации о том, как можно оптимизировать затраты, самый популярный метод — включить AUTO Suspend.
Однако мы наблюдаем сдвиг в сторону унификации аналитических решений. По умолчанию Snowflake скрывает свои данные и хранит их в собственном формате, как любая база данных. Но с развитием интеграции Iceberg появилась возможность переносить часть данных из Snowflake во внешнее хранилище и создавать Snowflake-Iceberg Managed Catalog.
Это открывает множество возможностей использовать каталог Snowflake, задействуя внешние вычислительные движки, такие как DuckDB, Trino, Spark, Polars и PyArrow.
Несколько ссылок по теме:
- Quack, Quack, Ka-Ching: Cut Costs by Querying Snowflake from DuckDB
- Execute Snowflake queries locally on DuckDB
- Processing Trillions of Records at Okta with Mini Serverless Databases
Пока это не полноценная замена Snowflake или унификация методов хранения и доступа к данным, но видно как это направление набирает обороты и позволяет уже сейчас сократить расходы Snowflake.
Визуализация из Канадской действительности - Shopify нарисовал карту доставок 1 Ноября 2023 - 31 Декабря 2023:
Shopify attached the above image in the letter, claiming it illustrates domestic urban and rural orders (in blue and red, respectively) from Shopify merchants that were fulfilled by Canada Post from Nov. 1, 2023 to Dec. 31, 2023. Shopify said a 2024 map “wiped clean” due to prolonged strike action would “devastate” the economy.
Open letter claims at least 67,000 Shopify-powered small businesses rely on Canada Post.
Даже я сам affected от такого беспредела, потому что не могу заказать в своем же магазине shop.surfalytics.com себе же одежду и подарки знакомым.
Canada Post мусолит эту тему с 25 октября. Сначала это было по фану всем, а теперь совсем нет. У многих зависли визы и паспорта, а скоро отпуска. И нет никакой альтернативы.
Теперь мы знаем почем Amazon зарубил профсоюзы накорню - How Amazon Crushes Unions.
Приглашаем тебя на крутое IT-мероприятие, посвящённое AI и передовым технологиям разработки рекомендательных систем.
Регистрируйся, и в день мероприятия мы пришлём тебе ссылку на трансляцию. Или приходи очно, если ты живёшь в одном из городов.
Где и когда?
👉 Нижний Новгород, 5 декабря
👉 Санкт-Петербург, 6 декабря
Тебя ждут крутейшие доклады, живая дискуссия и новые знания в сфере рекомендательных систем.
Количество мест ограничено — успей занять своё и прикоснуться к миру рекомендательных систем! 😉
Я часто пишу про инсайты в мире аналитики и технологий связанных с данными.
Но сегодня хотел поделиться другим инсайтом, который не может не радовать - кол-во русскоязычных постов в LinkedIn и аудитории растет. Если раньше все пытались подстроиться по платформу и писать на английском, то теперь все хотят быть сами собой и писать так как им нравится. В общем мега круто, всегда интересно читать посты на русском - diversity и inclusion, как говорится🇷🇺
В статье Learnings after 4 years working with +50 companies on data engineering projects автор поделился интересными наблюдениями посли 4х лет консалтинга. Chatgpt перевел и я подправил по возможности.
Некоторые практические выводы, без особого порядка:
- Многие думают, что быстро делать ETL невозможно. Большинство считает, что пайплайны, которые обрабатывают большой объём данных, должны занимать часы. На деле в большинстве случаев можно решить задачу в реальном времени (запросы <1 сек) с меньшим количеством железа. Хороший дизайн всегда лучше железа.
- В большинстве проектов хранят данные, которые никогда не используются (иногда более 90%). И их обрабатывают. Каждый день/час/минуту. Никто об этом не задумывается.
- Люди сосредотачиваются на изучении инструментов, и это хорошо, но забывают про принципы. Я не могу сосчитать, сколько раз видел, как SQL-запрос мог бы работать в 1000 раз быстрее, если бы данные были правильно отсортированы. Люди отлично знают, как использовать Spark/Snowflake/BigQuery, но никогда не тратят полдня, чтобы понять, как эти инструменты работают «под капотом». Поверьте, есть 3-4 базовые концепции, которые дают 80% необходимых знаний. Я 7 лет управлял огромным кластером Postgres, но так и не уделил достаточно времени его принципам. Сейчас я уже забыл, как работать с Postgres, но уверен, что запомнил бы основы, если бы уделил им больше времени.
- Большинство проектов думают, что данные всегда будут корректными и их не придётся исправлять. Но каждый, абсолютно каждый делает ошибку, загружая одни и те же данные дважды. Это происходит постоянно, и если вы не подумали об этом заранее, ваш ETL превратится в кошмар, и вы будете тратить массу времени на исправление данных в продакшене.
- Ingestion — это 80% работы, но его обычно даже не мониторят. Есть сотни причин, почему `INSERT` может не сработать или быть медленным. Данные, которые вы не смогли загрузить, ломают весь пайплайн, а ошибки остаются незамеченными. Вы видите проблему в SQL-запросах, когда уже слишком поздно и всё слишком сложно.
- Качество данных — это как unit-тестирование, но в продакшене. Тестировать пайплайны в CI (и только 10% людей это делают) недостаточно, нужен постоянный мониторинг.
- Схема есть всегда. Вы решаете её на этапе записи данных или чтения, но в какой-то момент всё равно нужно определить атрибуты и типы данных. JSON хорош в некоторых случаях, но это не решение. Любой серьёзный пайплайн избавляется от JSON как можно быстрее. JSON делает проекты в 2-10 раз дороже только за счёт железа, не говоря уже о часах, потраченных на угадывание схемы JSON.
- Да, есть проекты, где нужен открытый формат схем, но schemaless в масштабе очень дорого, и вам обычно придётся делить логику работы между типовыми случаями и редкими исключениями. Проще говоря, если вы разрешаете пользователям отправлять что угодно, будьте готовы бороться с 0.0000001% событий, которые содержат 3MB атрибут.
- Быстро, дёшево, гибко. Выберите два.
- Чтобы удерживать низкие значения +p99 задержек, ваше оборудование должно большую часть времени простаивать.
- end-to-end задержки = K / $. Если вы хотите, чтобы данные были доступны как можно быстрее, нужно железо. Это не линейная зависимость: чтобы сократить задержки с 10 сек до единиц секунд, придётся вложить много денег (и при этом ещё держать низкие задержки на чтение, иначе в чём смысл).
- Люди всегда думают, что операции завершатся успешно. Использование неизменяемого workflow и атомарных операций всегда экономит дни на исправление некорректных или частичных данных.
- Большинство людей не имеют интуиции, что современное железо может или не может. Простая формула может помочь: «одна машина может обработать около 500MB за секунду». Да, это не универсальная истина, но эта оценка — хороший инструмент.
30 дней орекстреции с Dagster - https://github.com/slopp/30_days_of_dagster/
Хороший вариант поковырять Dagster и поучиться. Уже день 8.
Устроиться аналитиком в Яндекс за выходные
7–8 декабря проводим Weekend Offer Analytics. До 4 декабря оставьте заявку на участие, 7 декабря пройдите технические собеседования, а 8 декабря познакомьтесь с командами и получите офер.
В мероприятии участвует 7 команд: Crowd, Карты, Поиск, YaGPT 2, Автономный транспорт, Реклама и Ecom-сценарии. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.
Нанимаем в офисы России и Республики Беларусь.
Узнать подробности и зарегистрироваться можно здесь.
📊 Оверимплоймент: что это? Примите участие в новом исследовании от NEWHR и получите инсайты рынка
Вы сотрудник и совмещаете несколько мест работы? Или пока только задумываетесь о поиске подработки и взвешиваете «за» и «против»? А может, никогда не смотрели в эту сторону? Или вы — работодатель, который сталкивается с феноменом оверимплоймента среди своих сотрудников? А может, не сталкивались или не знаете наверняка, совмещают ли ваши сотрудники? Расскажите нам о своем опыте и/или отношении к вопросу!
Предмет нового исследования — оверипмлоймент, он же совмещение нескольких работ, он же вторичная занятость, — яркий макро-тренд последних нескольких лет на рынке, распространённый не только в IT.
В рамках исследования узнаем:
- насколько распространены подработки в отрасли и в каких компаниях более, а в каких — менее?
- как к подработкам относятся работодатели? какие видят риски и, напротив, какие это дает им преимущества? и что перевешивает?
- в чём мотивация сотрудников, которые совмещают 2-3 работы? только ли в деньгах дело, и в чем может быть ещё?
- действительно ли запрет на удалёнку и принудительное посещение офиса снижает вероятность совмещений?
- можно ли остановить это явление? а главное — нужно ли?
👉🏻 Пройти опрос 👈🏻
Результаты исследования опубликуем в начале 2025 года.
🎁 Для всех, кто поучаствует в опросе:
- мы сделаем специальный расширенный материал с глубинным исследованием по вашей профессии: эти материалы получат только респонденты исследования
- предоставим возможность узнать результаты первыми
- проведем закрытый эфир с инсайтами исследования и возможностью задать любые вопросы экспертам NEWHR
📎 Для отправки результатов исследования мы попросим вас оставить электронную почту в конце. Это не обязательно, но гарантирует, что вы получите результаты первыми. Вы можете использовать любую комфортную для вас почту.
👉 Расскажите о вашем отношении к совмещению работ и/или поделитесь этим постом с теми, кому может быть интересна эта тема. Опрос займет не больше 6 минут.