bigdatai | Unsorted

Telegram-канал bigdatai - Big Data AI

17610

@haarrp - админ Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям @data_analysis_ml - анализ данных @ai_machinelearning_big_data @itchannels_telegram - важное для программиста

Subscribe to a channel

Big Data AI

⁉️ Как разработчику повысить свою зарплату? 
Один из вариантов — освоить MS SQL. 

Освойте востребованные компетенции, чтобы уже через полгода вырасти с мидла до сеньора! 

🦾 Знание этой СУБД может стать вашим конкурентным преимуществом и аргументом для повышения заработной платы.

Если вы хотите научиться разрабатывать на SQL, добро пожаловать на онлайн-курс «MS SQL Server разработчик» в OTUS. 

⚠️ За 5 месяцев вы научитесь разрабатывать на SQL, проектировать и оптимизировать свои БД, писать сложные запросы и поймете, как работают базы изнутри. 

Все это вы освоите на живых вебинарах с преподавателями-практиками, а закрепите навыки на выпускном проекте — собственной базе данных, которая усилит ваше портфолио.

👉 Пройдите тест по MS SQL и проверьте, насколько вы готовы к обучению на углубленном курсе
https://otus.pw/wXSP/

Нативная интеграция информация о продукте www.otus.ru

Читать полностью…

Big Data AI

Где набраться опыта в аналитике данных, структурировать знания и узнать, как с рабочими задачами справляются профессионалы?

Получите опыт, сопоставимый с работой в крупной компании — пройдите 5 недель интенсивной практики на «Симуляторе аналитика». Здесь вы с нуля выстроите аналитические процессы, поработаете с настоящей инфраструктурой, научитесь уверенно справляться с ежедневными задачами аналитика и поймёте, какая логика стоит за каждым решением.

Наставники курса:
▪️Анатолий Карпов (работал ведущим аналитиком VK и JetBrains)
▪️Мария Сомова (senior аналитик VK)
▪️Ян Пиле (руководитель группы аналитики поиска VK)

Они точно знают, как эффективно решать рабочие задачи, и готовы поделиться опытом с вами. А интенсивная практика в сочетании с настоящей рабочей инфраструктурой помогут расширить компетенции и получить знания, необходимые для дальнейшего карьерного роста.

Записывайтесь на симулятор до 17 июля по ссылке!

Читать полностью…

Big Data AI

🔥Учимся визуализировать данные и строить уникальные графики с помощью R на открытом уроке курса "Язык R для анализа данных" в OTUS.

Язык R - мощный инструмент, знание которого необходимо аналитикам, data science специалистам, маркетологам и программистам при работе с данными. Простой синтаксис, инструменты визуализации, быстрое выполнение кода - все это позволяет создавать весомые конкурентные преимущества в работе. В OTUS стартует набор на курс “Язык R для анализа данных”.

📌17 июля приглашаем на вебинар “Слои в ggplot2”, на котором вы узнаете:

- как строить графики в R с помощью библиотеки ggplot2 слой за слоем;

- познакомитесь с разными типами визуализаций, фасетированием и многим другим.

Результат урока: простой и понятный алгоритм для построения графиков по данным.

Урок подойдет даже тем, кто не знаком с языком R

👉Регистрация для участия https://otus.pw/ztYI/


Не упустите возможность протестировать формат обучения. Приобрести курс возможно в рассрочку

Нативная интеграция Информация о продукте www.otus.ru

Читать полностью…

Big Data AI

Вебинар
«AI Cloud: облачные вычисления с помощью GPU»
от ITGLOBAL.COM

Когда: 18 июля 2023 в 12:00 МСК

Что в 2023 году дает конкурентное преимущество и форсирует развитие бизнеса? Искусственный интеллект, машинное обучение и сложные вычисления. Они упрощают внутренние процессы компании и улучшают качество сервиса для клиентов. Но для внедрения в бизнес-процессы сложных ИИ-алгоритмов необходима подходящая платформа.

GPU-серверы (серверы с графическими видеокартам) — это место для сложных технологичных задач, таких как:
тренировка алгоритмов глубокого обучения,
разработка ПО для ускорения вычислений инфраструктуры,
сложная аналитика,
высокопроизводительные вычисления,
3D-моделирование.

Эксперты ITGLOBAL.COM расскажут, как использование GPU выводит на новый уровень мощности облачных технологий и упрощают жизнь дизайнерам и разработчикам.

Спикеры ITGLOBAL.COM
Алина Жигалова, директор по развитию сервисов
Илья Борняков, заместитель исполнительного директора по технологическому развитию

Зарегистрироваться на вебинар

Читать полностью…

Big Data AI

🟡♦️♦️♦️♦️♦️
Не пропусти нейросеть с неограниченными возможностями
Подпишись: /channel/+3Jw7Pf5VsnU3YmUy

Читать полностью…

Big Data AI

🤖 PyTorch for Deep Learning & Machine Learning – Full Course

25 часов материала по PyTorch с объяснениями и примерами.

🎞 Видео: https://www.youtube.com/watch?v=V_xro1bcAuA

📝Ссылка на тектовый курс:
https://www.learnpytorch.io/

@machinelearning_ru

Читать полностью…

Big Data AI

Стать Middle ML-специалистом просто — поступи в крупнейшую в России магистратуру по ИИ в ИТМО 🚀

Магистратура AI Talent Hub создана компанией Napoleon IT совместно с ведущим технологическим вузом — ИТМО. За 2 года вы получите актуальные знания в области искусственного интеллекта и освоите перспективные ML-специальности на уровне Middle.

AI Talent Hub — это:
🔹200 бюджетных мест для талантливых абитуриентов — становитесь профессионалами в ИИ
🔹обучение на решении реальных бизнес-задач — применяйте знания и навыки на практике уже во время магистратуры
🔹опытные профессионалы-менторы из ведущих партнерских IT-компаний — OZON, VK, Сбер, МТС Digital, Huawei Noah's Ark, «Татнефть», Mail.ru, Яндекс, Газпром и другие — получайте практические знания и возможности для развития
🔹онлайн-формат обучения — учитесь из любой точки земного шара
🔹более 100 курсов по разным направлениям машинного обучения от ИТМО, Передовой инженерной школы ИТМО и экспертов крупных IT-компаний — выбирайте сами, кем хотите стать
🔹обучение в неклассических образовательных форматах — воркшопы, хакатоны, проектные и кейс-семинары — забудьте про скучные лекции и лабораторные.

Набор на программу AI Talent Hub «Искусственный интеллект» уже в самом разгаре 🔥

До 10 июля подавайте заявку на конкурс проектов, поступайте без экзаменов и становитесь экспертом в области искусственного интеллекта!

Читать полностью…

Big Data AI

Шпаргалка SQL → Pandas

— выбрать один столбец или несколько из них;
— фильтрация;
— выбор уникальных значений по столбцу;
— подсчет числа значений;
— перечисление названий столбцов и т.д.

Читать полностью…

Big Data AI

🔘Что отличает обучение с подкреплением от основных методов машинного обучения? Погрузимся в историю RL и разберем отличительные особенности этого направления 3 июля в 20:00 мск на открытом уроке в OTUS.

Вебинар пройдет в рамках старта онлайн-курса «Reinforcement Learning» и будет полезен всем DS/ML/DL специалистам и IT-специалистам, которые хотят расширить свои знания в этой области.

💬На занятии мы:

— Рассмотрим RL с точки зрения вычислений и через призму поведенческих и когнитивных наук.
— Разберем классический пример многорукого бандита — автомата для казино
— Продемонстрируем возможности примитивного алгоритма RL в упрощенной среде.
— Обсудим самые знаковые приложения RL нашего времени.
👉Регистрация для участия https://otus.pw/7T4e/
📌Спикером выступит Андрей Маргерт, исследователь Машинного Обучения в Wageningen Research и преподаватель курса.

Не упустите возможность познакомиться с экспертом! После вебинара вы сможете продолжить обучение на курсе, доступном в рассрочку. Нативная интеграция подробная информация о продукте на сайте www.otus.ru

Читать полностью…

Big Data AI

Второй митап на тему Data Science проведёт X5 Tech

5 июля в онлайн соберутся три спикера из разных компаний, чтобы обсудить использование PySpark Pipeline для построения ETL-процессов, метод Propensity Score в кейсах без возможности проведения стандартного A/B-теста и подходы к распознаванию жестового языка.

Кто выступит:

-- Дмитрий Чернышев, старший менеджер по анализу больших данных, X5 Tech
-- Наталья Илюнькина, аналитик, группа клиентской аналитики Яндекс Маркета
-- Александр Нагаев, CV engineer, SberDevices

Каждому можно будет задать вопросы.

⏰ Старт в 18:00
Регистрация и подробности

Читать полностью…

Big Data AI

🦖 Вебинар YTsaurus. DWH Яндекс Go: как мы готовим наши петабайты

Новый вебинар YTsaurus — об использовании платформы в реальных сервисах. В гостях — Яндекс Go, суперапп с разными сервисами внутри, который основан на data driven подходе. Владимир Верстов и Николай Гребенщиков из команды разработки Data Management Platform Яндекс Go расскажут, какие требования команда предъявляет к системам хранения и расскажет, как с этими требованиями справляется YTsaurus.

Ждём 28 июня в 18:30 Мск. Участие бесплатное, зарегистрироваться можно по ссылке.

Также запись вебинара будет доступна ytsaurus">на YouTube.

Читать полностью…

Big Data AI

Большой DS-митап о персонализации от СберМаркет Tech🔥

Встречаемся на Data Science Meetup 5 июля в 19:00 в московском офисе СберМаркета или на онлайн-трансляции.

В программе:

🟡 Как мы делали проект по персональному ML-ранжированию каталога и почему из этого ничего не получилось, а потом внезапно каааааак получилось // Антонина Горячева, и.о. директора по анализу данных в СберМаркете.

🟡 ML-персонализация для карьерной платформы: о продукте, что для него делали, какие проблемы были и как их решали // Петр Чуйков, DS Team Lead, HeadHunter.

🟡 Кросс-категорийные рекомендации в Авито: зачем они нужны, как добавляли и что из этого вышло // Михаил Каменщиков, Recommendations Unit Lead Авито.

🟡 Персональный тарифный план для новой базы: key learnings после запусков пилотов, как и почему реальность разошлась с ожиданиями и что с этим делаем // Дарья Шатько, Data Science Teamlead Мегафон BigData.

После каждого доклада дарим подарки за лучший вопрос 🎁

Регистрируйся по ссылке и до встречи на митапе!

Читать полностью…

Big Data AI

Не упустите уникальную возможность сделать карьеру в области машинного обучения.

SMILES-2023 — это 12-дневный интенсивный курс для молодых специалистов, где вы сможете применить знания физики и машинного обучения для эффективного решения сложных инженерных задач в области устойчивого развития.

Школа пройдёт с 20 по 31 августа в туркластере Белокуриха Горная — уникальной предгорной местности Алтайского края. Участие — бесплатное, но на основе конкурсного отбора. Подробности и подача заявки. 
Реклама. Автономная некоммерческая образовательная организация
высшего образования «Сколковский институт науки и технологий», ИНН 5032998454

Читать полностью…

Big Data AI

Как применять SQL в реальных рабочих задачах аналитика?

📈 Узнайте об этом на бесплатном практическом вебинаре от Changellenge >> Education «Навыки аналитика: как использовать SQL в работе».

💻 Вебинар проведет Татьяна Черняк — руководитель команды дата-аналитиков в VK Cloud и эксперт образовательной программы «Профессия аналитика данных». На практической части она даст обратную связь каждому участнику и ответит на все вопросы.

➡️ Приходите на вебинар, чтобы:
— потренироваться в решении настоящих задач с использованием SQL;
— задать вопросы о карьере в анализе данных;
— узнать больше о профессии дата-аналитика и необходимых навыках;
— пополнить свой опыт новым кейсом и подтвердить навык работы с SQL на собеседовании;
—понять, где можно освоить другие аналитические навыки и получить опыт решения реальных бизнес-задач.

📆 Вебинар пройдет 22 июня 19:00 Мск.

🔗 Для участия в бесплатном вебинаре зарегистрируйтесь по ссылке: https://u.to/BbS6Hw

Читать полностью…

Big Data AI

TimeSeries datasets

3W dataset - To the best of its authors' knowledge, this is the first realistic and public [...] [Meta]

Databanks International Cross National Time Series Data Archive [Meta]

Hard Drive Failure Rates [Meta]

Heart Rate Time Series from MIT [Meta]

Time Series Data Library (TSDL) from MU [Meta]

Turing Change Point Dataset - Contains 42 annotated time series collected for the development [...] [Meta]

UC Riverside Time Series Dataset [Meta]

@bigdatai

Читать полностью…

Big Data AI

⚡️ Десять классных генераторов тестовых данных

1. DATPROF Privacy
Этот инструмент маскирует ваши тестовые данные и на их основе генерирует синтетические. Таким образом сведения о ваших пользователях будут защищены, а вы получите репрезентативные тестовые данные.

2. Redgate SQL Data Generator
Этот инструмент способен быстро создавать большие объемы реалистичных данных.

3. Test Data Manager (не уверена)
Этот инструмент позволяет быстро находить, защищать, проектировать и создавать подходящие данные для эффективного тестирования приложений.

4. Solix Test Data Management
Приложение Solix Test Data Management автоматизирует создание поднаборов (не клонов) баз данных с разумным размером, что позволяет сэкономить до 80% места для хранения. При этом копия производственной базы данных будет синтаксически правильной: это важно для достижения наиболее точных результатов тестирования.

5. SAP Test Data Migration Server
SAP Test Data Migration Server позволяет создавать непроизводственную среду, используя выдержки из бизнес-данных. Это помогает снизить расходы на поддержку и инфраструктуру и одновременно повысить эффективность разработки и тестирования.

6. DTM Data Generator (не уверена)
Инструмент для генерации строк данных для целей тестирования: для наполнения тестовой базы данных, анализа производительности и т. д.

7. Mockaroo
Mockaroo позволяет бесплатно генерировать до 1000 строк реалистичных тестовых данных (большее количество строк уже платное). Данные выгружаются в форматах CSV, JSON, SQL и Excel.

8. GenerateData
Проект с открытым исходным кодом, хостится на GitHub. Данные можно сгенерировать прямо на сайте. Вам предоставляется простой и понятный пользовательский интрефейс и возможность просматривать, что вы генерируете.

9. ApexSQL Generate
Генерирует случайные тестовые данные для SQL-сервера.

10. GenRocket
Сервис для генерации реалистичных тестовых данных. GenRocket позволяет QA-специалистам полностью автоматизировать процесс подготовки тестовых данных и без проблем интегрировать его в автоматизированное тестирование.

Читать полностью…

Big Data AI

📎 Генераторы тестовых данных с открытым исходным кодом

🟢 Benerator

🟢 DataFactory

🟢 Data Factory

🟢 DataGenerator

🟢 generatedata

🟢 MockNeat

🟢 MySQL Random Data Generator

🟢 pydbgen

🟢 Spawner

🟢 SQLfuzz

🟢 Synth

🟢 test-data-generator

bigdatai

Читать полностью…

Big Data AI

📽 Проект Data Science по прогнозированию рейтинга фильмов Rotten Tomatoes

Предсказание рейтингов фильма на основе настроения рецензий.

В ходе нашего исследования мы обсудим предварительную обработку данных, различные классификаторы и возможные методы улучшения для повышения эффективности наших моделей.

К концу этой статьи вы получите представление о том, как машинное обучение может быть использовано для прогнозирования успеха фильмов и как эти знания могут быть применены в индустрии развлечений.

Читать дальше

bigdatai

Читать полностью…

Big Data AI

Создание инфографики с помощью Matplotlib

Создание захватывающих и привлекательных визуализаций данных имеет важное значение для работы с данными и для того, чтобы быть специалистом по Data Science. Это позволяет нам предоставлять читателям информацию в сжатой форме, которая помогает понимать данные без необходимости просмотра необработанных значений. Кроме того, мы можем использовать диаграммы и графики, чтобы рассказать увлекательную и интересную историю, отвечающую на один или несколько вопросов о данных.

В мире Python существует множество библиотек, которые позволяют специалистам по данным создавать визуализации, и одна из первых, с которой многие сталкиваются, начиная свое путешествие по Data Science — это matplotlib.

В этой статье мы рассмотрим создание инфографики с помощью matplotlib.

Читать

bigdatai

Читать полностью…

Big Data AI

📌 Очередная подборка интересных датасетов.

Quandl Data Portal — хранилище экономических и финансовых данных (есть бесплатный и платный контент).

The World Bank Open Data Portal — информация о займах, выданных Всемирным банком развивающимся странам.

IMF Data Portal — портал международного валютного фонда, который публикует данные о международных финансах, ставках долга, инвестициях, валютных резервах и товарах.

American Economic Association (AEA) Data Portal — ресурс для поиска макроэкономических данных США.

Google Trends Data Portal — данные о тенденциях Google можно использовать для визуального изучения и анализа данных.

Financial Times Market Data Portal — ресурс для получения актуальной информации о финансовых рынках со всего мира.

Data.gov Portal — портал открытых данных правительства США (сельское хозяйство, здравоохранение, климат, образование, энергетика, финансы, наука и исследования и т.д.).

Data Portal: Open government data (India) — открытая правительственная платформа данных Индии.

Food environment Atlas Data Portal — содержит данные исследований о питании в США.

Health Data Portal — это портал Министерства здравоохранения и социальных служб США.

Centers for Disease Control and Prevention Data Portal — содержит широкий спектр данных, связанных со здоровьем.

London Datastore Portal — данные о жизни людей в Лондоне.

Canada Government Open Data Portal — портал открытых данных о канадцах (сельское хозяйство, искусство, музыка, образование, правительство, здравоохранение и т.д.)

bigdatai

Читать полностью…

Big Data AI

Невероятные шедевры, созданные с помощью Matplotlib

Неважно, как сильно вы пытаетесь быть хорошим в чём-то, всегда найдутся другие люди, делающие это намного лучше. Таким примерам нечего завидовать, ими нужно вдохновляться.

Показательный пример: эти семь шедевров Matplotlib. Я собрал их из блокнотов Kaggle с золотыми медалями, которые привлекли внимание тысяч людей.

Matplotlib — одна из самых мощных библиотек в Python, и если вы отдадите её гению с творческим подходом, вы получите интересный результат.

Читать

bigdatai

Читать полностью…

Big Data AI

🎼Датасеты для генерации и анализа музыки

MAESTRO
MAESTRO (MIDI and Audio Edited for Synchronous Tracks and Organisation) содержит более 200 часов аннотированных записей международных конкурсов пианистов за последние десять лет.

NSynth
Этот датасет состоит из 305 979 музыкальных нот и включает записи 1006 различных инструментов, таких как флейта, гитара, фортепиано и орган. Датасет аннотирован по типу инструмента (акустический, электронный или синтетический) и другим звуковым параметрам.

Lakh MIDI v0.1
В датасете имеется 176,581 MIDI-файл, из которых 45,129 связаны с образцами из Million Song Dataset. Данный датасет разработан для упрощения поиска музыкальной информации на основе текста и аудио контента в большом масштабе.

URMP
URMP - это набор данных, который используется для анализа музыкальных выступлений. В нем содержатся различные музыкальные композиции, в которых присутствуют различные инструменты. Эти композиции созданы из отдельных записей исполнений каждого трека.

Music21
Music21 содержит музыкальные выступления из 21 категории и нацелен на решение исследовательских задач (например, поиска ответа на вопрос :»Какая группа использовала данные аккорды впервые?»)

bigdatai

Читать полностью…

Big Data AI

20 встроенных библиотек Python, которые заслуживают гораздо большего внимания

Большинство людей думают, что массовое доминирование Python связано с его мощными библиотеками, такими как NumPy, Pandas, Sklearn, XGBoost и т.д. Это сторонние библиотеки, написанные профессиональными разработчиками, часто с помощью других более быстрых языков программирования, таких как C, Java или C++. .

Таким образом, один из слабых аргументов, которые ненавистники могут привести против Python, заключается в том, что он перестанет быть таким популярным, как только вы избавитесь от всей славы, которую приносят эти сторонние библиотеки. Я здесь, чтобы сказать обратное и показать, что даже стандартный Python достаточно мощен, чтобы составить серьезную конкуренцию любому языку.

Я предлагаю вашему вниманию 20 встроенных библиотек, которые находятся всего в одной строке от того, чтобы быть запущенными.

Читать

/channel/bigdatai

Читать полностью…

Big Data AI

🎞 YouTube-ASL

Этот репозиторий содержит информацию о наборе данных YouTube-ASL, крупномасштабном датасете с открытым исходным кодом, содержащем видеоролики на американском языке жестов с английскими субтитрами.

Этот набор данных состоит из 11 093 видео на ASL с 984 часами отснятого материала и 610 193 английскими титрами.

https://github.com/google-research/google-research/tree/master/youtube_asl

@bigdatai

Читать полностью…

Big Data AI

📌 Подборка интересных датасетов

IMDB reviews — 25 000 отзывов на фильмы в тренировочном наборе и 25 000 в тестовом. (Вариант применения с исходником на R: Sentiment Analysis Data Science Project)

MS COCO dataset — 1,5 млн размеченных изображений.

CIFAR-10 and CIFAR-100 dataset — CIFAR-10 содержит 60,000 маленьких изображений 32*32 pixels цифр 0-9. CIFAR-100 — соответственно, 0-100.

GTSRB (German traffic sign recognition benchmark) Dataset — 50 000 изображений 43 дорожных знаков. (Вариант применения с исходником на Python: Traffic Signs Recognition Python Project)

ImageNet dataset — содержит более 100 000 фраз и около 1000 изображений на фразу.

Breast Histopathology Images Dataset — датасет содержит изображения образцов рака молочной железы. (Вариант применения с исходником на Breast Cancer Classification Python Project)

Cityscapes Dataset — содержит высококачественные аннотации видеопоследовательностей улиц разных городов.

Kinetics Dataset — содержит URL-ссылку на около 6,5 миллионов высококачественных видео.

All Reddit Sublessons — содержит все подзаголовки reddit до 2015 года.

Jeopardy Questions — вопросы и количество баллов из игрового шоу Jeopardy.

New York City Property Tax Data - данные о недвижимости и оценочной стоимости в Нью-Йорке.

Опросы молодых людей. Данные о предпочтениях, интересах, привычках, мнениях и страхах молодых людей.

Мировые рейтинги университетов. Исследуйте лучшие университеты мира.

Обнаружение мошенничества с кредитными картами. Датасет по анонимным транзакциям кредитных карт, помеченные как мошеннические или подлинные.

Датасет болезней сердца. База данных содержит 76 атрибутов, таких как возраст, пол, тип боли в груди, артериальное давление в покое и другие.

Европейская футбольная база. Больше 25 тысяч матчей, атрибуты игроков и команд для европейского профессионального футбола.

Винные обзоры. 130 тысяч винных обзоров с разнообразием, местоположением, винодельней, ценой и описанием.

Baidu Apolloscapes. Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и так далее.

Comma.ai. Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах.

Распознавание цветов. Набор данных содержит 4242 изображения цветов. Сбор данных основан на данных Flickr, изображениях Google и «Яндекса».

Ежедневная рыночная цена каждой криптовалюты. Исторические цены на криптовалюту для всех токенов.

Шоколадный рейтинг. Экспертный рейтинг более 1700 шоколадных батончиков.

@bigdatai

Читать полностью…

Big Data AI

Введение для Python-разработчиков в Prompt Engineering GPT-4

Это пошаговое руководство, использующее примеры, представляет собой введение в Prompt Engineering в этих трех областях.

Цель состоит в том, чтобы помочь вам понять, как эффективно управлять GPT-4 для достижения оптимальных результатов в процессе разработки Python.

Читать

@
bigdatai

Читать полностью…

Big Data AI

Познакомьтесь с Gorilla: LLM Калифорнийского университета в Беркли и Microsoft с API-расширением превосходит GPT-4, Chat-GPT и Claude

Недавние достижения в области больших языковых моделей (LLM) произвели революцию в этой области, снабдив их новыми возможностями, такими как естественный диалог, математические рассуждения и программный синтез. Тем не менее, LLM по-прежнему сталкиваются с присущими им ограничениями.

Недавно исследователи из Калифорнийского университета в Беркли и Microsoft представили Gorilla — модель LLaMA-7B, разработанную специально для вызовов API. Gorilla полагается на самообучаемые методы тонкой настройки и поиска, чтобы позволить LLM точно выбирать из большого и постоянно развивающегося набора инструментов, выраженных через их API и документацию.

Читать

@
bigdatai

Читать полностью…

Big Data AI

SocialNetworks Datasets

2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]

72 hours #gamergate Twitter Scrape [Meta]

CMU Enron Email of 150 users [Meta]

Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]

China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]

Clubhouse Dataset [Meta]

A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]

43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]

EDRM Enron EMail of 151 users, hosted on S3 [Meta]

Facebook Data Scrape (2005) [Meta]

Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]

Facebook Social Networks from LAW (since 2007) [Meta]

Foursquare from UMN/Sarwat (2013) [Meta]

GitHub Collaboration Archive [Meta]

Google Scholar citation relations [Meta]

High-Resolution Contact Networks from Wearable Sensors [Meta]

Indie Map: social graph and crawl of top IndieWeb sites [Meta]

Mobile Social Networks from UMASS [Meta]

Network Twitter Data [Meta]

Reddit Comments [Meta]

Skytrax' Air Travel Reviews Dataset [Meta]

Social Twitter Data [Meta]

SourceForge.net Research Data [Meta]

The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]

Twitch Top Streamer's Data [Meta]

Twitter Data for Online Reputation Management [Meta]

Twitter Data for Sentiment Analysis [Meta]

Twitter Graph of entire Twitter site [Meta]

Twitter Scrape Calufa May 2011 [Meta]

UNIMI/LAW Social Network Datasets [Meta]

United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]

Yahoo! Graph and Social Data [Meta]

Youtube Video Social Graph in 2007,2008 [Meta]

@bigdatai

Читать полностью…

Big Data AI

SocialNetworks Datasets

2021 Portuguese Elections Twitter Dataset - 57M+ tweets, 1M+ users - This dataset contains [...] [Meta]

72 hours #gamergate Twitter Scrape [Meta]

CMU Enron Email of 150 users [Meta]

Cheng-Caverlee-Lee September 2009 - January 2010 Twitter Scrape [Meta]

China Biographical Database - The China Biographical Database is a freely accessible [...] [Meta]

Clubhouse Dataset [Meta]

A Twitter Dataset of 40+ million tweets related to COVID-19 - Due to the relevance of the [...] [Meta]

43k+ Donald Trump Twitter Screenshots - This archive contains screenshots of 43,475 Donald [...] [Meta]

EDRM Enron EMail of 151 users, hosted on S3 [Meta]

Facebook Data Scrape (2005) [Meta]

Facebook Social Connectedness Index - We use an anonymized snapshot of all active Facebook [...] [Meta]

Facebook Social Networks from LAW (since 2007) [Meta]

Foursquare from UMN/Sarwat (2013) [Meta]

GitHub Collaboration Archive [Meta]

Google Scholar citation relations [Meta]

High-Resolution Contact Networks from Wearable Sensors [Meta]

Indie Map: social graph and crawl of top IndieWeb sites [Meta]

Mobile Social Networks from UMASS [Meta]

Network Twitter Data [Meta]

Reddit Comments [Meta]

Skytrax' Air Travel Reviews Dataset [Meta]

Social Twitter Data [Meta]

SourceForge.net Research Data [Meta]

The Reddit COVID dataset - This dataset attempts to capture the full extent of COVID-19 [...] [Meta]

Twitch Top Streamer's Data [Meta]

Twitter Data for Online Reputation Management [Meta]

Twitter Data for Sentiment Analysis [Meta]

Twitter Graph of entire Twitter site [Meta]

Twitter Scrape Calufa May 2011 [Meta]

UNIMI/LAW Social Network Datasets [Meta]

United States Congress Twitter Data - Daily datasets with tweets of 1100+ accounts associated [...] [Meta]

Yahoo! Graph and Social Data [Meta]

Youtube Video Social Graph in 2007,2008 [Meta]

@bigdatai

Читать полностью…

Big Data AI

Чем больший объем данных используют на проекте, чем выше нагрузка на систему – тем более продвинутый SQL нужен разработчикам. Изучить SQL и свободно использовать его в работе поможет курс Практикума.

После 3 месяцев курса разработчики смогут:
— уверенно пользоваться простыми селектами, джоинами, индексами и оконными функциями;
— отладить запрос, который сгенерирован через ORM;
— составить сложные запросы на нативном SQL;
— применить продвинутый SQL, чтобы писать код для высоконагруженных систем,
— чувствовать себя спокойно на собеседованиях.

Записывайтесь и растите в карьере

Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid:LjN8KD49u

Читать полностью…
Subscribe to a channel