Если раньше ранжирование в Yandex могло быть от частного к общему, то сейчас все наоборот.
Например, раньше даже с достаточно слабым хостом, но за счет оптимизации отдельных документов можно было получать хорошие позиции на эти документы + если к этому добавить programmatic подход, то за достаточно короткий срок, сайт собирал много трафика.
Сейчас все изменилось в обратную сторону. Нужно иметь жирный хост и тогда, даже самые УГ документы, будут собирать тонны трафика.
Я это все к тому, что многие на рынке пытаются добиться результата вылизывая отдельные документы (добавляют вхождения, переколдовывают их, играются с E-A-T), а по факту, нужно обрастать жирком.
Раскачаете хост, будет по всем документам нормальная видимость.
P.S. On Page никто не отменял!
👉 @seopraktika / Кравцов Виталий
⌨️ SEO/ASO/PPC: три сферы — в одном канале
Три мастера своего дела — SEO-шник, ASO-шник и PPC-гуру — объединились, чтобы создать CPA Compass.
Больше не нужно подписываться на десятки телеграм-каналов и скроллить ленту в поиске полезной инфы.
Что вас ждет?
🗣Ключевые слова: как не переспамить и чем это грозит?
🗣Война за конверсии: как быстро раскрутить сайт с нуля?
🗣Новости из мира SEO/ASO/PPC: узнавайте о важном первым
Парни готовят еще больше контента, который точно прокачает ваши навыки. Подписывайтесь!
Спросил у ChatGPT, как спалить chatGPT 😎:
Определение контента, созданного с помощью искусственного интеллекта, может быть немного сложным, так как технологии постоянного совершенствуются. Однако существует несколько характерных признаков, которые могут указывать на использование AI при создании текста. Вот основные из них:Читать полностью…
1. Однообразие и шаблонность: AI-тексты могут зачастую звучать очень строго, без различий в стиле, тоне или индивидуальности. Это может проявляться в повторении определенных фраз или структур предложений.
2. Отсутствие глубины: AI может создавать текст, облегчающий понимание, но часто ему не хватает глубины анализа, оригинальных идей или креативного подхода к сложным темам.
3. Лексическая простота: AI часто использует более простой и ясный язык, что делает текст доступным, но иногда и невыразительным.
4. Частые грамматические ошибки или неточности: В некоторых случаях AI может генерировать текст с ошибками, которые встречаются реже у опытных авторов.
5. Отсутствие личного опыта или мнения: AI создает контент на основе уже существующих данных, что приводит к отсутствию личных мнений или уникального взгляда на предмет.
6. Структура и логика: AI может порой создавать тексты с нелогичной структурой, где идеи следуют друг за другом без четкой связи или последовательности.
7. Отсутствие эмоций и тональности: AI-тексты могут звучать нейтрально, лишенные эмоционального окраса, что делает их менее привлекательными и выразительными.
8. Акцент на фактах и статистике: AI часто ориентируется на данные и факты, что может привести к отсутствию рассказа или повествовательного элемента, который часто присутствует в человеческом письме.
9. Повторяемость тем: AI может склоняться к созданию контента на те же темы, которые уже были разработаны, так как он основан на существующих данных и шаблонах.
10. Анализ на основе шаблонов: AI может выявлять и использовать определенные паттерны, которые хорошо подходят для тематического содержания, что создаёт эффект «стандартного» текста.
Эти признаки могут помочь отличить AI-контент от текста, созданного человеком, однако стоит помнить, что технологии постоянно развиваются, и границы могут смещаться
‼️Google В С Ё — корпорация зла запретила регистрироваться в своих сервисах на российские номера
Напомним, что 12 сентября вступают в силу санкции от Минфина США, которые запрещают предоставление услуг в сфере программного обеспечения и IT любому лицу на территории России (в том числе физлицам).
💰Пресейл и КП
Сегодня про агентскую тему. Основное направление, чем сейчас в агентстве занимаюсь сам — это продажи. Я уже довольно давно не работаю сам ручками, как спец. Могу дропчики еще поискать, чтобы тестить новые подходы. В остальном это бесконечные тесты и операционка (чаще всего про ссылочное). Обычно я генерю идеи и отдаю на тест всё команде. Выявляем то, что работает стабильно, и перекладываем наработки на клиентский отдел. Про часть тестов рассказываем на канале. В продажах надолго засел. Описываю все процессы, но передать пока трудно, так как многое завязано на мне.
Коммерческое предложение (далее КП). Каждое КП довольно громоздкое, примерно на 50 слайдов. В каждый проект нужно вникать. Кому-то трафик нужен. Кому-то просто позиции по конкретным запросам, а кому-то лиды и продажи. Везде свои сложности и поэтому приходится дополнительно первично скорить лиды.
Первичный скоринг (квалификация лида). Как только прилетает лид, клиенты получают стандартные вопросы:
➡️ Что за сайт?
➡️ Обращается маркетолог или владелец бизнеса?
➡️ Работали до этого по SEO?
➡️ Какие задачи перед нами ставят?
➡️ На какой бюджет рассчитывают?
➡️ Когда смогут прийти в работу?
Вопросы базовые. Возможно, часть людей, увидев эти вопросы, примут такой вид и это нормально, но скорить необходимо, чтобы не потратить время зря (нам и клиенту) на следующих этапах. Бывало такое, что делали КП (у нас это занимает 2-3 рабочих дня), а по факту оказывалось, что клиент рассчитывал на разовые работы (у нас только абонентка). Или когда мы понимали, что не сможем выполнить задачу клиента по разным причинам. Все эти вопросы необходимы, чтобы понять, как нам продавать (владельцу бизнеса и маркетологу продажа осуществляется по разному). Оцениваем адекватность клиента. На потребность (чем мы ему можем быть полезными). Бюджет и срочность. Часто уже по ответам на эти простейшие вопросы становится понятно, можем ли мы помочь клиенту или нет. Кстати, бывают и адекватные клиенты, у которых мы не проходим только по цене. Могу их передавать по партнерке, если вдруг кому интересно.
Изначально, само собой, отсекаем всё то, что нам не подходит в принципе (по тематике, по CMS — не работаем с Тильдой и т.п.). Есть также этап с простой проверкой контрагента (выручка, прибыль, количество сотрудников, арбитраж). Подумайте сами, будете ли вы работать с людьми, которые судятся со своими подрядчиками на постоянной основе?
Плюс нас частенько подключают только на ссылочные работы руководы отделов маркетинга. В этом случае КП отличается от обычного комплексного подхода (когда по SEO делаем всё).
Дальше, после КП важно созвониться и закрыть все оставшиеся вопросы. Чем холоднее клиент, тем больше вопросов про гарантии и т.п. Их никогда не даём и прямо об этом говорю людям, чтобы не строили иллюзий про быстрые результаты и т.п. Частенько бывает, клиент, уйдя холодным, возвращается через некоторое время, успев обжечься в другом месте. У нас есть клиент, у которого ранее было агентство, которое не составляло даже ежемесячных отчетов о выполненных работах.
Отдельно прокачивался по обработке возражений (дорого, подумаю и т.п.), но в итоге все равно не так часто получается закрывать подписанием договора. После внедрения системы кастдевов у клиентов в работе начал опрашивать клиентов, которые нас не выбирают. Спрашиваю причину и никогда не спорю. Плюс советуюсь с более опытными руководами отделов продаж, чтобы подсказали, как бы сами поступили в разных сценариях.
Кстати, про изучение КП было видео на Ютубе. Рекомендую посмотреть владельцам бизнесов и маркетологам. Будет полезно при выборе подрядчиков. 👌
@SEOsekretiki
🔥 Вакансия: SEO-специалист/Линкбилдер (удаленно)
от 70 000 до 100 000 ₽ на руки
Требуемый опыт работы: 1–3 года
Полная занятость, удаленная работа
Тема, про которую давно планировал рассказать, пришлось даже стряхнуть пыль с микрофона и вспомнить пароль от ютуба.
О чем видео?
🟠Принципиальные различия в ранжировании Яндекс и Google
🟠Как Яндекс распределяет трафик по запросам, страницам и сайтам в рунете
🟠Можно ли и как влиять на улучшение отдельных параметров
Распространите 🫶
🖥 👉 https://youtu.be/QPY0u1XcDqQ
Первые 10 дней работы из Хургады прошли норм! Впереди ещё 9-10 месяцев.
1. Вполне хороший и стабильный интернет для операционной деятельности, без тормозов тянет видео созвоны.
2. Море за окном, до пляжа пара минут.
3. Вкусные и свежие продукты.
Кто поедет на отдых, пишите, можно будет встретиться!
3 товарища: асошник, сеошник и ppc-шник создали канал CPA Compass, чтобы делиться своим опытом, обсуждать новости и горячие темы.
Переходите на канал и читайте интересные статьи:
■ Слив алгоритмов ранжирования Google
■ Как завоевать доверие читателей и поисковиков
■ Работать в соло или в компании. Где лучше?
Ребята только начинают свой путь в блогинге и уже запланировали много годного контента.
Подписывайтесь на CPA Compass 😮 и читайте интересные статьи!
Перелидоз из SEO на сайты услуг - на что делать акцент при продвижении сайтов услуг в SEO?
⏱ Таймкоды:
00:00 - Вступление
1:35 - Боли клиентов в SEO
4:00 - Отзывы клиентов
4:52 - Перед началом
8:35 - Полная стратегия работ
11:15 - Базовая структура
14:40 - Структура страницы
17:15 - Текстовая оптимизация
20:06 - Репутация
23:00 - Отзывы в Я.Браузере
24:15 - Стимулирование отзывов
25:23 - Нужен ли блог
27:00 - Ссылки
29:36 - Накрутка ПФ
32:40 - Аудио отзыв
35:10 - Заключение
35:40 - Аналитика
SEO практика | Кравцов Виталий - @seopraktika
🔍 Google и тексты, часть 7
Короче, еще один сайт, который не вписывается в мою картину мира и мою методику проверки на текстовый фильтр в Google.
⚠️ Напомню, основная идея в том, что часто GSC показывает, что страница находится в «индексе», но при этом не ранжируется. Страницу также можно найти по [site:адрес_страницы]. Если страница «проблемная», то она не ищется по ключам и не ищется по запросу [inurl:адрес_страницы].
Также я применяю подход с маркерами, это своего рода «слово», которое встречается только на моей странице. При поиске по этому слову она всегда также должна находиться, т.к. нет других документов в базе Google.
На определенном количестве сайтов и урлов замечено, что если страница не ищется по маркеру, то и по нормальным ключам она искаться не будет. Отдельно замечу что по запросу [МАРКЕР site:адрес_страницы] урл находится, а по [МАРКЕР inurl:адрес_страницы] и просто [МАРКЕР] не находится.
В целом данный подход позволяет достаточно точно находить зафильтрованные урлы и играться с текстами, чтобы решить проблему.
❗️ Ну так вот, свежий пример, который не вписался в эту схему. Взял дроп домен, развернул на нем страницу, вписал маркер, переиндексировал в GSC. Снимаю позиции – по inurl и маркеру не ищется. Думаю надо корректировать текст. Захожу в GSC, а там показы по ключам. Снимаю по этим ключам позиции – сайт по ним ранжируется.
Еще раз – по уникальному слову, которое есть только на целевой странице НЕ ранжируется, а по ключам ранжируется. При поиске с ограничением по сайту вида [МАРКЕР site:адрес_страницы] целевая страница находится, а по [МАРКЕР inurl:адрес_страницы] и просто [МАРКЕР] нет.
😠 Бесит короче
P.S. Хочется верить, что просто глюк и через день-два начнет нормально искаться и по маркерам. Ну или что хуже, но тоже не рушит схему - обвалится по ключам.
Прошлые части:
🟠Google и тексты, часть 1
🟠Google и тексты, часть 2
🟠Google и тексты, часть 3
🟠Google и тексты, часть 4
🟠Google и тексты, часть 5
🟠Google и тексты, часть 6
#google #googletext
❗️BBD 2024 – играем в легендарную игру мемы от KW Group!
Денис Нарижный и Виталий Кравцов будут ждать тебя 9 августа на препати в 14:00.
Живое общение, нетворкинг на берегу моря.
Денис Нарижный, Co-Founder KW Group, выступит с докладом о Поведенческих Факторах (ПФ) на мастер-классе в 17:00.
🌟Не упустите шанс выиграть призы от KW Group, включая легендарную игру Мемы, стильные кепки и многое другое. Розыгрыш состоится после выступления Дениса.
Подробнее по ссылке: https://balticdigitaldays.ru/program_2024
⚡️ В этом году, я модерирую SEO секцию на На БДД и у меня для вас огненная новость!
На секции выступит Михаил Сливинский из Яндекса с докладом "Частые вопросы о работе поиска при оптимизации сайта: взгляд изнутри Яндекса".
Мы шли к этому много лет, убеждая представителей поисковой системы, что у нас та аудитория, которой нужны именно такие доклады, а не рассказывать про настройку Директа. И получилось! Очень ждем и участников, и аншлаг именно на этом докладе, тем более, что он открывает программу второго дня.
Кто еще не успел, покупайте билет и приезжайте. Еды и напитков до отвала, а еще больше общения с профессионалами из отрасли. Поездка, которая заряжает на год вперед!
👉 Специально для подписчиков канала @SEOpraktika промкод на скидку (-6002 рубля): KRAVCOV 👈
Программа конференции: https://balticdigitaldays.ru/program_2024
Выручка компаний на 1 сотрудника. С фантиками все понятно, очень порадовали цифры CraigsList, кто не не знает - это старейший классифайд, а если по Русски - доска объявлений!
Читать полностью…🏓 35 вопросов по семантике
Беседа Дмитрия Шевцова @SemantistRu и Сергея Сморовоза @smorovozru в студии W3Promo.
00:00 сбор семантики для SEO
00:52 семантика для сайта и маркетплейса
01:03 можно купить чужую семантику
02:53 что делать если нет бюджета
03:31 как быстро можно собрать семантику
04:12 этапы сбора семантики для сайта
05:04 аудит и оценка ниши
06:02 оценка объёма трафика на сайт
07:20 мониторинг сезонный и несезонный
09:32 мониторинг в нишах
10:32 лайфхак по семантике
11:25 тестовые заказы на семантику
12:48 объем семантических кластеров
13:48 семантика для элитной недвижимости
14:32 метод кластеризации ключевых фраз
16:01 проблема кластеризации по топу
18:21 кластеризация в узких нишах
20:06 как разделять семантику B2C от B2B
22:58 оценка качества SEO на сайте
24:42 запросы собрали но нет результата
26:40 критерий оценки возраста сайта
27:06 что лучше ссылочное или трафик
29:52 сроки сборки ключевых запросов
32:18 удаление ключевых запросов из семантики
33:52 сбор семантики аналогичной тематики
35:44 семантика для конкурентов
37:44 тестовый заказ
39:11 seo внедрение семантики на сайт
40:24 внедрение коммерческих запросов
43:26 seo фотки
44:29 рост трафика на сайте после сбора семантики
49:41 пересечение разных тематик на сайте
52:49 когда нужно обновлять список ключевых фраз
56:40 что делать, когда мало запросов
01:02:46 как оптимизировать карточки товара маркетплейсов
01:05:22 работа с ключевыми фразами из маркетплейсов
01:09:38 выгрузка семантики из маркетплейсов
01:12:05 создание масок для карточек товара
https://www.youtube.com/watch?v=xlePx9avvk0
Михаил Шакин, @shakinru #семантика #подборка #факторы
Indexing API: предупреждение от Google
Google добавили предупреждение спамерам о злоупотреблении Indexing API.
- Все отправки через Indexing API проверяются на спам.
- Попытки злоупотребления API ведут к аннулированию доступа.
- Примеры злоупотреблений: использование нескольких аккаунтов, превышение квот.
Для e-comm очень толковые инструменты пилят. Реально, если иметь свой ИМ, глупо наверное не пользоваться всеми плюшками.
Такие инструменты нужно обязательно включать в стратегию продвижения наряду с SEO.
Яндекс придумал инструмент «Товары» для онлайн-магазинов, он теперь и с представленностью в Поиске помогает, и аналитику по рекламному трафику вашего бизнеса покажет, и подскажет, как продажи через Яндекс вырастить.
Конкурс Дорвейщиков!
Доры RIP? Нихрена - Доры, как и старик Ульянов… Живее всех живых! 🙂
Участие в конкурсе группы "Дорвеи и Дорвейщики" – это отличная возможность продемонстрировать свои знания и навыки Дорвейщика, а также поделиться своими достижениями с нашим тематическим сообществом.
В этом гайде мы расскажем об условиях, призах, и как правильно подготовить конкурсную работу, чтобы она произвела впечатление на опытных, а главное, новичков - дорвейщиков, и получила высокую оценку, на что обратить внимание при её написании и какие требования нужно соблюдать.
В конкурсе будет две “темы”:
1. Кейсы и опыт работы с дорами…
2. Техничка, скрипты, софт…
Организаторы и Партнеры конкурса:
- Администрация группы "Дорвеи и Дорвейщики"
- Vip Клуб Дорвейщиков
- Пуш партнерская программа hClicks.com
- Прямой рекламодатель казино 7 Slots
- Новая ПП с “витриной ссылок” AdsPlain.com
- Генерации ИИ Контента ClipAI.pro
- Cервис ускорения индексации - SpeedyIndex
- Кручу Верчу - информационный партнер
- MAXIMAFFILIATE - информационный партнер
- Vysokoff SEO - информационный партнер
- VirtProfit - информационный партнер
- SEO Дрифт - информационный партнер
- SEO-aspirant - информационный партнер
Про призы…
В каждой из 2-х “тем” будет 3 призовых места, призы 300 / 250 / 200 убитых енотов соответственно…
+ Каждый из призеров выше получит месячную лицензию на софт по генерации контента ClipAI (тариф стоимостью 50$)
SpeedyIndex в качестве приза предоставит пакет 50к ссылок за 99$ - это утешительный приз, для “8-го” места
Для “9-го” и “10-го” места Денис Нарижный и команда Кручу Верчу тоже приготовили утешительные призы - Легендарная игра мемы от KW Group, фирменная кружка и картхолдер…
Но это еще не все призы…
В рамках VIP Клуба Дорвейщиков (о нем вы можете узнать тут...) состоится закрытое голосование и выбор того, кому достанется супер приз - доступ в наш Vip Клуб на год (стоимость на текущий момент 2024 usdt)
При одинаковом количестве "голосов" - последнее слово остается за IT Dedом❗️
Денежные призы будут выплачены ТОЛЬКО на Капиталист❗️
Требования и сроки проведения конкурса.
Основные Требования...
1. Подписаться на каналы партнеров
2. Перейти в бота SpeedyIndex
3. Зарегистрироваться у Партнеров
AdsPlain.com, hClicks.com, 7 Slots
Партнерки норм - рекомендация от IT Deda!
4. В конце или начале конкурсной работы ОБЯЗАТЕЛЬНО скопируйте блок
"Организаторы и Партнеры конкурса"... вместе со ссылками, если это видео - в описании к нему...
5. Статьи вы можете размещать на своих ресурсах, каналах, в соцсетях, если ни чего подобного у вас нет, то Телеграф вам в помощь
А ссылки на конкурсные работы разместить в разделе "Дорвейные Конкурсы" - там будут учитываться голоса Дорвейщиков для выбора победителей...
При публикации ссылок плиииз... ставьте хеши
#Дорвейный_Конкурс, #Дорвейный_Кейс, #Дорвейный_Soft, #Техничка_Для_Доров
Сроки проведения Дорвейного Конкурса:
Конкурс стартует в День Знаний - 01.09.2024 и работы принимаются до 15.09.2024 включительно...
От одного участника принимается до 5ти работ, каждая оценивается отдельно, но каждый участник может выиграть только 1 приз...
Голосование за победителей будет проходить с момента подачи работ и до 22.09.2024
Реакции за работу, которая будет учитываться при подсчете голосов - 👍 🔥 👌
Остальные реакции игнорируются...
Выплата и выдача призов - в течении недели, после голосования.
Аффирмации для выхода в топ-3 Яндекса
Постоянно вижу нытье, что в сеошке слишком много теоретиков и очень мало практиков. Все хотят получить такой совет, шоб последовать ему и получить лям через 0 секунд. Поэтому решила бесплатно дать вам шанс занять лидирующие места в выдаче.
✨ Зачем нужны аффирмации? Исследования японского ученого Масару Эмото показали, что вода может реагировать на слова, мысли и эмоции. Человек состоит из воды ~ на 75%.
😇 Своим мышлением мы притягиваем те, или иные ситуации в свою жизнь! Если рассматривать это с точки зрения трансерфинга реальности - работая с этим инструментом, вы перемещаетесь на те линии реальности, где обладаете этим. Как их применять?
1. Встаньте перед зеркалом, глядя себе в глаза.
2. Произносите аффирмации вслух с уверенностью и эмоциями.
3. Повторяйте ежедневно, утром или перед сном.
4. Наблюдайте за изменениями в мыслях, самооценке и реальности.
Зеркало усиливает эффект, создавая визуальное подтверждение ваших слов.
Аффирмации:
✅Мой документ набирает хорошие ПФ каждую минуту легко. Яндекс это учитывает и ставит меня выше конкурентов. Я благодарен Вселенной за свои высокие позиции.
✅Текстовая релевантность моего документа выше, чем у конкурентов.
✅Мой сайт сделан для людей и Яндекс высоко это ценит.
✅Мой хост жирнее, чем у конкурентов.
✅Я получаю самые лучшие оценки оффлайн метрик. Значения BizKernel моего сайта растут.
✅С каждой итерацией мой сайт становится все более релевантным и качественным. Проксима высоко его оценивает и подтверждает превосходство над конкурентами. Асессорам нравится мой сайт.
✅Алгоритмы Яндекса благосклонны к моему сайту, его позиции стабильно растут и укрепляются в топ-3.
✅Я — талантливый сЭо-специалист, Вселенная любит меня.Я применяю их каждый день и уже поставила многие свои проекты в топ.
Ставь 🔥 если знаешь и используешь эти аффирмации, уже чилишь в топе.
Ставь ❤️ если ты не понимаешь о чем речь и такой же бесполезный как накрутка на турбо-страницы. 🤩😘
SEO для доставки еды: неужели в MOAB готовы работать за 120 000 ₽ в месяц?
Из MOAB обычно приносят кейсы формата: к нам пришел Ozon, Hoff, Пикабу, ВсеИнструменты, нужное подчеркнуть, дал 100500 миллионов деняк, и стало много трафика.
В этот раз у нас инвертированный MOAB, готовый работать за бесплатно (почти).
Суть кейса: доставка еды в Москве, мясо, рыба, фрукты. Конкуренция - понятно с кем.
Бюджет - 120 000 ₽ в месяц.
Было: 30 000 уников в месяц из SEO, стало - 70 000.
Как обычно, все скрины из Метрики, планы работ, детали и внутренняя кухня - в наличии.
В общем, кейс с микробюджетом, все как вы любите: https://vc.ru/marketing/1369207-kak-servisu-dostavki-produktov-bodatsya-v-vydache-s-yandeksedoi-optimizaciya-apetiru-v-cifrah-i-skrinshotah/?erid=LjN8KJZR5
Ну и еще немного норм контента от Исерсона по ссылкам - подписывайтесь, не пожалеете!
- аутстаффинг разнорабочих "здорового человека",
- как "архивный король" зарабатывает на бюрократии,
- как устроен бизнес старейшей частной больницы Москвы.
На выходных (9-10 августа) в Калининграде состоялась конференция Baltic Digital Days, на которой, помимо интересных докладов, прошло вручение Премии BDD в различных номинациях.
Инструмент для кластеризации ARSENKIN TOOLS одержал победу в категории «Лучший сервис по кластеризации», опередив конкурентов.
Саня, поздравляю 🔥🤘
💬 Новый подход к расчёту рейтинга интернет-магазинов в Поиске
При выборе товаров и интернет-магазинов покупатели ориентируются на множество факторов, в том числе на рейтинг в Поиске.
Чтобы дать покупателям больше информации об интернет-магазинах, с помощью алгоритмов машинного обучения мы проанализировали отзывы в Яндекс Картах, определили те, которые относятся к онлайн-покупкам, и теперь будем учитывать их в рейтинге магазинов в Поиске.
Новая механика поможет потенциальным покупателям сформировать правильное впечатление о магазине и уровне сервиса и выбрать точку, где они с большей вероятностью совершат покупку.
📌 12 августа отзывы из Яндекс Карт начнут учитываться в рейтинге магазинов из категории «Товары для дома». У таких отзывов при клике на рейтинг появится пометка «Из отзывов на организацию».
Подробнее об обновлении читайте в блоге Вебмастера.
Google... Слегка подшаманили со скоростью загрузки и попрятали половину ссылок с документов, чтобы на документе было меньше исходящих.
Читать полностью…Кластеризатор массивных семантических ядер по схожести выдачи
Для огромных семантических ядер скорость и масштабирумость группировки может быть более важна, чем ее точность, поэтому для таких случаев у меня был в запасе другой алгоритм. Он является продолжением идеи кластеризации через меру Жаккара описанной в предыдущих постах (1, 2). В комментариях к постам и в личных сообщениях возник интерес к решениям для массивных семантических ядер, поэтому я переписал предыдущий скрипт для них.
За репост буду благодарен! 🙏
В алгоритме используется техника MinHash и LSH. Этот метод, основанный на хэшировании и индексации множеств, позволяет быстро искать частичные дубликаты на больших данных. Он также, как кластеризатор из предыдущих постов, менее ресурсоемкий, чем векторное преобразование и операции над матрицами.
В чем разница между мерой Жаккара и этим решением?
Точность vs. Эффективность: Коэффициент Жаккара обеспечивает точное значение схожести, но неэффективен для больших данных. MinHash и LSH предоставляют приближенное значение, но значительно более эффективны для обработки больших объемов данных.
Например, японское семантическое ядро в 480 тысяч ключевых фраз было сгруппировано за 30 минут. Конечный результат вполне устроил, учитывая, что метод на основе Жаккара считал такой объем более суток. Отлично подойдет для дорвейщиков!
Скачать можно здесь:
https://drive.google.com/file/d/1b01TbXmWINe3w0haneMcHVy-opFZkwqH/view?usp=share_link
Проект на Github:
https://github.com/dartseoengineer/keyword-clustering-minhash
Инструкция
Внимание! Этот скрипт только кластеризует, для сбора выдачи используйте сторонние программы, например, A-Parser.
1. Предварительно установите библиотеки pandas и tqdm.
pip install pandas
pip install tqdm
pip install datasketch
python minhash-cluster-cli.py for-clustering.csv clustered_keywords.csv -s ';' -k 'keyword' -u 'url' -t 0.6