Кластеризатор массивных семантических ядер по схожести выдачи
Для огромных семантических ядер скорость и масштабирумость группировки может быть более важна, чем ее точность, поэтому для таких случаев у меня был в запасе другой алгоритм. Он является продолжением идеи кластеризации через меру Жаккара описанной в предыдущих постах (1, 2). В комментариях к постам и в личных сообщениях возник интерес к решениям для массивных семантических ядер, поэтому я переписал предыдущий скрипт для них.
За репост буду благодарен! 🙏
В алгоритме используется техника MinHash и LSH. Этот метод, основанный на хэшировании и индексации множеств, позволяет быстро искать частичные дубликаты на больших данных. Он также, как кластеризатор из предыдущих постов, менее ресурсоемкий, чем векторное преобразование и операции над матрицами.
В чем разница между мерой Жаккара и этим решением?
Точность vs. Эффективность: Коэффициент Жаккара обеспечивает точное значение схожести, но неэффективен для больших данных. MinHash и LSH предоставляют приближенное значение, но значительно более эффективны для обработки больших объемов данных.
Например, японское семантическое ядро в 480 тысяч ключевых фраз было сгруппировано за 30 минут. Конечный результат вполне устроил, учитывая, что метод на основе Жаккара считал такой объем более суток. Отлично подойдет для дорвейщиков!
Скачать можно здесь:
https://drive.google.com/file/d/1b01TbXmWINe3w0haneMcHVy-opFZkwqH/view?usp=share_link
Проект на Github:
https://github.com/dartseoengineer/keyword-clustering-minhash
Инструкция
Внимание! Этот скрипт только кластеризует, для сбора выдачи используйте сторонние программы, например, A-Parser.
1. Предварительно установите библиотеки pandas и tqdm.
pip install pandas
pip install tqdm
pip install datasketch
python minhash-cluster-cli.py for-clustering.csv clustered_keywords.csv -s ';' -k 'keyword' -u 'url' -t 0.6
Все на online Нарижник!
⚡️Друзья, зовем вас на первый online Нарижник от Кручу Верчу! Ведущий Денис Нарижный.
💻Будем играть в «Правда или ложь». Игра на платформе MyQuiz. Один раунд на час. Три факта о человеке, угадай один правдивый.
📍Встречаемся в Google Meet 18 июля, 18:00.
🤝10 победителей получат призы: легендарные мемы от Кручу Верчу, фирменный мерч.
Онлайн Нарижник - новый формат, хотим встречаться с вами чаще.
🔗Регистрация на сайте: https://meetup.kruchu-werchu.ru/online/ осталось всего 2 дня, не пропустите!
Новости в группе ВК: kruchu_werchu
Интересные статьи на Дзен: https://m.dzen.ru/kruchuwerchu
Youtube: Kruchu_Werchu">@Kruchu_Werchu
Знали что через Keys.so можно узнать трафик на раздел конкурента? Но решается через костыль:
🟠Заходим в мои проекты
🟠Добавляем проект по следующей маске: site.ru/folder*
🟠Можно добавить и по такой: site.ru/folder/*/slug/
🟠Вручную суммируем трафик для баз Яндекс.МСК и Google.МСК (переключение вверху справа)
Этот метод использую для аудита конкурентов, когда важно понять за счет каких разделов и в каких поисковиках они растут, а то трафика на сайт много, а потом выясняется что все на блог и только из Яндекса, а целевые посадочные собирают крохи.
Предварительно узнать сильные слаги можно скриптом
Запрос во вселенную (в саппорт) отправил, обещали сделать человеческий вывод для аналитики по трафику на разделы, а пока можно доставать данные так, хоть и не сильно удобно.
На удивление, первый раз этот сайт попался в выдаче, да и с видимостью не все так хорошо у него ))
Читать полностью…Очень хорошее саммари по SEO-продвижению SPA-сайтов, если метите в сеньоры или крепких миддлов, то гарантированно в теме нужно разбираться, потому что большинство топ сайтов работают на JS и рано или поздно вы на такой попадете.
При наличии адекватных программистов ничего страшного в них нет, для спеца добавляется только дополнительная итерация по проверке внесенных изменений не только в браузере, но и в коде, который видят ПС.
Кстати, неочевидный плюс этой технологии еще и в том, что ботам можно отдавать только, то что хотите, а не весь доступный код на странице, как в классическом html.
Например, запретили рендерить повторяющий блок или сквозные ссылки, и поисковики их не видят.
🔗 Ссылка на статья: https://vc.ru/seo/1262880-kak-podruzhit-saity-na-javascript-s-seo-ssr-ssg-isg-chto-eto-voobshe-takoe
🔻Предлагаем качественные ссылки с хорошим DR🔻
#предлагаю #ссылки #аутрич #крауд
СКИДКА 10% НА ПЕРВЫЙ ЗАКАЗ ⚡️⚡️⚡️
Хотите бесплатно получать ссылки с сайтов с хорошим DR, что индексируются и передают вес, тогда подписывайтесь на наш телеграм-канал - @mtpremium1 - чтобы бесплатно размещаться на сайтах 🚀
Предлагаем свои услуги продвижения сайтов любой тематики.
📍Крауд Маркетинг📍
✅ Качественные, модерируемые площадки
✅ Гарантия на ссылки в течении года.
✅ Утверждение все процессы работы (площадки, ветки, текст)
📍Персонализованный Аутрич📍
- Мы подберём лучшие ссылки под ваш бюджет. Работаем за фиксированную цену и более того, вы сами оплачиваете напрямую рекламодателю.
- Мы подбираем топ-варианты под ваши требования.
- Получаете док с выбранными вариантами и ценами.
US🇺🇸, GB🇬🇧, AU🇦🇺, DE🇩🇪,FR🇫🇷, IT🇨🇮, IN🇮🇳,ES🇪🇸
@mtpremium
Что такое продуктовое SEO, кому оно нужно, и как его внедрять в маркетинге?
На одной из встреч SEO-клуба Optimization мы обсудили эти важные темы с экспертами индустрии, а также провели созвоны с ведущими специалистами, такими как:
• Светлана Антонова (CPO Zoozavr),
• Евгений Берёзин (продакт в онлайн-рейтинге букмекеров),
• Юрий Никулин (Head of SEO в mos.ru),
• Владимир Сюткин (Head of SEO в Детском Мире),
• Дмитрий Белозёров (директор по e-com в flobas).
В нашей новой статье на VC мы рассказываем о следующих ключевых моментах:
🔺 Что такое продуктовое SEO и какому бизнесу оно нужно?
🔺 Как договориться сеошникам и продактам?
🔺 Как может появиться продуктовая культура в компании?
🔺 Где в продуктовом подходе в SEO может принимать участие агентство (внешний подрядчик)?
Эта статья поможет вам понять, какие изменения и новые подходы могут быть полезны для вашего бизнеса.
Переходите по ссылке, чтобы прочитать и поддержать нас лайком😉
OPTIMIZATION-2024🔥
На правах информационного партнёра приглашаю вас на знаменитую Optimization!
Расскажу немного о программе👇🏻
В этом году конференция пройдет в двух форматах:
⏺ 10 октября — бесплатный онлайн-день! Программа которого будет сформирована из тем оффлайн-дней.
⏺ 17-18 октября — продолжение конференции в Сколково. Участников ждет обновленная программа с докладами, адаптированными под текущую информационную повестку.
Вас ждут более 20 секций и 70 докладов от ведущих экспертов отрасли:
• Михаил Сливинский (амбассадор интернет-площадок в поиске)
• Игорь Ашманов, Денис Шубенок «Ашманов и партнёры» и другие лидеры отрасли таких компаний, как:
«DataInsight», «Рейтинг Рунета», «Мегамаркет», «Циан», «Calltouch» и др.
Познакомиться с программой и узнать больше о мероприятии👨🏻💻
Наглядный пример антифрода в сервисах Yandex!
Один и тот-же сайт, одинаковый период.
🤖 Link_Indexing_bot - на данный момент самое оптимальное решение для ускоренной индексации в Yandex и Google. Вроде работает, но использую, как дополнительный инструмент к стандартным методам в SEOшке. Прогоняю как свои сайты, так и документы, где проставлены ссылки на мой сайт.
Читать полностью…Сервис для сбора ключевых слов "Букварикс" стал бесплатным
– Еще с начала мая вся база доступна для скачивания здесь.
– С июня платные тарифы отменены
– Без регистрации максимальное количество фраз на каждый поиск 1 000 000
– После регистрации до 3 000 000
– Можно как выгружать дочерние запросы (как в вордстате), так и бесплатно получать запросы конкурентов
– Кроме того там неплохой функционал поиска пересекающихся запросов конкурентов.
Слив части алгоритма Google
В пятницу анонимный источник передал Рэнду Фишкину слив документов из Google API...
...которые, по всей видимости, представляют собой модули и функции, используемые в системах индексации и ранжирования поисковой системы. За последнюю четверть века ни об одной утечке такого масштаба или подробностей из поискового подразделения Google не сообщалось.
Первое видео с Нарижников, заходите смотреть, ставьте лайки и подписывайтесь на наш канал 🤝
https://www.youtube.com/watch?v=tXJGf2zRa1Q
Всем привет! Мы провели розыгрыш 2 билетов Gold со 100% скидкой с помощью рандомайзера.
Поздравляем победителей 🥳
В течение дня пришлем промики!
Я хоть и работаю в классической SEOшке, но очень интересуюсь дорвеями. Интервью одного известного в дорвейных кругах IT-деда! Советую почитать: https://telegra.ph/Intervyu-s-dorvejshchikom-iz-90-h-07-15
Читать полностью…🎉 KINZA 360 возвращается в Алматы!
Всем привет, я Денис Нарижный, сооснователь KW Group, приглашаю вас 25-26 августа 2024 года на форум KINZA 360. Мы с командой едем в Алматы, где состоится знаковая конференция.
🔍 Сергей Игнатьев, партнер KW Group, SEO-эксперт по ПФ, поделится опытом команды за 2024 год по работе ПФ в Google!
🎂 10 лет KINZA! Юбилейный форум обещает быть особенным: уникальные сюрпризы, более 2000 участников со всего мира, ценные призы и бонусы от партнеров, а также два дня незабываемого общения и новых впечатлений.
👋 Присоединяйтесь к нам на KINZA! Места заполняются быстро! Используйте промокод SEODEN и получите скидку 20%.
🔗 Официальный сайт: https://kz.kinza360.com 📢 Телеграм-канал: /channel/KINZA360_news
До 1 августа запусти продвижение PBN-ссылками в PromoPult и получи кешбэк 50% на счет аккаунта
• Быстрый результат в SEO: PBN-ссылки с собственных сетей сайтов PromoPult улучшат позиции в Яндексе и Google за 30-40 дней.
• Не теряй времени даром: пока позиции растут, используй кешбэк для привлечения клиентов из Яндекса и ВКонтакте — запускай контекст или таргет в PromoPult.
• Минимальный бюджет — 10 000 рублей.
Присоединяйся и получай больше продаж за меньшие деньги.
Реклама. ООО "Клик.ру" 7743771327
Бесплатный кластеризатор по топам
Для собственных нужд, я сделал кластеризатор по похожести SERP. Побудило на создание меня следующее:
- Программы чаще всего сделаны под Windows.
- Сервисы обычно предоставляют услугу как дополнительную.
- На больших объемах не выгодно.
- Виснут на 100к+ ключевых слов, мне нужны большие объемы.
- ChatGPT предлагает кластеризацию, которая не справляется с большими объемами.
- Мне нужна была поддержка любых языков.
- Не требовательно к ресурсам.
Я подумал, что для URL не обязательно нужна векторизация. По сути топ это множество, а для множеств можно использовать другие формулы, поэтому сделал кластеризатор на основе Коэффициента Жаккара. Я опробовал и други, например, Dice или Overlap, но они оказались хуже.
За репост буду благодарен! 🙏
Инструкция:
Сохраните себе копию данного файла на Google Drive через File, чтобы не сталкиваться каждый раз с предупреждением от Google Colab.
Внимание! Этот код только кластеризует, он не собирает выдачу. Собрать выдачу можно с помощью других сервисов, например, выгрузить Ahrefs с галочкой на Include top 10 positions from SERP for each keyword.
Для запуска необходимо нажать на кнопку play (▷) внизу и следовать инструкции.
1. Choose files. Загружаем CSV файл с, как минимум, 2-мя колонками: Keywords и URL.
2. Column delimiter. Вводим разделитель колонок. По умолчанию это запятая.
3. Keywords column label. Вводим заголовок колонки для поисковых фраз (чувствителен к регистру).
4. URL column label. Вводим заголовок колонки для URL (чувствителен к регистру).
5. Similarity threshold. Вводим порог похожести, я рекомендую 0,6.
6. Жмем кнопку Run.
7. После окончания работы нажимаем Save, чтобы сохранить в папку Downloads.
Файл результатов
1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.
Внимание! В браузере Safari работает некорректно, необходимо использовать Chrome.
https://colab.research.google.com/drive/1QGNNuY7OSBErn5am-dS1lnubHr-65kSF?usp=sharing
Про рост трафика на новых посадочных страницах
Есть мнение, что если проект не растёт, то что нужно сделать? Правильно - поменять сеошника (и периодически это срабатывает).
Но откуда это мнение взялось? Всё просто - покупается домен, на нём разворачивается сайт, туда выгружается первая пачка страниц и сайт показывает космический рост с 0 до, например, 300 посетителей в день (т.е в 300 раз). Владелец экстраполирует эту цифру на год вперёд и уже представляет как его тошнит от заказов и денег.
Далее создаётся такая же пачка страниц, все в ожидании трафика, а его нет, было 300, стало 330. Потом создаётся еще две пачки, а трафика только 350 на вагон страниц. Дальше идут попытки улучшить страницы LSI словами, доработкой метатегов, размещением бесполезных текстов. И примерно на этом этапе и приходит осознание, что пора менять подрядчика.
А что на самом деле? На старте домену дали бонус новичка и немного посетителей, которые выжглись первой партией страниц. Если все SEO для сайта было сосредоточено на внутрянке, то очень быстро потенциал к росту будет исчерпан, поскольку именно траст лимитирует трафик.
Пока траст позволяет (рис. 2) - создание новых посадок будет давать прирост трафика. Рис. 1 хорошо демонстрирует, что происходит когда на слабом сайте пытаются расти за счет создания новых страниц, это почти полностью бессмысленно.
Ключевые симптомы - плохая индексация, мало нового трафика, новые страницы не лезут в топ и индекс. Если у вас именно они - смещайте фокус с внутренних работ на внешние.
Накачивать весом сайт можно конечно через долгие танцы с бубнами над текстовой оптимизацией, через попытки собирать посетителей по НЧ НК ключам и вылизывая техничку по пятому кругу, но в разы эффективнее будет вложиться в ссылочное и платный трафик.
Есть тимлиды на горизонте?!
В двух словах из вакансии: нужен человек с хорошими хардами по SEO и управленческими навыками
https://hh.ru/vacancy/101943770
⚡️ В этом году модерирую секцию SEO на конференции Baltic Digital Days, которая пройдет 9 и 10 августа в Калининграде
Как и всегда, собирается ТОПовая digital тусовка, чтобы послушать доклады и по максимуму пообщаться в кулуарах.
Докладчики в секции SEO:
✅ Михаил Сливинский (Яндекс, Москва)
- Тема ожидается
✅ Михаил Шкодин (Kokoc Group, Москва)
- Современное SEO под Запад, общие подходы к SEO, которые работают во всех локациях рынка.
✅ Илья Русаков (impulse.guru)
- Как найти неочевидные точки роста в SEO и причем здесь штурмы.
Если еще не купили билеты, go на сайт пока есть места 👉 https://balticdigitaldays.ru/
Нужны ли папки или поддомены для продвижения в регионах?
Если ваш сайт работает для пользователей из одного региона - всё просто, вам достаточно иметь посадочные страницы, оптимизированные под поисковый спрос. Но что, если ваш сайт работает для пользователей из нескольких регионов? Нужно ли создавать дополнительные страницы под эти регионы? И что лучше - страницы, папки или поддомены?
Не стоит создавать региональные версии страниц, если ваш контент (предложения, информация, сервис, услуги, ...) слабо зависит от региона. Обход роботом лишних страниц потребует времени и ресурсов, это может замедлить индексирование ценных страниц, а создаваемые страницы могут не попадать в поиск из-за высокого сходства между собой. Кроме того, поисковые сигналы оказываются "размазанными" по большому числу очень похожих страниц. И поиску, и владельцу сайта часто выгоднее, напротив, аккумулировать сигналы на небольшом числе релевантных и полезных страниц.
Не стоит переоценивать пользу от возможности связать хост (т.е. основной домен или любой из поддоменов) с регионом в Вебмастере. Чаще всего эта привязка дублирует регионы, уже связанные с хостом автоматически, и поэтому не влияет существенно. А вот добавление сайта и компании в Яндекс Бизнес - полезно, так как помимо привязки к региону ещё улучшает видимость компании в Картах.
Региональные версии страниц могу быть полезны, если:
— ассортимент товаров или состав услуг существенно отличаются
— важные характериcтики или условия различны (стоимость работ, сроки доставки, etc)
— вы публикуете много дополнительного локального контента (отзывы пользователей, портфолио, etc)
— создаваемые страницы отвечают на существующий региональный спрос (не обязательно с топонимом в запросе)
Поддомены могут быть удобны, если региональные представительства маркетингово/пиарно обособлены и активны.
Есть небольшие отличия в работе с аналитическими и диагностическими инструментами, но в остальном между страницами, папками и поддоменами нет принципиальных отличий.
Мой совет - делайте так, как удобнее с точки зрения продукта и маркетинга. Не создавайте региональные страницы просто потому, что такой подход когда-то был довольно популярен, взвесьте "за" и "против". Кажется, в кулуарах уже чаще слышу вопрос, как правильно избавиться от региональных поддоменов).
SEO — это не только игра вдолгую, но и постоянно меняющаяся среда, где также важно быстро адаптироваться к изменениям. И если не следить за обновлениями и не менять стратегии продвижения, можно легко потерять позиции сайта в выдаче или вовсе лишиться сайта.
О том, какие тренды в SEO помогут вам попасть в топ, рассказываем в новой статье. Бонусом делимся эксклюзивным интервью со спикером грядущей Cardinal Conf — SEO-специалистом и основателем веб-агентства «Кручу-Верчу» Денисом Нарижным (SEODEN).
https://trafficcardinal.com/post/10-glavnykh-seo-trendov-2024-goda
Всех причастных, с праздником 🥳
https://webmaster.yandex.ru/blog/den-seo-spetsialista
Коллеги из "Ашманов и партнеры" выпустили новые факторы ранжирования по инфо-коммерческим и инфо-запросам
Несколько инсайтов из первой части:
✅ Сайтовые факторы, в том числе комплекс факторов «очень большого сайта», играют для информационных запросов не менее важную роль, чем для коммерческих.
✅ ИКС — сильный параметр в обеих поисковых машинах для всех наших информационных выборок, а для некоторых — и сверхсильный, доминирующий;
✅ E–E–A–T-факторы для Яндекса могут быть не менее важны, чем для Google, даже если корреляции с позицией не видно.
✅ Микроразметка Schema.org: автор ― в Яндексе отбор по наличию авторов для информационных запросов осуществляется, вероятно, на предварительных этапах формирования результатов поиска, тогда как в Google наличие автора учитывается при окончательном ранжировании.
Читаем 👉 https://www.ashmanov.com/tech-i-services/lab/info-zaprosy-2024/
Не стану расписывать все “бла-бла-бла” какой у Sape классный канал про SEO. Уверен, такие тексты утомляют.
Скажу лишь одно, в канале каждый найдет, то что ему нужно.
Тот, кто хочет пользу и ничего кроме пользы:
⏩ Готовые подборки сайтов для продвижения ссылками
⏩ Статьи на все случаи SEO
⏩ Советы от экспертов
Eсли вы любите юмор, как и команда Sape:
⏩ Вредные SEO-советы
⏩ Еженедельные мемы
⏩ Стикер-пак
А еще они проводят вебинары, рассказывают полезные лайфхаки и делятся самыми актуальными новостями в мире SEO.
Так что, не стесняемся и подписываемся!
➖➖➖➖➖➖➖
Реклама ООО "Сапе" ИНН 7705813551
Erid: 2VfnxyFuWCp