lord_alfred | Unsorted

Telegram-канал lord_alfred - 🍄 Дон Шампиньон [aka Lord_Alfred]

2251

Хитрожопый дорвейщик. Сборник мыслей о Black SEO и иже с ним. Делаю говно-сайты (doorways), паразитирую на чужих ресурсах, пилю софт для всего этого и зарабатываю так себе на безбедную жизнь. Блог в vk: https://vk.com/lord.alfred

Subscribe to a channel

🍄 Дон Шампиньон [aka Lord_Alfred]

🍓 Спарсил все популярные порно-домены из базы theporndude_com

🤔 Пригодится тем, кто парсит контент и не хочет видеть там ещё и адалт. Проще скипать домены, чем собирать базы адалт-ключей под каждый язык)

🔞 Забрать можно отсюда: https://gist.github.com/lord-alfred/9235861756400b9dd2593d727c31b0b1

Читать полностью…

🍄 Дон Шампиньон [aka Lord_Alfred]

🔥🔥🔥🔥 Раскопал коэффициенты для факторов в ранжировании Y.

👉 https://gist.github.com/lord-alfred/97400a79f10f3bb13bb4bcd42268b1f8

⏳ Потратил уже больше 10 часов на изучение исходников, но благодаря коллегам, опубликовавшим найденные факторы – наткнулся на формулу с коэффциентами, прогнал её в удобочитаемый вид и дополнил описанием факторов. Очень интересно посмотреть на ранжирование изнутри, особенно обладая такими знаниями 🤓
Но хочется поделиться и небольшим огорчением от увиденного. Т.к. Y изнутри по большому счёту – это огромное хранилище данных, всё что есть в исходниках – это безграничные кучи разрозненных скриптов. Судя по всему – бОльшая часть задач у них сводится к получению+трансформации полученных данных из одного источника и перекладыванию результата в другой. Эдакий подход Map-Reduce.

⛏ Но я не отчаиваюсь, и копаю дальше 😜 Подписывайтесь, дальше ещё планирую выкладывать интересное из того, что найду)

by @Lord_Alfred

Читать полностью…

🍄 Дон Шампиньон [aka Lord_Alfred]

👐 Как-то пару лет назад заопенсорсил свой небольшой сборник утилит для NLP (Natural Language Processing), завернутых в docker-контейнер в виде API, и вот наконец дошли руки обновить его!

🤤 Раньше там уже было «Определение языка текста» (детектит 176 языков) и «Разделение текста на предложения», а сейчас добавил «Получение основного содержимого из html документа» – чтобы можно было получить корректный контент любой страницы (без менюшек, футеров и прочего говна) при парсинге.

👉 Понакидал там ещё сверху немного фиксов: увеличил размер входящего запроса до 25МБ, обновил readme, добавил токенизацию одного из языков Индии, апнул пайтон и зависимости до 3.11.

🔥 Всё это добро вместе с инструкцией лежит всё там же: https://github.com/lord-alfred/dnlp

🌚 Думаю, многим братьям-дорвейщикам и сёстрам-сеошницам будет полезно заюзать это у себя 🤪

by @Lord_Alfred

Читать полностью…

🍄 Дон Шампиньон [aka Lord_Alfred]

✌️ Добавил списки IP адресов Facebook, Twitter и GitHub в свою репу: https://github.com/lord-alfred/ipranges

🌚 Кого ещё вам не хватает? GoogleBot и BingBot там уже давно есть 🙃

🥱 PS: Последнее время (особенно после апа в прошлом месяце) нет времени сюда писать, но канал я не забрасываю. Всё будет, просто чуть реже, но зато полезнее)

Читать полностью…
Subscribe to a channel