🍓 Спарсил все популярные порно-домены из базы theporndude_com
🤔 Пригодится тем, кто парсит контент и не хочет видеть там ещё и адалт. Проще скипать домены, чем собирать базы адалт-ключей под каждый язык)
🔞 Забрать можно отсюда: https://gist.github.com/lord-alfred/9235861756400b9dd2593d727c31b0b1
🔥🔥🔥🔥 Раскопал коэффициенты для факторов в ранжировании Y.
👉 https://gist.github.com/lord-alfred/97400a79f10f3bb13bb4bcd42268b1f8
⏳ Потратил уже больше 10 часов на изучение исходников, но благодаря коллегам, опубликовавшим найденные факторы – наткнулся на формулу с коэффциентами, прогнал её в удобочитаемый вид и дополнил описанием факторов. Очень интересно посмотреть на ранжирование изнутри, особенно обладая такими знаниями 🤓
Но хочется поделиться и небольшим огорчением от увиденного. Т.к. Y изнутри по большому счёту – это огромное хранилище данных, всё что есть в исходниках – это безграничные кучи разрозненных скриптов. Судя по всему – бОльшая часть задач у них сводится к получению+трансформации полученных данных из одного источника и перекладыванию результата в другой. Эдакий подход Map-Reduce.
⛏ Но я не отчаиваюсь, и копаю дальше 😜 Подписывайтесь, дальше ещё планирую выкладывать интересное из того, что найду)
by @Lord_Alfred
👐 Как-то пару лет назад заопенсорсил свой небольшой сборник утилит для NLP (Natural Language Processing), завернутых в docker-контейнер в виде API, и вот наконец дошли руки обновить его!
🤤 Раньше там уже было «Определение языка текста» (детектит 176 языков) и «Разделение текста на предложения», а сейчас добавил «Получение основного содержимого из html документа» – чтобы можно было получить корректный контент любой страницы (без менюшек, футеров и прочего говна) при парсинге.
👉 Понакидал там ещё сверху немного фиксов: увеличил размер входящего запроса до 25МБ, обновил readme, добавил токенизацию одного из языков Индии, апнул пайтон и зависимости до 3.11.
🔥 Всё это добро вместе с инструкцией лежит всё там же: https://github.com/lord-alfred/dnlp
🌚 Думаю, многим братьям-дорвейщикам и сёстрам-сеошницам будет полезно заюзать это у себя 🤪
by @Lord_Alfred
✌️ Добавил списки IP адресов Facebook, Twitter и GitHub в свою репу: https://github.com/lord-alfred/ipranges
🌚 Кого ещё вам не хватает? GoogleBot и BingBot там уже давно есть 🙃
🥱 PS: Последнее время (особенно после апа в прошлом месяце) нет времени сюда писать, но канал я не забрасываю. Всё будет, просто чуть реже, но зато полезнее)