1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Всем привет. Столкнулся с такой проблемой. Кидаю локально запрос к api сервиса - все работает. Подключаю прокси - приходит 403 ошибка. Использую мобильные прокси с ротацией IP. Пробовал прокси с разных площадок. Никто не сталкивался с подобной проблемой ?
Читать полностью…
сам спросил, сам нашел, сам ответил.... ну, прям, няшечка... 😂
Читать полностью…
https://pastebin.com/X37v3Kdi
вот код где я добавляю хендлеры
Всем привет, помогите пж, такая проблема: добавляю к рут логеру TimedRotatingFileHandler на инициализации отдельного паучка. Паучков одновременно несколько. Вот что странно: у меня локально на маке логи из скрапи выводятся в файл. А на убунтовском серваке так не работает почему-то...
Читать полностью…
Приветствую, коллеги!
Хочу поделиться с вами своим проектом – помощником по созданию и тестированию регулярных выражений.
Исходный код: https://github.com/gangal86/regexp_helper
Веб-версия: https://regexp-helper.web.app/
Расширение для Chrome: https://chromewebstore.google.com/detail/regexp-helper/aieccklpajfdolmkkkpphhhfgbflejdj
Проект не коммерческий с открытым исходным кодом.
Буду рад вашим отзывам и предложениям!
3️⃣1️⃣1️⃣1️⃣1️⃣1️⃣1️⃣6️⃣
Haбиpaю людeй в кoмaндy c цeлью coвмecтнoгo зapaбoткa.
Пpиpocт пpибыли дocтигaeт нa 3-5% в дeнь.
Cфepa нaпpaвлeния: ЦИФРОВЫХ ОНЛАЙН АКТИВОВ
Пo вpeмeни пapa чacoв, oбyчeниe бecплaтнoe.
Haпишитe нa мoй aккayнт чтoбы yзнaть пoпoдpoбнee >>> @Alexander62972
Привет! Я использую для своих скромных задач serverspace.ru, у них есть зарубежные сервера, можно прокси сделать, пользуюсь пока не больше месяца, но проблем не было. Сайт по старой работе уже десять лет на хостинге и теперь вдс netangels.ru. У последних сервис отличный, поддержка 24/7, отвечают быстро, но айпи только российские.
Тестовые вдс-ки делал на vdska.online, там очень хороший ценник для таких задач.
Всем привет, отговорите меня от этой идеи - универсальная качалка, которой можно скормить любой URL, обход в глубину или по некотором набору искомых ссылок (о нас, контакты, каталоги) регулируется настройками, при старте, отдаёт только респонсы в очередь, от куда их забирают целевые обработчики. Например для каждого конкретного сайта свой конкретный обработчик, так же могут быть универсальные обработчики которые хавают любой ответ и не завязаны на конкретное дерево html
Читать полностью…
Смешнявка в том, что в эгг добавляется файл зависимостей, и он лежит рядом с scrapy.cfg, но как заставить скрапид после распаковки эгга установить эти зависимости... загадка
Читать полностью…
Всем доброго субботнего вечера
Перерыв всё что только можно, ищу помощи у коллективного разума, может тут с этим кто-то сталкивался.
Вводные:
1. Докер контейнер со scrapyd
2. Простой scrapy проект настроенный на деплой в этот контейнер
Проблема:
Добавляю новую зависимость, хочу обновить в контейнере без ребилда контейнера, и docker cp && docker exec "pip install -r requrements.txt".
Делаю scrapyd-deploy --include-dependencies.
Получаю лог ModuleNotFoundError: No module named 'зависимость' из скрапида.
И проблема понятная, зависимость не ставится.
Возникает на этапе выполнения в scrapyd/runner.py кода:
from scrapy.cmdline import execute
execute()
можете, пожалуйста, подсказать, почему идёт ретрай?
2024-07-05 15:06:22 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET url> (failed 6 times): [<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]Читать полностью…
Если понадобится устанавливать скрапид пароль из енва, нужно установить scrapyd с гита (на pypi лежит версия не поддерживающая переменные окружения)
pip install git+https://github.com/scrapy/scrapyd.git
Сори за душнилу, но в чем преимущества перед, скажем, regex101.com?
Читать полностью…
а, уже вижу... По непонятной причине рут логгер имеет уровень warning -_-
Читать полностью…
Код одинаковый в принципе. Я проверил и там, и там добавляются хендлеры и пути в принципе правильные
Читать полностью…
прокси рф
149.126.219.54
HTTP(s) - 59100
SOCKS5 - 59101
login - valetinles
password - f5bay87SBb
юзайте, арендовал но использовать не могу
будут работать ещё 5 дней
Александр, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network
Парсинг живой аудитории в тг и инвайтинг в ваши группы до 5К за раз, можем собрать с любого чата со скрытыми участниками.
Продаем старые неубиваемые аккаунты тг для спама или своих целей.
Делаем чат ботов, проходим вериф и т.д
Если интересно по услугам пишите в ли.чку.
Привет, можете посоветовать хостера с наличием серверов где-то ближе к Владивостоку. Ну или хотя бы ещё какие-нибудь хостинги в рф кроме beget
Читать полностью…
In [1]: response.css('table')
Out[1]: [<Selector query='descendant-or-self::table' data='<table class="nice-table">\n <tr>\n ...'>]
Привет, скажите плиз, как получить контент c https://storage.googleapis.com/play_public/supported_devices.html
"body > table > tbody"
попробуй в коде их импортировать через точку
типа import .модуль
посмотри какой egg генерируется, может там действительно не добавляется зависимость
если так, убедись что requirements.txt прописан в корневой папке проекта, там где и scrapy.cfg
ребята, может кто-нибудь посмотрел?
мне всё же придётся переписать _process_request?