scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Ну или dynamic content , да, playwright это если на производительность не особо важно

Читать полностью…

Scrapy

А вы только начали писать? Если да, рекомендую бросить эти связку и взять https://github.com/scrapy-plugins/scrapy-playwright

Читать полностью…

Scrapy

У меня есть задача спарсить страницу, на которой есть кнопка “Show More”, при нажатии на которую динамически подгружаются новые данные. Это не классическая пагинация, которая ведет на другую URL-страницу, поэтому я не могу использовать стандартные инструменты Scrapy для решения этой задачи. Я узнал, что для этого лучше использовать Splash или Selenium, но с обеими технологиями я пока не работал.

Я решил попробовать Splash и узнал, что его лучше всего запускать через Docker, так как у меня не установлен Linux. Однако возникла проблема: Scrapy и Splash не видят друг друга, хотя я многократно проверил порты и настройки.

Читать полностью…

Scrapy

Извините не то отправил

Читать полностью…

Scrapy

/usr/local/lib/python3.10/site-packages/scrapy_splash/dupefilter.py:20:
python-1 | ScrapyDeprecationWarning: Call to deprecated function
python-1 | scrapy.utils.request.request_fingerprint().
python-1 |
python-1 | If you are using this function in a Scrapy component, and you are OK with users
python-1 | of your component changing the fingerprinting algorithm through settings, use
python-1 | crawler.request_fingerprinter.fingerprint() instead in your Scrapy component
python-1 | (you can get the crawler object from the 'from_crawler' class method).
python-1 |
python-1 | Otherwise, consider using the scrapy.utils.request.fingerprint() function
python-1 | instead.

Читать полностью…

Scrapy

странно, линк не прыгает автоматом на текст, короче надо искать слова How Does NGINX Determine Whether or Not to Cache Something?

Читать полностью…

Scrapy

ой тут уже ругань пока до низу долистал, фуфуфу

Читать полностью…

Scrapy

та иди нахуй уже хуесос

Читать полностью…

Scrapy

Так вот и надо вопрос задавать.
"Это пробовал и это пробовал, что еще можно применить?"

Читать полностью…

Scrapy

но как обычно вылез знаток который уверил что это невозможно и отправил учить мат часть)

Читать полностью…

Scrapy

То есть это вопрос чисто постебаться был?

Читать полностью…

Scrapy

можно попробовать с cache-control поиграть

Читать полностью…

Scrapy

Не понял что такое мат часть

Читать полностью…

Scrapy

Никаких, он на стороне сервера, а не клиента

Читать полностью…

Scrapy

кто знает как в python selenium заполнять 2 поля в alerts?

Читать полностью…

Scrapy

Так что лучше взять?

Читать полностью…

Scrapy

для этого лучше использовать https://docs.scrapy.org/en/latest/topics/dynamic-content.html

Читать полностью…

Scrapy

ConnectionRefusedError: Connection was refused by other side: 111: Connection

Читать полностью…

Scrapy

возникает ошибка, связанная с файлом dupefilter.py. Я изменил этот файл вручную на локальной машине, чтобы исправить проблему, но теперь не знаю, как сделать то же самое в Docker. При каждом запуске Docker скачивает библиотеку заново, с поврежденным или неработающим файлом. Как правильно изменить файл в Docker-контейнере и сохранить изменения при перезапуске контейнера?

Спасибо!

Читать полностью…

Scrapy

Привет! Столкнулся с такой проблемой на Splash:

Читать полностью…

Scrapy

Прокаченная правая ручка устала у школьника ? Захотелось общения ?))))

Читать полностью…

Scrapy

в целом, зависит от настройки его на серваке, если там чуток подзибили болт, то можно: https://blog.nginx.org/blog/nginx-caching-guide#:~:text=By%20default%2C%20NGINX%20respects%20other%20directives%20in%20the%20Cache%2DControl%20header%3A%20it%20does%20not%20cache%20responses%20when%20the%20header%20includes%20the%20Private%2C%20No%2DCache%2C%20or%20No%2DStore%20directive.

Читать полностью…

Scrapy

Обосрался и начал оправдываться... Детсад

Читать полностью…

Scrapy

то что сервер позволяет выполнить запрос мимо кэша, не значит, что он позволяет обойти этот кэш. Он именно позволяет выполнить запрос....
и да, дырки в защитах и(или) настройках не есть истинна последней инстанции, которую надо, вот прям, документировать

Читать полностью…

Scrapy

нет, вопрос был нормальный, проблема в том что всегда помогало прокинуть url param рандомный например от времени или же post запрос если он разрешен серверов, редко но бывало что и хедер cache-conrol помогал, а вот щас ситуация такая что ничего не помогает, решил спросить у ребят

Читать полностью…

Scrapy

да, я знаю это, а можно post запрос вместо get отправить, тоже обойдет кеш, но интересно что мишка ношков высрет послушать

Читать полностью…

Scrapy

Можно попробовать добавить какие-нибудь параметры от фонаря, типа ?abc=def в url

Читать полностью…

Scrapy

учи мат часть, сервер настроил кеширование раз в час, значит раз в час только данные обновляются. Хочешь - взломай - и пропиши свои значения. Вопрос изначало связан с непониманием мат части.

Читать полностью…

Scrapy

добрый день, какие есть способы обойти cache nginx?

Читать полностью…

Scrapy

Hi all who wan scrape a website with cloudflare?

Читать полностью…
Subscribe to a channel