Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Ну или dynamic content , да, playwright это если на производительность не особо важно
Читать полностью…А вы только начали писать? Если да, рекомендую бросить эти связку и взять https://github.com/scrapy-plugins/scrapy-playwright
Читать полностью…У меня есть задача спарсить страницу, на которой есть кнопка “Show More”, при нажатии на которую динамически подгружаются новые данные. Это не классическая пагинация, которая ведет на другую URL-страницу, поэтому я не могу использовать стандартные инструменты Scrapy для решения этой задачи. Я узнал, что для этого лучше использовать Splash или Selenium, но с обеими технологиями я пока не работал.
Я решил попробовать Splash и узнал, что его лучше всего запускать через Docker, так как у меня не установлен Linux. Однако возникла проблема: Scrapy и Splash не видят друг друга, хотя я многократно проверил порты и настройки.
/usr/local/lib/python3.10/site-packages/scrapy_splash/dupefilter.py:20:
python-1 | ScrapyDeprecationWarning: Call to deprecated function
python-1 | scrapy.utils.request.request_fingerprint().
python-1 |
python-1 | If you are using this function in a Scrapy component, and you are OK with users
python-1 | of your component changing the fingerprinting algorithm through settings, use
python-1 | crawler.request_fingerprinter.fingerprint() instead in your Scrapy component
python-1 | (you can get the crawler object from the 'from_crawler' class method).
python-1 |
python-1 | Otherwise, consider using the scrapy.utils.request.fingerprint() function
python-1 | instead.
странно, линк не прыгает автоматом на текст, короче надо искать слова How Does NGINX Determine Whether or Not to Cache Something?
Так вот и надо вопрос задавать.
"Это пробовал и это пробовал, что еще можно применить?"
но как обычно вылез знаток который уверил что это невозможно и отправил учить мат часть)
Читать полностью…кто знает как в python selenium заполнять 2 поля в alerts?
Читать полностью…для этого лучше использовать https://docs.scrapy.org/en/latest/topics/dynamic-content.html
Читать полностью…ConnectionRefusedError: Connection was refused by other side: 111: Connection
Читать полностью…возникает ошибка, связанная с файлом dupefilter.py. Я изменил этот файл вручную на локальной машине, чтобы исправить проблему, но теперь не знаю, как сделать то же самое в Docker. При каждом запуске Docker скачивает библиотеку заново, с поврежденным или неработающим файлом. Как правильно изменить файл в Docker-контейнере и сохранить изменения при перезапуске контейнера?
Спасибо!
Прокаченная правая ручка устала у школьника ? Захотелось общения ?))))
Читать полностью…в целом, зависит от настройки его на серваке, если там чуток подзибили болт, то можно: https://blog.nginx.org/blog/nginx-caching-guide#:~:text=By%20default%2C%20NGINX%20respects%20other%20directives%20in%20the%20Cache%2DControl%20header%3A%20it%20does%20not%20cache%20responses%20when%20the%20header%20includes%20the%20Private%2C%20No%2DCache%2C%20or%20No%2DStore%20directive.
Читать полностью…то что сервер позволяет выполнить запрос мимо кэша, не значит, что он позволяет обойти этот кэш. Он именно позволяет выполнить запрос....
и да, дырки в защитах и(или) настройках не есть истинна последней инстанции, которую надо, вот прям, документировать
нет, вопрос был нормальный, проблема в том что всегда помогало прокинуть url param рандомный например от времени или же post запрос если он разрешен серверов, редко но бывало что и хедер cache-conrol помогал, а вот щас ситуация такая что ничего не помогает, решил спросить у ребят
Читать полностью…да, я знаю это, а можно post запрос вместо get отправить, тоже обойдет кеш, но интересно что мишка ношков высрет послушать
Читать полностью…Можно попробовать добавить какие-нибудь параметры от фонаря, типа ?abc=def в url
Читать полностью…учи мат часть, сервер настроил кеширование раз в час, значит раз в час только данные обновляются. Хочешь - взломай - и пропиши свои значения. Вопрос изначало связан с непониманием мат части.
Читать полностью…