Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

29 June 2024 11:53

Я использую android studio для этого

Читать полностью…

Scrapy

29 June 2024 11:51

Доброго времени суток

Можно ли фид сделать на основе значений итема?
FEEDS = {
"test_data/%(domain)s/%(mongo_id)s/data.json": {
"format": "json",
"overwrite": True,
"encoding": "utf-8",
"indent": 4,
}
}
заранее спасибо

Читать полностью…

Scrapy

29 June 2024 11:32

Я использовал http toolkit и каких-то описанных проблем не помню

Читать полностью…

Scrapy

28 June 2024 14:52

да, непонятно о какой ошибке в вопросе речь

Читать полностью…

Scrapy

28 June 2024 14:38

Всем привет, подскажите пожалуйста если есть errback и process_exception. В случаи ошибки exception полетит сразу в errback?

Читать полностью…

Scrapy

26 June 2024 22:21

Как сделать последовательное открытие страниц в scrapy_playwright? Тобишь есть главная, на ней ссылки типа javascript....ToExpose(id), как последовательно пройтись по ссылкам собрав все необходимые данные с страниц продуктов?

Читать полностью…

Scrapy

26 June 2024 21:35

Всем привет! Почему может не закрываться паук при использовании CLOSESPIDER_TIMEOUT_NO_ITEM?


2024-06-26 19:16:33 [scrapy.extensions.closespider] INFO: Closing spider since no items were produced in the last 600 seconds.
2024-06-26 19:16:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:17:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:18:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:19:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:20:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:21:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:22:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:23:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:24:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:25:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:26:33 [scrapy.extensions.closespider] INFO: Closing spider since no items were produced in the last 600 seconds.
2024-06-26 19:26:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)
2024-06-26 19:27:33 [scrapy.extensions.logstats] INFO: Crawled 364 pages (at 0 pages/min), scraped 353 items (at 0 items/min)

Читать полностью…

Scrapy

26 June 2024 00:48

Два дня без актива сижу..

Читать полностью…

Scrapy

26 June 2024 00:47

в общем надо парсить один сайт, там джс, решил через scrapy_playwright, он открывает первую страницу и дальше по найденным ссылкам вообще не шагает и закрывается подальше, сможешь помочь с решением?

Читать полностью…

Scrapy

25 June 2024 12:52

а, винда, ладно, а до этого не работала, или типа рофл?

Читать полностью…

Scrapy

24 June 2024 20:13

вы не поверите, но scrapy-playwright теперь работает на венде

Читать полностью…

Scrapy

24 June 2024 12:16

озон пускает без авторизации. Правда json мусорные. https://api.ozon.ru?url=/products/{article}

Читать полностью…

Scrapy

24 June 2024 12:12

ой, как же мне нравятся неопределенные мета-вопросы :)

Читать полностью…

Scrapy

24 June 2024 01:06

у тиктока есть api, и куча оберток, и есть кажись обертка об playwright, котора может выгрузить судя по примеру трендовые видосики: https://github.com/davidteather/TikTok-Api
(сам я не проверял, но вангую оно живое и работает, судя по коду и issues).

Читать полностью…

Scrapy

23 June 2024 20:01

Почему все так сильно против силениума?

Читать полностью…

Scrapy

29 June 2024 11:52

домен то можно прокинуть в атрибуты класса
а вот с айдишкой будет не красиво

Читать полностью…

Scrapy

29 June 2024 11:35

а ещё вопрос уже по теме
наследуюсь от ImagePipeline, чутка надо было под себя настроить
возможно ли как нибудь get_images или __delete_logos вместе с convert_image сделать не блокирующими (типа сунуть их в to_thread), не переписывая оригинальный process_item?
я в твистеде нулёвый, как работает MediaPipeline._process_request не понимаю, но догадываюсь что именно от него идут вызовы указанных ранее фунций
исходный код https://pastebin.com/MfdA1BkH

Читать полностью…

Scrapy

29 June 2024 10:56

немного оффтоп, но все же спрошу
никто не знает, как по простому настроить эмулятор андройда, чтоб он мог подключаться к mitmproxy(или аналогу), и при это еще иметь гугл плей?
на сайте mitmproxy есть гайд, я его читал, но он просто требует немало телодвижений, буду по нему идти, если не найду ничего попроше

Читать полностью…

Scrapy

28 June 2024 14:49

Errback это только когда ошибка от сервера прилетела

Читать полностью…

Scrapy

27 June 2024 12:39

Алексей, пожалуйста, нажмите на кнопку ниже в течение указанного времени, иначе вы будете кикнуты. Спасибо! (60 сек)
При поддержке 1inch Network

Читать полностью…

Scrapy

26 June 2024 21:46

https://docs.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider

When a certain closing condition is met, requests which are currently in the downloader queue (up to CONCURRENT_REQUESTS requests) are still processed.

Читать полностью…

Scrapy

26 June 2024 00:49

ну хотя бы глянуть мб я просто косоеб что-то не так написал

Читать полностью…

Scrapy

26 June 2024 00:48

Сорян, ноут помер 😹

Читать полностью…

Scrapy

25 June 2024 20:34

⚠️⚠️⚠️⚠️⚠️⚠️
В пoиcкe людeй в нoвoй cфepe для coвмecтнoгo дoxoдa.
Hoвaя cфepa: цифpoвыx виpтyaльныx aктивoв.
Чиcтaя пpибыльнocть зa дeнь cooтвecтвyeт 3-5%.
Вceмy oбyчим Вac, пo вpeмeни пapy чacoв, мoжнo coвмeщaть c ocнoвнoй дeятeльнocтью.
Пo вceм интepecyющим вoпpocaм пишитe > @Alex22019

Читать полностью…

Scrapy

25 June 2024 12:52

ОС Microsoft Windows

Читать полностью…

Scrapy

24 June 2024 12:23

за платными консультациями в @scrapy_jobs

Читать полностью…

Scrapy

24 June 2024 12:12

ну, я, работал

Читать полностью…

Scrapy

24 June 2024 12:06

Всем привет
кто то работал с ozon и я. маркетом ?

Читать полностью…

Scrapy

23 June 2024 20:03

и дополнительно устарел scrapy-selenium

Читать полностью…

Scrapy

23 June 2024 12:02

А нашёл библиотеку parsel

Читать полностью…

Subscribe to a channel