Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

Scrapy

16 February 2025 21:26

короче, наткнулся на статью, если кому надо, держите)

from selenium import webdriver

# create Chromeoptions instance
options = webdriver.ChromeOptions()

# adding argument to disable the AutomationControlled flag
options.add_argument("--disable-blink-features=AutomationControlled")

# exclude the collection of enable-automation switches
options.add_experimental_option("excludeSwitches", ["enable-automation"])

# turn-off userAutomationExtension
options.add_experimental_option("useAutomationExtension", False)

# setting the driver path and requesting a page
driver = webdriver.Chrome(options=options)

# changing the property of the navigator value for webdriver to undefined
driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")

driver.get("https://www.ozon.ru")

# close the driver
driver.close()

Читать полностью…

Scrapy

16 February 2025 20:49

мне кажется что это скорее всего глобальная проблема, т.к смена айпишников, впны и прочее никак на ситуацию не влияли. а еще осенью все работало

Читать полностью…

Scrapy

16 February 2025 20:44

все же что-то не то.
скажите пожалуйста, точно ни у кого playwright на озон не отвалился? он у меня вообще не фурычит что только не менял. даже куки подставные - застревает на Antibot Challenge

Читать полностью…

Scrapy

05 February 2025 14:37

Ребят, а кто-нибудь делал парсер вакансий Авито?

Читать полностью…

Scrapy

31 January 2025 12:44

вы это везде спрашиваете или вас там несколько? а то я не знаю отвечать ли везде одно и то же или нет :)

Читать полностью…

Scrapy

31 January 2025 12:43

Где "If you are using CrawlerRunner"

Читать полностью…

Scrapy

31 January 2025 12:42

Это пробовали? https://docs.scrapy.org/en/latest/topics/asyncio.html#installing-the-asyncio-reactor

Читать полностью…

Scrapy

31 January 2025 08:38

Есть сайты, их примерно 15 к
Я точно не считал, сколько у каждого сайта страниц, большинство из них 20+ страниц, есть и лендинги, не предполагаю, а точно нужно спросить все страницы и на каждой странице проверить по алгоритму готовому.

Да, с моими мощностями за 4 часа я не пройду, это правда

Поэтому тут хотел пообсуждать

У меня самописный класс условно, асинхронный, плюс по воркерам разбиты чанки сайтов, занимает до 4 часов Парсинг всех сайтов, 70-80 % проходит, да, некоторые мертвые, у некоторых страницы мертвые и куча еще нюансов

2 процесса занимает 1 - 2 гига рам

Я просто думал переписать это все на скрапи и вынести в микросервис, чтобы он только за это отвечал

Думаю реально спарсить весь инет, если нужно, просто вопрос железа

Читать полностью…

Scrapy

30 January 2025 17:51

чота смутили вы меня, я подумал что вообще чего-то не догоняю, а картина мира в целом оказалась такой же, как и представлял)

(ну, либо я что-то мощно не догнал, не отрицаю такой вероятности, кек)

Читать полностью…

Scrapy

30 January 2025 17:38

(да, я понимаю, звучит тупо, но расскажите, плз), типа, сколько надо отправлять самому по самописному коду, или там какая-то редисная магия происходит.

Читать полностью…

Scrapy

30 January 2025 17:34

Редис = in memory db

Читать полностью…

Scrapy

30 January 2025 17:32

Просто почтай -на половину вопросов совершенно по другому посмотришь

Читать полностью…

Scrapy

30 January 2025 17:31

да мне норм, я не стесняюсь показать никада что не особо в чем-то шарю)

Читать полностью…

Scrapy

30 January 2025 17:31

Не люблю такое людям говорить. Но, из-за не знания технологии ты дичь пишешь 😏

Читать полностью…

Scrapy

30 January 2025 17:29

Ээээ
Почитай/посмотри как scrapy-redis работает...

Читать полностью…

Scrapy

16 February 2025 21:12

и на другом пк проверил от другой сети та же история

может кто-нибудь у себя посмотреть работает ли хоть какой-нибудь парсер на озоне?

Читать полностью…

Scrapy

16 February 2025 20:48

с остальным аналогично

Читать полностью…

Scrapy

07 February 2025 12:17

Всем привет!
Есть кто-нибудь кто занимается Amazon?
Вопросы вызывают их текущие ограничения на отзывы.
Есть ли способы нагенерировать аккаунтов? или можно каким-то волшебным образом обойти ограничения/использовать иные эндпоинты (раньше работал на hz/reviews-render/ajax/reviews/get)?
Буду рад любым подсказкам и советам

Читать полностью…

Scrapy

31 January 2025 12:46

Тогда лучше на гите, там этот ответ больше людей найдёт. Там спрашивает мой знакомый, он спросил меня так как у меня чуть больше опыта со скрапи. Но я так же понятия не имею как это заранить )

Поэтому пришёл спросить сюда )

Читать полностью…

Scrapy

31 January 2025 12:44

А, не заметил, тогда хз)

Читать полностью…

Scrapy

31 January 2025 12:42

Да, AsyncioSelectorReactor установлен. У парня со стаковерфлоу тоже

Читать полностью…

Scrapy

31 January 2025 11:07

Всем привет.

Возникла задача аналогичная вопросу отсюда - https://stackoverflow.com/questions/79244988/unable-to-integrate-asyncio-and-scrapy

То есть необходимо запустить кроулер из asyncio корутины.

async def run_scraper() -> None:
    crawler_runner = CrawlerRunner()
    deferred = crawler_runner.crawl(BlogSpider)
    await deferred_to_future(deferred)

При await deferred_to_future(deferred) код просто залипает и запуск паука не происходит.
Как я понимаю, не запускается реактор у Twisted, но я с ним почти не работал потому не соображу как это должно запускаться.

Может кто-то подскажет куда смотреть

Читать полностью…

Scrapy

30 January 2025 19:35

А чего смущаться. Это же не самый простой софт. Я вот никак оптимальную панельку для статистики и управления воркерами не могу подобрать. Есть какие то платные. А на гитхаб и не видно вроде ничего.

Читать полностью…

Scrapy

30 January 2025 17:48

короче из того, что я понял (но это не точно), магии особой не происходит, судя по https://github.com/rmax/scrapy-redis/wiki/Usage
НО - медленного dupefilter на большом количестве решается походу, а это уже хорошо. Насчет start_urls понял что похоже бред написал, т.к. этим наверно чисто и сам скрапи рулит в своем шедулере (ну а тут шедулер тот же но на редисе).

Читать полностью…

Scrapy

30 January 2025 17:37

это то понятно, я про то, он тупо айтемсы у себя хранит или еще очередями занимается. как он со start_urls работает на эти твои 500+ воркеров мне интересно вот, механизм распределения

Читать полностью…

Scrapy

30 January 2025 17:33

да я глянул уже, как я щас по-диагонали понял, редис там и символизирует аналог очереди сообщений и как раз за этим автоматом и следит, так?

Читать полностью…

Scrapy

30 January 2025 17:31

потому и спрашиваю собсна)

Читать полностью…

Scrapy

30 January 2025 17:31

походу надо. у меня около-самописная какая-то херня была, не тот что популярный, и изначально вообще на монге было

Читать полностью…

Scrapy

30 January 2025 17:29

типа, закончил он свои задачки обрабатывать, берет следующий start_urls и дальше молотит?

Читать полностью…

Scrapy

30 January 2025 17:28

если есть какой-то start_url где очень много условных товаров, и какой-то - где их мало, как такие ситуации обрабатываются?

Читать полностью…