1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
все же что-то не то.
скажите пожалуйста, точно ни у кого playwright на озон не отвалился? он у меня вообще не фурычит что только не менял. даже куки подставные - застревает на Antibot Challenge
вы это везде спрашиваете или вас там несколько? а то я не знаю отвечать ли везде одно и то же или нет :)
Читать полностью…
Это пробовали? https://docs.scrapy.org/en/latest/topics/asyncio.html#installing-the-asyncio-reactor
Читать полностью…
Есть сайты, их примерно 15 к
Я точно не считал, сколько у каждого сайта страниц, большинство из них 20+ страниц, есть и лендинги, не предполагаю, а точно нужно спросить все страницы и на каждой странице проверить по алгоритму готовому.
Да, с моими мощностями за 4 часа я не пройду, это правда
Поэтому тут хотел пообсуждать
У меня самописный класс условно, асинхронный, плюс по воркерам разбиты чанки сайтов, занимает до 4 часов Парсинг всех сайтов, 70-80 % проходит, да, некоторые мертвые, у некоторых страницы мертвые и куча еще нюансов
2 процесса занимает 1 - 2 гига рам
Я просто думал переписать это все на скрапи и вынести в микросервис, чтобы он только за это отвечал
Думаю реально спарсить весь инет, если нужно, просто вопрос железа
чота смутили вы меня, я подумал что вообще чего-то не догоняю, а картина мира в целом оказалась такой же, как и представлял)
(ну, либо я что-то мощно не догнал, не отрицаю такой вероятности, кек)
(да, я понимаю, звучит тупо, но расскажите, плз), типа, сколько надо отправлять самому по самописному коду, или там какая-то редисная магия происходит.
Читать полностью…
Просто почтай -на половину вопросов совершенно по другому посмотришь
Читать полностью…
да мне норм, я не стесняюсь показать никада что не особо в чем-то шарю)
Читать полностью…
Не люблю такое людям говорить. Но, из-за не знания технологии ты дичь пишешь 😏
Читать полностью…
немного не так сформулировал, больше интересует не как ты start_urls получаешь, а вот как ты получаешь воркеры, они сами автоматом почкуются, пока не займут позволенные все ресурсы сервера? И как ты им задачи отдаешь
Читать полностью…
А какое их количество и как ты их получаешь? Условно есть каталог, и там по буквам, или брендам? Аля такого? Я прост к чему - не нужен даже на таких количествах какой-то пулинг там, очереди сообщений, вот это фсе...
Читать полностью…
Всем привет!
Есть кто-нибудь кто занимается Amazon?
Вопросы вызывают их текущие ограничения на отзывы.
Есть ли способы нагенерировать аккаунтов? или можно каким-то волшебным образом обойти ограничения/использовать иные эндпоинты (раньше работал на hz/reviews-render/ajax/reviews/get)?
Буду рад любым подсказкам и советам
Тогда лучше на гите, там этот ответ больше людей найдёт. Там спрашивает мой знакомый, он спросил меня так как у меня чуть больше опыта со скрапи. Но я так же понятия не имею как это заранить )
Поэтому пришёл спросить сюда )
Да, AsyncioSelectorReactor установлен. У парня со стаковерфлоу тоже
Читать полностью…
Всем привет.
Возникла задача аналогичная вопросу отсюда - https://stackoverflow.com/questions/79244988/unable-to-integrate-asyncio-and-scrapy
То есть необходимо запустить кроулер из asyncio корутины.
async def run_scraper() -> None:
crawler_runner = CrawlerRunner()
deferred = crawler_runner.crawl(BlogSpider)
await deferred_to_future(deferred)
await deferred_to_future(deferred) код просто залипает и запуск паука не происходит.
А чего смущаться. Это же не самый простой софт. Я вот никак оптимальную панельку для статистики и управления воркерами не могу подобрать. Есть какие то платные. А на гитхаб и не видно вроде ничего.
Читать полностью…
короче из того, что я понял (но это не точно), магии особой не происходит, судя по https://github.com/rmax/scrapy-redis/wiki/Usage
НО - медленного dupefilter на большом количестве решается походу, а это уже хорошо. Насчет start_urls понял что похоже бред написал, т.к. этим наверно чисто и сам скрапи рулит в своем шедулере (ну а тут шедулер тот же но на редисе).
это то понятно, я про то, он тупо айтемсы у себя хранит или еще очередями занимается. как он со start_urls работает на эти твои 500+ воркеров мне интересно вот, механизм распределения
Читать полностью…
да я глянул уже, как я щас по-диагонали понял, редис там и символизирует аналог очереди сообщений и как раз за этим автоматом и следит, так?
Читать полностью…
походу надо. у меня около-самописная какая-то херня была, не тот что популярный, и изначально вообще на монге было
Читать полностью…
типа, закончил он свои задачки обрабатывать, берет следующий start_urls и дальше молотит?
Читать полностью…
если есть какой-то start_url где очень много условных товаров, и какой-то - где их мало, как такие ситуации обрабатываются?
Читать полностью…
или жеска N_start_urls/workers = N и вот тебе и N "пул", кек
Читать полностью…
Или скрапи-редис. Я не разбирался, кто из них косячит 😁
Читать полностью…