scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Пс. Тока чур не стартурлс,... Скажи с ним коряво работает 👀

Читать полностью…

Scrapy

наверное я слишком много за того парня подумал, если я на 2 ляма кэш стока был, то на 15 лям страниц (по тыще, еще одна ошибка далеких преположений) подумалось, что будет 5-10 терабайт

Читать полностью…

Scrapy

Вопрос условий задачи. У меня чуть другие вводные. Csv точно не прокатит 😁

Читать полностью…

Scrapy

я тоже любител редис куда-нибудь прикрутить, или монгу, или кликхаус. но бью себя по рукам все время. И по-факту обычно хватает банального csv или sqlite, постгреса в пределе)

Читать полностью…

Scrapy

я думал в прикидке от 1 до 1000 это типа 500 в среднем. а там средневзвешенная 20))

Читать полностью…

Scrapy

Вообще. Изначально началось с того, что использовать для этого скрппи и как прикрутить туда проксю и редис/кафку

Читать полностью…

Scrapy

Имею ввиду, что у меня есть написанный парсер, он в глубину парсит 20 страниц, за 4 часа справляется с 15 к сайтами, но есть как бы минусы иногда улетаю в бан, без прокси
80 процентов сайтов парсятся норм


Это цитата то ТС

Читать полностью…

Scrapy

15млн страниц ето много?

Читать полностью…

Scrapy

ну это прост будет как в анекдоте про машинистку, которая 2000 символов в минуту печатает. Формально, он пройдется, по-факту, он этими результатами сможет только подтереться)
ему надо будет думать про dedupefilter свою часть, на свой кликхаус-редис это городить, про чанки подумать, потом он увидит что спарсил лям и вот в 64% у него вылазит рекапча. Потом прокси крутить, с ними мучиться еще подпирать, потом найти хорошую крутилку проксей, UA. Потом окажется, что условная мобила или емейл или что он там ищет на сайтах этих (аля ссылки на амазон), нихрена не находятся просто так. Потом окажется, что один из сайтов провалился на миллион ссылок вниз и парсер ушел там вглубь в него и никак вылезти не может (примерно на третьем ляме он это заметит)

Читать полностью…

Scrapy

Не обращайте внимания, как правило, те, кто пишут хочу СТОПИЦОТ за 0.00000001 сек не имеют ни знаний, ни бюджета.

Читать полностью…

Scrapy

А что представляют из себя эти 15к сайтов? И откуда такие constraints от 1 до 1000 страниц на сайте? Вы из сами себе ставите, или предполагаете это под эгидой "спарсить надо весь сайт"? Есть, к примеру проект https://commoncrawl.org/get-started - может он вам подойдет?
Если 1 страница - то это изи-пизи. А если в итоге 500-1000 страниц на сайте, то это 7-15 миллионов уже выходит. За 4 часа вы это не пройдете. Думайте в неделях. И терабайт на хранение кэша, если еще не знаете что извлекать.

Читать полностью…

Scrapy

finished_time = None

Читать полностью…

Scrapy

Обновил скрапи с 2.8 до 2.12 в скрапидвеб 1.4 у некоторых пауков пропали статки. Нужно оновлять скрапидвеб? Или просто логпарсер который 0.8.2?

Читать полностью…

Scrapy

Я не уверен, что существует интеграция кафки с скрепи пауками, и тогда ее придеться писать самому, а для редиса существует.
Но можно еще проще поступить, можно просто передавать start_url через параметр запуска
То есть ты читаешь весь список url из файла, а потом запускаешь их последовательно, поддерживая определенное количество одновременно запущенных пауков, для этого нужно объединить 2 этих подхода:
(лучше попроси у chatgpt объединить их, тк код тут не очень чистый😂)

И просто запускай этот скрипт через crontab

Читать полностью…

Scrapy

Кол-во рабочих пауков имеется ввиду использовать мультипроцессинг?

Читать полностью…

Scrapy

Start URLs в Redis, каждый парсер считывает ссылки из Redis. В Docker поднимаешь 500+ воркеров (в зависимости от характеристик сервера). Масштабируешь на необходимое количество серверов. Все это можно обойти за условный час без особых усилий. Прокси с ротацией под капотом провайдера

Читать полностью…

Scrapy

у меня просто задачка была на 2 ляма, и надо было хранить еще кэш. Потому-что требования постоянно менялись. И там было типа гигов 700 что-ли емнип

Читать полностью…

Scrapy

не ну ты монстр, чо!

Читать полностью…

Scrapy

Один фиг. 15 млн, это не много.
У меня накостыленный парсер в десятка три инстансов в связке с редисом хрустел около суток. Учитывая, что, около 60 процентов отлетело по тайм-ауту (сайты с гуглокарт были, там Хренова куча мертвых)

Читать полностью…

Scrapy

а, ну т.е. я очень широко подумал прост.

Читать полностью…

Scrapy

ну для меня уже лям-два это многовато, больше я еще не парсил единоразово с одного сайта

Читать полностью…

Scrapy

короче, я не говорю про это в rpm ключе, а больше на то, сколько он с этим провозится минимум, если сам это сейчас со знаниями, определяемым по его вопросам, будет городить

Читать полностью…

Scrapy

ты же пишешь про случай когда ууже все отлажено переотлажено и работает. конеш там и за сутки пройдется)

Читать полностью…

Scrapy

Откуда цифра "в неделях" 15 млн сайтов обходятся, примерно, за сутки. При условии, что, овердохрена отлупов по тайм-ауту

Читать полностью…

Scrapy

Да, требуемый рпм считать мне было очень влом

Читать полностью…

Scrapy

Скорее всего от непонимания, согласен, поэтому и хотел обсудить, почитать людей которые умеет в это все
Буду копать тогда

Читать полностью…

Scrapy

scrapy.extensions.corestats.CoreStats

self.stats.set_value("finish_time", finish_time, spider=spider)

scrapy.extensions.logstats.LogStats
finished_time = self.stats.get_value("finished_time")
`
BUG?

Читать полностью…

Scrapy

блин, мне одному кажется, что все вопросы от не понимания тематики и инструментов? в т.ч. и кафки....
с этим, на ура, справится редис. Кафка, скорее всего, то же (скажем так, я сам ее не юзал, то что про нее знаю, 99.9% уверен что прожует)
надо ли писать исходные урлы в кафку и или в редис - тут Вы должны ответить. 15 тыс, это, вообще, не количество. Даже с тупейшим горизонтальным масштабированием типа "поделить список на ХХХ одинаковых частей"
скрапид, на начальном этапе, только гемороя добавит. Я лет 5 без него жил отлично :). Имеется в виду, с запуском довольно масштабных проектов с кучей инстансов скарапи
15 тыс урлов за 4 часа - это RPM 60. Это четыре инстанса перекроют с двухкратным запасом и условием вылетом части по таймауту и ретраями


как то проблема нарисована из воздуха мелками на стене :)

Читать полностью…

Scrapy

нет, просто отдельные процессы, зачем мультипроцессинг

Читать полностью…

Scrapy

А если вместо редиса, брать из кафки? Условно 1 сайт - 1 сообщение в кафке

Читать полностью…
Subscribe to a channel