Telegram-канал scrapy_python - Scrapy: Unsorted - каталог телеграмм

scrapy_python | Unsorted

Subscribe to a channel

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

30 January 2025 17:17

Пс. Тока чур не стартурлс,... Скажи с ним коряво работает 👀

Читать полностью…

Scrapy

30 January 2025 17:16

наверное я слишком много за того парня подумал, если я на 2 ляма кэш стока был, то на 15 лям страниц (по тыще, еще одна ошибка далеких преположений) подумалось, что будет 5-10 терабайт

Читать полностью…

Scrapy

30 January 2025 17:14

Вопрос условий задачи. У меня чуть другие вводные. Csv точно не прокатит 😁

Читать полностью…

Scrapy

30 January 2025 17:13

я тоже любител редис куда-нибудь прикрутить, или монгу, или кликхаус. но бью себя по рукам все время. И по-факту обычно хватает банального csv или sqlite, постгреса в пределе)

Читать полностью…

Scrapy

30 January 2025 17:10

я думал в прикидке от 1 до 1000 это типа 500 в среднем. а там средневзвешенная 20))

Читать полностью…

Scrapy

30 January 2025 17:09

Вообще. Изначально началось с того, что использовать для этого скрппи и как прикрутить туда проксю и редис/кафку

Читать полностью…

Scrapy

30 January 2025 17:08

Имею ввиду, что у меня есть написанный парсер, он в глубину парсит 20 страниц, за 4 часа справляется с 15 к сайтами, но есть как бы минусы иногда улетаю в бан, без прокси
80 процентов сайтов парсятся норм

Это цитата то ТС

Читать полностью…

Scrapy

30 January 2025 17:07

15млн страниц ето много?

Читать полностью…

Scrapy

30 January 2025 17:06

ну это прост будет как в анекдоте про машинистку, которая 2000 символов в минуту печатает. Формально, он пройдется, по-факту, он этими результатами сможет только подтереться)
ему надо будет думать про dedupefilter свою часть, на свой кликхаус-редис это городить, про чанки подумать, потом он увидит что спарсил лям и вот в 64% у него вылазит рекапча. Потом прокси крутить, с ними мучиться еще подпирать, потом найти хорошую крутилку проксей, UA. Потом окажется, что условная мобила или емейл или что он там ищет на сайтах этих (аля ссылки на амазон), нихрена не находятся просто так. Потом окажется, что один из сайтов провалился на миллион ссылок вниз и парсер ушел там вглубь в него и никак вылезти не может (примерно на третьем ляме он это заметит)

Читать полностью…

Scrapy

30 January 2025 16:53

Не обращайте внимания, как правило, те, кто пишут хочу СТОПИЦОТ за 0.00000001 сек не имеют ни знаний, ни бюджета.

Читать полностью…

Scrapy

30 January 2025 16:51

А что представляют из себя эти 15к сайтов? И откуда такие constraints от 1 до 1000 страниц на сайте? Вы из сами себе ставите, или предполагаете это под эгидой "спарсить надо весь сайт"? Есть, к примеру проект https://commoncrawl.org/get-started - может он вам подойдет?
Если 1 страница - то это изи-пизи. А если в итоге 500-1000 страниц на сайте, то это 7-15 миллионов уже выходит. За 4 часа вы это не пройдете. Думайте в неделях. И терабайт на хранение кэша, если еще не знаете что извлекать.

Читать полностью…

Scrapy

29 January 2025 21:24

finished_time = None

Читать полностью…

Scrapy

29 January 2025 19:36

Обновил скрапи с 2.8 до 2.12 в скрапидвеб 1.4 у некоторых пауков пропали статки. Нужно оновлять скрапидвеб? Или просто логпарсер который 0.8.2?

Читать полностью…

Scrapy

29 January 2025 12:50

Я не уверен, что существует интеграция кафки с скрепи пауками, и тогда ее придеться писать самому, а для редиса существует.
Но можно еще проще поступить, можно просто передавать start_url через параметр запуска
То есть ты читаешь весь список url из файла, а потом запускаешь их последовательно, поддерживая определенное количество одновременно запущенных пауков, для этого нужно объединить 2 этих подхода:
(лучше попроси у chatgpt объединить их, тк код тут не очень чистый😂)

И просто запускай этот скрипт через crontab

Читать полностью…

Scrapy

29 January 2025 12:37

Кол-во рабочих пауков имеется ввиду использовать мультипроцессинг?

Читать полностью…

Scrapy

30 January 2025 17:16

Start URLs в Redis, каждый парсер считывает ссылки из Redis. В Docker поднимаешь 500+ воркеров (в зависимости от характеристик сервера). Масштабируешь на необходимое количество серверов. Все это можно обойти за условный час без особых усилий. Прокси с ротацией под капотом провайдера

Читать полностью…

Scrapy

30 January 2025 17:14

у меня просто задачка была на 2 ляма, и надо было хранить еще кэш. Потому-что требования постоянно менялись. И там было типа гигов 700 что-ли емнип

Читать полностью…

Scrapy

30 January 2025 17:14

не ну ты монстр, чо!

Читать полностью…

Scrapy

30 January 2025 17:13

Один фиг. 15 млн, это не много.
У меня накостыленный парсер в десятка три инстансов в связке с редисом хрустел около суток. Учитывая, что, около 60 процентов отлетело по тайм-ауту (сайты с гуглокарт были, там Хренова куча мертвых)

Читать полностью…

Scrapy

30 January 2025 17:09

а, ну т.е. я очень широко подумал прост.

Читать полностью…

Scrapy

30 January 2025 17:09

ну для меня уже лям-два это многовато, больше я еще не парсил единоразово с одного сайта

Читать полностью…

Scrapy

30 January 2025 17:08

короче, я не говорю про это в rpm ключе, а больше на то, сколько он с этим провозится минимум, если сам это сейчас со знаниями, определяемым по его вопросам, будет городить

Читать полностью…

Scrapy

30 January 2025 17:06

ты же пишешь про случай когда ууже все отлажено переотлажено и работает. конеш там и за сутки пройдется)

Читать полностью…

Scrapy

30 January 2025 17:01

Откуда цифра "в неделях" 15 млн сайтов обходятся, примерно, за сутки. При условии, что, овердохрена отлупов по тайм-ауту

Читать полностью…

Scrapy

30 January 2025 16:52

Да, требуемый рпм считать мне было очень влом

Читать полностью…

Scrapy

30 January 2025 12:23

Скорее всего от непонимания, согласен, поэтому и хотел обсудить, почитать людей которые умеет в это все
Буду копать тогда

Читать полностью…

Scrapy

29 January 2025 21:23

scrapy.extensions.corestats.CoreStats

self.stats.set_value("finish_time", finish_time, spider=spider)

scrapy.extensions.logstats.LogStats

finished_time = self.stats.get_value("finished_time")

`
BUG?

Читать полностью…

Scrapy

29 January 2025 15:28

блин, мне одному кажется, что все вопросы от не понимания тематики и инструментов? в т.ч. и кафки....
с этим, на ура, справится редис. Кафка, скорее всего, то же (скажем так, я сам ее не юзал, то что про нее знаю, 99.9% уверен что прожует)
надо ли писать исходные урлы в кафку и или в редис - тут Вы должны ответить. 15 тыс, это, вообще, не количество. Даже с тупейшим горизонтальным масштабированием типа "поделить список на ХХХ одинаковых частей"
скрапид, на начальном этапе, только гемороя добавит. Я лет 5 без него жил отлично :). Имеется в виду, с запуском довольно масштабных проектов с кучей инстансов скарапи
15 тыс урлов за 4 часа - это RPM 60. Это четыре инстанса перекроют с двухкратным запасом и условием вылетом части по таймауту и ретраями

как то проблема нарисована из воздуха мелками на стене :)

Читать полностью…

Scrapy

29 January 2025 12:38

нет, просто отдельные процессы, зачем мультипроцессинг

Читать полностью…

Scrapy

29 January 2025 12:36

А если вместо редиса, брать из кафки? Условно 1 сайт - 1 сообщение в кафке

Читать полностью…

Subscribe to a channel