Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Всем привет.
def start_requests(self):
with open("somefile.csv", mode="r", encoding="UTF-8") as csv_file:
csv_reader = csv.DictReader(csv_file, delimiter="|")
for row in csv_reader:
row['emails'] = None
if not row.get("Website"):
yield row
continue
builtins.AttributeError: 'dict' object has no attribute 'dont_filter'
start_request с data:, шлет запрос, дальше async функция в цикле с inline_ реквестами и yield-ят обычные реквесты
Читать полностью…У меня есть 10 реквестов которые должны спать, они позже выполняют обычные реквесты. вот первый уснул, и как проснулся должен пойти выполнять дальше обычные реквесты. А у меня пока все 10 реквестов не проснутся, дальше не идет.
Читать полностью…Точнее работает, но не так как мне нужно. Блокируются вообще все реквесты. Может конечно я что-то не так делаю)
Читать полностью…планируется когда-нибудь, оно застряло потому что мы хотели привязать к этому изменение поведения start_requests в плане наполнения очереди
Читать полностью…I'm looking for someone who
- Have good combo i can check qulaity with you
- Knows how to dump / or have HQ keywords/dorks and good tools.
- Mail access
I need someone to work long term with me i paying very good when i have good quality acc. You can write me on Telegram at @Roulenmm
I only focused on Poland Mainly this domian
For https://1login.wp.pl
@wp.pl, @o2.pl, @Tlen.pl, @go2.pl
For https://poczta.interia.pl/logowanie/
@interia.pl, @interia.eu, @interia.com, @poczta.fm, @VIP.interia.pl, @intmail.pl, @interiowy.pl, @adresik.net, @pisz.to, @pacz.to, @ogarnij.se, @hub.pl
Russian:
"Ищу кого-то, кто:
- Имеет хороший комбо, с которым я могу проверить качество.
- Знает, как выкачивать / или имеет качественные ключевые слова/дорки и хорошие инструменты.
- Имеет доступ к почте.
Мне нужен человек для долгосрочной работы, я плачу очень хорошо, когда у меня есть хорошие качественные аккаунты. Вы можете написать мне в Telegram или Telegram - @Roulenmm
Я сосредоточен в основном на Польше, преимущественно на этих доменах:
Для https://1login.wp.pl
@wp.pl, @o2.pl, @Tlen.pl, @go2.pl
Для https://poczta.interia.pl/logowanie/
@interia.pl, @interia.eu, @interia.com, @poczta.fm, @VIP.interia.pl, @intmail.pl, @interiowy.pl, @adresik.net, @pisz.to, @pacz.to, @ogarnij.se, @hub.pl
Если есть пару лишних тысяч долларов, можешь проконсультироваться у каких-то прокси провайдеров
Читать полностью…Только по прямому url и если есть ссылки с этого юрла на странице? Это так работает?
По карте сайта по идее можно?
как считаете, каждый раз при вызове asyncio.run_in_executor мне следует передавать единственный экземпляр эксекьютора?
scrapy/twisted сами эксекьютор используют, или напрямую с threadpool работают?
если используют, то могу ли получить доступ к экземпляру эксекьютора, чтоб не спавнить свой второй?
кстати, в 2.11.2 в download_slots можно будет autothrottle выключать?
Читать полностью…ну вот асинк функция она эти N реквестов последовательно ждёт? или там gather? или как
Читать полностью…может мы про разное
типа вот у тебя колбэк, он же последовательно выполняется, ты в нём сказал сделать реквест, он же дальше не пойдёт пока ответ не придёт, если перед этим спать то точно так же весь колбэк ждёт
https://docs.scrapy.org/en/latest/topics/coroutines.html#inline-requests
Читать полностью…и еще чисто теоретический вопрос, можно ли как-то к inline реквесту добавить неблокирующую паузу, вроде раньше через reactor.callLater делалось?
Читать полностью…Ребят, а для start_requests планируется завезти асинхронность или уже есть?
Читать полностью…Вернее консультация это бесплатно, просто они предложат что-то за 500 бачей в месяц, если еще со скидкой
Читать полностью…Может кто-либо подсказать варианты парсинга google выдачи: сайтов, форумов по тематике, просто интересно как реализовать можно
Читать полностью…