scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Всем привет.


def start_requests(self):
with open("somefile.csv", mode="r", encoding="UTF-8") as csv_file:
csv_reader = csv.DictReader(csv_file, delimiter="|")
for row in csv_reader:
row['emails'] = None
if not row.get("Website"):
yield row
continue


builtins.AttributeError: 'dict' object has no attribute 'dont_filter'

ето фича или баг?

Читать полностью…

Scrapy

https://github.com/scrapy/scrapy/pull/6246

Читать полностью…

Scrapy

значит она вся будет ждать если надо ждать

Читать полностью…

Scrapy

start_request с data:, шлет запрос, дальше async функция в цикле с inline_ реквестами и yield-ят обычные реквесты

Читать полностью…

Scrapy

У меня есть 10 реквестов которые должны спать, они позже выполняют обычные реквесты. вот первый уснул, и как проснулся должен пойти выполнять дальше обычные реквесты. А у меня пока все 10 реквестов не проснутся, дальше не идет.

Читать полностью…

Scrapy

Точнее работает, но не так как мне нужно. Блокируются вообще все реквесты. Может конечно я что-то не так делаю)

Читать полностью…

Scrapy

ну т.е что такое инлайн реквест?

Читать полностью…

Scrapy

если он на дефередах то да, callLater

Читать полностью…

Scrapy

await asyncio.sleep()

Читать полностью…

Scrapy

планируется когда-нибудь, оно застряло потому что мы хотели привязать к этому изменение поведения start_requests в плане наполнения очереди

Читать полностью…

Scrapy

I'm looking for someone who

- Have good combo i can check qulaity with you
- Knows how to dump / or have HQ keywords/dorks and good tools.
- Mail access
I need someone to work long term with me i paying very good when i have good quality acc. You can write me on Telegram at @Roulenmm
I only focused on Poland Mainly this domian

For https://1login.wp.pl
@wp.pl, @o2.pl, @Tlen.pl, @go2.pl

For https://poczta.interia.pl/logowanie/
@interia.pl, @interia.eu, @interia.com, @poczta.fm, @VIP.interia.pl, @intmail.pl, @interiowy.pl, @adresik.net, @pisz.to, @pacz.to, @ogarnij.se, @hub.pl

Russian:
"Ищу кого-то, кто:

- Имеет хороший комбо, с которым я могу проверить качество.
- Знает, как выкачивать / или имеет качественные ключевые слова/дорки и хорошие инструменты.
- Имеет доступ к почте.
Мне нужен человек для долгосрочной работы, я плачу очень хорошо, когда у меня есть хорошие качественные аккаунты. Вы можете написать мне в Telegram или Telegram - @Roulenmm

Я сосредоточен в основном на Польше, преимущественно на этих доменах:

Для https://1login.wp.pl
@wp.pl, @o2.pl, @Tlen.pl, @go2.pl

Для https://poczta.interia.pl/logowanie/
@interia.pl, @interia.eu, @interia.com, @poczta.fm, @VIP.interia.pl, @intmail.pl, @interiowy.pl, @adresik.net, @pisz.to, @pacz.to, @ogarnij.se, @hub.pl

Читать полностью…

Scrapy

Если есть пару лишних тысяч долларов, можешь проконсультироваться у каких-то прокси провайдеров

Читать полностью…

Scrapy

страницы, не слинкованные никуда, вы не найдёте никак

Читать полностью…

Scrapy

Только по прямому url и если есть ссылки с этого юрла на странице? Это так работает?

По карте сайта по идее можно?

Читать полностью…

Scrapy

как считаете, каждый раз при вызове asyncio.run_in_executor мне следует передавать единственный экземпляр эксекьютора?
scrapy/twisted сами эксекьютор используют, или напрямую с threadpool работают?
если используют, то могу ли получить доступ к экземпляру эксекьютора, чтоб не спавнить свой второй?

Читать полностью…

Scrapy

нет, в 2.11.2 этого не будет, только в 2.12

Читать полностью…

Scrapy

кстати, в 2.11.2 в download_slots можно будет autothrottle выключать?

Читать полностью…

Scrapy

ну вот асинк функция она эти N реквестов последовательно ждёт? или там gather? или как

Читать полностью…

Scrapy

а как ты их реализовал?

Читать полностью…

Scrapy

может мы про разное
типа вот у тебя колбэк, он же последовательно выполняется, ты в нём сказал сделать реквест, он же дальше не пойдёт пока ответ не придёт, если перед этим спать то точно так же весь колбэк ждёт

Читать полностью…

Scrapy

https://docs.scrapy.org/en/latest/topics/coroutines.html#inline-requests

Читать полностью…

Scrapy

https://github.com/scrapy/scrapy/pull/4467

Читать полностью…

Scrapy

а есть PR под рукой?

Читать полностью…

Scrapy

и еще чисто теоретический вопрос, можно ли как-то к inline реквесту добавить неблокирующую паузу, вроде раньше через reactor.callLater делалось?

Читать полностью…

Scrapy

Ребят, а для start_requests планируется завезти асинхронность или уже есть?

Читать полностью…

Scrapy

Вернее консультация это бесплатно, просто они предложат что-то за 500 бачей в месяц, если еще со скидкой

Читать полностью…

Scrapy

Может кто-либо подсказать варианты парсинга google выдачи: сайтов, форумов по тематике, просто интересно как реализовать можно

Читать полностью…

Scrapy

карта сайта не обязана содержать все страницы

Читать полностью…

Scrapy

Подскажите Scrapy можно вычислить все страницы сайта🌚?

Читать полностью…

Scrapy

Щас переделал что оно делается по сигналу spider_opened

Читать полностью…
Subscribe to a channel