scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

на 2.9 следовало использовать async def колбэки и не мучаться

Читать полностью…

Scrapy

С использованием инлайн колбэкс декоратора на коленке паука

Читать полностью…

Scrapy

в scrapy-inline-callbacks внутри целая машинерия с раскруткой генераторов емнип

Читать полностью…

Scrapy

не знаю, никогда нельзя было

Читать полностью…

Scrapy

Ребят, есть ресурс example.com. Нужные мне списки со ссылками внутри грузят жквери. При загрузке, ресурс дёргает какой-то эндпоинт и получает x-knock параметры (я так понимаю, данные сессии).
Дальше хочу ходить по ссылкам с id из списков.(f"url?id={id}"). Без x-knock сыпется 401.
Не пойму, как мне поймать запрос с x-knock куками?
Хотел пройтись напрямую по апишке. Или в таких случаях лучше просто по ui'ю ходить?

scrapy-playwright

Читать полностью…

Scrapy

Нам он не нужен, планов нет

Читать полностью…

Scrapy

всем привет ребята

хочу узнать мнения, пользуетесь ли scrapyd, какой то альтернативой, или написали что то собственное? (не учитывая облачные решения)

просто интересно

заодно было бы интересно услышать мнения разработчиков scrapy насчет scrapyd. планируется ли добавлять какие либо в него фичи или вообще, наоборот, сделать его легаси?

Читать полностью…

Scrapy

предположу что что-то с asyncio евент лупами

Читать полностью…

Scrapy

Hi everyone, can anyone here extract the LinkedIn cookie account from the logs?

Читать полностью…

Scrapy

Всем привет!
Ищу специалистов по парсингу, которые в своей работе регулярно используют прокси-серверы.
Хочу провести короткое интервью (15–20 минут) за вознаграждение 💰
Интересует, как вы используете прокси, с какими задачами сталкиваетесь и что важно при выборе сервиса.

Если интересно - напишите, плиз, в ЛС, расскажу детали.

Читать полностью…

Scrapy

Есть у кого-то парсеры этих сайтов? (купим исходники):
YouTube
RuTube
Kommersant
Izvestia
Vedomosti
Life.ru
MK
Российская газета (Rossiskaya Gazeta)
360tv
RT на русском (RT in Russian)
Regnum
HTB.ru
KP.ru
Sport-Express
Championat
Киберспорт.ru (Kibersport.ru)
Fontanka
EurAsia Daily
Znak
74.ru
161.ru
E1.ru
Tomsk.ru
Amurmedia
Primamedia
Yakutiamedia
Moe-Online
Башинформ (Bashinform)
KI-News
31tv.ru
Sibnet
Omskinfo
Chelny-biz
Kubnews
SeverPost
Krasnews
TitNews

Читать полностью…

Scrapy

В middleware подсовывать новые куки непосредственно перед отправкой запроса. Те, что уже отправлены - ретраить естественно.

Читать полностью…

Scrapy

Собственно заново авторизоваться не проблема.
А что делать с запросами, которые уже висят?
Т. е. я авторизовался и выдал список запросов на скачивание.
И один из них и последующие возвращают - не залогинено.
На каждый перелогиневатся?

Читать полностью…

Scrapy

мб токен помирает. Если так то заново авторизовываться

Читать полностью…

Scrapy

Можно обойти
Пробуй

Читать полностью…

Scrapy

Обновил скрапи до последней - сломалось. На 2.9 раблтало

Читать полностью…

Scrapy

Раньше можно было, есть реализации. Деферед и сейчас можно

Читать полностью…

Scrapy

если б мы когда-то разрешали возвращать из колбэков дефереды, мир бы выглядел совсем иначе

Читать полностью…

Scrapy

@wrar42 я правильно понимаю, что на последнем scrapy больше нельзя использовать inlineCallbacks для реквест-колбэков паука?

Читать полностью…

Scrapy

LinkedIn cookie account provider, please contact me

Читать полностью…

Scrapy

scrapyd какой-то внешний чувак майнтейнит, и на днях что-то коммитил

Читать полностью…

Scrapy

I need LinkedIn cookie accounts. I need a lot of it every day. If you can provide it, please contact me. Scammers please stay away. Using cookies to log in does not require email access. The format is as follows.

email+linkedin pass+cookie+connects
or no pass

Читать полностью…

Scrapy

Всем Привет !
Пытаюсь запустить свой скрипт на scrapy по графику…
Я вижу логи о запуске но самого процесса сбора нету.

'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2025-07-21 21:23:00.058 | INFO | scrapy.middleware:_from_settings:101 - Enabled spider middlewares:
['scrapy.spidermiddlewares.start.StartSpiderMiddleware',
'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2025-07-21 21:23:00.058 | INFO | scrapy.middleware:_from_settings:101 - Enabled item pipelines:
['pipelines.items.ItemPipeline']
2025-07-21 21:23:00.058 | INFO | apscheduler.executors.base:run_job:156 - Job "run_spiders (trigger: cron[month='*', day='*', day_of_week='*', hour='*', minute='*'], next run at: 2025-07-21 18:24:00 UTC)" executed successfully

Я испольузeю scrapy 3.13.3
эти логи повторяются но мой crawler не работает. Хотя логи повторяются верно (по интервалу)


from datetime import datetime
from twisted.internet import asyncioreactor
from loguru import logger

asyncioreactor.install()
from apscheduler.schedulers.twisted import TwistedScheduler
from apscheduler.executors.twisted import TwistedExecutor
from apscheduler.triggers.cron import CronTrigger

from twisted.internet import reactor, defer
from scrapy.crawler import CrawlerRunner
from utils.log import setup_logger
from spiders.npauctions import NPAuctionsSpider

setup_logger()


@defer.inlineCallbacks
def run_spiders():
runner = CrawlerRunner()
logger.success("Running spiders sequentially...")
yield runner.crawl(NPAuctionsSpider)
runner.stop()


def main():
logger.info("Starting scheduler...")
# Configure the scheduler
scheduler = TwistedScheduler(
reactor=reactor,
executors={
'default': TwistedExecutor()
}
)
trigger = CronTrigger.from_crontab(
'* * * * *', # Daily at midnight
timezone='UTC'
)
scheduler.add_job(
run_spiders,
trigger=trigger,
max_instances=1,
coalesce=True,
id="npauctions",
next_run_time=datetime.now()
)
try:
# Start the scheduler
scheduler.start()
reactor.run()
except (KeyboardInterrupt, SystemExit):
logger.info("Shutting down scheduler")
scheduler.shutdown()


if __name__ == "__main__":
main()

Читать полностью…

Scrapy

всем привет, кто-нибудь пытался в интеграцию scrapy + langgraph?

Читать полностью…

Scrapy

Приветствую всех. Товарищи с опытом в парсинге, напишите в личку, нужно спарсить один сайт. Оплачу

Читать полностью…

Scrapy

оффтоп, не scrapy

ребят, кому интересно и кто может, пожалуйста, пройдитесь по коду, оставьте комменты и замечания https://github.com/abebus/palitra/pull/4

я в подкаротке asyncio и в weakref не силен, чувствую я явно что-то где то насрал

делаю маленькую либу для приложений застрявших на wsgi но почему то нуждающихся асинхронного взаимодействия

Читать полностью…

Scrapy

Мож кто уже мидельвару подобную реализовал?

Читать полностью…

Scrapy

Можешь запрос на обновление токена попытаться нарыть

Читать полностью…

Scrapy

Приветствую.
Есть проект сбора данных с сайта.
Сначала идёт аутентификация через форму, потом собственно сбор.
Последнее время минут через 15 начало выкидывать - типа не залогинено.
Как обычно действуют в таких случаях?

Читать полностью…

Scrapy

Всем привет написал скрипт по поиску редких предметов для кс2 но сайт меня банит! после того пишу в тех меня розбанивают! они говорят что у них стоит скрипт который ловит ботов ! вопрос как-то можно это обойти ? типа добавить заголовки к запросу или как-то емулировать пользователя ? как вы думаете !

Читать полностью…
Subscribe to a channel