scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Тоже думаю на это, других объяснений не вижу пока, но я же все в одной и той же консоли пишу, делаю вот uv remove scrapy - папка исчезает с ним из .venv, потом с первой командой папка появляется, но в crawler.py нет import asyncio, дальше в этом же терминале вторую команду делаю, и хоб - import asyncio появляется. pycache удалял. Версии пишет одинаковые. Бред. Я брежу. Нет, у меня там еще стоит wsl где-то с питоном, но он вообще в другом каталоге:

(pyuploader) PS C:\prjvk\pyuploader> uv add scrapy
Resolved 125 packages in 36ms
Installed 14 packages in 39ms
+ defusedxml==0.7.1
+ filelock==3.19.1
+ itemadapter==0.12.1
+ itemloaders==1.3.2
+ protego==0.5.0
+ pyasn1==0.6.1
+ pyasn1-modules==0.4.2
+ pydispatcher==2.0.7
+ pyopenssl==25.1.0
+ queuelib==1.8.0
+ requests-file==2.1.0
+ scrapy==2.13.3
+ service-identity==24.2.0
+ tldextract==5.3.0
(pyuploader) PS C:\prjvk\pyuploader> uv pip install --upgrade "https://github.com/scrapy/scrapy.git"
Resolved 37 packages in 1.29s
Prepared 2 packages in 97ms
Uninstalled 2 packages in 16ms
Installed 2 packages in 28ms
- scrapy==2.13.3
+ scrapy==2.13.3 (from git+https://github.com/scrapy/scrapy.git@ed63fa94d698ba09875d45c20253b98e05cca5e5)
- typing-extensions==4.14.1
+ typing-extensions==4.15.0
(pyuploader) PS C:\prjvk\pyuploader>

Читать полностью…

Scrapy

И правда глюки, с пяток раз делал uv add scrapy - питон клялся божился что поставил scrapy==2.13.3, везде в версиях написано что 2.13.3, но в crawler.py не было даже import asyncio, по-итогу сработало uv pip install "https://github.com/scrapy/scrapy.git" `и `from scrapy.crawler import AsyncCrawlerProcess заработал.

Правда проблема не в нем оказалась, даже с ним Run проходил нормально, а на Debug вылезала эта TypeError: 'Task' object is not callable
Профессор чатгпт сказал, что "баг/побочный эффект асинхронной поддержки в отладчике PyCharm: в режиме Debug PyCharm включает экспериментальную «asyncio REPL / asyncio support», которая вмешивается в loop/таски и иногда ставит в очередь не вызываемые объекты Task как callback'и, из-за чего при выполнении loop'а получается TypeError: 'Task' object is not callable. В обычном Run этой фичи нет — поэтому у тебя всё работает при простом запуске, но падает при отладке. Это известная проблема, уже описанная пользователями." и в целом вот это решение помогло:

Отключить asyncio REPL в реестре PyCharm:
Нажми Shift дважды (или Ctrl+Shift+A) → введи Registry... → в поле поиска найди python.debug.asyncio.repl → сними галочку → перезапусти PyCharm

ЗЫ божечки, храни людей, которые все еще пишут на стековере!
https://stackoverflow.com/questions/79675253/task-object-is-not-callable-when-debugging-with-asyncio-windowsselectoreventloo
https://youtrack.jetbrains.com/issue/PY-57667/Asyncio-support-for-the-debugger-EXPERIMENTAL-FEATURE
Осталось теперь только uv допинать, что там не так)

Читать полностью…

Scrapy

У меня в вскоде есть прила, но она на англ генерит, ищу на что бы на ру

Читать полностью…

Scrapy

Чем докстринг генерируешь на русском?

Читать полностью…

Scrapy

дебаг начинает работать хоть с async def start хоть с def start_requests если выставить в settings.py TWISTED_REACTOR = None
Т.е. из-за https://docs.scrapy.org/en/2.13/topics/settings.html#std-setting-TWISTED_REACTOR:~:text=If%20this%20setting%20is%20set%20None%2C%20Scrapy%20will%20use%20the%20existing%20reactor%20if%20one%20is%20already%20installed%2C%20or%20install%20the%20default%20reactor%20defined%20by%20Twisted%20for%20the%20current%20platform. - но не умудряется же пичарм сам где-то другой твистед поднять. Много раз перечитал что не так, надо видимо еще перечитывать...

Читать полностью…

Scrapy

2025-08-25 23:10:56 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2025-08-25 23:10:56 [asyncio] ERROR: Exception in callback <Task pending name='Task-1' coro=<ExecutionEngine.open_spider() running at C:\prjvk\pyuploader\.venv\Lib\site-packages\scrapy\core\engine.py:430> cb=[Deferred.fromFuture.<locals>.adapt() at C:\prjvk\pyuploader\.venv\Lib\site-packages\twisted\internet\defer.py:1255]>()
handle: <Handle <Task pending name='Task-1' coro=<ExecutionEngine.open_spider() running at C:\prjvk\pyuploader\.venv\Lib\site-packages\scrapy\core\engine.py:430> cb=[Deferred.fromFuture.<locals>.adapt() at C:\prjvk\pyuploader\.venv\Lib\site-packages\twisted\internet\defer.py:1255]>()>
Traceback (most recent call last):
File "C:\Users\user\AppData\Roaming\uv\python\cpython-3.13.4-windows-x86_64-none\Lib\asyncio\events.py", line 89, in _run
self._context.run(self._callback, *self._args)
~~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
TypeError: 'Task' object is not callable

тут полный стектрейс:https://pastebin.com/TR12v90C
ну и выполнение замораживается. Я чессгря в этих асинках-шмасюнках плаваю. Чего он от меня хочет? (плачет по-стариковски, похоже опять пора читать много много докуметации ^_^)

Читать полностью…

Scrapy

Такой вопрос, в scrapy 2.13.3, есть же https://docs.scrapy.org/en/master/topics/api.html#scrapy.crawler.AsyncCrawlerProcess ?
Я вроде его поставил через uv, версию показывает 2.13.3, в винде 10+pycharm, уже и pycache поудалял и инвалидировал, он мне пишет на импорте from scrapy.crawler import AsyncCrawlerProcess, что де Cannot find reference 'AsyncCrawlerProcess' in 'crawler.py'
Вообще я пытаюсь исполнить эту штуку: https://docs.scrapy.org/en/master/topics/practices.html#running-multiple-spiders-in-the-same-process

Читать полностью…

Scrapy

Ладно, извините, я не знаю, что я начудил, но оно уже работает какой-то магией (наверно url кривой) 😅

Читать полностью…

Scrapy

у меня был написан паучок для сайта, где как бы нужен логин. Раньше я брал просто запрос, который уже есть, из него извлекал кукис, вставлял вручную в паука и всё было окей. Сервак отвечал так, будто он понимает, кто я.
Пробовал в шелле вручную шаг за шагом и всё было окей.

Но когда я пытаюсь в скрипте проделать те же манипуляции, то почему-то меня редиректит на страничку логина.

Помогите кто-нибудь, прошу 🙏️️️️️️

Читать полностью…

Scrapy

Всем привет! Я делаю пет проект по парсингу американских сайтов с объявлениями о продаже авто. Ищу разработчиков, знакомых со Scrapy. Задачи разные:
• простые парсеры;
• настройка proxy rotation;
• сложные парсеры с фронтенд-рендерингом (Playwright, Selenium, Puppeteer, Splash и др.).

Кому интересна подработка, пожалуйста напишите мне.

Читать полностью…

Scrapy

Look for the provider of LinkedIn cookie+pass account, and the long-term cooperation introducer also has money to get it.

Читать полностью…

Scrapy

В Китае много народу? В Индии парсинг тоже "очень популярен".

Читать полностью…

Scrapy

есть podkop, на роутере стоит
утилита склеивающая разные формы обхода под разные нужды
если у ресурса рф в блоке или в рф ресурс блокнут
подробностей больше не знаю, установил скриптом и забыл)

Читать полностью…

Scrapy

Оп оп, надо будет изучить
Спасибо)

Читать полностью…

Scrapy

как будто vless и shadowsocks сделали китайцы, не уверен

Читать полностью…

Scrapy

Я думаю вы запутались в венвах

Читать полностью…

Scrapy

лучше не надо, лучше привыкать на английском писать, пригодится потом

Читать полностью…

Scrapy

Это не я, это в данном случае чатгпт развлекается)

Читать полностью…

Scrapy

Ну собсна основных вопроса 2 - как правильно делать. И есть ли этот AsyncCrawlerProcess и можно ли его заимпортить, или его нет в природе на самом деле, или это мои глюки какие-то с установленным scrapy, и поможет ли мне его включение, или оно так и будет писать все-равно `

TypeError: 'Task' object is not callable`

Читать полностью…

Scrapy

в целом он и при start_requests также орет про

TypeError: 'Task' object is not callable

Читать полностью…

Scrapy

а начал я эти async'и писать ибо мне чатгпт посоветовал, с того, что раньше я вот ставил breakpoint в пауке, и при запуске дебага из скрипта-стартера оно мне прекрасно стопалось где надо. А сейчас на новых версиях орало варнинги, мол мы переименовали функцию, и после того, как в спайдере я поменял на

    async def start(self):
"""Async start (Scrapy 2.13+).
Сначала скачиваем главную, чтобы собрать карту меню/категорий
"""
# yield an initial request as an async generator (what Scrapy expects)
yield scrapy.Request("урла/", callback=self.parse_catalog)

def parse_catalog(self, response):
"""
Собираем маппинг ссылок каталога -> "хлебная-крошка" вида "Женщинам>Туники и Футболки"
"""
self.catalog_map = {}

for menu_block in response.css('.menu_opens_menus'):
# используем 'p > a'
top_a_text = menu_block.css('p > a::text').get()
top_href = menu_block.css('p > a::attr(href)').get()


- csv при run собирается, а при debug, когда я без шелла одним глазком хочу через пичарм глянуть, ругается про

Читать полностью…

Scrapy

Привет! Попробуй проксимаркет, у них и прокси отличные и цена.

Читать полностью…

Scrapy

айпи тот же? юзерагент?

Читать полностью…

Scrapy

Напишите в личку, такой сервис есть)

Все публикации канала / группы отдаются в виде файла JSON/CSV/excel/sqlite

Читать полностью…

Scrapy

Привет, не слышал за такие, но я как-то парсил каналы и чаты с tgstat, там делов на 5 минут, лучше уж самому написать

Читать полностью…

Scrapy

Всем привет! Подскажите пожалуйста платные сервисы парсинга телеги, публичных каналов и групп, есть ли вообще такие, самому создавать парсер нет времени

Читать полностью…

Scrapy

I need LinkedIn cookie+pass account, and I don't need email access. Please contact me if you have any.

Читать полностью…

Scrapy

А можете ещё чего накидать?

Читать полностью…

Scrapy

https://github.com/XTLS/Xray-core/graphs/contributors

Читать полностью…

Scrapy

Какое такое кунг-фу, например?

Читать полностью…
Subscribe to a channel