1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
дебаг начинает работать хоть с async def start хоть с def start_requests если выставить в settings.py TWISTED_REACTOR = None
Т.е. из-за https://docs.scrapy.org/en/2.13/topics/settings.html#std-setting-TWISTED_REACTOR:~:text=If%20this%20setting%20is%20set%20None%2C%20Scrapy%20will%20use%20the%20existing%20reactor%20if%20one%20is%20already%20installed%2C%20or%20install%20the%20default%20reactor%20defined%20by%20Twisted%20for%20the%20current%20platform. - но не умудряется же пичарм сам где-то другой твистед поднять. Много раз перечитал что не так, надо видимо еще перечитывать...
2025-08-25 23:10:56 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2025-08-25 23:10:56 [asyncio] ERROR: Exception in callback <Task pending name='Task-1' coro=<ExecutionEngine.open_spider() running at C:\prjvk\pyuploader\.venv\Lib\site-packages\scrapy\core\engine.py:430> cb=[Deferred.fromFuture.<locals>.adapt() at C:\prjvk\pyuploader\.venv\Lib\site-packages\twisted\internet\defer.py:1255]>()
handle: <Handle <Task pending name='Task-1' coro=<ExecutionEngine.open_spider() running at C:\prjvk\pyuploader\.venv\Lib\site-packages\scrapy\core\engine.py:430> cb=[Deferred.fromFuture.<locals>.adapt() at C:\prjvk\pyuploader\.venv\Lib\site-packages\twisted\internet\defer.py:1255]>()>
Traceback (most recent call last):
File "C:\Users\user\AppData\Roaming\uv\python\cpython-3.13.4-windows-x86_64-none\Lib\asyncio\events.py", line 89, in _run
self._context.run(self._callback, *self._args)
~~~~~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
TypeError: 'Task' object is not callable
Такой вопрос, в scrapy 2.13.3, есть же https://docs.scrapy.org/en/master/topics/api.html#scrapy.crawler.AsyncCrawlerProcess ?
Я вроде его поставил через uv, версию показывает 2.13.3, в винде 10+pycharm, уже и pycache поудалял и инвалидировал, он мне пишет на импорте from scrapy.crawler import AsyncCrawlerProcess, что де Cannot find reference 'AsyncCrawlerProcess' in 'crawler.py'
Вообще я пытаюсь исполнить эту штуку: https://docs.scrapy.org/en/master/topics/practices.html#running-multiple-spiders-in-the-same-process
Ладно, извините, я не знаю, что я начудил, но оно уже работает какой-то магией (наверно url кривой) 😅
Читать полностью…
у меня был написан паучок для сайта, где как бы нужен логин. Раньше я брал просто запрос, который уже есть, из него извлекал кукис, вставлял вручную в паука и всё было окей. Сервак отвечал так, будто он понимает, кто я.
Пробовал в шелле вручную шаг за шагом и всё было окей.
Но когда я пытаюсь в скрипте проделать те же манипуляции, то почему-то меня редиректит на страничку логина.
Помогите кто-нибудь, прошу 🙏️️️️️️
Всем привет! Я делаю пет проект по парсингу американских сайтов с объявлениями о продаже авто. Ищу разработчиков, знакомых со Scrapy. Задачи разные:
• простые парсеры;
• настройка proxy rotation;
• сложные парсеры с фронтенд-рендерингом (Playwright, Selenium, Puppeteer, Splash и др.).
Кому интересна подработка, пожалуйста напишите мне.
Look for the provider of LinkedIn cookie+pass account, and the long-term cooperation introducer also has money to get it.
Читать полностью…
В Китае много народу? В Индии парсинг тоже "очень популярен".
Читать полностью…
есть podkop, на роутере стоит
утилита склеивающая разные формы обхода под разные нужды
если у ресурса рф в блоке или в рф ресурс блокнут
подробностей больше не знаю, установил скриптом и забыл)
как будто vless и shadowsocks сделали китайцы, не уверен
Читать полностью…
Не забывай. Что в плане блокировка и обхода блокировка они чуть ли не в перешли планеты все 😁
Читать полностью…
я предполагаю что там популярны локальные аля «зеркала» забугорных сайтов, до которых без впн не дойти
Читать полностью…
в целом он и при start_requests также орет про
TypeError: 'Task' object is not callableЧитать полностью…
а начал я эти async'и писать ибо мне чатгпт посоветовал, с того, что раньше я вот ставил breakpoint в пауке, и при запуске дебага из скрипта-стартера оно мне прекрасно стопалось где надо. А сейчас на новых версиях орало варнинги, мол мы переименовали функцию, и после того, как в спайдере я поменял на
async def start(self):
"""Async start (Scrapy 2.13+).
Сначала скачиваем главную, чтобы собрать карту меню/категорий
"""
# yield an initial request as an async generator (what Scrapy expects)
yield scrapy.Request("урла/", callback=self.parse_catalog)
def parse_catalog(self, response):
"""
Собираем маппинг ссылок каталога -> "хлебная-крошка" вида "Женщинам>Туники и Футболки"
"""
self.catalog_map = {}
for menu_block in response.css('.menu_opens_menus'):
# используем 'p > a'
top_a_text = menu_block.css('p > a::text').get()
top_href = menu_block.css('p > a::attr(href)').get()
Привет! Попробуй проксимаркет, у них и прокси отличные и цена.
Читать полностью…
Напишите в личку, такой сервис есть)
Все публикации канала / группы отдаются в виде файла JSON/CSV/excel/sqlite
Привет, не слышал за такие, но я как-то парсил каналы и чаты с tgstat, там делов на 5 минут, лучше уж самому написать
Читать полностью…
Всем привет! Подскажите пожалуйста платные сервисы парсинга телеги, публичных каналов и групп, есть ли вообще такие, самому создавать парсер нет времени
Читать полностью…
I need LinkedIn cookie+pass account, and I don't need email access. Please contact me if you have any.
Читать полностью…
или как раз таки для составления блеклистов/вайтлистов, чтоб весь трафик через впн не гонять
Читать полностью…
ну, для условного фастапи не так много ресурсов на китайском
по крайней мере в поиске гх чтоб до чего то китайского дойти надо полисать, а для scrapy чуть ли не на первой странице много что на китайском/с переводом на китайский