scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

все новые тулзы они как будто 90% функционала старых делают
а когда надо прям эти оставшиеся 10%, приходится иметь и старое и новое

Читать полностью…

Scrapy

да а чем там говорить
флейк цветет и пахнет
и будет пока рафф плагины не завезут

Читать полностью…

Scrapy

с другой стороны, в js-коммьюнити еще все быстрее происходит вроде

Читать полностью…

Scrapy

I need a LinkedIn cookie account, which is an old account that uses cookies to log in, does not need email access, and has a LinkedIn password.

Читать полностью…

Scrapy

в чате присутствуют lxml големы?)
не знаете почему можно спокойно проитерироваться по дочерним тегам элемента, который был получен на start евенте используя lxml.etree.iterparse? судя по документации lxml, при start нам доступны только атрибуты элемента, но не его контент…
чуть подробнее, правда на английском, я рассписал тут: https://stackoverflow.com/questions/79754508/unexpected-availability-of-child-elements-during-start-events-in-lxml-etree-i

Читать полностью…

Scrapy

Ну так он про новые фичи вообще не в курсе

Читать полностью…

Scrapy

да я к этому и написал)

Читать полностью…

Scrapy

очередная чатгпт победа

Читать полностью…

Scrapy

ага, понял, ну, мне это в итоге и нужно было, новинки из мастера)

Читать полностью…

Scrapy

Получается, uv берет последнюю версию с сайта pypi, а там почему-то этих async штук нет. Вот он и обламывается. А когда егойная подмена pip'a через uv pip берет с гитхаба - там уже нормально все в итоге. Фуф.

Читать полностью…

Scrapy

и скачал эти штуки. и в них в crawler.py нет import asyncio и нет AsyncCrawlerProcess. Ну или я уже кукухой поехал...

Читать полностью…

Scrapy

Тоже думаю на это, других объяснений не вижу пока, но я же все в одной и той же консоли пишу, делаю вот uv remove scrapy - папка исчезает с ним из .venv, потом с первой командой папка появляется, но в crawler.py нет import asyncio, дальше в этом же терминале вторую команду делаю, и хоб - import asyncio появляется. pycache удалял. Версии пишет одинаковые. Бред. Я брежу. Нет, у меня там еще стоит wsl где-то с питоном, но он вообще в другом каталоге:

(pyuploader) PS C:\prjvk\pyuploader> uv add scrapy
Resolved 125 packages in 36ms
Installed 14 packages in 39ms
+ defusedxml==0.7.1
+ filelock==3.19.1
+ itemadapter==0.12.1
+ itemloaders==1.3.2
+ protego==0.5.0
+ pyasn1==0.6.1
+ pyasn1-modules==0.4.2
+ pydispatcher==2.0.7
+ pyopenssl==25.1.0
+ queuelib==1.8.0
+ requests-file==2.1.0
+ scrapy==2.13.3
+ service-identity==24.2.0
+ tldextract==5.3.0
(pyuploader) PS C:\prjvk\pyuploader> uv pip install --upgrade "https://github.com/scrapy/scrapy.git"
Resolved 37 packages in 1.29s
Prepared 2 packages in 97ms
Uninstalled 2 packages in 16ms
Installed 2 packages in 28ms
- scrapy==2.13.3
+ scrapy==2.13.3 (from git+https://github.com/scrapy/scrapy.git@ed63fa94d698ba09875d45c20253b98e05cca5e5)
- typing-extensions==4.14.1
+ typing-extensions==4.15.0
(pyuploader) PS C:\prjvk\pyuploader>

Читать полностью…

Scrapy

И правда глюки, с пяток раз делал uv add scrapy - питон клялся божился что поставил scrapy==2.13.3, везде в версиях написано что 2.13.3, но в crawler.py не было даже import asyncio, по-итогу сработало uv pip install "https://github.com/scrapy/scrapy.git" `и `from scrapy.crawler import AsyncCrawlerProcess заработал.

Правда проблема не в нем оказалась, даже с ним Run проходил нормально, а на Debug вылезала эта TypeError: 'Task' object is not callable
Профессор чатгпт сказал, что "баг/побочный эффект асинхронной поддержки в отладчике PyCharm: в режиме Debug PyCharm включает экспериментальную «asyncio REPL / asyncio support», которая вмешивается в loop/таски и иногда ставит в очередь не вызываемые объекты Task как callback'и, из-за чего при выполнении loop'а получается TypeError: 'Task' object is not callable. В обычном Run этой фичи нет — поэтому у тебя всё работает при простом запуске, но падает при отладке. Это известная проблема, уже описанная пользователями." и в целом вот это решение помогло:

Отключить asyncio REPL в реестре PyCharm:
Нажми Shift дважды (или Ctrl+Shift+A) → введи Registry... → в поле поиска найди python.debug.asyncio.repl → сними галочку → перезапусти PyCharm

ЗЫ божечки, храни людей, которые все еще пишут на стековере!
https://stackoverflow.com/questions/79675253/task-object-is-not-callable-when-debugging-with-asyncio-windowsselectoreventloo
https://youtrack.jetbrains.com/issue/PY-57667/Asyncio-support-for-the-debugger-EXPERIMENTAL-FEATURE
Осталось теперь только uv допинать, что там не так)

Читать полностью…

Scrapy

У меня в вскоде есть прила, но она на англ генерит, ищу на что бы на ру

Читать полностью…

Scrapy

Чем докстринг генерируешь на русском?

Читать полностью…

Scrapy

я всё выкинул, только ruff и mypy

Читать полностью…

Scrapy

пока очень сырой и с мупу несовместим

Читать полностью…

Scrapy

Руководитель группы разработки (Python), Tech Lead
Ссылка на вакансию

Читать полностью…

Scrapy

I need a LinkedIn cookie account, which is an old account that uses cookies to log in, does not need email access, and has a LinkedIn password.
I need a LinkedIn cookie account, which is an old account that uses cookies to log in, does not need email access, and has a LinkedIn password.

Читать полностью…

Scrapy

не, он же теперь что ему надо тупо ищет в инете, и конкретно здесь он именно самые последние фичи высмотрел, правда, причина изначальная все-равно не в этом была)

Читать полностью…

Scrapy

для контекста:
https://жспобеда.рф
https://питонпобеда.рф
https://растпобеда.рф

Читать полностью…

Scrapy

ну кстати нет, во всех трех случаях чатгпт меня в сторону уводил и галлюцинировал по-кругу, и только волшебные слова возвращали его в русло конструктива. То он await'ы предлагал расставить просто так, то за wsl зацепился, потом еще у него цельное ответвление про twisted было. Короче чо тока не придумывал, лишь бы не работать))

Читать полностью…

Scrapy

почему-то я думал, что они уже есть под тегом релиза 2.13.3

Читать полностью…

Scrapy

Потому что по урлу вы ставите мастер, а не релиз

Читать полностью…

Scrapy

Нет, это же дока от мастера

Читать полностью…

Scrapy

хммм, а вот открыл я https://pypi.org/project/Scrapy/#files

Читать полностью…

Scrapy

Я думаю вы запутались в венвах

Читать полностью…

Scrapy

лучше не надо, лучше привыкать на английском писать, пригодится потом

Читать полностью…

Scrapy

Это не я, это в данном случае чатгпт развлекается)

Читать полностью…

Scrapy

Ну собсна основных вопроса 2 - как правильно делать. И есть ли этот AsyncCrawlerProcess и можно ли его заимпортить, или его нет в природе на самом деле, или это мои глюки какие-то с установленным scrapy, и поможет ли мне его включение, или оно так и будет писать все-равно `

TypeError: 'Task' object is not callable`

Читать полностью…
Subscribe to a channel