1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
все новые тулзы они как будто 90% функционала старых делают
а когда надо прям эти оставшиеся 10%, приходится иметь и старое и новое
да а чем там говорить
флейк цветет и пахнет
и будет пока рафф плагины не завезут
с другой стороны, в js-коммьюнити еще все быстрее происходит вроде
Читать полностью…
I need a LinkedIn cookie account, which is an old account that uses cookies to log in, does not need email access, and has a LinkedIn password.
Читать полностью…
в чате присутствуют lxml големы?)
не знаете почему можно спокойно проитерироваться по дочерним тегам элемента, который был получен на start евенте используя lxml.etree.iterparse? судя по документации lxml, при start нам доступны только атрибуты элемента, но не его контент…
чуть подробнее, правда на английском, я рассписал тут: https://stackoverflow.com/questions/79754508/unexpected-availability-of-child-elements-during-start-events-in-lxml-etree-i
ага, понял, ну, мне это в итоге и нужно было, новинки из мастера)
Читать полностью…
Получается, uv берет последнюю версию с сайта pypi, а там почему-то этих async штук нет. Вот он и обламывается. А когда егойная подмена pip'a через uv pip берет с гитхаба - там уже нормально все в итоге. Фуф.
и скачал эти штуки. и в них в crawler.py нет import asyncio и нет AsyncCrawlerProcess. Ну или я уже кукухой поехал...
Читать полностью…
Тоже думаю на это, других объяснений не вижу пока, но я же все в одной и той же консоли пишу, делаю вот uv remove scrapy - папка исчезает с ним из .venv, потом с первой командой папка появляется, но в crawler.py нет import asyncio, дальше в этом же терминале вторую команду делаю, и хоб - import asyncio появляется. pycache удалял. Версии пишет одинаковые. Бред. Я брежу. Нет, у меня там еще стоит wsl где-то с питоном, но он вообще в другом каталоге:
(pyuploader) PS C:\prjvk\pyuploader> uv add scrapyЧитать полностью…
Resolved 125 packages in 36ms
Installed 14 packages in 39ms
+ defusedxml==0.7.1
+ filelock==3.19.1
+ itemadapter==0.12.1
+ itemloaders==1.3.2
+ protego==0.5.0
+ pyasn1==0.6.1
+ pyasn1-modules==0.4.2
+ pydispatcher==2.0.7
+ pyopenssl==25.1.0
+ queuelib==1.8.0
+ requests-file==2.1.0
+ scrapy==2.13.3
+ service-identity==24.2.0
+ tldextract==5.3.0
(pyuploader) PS C:\prjvk\pyuploader> uv pip install --upgrade "https://github.com/scrapy/scrapy.git"
Resolved 37 packages in 1.29s
Prepared 2 packages in 97ms
Uninstalled 2 packages in 16ms
Installed 2 packages in 28ms
- scrapy==2.13.3
+ scrapy==2.13.3 (from git+https://github.com/scrapy/scrapy.git@ed63fa94d698ba09875d45c20253b98e05cca5e5)
- typing-extensions==4.14.1
+ typing-extensions==4.15.0
(pyuploader) PS C:\prjvk\pyuploader>
И правда глюки, с пяток раз делал uv add scrapy - питон клялся божился что поставил scrapy==2.13.3, везде в версиях написано что 2.13.3, но в crawler.py не было даже import asyncio, по-итогу сработало uv pip install "https://github.com/scrapy/scrapy.git" `и `from scrapy.crawler import AsyncCrawlerProcess заработал.
Правда проблема не в нем оказалась, даже с ним Run проходил нормально, а на Debug вылезала эта TypeError: 'Task' object is not callable
Профессор чатгпт сказал, что "баг/побочный эффект асинхронной поддержки в отладчике PyCharm: в режиме Debug PyCharm включает экспериментальную «asyncio REPL / asyncio support», которая вмешивается в loop/таски и иногда ставит в очередь не вызываемые объекты Task как callback'и, из-за чего при выполнении loop'а получается TypeError: 'Task' object is not callable. В обычном Run этой фичи нет — поэтому у тебя всё работает при простом запуске, но падает при отладке. Это известная проблема, уже описанная пользователями." и в целом вот это решение помогло:
Отключить asyncio REPL в реестре PyCharm:
Нажми Shift дважды (или Ctrl+Shift+A) → введи Registry... → в поле поиска найди python.debug.asyncio.repl → сними галочку → перезапусти PyCharm
ЗЫ божечки, храни людей, которые все еще пишут на стековере!
https://stackoverflow.com/questions/79675253/task-object-is-not-callable-when-debugging-with-asyncio-windowsselectoreventloo
https://youtrack.jetbrains.com/issue/PY-57667/Asyncio-support-for-the-debugger-EXPERIMENTAL-FEATURE
Осталось теперь только uv допинать, что там не так)
У меня в вскоде есть прила, но она на англ генерит, ищу на что бы на ру
Читать полностью…
Руководитель группы разработки (Python), Tech Lead
Ссылка на вакансию
I need a LinkedIn cookie account, which is an old account that uses cookies to log in, does not need email access, and has a LinkedIn password.
I need a LinkedIn cookie account, which is an old account that uses cookies to log in, does not need email access, and has a LinkedIn password.
не, он же теперь что ему надо тупо ищет в инете, и конкретно здесь он именно самые последние фичи высмотрел, правда, причина изначальная все-равно не в этом была)
Читать полностью…
для контекста:
https://жспобеда.рф
https://питонпобеда.рф
https://растпобеда.рф
ну кстати нет, во всех трех случаях чатгпт меня в сторону уводил и галлюцинировал по-кругу, и только волшебные слова возвращали его в русло конструктива. То он await'ы предлагал расставить просто так, то за wsl зацепился, потом еще у него цельное ответвление про twisted было. Короче чо тока не придумывал, лишь бы не работать))
Читать полностью…
почему-то я думал, что они уже есть под тегом релиза 2.13.3
Читать полностью…
хммм, а вот открыл я https://pypi.org/project/Scrapy/#files
Читать полностью…
лучше не надо, лучше привыкать на английском писать, пригодится потом
Читать полностью…
Ну собсна основных вопроса 2 - как правильно делать. И есть ли этот AsyncCrawlerProcess и можно ли его заимпортить, или его нет в природе на самом деле, или это мои глюки какие-то с установленным scrapy, и поможет ли мне его включение, или оно так и будет писать все-равно `
TypeError: 'Task' object is not callable`Читать полностью…