scrapy_python | Unsorted

Telegram-канал scrapy_python - Scrapy

1045

Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs

Subscribe to a channel

Scrapy

Не понял, обьясните в смысле заменить? И что за парсель? 🤨

Читать полностью…

Scrapy

а селениум на плейрайт

Читать полностью…

Scrapy

Добрый день 💃
Подскажите, парсю tiktok через selenium и beautiful soup, хочу достать трендовые видео:

from selenium import webdriver
from bs4 import BeautifulSoup
import time

driver = webdriver.Chrome()
driver.get("https://www.tiktok.com/discover/location-trends?lang=en")
time.sleep(1)

soup = BeautifulSoup(driver.page_source, 'html.parser')
videos = soup.find_all('div', {'class': ' css-at0k0c-DivWrapper e1cg0wnj1'})

print(len(videos))
for video in videos:
print(video.a['href'])

однако в скачанном html такой класс
'class': ' css-at0k0c-DivWrapper e1cg0wnj1'

просто отсутствует, как и вообще весь div с контентом, что делать? 😓

Читать полностью…

Scrapy

С данными либами что андей написал при реквесте 403 status code, нужна полная имитация браузера и чтобы джс на фоне выполнялся для получения лицензии или вылезет капча

Читать полностью…

Scrapy

выше Андрей написал. Ну и, в догонку - для начала надо убедиться на 100%, что реквестами нельзя победить...

Читать полностью…

Scrapy

Берите puppeteer а лучше сразу playwright

Читать полностью…

Scrapy

все не так
1.тормозной
2. глюкавый
3. память жрет как не в себя....

не, я, так то, понимаю, что, иногда - без него совсем никак, но, это совсем уж редкие случаи

Читать полностью…

Scrapy

Подскажите как скрыть от сайта режим --headless , для хромдрайвера, подсовывает капчу, имитацию клика сделал через экшн но не проходит проверка

Читать полностью…

Scrapy

кто selenium использует, подскажите что делать если в class есть пробелы

cke_wysiwyg_div cke_reset cke_enable_context_menu cke_editable cke_editable_themed cke_contents_ltr
. Селениум такие классы найти не может

Читать полностью…

Scrapy

наследуюсь от scrapy.pipelines.images.ImagesPipeline

Читать полностью…

Scrapy

FILES_EXPIRES это про (uptodate)

Читать полностью…

Scrapy

пайплайном, как я понимаю

2024-06-20 15:20:30 [scrapy.pipelines.files] DEBUG: File (cached):

Читать полностью…

Scrapy

Спасибо огромно, почитаю

Читать полностью…

Scrapy

то оно даже чото похожее на правду выдавать начинает:

Читать полностью…

Scrapy

и возможно были какие-нибудь примеры кода в трекере

Читать полностью…

Scrapy

но там поди тупо бан

Читать полностью…

Scrapy

Замените суп на парсель и возможно вам помогут)

Читать полностью…

Scrapy

будто в них этого нет

Читать полностью…

Scrapy

Ищу партнеров в команду для получения доп.дoxoда
Удаленно, с телефона, или компьютера
За деталями пишите в ЛС

Читать полностью…

Scrapy

А что порекомендуете на замену? Чтоб также можно было куки для логина использовать

Читать полностью…

Scrapy

Каждый раз когда вы про селениуем пишете я ощущаю тоже самое, как про BS вопросики тут.

Читать полностью…

Scrapy

Содержательно😂 а что не так?

Читать полностью…

Scrapy

это разные классы...

Читать полностью…

Scrapy

да, было в настройках HTTPCACHE_ENABLED = True,
выключил, начал скачивать

Читать полностью…

Scrapy

а, нашёл, оно специально пишет cached когда HttpCacheMiddleware его закешировал, т.е. как я сразу и подумал

Читать полностью…

Scrapy

это у вас какой-то свой пайплайн?

Читать полностью…

Scrapy

почему image pipeline использует кешированный ответ, даже при наличии в настройках

FILES_EXPIRES = -1
IMAGES_EXPIRES= -1

Читать полностью…

Scrapy

ну понятно там еще надо бы желательно файнтюнить на своих именно данных, как-то над моделькой

Читать полностью…

Scrapy

а сколько всего товаров и как часто их надо собирать? Если прям много и часто, то можно поискать модельки тут https://huggingface.co/models
и там же примерно как их скрещивать, ну для экспериментов можно отсюда начать:
https://github.com/oobabooga/text-generation-webui
ЗЫ и все это проще уже делать не в процессе, а постфактум, на собранных данных (чувствую себя капитаном очевидностью)

Если к примеру пойти на https://huggingface.co/chat , там можно поиграться с некоторыми модельками, если, к примеру задать такой текст:
{'Details': ['▪️ Made in: Spain', '▪️ Composition: 100% Calfskin', '▪️ Model Code: E619Z20X03 2544', '▪️ Item ID: 8560691806541'], 'Taglia e vestibilità': [], 'Spedizioni e resi': [], 'Descrizione': ['Deep brown']}
и такой промпт:

Читать полностью…

Scrapy

нельзя, но можно заменить мидлварь своей, менее производительной

Читать полностью…
Subscribe to a channel