1045
Чат создан чтобы делиться опытом о Scrapy/Python и другими парсинг технологиями. Вежливость и уважение к другим участникам группы. Троллинг не приветствуется. FAQ: https://github.com/bulatbulat48/ru-scrapy-python Работа: t.me/scrapy_jobs
Здравствуйте, подскажите как с помощью Scrapy собрать "Применимость" с такого рода страниц: https://japanpartsmsk.ru/autopart-product/6325c989d06e88f19c7c49f9/
https://monosnap.com/file/9A1qrNq8ryBzqmO9Jc6ByXW56lcXW8
Это подгружается с помощью Javascript. Не хотелось бы использовать Selenium или что то подобное.
да, там действительно есть открытые, один уже раскопал, запускаться - запускается, ищет инфу, но не собирает
Читать полностью…
копаю репозетории через chatGPT o3-mini-high по 1688, франкенштейна боюсь собрать😬
Читать полностью…
3 месяца у меня ушло на разработку, основная проблема - динамический "бан" . Нет логина с "фингерпринта" (не путать с IP) - ты бот без вариантов и слайдер тебе не поможет.
Читать полностью…
Да в принципе можно парсить. Нужна только гора проксей и слайдер антикапчу прикрутить к bs.)
Читать полностью…
Всем добрый вечер
Подскажите, пожалуйста, как спарсить при помощи beautiful soup на сайте 1688 товары по категориям
- цены
- оценка
- рейтинг
- продажи и тд…
Всем привет! Кто может дать подсказку?
Проблема такая: пытаюсь спарсить один сайт, где нужна авторизация. Передаю заголовок с текущей сессией, но когда начинаю парсить другую страницу, пишет, что нет авторизации. Это из-за того, что поменялась сессия?
короче, наткнулся на статью, если кому надо, держите)
from selenium import webdriverЧитать полностью…
# create Chromeoptions instance
options = webdriver.ChromeOptions()
# adding argument to disable the AutomationControlled flag
options.add_argument("--disable-blink-features=AutomationControlled")
# exclude the collection of enable-automation switches
options.add_experimental_option("excludeSwitches", ["enable-automation"])
# turn-off userAutomationExtension
options.add_experimental_option("useAutomationExtension", False)
# setting the driver path and requesting a page
driver = webdriver.Chrome(options=options)
# changing the property of the navigator value for webdriver to undefined
driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
driver.get("https://www.ozon.ru")
# close the driver
driver.close()
мне кажется что это скорее всего глобальная проблема, т.к смена айпишников, впны и прочее никак на ситуацию не влияли. а еще осенью все работало
Читать полностью…
Ребят привет, если есть кто умеет парсить маркетплейсы и есть время брать задачи по парсингу сайтов подобной сложности, отпишите пожалуйста
Читать полностью…
подскажите, пожалуйста, есть ли подобные решения опен сорс ?
Читать полностью…
У меня рекорд 6 месяцев разработки. Жесткий был ресурс.)
Читать полностью…
Здесь проблема не в парсере. Проблема в объеме. А про это ничего в условиях задачи не сказано.
А так можно даже curl использовать. Только медленно будет очень.
Добавил в Postman cURL первой и второй страницы. Первая работает, а вторая нет.
Читать полностью…
передаю headers. и cookies с csrf_token , client_id и Device-Id
Читать полностью…
Здравствуйте, если у вас проблема с Cloudflare и невидимой hcaptcha, свяжитесь со мной.(nodejs)
Читать полностью…
и на другом пк проверил от другой сети та же история
может кто-нибудь у себя посмотреть работает ли хоть какой-нибудь парсер на озоне?