프로젝트 시작한 지 3일차, 중간점검으로 회의를 진행했다. 내가 앞서 진행했던 사이트는 한달에 7~8개 밖에 올라오지 않아 구글 뉴스 사이트를 크롤링하기로 했다. 사이트가 바껴서 로직은 조금 수정됐지만 html이 꼬여있지 않아서 수월했다.
셀레니움 사용할 때는 세팅 환경이 거의 고정이다.
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
#크롬 드라이버 자동 업데이트
from webdriver_manager.chrome import ChromeDriverManager
## 브라우저 꺼짐 방지
chrome_options = Options()
chrome_options.add_experimental_option("detach",True)
## 혹은 브라우저 띄우지 않기
chrome_options.add_argument('headless')
#불필요한 에러 메세지 없애기
chrome_options.add_experimental_option("excludeSwitches", ["enable-logging"])
#크롬 드라이버 자동 설치
service = Service(executable_path=ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)
확실히 크롤링은 복잡하지 않은 거 같다.
반응형