반응형 [Python & Ruby]31 Python 파이참 셀레니움 드라이버 설치 / 환경 세팅 그동안 파이썬 크롤링 실습이나 파이썬 코드들을 Colab 클라우드 상에서 실행했었는데, 로컬에서 실행해보기 위해 파이참을 다운로드해보게 되었다! https://www.jetbrains.com/ko-kr/pycharm/download/#section=mac 다운로드 PyCharm: JetBrains가 만든 전문 개발자용 Python IDE www.jetbrains.com 파이참은 jetbrain 회사에서 만들었다. 아나콘다 라는 것도 설치해주어야 하는건가 싶었는데, 알아보니까 아나콘다는 라이브러리 버전 conflict 충돌 같은것을 관리해주기 위한 도구로, 파이참 만으로도 개발환경은 구성된다는 것을 알 수 있었다. 그리고 아나콘다는 약간 Docker의 개념이며, Docker가 있으면 아나콘다는 딱히 필요 .. 2022. 11. 20. Python 크롤링 - 3 / 이마트 크롤링해보기 3 저번 글에서는, 이마트 내의 상품명과 상품가격을 for문을 이용해 크롤링하였고 그 데이터를 Pandas 라이브러리를 이용하여 정리하고, 그 결과 데이터를 to_excel() 함수를 이용해 엑셀파일로 저장시키는 작업까지 했습니다. 이번에는, 이마트 내의 상품 이미지를 크롤링하여 저장해보는 과정을 진행해봅니다. ::before, ::after 이런 것은 가상요소로, 실제 태그가 아니므로 무시합니다. 우리는 그 바로 아래 img 태그 부분을 copy Xpath합니다. 그리고 우리는 새로운 함수를 사용할 것인데, 그것은 바로 get_attribute() 함수입니다 image1 = driver.find_element(By.XPATH, '//*[@id="ty_thmb_view"]/ul/li['+ str(i) + '.. 2022. 11. 20. Python 크롤링 - 3 / 이마트 크롤링해보기 2 이전 글에서는, 하나의 품목에 대해서만 크롤링을 진행했는데 이번 글에서는, 반복문을 이용해서 다량의 데이터를 크롤링하는 코드를 작성합니다. 마찬가지로 이마트 홈페이지에서, '생수 / 음료 / 주류' 탭에 들어갑니다. 저번에는 1페이지의 가장 첫번째 상품명의 XPath를 복사했었는데 이번에는 1페이지의 가장 마지막 상품명의 Xpath를 복사합니다. 그리고 이 둘을 비교해봅시다. 태그 상의 규칙 찾기 첫번째 상품명 : '//*[@id="ty_thmb_view"]/ul/li[1]/div[2]/div[2]/div/a/em[1]' 마지막 상품명 : '//*[@id="ty_thmb_view"]/ul/li[80]/div[2]/div[2]/div/a/em[1]' li 가 1에서 80까지인 것을 확인할 수 있다. 이렇게.. 2022. 11. 19. Python 크롤링 - 3 / 이마트 크롤링해보기 1 이번에는 이마트 상품 하나를 크롤링 해 볼 것입니다. 원리와 방식은 이전과 동일합니다. 다만 이번에는 Copy Selector를 이용한 CSS가 아니라 Copy XPATH를 이용할 것입니다. XPATH XML 문서의 특정 요소나 속성에 접근하기 위한 경로를 지정하는 언어 CSS selector나 이외 다른 방식을 사용해도 되는데, 그냥 경로를 지정하는 간단한 방식 중 하나로 XPATH를 자주 사용하는 것 같습니다. 이마트몰에 접속하여, 생수/음료/주류 코너로 이동했습니다. 그다음 마찬가지로 개발자 도구를 켜고, 마우스 트래킹을 활용하여 첫번째 상품 제목에 마우스를 가져다 댄 뒤 클릭해줍니다. 그리고 Copy XPath를 통해 XPath를 복사해줍니다. 또한 이번에는, 첫번째 상품 가격에 마우스를 올린 뒤.. 2022. 11. 18. 이전 1 2 3 4 5 ··· 8 다음 반응형