본문 바로가기
[Python & Ruby]

Python 크롤링 - 1 / 라이브러리 종류

by Hevton 2022. 11. 17.
반응형

 

 

요즘 파이썬에 관심을 깊게 갖게 되었다.

 

 

예전에는 뭔가 너무나 짧은 코드로 인해, 모든 것들이 라이브러리로 구현되어 있다는 것에서

 

뭔가 꼰대같은 쓸데없는 마인드가 발동했었던 것 같다.

 

근본 언어들에 대해서 공부하는 것이 필요하다고 생각해서, 파이썬 같은 언어에 대해서 스스로 피했었는데

 

이런 자의식이 나를 더욱 망쳤고, 스스로의 발전 가능성을 막고 한계를 생성했던 것 같다.

결과적으로 나는 다른 사람들보다 발전할 수 없었던 것 같다.

 

그렇게 예전에 스스로 생성한 편견으로, 자연스럽게 그 이후에 파이썬을 깊게 터치하지 않고, 탐구하지도 않게 된 것 같은데

최근 같은 팀원분을 통해 파이썬의 강력함을 느끼게 되어서, 정말 더 이상의 어리석은 생각은 하지 않도록

이번 기회에 탈피하는 한 걸음이 되고자, 파이썬의 장점들을 활용하기로 결심했다.

 

 

파이썬으로 가장 먼저 해보고 싶었던 것은, 데이터 크롤링이었다.

자바 언어로도 해봤지만, 파이썬으로 작업하는 팀원분을 보면서, 정말 해보고 싶다는 생각을 해보게 되었다.

 


 

서론이 길었다.

 

파이썬의 정말 큰 장점은, Library가 정말 많다는 것이다.

그래서 코드도 간결하다.

 

그리고 배열에서 각 자료형이 다를 수도 있고, 판다스나 넘파이 같은 강력한 라이브러리들로 데이터 관리에 매우 유용하다.

 

 

이번에, 파이썬을 이용한 아래 라이브러리들을 통해 크롤링을 공부하고 실습해 볼 것이다.

 

1. Pandas - 데이터 처리

2. Selenium - 데이터 크롤링

3. Urllib - 이미지 데이터 위주 다루기

 

 

저는 실습환경으로 Google Colab을 사용할 것인데

이곳에서 Selenium을 사용하기 위해서는 라이브러리 다운로드가 필요합니다.

Colab 스크립트 창에 딱 한 번만

!pip install selenium
!apt-get update
!apt install chromium-chromedriver

이것을 입력하여 다운로드해주면 됩니다.

참고 : https://ai-run.tistory.com/47

 

 

셀레니움은 웹 테스트 자동화 프레임워크로써, selenium webdriver를 이용하여 다양한 브라우저를 컨트롤 할 수 있다.

더 자세히

 


 

그리고 용어를 잠깐 소개하자면

 

크롤링 : 웹 상의 데이터를 수집하고 분류 저장하는 일종의 작업

데이터를 수집해서 꺼내보기 쉽게 정리해놓는 작업을 말한다.

 

스크래핑 : 데이터를 수집하는 모든 작업

 

파싱 : 데이터를 가공하여 원하는 포맷으로.

 

용어가 다 비슷비슷한데,

데이터를 긁어서 파싱해서 분석하는 모든 일련의 작업을 보통 "크롤링한다"고 대중적으로 표현합니다.

용어 설명 : https://aftersiesta.tistory.com/8

 

 

 

시작이 반이다!

반응형