프로그래밍 노트

[파이썬] 홈페이지 속 테이블을 DataFrame으로 받기 본문

파이썬

[파이썬] 홈페이지 속 테이블을 DataFrame으로 받기

떡잎 2020. 1. 24. 19:52

파이썬 pandas를 사용하면 홈페이지 속 테이블을 어렵지 않게 DataFrame으로 받을 수 있다.

 

위키백과에서 인구순 나라 목록을 DataFrame으로 가져와 보자

 

 

 

소스

import pandas as pd

# pandas.read_html
# 지정한 홈페이지 주소에 있는 테이블()들을 DataFrame의 List로 반환

df = pd.read_html('https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B5%AC%EC%88%9C_%EB%82%98%EB%9D%BC_%EB%AA%A9%EB%A1%9D', header = 0)[0] 

 

header = 0 가져온 table의 첫 행을 DataFrame의 컬럼으로 설정

[0] 지정한 URL의 첫번째 table을 DataFrame으로 반환

 

df.head()​

 

결과

 

Out[3]:

  순위 나라 (및 속령) 인구 기준일자 출처
0 1 중화인민공화국 1420060000 2019.0 공식 인구시계
1 2 인도 1368780000 2019.0 공식 인구시계
2 3 미국 329676200 2019.0 공식 인구시계
3 4 인도네시아 270110500 2019.0 공식 연간 예상치
4 5 브라질 215850000 2019.0 공식 인구시계
 

 

 

pandas.read_html을 좀 더 자세히 보고자 한다면

아래 링크를 참조하면 된다.

https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.read_html.html

 

확실히 알고 공부하는 것이 좋으니까

Comments