파이썬(python)으로 RSS 크롤링하기

파이썬(python)으로 RSS 크롤링하기

1. RSS 크롤링 하기

1.1 feedparser 인스톨하기

> pip install feedparser

위와 같이 feedparser를 인스톨 합니다.

1.2 RSS피드 주소확인하기

https://pypi.python.org/pypi 에 접속합니다.

위에 접속한 데이터를 가져오도록 하겠습니다.

https://pypi.python.org/pypi?%3Aaction=rss 의 내용입니다.

https://pypi.python.org/pypi?%3Aaction=packages_rss 의 내용입니다.

두개의 RSS정보를 가져와 보도록 하겠습니다.

1.3 소스 코딩하기

아래와 같이 코딩합니다.

위의 소스코드를 입력하고. crawl_rss.py로 저장합니다.

> python crawl_rss.py

를 입력합니다.

1.4 결과 확인하기

결과가 아래와 같이 나타납니다.

이상과 같이 파이썬에서 RSS피드 정보를 가져오는 방법을 알아보았습니다. 여기에서 주의할점은

pubDate는 pubDate를 그대로 사용하는 것이 아니라 published를 사용하는 것입니다. 이것만 잘 기억한다면 RSS피드의 정보를 가져와서 활용할 수 있습니다.

1.99 요약

이상과 같이 URL 에서 RSS피드의 정보를 가져와서 파싱하고  파싱한 정보를 출력해 보았습니다.

We shall never be able to remove suspicion and fear as potential causes of war until communication is permitted to flow, free and open, across international boundaries.