一点技术之Beautiful Soup,这个库的作用是从 HTML 或 XML 文件中抓出有效数据,用来集成在PYTHON中使用,不过需首先要去官网下载,本文将不讲述如何下载安装,直接开撸代码实现爬虫 :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
# coding=utf-8 import urllib from bs4 import BeautifulSoup url ='http://www.baidu.com/s' values ={'wd':'美女'} encoded_param = urllib.urlencode(values) full_url = url +'?'+ encoded_param response = urllib.urlopen(full_url) soup =BeautifulSoup(response) alinks = soup.find_all('a') |
本文简单的通过引入urllib库和BeautifulSoup实现对百度关键词的一个记录抓取,代码非常简单,用于抛砖引玉,万变不离其宗,有任何问题可在下方留言给一点博主。