###登录信息
- 账号密码
查看HTML源码,Google里可以使用CTRL+U查看,然后使用CTRL+F输入input看看有哪些字段值。
通过 chrome 的 network 的 login 的 Form Data 获取需要的字段。
zhihu 还有一个隐藏字段
_xsrf
,需要另外获取。简单的网站就是基本的字段。
通过request.session的 post 方法 进行登录。 get 方法获取网页信息。
session = requests.session()
login_data = {'email':email,'passwd':passwd}
session.post('http://hk2.app.akulaku.com:60100/auth/login',data = login_data)
r = session.get('http://hk2.app.akulaku.com:60100/user')
- cookies
###爬虫爬取
import bs4
soup = bs4.BeautifulSoup(r.text,"lxml")
r = session.get('url')
name = soup.select('.hidden-xs')[0].get_text()
注意最后,需要通过.get_text()方法转为中文字符。
###抓包
###ConfigParser
读取配置文件信息 cf = ConfigParser.ConfigParser() cf.read(‘config.ini’) email = cf.get(‘info’,’email’)
References:
- [python爬取需要登录的网站信息](http://python.jobbole.com/83588/)
- 抓包
- http://www.csuldw.com/2016/11/05/2016-11-05-simulate-zhihu-login/
- github
- spider
- python 抓取网页