本文实例讲述了Python实现的爬取豆瓣电影信息功能。分享给大家供大家参考,具体如下:
本案例的任务为,爬取豆瓣电影top250的电影信息(包括序号、电影名称、导演和主演、评分以及经典台词),并将信息作为字典形式保存进txt文件。这里只用到requests库,没有用到beautifulsoup库
step1:首先获取每一页的源代码,用requests.get函数获取,为了防止请求错误,使用try...except..
def getpage(url):
try:
res=requests.get(url)
if res.status_code==200:
return res.text
return None
except RequestException:
return None
step2:做每一页的网址解析,打开原网址https://movie.douban.com/top250"" src="/UploadFiles/2021-04-08/201909150935281.png">
对单个网页的进行解析的代码如下:
def parsepage(html):
pat=re.compile('<li>.*"">(.*"100" alt="(.*" src=.*"">'
+'(.*"v:average">(.*"inq">(.*"htmlcode">
def write_tofile(content):
with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
f.write(json.dumps(content,ensure_ascii=False)+'\n')
f.close()
最后,需要用循环语句将每一页(共10页)内容都进行以上操作。这里,第二页的网址就是在第一页的url上加上一个start=25, 第三页是加上start=50,也就是每一页的start=为25*i。最后一段代码如下:
def main():
url="https://movie.douban.com/top250"
for i in range(0,9):
url_i=url+'start='+str(25*i)
html_i=getpage(url_i)
for item in parsepage(html_i):
print(item)
write_tofile(item)
if __name__ == '__main__':
main()
当然,这一段代码还有一种写法:
def main(start):
url="https://movie.douban.com/top250"+str(start)
html=getpage(url)
for item in parsepage(html):
print(item)
write_tofile(item)
if __name__ == '__main__':
for i in range(10):
main(i*10)
如果想让你的程序跑的更快,可以用多线程爬虫(当然这里其实没有必要):
#在最开始加载Pool包
from multiprocessing import Pool
#最后的执行段改为:
if __name__ == '__main__':
for i in range(10):
main(i*10)
pool=Pool() #在循环外写
pool.map(main,[i*10 for i in range (10)])
更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》
希望本文所述对大家Python程序设计有所帮助。
Python,爬取,豆瓣电影信息
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
P70系列延期,华为新旗舰将在下月发布
3月20日消息,近期博主@数码闲聊站 透露,原定三月份发布的华为新旗舰P70系列延期发布,预计4月份上市。
而博主@定焦数码 爆料,华为的P70系列在定位上已经超过了Mate60,成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢?
根据目前爆料的消息来看,华为P70系列将推出三个版本,其中P70和P70 Pro采用了三角形的摄像头模组设计,而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智,但辨识度绝对拉满。