Python爬虫实战 | 人民网爬虫 根据关键词筛选新闻文章_机灵鹤的博客-CSDN博客

网站介绍:上一篇《人民日报》的爬虫文章发布之后,收到了很不错的反馈,文中的爬虫代码也确实帮助到了很多人,我很开心。跟读者们交流过程中,我也发现了一些比较共性的需求,就是 根据关键词筛选 新闻文章。最初我的想法是,在爬取到全部文章数据的基础上,遍历文件夹,然后将正文中包含关键词的文章筛选出来。如果你已经下载到了完整的新闻数据,那用这种方法无疑是最方便快捷的。但是如果没有的话,需要先爬取全部数据,再从中筛选符合条件的数据,无疑是有点浪费时间。本篇文章,我将介绍两种方法,一种,是从现有数据中根据关键词筛选,另一种,_人民网爬虫