我们简单介绍一下本文的思路。 安装安装完毕后,我们开始创建项目。 创建项目后,会生成一系列文件。 然后我们使用我们的IDE:来编写我们的网站,并且使用爬虫来编译网站的内容。 先爬取网站上的电影信息并存入MySqL数据库中,然后从数据库中提取数据放到网站上,就完成了本次研究。
从上面我们可以看出,本次研究可以分为两个部分:1.使用爬虫爬取数据并存储到数据库中。 2.建立一个网站,从数据库中提取数据放到网站上。 由于篇幅原因,本文先讲第一部分,第二部分留待下次讨论。
首先导入相关模块:
之后,利用网站的URL,获取相关网页的源代码,并使用正则表达式获取目标链接和标题:
正则表达式:.:匹配除了制表符和换行符之外的任意字符。*:前面的元字符出现任意次,包括零。+:前边的元字符出现一次及以上
从获取到的网页源码中,我们使用正则匹配来获取我们想要的数据:内容、链接
然后,连接数据库:
最后,为了获取多页数据我们使用for循环:
至此,代码部分就结束了。 我们先运行一下看看结果:
可以看到,我们爬取的数据显示在数据库表中。 下次我们将学习如何将数据库中的数据放入框架创建的网页中。
注:本文使用的数据库是老师共享的远程数据库,所有人都可以使用。 本文使用链接数据库并对其进行管理。 有兴趣的同学可以到我的微信公众号:获取源码和工具,谢谢。