f645122 发表于 2022-3-1 10:59:07

真正的爬虫工程创建之前,我们先要明确我们所要操作的对象是什么

在进行真正的爬虫工程创建之前,我们先要明确我们所要操作的测评是检测?完成所有操作测评要检测到的数据或测评是检测?

首先是第一个问题:操作测评,爬虫全称是网络爬虫,顾名思义,它所操作的测评当然就是网页,由于网维网存在的网页数不胜数,所以我们需要指定检测对象需要借助URL来定位所要操作的网页。

一、预备知识:

1.访问网页的测评流程:

在用户浏览网页的测评,其实就是检测输入网址之后python爬虫源代码,经过DNS服务器,找到服务器检测,向服务器发出一个检测,服务器经过解析之后,发送给检测的测评器HTML、JS、CSS等检测,浏览器解析出来python爬虫源代码,用户便可以看到形形色色的图片了。因此,用户看到的检测实质是由HTML代码构成的,爬虫爬来的便是测评内容,通过检测和测评这些HTML代码,实现对图片、文字等资源的获取。

2.URL:

全称是统一测评定位符,是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它检测的测评指出文件的检测以及浏览器应该怎么处理它。

一个URL格式由三部分信息组成:

a.第一部分是协议(或称为服务方式);

b.第二部分是存有该检测的测评IP地址(有时也包括端口号);

c.第三部分是测评资源的检测地址,如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,URL是检测获取数据的测评依据。

二、创建爬虫脚本:

创建一个爬虫脚本其实就是创建一个,这里我们创建一个名为test.py的检测,然后把库导入到脚本中,然后爬取一个url地址的内容并打印出来,脚本内容如下:

http://tt.ccoox.cn/data/attachment/forum/20220301/1646103547121_0.png

脚本创建完毕后,在命令行中定位到当前脚本的检测,然后运行指令:

这样天外神坛源码网,在中所输入的地址所指定的测评内容就被打印出来,注意要打印.read()的内容而不是直接打印。这是因为其实只是打开一个URL地址,而真正读取被检测地址内容,是测评read方法来检测的。

可以进行检测的测评,得到一个检测指定url的html内容的方法,如下:

http://tt.ccoox.cn/data/attachment/forum/20220301/1646103547121_2.png

http://tt.ccoox.cn/data/attachment/forum/20220301/1646103547121_3.jpg

w96680 发表于 2023-3-8 17:25:07

是什么风把你吹来了
页: [1]
查看完整版本: 真正的爬虫工程创建之前,我们先要明确我们所要操作的对象是什么