【00】Python爬虫初次开发

  这周四讲了正则表达式,晚上就开始摸索着写一个网络爬虫。这个爬虫的功能就是从指定的网页开始,爬取这个网页里所有的链接,然后进入这些链接继续爬取新的链接,不断继续这个过程,并保存下所有爬取到的链接。这个爬虫目前还没有什么实际用处,后续可以在此基础上开发搜索指定信息等功能。

  这个Python程序将用到以下模块:urllib, re, time

  urllib:用来调用 urlopen 函数打开链接

  re:编译正则表达式

  time:用于计时[可选]

以下是我的代码:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
#code by SteveHawk

from urllib.request import urlopen
import re
import time
fo=open("pc00_result.txt","w")          #打开要用于储存链接的文本文档
list=[]                                 #储存所有的链接
x=0                                     #爬过的链接次数
connected=0                             #成功连上的数量
num=0                                   #上一次储存的最后一个链接的索引
list.append(input("输入网址:"))
xn=int(input("输入爬虫总次数:"))
start=time.clock()                      #开始计时
while x<=xn:
    if x>=len(list):                    #次数超出总链接数量就结束
        end=time.clock()                #结束计时
        print("爬虫结束...!")
        print("本次爬虫共爬过{}个网站,爬得{}个链接".format(connected, len(list)-1))
        print("共耗时{:.3f}s".format(end-start))
        fo.writelines("爬虫结束...!\n")
        fo.writelines("本次爬虫共爬过{}个网站,爬得{}个链接\n".format(connected, len(list)-1))
        fo.writelines("共耗时{:.3f}s\n".format(end-start))
        break
    try:
        print("No.{}".format(x))
        fo.writelines("No.{}\n".format(x))
        print("正在连接{}".format(list[x]))
        fo.writelines("正在连接{}\n".format(list[x]))
        temp=urlopen(list[x],timeout=10)                    #打开链接 10秒超时
        temp=temp.read().decode("utf-8")                    #读取网页内容并以utf-8方式解码
        print("已连接上{}".format(list[x]))
        fo.writelines("已连接上{}\n".format(list[x]))
        patten=re.compile(r'https?://[^\\\'"\.].+?[^\\\'"](?:/|com|org|net|cn|cc|tv)')
        print("正在解析{}".format(list[x]))
        fo.writelines("正在解析{}\n".format(list[x]))
        temp0=re.findall(patten, temp)                      #在之前读取的内容里进行匹配
        connected+=1                                        #成功连接数加一
        for i in range(len(temp0)):
            if temp0[i] not in list:                        #新链接储存起来
                list.append(temp0[i])
        for j in range(num,len(list)):
            print(list[j])                                  #输出这次新获得的链接
            fo.writelines(list[j])
            fo.writelines("\n")
        num=len(list)
        print("\n")
        fo.writelines("\n\n")
    except:
        print("{}连接或解析失败\n\n".format(list[x]))
        fo.writelines("{}连接或解析失败\n\n\n".format(list[x]))
        x+=1
    else:
        x+=1
else:
    end=time.clock()
    print("爬虫结束...!")
    print("本次爬虫共爬过{}个网站,爬得{}个链接".format(connected,len(list)-1))
    print("共耗时{:.3f}s".format(end-start))
    fo.writelines("\n")
    fo.writelines("爬虫结束...!")
    fo.writelines("\n")
    fo.writelines("本次爬虫共爬过{}个网站,爬得{}个链接".format(connected,len(list)-1))
    fo.writelines("\n")
    fo.writelines("共耗时{:.3f}s".format(end-start))

  这个爬虫的关键在于那个正则表达式:

1
patten=re.compile(r'https?://[^\\\'"\.].+?[^\\\'"](?:/|com|org|net|cn|cc|tv)'

  这句的意思是把那个正则表达式编译成正则表达式对象然后储存在 patten 变量里。

  而核心的正则表达式: https?://[^\\\'"\.].+?[^\\\'"](?:/|com|org|net|cn|cc|tv)

  是指匹配以 http 开头,可能有 s(https),加上 ://,以 /comorgnetcncctv 结尾的链接

  中间的 [^\\\'"\.]http(s):// 后面不能直接跟 \ ' " . 这四个符号

  .+? 指非贪婪的匹配任何字符

  [^\\\'"] 指在com等结尾之前不能出现 \ ' " 的符号

  这个表达式花了我很大力气写出来,而且匹配仍会有一定的出错率,目前还不知道有什么解决办法。

以上。


本文阅读量
本站访客量