网页
资讯
贴吧
知道
视频
音乐
图片
地图
文库
进入贴吧
全吧搜索
吧内搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
04月20日
漏签
0
天
殁涩吧
关注:
21
贴子:
3,544
看贴
图片
精品
玩乐
1
2
3
下一页
尾页
47
回复贴,共
3
页
,跳到
页
确定
<返回殁涩吧
>0< 加载中...
Python 爬取多玩图库
只看楼主
收藏
回复
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
发现跟着视频做完成功了,但是完全不记得自己做了什么,遂开贴总结
送TA礼物
回复
1楼
2017-10-29 20:26
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
首先将需要爬取的网页链接保存到变量
回复
收起回复
3楼
2017-10-29 20:34
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
喵喵喵???我楼呢???
回复
收起回复
4楼
2017-10-29 20:34
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
好吧无所谓了,只是一张网页的截图...
回复
收起回复
5楼
2017-10-29 20:36
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
接着为了模拟浏览器访问页面来获取页面内容
使用requests模块里的get方法
回复(1)
收起回复
6楼
2017-10-29 20:39
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
接着使用print(r.content),尝试打印出所获取的网页源代码
成功
回复(1)
收起回复
7楼
2017-10-29 20:43
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
print(r.text)获得更美观的格式,
但直接以文本模式显示可能会出现字符编码不匹配而产生乱码
回复(1)
收起回复
8楼
2017-10-29 20:52
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
乱码的问题并不难解决,在定义r之后r.coding='utf-8' 设定网页字符编码就能看到情切的汉字了
回复(1)
收起回复
9楼
2017-10-29 20:57
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
回去研究网页,Ctrl+U查看网页源代码,可以发现网页中对应的组图信息都在源代码里了
回复
收起回复
10楼
2017-10-29 21:09
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
data = []
创建一个储存标签号的空列表
从上一楼可以发现每个标签都是以<li xxxx开头,</li>结尾,于是可以利用正则表达式匹配出所有符合条件的字符串
然后打印出其中第一个查看是否获取成功.
使用正则表达式re模块需要import re
回复(2)
收起回复
11楼
2017-10-29 21:21
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
上图其实没能表现清楚,但每个<lixxxxx...</li>的信息都被以[1, 2, 3, 4]这样的格式存在lis列表里了.
然后for循环单独取出lis内每一个内容再使用正则表达式进行提取
打印之后发现每个数字都有重复,因为之前每个<lixxxxx...</li>的信息里,套路url都出现了两次
只需要一个于是加上[0],获得每次获取的列表内第一个获得的值
回复(1)
收起回复
12楼
2017-10-29 21:43
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
之后随便进入一个套图链接,Ctrl+U发现并没有图片链接,说明图片是动态加载的.(并不知道动态加载是什么)
F12进入开发者模式,找到图片所在行.
需要的是.jpg之前的图片编号
回复
收起回复
13楼
2017-10-29 21:59
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
恩获取到的东西和一个月前的不一样呢...之前可没有这样乱七八糟...
回复(1)
收起回复
14楼
2017-10-29 22:05
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
恩反正需要的也只是这个网址,这个网址内存着所有套图信息呢...
回复(1)
收起回复
15楼
2017-10-29 22:12
殁涩
大挂B
10
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
之后继续用requests.get()获取之前得到url内的信息
之后print(r2.text)看一下获取到的信息
恩完全不懂呢,但是老湿说是json那就json格式吧
回复
收起回复
16楼
2017-10-29 22:16
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
《辉夜大小姐想让我告白2》预告
2620385
2
欧洲超级联赛正式成立
2408872
3
杜兰特受伤
2073197
4
《五等分的新娘》剧场版
1951608
5
杨鸣方否认出轨
1754593
6
山东男篮晋级四强
1659704
7
RTX 3080 Ti强硬封杀挖矿
1385469
8
AG夺得CFPL S17冠军
1338782
9
LPL春季赛总决赛
1202450
10
《生化危机:无尽黑暗》新预告
1169808
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示