卡卡资源论坛

 找回密码
 注册
查看: 461|回复: 1

基础篇2:抓取52破解论坛最新的帖子标题与网址,并导出,吾爱破解规则写法

[复制链接]
发表于 2019-9-28 21:57:26 | 显示全部楼层 |阅读模式
上一篇说的是从一个页面抓取一条信息(论坛用户昵称),本篇主要是介绍软件另款功能,从一个页面抓取多个元素信息。
以吾爱破解论坛为例演示给大家看下。
52破解最新帖子的网址:
https://www.52pojie.cn/forum.php?mod=guide&view=newthread

本页面写出的规则,同样可以适用在卡卡新文章提醒工具中使用。二则规则通用!

一:软件采集页面的源代码
粘贴网址到软件,并“配置测试”出网页的源码


二:因为页面有很多条帖子,所以,在软件的用户选择里,请下拉选择“匹配多条满足规则的信息”,选择后,匹配规则变为可编辑状态



接下来时间交给写规则~~

二:用浏览器找到帖子所在的源码位置
用浏览器访问最新帖子网址,右击一个帖子A的标题,再右键菜单里选择“检查”(有些浏览器叫审查元素)进入开发者模式,此时,浏览器会自动定位到帖子A的源码处,如下图所示:

其实这表示,网页上蓝色部分要显示的信息,是下面代码区的这片蓝色区域控制的

三:用浏览器找到控制帖子的全部代码
鼠标在代码区的蓝色部分,上下游走,直到再往外移动一行,帖子A的标题就不会蓝色所覆盖!此时鼠标别动了。
此时,鼠标所在的代码区位置,就是控制帖子A的 开始/截止 行。(即下图 id="normalthread_1030803" 所在的这一行)

好了,我们即可得知,控制帖子A的代码是从<tbody id="normalthread_1030803">开始,到哪里结束呢?到区域线的末尾结束(下一个<tbody id="normalthread的前面)!如下图



四:在软件的源码显示框,找到控制一条帖子的全部代码,其它的代码删掉
如下图,我已经选择了,将这些复制一下,将源码显示框的其它代码都删掉,只留这些


五:开始写规则,首先要把帖子标题和帖子链接匹配出来。
文本变量用[var]替换掉,数字变量用[int]替换。所以帖子标题用[var]替换,帖子网址因为只有帖子id这个数值会变化,其它格式都一样,所以使用[int]替换帖子id



六:将多余的文本变量匹配出来
无用的多余信息文本同样也用[var]和[int]替换。上图处理后的规则中,例如下图的红框中,其实是帖子id,每个帖子都不相同,所以规则中带用1030803,肯定匹配不到别的帖子,所以也要用通配符,替换成变量。所以是不是要把1030803用[int]替换一下?yes,应该替换掉,而且2个红框的都要用[int]替换。


试想一下,能不能把2个1030803以及中间的内容,干脆直接用一个[var]替换掉呢?答案是可以,而且替换后,好像规则变短了,更清晰了。


既然[var]能够替换任意长度文本,能替换2个1030803以及中间的内容,也能替换更长的文本
把从1030803一直到href这里(下图蓝色背景部分),直接用一个[var]直接替换掉,更省事


黄背景是第五步,是匹配到帖子标题和链接的部分,不用动。
黄背景后面还有很长一段代码,因为我们根本用不到它们,所以干脆也给用一个[var]替换掉


好了,规则最终变成下面这样,是不是很短
<tbody id="normalthread[var]href="thread-[int]-1-1.html" target="_blank" class="xst" >[var]</a>[var]</tbody>

注意,只要是变量([var]与[int]替换的部分),软件都会当作你需要的元素,匹配出来并显示到软件上,供你导出。

七:把不需要的变量,隐藏起来不显示到软件的匹配结果里
我们发现,事实上,规则中出现4个变量,其中,绿色的2个变量,不包含我们要的东西,所以,我们在括号里加个0,表示匹配,但是隐藏它
<tbody id="normalthread[var]href="thread-[int]-1-1.html" target="_blank" class="xst" >[var]</a>[var]</tbody>
处理后的结果
<tbody id="normalthread[var0]href="thread-[int]-1-1.html" target="_blank" class="xst" >[var]</a>[var0]</tbody>

好了,我们把最终结果,填写到软件的规则处
八:配置测试


九、查看匹配的结果数量是否和网页显示的一致
结果如下图, 帖子id和帖子标题,已经完美显示出来。并告诉你一共有多少条。确认无误后,导出吧~


帖子id有了,在导出的EXCEL结果里,按照帖子网址格式,合成即可(="http://www.52pojie.cn/thread-"&A2&"-1-1.html")。
小疑问:为什么这次没用到“测试好了,开始批量处理”这个按钮?
因为本次只处理1个网页,无需批量处理

课后动动手:
将本站首页的最新网赚项目,文章标题与网址全部匹配出来!


回复

使用道具 举报

发表于 昨天 08:29 | 显示全部楼层
厉害
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|ZY |管理我的广告

GMT+8, 2019-12-13 01:34 , Processed in 0.158836 second(s), 27 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表