公告
  
喜讯:2024系统全面升级!现在所有资源免费下载!全部内容免费使用!
授权码获取请关注公众号“鸿盟创客”
查看详情

朕已阅

易支付-免签支付平台

文章批量采集

admin 千秋月 关注 管理组 论坛神话
发表于插件模板版块 插件

【文章批量采集插件 - 支持自定义规则及批量url采集#插件#】

说明:需要简单正则匹配才能正常采集。




[2.0.1.20190702更新内容]


1.修复在7版本下无法选择采集模式的问题;


2.修复无法采集https资源的问题;




v1.1.0更新说明:


添加编码设置,添加超时设置。



使用教程(采集目标以官网为例,官方允许您采集但需添加出处,未经他人允许请勿擅自采集,否则后果自负):


规则模式:


地址规则的采集变量为数字类型,在规则地址中用[hs_id]代替,起始ID及终止ID为采集的范围,例如规则地址填写:http://127.0.0.1/read-[hs_id]-1.html,起始ID填写:1,终止ID填写:5,即将采集以下网址的内容:


http://127.0.0.1/read-1-1.html

http://127.0.0.1/read-2-1.html

http://127.0.0.1/read-3-1.html

http://127.0.0.1/read-4-1.html

http://127.0.0.1/read-5-1.html

指定模式:

采集地址为指定的地址,多个用回车分开,可以填写不同的网址,例如:


http://127.0.0.1/read-1-1.html

http://127.0.0.1/read-2-1.html

http://www.baidu.com/read-1-1.html

http://www.qq.com/read-1-1.html

http://www.taobao.com/read-7-1.html

PS:默认设置为5秒超时,若被采集网址超时,将自动放弃改网址的采集。



标题规则:


获取被采集的内容的标题部分,这里是正则表达式,例如:


<div class="pk-display-block pk-text-md" style="min-height: 24px;padding-top: 2px">([\s\S]+?)</div>

标题部分统一建议用([\s\S]+?)规则搜寻,将会把([\s\S]+?)搜寻到的数据作为文章的标题。




内容规则:


获取被采集的内容的正文部分,这里是正则表达式,例如:


<div class="pk-row">

<div class="readcontent pk-w-sm-12 pk-text-sm pk-padding-top-15 pk-padding-bottom-15 pk-word-break-all pk-overflow-hidden pk-img-width-max-all">([\s\S]+?)</div>

</div>

正文部分统一建议用([\s\S]+?)规则搜寻,将会把([\s\S]+?)搜寻到的数据作为文章的正文。



发布用户:


采集的数据将会以这个用户的身份被发布出去,这里填写用户的id。




发布版块:


采集的数据将会发布至这个版块下面,这里填写版块的id。




添加出处:


将会自动在正文结尾添加采集的出处源地址,采集前请征询被采集的站点的站长同意,此项询问他是否开启,建议开启。




目标编码:


被采集站点的编码,若这项设置错误将导致乱码或无法写入数据库。




采集超时:


对于待采集的url每条超时时间的设置,默认5秒。












部分站点采集规则


站长下载(down.chinaz.com)采集规则:


地址规则:http://down.chinaz.com/soft/[hs_id].htm

起始ID::37481

终止ID::37481

标题规则:<h3 class="title">([\s\S]+?)</h3>

内容规则:<div class="software-intro">([\s\S]+?)<div class="text_tag">

发布用户:1

发布版块:自己填

添加出处:开启

目标编码:GB2312

超时时间:5

其他站点规则(网友整理,不保证成功):


Android 开发

网站:http://www.androidchina.net 

 

标题规则<title>([\s\S]+?)</title>

内容规则<article class="article-content">([\s\S]+?)<p>转载请注明

 

 

网站https://xiaokai521.cn 

 

标题规则<li class="active">([\s\S]+?)</li>

内容规则<section class="context">([\s\S]+?)<div class="share_list shareBox">

 

 

 

网站:http://www.dir28.com/ 

 

标题规则

<h1 class="article-title">([\s\S]+?)</h1>

内容规则

 <div class="main-content">([\s\S]+?)<div class="article-fav">

 

网站:https://www.qqxbjd.com 

 

GB2312

标题规则

<h1>([\s\S]+?)</h1>

内容规则

<div class="post_content">([\s\S]+?)<div class="shareto">

 

 

网站:http://www.mosq.cn 

 

标题规则

<h2 class="post-title"><span class="fa fa-code"></span>([\s\S]+?)</h2>

内容规则

 <section class="context">([\s\S]+?)<i class="fa fa-heart-o"></i>

 

地址http://www.zaseo.cn 

 

标题规则

<h1 class="article-title">([\s\S]+?)</h1>

内容规则

<article class="article-content">([\s\S]+?)<div class="iblue">

 

 

网站:http://blog.axuo.club 

 

标题规则

<h1 class="article-title">([\s\S]+?)</h1>

内容规则

<span class="article_hide">([\s\S]+?)<div class="article_related">

 

 

网站:http://www.work28.com 

 

标题规则

<h1 style="text-align:center">([\s\S]+?)</h1>

内容规则

<div class="product_jianjie"><b>([\s\S]+?)<section style="margin:0px 10px;">

 

网站:http://www.xiaochouyl.com 

 

标题规则

<li class="last">([\s\S]+?)</li>

内容规则

<div class="art-content pt10 f16 lh200">([\s\S]+?)<div class="comment">

 

网站:http://iappgo.com/ 

 

标题规则

<title>([\s\S]+?)</title>

内容规则

<div class="pk-row">([\s\S]+?)<div class="pk-row"

 

阿宁资源网

网站:http://www.guoyn.com 

 

标题规则

<h1>([\s\S]+?)</h1>

内容规则

<div class="con-recom">([\s\S]+?)<div class="hot_tags">

 

 

果核剥壳

网站:http://www.ghboke.com 

 

标题规则

<title>([\s\S]+?)</title>

内容规则

<div class="single-content">([\s\S]+?)本文地址

 

 

网站:http://52op.org 

 

标题规则

<li class="active">([\s\S]+?)</li></ol>

内容规则

<section class="context">([\s\S]+?)<div class="newdown">

或者<section class="context">([\s\S]+?)<a class="ja_praise action action-like sharebtn abouts"  data-ja_praise="17"><i class="fa fa-heart-o">

 

 

月云网

网站:http://www.6yyw.com 

 

标题规则

<span id="thread_subject">([\s\S]+?)</span>

内容规则

<span class="atips_close" onclick="this.parentNode.style.display='none'">x</span>([\s\S]+?)<div class="tshare cl"


评论列表 评论
发布评论

评论: 文章批量采集

600G防护精品服务器 免备案高防云服务器



600G防护精品服务器 免备案高防云服务器 可以免费发外链的论坛 百度万词霸屏


免责声明
本站资源,均来自网络,版权归原作者,所有资源和文章仅限用于学习和研究目的 。 不得用于商业或非法用途,否则,一切责任由该用户承担 !

请求资源或报告无效资源,请点击[反馈中心]


侵权删除请致信 E-Mail:chengfengad@gmail.com
已有0次打赏
(0) 分享
分享
取消