基本信息
采集规则名称
如:搜狐国内新闻采集
采集的数据存入频道
{$c.ChannelName}
不能选择单页频道、链接频道、有子频道的频道
采集列表页URL地址规则
留空表示仅采集附加列表页。
{*}
表示通配符
以http://开头,如:http://www.xx.com/news.html?page=
{*}
通配符变量从
到
步长
通配符长度
附加列表页URL地址
主要用于填写一些不规则的列表页地址,多个URL地址以回车分隔,如果域名和列表页相同,则不要填写http://和域名前缀,如:/news.html
列表页中详细页链接区域规则
格式:区域开始代码
{*}
区域结束代码,如:<div id="right">
{*}
</div>。在列表页中,进一步缩小详细页链接的区域范围,如果能正确识别链接区域,请留空
采集详细页URL地址规则
留空表示将列表页作为详细页直接采集,适合采集固定的几个页面。
如果域名和列表页相同,则不要填写http://和域名前缀
采集到的详细页地址字符串为:整个地址规则匹配的文本(如:/news/1.html匹配地址规则/news/{*}.html,则返回整个匹配的文本:/news/1.html)
通配符{*}表示匹配任何字符、{n}表示匹配任何数字,支持写多个通配符。举例:
[1] /news/{*}.html:表示匹配以
/news/
开头和以
.html
结尾的字符串, 如:/news/abc.html、/news/xxx/20160120.html
[2] /news.asp?id={n}(数字在最后,必须用{n}): 表示匹配以
/news.asp?id=
开头和以
数字
结尾的字符串, 如:/news.asp?id=8
[3] /news/{n}_{n}.html}:可以匹配如:/news/2018_1.html,不能匹配:/news/2018_all.html
备注
详细页地址采集测试
详细页采集测试
点击按钮测试获取所有详细页地址。如果测试结果不正确,请重新设置参数
详细页内容替换规则
先按以下规则预处理(过滤、替换)详细页内容,然后再从详细页内容中采集字段数据
序号
被替换文本规则
如:<div class="ad">
{*}
</div>
替换成
不支持写通配符
{*}
1
删除
添加替换规则
字段匹配规则
序号
字段名称
匹配规则
如:<div class="Title">
{*}
</div>,不写
{*}
即设置字段默认值
添加字段规则
备注:
可在"采集设置"栏中设置用于字段采集测的详细页地址, 不设置表示从列表页中随机获取1个详细页
匹配规则主要有4种类型:
[1] 固定值:如果匹配规则没有{*}、也不是函数匹配,则直接返回设置值,相当于设置字段的默认值
[2] 前后截取:格式:
开始字符串{*}结束字符串
,匹配的内容为开始字符串和结束字符串之间的内容。如:<div class="Title">{*}</div><b>
[3] 标签对前后截取:格式:
<开始标签 [属性] {*}</结束标签>
,比前后截取匹配更实用, 匹配的内容为与
开始标签
对应的
结束标签
之间的内容。 如:<div class="Title">{*}</div>
[4] 选择器表达式:格式:
$("jquery语法选择器").html|val|text|attr()
,主要用于采集网页中更复杂的数据,如:HTML标记、表单值、纯文本、标签属性。匹配速度最慢
[5] 自定义函数:主要实现一些高级功能:如:随机返回值、复杂数据提取与处理等。 格式:
function getfield($content){ //PHP语法处理代码 }
,参数$content:表示当前采集网页的内容
如:随机返回3位数数字:function getfield($content){ return rand(100,999); }
内容分页设置
如果内容没有分页,则不需要设置"内容页码URL地址规则"
内容分页类型
全部列出的分页列表
上下页形式或不完整的分页列表
注意:仅支持对“详细内容InfoContent”字段进行分页采集
内容分页区域规则
格式:分页区域开始代码
{*}
分页区域结束代码,如:<div id="page">
{*}
</div>。 在详细页中,进一步缩小内容分页链接的区域范围,如果能正确识别分页链接区域,请留空
分页页码URL地址规则
规则语法请参见【采集详细页URL地址规则】,如果内容没有分页,请留空
下一页URL地址规则
规则语法请参见【字段匹配规则】
分页Url采集测试
分页采集测试
采集设置
字段采集测试用的详细页地址
留空表示从列表页中随机获取1个详细页
浏览器标识User-Agent
IE浏览器
Firefox浏览器
Chrome浏览器
Opera浏览器
Safari浏览器
微信手机浏览器
Android手机浏览器
iPhone手机浏览器
QQ手机浏览器
Baidu蜘蛛
Google蜘蛛
Sogou蜘蛛
当被采集网站对浏览器有要求时,可将采集程序伪装为某种浏览器,如伪装成一个手机浏览器,以便能采集手机网站数据
被采集网页编码
自动检测
utf-8
gb2312
big5
gb18030
gbk
unicode
采集顺序
顺序采集
逆序采集
逆序采集表示从最后一个Url开始采集,可以保证显示顺序和被采集的网站一样
最大采集数量
0表示采集所有,否则仅采集前面指定数量的网页
2次采集时间间隔
单位:毫秒,0表示没有时间间隔,如果被采集网站有访问频率限制(如:2次访问Url的时间间隔必须大于200毫秒),请设置此值
是否自动保存远程图片到服务器
是
否
选择是,表示将被采集网页的图片保存到服务器上
是否将采集的第1张图片作为缩略图
是
否
选择是,表示将采集的第1张图片作为缩略图
, 生成缩略图的参数见缩略图设置
是否自动保存远程Flash到服务器
是
否
选择是,表示将被采集网页的Flash保存到服务器上
是否保存重复标题
是
否
选择否,表示如果采集的标题在目标频道已经存在,则不保存
是否审核采集的数据
是
否
选择是,表示采集入库的数据是未审核状态