基本信息

采集规则名称 如:搜狐国内新闻采集
采集的数据存入频道 不能选择单页频道、链接频道、有子频道的频道
采集列表页URL地址规则 留空表示仅采集附加列表页。{*}表示通配符 以http://开头,如:http://www.xx.com/news.html?page={*}
通配符变量从      步长       通配符长度 
附加列表页URL地址 主要用于填写一些不规则的列表页地址,多个URL地址以回车分隔,如果域名和列表页相同,则不要填写http://和域名前缀,如:/news.html
列表页中详细页链接区域规则 格式:区域开始代码{*}区域结束代码,如:<div id="right">{*}</div>。在列表页中,进一步缩小详细页链接的区域范围,如果能正确识别链接区域,请留空
采集详细页URL地址规则 留空表示将列表页作为详细页直接采集,适合采集固定的几个页面。 如果域名和列表页相同,则不要填写http://和域名前缀
采集到的详细页地址字符串为:整个地址规则匹配的文本(如:/news/1.html匹配地址规则/news/{*}.html,则返回整个匹配的文本:/news/1.html)
通配符{*}表示匹配任何字符、{n}表示匹配任何数字,支持写多个通配符。举例:
[1] /news/{*}.html:表示匹配以 /news/ 开头和以 .html 结尾的字符串, 如:/news/abc.html、/news/xxx/20160120.html
[2] /news.asp?id={n}(数字在最后,必须用{n}): 表示匹配以 /news.asp?id= 开头和以 数字 结尾的字符串, 如:/news.asp?id=8
[3] /news/{n}_{n}.html}:可以匹配如:/news/2018_1.html,不能匹配:/news/2018_all.html
备注
详细页地址采集测试 详细页采集测试   点击按钮测试获取所有详细页地址。如果测试结果不正确,请重新设置参数

详细页内容替换规则 先按以下规则预处理(过滤、替换)详细页内容,然后再从详细页内容中采集字段数据

序号 被替换文本规则如:<div class="ad">{*}</div> 替换成不支持写通配符{*}
1 删除
添加替换规则

字段匹配规则

序号 字段名称 匹配规则 如:<div class="Title">{*}</div>,不写{*}即设置字段默认值
添加字段规则 备注:可在"采集设置"栏中设置用于字段采集测的详细页地址, 不设置表示从列表页中随机获取1个详细页
匹配规则主要有4种类型:
[1] 固定值:如果匹配规则没有{*}、也不是函数匹配,则直接返回设置值,相当于设置字段的默认值
[2] 前后截取:格式:开始字符串{*}结束字符串,匹配的内容为开始字符串和结束字符串之间的内容。如:<div class="Title">{*}</div><b>
[3] 标签对前后截取:格式:<开始标签 [属性]  {*}</结束标签>,比前后截取匹配更实用, 匹配的内容为与开始标签对应的结束标签之间的内容。 如:<div class="Title">{*}</div>
[4] 选择器表达式:格式:$("jquery语法选择器").html|val|text|attr(),主要用于采集网页中更复杂的数据,如:HTML标记、表单值、纯文本、标签属性。匹配速度最慢
[5] 自定义函数:主要实现一些高级功能:如:随机返回值、复杂数据提取与处理等。 格式:function getfield($content){ //PHP语法处理代码 },参数$content:表示当前采集网页的内容
如:随机返回3位数数字:function getfield($content){ return rand(100,999); }

内容分页设置如果内容没有分页,则不需要设置"内容页码URL地址规则"

内容分页类型     
注意:仅支持对“详细内容InfoContent”字段进行分页采集
内容分页区域规则 格式:分页区域开始代码{*}分页区域结束代码,如:<div id="page">{*}</div>。 在详细页中,进一步缩小内容分页链接的区域范围,如果能正确识别分页链接区域,请留空
分页页码URL地址规则 规则语法请参见【采集详细页URL地址规则】,如果内容没有分页,请留空
下一页URL地址规则 规则语法请参见【字段匹配规则】
分页Url采集测试 分页采集测试 

采集设置

字段采集测试用的详细页地址 留空表示从列表页中随机获取1个详细页
浏览器标识User-Agent 当被采集网站对浏览器有要求时,可将采集程序伪装为某种浏览器,如伪装成一个手机浏览器,以便能采集手机网站数据
被采集网页编码                                   
采集顺序      逆序采集表示从最后一个Url开始采集,可以保证显示顺序和被采集的网站一样
最大采集数量 0表示采集所有,否则仅采集前面指定数量的网页
2次采集时间间隔 单位:毫秒,0表示没有时间间隔,如果被采集网站有访问频率限制(如:2次访问Url的时间间隔必须大于200毫秒),请设置此值
是否自动保存远程图片到服务器      选择是,表示将被采集网页的图片保存到服务器上
是否将采集的第1张图片作为缩略图      选择是,表示将采集的第1张图片作为缩略图 , 生成缩略图的参数见缩略图设置
是否自动保存远程Flash到服务器      选择是,表示将被采集网页的Flash保存到服务器上
是否保存重复标题      选择否,表示如果采集的标题在目标频道已经存在,则不保存
是否审核采集的数据      选择是,表示采集入库的数据是未审核状态