采集规则格式说明

时间:2010年04月20日 点击:7487

采集规则可以对任意的网页源码文本内容进行提取:


如上图所示:
注意:结束标记是从开始标记处开始计算
1、规则说明:即对该规则功能或其他事项的说明,可略过不填
2、提取范围标记:即把要采集分发的网页内容限定在一定范围内,以增加提取的准确度,
可以留空(留空则不限定范围),可多组(软件仅匹配第一次匹配到的一组,此功能用于破解多模版网页)
3、提取模式:
(1)字符标记提取:即以通常的,开始标记,和结束标记来提取(这里结束标记是从开始标记匹配的位置开始查找的)
    最终结果提取标记:用以从内容从提取最终结果的标记,软件循环提取所有匹配项
(2)正则表达式:以标准正则标达式来提取内容(什么是正则表达式
   提取正则式:用以提取最终内容的正则表达式
(3)JS脚本提取:以自己编写的JavaScript脚本提取(此方法功能强大可以完成你需要的任何内容采集与过滤)
   JS脚本内容:填写你的脚本内容,使用标准的网页JavaScript语法,在脚本中可以用 JsContent 变量引用上面提取范围提取到的采集范围,脚本中还可以使用JsLocUrl变量引用当前采集网址
 

赞助商链接

相关内容

联系我们

联系方式