过滤规则格式说明

时间:2010年04月20日 点击:2126

内容处理规则用于对采集到的网页内容(经采集规则处理后的内容)进行相应处理:

如上图所示:
1、相对地址转绝对地址:将网页内容中相对地址(URL)转为绝对URL
智动软件网站下的:/business/,将被转为http://www.zdexe.com/business/
2、内容替换:将内容中相应的文字转换为指定文字,可多组(设置太多会影响效率)
3、必须包含的标记:即内指定容中必须包含某个标记,若不包含则内容被过滤(可多组)
4、不能包含的标记:与以上相反,内容中不能含某个词或标记,若含有则内容被过滤(可多组)
5、标记清除:利用正则表达式清除内容中相应的特殊标记或内容,具体请参考:内容清除设置列表说明

 

赞助商链接

相关内容

联系我们

联系方式