初始化设置(登录采集、生成网址模式)使用

时间:2010年04月20日 点击:10167

创建任务的第二步,初始化设置:
该设置用于设好,软件第一次请求的网址,比如文章大栏目列表页,搜索词列表,等等
此出搜到的网址供下一步继续搜使用


如图所示:
第一部分:必填部分,开始请求网址生成模式:
1、直接输入:即直接输入要采的网址列表,可以设多个,每个一行,必须是正规格式网址,如下:
http://www.baidu.com
http://www.zdexe.com
2、脚本生成:用JavaScript脚本生成要采的链接列表,如:
 
  1. var s="";  
  2. for(var i=1;i<3;i++)  
  3. s+="http://www.zdexe.com/news/list_"+i+".html\r\n";  
  4. s; 

以上脚本粘进后会生成以下列表:
http://www.zdexe.com/news/list_1.html
http://www.zdexe.com/news/list_2.html
3、搜索关键词:可以指定词,和相应搜索的Http请求参数,进而搜任何网站的搜索结果网址内容
每个词一行,可以多个词,使用此项必须设 Http请求参数(如何设置Http请求参数)
以上三项设好后,可以点“预览请求网址列表”观察是否设正确

第二部分:可选,登录采集设置:
此功能用于采集需要帐号登录才能采到的内容
使用时,先启用登录采集,然后直接点右下角的“测试并获取登录Cookie”
在弹出的IE窗口中,登录帐号成功后,再点“网页操作完闭,获取Cookie”按钮来获得Cookie
然后,在“登录成功检测网址”处,填写一个帐号登录成功后显示特殊登录成功标记的网址
最后,填写“登录成功标记”,可多个;
这个标记一定要在“登录成功检测网址”的源码中找到,软件采集时检测是否已经成功登录才会成功

赞助商链接

相关内容

联系我们

联系方式