智动论坛

 找回密码
 注-册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 8567|回复: 8

[智动网页内容采集器] 教你如何用智动采集器快速输入海量数据到数据库!!!

  [复制链接]

该用户从未签到

poplay.net 发表于 2011-9-13 16:43:41 | 显示全部楼层 |阅读模式
本帖最后由 poplay.net 于 2011-9-16 13:06 编辑

       今天使用了智动采集器向数据库快速输入了大量数据,效率提高了N倍。终于不用再不停的复制粘贴了,别见笑,我想你也经历过的。
       其实很简单,就是在最后“保存文件模版”里加上输入数据库的命令,生成文件的时候只生成一个文件就可以了。比如我用的是access,就加上 conn.execute "insert into 表名(字段名1,字段名2)values('[要输入的内容1]','[要输入的内容2]'" ,[要输入的内容1]就是要插入模版中的采集内容标记了,采集完成后在文件里加上连接数据库等语句并改后缀名,最好上传运行就搞定了。
       上面是横向一行行的插入,有时候我们也需要竖着按字段输入,语句可以用 conn.execute "update 表名 set 字段名1='[内容标记1]' where 字段名2=[内容标记2]" ,[内容标记2]作为条件是已经在数据库的了(一般是数字比较好辨认,也方便反复调用)。
       我看了下,15秒钟大概可以输入5M大小的数据到数据库,采集方面开50线程(感觉5个左右速度就到极限了,其实也没必要开这么多线程)5M文件(如果不复杂5个提取内容的话)大概20多分钟也可以搞定了(跟电脑性能网速都有关的吧),而貌似采集器还可以多开的,再不行多开几台电脑,这效率真是没的说,想想百度知道里面3亿多个文件有可能被你几天就采完(估计得几十台电脑马力全开才行),你就偷笑去吧!当然另外还要考虑到上传速度,事实上能传到服务器并使用出来的还是有一定上限的,不过就算这样采集到的数据量还是完全够用了的,除非你要弄百度QQ那种超大级别的网站。
       因为单引号和双引号在数据库里有语句作用,如果出现在标记里面很容易出错,所以最好替换掉,单双引号都替换成  & #039;(注意&和#之间没空格)。也可以在标记清除里加上去除双引号和单引号功能,在"编辑清楚标记列表"里加上 去单双引号 (\"|\')  就可以了。


该用户从未签到

urosqmjp 发表于 2013-6-26 12:43:22 | 显示全部楼层
支持楼主,哈哈哈哈

该用户从未签到

urosqmjp 发表于 2013-6-28 09:44:12 | 显示全部楼层
支持楼主,哈哈哈哈

该用户从未签到

urosqmjp 发表于 2013-7-2 09:38:30 | 显示全部楼层
支持楼主,哈哈哈哈

该用户从未签到

Deland阿梁 发表于 2013-8-29 02:18:11 | 显示全部楼层
好好学习如何用智动采集器快速输入海量数据到数据库!!! ...
  • TA的每日心情
    郁闷
    2013-9-17 18:00
  • 签到天数: 2 天

    [LV.1]初来乍到

    cnhbwhcjh 发表于 2013-9-13 01:51:22 | 显示全部楼层
    文章发表时间很早,但还是有用。可以试试!

    该用户从未签到

    xycfrbrb 发表于 2013-12-18 21:11:21 | 显示全部楼层
    谢谢楼主分享
  • TA的每日心情
    开心
    2014-8-1 01:32
  • 签到天数: 13 天

    [LV.3]知道营销

    周老卡 发表于 2014-4-10 16:43:10 | 显示全部楼层
    哈哈 小心被她看见哦~~~~
    您需要登录后才可以回帖 登录 | 注-册

    本版积分规则

    关闭

    智动推荐上一条 /2 下一条

    QQ|小黑屋|手机版|网站导航|智动软件  

    GMT+8, 2019-1-19 10:13

    © 2008-2016 zdexe.com Inc.

    快速回复 返回顶部 返回列表