当前位置: 主页 > CMS > dedecms >

火车头采集经验总结

时间:2012-02-02  ¦  整理:站长每日一帖  ¦  点击:次  ¦  我要收藏
这篇文章本来早就应该写了,由于春节放假回家没有网,一直拖到现在。在春节放假前几天,公司要采集一部分数据总共六万多条,本来想用织梦自带的,可是考虑到数据量过大,再加
   这篇文章本来早就应该写了,由于春节放假回家没有网,一直拖到现在。在春节放假前几天,公司要采集一部分数据总共六万多条,本来想用织梦自带的,可是考虑到数据量过大,再加上网速原因,估计会很慢,所以我最终选择用火车头。本来想只是采集文章类的内容,应该很容易结果却遇到很多问题,现在我把我实际操作的经验给大家分享一下。。。。。
  我采集的是一个化工网站,要得到里面的产品,我打开源码一看这网站真让人纠结,清一色全是table,而且他table都不知道起个id或者name,让我无语。但是这并不影响采集,我还得继续,我在用火车头采集这个网站时主要遇到以下几个问题:
  • 采集网址规则。本来我想先写好文章网址匹配规则,测试后发现不行,因为那个区域内除了我要的网址还有多余的东西,也就是类似“more”之类的链接,我不想要这个链接,但是想了很久都没办法,只好暂且放弃。后来我在自己研究采集的时候,看了别人写的文章如何过滤,然后我又比较我这个实例,我静静地看了会终于发现了门道,找到了解决方法。我仔细看过之后发现我要采集的网址后缀是htm,而我不想要的地址是html,这下我终于明白过来,然后在筛选网址那里填写必须包含htm,不得包含html,就这样解决了问题。
  • 采集内容规则。接下来我准备些内容配置的一些东西,遇到了一些麻烦。本来正常的采集都是分别设定列表和文章的规则,然而我想要的东西还正好在列表页就有,我还想能不能直接在列表页把我要的内容直接采集到。我测试了好多次不行,我觉得应该是不行,还等高手赐教。最终我还是只能在文章页做匹配,也是测试好多次才精确匹配到我要的内容。
  • 发布内容配置。这是我遇到的最大的困难之一,本来这块不应该出是很大的问题,但是由于我对火车头的不了解,确实费了好大劲。本来我是打算用第三种方法导入到自定义数据库,然后我在本地测试后发现不行,免费版不能增加新字段,郁闷。然后就想用在线发布内容吧,结果还是遇到同样的问题,不知道自定义的字段,怎么配置就能匹配啦。后来网上找到一段资料,确实是可以实现的,然而我试了半天不行。我就想是什么问题,我仔细分析了一下原来是我前后写的标签名字不一样。我在采集内容配置的时候加入了两个自定义字段,一个是英文名称,一个是cas号,所以对应的在文章发表参数那里就应该加上相应的参数,也就是如下代码:title=[标签:标题]&body=[标签:内容]&typeid=[分类ID]&cas=[标签:cas号]&writeren=[[标签:英文名称]&writer2=bj089&dede_addonfields=cas,varchar;writeren,varchar;writer2,varchar&dopost=save&pubdate=[登录随机值1]&
  • &notpost=1&channelid=1&remote=1&dellink=1&autolitpic=0&autokey=1&sptype=auto&spsize=3&money=0&ishtml=0&sortup=0&arcrank=0。
(如果您觉得本站不错,请告诉身边的朋友,或转载到论坛、百度知道、贴吧等,记得带网址哟!)

    阅读过 火车头采集经验总结 的网友还阅读了:

    

    评论or提问点击发表评论或提问!

    如果您有问题,请先查找解决办法,无法解决后请在此提问并将问题描述清楚!
    • 昵称 (必填)
    • 电子邮箱 (我们会为您保密) (必填)
    • 网站URL
    • 点击我更换图片
    

    最新评论内容

    
    回到顶部