我采集的是一个化工网站,要得到里面的产品,我打开源码一看这网站真让人纠结,清一色全是table,而且他table都不知道起个id或者name,让我无语。但是这并不影响采集,我还得继续,我在用火车头采集这个网站时主要遇到以下几个问题:
- 采集网址规则。本来我想先写好文章网址匹配规则,测试后发现不行,因为那个区域内除了我要的网址还有多余的东西,也就是类似“more”之类的链接,我不想要这个链接,但是想了很久都没办法,只好暂且放弃。后来我在自己研究采集的时候,看了别人写的文章如何过滤,然后我又比较我这个实例,我静静地看了会终于发现了门道,找到了解决方法。我仔细看过之后发现我要采集的网址后缀是htm,而我不想要的地址是html,这下我终于明白过来,然后在筛选网址那里填写必须包含htm,不得包含html,就这样解决了问题。
- 采集内容规则。接下来我准备些内容配置的一些东西,遇到了一些麻烦。本来正常的采集都是分别设定列表和文章的规则,然而我想要的东西还正好在列表页就有,我还想能不能直接在列表页把我要的内容直接采集到。我测试了好多次不行,我觉得应该是不行,还等高手赐教。最终我还是只能在文章页做匹配,也是测试好多次才精确匹配到我要的内容。
- 发布内容配置。这是我遇到的最大的困难之一,本来这块不应该出是很大的问题,但是由于我对火车头的不了解,确实费了好大劲。本来我是打算用第三种方法导入到自定义数据库,然后我在本地测试后发现不行,免费版不能增加新字段,郁闷。然后就想用在线发布内容吧,结果还是遇到同样的问题,不知道自定义的字段,怎么配置就能匹配啦。后来网上找到一段资料,确实是可以实现的,然而我试了半天不行。我就想是什么问题,我仔细分析了一下原来是我前后写的标签名字不一样。我在采集内容配置的时候加入了两个自定义字段,一个是英文名称,一个是cas号,所以对应的在文章发表参数那里就应该加上相应的参数,也就是如下代码:title=[标签:标题]&body=[标签:内容]&typeid=[分类ID]&cas=[标签:cas号]&writeren=[[标签:英文名称]&writer2=bj089&dede_addonfields=cas,varchar;writeren,varchar;writer2,varchar&dopost=save&pubdate=[登录随机值1]& ¬post=1&channelid=1&remote=1&dellink=1&autolitpic=0&autokey=1&sptype=auto&spsize=3&money=0&ishtml=0&sortup=0&arcrank=0。



评论or提问点击发表评论或提问!