基于创力新闻采集系统
我们要采集 嘻嘻哈哈(http://www.xxhh.net)
因为这个网站有防采集设置,当设置完列 表,就无法进入下一步设置了
所以要用特殊的方法!就是直接修改数据库,把本来应在网上设置的第三步在数据库中完成!
首先打开#Item.mdb数据库
中的Item表
找到你想要修改的地方,因为是要修改第二步“编 辑 项 目–列 表 设 置”
首先设置“列表索引页面:”其对应字段为ListStr,内容为:http://www.xxhh.net/joke/1/index.html
列表开始标记(LsString):<li>
列表结束标记(LoString):<div style="padding:8px;border-top:1px dotted #dddddd;">
列表索引分页(ListPaingStr2):http://www.xxhh.net/joke/1/index-{$ID}.html)
生成范围 ListPaingID1:1 ListPaingID2:7
第三步:编 辑 项 目–列 表 截 取 测 试
链接开始标记(HsString):<a href="
链接结束标记(HoString):"
其他设置就直接在网站上设置!
标题开始标记:<span class="topic"><h1><nobr>
标题结束标记:</nobr>
正文开始标记:<span class="content">
正文结束标记:</span>
成功采集N条!不过不是我的网站,帮别人设置!
谢谢分享