对于有防采集的网站怎么采集呢!嘻嘻哈哈(http://www.xxhh.net)

By | 2006 年 4 月 27 日

基于创力新闻采集系统

我们要采集 嘻嘻哈哈(http://www.xxhh.net
因为这个网站有防采集设置,当设置完列 表,就无法进入下一步设置了
所以要用特殊的方法!就是直接修改数据库,把本来应在网上设置的第三步在数据库中完成!
首先打开#Item.mdb数据库
中的Item表
找到你想要修改的地方,因为是要修改第二步“编 辑 项 目–列 表 设 置”

首先设置“列表索引页面:”其对应字段为ListStr,内容为:http://www.xxhh.net/joke/1/index.html
列表开始标记(LsString):<li>
列表结束标记(LoString):<div style="padding:8px;border-top:1px dotted #dddddd;">
列表索引分页(ListPaingStr2):http://www.xxhh.net/joke/1/index-{$ID}.html)
生成范围 ListPaingID1:1 ListPaingID2:7

第三步:编 辑 项 目–列 表 截 取 测 试
链接开始标记(HsString):<a href="
链接结束标记(HoString):"

其他设置就直接在网站上设置!

标题开始标记:<span class="topic"><h1><nobr>

标题结束标记:</nobr>

正文开始标记:<span class="content">

正文结束标记:</span>

成功采集N条!不过不是我的网站,帮别人设置!

One thought on “对于有防采集的网站怎么采集呢!嘻嘻哈哈(http://www.xxhh.net)

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据