无聊,在Friendfeed中加人玩,发现新加的人中有人推荐了篇BlogRSS feed 不输出全文?一样搞定你,介绍了个GreaseMonkey的脚本“google reader full feed changer”,也就是说对于那些不支持全文输出的blog,可以用这个脚本来获取全文。
具体的介绍参见那篇Blog吧,用着确实蛮爽的,这玩意采用xpath来遍历blog原文,于是我就随便找了个不支持全文输出的blog做测试,想把其文章和后面的评论都搞过来,这个语法在xpath里面很简单,只需要中间加个“|”就可以了,如:
xpath: ['//div[@class="entryBody"] | //div[@class="commentTitle"] | //div[@class="comment"]']
结果不行,只能取出xpath定义的第一个节点,查看源码发现,作者做了这方面的限定。于是做了简单的修改,使其可以读取多个节点(具体的方法,作者其实也已经提供了,只是最后调用的时候不知为何做了这个“只读取第一个”的限定)。
用我那蹩脚的英语给作者留了言,也不知啥时候会改,这儿先放一个我的修改版吧:google reader full feed changer
Update(2008-7-19):前一阵这个脚本作者做了升级,也就是修了俩小bug而已,不过实现方式没有变化,所以我只好自己升级自己这个修改版了,另外将里面的AUTO_FETCH属性设置为false,也就是GR里面相关文章激活之后并不即时读取该文实际页面,而是需要按一下快捷键“z”才会读取,这种玩法比较合我胃口(也省点资源算是),哪位不喜欢可以自己手工改一下这个参数为true。
另外,里面已经包含了一些我定制的SITE,也可以根据自己需要取舍。
更新文件:google reader full feed user修改版(2008-7-19)
- EOF -

8 Comments
你好。请教一下凯迪论坛的怎么写 xpath 呢?比如论坛“猫眼看人”版的 RSS 是
http://rss.cat898.com/rsstopic.asp?rssid=news1
我只要看一楼的帖子。谢谢了。
JX Wong
呵呵
这个我收了。
肥硕那边也有介绍
@六月地 凯迪的结构太乱了,而且丫们都是用javascript输出的,我试了半天也没能搞定:(
其实我一开始用这个的目的是为了看十年砍柴的blog的,没想到凯迪的blog玩的巨恶心,feed里面的标题对应的实际页面居然是输出所有blog,而不是单篇。
If you do so in original ‘google reader full feed changer’,
you will change your xpath to ‘//div[@class="entryBody" or @class="commentTitle" or @class="comment"]‘
@u 当初是想这么干的,不过有些blog并不全都是用div,有些blog的内容用div,可注释什么的用了table(例如牛博网),所以没法子,只好搞成这样的,适应性强
设置半天,还是不行。用你脚本里的老虎庙的地址,也实现不了。
能给个完整的site_info吗?比如我想加连岳的牛博http://www.bullog.cn/blogs/lianyue/
谢谢!!
补充一下我的设置(两个都不能全文输出):
{
url: ‘http://www.bullog.cn/blogs/lianyue/’,
xpath: ‘//div[@class="entrybody"]‘
}
{
url: ‘http://24hour.blogbus.com’,
xpath: ['//div[@class="entryBody"] | //div[@class="commentTitle"] | //div[@class="comment"]‘]
}
@yimin 看了下你的配置,应该没问题啊,不过第一个可能大小写有问题。我上面blog里面更新了点,你看看可用否