cx-extractor
算法不错,提供了一种新的思路,以前我做过的是分析提取��
�页面中所有的TABLE和DIV区块,按区块字段的大小多少来判断��
�
我按cx-extractor算法做了一下,碰到以下几个问题:我是用C#来
做的
1、preProcess不能过滤标签中有脚本的情况,如其中的IMG
http://developer.51cto.com/art/201012/236066.htm
2、是否考虑以下2个方面的进一步改进;即在第一次匹配失败
后进行下面2中再次过滤
1、正文一般是DIV或者TABLE(TR/TD) 进行包围的,将这些标签换成特殊标签;在行和块合并时把这些特殊标签作为一种参考界定
2、类似下文中,正文中<p>应用较多,P中间的标签可以替换掉,计算连续的P标签
http://hi.baidu.com/jrckkyy/blog/item/a0c70a995e3579196f068c4e.html
3、博客方面还不是很理想
http://www.cnblogs.com/zhoujg/archive/2010/12/04/1895887.html
http://sarin.javaeye.com/blog/830831
http://blog.sina.com.cn/s/blog_4c4fd3070100nbvt.html?tj=1
4、这篇新闻好像也出了点问题
http://news.sina.com.cn/c/2010-12-04/100718432475s.shtml