首页 > 软件开发 > 网页去噪的算法设计

快速发布【软件开发】相关需求,专业顾问为您服务 快速发布

用此手机号发布,您还可以点击 更换

发布需求
请输入正确的手机号
请输入正确的验证码

您是不是要找:

  • 专家问诊,提供专业建议
  • 急速响应,体验省心
  • 根据需求灵活定制解决方案

网页去噪的算法设计

标签:- 2017-7-31 作者:胡子帽子

 

想要了解网页去噪的算法设计,首先让我们来了解一下网页去噪的大体流程。

 

网页去噪的大体流程如下:

一、 首先获取网页,并通过Beautiful Soup解析器对获取的HTML网页进行解析,剩余承载网页内容、图片、链接以及非其他信息部分。

 

二、 其次根据网页标签分类表示成DOM树,并依据文本内容、图片、字符、链接及脚本等进行分类。

 

三、 最后依据定义的启发式规则对文本、图片、链接等阈值进行主体内容提取,将噪音信息去除,从而获得所需内容。其中,要点是DOM的形成和启发式规则的定义。下面对这两点分析:

1、    分析HTML标签进行内容、图片、链接等分类。即一个块表达了什么形式的内容,有文字长度、链接数量、链接文字长度、图片数量、图片大小等等。例如,若是链接文字长度比上链接数量,如果大于5(可能有变化),则该链接可能是内容的文字链接;如果小于5,则有可能是网站链接或是大标题链接。综合考虑空间特征和内容特征,可以判断出是否是我们要求的内容。为方便信息的处理,参考聂卉等人对主题内容的分类方法,信息可以分成内容块、图片块、链接块、非内容块。

2、    启发式规则

针对文本类型网页周围的噪音信息,以及网页中除标题型链接之外的其余链接文字进行去除。因此,对DOM树中节点进行分析,判别如下描述。以下针对流程图中各个判断点进行描述:

      vv链接性文本比重,该节点链接性文本与该节点所有文本的比值。周边噪音信息以链接性文字和广告图片较多,链接性文本中文本长度较大,这些节点中链接性文本占大部分(图片按量计算成文本),因此可设置链接性文本比重变量,与链接文本阈值进行比较,是否要删除该节点,以此删除链接性文本及图片。

      节点比,节点文本量与整个body节点文本量之比。为了迎合不同节点有不同的链接文本阈值,采用节点比重的概念。节点的文本量相对越大,节点的重要性就越大,成为主题信息可能性就越大。

      链接文本阈值,链接限制最小值+(链接限制最大值-链接限制最小值)*节点比重。不同的节点,链接性文字的比重会不相同。若使用单一的阈值来比较,会使得噪音去除过度或是基本没有效果,而节点比重,会决定一个节点的噪音性。因此,使用节点比重来决定链接文本阈值会使得对比值趋于实际化。

      节点链接平均长度,节点中所有链接文本的长度和与节点中所有链接数之比。为细化出标题型短链接和广告式长链接,需要利用节点中链接的平均长度和标题型短链接的最大值进行比较,若是节点链接的平均长度大于标题型短链接的最大值,则属于广告式的长链接;若是节点链接平均长度小于标题型短链接,则就属于标题型短链接。

 

结果表明:

对网页去噪技术来说,必须对其结果进行验证,只有达到较高的准确率后才能推广应用。不同的算法需要采用不同的数据集进行验证,因此还没有统一的实验数据集,需要自己进行数据集的构建,并进行实验结果的验证。由实验结果可以验证本文算法对文本类的网页去噪效果比较好。会考虑继续完善启发式规则库,并加入机器学习等方法,以期设计出一套可以处理多种网页风格的完整网页去噪方法。

 

如何,上面关于网页去噪的算法设计大家都看懂了吗?不懂也不要着急,这是一个比较难的知识块,如果有感兴趣的小伙伴们可以自己多去查阅相关资料进行学习哦。


最新文章推荐

软件开发暂无最新文章查看全部推荐文章>

推荐人才