关于页面分析策略架构的想法

总体想法

现在绝大多数网站使用动态网页,网站的网页数量可以非常庞大,但使用的模板数量是有限的,对使用相同模板的页面,页面分析策略提取的基础特征块(例如realtitle、mypos、article_info等)的DOM节点应该是相同的,即提取块的xpath相同。使用相同模板的大量页面,每个页面都计算渲染信息跑页面分析策略,需要较高的计算资源。使用相同模板的多个页面,页面的DOM树所有子节点的xpath组成的集合应该相同,在这个站点下可以唯一标记这个模板,前100个页面计算渲染信息跑页面分析策略,基础特征块对应的xpath路径都是一样的,其他的页面不需要再次计算渲染信息跑块提取策略,只需要构建DOM树直接输出基础特征块对应的xpath路径的节点。如果页面模板更新,那么DOM树所有子节点的xpath组成的集合也会改变,页面就没有已知的模板策略结果,重新再计算渲染信息跑页面分析策略。而且,模板的策略结果,经过人工review后,可以直接作为机器学习的训练数据。

目前正在调研方案的可行性

发表评论

电子邮件地址不会被公开。 必填项已用*标注