刚好前一段弄个类似的需求,大概说下思路,主要是移除无用的标签和代码,精简发给大模型的上下文,步骤如下: 1、首先用node-html-parser解析页面,这步就过滤掉了script、style、noscript之类的 2、创建一个新的根元素 3、弄一个标签和属性的白名单 4、遍历第1步解析好的DOM树,这里用的深度优先,在白名单内的挂到第2步的根元素中 5、返回第2步根元素的innerHTML
阅读量:1
点赞量:0