如何使用 LLM 来做爬虫的页面通用解析？-灵析社区

刚好前一段弄个类似的需求，大概说下思路，主要是移除无用的标签和代码，精简发给大模型的上下文，步骤如下： 1、首先用node-html-parser解析页面，这步就过滤掉了script、style、noscript之类的 2、创建一个新的根元素 3、弄一个标签和属性的白名单 4、遍历第1步解析好的DOM树，这里用的深度优先，在白名单内的挂到第2步的根元素中 5、返回第2步根元素的innerHTML