如何使用 LLM 来做爬虫的页面通用解析？-灵析社区

现在遇到的问题是 html 往往很大，甚至可以说体积是超级超级大，几百KB甚至几MB 但是 LLM 的上下文比较小，输入的 html 这么大，非常的糟糕但是又不能去除掉所有的 html 标签，因为这样就是失去了原始信息了，怎么有选择性的把有效且精简的数据输入给 llm 呢？

阅读量：427

点赞量：12

问AI

办公室高手

刚好前一段弄个类似的需求，大概说下思路，主要是移除无用的标签和代码，精简发给大模型的上下文，步骤如下： 1、首先用node-html-parser解析页面，这步就过滤掉了script、style、noscript之类的 2、创建一个新的根元素 3、弄一个标签和属性的白名单 4、遍历第1步解析好的DOM树，这里用的深度优先，在白名单内的挂到第2步的根元素中 5、返回第2步根元素的innerHTML