如何使用 LLM 来做爬虫的页面通用解析?-灵析社区

0offer糕手

现在遇到的问题是 html 往往很大,甚至可以说体积是超级超级大,几百KB甚至几MB 但是 LLM 的上下文比较小,输入的 html 这么大,非常的糟糕 但是又不能去除掉所有的 html 标签,因为这样就是失去了原始信息了,怎么有选择性的把有效且精简的数据输入给 llm 呢?

阅读量:329

点赞量:12

问AI
刚好前一段弄个类似的需求,大概说下思路,主要是移除无用的标签和代码,精简发给大模型的上下文,步骤如下: 1、首先用node-html-parser解析页面,这步就过滤掉了script、style、noscript之类的 2、创建一个新的根元素 3、弄一个标签和属性的白名单 4、遍历第1步解析好的DOM树,这里用的深度优先,在白名单内的挂到第2步的根元素中 5、返回第2步根元素的innerHTML