pdf 解析的条件非常苛刻,如果使用传统的方法会遇到很多问题,难以对其进行解析并且解析出来的结果可能会杂乱无章,以下是常见的一些问题:
标题是快速做摘要最核心的文本。同时对于有些高水平的问题,没有标题很难得到用户满意的结果。因此,提取标题和多级标题是文档摘要重要的一部分内容。
假如用户想知道一个文档某一章节是从哪些方面讨论的(假如是4个方面),如果没有将标题信息告诉LLM,而是把所有信息全部扔给LLM,那它大概率不会知道是4个方面,LLM提取信息后可能会更多也可能会更少,这并不能很好地完成用户的需求。以下是实现多级标题提取的步骤:
很多目标检测模型识别区块之后并不是顺序返回的,因此我们需要根据目标检测模型返回的坐标对文字块重新排序。单栏 pdf 可以直接按照中心点纵坐标排序即可,但是双栏 pdf 需要额外的处理。
首先如何区分单栏 pdf 和双栏 pdf?通过目标检测模型返回值我们可以得到所有区块的中心点横坐标,然后用这一组横坐标的极差来判断即可,双栏论文的极差远远大于单栏论文,因此可以设定一个极差阈值来进行分类。当然,这只是一种方法,也可以利用其他的方法来对单栏 pdf 和双栏 pdf 进行分类。
其次是双栏论文如何确定左右文字块的先后顺序。先获取中线的横坐标,若文字块的坐标都小于中线的横坐标则判断为位于左栏,若文字块的坐标都大于中线的横坐标则判断为位于右栏。对两栏分别排序,然后将右栏拼接在左栏后面。也有一种特殊情况就是通栏,若文字块左边的坐标小于中线横坐标且右边的横坐标大于中线横坐标为通栏,这时需要将通栏上方的右栏拼接在通栏上方的左栏之后,并把通栏下方的右栏拼在通栏下方的左栏之后,最后将通栏中的内容放在它们之间。
提取表格和图片中的数据需要利用目标检测和 OCR ,首先使用目标检测分别提取出标题块和数据块,然后对其排序,再利用 OCR 抽取排好序的文字块中的信息重组为表格。提取出表格之后输入给 LLM ,LLM 能够理解其含义,可以设计特定的 prompt 做引导以获得更好的反馈。
优点:准确率高,通用性强,保留了更多有用信息,并能够得到更为简洁的数据形式。
缺点:耗时较长,主要在目标检测和 OCR 两个模型处理的部分,同时上手门槛较高。
如果有一段文本被分在了两页,则可以用 NSP 判断两个句子(段落)是否具有语义衔接关系,若有语义衔接关系就对其进行拼接。如果是表格则需要对其手动合并,两个独立表格分别占据两页首尾少有出现,大部分作者都会避免这个问题出现。
阅读量:1504
点赞量:0
收藏量:0