有什么好办法可以提取图片的各个元素的坐标？-灵析社区

有什么好办法可以提取图片的各个元素的坐标比如下面的图片的分辨率是 720 × 1600 ![no1-3.png](https://wmlx-new-image.oss-cn-shanghai.aliyuncs.com/images/20241107/4f9c98686a09fc7334f7616b6a8d85ee.png) 比如我想获取「喝牛奶有效缓解暑热并促进身体健康」这几个字出现在图片中的坐标我想到的办法就是把图片先转出 pdf，因为 pdf 是绝对坐标渲染内容的，所以再读取 pdf 中元素就能获取坐标了 > 截图 ——> 使用 ocrmypdf 转成文本化的 PDF ——> 使用 pdfplumber 按行读取 PDF ——> 统计坐标点 > > * ocrmypdf: > [https://github.com/ocrmypdf/OCRmyPDF](https://link.segmentfault.com/?enc=kndB23oHQwa7Ti9UD5P9WQ%3D%3D.eGpi%2Fp7Srl15Flk3hm0FTMsWrNtoSLOZQMoHStewi2ZWgtFwRLnl0Aau6R5C9x39) > * pdfplumber: > [https://github.com/jsvine/pdfplumber](https://link.segmentfault.com/?enc=41l0%2FjqxPw%2BPlfxEdGShxA%3D%3D.gJd8C2KlHVc%2FGY7mYtqW7YOLDDDotc03sNLp5B%2BHpx%2F58bugJy9eRGgvTYxXb7V1) > 图片转 pdf 我选用的是 ocrmypdf，为什么选它，因为他是 github 排名第一的 * * * 但是这个 ocrmypdf 的实际效果很差劲！使用上面的图片提取文字都是错版的比如我想复制这几个字 ![图片.png](https://wmlx-new-image.oss-cn-shanghai.aliyuncs.com/images/20241107/65cab2527072db17e2079048a128fcdb.png) 复制出来是由 RS 器牛奶有效缓解暑热并促进身体健康感觉还不如微信和钉钉那个 OCR 呢？而且再用 pdfplumber 读取文本的坐标也不准 x0 应该是 100+，但是它显示的确是 x0 { "text": "由RS器牛奶有效缓解暑热并促进身体健康", "x0": 4.9832, "top": 106.97799, "x1": 109.63488972813998, "bottom": 112.97800000000001, "chars": null, "char": null } 有什么好用的方案可以实现「有什么好办法可以提取图片的各个元素的坐标」吗？