mac os 上的 lxml 无法解析包含 emoji 的 html?-灵析社区

M78的社畜

mac os 上的 lxml 无法解析包含 emoji 的 html 随机 Emoji 示例 😄 这是一个带有随机 Emoji 的段落: 对于上面带有 emoji 的 html,lxml 会返回 None from lxml import etree from mark import BASE_DIR with open(BASE_DIR/'123.html', 'r', encoding='utf-8') as file: dom = etree.HTML(file.read()) print(dom) 输出如下: None 如果我删除 emoji 随机 Emoji 示例 这是一个带有随机 Emoji 的段落: 继续使用同样的代码 from lxml import etree from mark import BASE_DIR with open(BASE_DIR/'123.html', 'r', encoding='utf-8') as file: dom = etree.HTML(file.read()) print(dom) 输出如下: 所以,问题在于 lxml 无法解析带有 emoji 的网页,这个问题在 liunx 上无法复现 这个问题在 macos 上的任意 python 版本可以复现 这个问题在 macos 上的任意 lxml 版本可以复现 类似的问题如下,但是也没人管 * [https://bugs.launchpad.net/lxml/+bug/1981134](https://link.segmentfault.com/?enc=jz%2BcMiyQ%2BijaWxaeBLtvEA%3D%3D.L0Hpkg5Kx0WVnuDMWAiRsHz%2FnVahXEklPlxH8HtQbE5cJVjQRoZKLMPNvyPQo6cG) * [https://bugs.launchpad.net/lxml/+bug/1949271](https://link.segmentfault.com/?enc=%2FTiNvkxt14v%2FglJhmMSvXA%3D%3D.4F2LSHUs%2F7Pz06fWm%2FMPA1pdf4pgjkK%2Bw42szvOXt5ZyNJOrN%2Fz7M0j6ki%2B7Lk1c) 针对这个问题,我也去提了一个 bug,不知道会不会有回音:[https://bugs.launchpad.net/lxml/+bug/2046208](https://link.segmentfault.com/?enc=k7jk5N8Dltm1UK5jFuXO2w%3D%3D.VrrOzaZSawXXuhxfW%2B%2FXkaWe0VQprDQzcMve6KjLh9emOiwQ8%2FFBkQD%2FQykZouE1)

阅读量:193

点赞量:0

问AI
官方已经把问题已经解决了 "https://bugs.launchpad.net/lxml/+bug/2046208" (https://link.segmentfault.com/?enc=gAYy6zba2v6sJAUdQOvr5g%3D%3D.S8e7q0LIsamEVjFjgdXMh5T23FhcSM%2FB8gxI8bMF%2Fl5wySCwu3tylqlRUviK4iUi) 把 lxml 升级到 >=5.0.1 就行了