推荐最新

g1879/DrissionPage

这是一个基于 Python 的网页自动化工具，支持 Chromium 内核浏览器。它将控制浏览器和收发请求两大功能合二为一，并提供了统一、简洁的接口。

浏览量248

pywebcopy复制的网站是有什么解决办法吗？

python3.9 程序如下： from pywebcopy import save_webpage save_webpage( url='http://www.hippter.com/', project_folder='D:/Python/script', project_name='my_site3', bypass_robots=True,# 调试 debug=True, open_in_browser=True,# 在浏览器中打开 delay=None,# 延迟 threaded=False,# 线程 ) 问题：如何显示中文，不出现乱码？

浏览量826

MaxClick

Python中使用playwright抓取内容与页面显示内容不一致？

网页查询条件设置页面中，默认查询时间范围为最近2个月。调整查询周期后，新弹出的查询结果页显示的是正确时间范围，但使用playwright爬取存入变量的内容均为默认查询周期（2个月）的结果。 headless=False 想了解下有哪些可能造成这样的结果，以及大致解决思路。非常感谢！

浏览量484

代码大师

数字版权管理（DRM）是如何保证安全的？

DRM 是给源文件加密，通过密钥解密播放。那么在客户端就会有文件+密钥，既然客户端能解密，那么所有人都能解密，不就不安全了吗？所以他是如何保证安全的。是不是可以通过转录，比如说 Web mediaSource 之类的东西直接把解密后的就存了？

浏览量385

0offer糕手

如何使用 LLM 来做爬虫的页面通用解析？

现在遇到的问题是 html 往往很大，甚至可以说体积是超级超级大，几百KB甚至几MB 但是 LLM 的上下文比较小，输入的 html 这么大，非常的糟糕但是又不能去除掉所有的 html 标签，因为这样就是失去了原始信息了，怎么有选择性的把有效且精简的数据输入给 llm 呢？

浏览量426

kunkun小黑子

如何解决使用 bs4 模块中 find_all 提取列表元素中包含回车符的现象？

1、场景：使用 BeautifulSoup 提取指定页面标签中类别为'green'的内容。 2、代码： from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html') bs = BeautifulSoup(html.read(), 'html.parser') name_list = bs.find_all('span', {'class':'green'}) for name in name_list: print(name.get_text()) 3、问题：提取 name_list 后发现在遍历的过程中，某些名字存在回车符号。例如：第一个元素应该是 Anna Pavlovna Scherer，但运行的结果是 Anna Pavlovna 和 Scherer，变成了两个元素。我检查了一下该网页的源代码，HTML代码中 Anna Pavlovna 和 Scherer 之间的确存在回车符，这不影响浏览器显示，但在运行代码时就显示不正常了（变成两个元素）。另外，我也考虑将 name 转换为字符串类型（str），这样可以替换掉元素中间的回车符，但这样的话后续就没有办法使用 .get_text() 方法了。请问有没有在可以使用 .get_text() 方法的前提下，去掉 Anna Pavlovna 和 Scherer 之间的回车符，让两个元素正常确认为一个元素？ 4、环境：Fedora Linux 38，Python 3.11.5，BeautifulSoup 4.12.2 感谢回答！

浏览量301

正确计算方式

请问这个链接里upt后面的一串字符或数字代表什么？

"http://stream10.fjtv.net/cctv1/playlist.m3u8?_upt=043148201695293476" (https://link.segmentfault.com/?enc=jomBPiDuT0VxPs5qiIrB2A%3D%3D.AB5rYqwL2vWLY8scG6IcSosf8jnT0hsZ8JcF1U9%2BOoFGrsyRCKui5v%2FK4oQUGdRQikogfeTlTmEsTRvLoQxlp7Kjyh07IwRnuo2sZDrDDf0%3D) 以上链接是CCTV1直播流的URL，但是upt参数是动态的，以我的经验1695293476这十位是时间戳，但是前面8位不知道是什么，附上播放页链接（"http://player.200877926.top/169l/fj/fjtv.php?id=cctv1" (https://link.segmentfault.com/?enc=gJHgxCKuc162a%2BZRJW4oOg%3D%3D.moJ3%2BZxyMMSQL7aQmYlESlpjLreQH8Qn3rY11UDYSytxrbqI%2FQfq85ArGuGoinqhDBx4biBim6%2FGFjmG7gK7xA%3D%3D)），不定时查看源代码会发现video抱歉的source里边的链接也试试我上面附上的例子upt是会变化的，例子上面的链接过一段时间就会失效，打不开所以我想知道 upt参数前面8位是什么

浏览量368

七安前

如何让小米手机不自动关闭无线调试？

如何让小米手机不自动关闭无线调试？ "图片.png" (https://wmprod.oss-cn-shanghai.aliyuncs.com/c/user/20241010/e0ec6df891e777e8767be8a0a9d682eb.png) 过一段时间无线调试就会自动关闭重启开启，端口号也变了，很恶心无

浏览量587

MastFancy

无法下载网页urllib.error.HTTPError: HTTP Error 403: Forbidden？

想提取这个网页的数据 from urllib.request import urlretrieve import urllib import random url="https://cn.investing.com/indices/hnx-30-components" opener = urllib.request.build_opener() ua_list = ['Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:102.0) Gecko/20100101 Firefox/102.0', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.62', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36 SE 2.X MetaSr 1.0' ] opener.addheaders = [('User-Agent', random.choice(ua_list))] urllib.request.install_opener(opener) urlretrieve(url, '/tmp/test.html') 网页无法打开，浏览器可以打开 File "/usr/local/lib/python3.11/urllib/request.py", line 643, in http_error_default raise HTTPError(req.full_url, code, msg, hdrs, fp) urllib.error.HTTPError: HTTP Error 403: Forbidden 请问，如何解决？

浏览量304

编程界菜niao

【求助】python使用selenium时，如何跳过cloudflare的检测？

使用ptyhon的selenium来抓取目标站时，发现网站使用了cloudflare，用平常的手段均无法跳过，都会被屏蔽掉。

浏览量199