微软研究：AI 编程助手软件调试能力堪忧-灵析社区

微软研究：AI 编程助手软件调试能力堪忧在一项微软研究院的最新研究中，研究人员发现多款人工智能编程助手模型在调试软件方面的表现不尽如人意，包括Claude 3.7 Sonnet 和 OpenAI 的 o3-mini等，这些模型在软件调试任务中成功率最低未超过50%。研究背景 OpenAI、Anthropic等顶尖人工智能实验室开发的AI模型被越来越多地应用于编程领域。据微软研究院的数据，这些AI模型在软件漏洞调试任务中的成功率十分低，未能成功解决大多数问题。研究表明，尽管这些AI模型在生成代码方面表现优异，但它们在使用调试工具和解决问题的过程中仍然存在明显的不足。调试任务的挑战研究人员使用了九种不同的模型，测试了它们在SWE-bench Lite软件开发基准测试中的表现。这些模型的成功率相差甚远，其中Claude 3.7 Sonnet的成功率最高，为48.4%。而OpenAI的o3-mini则以22.1%的成功率排名最低。主要问题：数据不足微软研究人员指出，AI模型调试失败的主要原因是训练数据的匮乏，特别是缺乏充分的“顺序决策过程”数据，即人类调试过程的数据。这类数据对于训练AI模型以完成高效的调试任务至关重要。研究人员认为，尽管当前AI模型的表现欠佳，但通过专门的数据训练，模型有潜力成为更强大的调试工具。总结这项研究为AI编程助手在调试领域的应用提供了深入分析。尽管这些技术尚未达到完美水平，但它们在未来仍有很大的发展潜力。随着数据的不断积累和技术的进步，AI可能会逐步完善并在更多编程任务中发挥更大作用。 "AI调试" (https://img.ithome.com/newsuploadfiles/2025/4/85e8197e-b283-4bb5-9fde-735cbb59f545.jpg?x-bce-process=image/quality,q_75/format,f_webp)