成功案例

GPT

作者:365bet登录 时间:2025/08/20 点击:

5月-Set |东大道电子邮件| [email protected]终于发布了，但是与gpt3.5，Sora等相比，它并没有带来令人惊讶的感觉。为了更好地说，Openai将其身份作为传奇的未来王，致力于实施和应用大型模型。这确实解释了为什么在新闻发布会上，OpenAI强调了GPT-5编程技能：毕竟，没有比今年AI编码更基本的AI方向。许多AI IDE工具也很快连接到GPT5，在不到两个月的时间内，任何人都可以使用。但是，一些媒体透露，Openai在编程技能上“作弊”。特别是，在SWE-验证的编程测试中，OpenAI并没有真正运行所有500个问题，只有477克测试。在尝试建模建模功能时，Claude和Google之类的模型在问题中达到500点。此外，更具有讽刺意味埃奈（Enai）。由于原始的SWE -Bench存在2,294个软件工程问题，因此Openai认为其中一些问题非常困难和不稳定，并且评估模型的编程能力是不公平的，因此OpenAI自行选择了500个问题，以使评论更可靠。再次切割“我选择的子集”更具吸引力，其余477个问题已完成。 OpenAI的官方网站发表了一篇博客文章，解释并解释了为什么它启动了SWE-Bench验证：https：//openai.com/index/introducing-swe-bench-rvied/some网民投诉：openai的恐惧是什么？为了找出SWE的证明以及测试的功能，我们特别下载了OpenAI官方网站的标题，注释和标记标准，并在实践中进行了进行。我们下载了OpenAI官方网站提供的频道的SWE -Bench标题，评论和标准。 SWE-Bench经过验证是一组优质的RevieW数据用于现实世界软件工程问题，该问题旨在衡量对代码的维修和理解。数据集包含500个经过验证的测试样本，每个样本都有基本信息，例如代码存储库信息，问题描述，修复补丁，测试补丁和难度标签。问题的困难主要是根据“完整时间”来区分的。例如，在15分钟内完成非常简单，艰巨的任务可能需要超过4个小时。目前，汗水的38.8％ - 经过长凳验证的任务可以在15分钟内完成，52.2％需要15分钟至1小时，其中8.4％的任务持续1到4个小时，而仅在4个小时以上的服务中，持续时间为0.6％。测试样品涵盖了许多著名的开放资源项目，包括django/django，sympy/sympy，sphinx-doc/sphinx，pandas/pandas，scikit-learn/scikit-learn，matplotlib/matplotlib/matplotlib，pytorch/pytorch/pytorch，pytorch，numpy/numpy/request/requests/requests offers/requests等。例如，django/django：该项目具有最高的比例，它在很大程度上测试了开发人员对大型网络框架的理解，尤其是在优化数据库，URL路由，中间件处理等中的查询时。我们要求GPT5选择10个代表性项目，涵盖不同模型的不同功能。 1。django/django -king github：https：//github.com/django/django/django问题：机会.delete（）方法，仅使用所需的字段来测试焦点：数据库测试和性能测试：DJANGO性能：DJANGO性能是最普遍的Python Web Web框架，该问题是该问题的最佳效果，并且涉及数据范围涉及数据范围和数据涉及数据范围涉及数据范围。 sympy/sympy-符号数学计算github：https：//github.com/sympy/sympy问题：距离计算的计算（3D条件：Sympy是数学数学的象征，用于测试数学和处理条件的符号，用于处理3。sphinx-doc/sphinx -do do oferent sphinx-做生成工具工具工具：COM/SPHINX-COC/SPHINX问题：图表SVG格式中的链接问题的测试重点：文档生成和链接完整性试验意义：Sphinx是Python Generationations的常见工具 Rendering and Coordinate System Test Significance: Matplotlib is a benchmark for the Python Drawing Library, Testing Coordinate transformation of complex graphics system 5. Scikit-Learn/Scikit-Learn- Study machine GitHub: https://github.com/scikit-learn/scikit-learn Problem: Ridgeclassifiercv's store_cv_Values Parameter Testing Problem Focus: Machine Study Parameter测试显着性：Scikit-Learn是最重要的ML库，测试算法参数处理，处理和处理处理交叉验证6。Astropy Github：https：//github.com/astropy/astropy/astropy/astropy问题：在误差测试重点上：复杂的模型组合和数学计算测试意义：天文学专门用于天文学计算，复杂数学模型的组合逻辑测试7。Pydata/Xarray-多维数据分析github：https：//github.com/github.com/pydata/xarray essite offort.__ setit.__设置的构图。测试和访问数据处理的多维类型。PYTEST-DEV/PYTEST -GITHUB：测试轮廓测试：https：//github.com/pytest-dev/pytest问题：值eRERROR发生：在收集补丁阵列焦点时发生值：测试测试测试：PYTEST测试测试测试测试测试测试测试，测试测试测试9个标准测试，该测试是标准测试，该测试均可进行测试。 Pylint-dev/Pylint-Tealegithub检查规格：https：//github.com/pylint-dev/pylint问题：简短的详细选项选项参数需要测试焦点值的值：测试工具工具线工具和接口10。psf/request-http库github：http库：Https：//gith.com/psf/requests问题：二进制LADAD LADO LAD致电to_native_string测试重点：http协议和二进制数据测试重要性：请求是最受欢迎的HTTP库，网络通信测试和数据处理，以及为什么通过23个测试问题将OpenAI删除，而不是使用23个测试问题，而不是使用完整版本，该响应是完整的，可以在下面的答案中使用。在完整版的SWE -NER台下，这是500个问题的基准，GPT5不超过Claude 4 Opkami。但是，旋转又来了，上面的测试是基于Bash Lamaof的，即完全依赖大型模型本身的功能。实际上，用户通常使用AI IDE与大型模型（例如光标，CodeBuddy，Trae等）一起使用它。以下问题。在AI IDE提供的型号中，“最佳” Claude 4 Opus非常昂贵，并且代币易于使用。换句话说，GPT5当前是最有效，最可用的编程模型？ 1。在实际的TE中当然，标记只能代表模型的性能，我们需要详细尝试。在CodeBuddy环境中，我们使用GPT5制作了SWE -Bench验证的查询数据库（评论，标记下载官方OpenAI网站的标准，以及基于HuggingFace的数据库）。提示：创建一个Swel -Bench验证的查询器数据库，该数据库很容易证明了SWE -Bench已证明的Whatproblems，以及提出问题的链接以及标记标准。 GPT5生成过程相对平滑，没有不可逆的错误。第一个版本仅显示11个项目，在交换周期后完成了500个项目。 GPT5生产版本的预览：http：//4d916460EA034A90BD4E0C1DD25F25EFC6B.AP-DINGAPORE.MYIDE.IO，然后，两个先知均用于生产Claude-4-Sonnet。显然，Claude-4-Sonnet的成功率不如GPT5好。例如，通常不显示网页的通常问题，并且在多次INT之后已解决与克劳德（Claude）相处。预览Claude-4-sonnet制作的版本：http：//7561fbea40ff40ff4069a3c2c8ae367cd7ea.ap-singapore.myide.io在UI级别上，因为两者都采用的MUI框架，因此视觉样式有很小的差异。但是，详细介绍了Claude-4-Sonnet生成的网页显然更好 - 响应式布局更好，可以以不同的屏幕尺寸显示。外部链接信息的组织也更为有道理，因为问题和项目详细信息已清楚地分发，而GPT5生成的页面不仅“曝光”数据库（huggingface）源，而且还有一个略有令人困惑的内容组织逻辑。在功能方面，GPT5具有出色的过滤性能，具有完整数量的仓库标签（10），大于Claude-4-Sonet的8个。但是，从交互体验的角度来看，Claude-4-Sonnet过滤操作更容易理解和易于使用，并提供专用的过滤端口对于移动设备，减少操作步骤。为了更客观，Packedwe还将将Gemini 2.5 Pro带给两个项目。结果表明，Claude-4-Sonnet产生的项目几乎在所有主要维度上都比GPT5更好。前者将模块化体系结构作为主要的，通过操作来分区部分，并通过自定义挂钩将数据与视图分开，从而更好地维护和阅读能力；后者采用了平坦的组件结构，数据的逻辑与UI完全耦合，使其更像是原型验证应用程序。在整体功能经验方面，Claude-4-Sonnet不仅包括搜索，查看运动和布局响应等功能，而且还缩短了通过现代交互模式（例如Detsidebar Alye和移动过滤）的操作路径。 GPT5取决于传统的页面跳跃方法，并且具有更长的操作链接。通常，Claude-4-Sonnet反映了更成熟的软件工程对代码质量应用程序方案，用户功能和经验的更大范围进行逐步思考，而GPT5福利主要集中于特定功能的实施速度和速度。在阅读了双子座的评论之后，我似乎明白了为什么Openai不得不做23个较少的问题。回到测试中，有很多变量会影响大型模型的功能 - 数据集组成，识别方法，上下文管理，工具调用功能，甚至IDE本身的想法都会导致结果明显破坏结果。也许如果您更改任务，GPT5的效果会更好。也许如果您更改了IDE，相同的型号将产生不同的标记。但是毕竟是GPT5。有人开玩笑说，旋转大型模型的欣赏和泡沫已被Openai带到一个肩膀上，现在这种负担似乎略有减轻。在AI编码领域，排名始终是一个削减。真正指的是生产力的是稳定在真实开发环境中的ITY，维护，工具链灵活性，并且该产品仍然可以在复杂的应用程序情况下提供可用且可靠的代码。请爱和离开特别声明：上面的内容（包括照片或视频（如果有））已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息服务。注意：上面的内容（包括照片和视频（如果有））已由NetEase Hao用户上传和发布，该用户是社交媒体平台，仅提供信息存储服务。