一期针对ChatGPT的全面测评:涵盖功能、性能、用户体验

闪电发卡1年前ChatGPT791

从去年底至今,由 OpenAI 发布的大规模语言模型 ChatGPT 引发了几乎所有科技领域从业者的高度关注。根据瑞银集团的一份报告,截止 2023 年 1 月末,ChatGPT 仅推出 2 个月,月活用户就突破了 1 亿。

有人将 ChatGPT 称为“最强 AI”,原因在于 ChatGPT 给出的回答反应了它更接近人的思考方式和回答方式,相比过去增强了适应情景的能力。ChatGPT“更接近人的思考方式”也意味着 AI 语言模型的发展由量变走到了质变。

此外,ChatGPT 的大火带涨了 AI 概念股,让业内重新审视了 AI 行业巨大的发展机会。随后,搜索引擎的大战开始了,谷歌 CEO Sundar Pichai 在官方博客上宣布推出谷歌下一代 AI 对话系统 Bard,以此应对 ChatGPT;百度宣布将推出类似 ChatGPT 的产品——文心一言(英文名 ERNIE Bot)将在三月份完成内测,面向公众开放;微软公布了自家搜索引擎 Bing 最新版本,其采用的底层 AI 技术正是 ChatGPT,同时微软还为 Edge 浏览器添加了新的 AI 增强功能,承诺带来前所未有的网络浏览与在线信息查找体验。

为便于各方全面多维了解 ChatGPT 能力,InfoQ 测评室参考中国信息通信研究院联合中国人工智能 产业发展联盟相关标准中的指标要求和评估方法,从功能、性能、用户体验等方面对 ChatGPT 进行了评估,我们一起看看这款应用是不是真如传说中那么强悍吧。

第一部分:基础功能验证

1. 自然语言输入

该部分主要测试了中文、俄语、日语、英语以及网络用语的识别情况,并从中考察 ChatGPT 的上下文联系能力。

结论:总体来说,ChatGPT 应对简单问题的上下文是连贯的,可以理解用户上文所提的问题和下文的补充问答,整体的交互过程是流畅的。但是,其对语言理解的鲁棒性可能没有想象中那么强。一旦掺杂网络用语、口语或者省略一些句子的关键成分,ChatGPT 的理解就可能出现问题。

2. 机器语言输入

鸡兔同笼是非常经典的一道基础编程题,逻辑相对简单。该部分主要希望通过一道基础编程题测试 ChatGPT 在不同编程语言之间切换是否顺畅,以及代码格式、逻辑、注释能力是否具备。

结论:高峰时间段测试容易出现识别错误,低峰测试时代码时准确可运行的。在这个过程中,只要 ChatGPT 对问题的理解没问题,基本就是可行的。对于不明确表达诉求的句子(例如:“我更喜欢 Java” 而不是“帮我切换至 Java 语言”)也可以很好理解。对于一个人工智能助手,ChatGPT 不主动给出判断,只给出建议。如果是复杂的业务开发,需要考虑合适的提问方式,最后给出的代码经过一些调整是可以应用的。

第二部分:基础性能测试

该部分并不是进行压力测试(实际测评过程中多次出现故障,可能是网络原因,也可能是访问流量过大,具体原因不得而知),而是通过一些需要进行大量检索和运算的问题来测试 ChatGPT 在百科检索、数学问答、文学交流、知识推理等方面的能力。

1. 百科检索

结论:针对常规检索就能得到答案的问题,ChatGPT 的回答还是比较全面的。当将 ChatGPT 作为一个实际的“人”来对话时,其给出的答案比强行拟人的效果要好很多。

2. 数学问答

结论:与部分网友之前给出的结论“ChatGPT 是理科生”相似。对于复杂的数学问题,ChatGPT 无法很好地理解题目并完成推理过程。当受到质疑时,ChatGPT 的认错速度极快,认错态度很好,并且分析了错误原因,但是并没有改正错误。

3. 文学交流

结论:相比于数学问答,ChatGPT 在文科上的表现更胜一筹。但是,用户需要认真甄别给出的答案,部分答案看似合理实则离谱,并且有时会给出一些看似“真实”的内容来源链接,但大部分打开后显示内容不存在。

4. 知识推理

结论:对于已经确定的事实和还不确定的理论猜测都有提及,回答相当充分且主次合理、条理清晰,这也是生成式 AI 很重要的特征。

第三部分:用户体验

结论:面对开放性问题,ChatGPT 给出的答案可以给大家带来更多参考价值,但无法作为标准答案直接采纳,趣味性略低。

总体结论

功能体验层面:基本功能都具备,逻辑性强,可以给出看似正确且合理的答案,但对于既定内容的搜索并不能完全保证内容可靠,需要提问者自行判断。目前来看,如果将其与搜索引擎结合,还是需要解决很多问题的。

虽然 ChatGPT 的对话能力来自于 RLHF,即从人类反馈中强化学习,这种模式可能会牺牲上下文学习的能力来换取建模对话历史和增加对话信息量,但实际的体验过程发现简单的多轮对话应对起来还是比较容易的。

在数学问答方面,直接将整个问题(我相信这是大部分用户希望的做法)丢给 ChatGPT,大概率是不会得到正确的答案,但可以将问题拆解成单个小问题,逐层引导 ChatGPT 回答,这种模式会更有助于得到真实的答案。

使用场景层面:目前,已经有一些开发者通过 ChatGPT 来编写简单的代码,但还无法直接处理复杂业务场景下的代码,这可能需要开发者优化提问的方式,将复杂的问题拆解成一个个简单的问题,引导式提问。

在企业级应用层面,已经有一些企业将 ChatGPT 的能力整合到 BI、数据库等系统,用户可以通过自然语言提问获得相关的答案。

此外,目前通过 ChatGPT 生成一些机器可懂的高级词汇,再通过一些文生图的软件生成想要的图片,最终的结果会比直接与文生图软件对话的要优质。

其他需注意事项:在高峰时间段(上午 10:00 到下午 17:00)测试时,ChatGPT 给出错误答案的概率更高;ChatGPT 本质还是 AIGC,更适合便创作类的内容,对于既定事实内容的搜索能力还有待提高。


闪电发卡ChatGPT产品推荐:

ChatGPT独享账号:https://www.chatgptzh.com/post/86.html

ChatGPT Plus共享账号:https://www.chatgptzh.com/post/319.html

ChatGPT Plus独享账号(购买充值代充订阅):https://www.chatgptzh.com/post/306.html

ChatGPT APIKey购买充值(直连+转发):https://www.chatgptzh.com/post/305.html

ChatGPT Plus国内镜像逆向版:https://www.chatgptzh.com/post/312.html

ChatGPT国内版(AIChat):https://www.chatgptzh.com/post/318.html


相关文章

ChatGPT的APIKey获取和提取方法教程(推荐购买3.5和4.0的ChatGPT APIKey 的靠谱渠道)

ChatGPT的APIKey获取和提取方法教程(推荐购买3.5和4.0的ChatGPT APIKey 的靠谱渠道)

一、什么是ChatGPT APIkey?APIKey 是OpenAI提供给开发者用来调用ChatGPT API的密钥,我们可以通过调用ChatGPT的API,将ChatGPT的功能和能力集成到自己的应...

ChatGPT手机曝光!体验或超越苹果的语音助手Siri

ChatGPT手机曝光!体验或超越苹果的语音助手Siri

近月吹起一股AI热潮,AI改图软件及AI对话工具ChatGPT都极受关注。最近传闻有手机品牌将ChatGPT变为手机的语音助手,使用体验会不会超越苹果语音助手Siri呢?据国内网友爆料,国产手机品牌传...

ChatGPT Plus 4.0国内镜像逆向版产品介绍、优势分析和使用方法教程攻略

ChatGPT Plus 4.0国内镜像逆向版产品介绍、优势分析和使用方法教程攻略

ChatGPT Plus国内逆向版是由闪电发卡针对Plus用户最新推出的Plus使用解决方案,该方案融合了官方Plus的所有优点,并且解决了官方Plus的诸多缺点,比如3小时40次限制,需要科学上网等...

AI在交通运输中的应用:未来的智能交通系统

近年来,随着人工智能(AI)技术的迅猛发展,交通运输领域也迎来了前所未有的变革。智能交通系统(ITS)的出现,标志着我们正在步入一个更加高效、安全和环保的未来。在这篇文章中,我们将深入探讨AI在交通运...

ChatGPT的工作原理:深入探究和分析ChatGPT背后的原理

ChatGPT的工作原理:深入探究和分析ChatGPT背后的原理

这篇文章主要探讨了ChatGPT的工作原理。ChatGPT是基于OpenAI开发的GPT-4架构的大型语言模型。首先,文章介绍了GPT的基本概念,即生成预测性网络模型。GPT模型利用大量的文本数据进行...

用ChatGPT帮你写产品文档:如何使用ChatGPT做好产品经理

用ChatGPT帮你写产品文档:如何使用ChatGPT做好产品经理

一、为什么是产品助理我想让GPT成为我的产品助理,那为什么不是GPT直接成为产品经理呢?因为通过我大概近几个月的使用,我认为GPT暂时还不会直接取代产品经理。产品经理是需要依据用户需求、业务环境和技术...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。