ChatGPT 是一种语言模型,它使用概率为您的问题创建基于文本的答案。但数学和会计取决于准确性,而不是概率。这就是为什么这很重要。
在过去一年左右的时间里,大语言模型(LLM)ChatGPT展现了一种不可思议的能力,能够在一些作为我们年轻职业生涯基石的事情上超越人类。
它通过了医学院所有三项难度极高的考试,通过了法学院律师资格考试,并通过了宾夕法尼亚大学沃顿商学院的 MBA 考试。
法学硕士公布的分数只是中等及格分数。但它后来的化身——GPT -4—— 据说是比它的父母更好的学生,以 90% 的成绩顺利通过了律师资格考试,并且在 GRE 语言考试中获得了近乎满分的成绩。
因此,对于我们人类来说,至少有一件事是像 ChatGPT 这样的法学硕士不擅长——或者实际上很糟糕——会计,这一定是一种巨大的满足和宽慰。
ChatGPT 的许多用户都公开评论过最简单的数学函数是如何欺骗它的。然而, 杨百翰大学 (BYU) 会计学教授 David Wood 几个月前对 ChatGPT 的会计功能进行了一项大规模且严格执行的研究。
Wood 决定通过社交媒体上的宣传来利用全球会计界的力量,寻求帮助让 ChatGPT 通过某种全球会计考试。
参与者数量众多:来自 14 个国家 186 个教育机构的 327 名共同作者参与了这项研究。他们总共汇集了 25,181 道课堂会计考试题,以及来自他所在的杨百翰大学部门的 2,000 多个问题,并提交给 ChatGPT。
这是典型的综合会计考试,问题涵盖所有主要主题。例如财务会计、审计、管理会计、税务等,并且有不同的类型(多项选择、简答题、对/错)和难度级别。
结果很明确:ChatGPT 的得分为 47.4%,就其本身而言,还算不错。然而,学生们的总体平均成绩为 76.7%,轻松击败了机器。
根据研究,法学硕士在审计等方面表现良好。但据伍德的论文称,它的人工神经元在处理税务、财务和管理评估问题时遇到了困难,而这些部分涉及大量数学。
很多人无法完全调和人工智能有时甚至无法做简单数学的事实与人工智能作为人类潜在杀手的可怕声誉。
然而事实是,ChatGPT 本质上是一个美化的预测文本程序——它被输入了大量数据,然后经过训练来识别正确和错误的答案。
它能够通过给出问题的对话答案来惊人地像人类一样,是因为它是为了理解语言固有的模式以及单词之间的联系而构建的,而不是数字。(这就是为什么它被称为“语言”模型。)
这些人工智能法学硕士的输出取决于概率,而不是准确性。根据设计,输出被设计为代表对所提出的问题具有统计上最高概率的答案。
涉及数学或多种会计形式的答案需要精确,而不是近似值。它们取决于精确的输出,就像计算器给出的结果一样,而不是基于单词之间的关系。
亚利桑那州立大学工程系副教授 Paulo Shakarian 负责管理一个实验室,探索人工智能面临的挑战,他完成了一项研究,测量了 ChatGPT 在数学应用题上的表现。
解决这些文字问题涉及多个步骤,需要将文字转化为数学方程。但这种多步骤过程也需要逻辑推理,而算法的设计目的并不是为了做到这一点。
Shakarian 补充道:“我们在一月初对 ChatGPT 进行的初步测试表明,其性能明显低于最先进的数学单词问题解决算法 60% 的准确度。”
亮点
那么,像 ChatGPT 这样的法学硕士的优势在哪里呢?
宾夕法尼亚大学沃顿商学院的另一位教授克里斯蒂安·特尔维施(Christian Terwiesch )在商学院分配的典型案例研究中有着截然不同的经历。 然而,当涉及解决拉丁美洲一家假设的铁矿石工厂的瓶颈流程问题时,ChatGPT 表现出色。
“哇!答案不仅正确,而且解释得非常好,”特尔维施在一篇关于他的实验的论文中写道。“我认为没有任何理由从这个答案中扣分:A+!”
Terwiesch 表示,整个 MBA 考试的总体成绩在 B 或 B- 左右,这主要是因为机器人在运营管理和流程分析方面的优势,而许多财务和管理领域的工作人员都为此支付了大量费用。 。
人工智能高能力的另一个领域是:完成繁琐的任务,例如处理发票、对费用进行制表和分类、处理数据输入以及类似的领域。
但最重要的是,ChatGPT 为杨百翰大学教授伍德提供了无与伦比的能力,让他能够反思教职员工教给学生的内容以及他们是如何教学生的。
“当这项技术第一次问世时,每个人都担心学生现在可以用它来作弊,”他说。
“但是作弊的机会一直存在。因此,对我们来说,我们正在努力专注于我们现在可以利用这项技术做些什么,这是我们以前无法做到的,以改善教师的教学过程和学生的学习过程。测试它令人大开眼界。”