哈哈安徽科技学院出品这个超级大模型敢说半年内超越ChatGPT够有自信内附测评

6月9日,我们成功突破了开放性问答,实现了实时问答,并且多轮对话能力再次升级,数学能力也更上了一个台阶。8月15日,我们更是成功突破了代码能力,然后我们把多模态交互能力正式开放给了客户。10月24日,我们在通用大模型领域对标ChatGPT,而中文能力已经超越了后者,英文能力也与后者相当。在演示中,我让讯飞星火认知大模型进行写邮件、做方案、写新闻通稿、生成英文宣传文案等文本生成功能,结果它不仅完成任务,而且还非常流畅。另外现场演示的讯飞星火的语言理解能力也表现极为出色,它不仅理解了特定的句子和场景含义,而且随着问题的变化,也能够调整自己的答案。在发布讯飞星火认知大模型当天,我们展示了其面向泛领域开放式知识问答能力、逻辑推理能力以及代码能力。为了在多模态能力方面实现更好的表现,星火大模型可以根据关键词句生成语音、图片、视频等素材,并且可以生成虚拟人进行视频展示。然而,根据官方介绍,讯飞星火的多模态能力目前仍在测试中,最晚会在8月提供给VIP客户使用。为了打通“大模型 产品”闭环生态,科大讯飞还同步发布了基于该大模型的教育、办公、汽车和数字员工等多个领域相关产品。例如,在汽车领域,讯飞火星认知大模型与智慧座舱的结合,可以实现车内跨业务、跨场景人车自由交流。同时,基于大模型的智能座舱将更加自由、拟人化,更懂汽车并更加开放。在学习机中,新增了talktalk功能,实现中英文对话,而存量学习机可以进行更新和迭代。在办公本和录音笔中,新增了语篇规整、要点总结、一键成稿等功能,而存量产品也可以进行更新和使用。在数字员工应用场景中,基于自然语言生成业务流程和RPA可以帮助我们完成大量重复性工作。以公司招聘事项为例,我们可以输入指令,系统即可自动按照事先设计的RPA脚本,操作计算机中的相应软件,实现业务流程的自动化操作并输出结果,并进行数据分析。我在现场进行了测试,讯飞星火认知大模型可以应用于医疗、城市、政法、工业等更多领域,满足更多专业领域的需求,向更广阔的产业领域延伸。据了解,首批来自36个行业的3000余家企业开发者将接入星火大模型,测试体验非常令人惊喜。我们全天候科技经过多个场景下的测试,讯飞星火认知大模型要比竞品更加出色,准确率非常高,可以非常快速地响应和解决问题。我们首先让星火大模型介绍了自己和竞品。当我们的主语更复杂需要理解时,讯飞星火的理解能力出现了一些问题,但是相信它的未来会变得更加强大。我们进一步测试了讯飞星火的文字创作能力,要求它写一首关于端午节的诗。结果,它写出了一首基本涵盖了端午节的要素:糯米、龙舟、艾草,并且拓展了龙舟、艾草等元素的使用场景,表达了对生活的美好祝愿。但整体而言,与其说是一首诗,更像是一首缺少押韵、对仗、美感的顺口溜。我们还进行了针对一些时下正流行的网络“热梗”,测试它是否会跟上热点。它回答的还是挺准确的。在测试中,我发现讯飞星火对于网络热梗“特种兵”式旅游知道一点,但是不是很多。不过,它的态度很好,当我指出错误时,它能够认识到自己的错误,并且道歉。然而,我也发现讯飞星火的部分语料库并未更新至最新事件,对一些实事仍然给出错误的答案。比如,当我询问北京冬奥会自由式滑雪女子U型场地的冠军是谁时,它给出了一个错误的答案。不过,当我给出正确答案后,它也立刻承认自己的错误并道歉。

在多模态生成方面,讯飞星火的表现也不太完美。虽然已经推出了百度文心一言、阿里通义千问等大模型,具备图片生成的能力。但当我输入“科大讯飞要开大模型发布会,请生成一张海报”时,它告诉我自己无法生成。我看到,虽然讯飞星火不能生成图片,但还是给了我一些信息和建议。除了文字,它还能在答案中加入emoji表情包。当我让它用emoji表情包介绍大模型发布会时,它回答了我。最后,我问讯飞星火它如何看待自己的能力,我还提到了刘庆峰对其的夸赞,说它已经“超越ChatGPT”。然而,它没有承认,而是学会了“打太极”。我插入了一张图片,可以看到它是这样的:

。