电话:010-60531612
邮箱:teskey@126.com
每日经济新闻大模型年度评测报告
2024-11-29 浏览次数:0一、评测场景与参评模型概述
2024年6月25日,《每日经济新闻大模型评测报告》第1期发布,对15款市面主流大模型在“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四个新闻采编应用场景的能力进行了评测。
2024年9月6日,《每日经济新闻大模型评测报告》第2期发布,重点考察大模型在“金融数学计算”“商务文本翻译”“财经新闻阅读”三个新闻采编应用场景的能力。
与前两期评测一样,《每日经济新闻大模型年度评测报告》继续以大模型在新闻采编场景的应用能力为评测目标,但为了更精准对接采编人员的实际需求,本次评测以“采写编审和短视频创作的新闻生产全流程”为场景,包括大模型设计采访提纲——撰写新闻稿件——校对稿件差错——提炼稿件标题——改写短视频文本五个细分场景。通过大模型在新闻生产全流程的介入,评测出“谁是新闻生产全流程的最优秀大模型”,用直观的评测结果,对采编人员在工作中选用适合的大模型工具提供实战参考。
本次评测设置的五个细分应用场景具体如下:
(1)设计采访提纲:旨在考察大模型能否帮助记者拟定采访提纲,辅助记者采访工作。
(2)撰写新闻稿件:旨在考察大模型围绕既定的多份材料,能否创作一篇新闻稿件。
(3)校对稿件差错:旨在考察大模型能否检查出新闻稿件中的错别字,语法、数字、标点符号等差错。
(4)提炼稿件标题:旨在考察大模型能否根据稿件内容,提炼新闻标题,特别是制作适合在微信等新媒体平台传播的新媒体风格标题。
(5)改写短视频文本:旨在考察大模型能否根据一篇文字新闻稿件,改写成适合短视频发布的文案。
每经大模型评测小组为五个细分场景制定了对应的评价维度和评分指标。每日经济新闻10余名首席、高级、资深记者编辑根据评价维度和评分指标,对各款大模型在五个细分场景中的表现进行评分,汇总各场景得分,最终得到参评大模型总分。
需要指出的是,本期评测是通过各款大模型的API端口,并在默认温度下完成。与公众用户使用的大模型C端对话工具存在差异。但是评测结果对用户在具体场景中选择合适的大模型工具,依然具有重要参考价值。
本期评测均在“雨燕智宣AI创作+”测试台上进行,一共有12款国内大模型参与。
评测时间为2024年10月18日,因此参评大模型均为截至10月18日的最新版本。