SpeechIO TIOBE Benchmark

滚动测试报告 2023年11月

系列文章:

引篇

规范

场景测试:新闻联播

场景测试:鲁豫有约一日行

滚动测试报告:2023.04

......

更多文章请点击顶部专辑入口阅读


滚动测试 2023.11

1 更新日志

最新更新日期:2023.11

  • 2023年11月

    • 场景:增加 [评书 单田芳-白眉大侠],[相声 德云社],[脱口秀 吐槽大会]

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2023年10月:

    • 指标:增加 SOTA 数值 ,详见 [当我们谈论SOTA时,我们在谈论什么]

    • 场景:增加 短视频 电影剪辑 谷阿莫&牛叔说电影 短视频 美食&烹饪 琼斯爱生活&贫穷料理  

    • 测试集发布:[新闻联播] 测试集已公开发布,后续滚动测试不会每期都覆盖该场景

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2023年9月:

    • 场景:增加 在线教育 罗翔 法考 在线教育 张雪峰 考研 

    • 厂商:[阿里云+]已上线合并入公网版本[阿里云],TIOBE 历史数据记录始终以公网版本为准。

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2023年8月:

    • 场景:增加 播客 创业内幕

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2023年7月:

    • 场景:增加 播客 故事FM

    • 重要修复:发现 直播带货 李佳琪薇娅 直播 王者荣耀 老罗语录 三个场景测试集标注错误,全面检查&修正;作废这三个测试集6月的测试结果,7月开始启用修正后的测试集。详情见本月已经发布的[更正说明文章]

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2023年6月:

    • 场景:增加 直播带货 李佳琪薇娅 直播 王者荣耀 老罗语录

    • 厂商:增加 阿里+ ,为阿里云新算法的试用版; 测试中取消 谷歌,因谷歌的中文识别性能没有参考性,且费用超过其余各家之和。

    • 更名:原搜狗知音平台 改名为 搜狗AI开放平台

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2023年5月:

    • 修复搜狗多句结果解析bug

    • 场景:增加 天下足球-世界杯往事 罗振宇跨年演讲 李永乐老师在线讲堂

    • 厂商:增加 创S

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2023年4月:

    • 场景:增加 鲁豫有约大咖一日行

    • 厂商:增加 微软 Azure 认知服务 搜狗知音平台

    • 测试:全厂商 × 全场景 滚动刷新测试

  • 2023年3月:

    • 场景:增加 新闻联播

    • 厂商:增加 阿里 百度 谷歌 讯飞 腾讯 创Y

2 滚动测试

已有测试集信息汇总

文章链接 场景 领域 难度(1-5)
新闻联播 新闻播报 时政
鲁豫有约一日行 访谈电视节目 名人工作、生活 ★★☆
天下足球 专题电视节目 足球 ★★
罗振宇跨年 会场演讲 人文历史、科技 ★★
李永乐讲堂 在线教育 科普 ★★★
直播 王者荣耀 直播 游戏 ★★★
直播 带货 直播 电商、美妆 ★★★★
老罗语录 线下培训 段子,做人 ★★★★
播客 故事FM? 播客 人生故事、见闻 ★★
播客 创业内幕
播客 创业、产品、投资 ★★
罗翔 法考
在线教育 法律 法考 ★★
张雪峰 考研?
在线教育 考研 高校报考 ★★★
谷阿莫&牛叔 短视频 电影剪辑 ★★★
琼斯爱生活&贫穷料理 短视频 美食、烹饪 ★★★
单田芳-白眉大侠 评书 江湖、武侠 ★★
德云社专场 相声 包袱段子 ★★
吐槽大会 脱口秀 明星糗事 ★★

最新滚动测试结果汇总

纵轴(字准确率%)绘制范围为 [70, 100]

(注:讯飞被低估,原因详见 SOTA)


最新滚动测试详细数据

飘绿部分为各个测试集的最优性能

3 后记

  • 本月阿里、腾讯有提升

  • 搜狗在涉及中远场的场景有明显提升,其余场景有波动。

扫描下面二维码 或 微信搜索 SpeechIO,关注公众号。

文章转载自微信公众号SpeechIO