阿里巴巴达摩院人工智能训练师（高级）

阿里颁发的证书，找“橙点同学”
一共有五个视频课程，全部上完后即可参加考试～
考试一共34题，可以考两次，第一次不过的话没关系，可以看题析之后再考～
基本上题目都一样的，但顺序会变化哦～

1.打开浏览器搜索网站——橙点同学 (orange-class.com)

在这里插入图片描述

2.登录账号并修改个人信息——实名本人及学校，用于证书填写

在这里插入图片描述

3.返回主页，点击获得认证——人工智能训练师（高级）

在这里插入图片描述

4.观看课程——硬拉没用，得老老实实看，可以2倍速

注：如果觉得慢，可以四个视频同时2倍速播放

在这里插入图片描述

5.看完视频记得刷新——确保显示已学完

在这里插入图片描述

6.开始认证考试

在这里插入图片描述

7.参考答案——题的顺序不一致，但是选项顺序一致

单选题

1、题目：TTS 流程中的哪个模块容易造成读音错误

选项：
A. 分词模型
B. 停顿模型
C. 获取读音
D. 分句模块
答案：C

2、题目：以下说法正确的是

选项：
A. 质量更高的数据可以训练出更好的模型
B. 同一模型中训练数据的样本需要有一定的平衡
C. 训练样本中的数据标签的正确性会影响到模型的准确率
D. 以上都对
答案：D

3、题目：什么情况下 CER 字错误率会超过 100%

选项：
A. 删除错误较多的时候
B. 插入错误较多的时候
C. 替换错误较多的时候
D. 以上都对
答案：B

4、题目：构建数据标签的时候以下说法正确的是

选项：
A. 构建数据标签的时候只需要保证正例样本正确
B. 构建数据标签的时候不需要有负例的样本
C. 构建数据标签的时候需要考虑业务 / 行业等属性，需要有一定的业务知识
D. 构建数据标签范围越小越好
答案：C

5、题目：请从以下语料中找出标签分类不一致的句子

选项：
A. 我忘记密码了
B. 输了好多次都提示密码错误
C. 为什么总是提示密码错误
D. 如何设置密码
答案：D

6、题目：总数据量为 10，模型预测有结果的为 6 条，无结果的为 4 条，其中 6 条有结果的数据中预测正确的是 5 条，模型准确率是多少，精确率是多少

选项：
A. 准确率为 50%，精确率为 83.3%
B. 准确率为 83.3%，精确率为 50%
C. 准确率为 50%，精确率为 50%
D. 准确率为 83.3%，精确率为 83.3%
答案：A

7、题目：以下哪类是属于多标签分类

选项：
A. 垃圾邮件判别 —— 是 / 否
B. 情绪识别 —— 愤怒 / 高兴 / 平静
C. 新闻主题标签 —— 体育，C 罗，欧冠
D. 以上都是
答案：C
单选题

8、题目：TTS 中通常把数字变成汉字是发生在哪个模块

选项：
A. 文本归整模块
B. 停顿模型
C. 获取读音
D. 分句模块
答案：A

9、题目：以下针对数据优化的说法正确的是

选项：
A. 增加的数据量越多越好
B. 增加数据的质量越高对模型的效果越好
C. 增加的数据类型越丰富越好
D. 模型的正负样本量不影响模型效果
答案：B

10、题目：模型的召回率如何计算

选项：
A. RECALL = TP / (TP + FN)
B. RECALL = TP / (TP + FP)
C. RECALL = (TP + TN) / (TP + FP)
D. RECALL = (TP + TN) / (TP + FP + TN)
答案：A

11、题目：表示实际语音中有，识别结果里面有，但是字错误了，这种是属于识别错误中的哪种错误

选项：
A. 插入错误
B. 删除错误
C. 替换错误
D. 识别错误
答案：C

12、题目：小男孩 2 岁了，第 1 次和奶奶一起旅行。以上这段话经过文本正则，归整后的结果是 ()

选项：
A. 小男孩两岁了，第一次和奶奶一起旅行
B. 小男孩二岁了，第一次和奶奶一起旅行
C. 小男孩 2 岁了，第 1 次和奶奶 1 起旅行
D. 小男孩两岁了，第 1 次和奶奶一起旅行
答案：A

13、题目：请计算以下样本的字准确率是多少？标注：我最喜欢的运动是排球；识别：吾最喜爱的运动是拍球哦

选项：
A. 0.6
B. 0.4
C. 0.7
D. 0.3
答案：A

14、题目：如果不考虑业务场景的情况下，以下哪个标签与原始文本内容从相关性，定义范围，确定性等方面综合考虑，最合适的是哪一组

选项：
A. 账户登录不上了？-> 账户被盗
B. 怎么还不回复我？-> 催促
C. 怎么恢复我的聊天记录内容 -> 恢复钉钉内容
D. 怎么开发票呀 -> 开票流程
答案：D

15、题目：以下哪些场景适用分类模型解决

选项：
A. 开发票流程
B. 反馈电话号码
C. 反馈订单编号
D. 发送宝贝链接
答案：A

16、题目：通过 SSML 标记（）文本内容，可以控制（）语音生成的许多方面

选项：
A. 标准，简单
B. 标准，复杂
C. 格式化，合成
D. 通用性，合成
答案：C

17、题目：书箱分类的标签算是哪种分类任务

选项：
A. 二分类
B. 多分类
C. 多标签分类
D. 多模态
答案：C

18、题目：以下说法错误的是

选项：
A. 方言模型需要先从底层的词典建设开始
B. 重口音的问题可以通过加强声学模型训练
C. 方言不同于重口音，所以优化方式也不一样
D. 方言问题可以加强优化声学模型来解决
答案：D

19、题目：针对 “南京市长江大桥” 这句话分词正确的是

选项：
A. 南京 / 市长 / 江大桥
B. 南京市 / 长江大桥
C. 南京 / 市 / 长江 / 大桥
D. 南京 / 市 / 长江 / 大 / 桥
答案：B

20、题目：如何提升数据的质量以下说法正确的是

选项：
A. 没有噪音数据
B. 训练数据样本平衡
C. 负向样本充足，种类丰富
D. 以上都是
答案：D

判断题

21、题目：声音转文字如果没有达到 100%，说明这个模型不行

选项：
A. 正确
B. 错误
答案：B

22、题目：文本语言生成在神经网络模型上存在一字随机性，但风险是可控的

选项：
A. 正确
B. 错误
答案：B

23、题目：ASR 的模型识别的是所有说普通话的语音，他不对人做区别，而 TTS 是千人千面的，每一个人的声音都不一样

选项：
A. 正确
B. 错误
答案：A

24、题目：用户画像是属于多标签分类

选项：
A. 正确
B. 错误
答案：A

25、题目：数据标记时只能对原始数据添加一个标签

选项：
A. 正确
B. 错误
答案：B

26、题目：TTS 语速太快我需要将其调整慢，我可以通过调整 speech_rate 的值来调整语速的快慢

选项：
A. 正确
B. 错误
答案：A

27、题目：召回率 (Recall Rate，也叫查全率) 是检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率

选项：
A. 正确
B. 错误
答案：A

28、题目：分类任务有：二分类，多分类，多标签分类

选项：
A. 正确
B. 错误
答案：A

29、题目：删除错误是指实际语音中有，识别结果里没有

选项：
A. 正确
B. 错误
答案：A

30、题目：SSML 是语音合成标记语言，它是 W3C 的语音接口框架的一部分

选项：
A. 正确
B. 错误
答案：A

多选题

31、题目：TTS 常见的错误有（）和（）

选项：
A. 拼写错误
B. 识别错误
C. 读音错误
D. 停顿错误
答案：C、D

32、题目：以下哪些算是没有噪音的数据

选项：
A. ……
B. 好了哦
C. 去火车站怎么走
D. 今天天气怎么样
答案：C、D

33、题目：如何建立语音评测集

选项：
A. 一般需要 1 - 2 小时的有效数据
B. 一般数据是能反应业务的真实数据
C. 只需要有语音内容
D. 一般数据会存在一定的随机性，代表性
答案：A、B、D

34、题目：如何得到质量更高的数据

选项：
A. 类与类之间的边界清晰
B. B 类型是 A 类别的子项，且 A 与 B 同时存在与一个模型
C. A 类别数据丰富，B 类别只有十几条数据
D. 整理了正向样本的同时也输入了丰富的负向样本
答案：A、D