阿里巴巴达摩院人工智能训练师(高级)
阿里颁发的证书,找“橙点同学”
一共有五个视频课程,全部上完后即可参加考试~
考试一共34题,可以考两次,第一次不过的话没关系,可以看题析之后再考~
基本上题目都一样的,但顺序会变化哦~
1.打开浏览器搜索网站——橙点同学 (orange-class.com)
2.登录账号并修改个人信息——实名本人及学校,用于证书填写
3.返回主页,点击获得认证——人工智能训练师(高级)
4.观看课程——硬拉没用,得老老实实看,可以2倍速
注:如果觉得慢,可以四个视频同时2倍速播放
5.看完视频记得刷新——确保显示已学完
6.开始认证考试
7.参考答案——题的顺序不一致,但是选项顺序一致
单选题
1、题目:TTS 流程中的哪个模块容易造成读音错误
选项:
A. 分词模型
B. 停顿模型
C. 获取读音
D. 分句模块
答案:C
2、题目:以下说法正确的是
选项:
A. 质量更高的数据可以训练出更好的模型
B. 同一模型中训练数据的样本需要有一定的平衡
C. 训练样本中的数据标签的正确性会影响到模型的准确率
D. 以上都对
答案:D
3、题目:什么情况下 CER 字错误率会超过 100%
选项:
A. 删除错误较多的时候
B. 插入错误较多的时候
C. 替换错误较多的时候
D. 以上都对
答案:B
4、题目:构建数据标签的时候以下说法正确的是
选项:
A. 构建数据标签的时候只需要保证正例样本正确
B. 构建数据标签的时候不需要有负例的样本
C. 构建数据标签的时候需要考虑业务 / 行业等属性,需要有一定的业务知识
D. 构建数据标签范围越小越好
答案:C
5、题目:请从以下语料中找出标签分类不一致的句子
选项:
A. 我忘记密码了
B. 输了好多次都提示密码错误
C. 为什么总是提示密码错误
D. 如何设置密码
答案:D
6、题目:总数据量为 10,模型预测有结果的为 6 条,无结果的为 4 条,其中 6 条有结果的数据中预测正确的是 5 条,模型准确率是多少,精确率是多少
选项:
A. 准确率为 50%,精确率为 83.3%
B. 准确率为 83.3%,精确率为 50%
C. 准确率为 50%,精确率为 50%
D. 准确率为 83.3%,精确率为 83.3%
答案:A
7、题目:以下哪类是属于多标签分类
选项:
A. 垃圾邮件判别 —— 是 / 否
B. 情绪识别 —— 愤怒 / 高兴 / 平静
C. 新闻主题标签 —— 体育,C 罗,欧冠
D. 以上都是
答案:C
单选题
8、题目:TTS 中通常把数字变成汉字是发生在哪个模块
选项:
A. 文本归整模块
B. 停顿模型
C. 获取读音
D. 分句模块
答案:A
9、题目:以下针对数据优化的说法正确的是
选项:
A. 增加的数据量越多越好
B. 增加数据的质量越高对模型的效果越好
C. 增加的数据类型越丰富越好
D. 模型的正负样本量不影响模型效果
答案:B
10、题目:模型的召回率如何计算
选项:
A. RECALL = TP / (TP + FN)
B. RECALL = TP / (TP + FP)
C. RECALL = (TP + TN) / (TP + FP)
D. RECALL = (TP + TN) / (TP + FP + TN)
答案:A
11、题目:表示实际语音中有,识别结果里面有,但是字错误了,这种是属于识别错误中的哪种错误
选项:
A. 插入错误
B. 删除错误
C. 替换错误
D. 识别错误
答案:C
12、题目:小男孩 2 岁了,第 1 次和奶奶一起旅行。以上这段话经过文本正则,归整后的结果是 ()
选项:
A. 小男孩两岁了,第一次和奶奶一起旅行
B. 小男孩二岁了,第一次和奶奶一起旅行
C. 小男孩 2 岁了,第 1 次和奶奶 1 起旅行
D. 小男孩两岁了,第 1 次和奶奶一起旅行
答案:A
13、题目:请计算以下样本的字准确率是多少?标注:我最喜欢的运动是排球;识别:吾最喜爱的运动是拍球哦
选项:
A. 0.6
B. 0.4
C. 0.7
D. 0.3
答案:A
14、题目:如果不考虑业务场景的情况下,以下哪个标签与原始文本内容从相关性,定义范围,确定性等方面综合考虑,最合适的是哪一组
选项:
A. 账户登录不上了?-> 账户被盗
B. 怎么还不回复我?-> 催促
C. 怎么恢复我的聊天记录内容 -> 恢复钉钉内容
D. 怎么开发票呀 -> 开票流程
答案:D
15、题目:以下哪些场景适用分类模型解决
选项:
A. 开发票流程
B. 反馈电话号码
C. 反馈订单编号
D. 发送宝贝链接
答案:A
16、题目:通过 SSML 标记()文本内容,可以控制()语音生成的许多方面
选项:
A. 标准,简单
B. 标准,复杂
C. 格式化,合成
D. 通用性,合成
答案:C
17、题目:书箱分类的标签算是哪种分类任务
选项:
A. 二分类
B. 多分类
C. 多标签分类
D. 多模态
答案:C
18、题目:以下说法错误的是
选项:
A. 方言模型需要先从底层的词典建设开始
B. 重口音的问题可以通过加强声学模型训练
C. 方言不同于重口音,所以优化方式也不一样
D. 方言问题可以加强优化声学模型来解决
答案:D
19、题目:针对 “南京市长江大桥” 这句话分词正确的是
选项:
A. 南京 / 市长 / 江大桥
B. 南京市 / 长江大桥
C. 南京 / 市 / 长江 / 大桥
D. 南京 / 市 / 长江 / 大 / 桥
答案:B
20、题目:如何提升数据的质量以下说法正确的是
选项:
A. 没有噪音数据
B. 训练数据样本平衡
C. 负向样本充足,种类丰富
D. 以上都是
答案:D
判断题
21、题目:声音转文字如果没有达到 100%,说明这个模型不行
选项:
A. 正确
B. 错误
答案:B
22、题目:文本语言生成在神经网络模型上存在一字随机性,但风险是可控的
选项:
A. 正确
B. 错误
答案:B
23、题目:ASR 的模型识别的是所有说普通话的语音,他不对人做区别,而 TTS 是千人千面的,每一个人的声音都不一样
选项:
A. 正确
B. 错误
答案:A
24、题目:用户画像是属于多标签分类
选项:
A. 正确
B. 错误
答案:A
25、题目:数据标记时只能对原始数据添加一个标签
选项:
A. 正确
B. 错误
答案:B
26、题目:TTS 语速太快我需要将其调整慢,我可以通过调整 speech_rate 的值来调整语速的快慢
选项:
A. 正确
B. 错误
答案:A
27、题目:召回率 (Recall Rate,也叫查全率) 是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率
选项:
A. 正确
B. 错误
答案:A
28、题目:分类任务有:二分类,多分类,多标签分类
选项:
A. 正确
B. 错误
答案:A
29、题目:删除错误是指实际语音中有,识别结果里没有
选项:
A. 正确
B. 错误
答案:A
30、题目:SSML 是语音合成标记语言,它是 W3C 的语音接口框架的一部分
选项:
A. 正确
B. 错误
答案:A
多选题
31、题目:TTS 常见的错误有()和()
选项:
A. 拼写错误
B. 识别错误
C. 读音错误
D. 停顿错误
答案:C、D
32、题目:以下哪些算是没有噪音的数据
选项:
A. ……
B. 好了哦
C. 去火车站怎么走
D. 今天天气怎么样
答案:C、D
33、题目:如何建立语音评测集
选项:
A. 一般需要 1 - 2 小时的有效数据
B. 一般数据是能反应业务的真实数据
C. 只需要有语音内容
D. 一般数据会存在一定的随机性,代表性
答案:A、B、D
34、题目:如何得到质量更高的数据
选项:
A. 类与类之间的边界清晰
B. B 类型是 A 类别的子项,且 A 与 B 同时存在与一个模型
C. A 类别数据丰富,B 类别只有十几条数据
D. 整理了正向样本的同时也输入了丰富的负向样本
答案:A、D