语音识别中的性别平等固有挑战

来自男性和女性讲话者的语音样本的差分错误率使得训练AI系统识别同样困难的Rao写入,并且这个问题通常由诸如MFCC(Mel频率倒谱系数)的常用技术加剧。
平均基频或平均F0与男性感知有关,通常男性为120Hz左右,女性为200Hz左右,也可以依赖种族,吸烟,疾病等因素。拉奥还指出,平均F0中的性别概念仅限于青春期时的生物性别。
他写道:“设计时没有考虑到这个问题的程度的语音系统会使已经非常困难的问题变得更糟。 “幸运的是,利用最近的语音深度模型,我们可以构建模型,直接从原始波形中学习,投射大量数据并进行计算,并希望模型具有足够的容量来可靠编码特定于类别的变体。这是吸引人的,但也比那些一直推出新技术的小型创业公司更受青睐。但是有足够的想法,许多这些过度配置的深层模型可能会被更简单的深层模型所取代。“
Kaggle数据准备分析师Rachael Tatman告诉The Registerthat表示,虽然MFCC对女性言语建模的本质不是那么低效,“女性的听觉信号稍差,它更容易被噪音掩盖,如粉丝或背景中的交通,这使得语音识别系统更难。这会影响你用于声学建模的任何东西,这就是MFCC的用途。“
Rao认为,随着像苹果Siri这样的语音激活数字助理的日益普及,应该寻求女性言语研究者关于生产语音模型的意见,以及如何改进它们。
面部识别系统已被证明对女性和肤色较暗的人表现较不准确,导致国会小组委员会为指导政府应用AI而考虑到这个问题。