【关注】AI语音技术:行善还是作恶

张田勘 中国报业 2019-09-06
点击“中国报业”关注我哟

《中国报业》杂志与您探讨传媒业的现状与未来

 
随着AI技术的发展,AI语音技术也在突飞猛进换代升级。现在,科大讯飞、搜狗等科技公司相继发布了语音合成技术的应用。通过AI手段,用户可以1秒变声为社会名人或者其他想要模仿的声音。

 

AI变声技术有短板

AI的这种音色迁移技术可称为变声技术。比起AI之前的语音服务,如导航、智能音箱、问题解读等,变声技术是AI语音技术的重要升级。如果说之前的AI语音服务还在追求以什么样的语音以及如何使AI语音更像人的声调和音色,为用户和公众提供更好的服务,那么现在的AI变声技术则进一步扩大了AI的应用范围,既有可能让AI语音更好为公众服务,也有可能让AI语音步入歧途,成为诈骗的工具。前者是向善和行善,后者是从恶和行恶。

AI的变声技术是一种逼真的语音合成技术,它的基础是神经网络和机器学习。神经网络模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理,从大量样本数据中总结出共同特征,再通过机器学习模拟特定人的声音,达到以假乱真的效果。显然,这样的变音技术有很多用武之地,凡是可以采用语音或有声服务的地方,都可能获得这类服务和应用,如语音交互、有声读物、新媒体、智能客服、大众娱乐等。不过,AI变声技术短板明显,如果有人利用这种技术向任何人打电话以扮演其亲人、朋友、同事、上级的声音,就会让人难以辨别真假。

 

“闻声识人”技术显本领

不过,与AI变声技术相似的另一种AI语音技术似乎向善的成分大一些,这就是“讲话到面孔”技术,也可称为“闻声识人”技术。研究人员设计了一种智能软件,把网上收集的数百万段教学和音像视频中每个人的面部特征与其讲话的声音特点匹配和相连,形成一种可供计算机学习的大数据,通过深度学习,这种智能软件仅仅通过听一个人的声音就可以画出(显示)其相貌,而且八九不离十,但现在这种软件还不成熟。

“讲话到面孔”的AI语音技术完全可以应用到刑事鉴识中,可以与较早的模拟画像技术一道成为刑事鉴识的补充技术。模拟画像技术是基于找不到嫌疑人的影视资料、声音和照片,或者是嫌疑人的图像很模糊,只能通过受害人或目击者的口述,由刑侦人员画出嫌疑人的相貌。201769日,克里斯滕森杀害中国访问学者章莹颖,在案件侦查之初,美国联邦调查局(FBI)就向擅长模拟画像的中国警官林宇辉发出邀请,请他协助画出嫌犯的画像,而当时能提供的嫌犯图片就来自街边监控摄像头上的模糊截图。

 

如何使用技术是关键

无论是AI变声技术,还是“讲话到面孔”的AI语音技术,都是AI语音技术的升级。技术是中立的,关键在于如何使用这类技术。在这类技术应用于社会生活和工作之前,制定对其严格的管理措施极为紧迫和必须。

20194月,全国人大常委会审议的《民法典人格权编(草案)》里加了一条规定:任何组织和个人不得以利用信息技术手段伪造的方式侵害他人的肖像权。同样,如果AI语音技术发展了,也应当加上不得以信息技术手段伪造的方式侵害他人的声音权,同时要单独在人工智能立法中涉及AI合成不得侵犯他人的肖像权、声音权等。任何未经授权的合成肖像、合成音频均属于侵权违法行为。

尽管如此,还是需要有一部明确的法律来规范包括语音、肖像等在内的AI新产品和应用,使其只能向善行善,而非向恶行恶。

(《北京青年报》 供稿


版权归原创者所有,如有侵权请及时联系!


责编:董硕 审核:李德金


来源:《中国报业》杂志8月(上)


推荐

物联网:都市报的掘金时代

探究5G时代媒体融合发展策略

因地制宜推进县级融媒体建设创新实践

《长春晚报》创刊30周年致读者:而立而新

投资36亿元,打造智慧型媒体产业园

人工智能:开启知识服务新业态

中央厨房的创新模式与传播生态重构

技术主义视域下媒体融合的嬗变与回归

以自我革命推动媒体融合实现质变

重报集团撤销15个经营单位 打造新型都市传媒

从内容运营视角看中国媒体融合之路

用融合发展夯实全媒体传播的主阵地与基本盘

订阅《中国报业》杂志:

1.可关注《中国报业》公众号,点击对话框中“业务互动”→“杂志订阅”标题栏微信支付完成订阅;

2.邮局订阅,邮发代号:82-300,上、下半月刊每本16元,全年定价384元;

3.确认开票电话/传真:010-6536


    已同步到看一看

    发送中

    本站仅按申请收录文章,版权归原作者所有
    如若侵权,请联系本站删除
    觉得不错,分享给更多人看到