張?zhí)锟?/p>
AI語音技術(shù)是AI的一個(gè)分支,隨著AI技術(shù)的發(fā)展,AI語音技術(shù)也在突飛猛進(jìn)換代升級(jí)?,F(xiàn)在,科大訊飛、搜狗等科技公司相繼發(fā)布了語音合成技術(shù)的應(yīng)用。通過AI手段,用戶可以一秒變聲為社會(huì)名人或者其他想要模仿的聲音。
AI的這種音色遷移技術(shù)可稱為變聲技術(shù),可以將任何人的聲音轉(zhuǎn)換成特定人的聲音(Any-to-One)。與國(guó)內(nèi)的IT公司比較起來,搜狗公司的AI變聲功能已經(jīng)達(dá)到實(shí)用的階段。搜狗CEO王小川在一場(chǎng)大會(huì)上進(jìn)行了展示。通過手機(jī)軟件,王小川用AI變聲模擬了高曉松和東北妹子的聲音,引得現(xiàn)場(chǎng)連連發(fā)笑。
比起AI之前的語音服務(wù),如導(dǎo)航、智能音箱、問題解讀等,變聲技術(shù)是AI語音技術(shù)的重要升級(jí),如果說之前的AI語音服務(wù)還在追求以什么樣的語音,以及如何使AI的語音更像人的聲調(diào)和音色為用戶和公眾提供更好的服務(wù),那么現(xiàn)在的AI變聲技術(shù)則進(jìn)一步擴(kuò)大了AI的應(yīng)用范圍,既有可能讓AI語音更好為公眾服務(wù),也有可能讓AI語音步入歧途,成為詐騙的工具。前者是向善和行善,后者是從惡和行惡。
AI的變聲技術(shù)是一種逼真的語音合成技術(shù),它的基礎(chǔ)是神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)模擬電信號(hào)在人腦神經(jīng)元之間的傳遞過程,對(duì)輸入數(shù)據(jù)進(jìn)行處理,從大量樣本數(shù)據(jù)中總結(jié)出共同特征,再通過機(jī)器學(xué)習(xí)模擬特定人的聲音,達(dá)到以假亂真的效果。顯然,這樣的變音技術(shù)有很多用武之地,凡是可以采用語音或有聲服務(wù)的地方,都可能獲得這類服務(wù)和應(yīng)用,如語音交互、有聲讀物、新媒體、智能客服、大眾娛樂等。不過,AI變聲技術(shù)的短板也是顯著的,如果有人利用這種技術(shù)向任何特定的人打電話以扮演其親人、朋友、同事、上級(jí)的聲音,就會(huì)讓人難以辨別真假。
不過,與AI變聲技術(shù)相似的另一種AI語音技術(shù)似乎向善的成分大一些,這就是“講話到面孔”技術(shù),也可稱為“聞聲識(shí)人”技術(shù)。研究人員設(shè)計(jì)了一種智能軟件,把網(wǎng)上搜集的數(shù)百萬段教學(xué)和音像視頻中的每個(gè)人的面部特征與其講話的聲音特點(diǎn)匹配和相聯(lián),形成一種可供計(jì)算機(jī)學(xué)習(xí)的大數(shù)據(jù),通過深度學(xué)習(xí),這種智能軟件僅僅通過聽一個(gè)人的聲音就可以畫出(顯示)其相貌,而且八九不離十,但是,現(xiàn)在這種軟件還不成熟。
“講話到面孔”的AI語音技術(shù)完全可以應(yīng)用到刑事鑒識(shí)中,可以與較早的模擬畫像技術(shù)一道成為刑事鑒識(shí)的補(bǔ)充技術(shù)。模擬畫像技術(shù)是基于找不到嫌疑人的影視資料、聲音和照片,或者是嫌疑人的圖像很模糊,只能通過受害人或目擊者的口述,由刑偵人員畫出嫌疑人的相貌。2017年6月9日,克里斯滕森殺害中國(guó)訪問學(xué)者章瑩穎,在案件偵查之初,美國(guó)聯(lián)邦調(diào)查局(FBI)就向擅長(zhǎng)模擬畫像的中國(guó)警官林宇輝發(fā)出邀請(qǐng),請(qǐng)他協(xié)助畫出嫌犯的畫像,而當(dāng)時(shí)能提供的嫌犯圖片就來自街邊監(jiān)控?cái)z像頭上的模糊截圖。
無論是AI變聲技術(shù),還是“講話到面孔”的AI語音(聞聲識(shí)人)技術(shù),都是AI語音技術(shù)的升級(jí)。技術(shù)是中立的,關(guān)鍵在于如何使用這類技術(shù)。在這類技術(shù)應(yīng)用于社會(huì)生活和工作之前,制定對(duì)其嚴(yán)格管理的措施極為緊迫和必須。
2019年4月,全國(guó)人大常委會(huì)審議的《民法典人格權(quán)編(草案)》里加了一條規(guī)定:任何組織和個(gè)人不得以利用信息技術(shù)手段偽造的方式侵害他人的肖像權(quán)。同樣,如果AI語音技術(shù)發(fā)展了,也應(yīng)當(dāng)加上不得以信息技術(shù)手段偽造的方式侵害他人的聲音權(quán),同時(shí)要單獨(dú)在人工智能立法中涉及AI合成不得侵犯他人的肖像權(quán)、聲音權(quán)等。任何未經(jīng)授權(quán)的合成肖像、合成音頻均屬于侵權(quán)違法行為。
盡管如此,還是需要有一部明確的法律來規(guī)范包括語音、肖像等在內(nèi)的AI新產(chǎn)品和應(yīng)用,使其只能向善行善,而非向惡行惡。漫畫/陳彬
已有0人發(fā)表了評(píng)論
您需要登錄后才可以評(píng)論,登錄| 注冊(cè)