日韩av大片在线观看欧美成人不卡|午夜先锋看片|中国女人18毛片水多|免费xx高潮喷水|国产大片美女av|丰满老熟妇好大bbbbbbbbbbb|人妻上司四区|japanese人妻少妇乱中文|少妇做爰喷水高潮受不了|美女人妻被颜射的视频,亚洲国产精品久久艾草一,俄罗斯6一一11萝裸体自慰,午夜三级理论在线观看无码

| 注冊| 產(chǎn)品展廳| 收藏該商鋪

行業(yè)產(chǎn)品

當(dāng)前位置:
深圳市阿美泰克技術(shù)有限公司>>技術(shù)文章>>語音不在是人類的獨享

語音不在是人類的獨享

閱讀:1985        發(fā)布時間:2019-6-6

亞里士多德曾說,,聲音是靈魂的鏡子。聲音是人類*的表達方式,它是我們身份的一部分,。語調(diào)的抑揚頓挫可以流露出一個人的個性和情緒,。

曾經(jīng)只有人類才能說話。但是,,時過境遷,,在過去的20年里,合成語音發(fā)展神速,,目前,,合成語音已經(jīng)成為數(shù)字技術(shù)和相關(guān)經(jīng)濟產(chǎn)業(yè)的重頭戲了。合成語音是人機交互的基石,,它賦予機器“形象”和“靈魂”,,讓機器具有“個性”。在不遠的未來,,從口袋里的手機開始,,合成語音將變得無處不在,我們甚至可能無法區(qū)分合成語音和真人語音的差別,。

語音不再是人類的獨享,。機器合成的語音已經(jīng)可以和真人的相媲美了。

 

競爭核心

 

數(shù)字技術(shù)*谷歌,、蘋果,、微軟和亞馬遜是合成語音領(lǐng)域的重量級選手,它們把大量資金投入了與合成語音相關(guān)的技術(shù)研發(fā)領(lǐng)域,。我們的智能手機已經(jīng)能夠聽懂語音指令,,并用合成語音回應(yīng)我們的問題了。

 

 

合成語音未來將會融入私人助理技術(shù),,也就是為我們服務(wù),,成為幫助我們控制家中聯(lián)網(wǎng)設(shè)備的人工智能。它們總是能隨時隨地傾聽我們的愿望,、滿足我們的需求,。像谷歌助理I/O、蘋果的Siri,、微軟的小娜(Cortana)和亞馬遜的Alexa就是這樣的例子,。

 

在*范圍內(nèi),有許多大學(xué)的實驗室都在研究這個課題,,例如英國劍橋大學(xué),、愛丁堡大學(xué)、美國的卡耐基梅隆大學(xué),、日本的奈良先端科學(xué)技術(shù)大學(xué)院大學(xué),。在這些選手中,,位于法國巴黎的聲學(xué)、音樂研究和協(xié)作學(xué)院(簡稱Ircam)憑借對技術(shù)創(chuàng)新和文化藝術(shù)的獨到融合,,脫穎而出,。這所學(xué)院的獨到之處是已經(jīng)將合成語音應(yīng)用到了娛樂和內(nèi)容生產(chǎn)(如音樂、電影和電子游戲)的多個領(lǐng)域中,。

 

雖然數(shù)字領(lǐng)域的*和一些實驗室一直對標(biāo)準(zhǔn)式合成語音的應(yīng)用感到沾沾自喜,,但是Ircam的研究人員卻另辟蹊徑,從80年代開始就致力于讓合成語音更具真人的特征:他們讓合成語音也具有聲紋,、語氣,、個性和表現(xiàn)力。

近10年里,,Ircam的聲音分析和合成團隊也取得了重大突破,。得益于該團隊的研究,合成語音變得不再呆板機械,,變得更加自然,、更富有表現(xiàn)力。而撐起這個質(zhì)的飛躍的,,是信號處理,、機器學(xué)習(xí)和語言學(xué)的一系列進步。

目前的語音分析和合成算法已實現(xiàn)升級,,它們能夠更加忠實地還原人的聲紋,。另外,我們對語音的韻律,,以及它和句法之間的關(guān)系有了更深入的了解,,這讓合成語音變得更加自然。

后,,新近引入的機器學(xué)習(xí),,以及計算能力的快速提升都對相應(yīng)技術(shù)的飛速發(fā)展起到了決定性的作用。目前,,在語音數(shù)據(jù)庫中,,每個樣本都存儲著一個人數(shù)小時的錄音,而一個數(shù)據(jù)庫通常會儲存著數(shù)以千計的樣本,,也就是數(shù)以千計的人聲。正是由于這些積累,,現(xiàn)在的機器已經(jīng)能夠像人一樣開口說話了,。




現(xiàn)在,有許多制片廠都在使用Ircam研發(fā)的軟件,。利用這些軟件,,人們能夠定制語音的聲紋,、語氣、身份和個性,。比如,,這些軟件能夠輕而易舉地將男人的聲音變成女人的,把年輕人的聲音變得老態(tài)龍鐘,,或是將老人的聲音變得年輕,。

用這類軟件也能把一個人的聲音變成另一個人的。我們的計算機和智能手機就能通過這個軟件合成生動自然,、具有個性的語音,,它們甚至能夠幫我們朗讀任何文本。

未來,,我們還能讓無法開口說話的人也發(fā)出聲音,,或者讓機器模仿一個人的聲音說外語。以后,,我們就能像換發(fā)型一樣隨意變聲,,或者和擁有嗓音的機器人自然流暢地交談。

這些科技進步無疑會成為科技和商業(yè)競爭的核心,,還有倫理討論的焦點,。而要實現(xiàn)這些進步,研究人員必須先理解人類語音的*性,,并做到善加利用,。


雕刻語音

每個人的語音身份由兩個要素構(gòu)成:音色和韻律。要改變一個人的聲音,,就要對這兩個要素進行建模,,這樣才能復(fù)制或者改變一個人的語音。2010年,,Ircam的研究人員就研發(fā)了一款名為IrcamTools TRAX的軟件,,它就能實現(xiàn)這樣的功能。


這款軟件能夠?qū)︿浺艋蛘咴捦仓械穆曇粜盘栠M行數(shù)字處理,。在調(diào)低或者調(diào)高音高后,,聲音就會變得更低沉或更尖銳。它也能進行數(shù)字濾波,,改變語音的音色,。通過這款軟件,使用者能夠輕而易舉地讓聲音變性,,或者把中年人的聲音變成少年或是老年人的,。

實際上,由于具有不同的生理特征(身高,、身材胖瘦),,男性和女性發(fā)音器官也有差異,,這會影響他們發(fā)出的聲音。男性的聲帶更長(17~25毫米),,聲道也更長(平均17厘米),。這樣的生理特征使得男性的音高更低(70~160Hz),音色也更低沉,。

女性的聲帶(12.5~17.5毫米)和聲道(平均14厘米)均更短,。因此女性的音高更高(130~300Hz),音色更“尖銳”,。另外,,一個的人的聲音和身體一樣會隨著年齡的增加而變化。一個人的嗓音在青少年時更尖細,,成年以后音色就會變得低沉,,到了老年卻又會變得尖細。

通過這些基本原理,,軟件可以調(diào)整聲音的音高和音色從而讓人產(chǎn)生錯覺,,以為說話的人變了性別或是改變了年紀。想要復(fù)制老年人*的嗓音(比如顫音),,就需要對數(shù)字處理做進一步的修飾,。上了年紀的人的發(fā)音器官一般不太靈便:他們的聲帶松弛,因此說話時喘鳴聲更重,,而且時常會失聲發(fā)出顫音,。

讓人驚訝的是,這種軟件能夠創(chuàng)造出不是天然存在的聲音,,比如它能讓獅子說人話,。這種的秘訣在于將人的語音和獅子的吼叫聲混合在一起,用獅子的聲帶聲紋特征代替人的,,同時保留人的共鳴腔聲效,。處理后的音效簡直讓人目瞪口呆:我們可以清楚地聽到一個人在說話,但是他的聲音里卻帶著獅子的喘鳴和低吼聲,。

電影和動畫行業(yè)的制片工程師經(jīng)常使用這種方法來處理演員的聲音,,或者為虛構(gòu)角色配音。現(xiàn)在,,這些工程師的技術(shù)已經(jīng)更進一步,,能夠復(fù)制演員或者歷史人物的聲音了。在Ircam,,經(jīng)常有人請求我們用留存的聲音資料復(fù)活故人的聲音,。


用別人的嗓子說話

韻律和音色可以用來區(qū)別不同人的特色。但是,當(dāng)一個人模仿別人說話時,,這兩個嗓音特征會起到什么樣的作用?當(dāng)一個人(愛麗絲)模仿另一個人(伯納德)說話時,,其實她主要模仿的是伯納德語音的韻律,。


要想模仿別人的音色不是一件容易的事。因為人的聲道尺寸是由生理決定的,,每個人都不同,。所以,即使是才華橫溢的模仿高手,,也無法地復(fù)制另一個人的音色,,僅能大致模仿他說話的韻律。

想要真實地還原一個人的嗓音,,就必須復(fù)制他的音色,。首先,要用伯納德(被模仿者)的錄音建立一套“語音面具”,,然后為愛麗絲(模仿者)的聲音戴上這種“語音面具”,。

這樣看來,要復(fù)制一個人的嗓音,,就必須先收集這個人的錄音,,組成一個數(shù)據(jù)庫。這些數(shù)據(jù)會被切成音素,,做進一步分析,,然后組合出被復(fù)制者的聲學(xué)特征。具體來說,,每個音素都有一個“語音面具”(一種聲音濾波器),,它能夠調(diào)節(jié)聲音中不同頻率成分的強度比例。

在轉(zhuǎn)換聲音身份的時候,,只需要將“語音面具”復(fù)制粘貼即可,。針對愛麗絲的每個音素,系統(tǒng)都會在伯納德的聲音數(shù)據(jù)庫中挑選相應(yīng)的音素濾波器,,從而進行替換,。

在愛麗絲的聲音數(shù)據(jù)庫中,相應(yīng)的算法會挑選使轉(zhuǎn)換聽起來逼真的聲音濾波器序列,。在經(jīng)過一系列操作和處理后,,愛麗絲的聲音就有了伯納德的音色。

這個技術(shù)面世后的應(yīng)用就是在電影中再現(xiàn)瑪麗蓮·夢露(Marilyn Monroe,,《瑪麗蓮》(Marilyn)的嗓音,,隨后,又在多部電影中重現(xiàn)了多位歷史人物的對白,。

比如要模仿喜劇演員路易·德菲內(nèi)斯,,演員就要模仿他的韻律按照劇本的人物臺詞表演,,此時的聲音會被分段記錄下來。與此同時,,研究人員還利用德菲內(nèi)斯的歷史錄音建立起一個長達十分鐘的數(shù)據(jù)庫,。

通過這個數(shù)據(jù)庫和剛才的一系列處理手段,研究人員就可以利用德菲內(nèi)斯的聲音特征將演員的音色轉(zhuǎn)化成他的樣子,。而德菲內(nèi)斯發(fā)出的聲音就像是近才錄的,,但其實,聲音的原材料都來自他在70年代拍的電影,。


聲音拼圖

Ircam 的研究人員通過合成語音拓展了語音處理的邊界?,F(xiàn)在,用錄音改變一個人聲音的技術(shù)已經(jīng)成熟,,如何用合成語音來朗讀任意文本卻成了大的問題,。


要考據(jù)合成語音的歷史,可以追溯到18世紀,。那時已經(jīng)出現(xiàn)了汽車和可以發(fā)音的機器了,。進入20世紀后,電力的出現(xiàn)讓這些機器變得更先進,、更,,1939年由貝爾實驗室制造的VODER(語音操作演示器)就是其中一例。當(dāng)計算機出現(xiàn)后,,一切又變得自動化了,。

目前,語音合成系統(tǒng)已經(jīng)*實現(xiàn)了自動化,,它們能夠讓數(shù)字聲音具有個性,。語音合成在本質(zhì)上依賴的是語音數(shù)據(jù)庫,如果要生成合成語音,,只需要幾個小時的真人錄音就可以了,。

語音合成和語音轉(zhuǎn)換不同,它不僅要轉(zhuǎn)換現(xiàn)有語音的特征,,還要用基礎(chǔ)的語音元素完整地重塑語言,,朗誦任何文本。目前大多數(shù)合成器的基本工作原理都是“基元選取”(unit selection),,這非常類似于拼圖游戲,。

每個基元是一段有特定韻律和音色的口語語料(包括音素、音節(jié),、詞語等),。語料數(shù)據(jù)庫就像拼圖的集合,要有盡量豐富的語料才能滿足合成語音時多變的需要。

在為一段文本合成語音時,,要找到與文本對應(yīng)的語料片段,,從而進行組合。重組的過程就像跋山涉水一樣麻煩:算法要先從數(shù)據(jù)庫中挑選出大量的語料片段,,但是語料本身有各自的聲學(xué)特征,,無法直接簡單地拼湊到一起。要合成語音一段語音,,就要盡量找到那些前后連貫的語料片段。

為了讓合成語音聽起來自然,,既要保證音素之間配合得天衣無縫,,還要保證文本本身易于被理解。另外,,還要考慮到音素整體表現(xiàn)出的音樂感,,也就是韻律。

語音還原的質(zhì)量主要取決于數(shù)據(jù)庫的容量:每段口語語料的素材數(shù)量越多,,音素間的連接就越流暢,、韻律就越豐滿。后,,成品還要經(jīng)過算法做具部潤色,,這樣才能讓語料之間的連接沒有明顯瑕疵,讓斷句更流暢,。

2000年后,,在語言學(xué)、信號處理和機器學(xué)習(xí)方面的進展,,使合成語音韻律的建模能力有了驚人的進步,。過去的合成語音僅僅勉強能聽,現(xiàn)在的合成語音聽起來不僅很自然,,還很有表現(xiàn)力,。

天然和人工之間的界限變得模糊了。在機器學(xué)習(xí)的幫助下,,可以用上千種不同的語音創(chuàng)造出“平均”合成語音,,當(dāng)然,也可以用幾個不同人的語音制造出混合語音,,或者將某人的口音,、情緒和說話的風(fēng)格移花接木到另一個人身上。

這些處理的原理與“基元選取”是類似的,,但具體的操作有很大的差異,。這類方法并不是采用真人錄制的口語語料直接合成語音,而是用一個統(tǒng)計模型來表示一個人的語音。這個統(tǒng)計模型是對語音的數(shù)學(xué)抽象,,通過它可以復(fù)制和生成合成各種各樣的語音,。

利用統(tǒng)計分布規(guī)律(正態(tài)分布的平均值和方差),就能為每一個音素在聲學(xué)空間(以音高,、持續(xù)時間,、音強和音色為參數(shù)的參數(shù)空間)中的分布建模。

選取的語音參數(shù)會隨著說話的進程變化而變化,,為了給這個過程建模還需要用到關(guān)于時間序列的模型(如隱馬爾可夫模型),。在這類模型里,每個音素都會被分割成一系列“狀態(tài)”,,比如開始,、中間、結(jié)束,,而每個狀態(tài)都有各自的統(tǒng)計分布,。

通過聲學(xué)空間統(tǒng)計參數(shù)的組合、插值和自適應(yīng),,這套系統(tǒng)可以對聲音的各項抽象特征進行計算,。比如,我們能夠利用兩個真人語音的統(tǒng)計參數(shù)制造出混合語音,,也可以將幾千個人的語音組合成平均語音,。

這種技術(shù)進步使文本合成語音的效率發(fā)生了翻天覆地的變化:它不再依賴于真人語音,只需要幾分鐘長度的錄音就可以快速合成新的語音,。

所以,,即便這個人已經(jīng)無法出聲,只要利用幾分鐘錄音資料就能再現(xiàn)他的聲音,。而且,,就算不會說外語,現(xiàn)在的技術(shù)已經(jīng)能實現(xiàn)用本人的聲音合成外文語音,。

雖然合成語音已經(jīng)取得了令人矚目的成績,,但是,還有進步的空間,。在合成語音的過程中,,始終需要人力輔助才能得到優(yōu)良的合成效果。而現(xiàn)在,,人工智能,、人工神經(jīng)網(wǎng)絡(luò)下的深度學(xué)習(xí)和大數(shù)據(jù)領(lǐng)域的變革,都為語音合成注入了新鮮的血液,。

在人工神經(jīng)網(wǎng)絡(luò)技術(shù),,或者說神經(jīng)網(wǎng)絡(luò)中,,學(xué)習(xí)的硬件設(shè)備或者虛擬設(shè)備是由一層一層的“神經(jīng)元”構(gòu)成的,每個“神經(jīng)元”都有兩種可能的狀態(tài),。神經(jīng)元之間相互連結(jié),,在學(xué)習(xí)的過程中算法會對“神經(jīng)元”的特征進行調(diào)整。

在70年代,,神經(jīng)網(wǎng)絡(luò)被引入到了語音處理中,,當(dāng)時,人們認為這種結(jié)構(gòu)能夠模擬大腦的工作方式,,從而更好地完成機器學(xué)習(xí),。然而,神經(jīng)網(wǎng)絡(luò)的發(fā)展一度受到理論,、算法,,以及當(dāng)時十分有限的計算能力的限制。

近10年,,理論進步和計算能力的飛速發(fā)展,讓神經(jīng)網(wǎng)絡(luò)技術(shù)再次回到了舞臺,。

一些為深度神經(jīng)網(wǎng)絡(luò)(深度指的是包含多層神經(jīng)元網(wǎng)絡(luò))量身定制的新的學(xué)習(xí)算法也逐漸出現(xiàn)在人們的眼前,。這些深度神經(jīng)網(wǎng)絡(luò)的算法非常依賴大數(shù)據(jù)。

這些技術(shù)給了人們很大的想象空間,。在未來,,我們可能會創(chuàng)造出與真人語音沒有差異的數(shù)字語音,它甚至能用任何語言傳遞信息,,我們還能根據(jù)需求給它賦予*的個性,。

在未來我們可以隨心所欲地改變自己的嗓音,我們能與聲音無異于真人的智能機器順暢地進行日常交流,。然而,,這種機器到底是天使,還是惡魔呢,?這種技術(shù)已經(jīng)引起了一部分人的反感,,也引出了這樣一個基本問題:在我們的社會中,合成語音以及人性化的機器究竟算什么,?

用多人語音合成,,或是用別人語音轉(zhuǎn)化而來的聲音究竟屬于誰?它屬于復(fù)制人嗎,,還是改造人,?或者應(yīng)該屬于創(chuàng)造它的研究者和工程師?怎樣區(qū)分合成語音和真人語音的差異,?

如果能仿造某人的語音,,怎樣鑒定語音留言的真實性,?合成語音的人格化和機器人的人形外貌一樣,也發(fā)人深思,。如果機器的聲音太像真人,,我們是否陷入了日本機器人學(xué)家森政弘提出的“kong bu谷”怪圈?

 

 

收藏該商鋪

登錄 后再收藏

提示

您的留言已提交成功,!我們將在第一時間回復(fù)您~
二維碼 意見反饋
在線留言