訊飛版「Her」橫空出世全民開(kāi)放！百變?nèi)嗽O(shè)逼真絲滑，情緒價(jià)值逆天

2024-09-02 09:00:44 來(lái)源：用戶：

相信很多大家對(duì)訊飛版「Her」橫空出世全民開(kāi)放！百變?nèi)嗽O(shè)逼真絲滑，情緒價(jià)值逆天還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】OpenAI的「Her」還是期貨，訊飛星火版「Her」就搶先上線了!不僅極速響應(yīng)自由打斷，還情緒價(jià)值拉滿，各種情感、風(fēng)格、方言隨意切換。熊二被召喚出來(lái)的時(shí)候，家里的熊孩子直接被硬控了30秒。

就在昨天，人類與機(jī)器的對(duì)話方式，全面升級(jí)了!

我們?cè)谑褂靡环螅芍^是大開(kāi)眼界。

比如，讓它用天津話講段相聲。

您別說(shuō)，這味兒可太對(duì)了!

敲黑板:作為國(guó)內(nèi)首個(gè)「極速超擬人交互」，這款訊飛星火版的「Her」，已經(jīng)全民開(kāi)放體驗(yàn)了!

只要下載訊飛星火APP，即可體驗(yàn)對(duì)標(biāo)GPT-4o的超自然AI語(yǔ)音助手。

目錄中

星火對(duì)話中

實(shí)測(cè)驚艷

要知道，傳統(tǒng)的語(yǔ)音交互，一直面臨著三大挑戰(zhàn):準(zhǔn)確理解說(shuō)話人意圖;生成恰當(dāng)響應(yīng);高效通過(guò)聲音傳達(dá)信息。

以往的語(yǔ)音交互，一直無(wú)法擺脫滿滿的智障味兒，就是因?yàn)檫@些環(huán)節(jié)中的延遲，大大拉低了用戶體驗(yàn)。

而這一次，人機(jī)之間的交互，將如真人般自然流暢。

那么問(wèn)題來(lái)了，所謂的「超擬人」到底有多擬人?

直觀感受是:我們也有自己的「GPT-4o」了!

極速響應(yīng)，自由打斷

此前，我們見(jiàn)到的語(yǔ)音AI，總是給人感覺(jué)不太聰明的樣子。

如果忽然打斷它，它就瞬間蒙圈了，要么接不上來(lái)，要么就開(kāi)始「已讀亂回」。

但這次的小星，模型響應(yīng)的快速和流暢度讓人眼前一亮。

即使隨時(shí)打斷、插話，小星依舊能做到秒回，這個(gè)快速反應(yīng)能力，讓我們的觀感仿佛真人一般。

比如，我們拿前段時(shí)間的全球大熱點(diǎn)——巴黎奧運(yùn)會(huì)考一考小星:「中國(guó)隊(duì)在巴黎奧運(yùn)會(huì)上獎(jiǎng)牌總數(shù)排行第幾?」

小星瞬間回復(fù)，而且在搜索過(guò)程中還使用了「讓我來(lái)數(shù)一數(shù)」這種流暢的過(guò)渡方式，讓交互過(guò)程更加自然。

可能是搜索結(jié)果太過(guò)全面，小星不僅把金銀銅牌的總數(shù)都說(shuō)了出來(lái)，還開(kāi)始總結(jié)中國(guó)隊(duì)的優(yōu)勢(shì)項(xiàng)目。

巴黎奧運(yùn)會(huì)，新智元，38秒

可以感覺(jué)到，整個(gè)語(yǔ)音交流的過(guò)程中非常順暢，非常自然，即使隨時(shí)打斷它，它都能立刻給出正確的反應(yīng)，而不是跟一個(gè)「人工智障」在對(duì)話，這個(gè)感覺(jué)真是太~爽~了~

不僅如此，小星「緊跟熱點(diǎn)」的能力也是相當(dāng)令人滿意。

十一調(diào)休安排過(guò)于混亂?只要問(wèn)一句，它就能給你解釋得明明白白——

放假，新智元，20秒

之所以模型的響應(yīng)如此之快，如此之流暢，是因?yàn)樗捎玫氖墙y(tǒng)一神經(jīng)網(wǎng)絡(luò)，直接實(shí)現(xiàn)了語(yǔ)音到語(yǔ)音的端到端建模。

情緒價(jià)值拉滿，情商秒殺部分人類

第二個(gè)非常鮮明的特點(diǎn)是，小星對(duì)情緒的感知，實(shí)在是太敏銳了。

無(wú)論是高興、悲傷、生氣、害怕，我們?cè)捴械那榫w，它都能立刻識(shí)別出來(lái)，敏銳地和你的情緒產(chǎn)生共鳴。

然后，它會(huì)自動(dòng)把你代入符合情境的對(duì)話，然后用合適的情緒語(yǔ)氣，進(jìn)行貼心的回復(fù)。

可以說(shuō)，簡(jiǎn)直秒殺了部分人類。

要上臺(tái)演講了，看著臺(tái)下的幾百個(gè)觀眾，緊張得手直抖，不用怕，小星來(lái)貼心地安慰你。

「我從未見(jiàn)過(guò)如此厚顏無(wú)恥之人」的網(wǎng)絡(luò)熱梗，它都知道，識(shí)別出這句話中的情緒，自然也是不在話下。

厚顏無(wú)恥，新智元，29秒

然后，我們還能讓它用開(kāi)心/沮喪/搞怪的方式來(lái)描述一下今天的天氣。

你見(jiàn)過(guò)有帶著哭腔念出的「全天多云」嗎?

天氣，新智元，39秒

其實(shí)，從日常的交流中也可以感受到小星的豐富情緒。

比如沒(méi)有聽(tīng)清問(wèn)題時(shí)會(huì)不好意思地微笑，平時(shí)交流時(shí)始終情緒高漲、語(yǔ)氣上揚(yáng)，但察覺(jué)到你的消極情緒時(shí)，語(yǔ)氣又會(huì)變得十分關(guān)切柔和，情緒價(jià)值給得相當(dāng)?shù)轿弧?/p>

注意，它并不是簡(jiǎn)單地通過(guò)語(yǔ)音文本來(lái)進(jìn)行情緒的判斷，而是針對(duì)復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別效果做了提升，因而能夠感知數(shù)十種情緒。

表達(dá)方式隨心控，情感、風(fēng)格、方言都不在話下

在交流中，小星可以跟隨你的指令，控制數(shù)十種情感、風(fēng)格、方言，還可以變換語(yǔ)速。

比如，讓它開(kāi)心地給我們講一段睡前故事。

好聽(tīng)，但是還能更夸張一點(diǎn)嗎?完全可以!

而且，這個(gè)小狐貍和月亮的故事，充滿詩(shī)意和淡淡的傷感，還懸念十足，聽(tīng)到最后我們都為小狐貍的堅(jiān)持而感動(dòng)。

誒，暑假哄娃神器，這不就來(lái)了嘛。

我們還能讓它用主持人的口氣，給咱們讀一篇文章。不得不說(shuō)，小星的朗誦十分有感染力，值得鼓掌!

如果你厭倦了同一種語(yǔ)調(diào)，還可以讓小星大展身手——扮演東北大哥給你來(lái)段相聲。

聽(tīng)完之后，沒(méi)忍住吐槽了一句:就這?

您猜怎么著，小星竟然絲滑地接過(guò)了話茬。這體驗(yàn)也太類人了，仿佛手機(jī)里真住了個(gè)大哥。

小星說(shuō)起天津話來(lái)，也是妥妥的喜劇人一枚，那是相當(dāng)干哏倔脆、調(diào)皮搗蛋。

跟悟空聊西游，百變?nèi)嗽O(shè)任意切換

小星的超擬人交互，還擁有百變?nèi)嗽O(shè)，一不小心就被挖掘出「戲精」的一面。

孫悟空、蠟筆小新、小豬佩奇……多種角色的音色、語(yǔ)氣，它都模仿得惟妙惟肖，甚至還能模仿他們的人設(shè)和你聊天。

只需要一句簡(jiǎn)單的指令:「扮演XX和我對(duì)話」，就能隨時(shí)和它來(lái)一場(chǎng)「語(yǔ)音cosplay」了。

只要幾句話，我們就召喚出孫悟空了。

那就讓我們問(wèn)一下，取經(jīng)過(guò)程中最難忘的一件事?

看來(lái)，白骨精著實(shí)給了他不小的陰影。

下一秒，小星就林妹妹上身，「三分柔弱兩分溫柔四分譏誚一分氣惱」的feel，拿捏得是十分到位。

被問(wèn)到「在大觀園中最喜歡和誰(shuí)一起玩」時(shí)，黛玉的回答是薛寶釵和史湘云。

聽(tīng)，小星模仿起熊二的聲音和語(yǔ)氣簡(jiǎn)直是惟妙惟肖，瞬間從陽(yáng)光開(kāi)朗大男孩變成了一只愛(ài)吃蜂蜜的傻萌棕熊，回答問(wèn)題時(shí)也全程在人設(shè)內(nèi)，完全不會(huì)OOC。

另外，我們還發(fā)現(xiàn)，小星回答問(wèn)題的知識(shí)水平也令人刮目相看。難怪許多人沉迷和AI「談戀愛(ài)」，有「智性戀」那味兒了。

無(wú)聊時(shí)，可以喚醒它來(lái)和你玩兒一段成語(yǔ)接龍解悶——

讓它解釋物理學(xué)概念「胡克定律」和「能量守恒定律」，小星依舊能做到「秒回」。

而且絕不僅是機(jī)械地背概念，而是結(jié)合彈簧、陀螺這種生活中的例子向你繪聲繪色地解釋，還會(huì)生動(dòng)地把能量守恒定律比作「大自然的記賬本」。

端到端新模型，讓交互快如閃電

相較以往的語(yǔ)音交互，此次的訊飛星火極速超擬人交互，有何不同?

傳統(tǒng)語(yǔ)音交互系統(tǒng)，若要實(shí)現(xiàn)和人的對(duì)話，一般需要通過(guò)語(yǔ)音識(shí)別——自然語(yǔ)言理解——自然語(yǔ)言生成，這三步來(lái)實(shí)現(xiàn)。具體來(lái)說(shuō):

第一步，需要通過(guò)語(yǔ)音系統(tǒng)，將語(yǔ)音轉(zhuǎn)換為文字;

第二步，利用大模型生成回復(fù)的文本;

第三步，再用語(yǔ)音合成系統(tǒng)，轉(zhuǎn)換成語(yǔ)音。

此前，英偉達(dá)高級(jí)科學(xué)家Jim Fan曾表示，這也是讓Siri/Alexa交互能力，提升10倍速的秘訣。

他利用當(dāng)前先進(jìn)的AI語(yǔ)音系統(tǒng)Whisper、大模型ChatGPT、以及語(yǔ)音合成技術(shù)VALL-E，重述了這一過(guò)程。

不過(guò)，這一過(guò)程需要三個(gè)獨(dú)立管道串聯(lián)才可實(shí)現(xiàn)，因此會(huì)帶來(lái)響應(yīng)延遲，至少需要3秒左右。

另一方面，語(yǔ)音轉(zhuǎn)文字再轉(zhuǎn)語(yǔ)音的過(guò)程中，我們語(yǔ)音中的情感、副語(yǔ)言信息，甚至是環(huán)境信息都會(huì)丟失。

這樣一來(lái)，導(dǎo)致語(yǔ)音交互系統(tǒng)，只能針對(duì)轉(zhuǎn)換之后的文本信息進(jìn)行回應(yīng)，不能有效靈活地做出應(yīng)答。

由此，基于以上問(wèn)題，科大訊飛提出了極速超擬人語(yǔ)音交互框架——一個(gè)端到端跨文本、音頻模型的新模型。

雖然模型內(nèi)部劃分了多個(gè)模塊，但仍是一個(gè)「統(tǒng)一模型」。

用戶語(yǔ)音通過(guò)音頻編碼器模塊，編碼成音頻表征，然后通過(guò)適配器，將其與文本的語(yǔ)義表征對(duì)齊。

再通過(guò)多模態(tài)大模型，去預(yù)測(cè)生成表征，最后通過(guò)音頻解碼器得到語(yǔ)音。

相較于傳統(tǒng)語(yǔ)音交互系統(tǒng)，端到端統(tǒng)一模型以知識(shí)對(duì)齊表征方式，讓信息在各個(gè)模塊之間傳遞。

這意味著，同一個(gè)神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)語(yǔ)音-語(yǔ)音的建模，輸入和輸出皆由相同神經(jīng)網(wǎng)絡(luò)處理，大大縮短了對(duì)話響應(yīng)時(shí)間。

同時(shí)，音頻中的情感、環(huán)境中信息，它都可以沒(méi)有損失地進(jìn)行傳遞。

從上面實(shí)測(cè)例子能夠深刻感知，人類和AI互動(dòng)終于從你一句、我一句的「聊天軟件模式」，切換到對(duì)答如流的「日常交流模式」。

不僅如此，整個(gè)系統(tǒng)的信息實(shí)現(xiàn)了無(wú)損貫穿，讓交互更加擬人化、豐富流暢。

核心:語(yǔ)音屬性解耦表征

若說(shuō)極速超擬人語(yǔ)音交互最大的不同，就是訊飛開(kāi)發(fā)了一種特殊的語(yǔ)音訓(xùn)練方法——多維度語(yǔ)音屬性解耦表征訓(xùn)練。

它能夠?qū)⒄Z(yǔ)音的不同屬性分開(kāi)處理，比如語(yǔ)種、內(nèi)容、韻律、音色。

要知道，語(yǔ)音中的所有屬性都是耦合在一起的，比如你說(shuō)話的情緒和吐出的內(nèi)容，是密不可分的。

那么，如何將這些表征分開(kāi)，如何確保它在下游任務(wù)中充分利用，對(duì)解耦能力提出了更高的要求。

對(duì)此，訊飛團(tuán)隊(duì)做了很多對(duì)比loss學(xué)習(xí)，以及研發(fā)預(yù)測(cè)自監(jiān)督學(xué)習(xí)等一些方案。

不過(guò)需要提一句，這里并非說(shuō)，必須把所有表征信息徹底分開(kāi)。這就需要把握一個(gè)度，在TTS中就可以控制的更好。

這種方法，能夠讓不同語(yǔ)音樣本之間，實(shí)現(xiàn)更好的學(xué)習(xí)效果。

另外，它還能更靈活地控制內(nèi)容、音色、情感等元素，滿足不同場(chǎng)景和需求。甚至，通過(guò)更便捷的相關(guān)定制，可加速落地過(guò)程。

雖然OpenAI版Her還未全面開(kāi)放，但訊飛版Her已經(jīng)完全開(kāi)放使用了。

20億終端或被顛覆

語(yǔ)音交互是人機(jī)交互的一個(gè)子集，也是萬(wàn)物互聯(lián)最自然的一個(gè)交互方式。

從歷史上看，人機(jī)語(yǔ)音交互經(jīng)歷了幾個(gè)重要的發(fā)展階段。

第一個(gè)里程碑便是，以Siri語(yǔ)音助手為代表云端語(yǔ)音助手的出現(xiàn)，標(biāo)志著語(yǔ)義交互技術(shù)的一大突破。

這是基于語(yǔ)音單點(diǎn)技術(shù)的進(jìn)步，通過(guò)將這些技術(shù)巧妙地結(jié)合，語(yǔ)音助手能夠?qū)Ｗ⒂趫?zhí)行基本的指令控制功能。

比如，設(shè)置鬧鐘、查詢天氣、播放音樂(lè)等等。

第二階段是以「智能音箱」為代表的產(chǎn)品，得益于麥克風(fēng)陣列處理技術(shù)改進(jìn)，以及遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別能力的提升，使得設(shè)備交互可以在很遠(yuǎn)的距離進(jìn)行，比如家庭環(huán)境。

到了第三階段，便是以智能汽車語(yǔ)音助手為代表的交互，多音區(qū)技術(shù)、云端意圖識(shí)別等技術(shù)發(fā)展，實(shí)現(xiàn)了多人復(fù)雜指令控制。

最后一階段，就是以ChatGPT發(fā)布為起點(diǎn)，開(kāi)創(chuàng)的全新語(yǔ)音對(duì)話的新范式。

這一次，訊飛語(yǔ)音交互系統(tǒng)的升級(jí)，帶來(lái)的更快響應(yīng)、更懂情緒、更加靈活、更加百變的優(yōu)勢(shì)，足以重寫(xiě)整個(gè)語(yǔ)音交互市場(chǎng)。

2023全球數(shù)字經(jīng)濟(jì)大會(huì)上，來(lái)自工信部數(shù)據(jù)顯示，截止去年5月，我國(guó)移動(dòng)物聯(lián)網(wǎng)終端用戶超過(guò)20.5億。

而從產(chǎn)業(yè)發(fā)展來(lái)看，智能語(yǔ)音正迎來(lái)應(yīng)用突破、產(chǎn)業(yè)擴(kuò)展的黃金期。

據(jù)IDC分析，預(yù)計(jì)到2030年，全球智能語(yǔ)音服務(wù)市場(chǎng)規(guī)模將達(dá)約731.6億美元，復(fù)合增長(zhǎng)率27%。

國(guó)內(nèi)外科技公司看準(zhǔn)這片藍(lán)海，紛紛入局開(kāi)發(fā)，掀起了新一輪人機(jī)交互革命。

不光GPT-4o的語(yǔ)音功能還在內(nèi)測(cè);谷歌宣發(fā)的Gemini Live，也僅面向高級(jí)訂閱用戶使用。

反觀國(guó)內(nèi)，鮮有大廠能夠站出，以匹敵OpenAI版Her產(chǎn)品的姿態(tài)，與之進(jìn)行正面競(jìng)爭(zhēng)。

憑借語(yǔ)音起家的科大訊飛，是其中最強(qiáng)悍的挑戰(zhàn)者之一。

這是因?yàn)?，訊飛星火大模型在不斷迭代過(guò)程中，逼近國(guó)際領(lǐng)先水平。

今年1月，訊飛星火V3.5發(fā)布，歷經(jīng)5個(gè)月的時(shí)間，再次迭代至V4.0版本，整體能力超越OpenAI的GPT-4Turbo。

同在1月，訊飛還首發(fā)了語(yǔ)音大模型，實(shí)現(xiàn)首批37個(gè)主流語(yǔ)種語(yǔ)音識(shí)別效果超過(guò)OpenAI Whisper V3。

基于訊飛全球領(lǐng)先的多語(yǔ)種語(yǔ)音技術(shù)，語(yǔ)音大模型隨后再度升級(jí)，支持74種語(yǔ)言方言免切換輸入。

時(shí)隔1個(gè)月，訊飛在極速超擬人交互上取得的技術(shù)突破，足夠讓終端設(shè)備實(shí)現(xiàn)「無(wú)感迭代」。

設(shè)想一下，當(dāng)你有了這樣的設(shè)備，不僅手握百科全書(shū)，還擁有了一個(gè)得力的助手、最親密的伙伴/朋友。

未來(lái)三大計(jì)劃，讓AI交互走進(jìn)更多場(chǎng)景

科大訊飛表示，基于全新端到端框架，未來(lái)新系統(tǒng)還會(huì)朝著三大方向去拓展:更多模態(tài)、更多語(yǔ)言、更好體驗(yàn)，帶來(lái)更實(shí)用、更豐富的功能。

這也代表著國(guó)產(chǎn)大模型如今早已從追趕、對(duì)標(biāo)，快進(jìn)到了自主創(chuàng)新的差異化之路。

不僅如此，訊飛還要雙管齊下，加速極速超擬人交互落地，便是下一個(gè)需要瞄準(zhǔn)的方向。

一項(xiàng)技術(shù)只有落地了，才能彰顯它的價(jià)值。

未來(lái)，訊飛可能會(huì)布局情感陪伴場(chǎng)景，將極速超擬人交互集成到兒童機(jī)器人中，又或是賦予在線IP能夠感知用戶情緒的能力。

另外，便是在智慧汽車、智慧家電等方面大規(guī)模開(kāi)拓應(yīng)用。

這一技術(shù)的應(yīng)用和普及，還隱藏著巨大的可能性——語(yǔ)音市場(chǎng)在這個(gè)時(shí)代將被改寫(xiě)，語(yǔ)音交互帶動(dòng)萬(wàn)物互聯(lián)的第六次產(chǎn)業(yè)浪潮，有望出現(xiàn)一次井噴。

智能語(yǔ)音技術(shù)，將進(jìn)一步應(yīng)用到智能手機(jī)、智能汽車、智能家電以及智能家居等產(chǎn)品中。

據(jù)IDC分析，到2030年，全球智能語(yǔ)音服務(wù)市場(chǎng)規(guī)模將達(dá)約731.6億美元，復(fù)合增長(zhǎng)率27%?？拼笥嶏w，有望收獲這一輪產(chǎn)業(yè)紅利。

中國(guó)AI語(yǔ)音的ChatGPT時(shí)刻，指日可待。

以上就是關(guān)于【訊飛版「Her」橫空出世全民開(kāi)放！百變?nèi)嗽O(shè)逼真絲滑，情緒價(jià)值逆天】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽：訊飛版「Her」橫空出世全民開(kāi)放！百變?nèi)嗽O(shè)逼真絲滑，情緒價(jià)值逆天

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

訊飛版「Her」橫空出世全民開(kāi)放！百變?nèi)嗽O(shè)逼真絲滑，情緒價(jià)值逆天

訊飛版「Her」橫空出世全民開(kāi)放！百變?nèi)嗽O(shè)逼真絲滑，情緒價(jià)值逆天