5月17日,2021搜狐科技5G&AI峰會在北京隆重召開。搜狗CEO王小川作為嘉賓,現(xiàn)場聯(lián)合搜狐新聞發(fā)布了搜狐新聞24小時數(shù)字人,并發(fā)表主題演講,分享數(shù)字人背后的新技術。隨后,他接受了搜狐科技的專訪,針對數(shù)字人技術亮點,以及搜狗最新的人工智能研發(fā)成果進行了詳細解答。
談到推出“數(shù)字人”的初衷,王小川指出,源頭是搜狗基因里涵蓋著搜索,表達了知識獲取、和人對話的能力,輸入法更強調(diào)溝通,輸入法和搜索背后的原始核心都是強調(diào)的語言。
相比于此前發(fā)布的AI合成主播雅妮,王小川表示,最大的變化是從2D變成3D,“雅妮是2D形象的,動的時候也只是面對鏡頭的移動,到3D之后有不同的視角來拍你的人形,你可以旋轉你的機位來看,手勢有更大范圍的表達。”
王小川透露,接下來,主播的成熟到推廣背后仍有很多工作要做,包括不斷提升它的流暢度、更高的理解能力,以及在更多的場景落地。
以下為專訪實錄精編:
搜狐科技:川總您好,剛剛發(fā)布了數(shù)字人技術,背后有哪些亮點?
王小川:首先,數(shù)字人技術不僅在中國,在全球也是足夠領先的,我們七代的產(chǎn)品發(fā)布都走在了行業(yè)的前面,引領了大家的關注和后面的模仿學習。因此,從最早的一個表情到全方位能夠從坐起來、站起來,有手勢、有多模態(tài)的互動,把人工智能非常多的技術用進去了,也是落地人工智能產(chǎn)品之間比較亮眼的一個。
搜狐科技:這一技術在實現(xiàn)過程中有沒有難度,或者一些研發(fā)歷程可以分享一下?
王小川:這個很有意思,最早的時候,我們也在做語音識別,國內(nèi)的技術非常好,我們就把搜狗的技術實力展示出來,在互動里面不僅只是基于文字和語音,我們研發(fā)了唇語識別,通過嘴唇運動識別你說的什么內(nèi)容,積累了大量的經(jīng)驗。
反過來,我們開始構建唇形的合成,通過你的語音把它變成表情,變成你的唇動,從語音合成走向了視覺合成,這個我們走得非常領先的,緣起來自于從語音到唇語到合成,因此的話,大概2018年開始,首先和新華社有了第一次的合作。就這個事情的難度而言,隨著從2D到3D,包括肢體到表情有含義變得越來越難。
搜狐科技:更新版的數(shù)字人和之前發(fā)布的雅妮有沒有什么區(qū)別,有怎樣的進步?
王小川:一個大的變化是從2D變成3D了,雅妮是2D形象的,動的時候也只是面對鏡頭的移動,到3D之后有不同的視角來拍你的人形,你可以旋轉你的機位來看,手勢有更大范圍的表達。今天集大成發(fā)布的所謂主播,你把這樣一種語音的一種能力,包括像翻譯技術,更嚴格的表情管理,從翻譯之后的文字的表征變成了數(shù)字化的手勢表征,這里面是有非常多的不同技術的融合。
搜狐科技:搜狗下一步有沒有探索新的技術,是怎樣規(guī)劃的呢?
王小川:我們認為在下一個階段里面主播本身它的成熟到推廣背后有特別多的工作要做,包括不斷提升它的流暢度,使得大家能夠得到更高的理解能力,行業(yè)60,我們到85。同時能夠在更多場景應用,手語要需要規(guī)范的,官方有官方的手語以外,還有方言的手語,全球有全球的手語體系,如何能夠實現(xiàn),或者規(guī)范成標準的一個普通化一樣的語言,這里面我們認為有更多的社會意義。
搜狐科技:數(shù)字人之外,整個人工智能領域來講,搜狗有沒有新落地的成果可以分享一下?
王小川:我們需要把各種能力做一個結合,之前提到的營養(yǎng)師,搜索里面大量問跟健康相關的問題,尤其不同的飲食,孕婦能不能吃西瓜
等等的,我們要把這些一些知識跟用戶的需求做到連接,同時經(jīng)過數(shù)字人的載體給用戶帶來更好的互動。
我們提兩個核心的理念,自然交互、知識計算,知識計算使得最大化的給用戶的滿足能夠提高。