在當(dāng)今數(shù)字化與智能化飛速發(fā)展的時代,智能語音技術(shù)作為人工智能領(lǐng)域的關(guān)鍵分支,正以迅猛之勢滲透到各個行業(yè)。2025年,智能語音行業(yè)呈現(xiàn)出更為強(qiáng)勁的發(fā)展勢頭,其在新聞傳播領(lǐng)域的應(yīng)用與創(chuàng)新尤為引人注目。智能語音技術(shù)從最初的基礎(chǔ)功能逐步進(jìn)化,如今已具備更為復(fù)雜和強(qiáng)大的能力,深刻改變著新聞的生產(chǎn)、傳播以及用戶的接收體驗(yàn),為新聞傳媒行業(yè)帶來了全新的機(jī)遇與變革。
智能語音技術(shù)旨在運(yùn)用計算機(jī)算法和模型來模擬人類的語言及聲音行為,終極目標(biāo)是讓機(jī)器能夠如同人類一般實(shí)現(xiàn)自然、高效的交流互動。其核心技術(shù)涵蓋語音合成、語音識別以及自然語言處理這三大關(guān)鍵板塊。
《2025-2030年中國智能語音市場專題研究及市場前景預(yù)測評估報告》指出,語音合成技術(shù)是將文字轉(zhuǎn)化為語音輸出的關(guān)鍵環(huán)節(jié)。借助韻律建模和聲學(xué)建模等技術(shù)手段,文本信息得以轉(zhuǎn)變?yōu)榫哂腥祟愓Z音特征的音頻信號。從早期的傳統(tǒng)文本轉(zhuǎn)語音技術(shù),發(fā)展到當(dāng)下由人工智能驅(qū)動的語音合成引擎,如今合成的語音愈發(fā)逼真自然。例如,在一些新聞播報場景中,通過語音合成技術(shù)生成的播報聲音,能夠精準(zhǔn)地模擬真人主播的音色與語調(diào),極大地提升了新聞傳播的聽覺效果。
語音識別技術(shù)堪稱智能語音技術(shù)的基石,它能夠把人類的語音精準(zhǔn)地轉(zhuǎn)換為文本信息。隨著技術(shù)的持續(xù)革新,語音識別的準(zhǔn)確率和速度都在不斷攀升,文本分類與情感分析也日益成熟。在新聞采編過程中,記者可以利用語音識別技術(shù)快速將采訪錄音轉(zhuǎn)化為文字稿件,大大提高了采編效率。而且,該技術(shù)能夠依據(jù)語境更好地理解用戶的自然語言指令,朝著更為智能化的方向穩(wěn)步邁進(jìn)。
自然語言處理技術(shù)則是實(shí)現(xiàn)人機(jī)交互的核心所在。它能夠根據(jù)人類語言的語法、語義以及上下文信息,將文字信息轉(zhuǎn)化為機(jī)器能夠理解的指令。隨著算力技術(shù)的不斷突破,中文大型語言模型的規(guī)模進(jìn)一步擴(kuò)大,建模能力持續(xù)提升。這使得自然語言處理技術(shù)能夠更出色地捕捉語言的復(fù)雜性和語義關(guān)系,達(dá)成更為精準(zhǔn)、自然的人機(jī)交互。在智能語音新聞的交互場景中,用戶能夠通過自然語言與智能語音助手進(jìn)行流暢對話,獲取自己所需的新聞資訊。
2024年5月,OpenAI 公司發(fā)布的新一代多模態(tài)大模型 GPT - 4.0,支持實(shí)時語音對話,顯著降低了交互延時,讓人機(jī)對話變得更加智能。在國內(nèi),字節(jié)跳動、騰訊、深度求索(DeepSeek)等企業(yè)也相繼推出智能應(yīng)用助手,不斷深化對中文語料庫的研究與應(yīng)用,有效提升了模型對中文語境的理解和處理能力,使人機(jī)語音交互在中文領(lǐng)域更加流暢、自然且真實(shí)。在人工智能技術(shù)飛速發(fā)展,特別是深度學(xué)習(xí)算法取得突破性進(jìn)展的推動下,智能語音技術(shù)正朝著更為成熟化、智能化的方向大步邁進(jìn),并與其他新興技術(shù)深度融合,持續(xù)優(yōu)化用戶的交互體驗(yàn)。
在國內(nèi)新聞傳媒領(lǐng)域,智能語音技術(shù)的應(yīng)用主要分為兩類。
一類是針對特定項(xiàng)目打造的短期應(yīng)用。就像在 2022 年卡塔爾世界杯期間,中央廣播電視總臺推出的智能語音助手 “央小頻”。它為用戶提供了全方位的服務(wù),涵蓋球隊(duì)信息查詢、賽程安排以及賽事推薦等內(nèi)容,充分滿足了球迷對于賽事多元化信息的需求。借助智能語音技術(shù),球迷們能夠通過語音指令便捷地獲取各類世界杯相關(guān)信息,極大地提升了信息獲取的效率和體驗(yàn)。
另一類則是長期且穩(wěn)定的服務(wù)。主要通過客戶端、微信公眾號以及智能音箱、智能穿戴設(shè)備等智能終端持續(xù)為用戶提供功能服務(wù)。人民日報、新華社、央視新聞等媒體的客戶端都集成了智能語音播報功能。央視在其微信公眾號《早啊!新聞來了》中,專門定制了康輝等主播的語音庫,利用智能語音播報功能定時向用戶推送每日國內(nèi)外的重要新聞。北京廣播電視臺開發(fā)的真人數(shù)字人 “時間小妮”,積極參與了《我的北京 時間 ——AI 數(shù)字人對話二十大代表》和《新身份解鎖!“時間小妮” 助力 12345》等一系列新聞報道活動。2023 年,南方報業(yè)傳媒集團(tuán)基于云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等技術(shù)構(gòu)建了全媒體傳播體系技術(shù)底盤 —— 南方智媒云,成為智能語音技術(shù)賦能媒體融合的典型案例。南方智媒云面向新聞采編發(fā)全流程、多場景推出了 “智能創(chuàng)作助手”“智媒云盾” 審校系統(tǒng)、“小南粵聽” 語音服務(wù)、“智媒主播” 數(shù)智人等應(yīng)用,借助智能語音技術(shù)顯著提升了采編發(fā)效率,豐富了融媒體內(nèi)容供給,改善了用戶體驗(yàn)。
智能語音識別技術(shù)廣泛應(yīng)用于新聞生產(chǎn)的全流程,并且在業(yè)務(wù)數(shù)據(jù)的反哺下不斷優(yōu)化升級,使得識別結(jié)果更加契合新聞生產(chǎn)場景,極大地提高了新聞采編效率。南方智媒云推出的 “智能創(chuàng)作小助手” 以對話回答為核心,接入了文心一言、訊飛星火、騰訊混元等通用大模型,提供語音轉(zhuǎn)寫、問答式搜索服務(wù)。通過智能錄音轉(zhuǎn)寫功能,媒體從業(yè)者整理采訪素材的時間大幅縮短,同時有效規(guī)避了新聞采訪中可能出現(xiàn)的語音模糊不清和方言難懂等問題。媒體從業(yè)者還可以通過語音對話的方式搜索新聞素材,無需離開工作臺就能高效便捷地獲取所需信息。在稿件審校環(huán)節(jié),南方智媒云推出的 “智媒云盾” 智能審校應(yīng)用,充分發(fā)揮了南方報業(yè)沉淀多年的中文新聞?wù)Z料庫優(yōu)勢,基于大語言模型,提供圖文、音視頻等多模態(tài)審校服務(wù)?!爸敲皆贫堋? 能夠快速識別并糾正文本、音頻中的語法錯誤、知識性錯誤和導(dǎo)向性錯誤,大幅提升了審校效率,有力地推動了新聞生產(chǎn)質(zhì)效的雙提升。
智能語音合成技術(shù)的不斷進(jìn)步,使得新聞的呈現(xiàn)方式愈發(fā)豐富且富有 “溫度”。如今的語音播報新聞已從過去機(jī)械的文字轉(zhuǎn)語音,發(fā)展到能夠高度模擬真人,生動地讀出新聞的感染力。方言播報的加入更是為新聞增添了親切感和人情味?;谀戏街敲皆普Z音庫開發(fā)的 “小南粵聽” 智能語音服務(wù)配備了情感發(fā)聲功能,依托情感語音合成技術(shù),能夠模擬人類情感的語音特征。它會根據(jù)新聞內(nèi)容的屬性,如文本中的情感色彩、語境以及重要性等傾向,靈活調(diào)整語音的音調(diào)、節(jié)奏和強(qiáng)度,生成更具情感色彩的語音。在播報悲傷、嚴(yán)肅新聞時,自動降低音調(diào)、減慢語速,以準(zhǔn)確表達(dá)沉重情感;而在播報喜訊、利好新聞時,則加快語速,采用愉悅、歡快的語調(diào),為聽眾帶來更加豐富且貼近真人的聽覺體驗(yàn)。聽眾獲取的不僅僅是新聞信息,更是新聞內(nèi)容背后所蘊(yùn)含的情感價值。此外,“小南粵聽” 還推出了定制化和地域適配化方言功能,立足廣東本土特色,支持切換粵語語音播報,為不熟悉普通話的聽眾提供了更貼心的選擇,有助于增強(qiáng)聽眾的信任和共鳴。
多模態(tài)融合已然成為智能語音技術(shù)的重要發(fā)展方向。未來的智能語音技術(shù)必將與計算機(jī)視覺、觸覺反饋等多種感官交互技術(shù)深度融合,形成功能更為強(qiáng)大的多模態(tài)交互系統(tǒng)。虛擬主播作為多模態(tài)融合應(yīng)用的典型代表,不僅能夠合成語音,還擁有類人的視覺形象,為用戶提供了更為豐富、直觀的使用體驗(yàn)。南方智媒云基于語音合成、動作捕捉、實(shí)時渲染、深度學(xué)習(xí)等融合技術(shù)打造了 “智媒主播” 數(shù)智人應(yīng)用,能夠快速構(gòu)建虛擬真人和卡通人物形象。虛擬主播南都 N 視頻 “小 N”、3D 動畫主播 “嶺梅香” 可以全天候應(yīng)用于直播、新聞播報等場景,有效降低了視頻制作成本,大幅提升了內(nèi)容生產(chǎn)力。南方智媒云還在語音識別和合成方面進(jìn)行了優(yōu)化,支持多音字識別正確讀音,支持異步任務(wù)排隊(duì)、分段試聽等方法來實(shí)現(xiàn)長文本的試聽合成,使得虛擬主播的播報更加準(zhǔn)確和流暢。
交互能力是衡量智能語音服務(wù)水平的關(guān)鍵指標(biāo)。當(dāng)前,作為應(yīng)用廣泛的智能語音新聞產(chǎn)品,智能新聞播報和虛擬主播大多只是模擬真實(shí)主播的聲音和形象進(jìn)行新聞播報,與用戶之間真正的自然語言理解和流暢對話交互較少。智能語音助手在與用戶交互時,聽懂率處于中低水平,對方言、噪聲、遠(yuǎn)距離識別以及斷句的處理能力不足,容易出現(xiàn)誤聽、漏聽的情況,且大多無法識別上下文并開展流暢的多輪對話,導(dǎo)致絕大部分智能語音新聞產(chǎn)品的交互性質(zhì)不夠突出。
這種弱交互性很大程度上源于智能語音技術(shù)的不成熟。但隨著智能語音技術(shù)在語音識別準(zhǔn)確性、自然語言理解深度、端到端建模效率、實(shí)時處理能力、個人化和情境感知以及方言和語言多樣性處理等多方面的迭代升級,智能語音新聞將從弱交互向強(qiáng)交互轉(zhuǎn)變。在功能上,將從單純的播新聞、讀新聞向輕松人性化的聊新聞、搜新聞轉(zhuǎn)變。早在 2016 年,國內(nèi)就有應(yīng)用推出了以文字對話形式呈現(xiàn)新聞資訊的新聞聊天機(jī)器人。智能語音新聞也應(yīng)在這一方向深入發(fā)展,讓用戶通過語音命令就能高效獲取新聞,還能與智能語音助手基于聲音開展多輪新聞對話,在詢問和回答過程中深入探索感興趣的新聞事實(shí),提升新聞閱讀的趣味性。這種雙向互動的模式,將使對話本身成為新聞的一部分,充分激發(fā)人機(jī)價值共創(chuàng)的活力。
擬人化特征能夠有效激發(fā)用戶對智能語音產(chǎn)品的社會性感知。具有高社會存在感的智能語音產(chǎn)品,更容易獲得用戶的信任和接受,有助于建立良好的情感關(guān)系。目前,智能語音新聞在情感深度和復(fù)雜性方面與真實(shí)人聲相比仍存在差距,導(dǎo)致語音合成新聞的表現(xiàn)力和感染力不足,影響用戶的收聽體驗(yàn)。智能語音助手在處理復(fù)雜情感和語境時也存在局限,難以根據(jù)現(xiàn)場情況靈活調(diào)整語氣和內(nèi)容,無法與用戶建立深層次的情感聯(lián)系。
不過,智能語音技術(shù)的升級將改變這一現(xiàn)狀,為智能語音新聞注入更多擬人化特征。在表達(dá)時,能夠更加精準(zhǔn)地還原真人說話時的各種細(xì)節(jié),如語調(diào)、停頓、重音、說話時的笑聲等。在對話過程中,能更靈活地遵循禮貌、傾聽、幽默等人際交往規(guī)則,展開更多社交型對話,表達(dá)出適當(dāng)?shù)墓睬?、對話題的關(guān)注等,進(jìn)一步強(qiáng)化情感色彩,增進(jìn)人機(jī)關(guān)系。在技術(shù)升級的基礎(chǔ)上,開發(fā)者還應(yīng)注重打造智能語音新聞產(chǎn)品的內(nèi)在人設(shè),強(qiáng)化其類人屬性,為產(chǎn)品賦予 “靈魂”。比如,可以結(jié)合地域文化、專業(yè)形象和個性化特征,打造創(chuàng)新性虛擬主播人設(shè),為用戶帶來更加豐富和生動的交互體驗(yàn),深化人機(jī)之間的情感關(guān)系。
目前,我國智能語音新聞推薦系統(tǒng)在個性化服務(wù)方面已取得一定進(jìn)展。用戶可以通過簡單的語音指令,如 “天貓精靈,播放人民網(wǎng)的新聞” 或 “小度小度,播放體育新聞”,來選擇感興趣的新聞來源或類型。然而,面對更具體的人群需求、更細(xì)致的新聞內(nèi)容以及更專業(yè)的知識領(lǐng)域,智能語音助手的表現(xiàn)仍有待提升。智能語音助手可選的新聞來源有限,新聞類型大多局限于政治、經(jīng)濟(jì)、民生、文化和軍事等宏觀分類,用戶難以通過簡單追問深入了解新聞事件的細(xì)節(jié)。同時,對于視力受限的老年人和尚未掌握手寫能力的兒童等特殊群體,現(xiàn)有的語音交互產(chǎn)品缺乏針對性服務(wù)。
隨著大型語言模型技術(shù)的發(fā)展,智能語音新聞的分發(fā)模式有望迎來革新。傳統(tǒng)的新聞推送模式完全依賴算法根據(jù)用戶興趣推送內(nèi)容,而在強(qiáng)互動場景下,用戶將有更多機(jī)會參與算法決策過程。用戶可以通過語音對話表達(dá)自己的內(nèi)容偏好,定制新聞來源,深入追問新聞細(xì)節(jié),拓展相關(guān)資訊,使新聞內(nèi)容更貼合個性化需求。例如,亞馬遜的 Alexa 智能音箱不僅能主動詢問用戶的偏好,根據(jù)用戶反饋調(diào)整新聞推薦,還能在對話結(jié)束后,通過 “繼續(xù)播報” 或是 “想要了解相關(guān)問題,只需詢問……” 等引導(dǎo)性語句,從橫向或縱向擴(kuò)展對話,鼓勵用戶進(jìn)行更廣泛的 “泛聊” 或更深入的 “深聊”。這種交互方式不僅提升了用戶獲取信息的自主性,還為用戶提供了一種沉浸式的深度閱讀體驗(yàn)。相較于單一的新聞流供給,這種方式更能增強(qiáng)用戶的參與感和滿足感,實(shí)現(xiàn)更加精準(zhǔn)的個性化服務(wù)。
媒體應(yīng)采取更加積極的開放戰(zhàn)略,與現(xiàn)有廠商廣泛合作,共同打造更智能、更高效的智媒系統(tǒng)。由于技術(shù)開發(fā)并非媒體的先天優(yōu)勢,媒體可以與現(xiàn)有的開發(fā)者緊密協(xié)作,升級智能軟件系統(tǒng)。例如,人民日報與百度聯(lián)合成立的 “人工智能媒體實(shí)驗(yàn)室”,借助百度的語音、圖像、自然語言處理、知識圖譜等技術(shù),打造 “智能化編輯團(tuán)隊(duì)”,輔助媒體的新聞生產(chǎn),提升效率。
除了運(yùn)營好現(xiàn)有平臺,媒體還可作為內(nèi)容提供方,開拓智能硬件流量入口。沈陽晚報、南方都市報、都市快報、華西都市報等媒體與天貓精靈合作推出了 “語音頭條” 內(nèi)容,通過智能音箱為用戶提供本地化的新聞資訊服務(wù)。此外,智能車載是近場傳播的重要入口。在駕車行駛過程中,狹小的車廂為智能語音信息傳遞提供了場地,駕駛者或乘員是信息傳遞過程中的 “靶向” 用戶。媒體可以與汽車廠商合作開拓車載語音場景,為用戶提供更加精準(zhǔn)化的新聞服務(wù),擴(kuò)大并增強(qiáng)新聞內(nèi)容的覆蓋面和影響力。
在2025年,智能語音技術(shù)在新聞傳播領(lǐng)域展現(xiàn)出了巨大的發(fā)展?jié)摿εc變革力量。從其核心技術(shù)的不斷演進(jìn),到在新聞傳媒領(lǐng)域豐富多樣的應(yīng)用實(shí)踐,再到未來充滿希望的應(yīng)用展望,智能語音技術(shù)正逐步重塑新聞傳播的格局。它不僅提升了新聞生產(chǎn)的效率與質(zhì)量,豐富了新聞的呈現(xiàn)形式和用戶體驗(yàn),還為新聞傳媒行業(yè)帶來了全新的發(fā)展思路和商業(yè)模式。然而,智能語音技術(shù)在新聞傳播領(lǐng)域的應(yīng)用仍面臨一些挑戰(zhàn),如交互性有待增強(qiáng)、情感表達(dá)不夠豐富、個性化推薦不夠精準(zhǔn)以及應(yīng)用場景有待進(jìn)一步拓展等。但隨著技術(shù)的持續(xù)創(chuàng)新與優(yōu)化,以及媒體與技術(shù)廠商之間的深度合作,這些問題將逐步得到解決。未來,智能語音技術(shù)有望成為連接新聞與用戶的關(guān)鍵橋梁,持續(xù)賦能媒體行業(yè)的創(chuàng)新與轉(zhuǎn)型,推動新聞傳播領(lǐng)域朝著更加智能、高效、個性化的方向蓬勃發(fā)展。
更多智能語音行業(yè)研究分析,詳見中國報告大廳《智能語音行業(yè)報告匯總》。這里匯聚海量專業(yè)資料,深度剖析各行業(yè)發(fā)展態(tài)勢與趨勢,為您的決策提供堅實(shí)依據(jù)。
更多詳細(xì)的行業(yè)數(shù)據(jù)盡在【數(shù)據(jù)庫】,涵蓋了宏觀數(shù)據(jù)、產(chǎn)量數(shù)據(jù)、進(jìn)出口數(shù)據(jù)、價格數(shù)據(jù)及上市公司財務(wù)數(shù)據(jù)等各類型數(shù)據(jù)內(nèi)容。