智能語(yǔ)音識(shí)別在廣播電視監(jiān)測(cè)的應(yīng)用

時(shí)間:2022-04-09 02:48:05

導(dǎo)語(yǔ):智能語(yǔ)音識(shí)別在廣播電視監(jiān)測(cè)的應(yīng)用一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

智能語(yǔ)音識(shí)別在廣播電視監(jiān)測(cè)的應(yīng)用

摘要:隨著媒體深度融合不斷推進(jìn),各類新興媒體持續(xù)涌現(xiàn)、遍地開(kāi)花,廣播電視內(nèi)容監(jiān)測(cè)從傳統(tǒng)的廣播、電視頻道監(jiān)測(cè)擴(kuò)展到了互聯(lián)網(wǎng)新興媒體視聽(tīng)內(nèi)容。海量、多元的互聯(lián)網(wǎng)視聽(tīng)內(nèi)容給監(jiān)測(cè)監(jiān)管工作帶來(lái)了巨大的挑戰(zhàn),如何適應(yīng)這一新形勢(shì)是各級(jí)監(jiān)管機(jī)構(gòu)面臨的共性問(wèn)題。本文旨在探討將自動(dòng)語(yǔ)音識(shí)別和智能語(yǔ)義分析技術(shù)結(jié)合起來(lái)應(yīng)用到監(jiān)測(cè)監(jiān)管工作中的可行性及優(yōu)勢(shì)。

關(guān)鍵詞:智能語(yǔ)義分析;自動(dòng)語(yǔ)音識(shí)別;內(nèi)容監(jiān)測(cè)

1引言

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展普及,手機(jī)、電腦逐漸成為了人們獲取信息、學(xué)習(xí)娛樂(lè)的主要渠道,與之對(duì)應(yīng)的各類互聯(lián)網(wǎng)新媒體傳播平臺(tái)(短視頻、直播、視頻網(wǎng)站等)不斷涌現(xiàn),海量的網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)廣播等互聯(lián)網(wǎng)視聽(tīng)內(nèi)容都成為了廣播電視監(jiān)測(cè)監(jiān)管對(duì)象,使得監(jiān)測(cè)監(jiān)管工作變得更加艱巨和復(fù)雜,對(duì)監(jiān)測(cè)監(jiān)管從業(yè)人員的專業(yè)素質(zhì)和監(jiān)測(cè)技術(shù)手段提出了更高的要求。傳統(tǒng)廣播電視內(nèi)容監(jiān)測(cè)是將音視頻節(jié)目錄像先存貯,再通過(guò)圖像識(shí)別、關(guān)鍵幀對(duì)比、語(yǔ)音特征識(shí)別等技術(shù)手段進(jìn)行監(jiān)測(cè)監(jiān)管,存在監(jiān)測(cè)時(shí)效性差、計(jì)算存貯資源需求高、違規(guī)識(shí)別準(zhǔn)確率低等問(wèn)題。隨著互聯(lián)網(wǎng)視聽(tīng)監(jiān)測(cè)業(yè)務(wù)的不斷拓展,這些劣勢(shì)越發(fā)凸顯,實(shí)現(xiàn)快速、實(shí)時(shí)、準(zhǔn)確的對(duì)巨量、多元的互聯(lián)網(wǎng)視聽(tīng)內(nèi)容進(jìn)行監(jiān)測(cè)監(jiān)管的需求變得越來(lái)越迫切。

2自動(dòng)語(yǔ)音識(shí)別和智能語(yǔ)義分析技術(shù)

2.1自動(dòng)語(yǔ)音識(shí)別。語(yǔ)音識(shí)別(ASR)是語(yǔ)音交互中最基礎(chǔ)的一個(gè)AI技術(shù)環(huán)節(jié),就是將一段語(yǔ)音信號(hào)轉(zhuǎn)換成相對(duì)應(yīng)的文本信息,系統(tǒng)主要包含特征提取、聲學(xué)模型、語(yǔ)言模型以及字典與解碼四大部分。此外,為了更有效地提取特征,往往還需要對(duì)所采集到的聲音信號(hào)進(jìn)行濾波、分幀等音頻數(shù)據(jù)預(yù)處理工作,將需要分析的音頻信號(hào)從原始信號(hào)中合適地提取出來(lái)。特征提取工作將聲音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,為聲學(xué)模型提供合適的特征向量;聲學(xué)模型再根據(jù)聲學(xué)特性計(jì)算每一個(gè)特征向量在聲學(xué)特征上的得分;而語(yǔ)言模型則根據(jù)語(yǔ)言學(xué)相關(guān)的理論,計(jì)算該聲音信號(hào)對(duì)應(yīng)可能詞組序列的概率;最后根據(jù)已有的字典,對(duì)詞組序列進(jìn)行解碼,得到最后可能的文本表示,連續(xù)語(yǔ)音識(shí)別原理框圖如圖1所示。當(dāng)前,該技術(shù)發(fā)展已非常成熟,車載語(yǔ)音助手、智能語(yǔ)音輸入等都已經(jīng)普及在我們的各種生活場(chǎng)景中。2.2智能語(yǔ)義分析。智能語(yǔ)義分析是自然語(yǔ)言理解(NLP)的關(guān)鍵,自然語(yǔ)言理解是人工智能領(lǐng)域中的核心課題之一。當(dāng)前,智能語(yǔ)義分析可以對(duì)文本進(jìn)行自動(dòng)化處理,主要應(yīng)用于要素抽取、智能審核、輿情分析、知識(shí)搜索、自動(dòng)寫(xiě)作等,在分析歧義、詞語(yǔ)省略、代詞所指、意圖識(shí)別等的理解方面依然存在不足。但是,隨著近年來(lái)人工智能技術(shù)的迅猛發(fā)展,經(jīng)過(guò)不斷的演化迭代,其智能化、類人化的理解能力已經(jīng)越來(lái)越高,按照這個(gè)趨勢(shì),未來(lái)計(jì)算機(jī)一定能夠逐步接近甚至達(dá)到類人自然語(yǔ)言處理能力。通過(guò)以上介紹不難發(fā)現(xiàn),將語(yǔ)音自動(dòng)識(shí)別和智能語(yǔ)義分析結(jié)合起來(lái),運(yùn)用到廣播電視內(nèi)容監(jiān)測(cè)中,從技術(shù)實(shí)現(xiàn)上來(lái)說(shuō)已經(jīng)沒(méi)有障礙,首先通過(guò)自動(dòng)語(yǔ)音識(shí)別將音視頻內(nèi)容文本化,然后再利用智能語(yǔ)義分析對(duì)文本化的音視頻內(nèi)容進(jìn)行分析監(jiān)測(cè),輸出監(jiān)測(cè)預(yù)警信息。當(dāng)前,語(yǔ)音識(shí)別速度和準(zhǔn)確率早已達(dá)到應(yīng)用層面的標(biāo)準(zhǔn),為音視頻內(nèi)容文本化的準(zhǔn)確率提供了保障,通過(guò)樣本庫(kù)關(guān)鍵詞句進(jìn)行文本檢索,就可以快速準(zhǔn)確識(shí)別一般違規(guī)信息,這只是快速發(fā)現(xiàn)的第一步。對(duì)于較為復(fù)雜的違規(guī)信息,智能語(yǔ)義分析系統(tǒng)在不斷的使用優(yōu)化過(guò)程中,通過(guò)長(zhǎng)期連續(xù)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練和人工糾偏,逐步提高對(duì)長(zhǎng)文本、復(fù)雜結(jié)構(gòu)句式、特殊發(fā)聲等各種定制監(jiān)測(cè)需求違規(guī)信息的理解識(shí)別準(zhǔn)確率,由文本內(nèi)容檢索逐步進(jìn)化到擬人化的感知思考,應(yīng)用前景明朗。

3現(xiàn)有監(jiān)測(cè)監(jiān)管技術(shù)手段存在的不足

3.1計(jì)算資源耗用高、時(shí)效性差。我們通常采用的視頻識(shí)別對(duì)比監(jiān)測(cè)需要對(duì)整個(gè)視頻內(nèi)容進(jìn)行解碼,然后將視頻的每一幀或關(guān)鍵幀利用圖像的顏色特征、形狀特征、紋理特征等進(jìn)行模板匹配,根據(jù)同樣本庫(kù)樣本的相似程度做出評(píng)價(jià),從而作為監(jiān)測(cè)定性的依據(jù)。不管是結(jié)構(gòu)識(shí)別還是統(tǒng)計(jì)識(shí)別的圖像識(shí)別模式,視頻圖像識(shí)別對(duì)存貯讀寫(xiě)速度、網(wǎng)絡(luò)傳輸速率、CPU/GPU運(yùn)算能力都提出了較高要求,占用計(jì)算資源較多,監(jiān)測(cè)運(yùn)行處理過(guò)程耗時(shí),效率較低;音頻內(nèi)容則大多采用特征值提取的監(jiān)測(cè)方式。在傳統(tǒng)主流廣播電視音視頻內(nèi)容監(jiān)測(cè)中,監(jiān)測(cè)系統(tǒng)在計(jì)算資源需求和數(shù)據(jù)處理時(shí)長(zhǎng)上同監(jiān)測(cè)對(duì)象的數(shù)據(jù)量成正比,實(shí)踐中我們往往采取先采集收錄,再分時(shí)段調(diào)配資源對(duì)內(nèi)容進(jìn)行監(jiān)測(cè)監(jiān)管的方法,絕大部分都是事后監(jiān)管,時(shí)效性較差,想實(shí)現(xiàn)多套節(jié)目?jī)?nèi)容實(shí)時(shí)監(jiān)測(cè)需要大量硬件投入。3.2違規(guī)誤判較多、人工參與程度高。視頻內(nèi)容因其畫(huà)面、顏色、構(gòu)圖方式存在千差萬(wàn)別,而且畫(huà)面內(nèi)容往往非常復(fù)雜,干擾因素多,通常采用的是特征符號(hào)對(duì)比、顏色比例規(guī)則等方式進(jìn)行內(nèi)容監(jiān)測(cè),輸出的疑似違規(guī)報(bào)警信息數(shù)量龐大,報(bào)假警比例較高,需要投入大量人力進(jìn)行人工審核來(lái)確定其是否違規(guī),在當(dāng)前互聯(lián)網(wǎng)視聽(tīng)內(nèi)容海量化的現(xiàn)狀下,監(jiān)測(cè)能力捉襟見(jiàn)肘。雖然利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法進(jìn)行圖像識(shí)別的研究經(jīng)過(guò)數(shù)年來(lái)不斷的迭代優(yōu)化,擬合能力和泛化能力越來(lái)越強(qiáng),當(dāng)前來(lái)看靜態(tài)圖像識(shí)別有一定的市場(chǎng)應(yīng)用,但對(duì)視頻流的識(shí)別準(zhǔn)確率依然沒(méi)有質(zhì)的提升,同時(shí)對(duì)硬件資源的高度依賴也限制了它的發(fā)展前景。

4智能語(yǔ)音識(shí)別分析在廣播電視內(nèi)容監(jiān)測(cè)中的應(yīng)用優(yōu)勢(shì)

4.1技術(shù)成熟,資源耗用低,易于實(shí)現(xiàn)多路視聽(tīng)節(jié)目?jī)?nèi)容的實(shí)時(shí)監(jiān)測(cè)。實(shí)時(shí)自動(dòng)語(yǔ)音識(shí)別早已通過(guò)手機(jī)、電視、汽車等產(chǎn)品融入我們的日常生活,極大地提升了我們通信、居家、出行、購(gòu)物等方方面面的用戶體驗(yàn)。一臺(tái)普通的手機(jī),實(shí)時(shí)調(diào)用極少資源,即可勝任從語(yǔ)音識(shí)別分析到文字輸出或者執(zhí)行用戶語(yǔ)音指令任務(wù)的全部流程,如果將現(xiàn)有的監(jiān)測(cè)監(jiān)管服務(wù)器集群計(jì)算資源處理能力應(yīng)用到多路自動(dòng)語(yǔ)音識(shí)別,那么對(duì)多路視聽(tīng)內(nèi)容的實(shí)時(shí)監(jiān)聽(tīng)能力將成指數(shù)級(jí)增長(zhǎng)。每一路視聽(tīng)節(jié)目都分別生成一路文本輸出,甚至可以要求互聯(lián)網(wǎng)視聽(tīng)內(nèi)容入網(wǎng)必須自主接入自動(dòng)語(yǔ)音識(shí)別功能,向監(jiān)測(cè)監(jiān)管機(jī)構(gòu)實(shí)時(shí)發(fā)送監(jiān)聽(tīng)文本信息,監(jiān)管機(jī)構(gòu)的智能語(yǔ)義分析系統(tǒng)只需對(duì)多路輸入的文本進(jìn)行實(shí)時(shí)分析監(jiān)測(cè),整體上不會(huì)形成像處理視頻流對(duì)硬件資源造成的需求壓力,一旦達(dá)到這樣的能力,網(wǎng)絡(luò)空間的各類視聽(tīng)內(nèi)容資源全部納入實(shí)時(shí)監(jiān)測(cè)不難實(shí)現(xiàn),廣播電視監(jiān)測(cè)監(jiān)管應(yīng)管盡管的愿景成為可能,語(yǔ)音識(shí)別分析監(jiān)管系統(tǒng)流程圖如圖2所示。4.2監(jiān)測(cè)對(duì)象音頻輸出品質(zhì)有保障,語(yǔ)音識(shí)別準(zhǔn)確率高。廣播電視及互聯(lián)網(wǎng)音視頻內(nèi)容,大部分錄音錄像或者配音都有相對(duì)專業(yè)的錄播間,以及普通話更加標(biāo)準(zhǔn)的主播、主持人。語(yǔ)音識(shí)別系統(tǒng)能獲得環(huán)境噪聲低、發(fā)音更加專業(yè)的高質(zhì)量音源,有條件的音視頻源碼流可以直接將人聲音軌進(jìn)行分離,相對(duì)于大家日常的語(yǔ)音識(shí)別應(yīng)用場(chǎng)景,納入監(jiān)管的視聽(tīng)節(jié)目源能夠保證較高的語(yǔ)音識(shí)別轉(zhuǎn)換準(zhǔn)確率,為后續(xù)內(nèi)容分析監(jiān)測(cè)提供有力的支撐。4.3其他語(yǔ)種語(yǔ)言識(shí)別轉(zhuǎn)換更加便捷。互聯(lián)網(wǎng)音視頻內(nèi)容極其豐富,全世界不同地區(qū)、種族、語(yǔ)言的音視頻內(nèi)容在大屏小屏上經(jīng)常可見(jiàn),圖像識(shí)別和語(yǔ)音特征值提取此時(shí)基本成了“睜眼瞎”和“聾子”。一般監(jiān)測(cè)監(jiān)管工作人員通過(guò)人工都很難有效辨別有害信息,而多語(yǔ)言混合識(shí)別技術(shù)只需要增加相應(yīng)語(yǔ)種的聲學(xué)模型,即可完成監(jiān)測(cè)內(nèi)容的文本輸出和智能語(yǔ)義分析,可以替代需要多個(gè)擁有多語(yǔ)種能力人員完成的大量工作。4.4文本內(nèi)容監(jiān)管對(duì)違規(guī)有害信息的發(fā)現(xiàn)準(zhǔn)確率高。語(yǔ)言作為意識(shí)形態(tài)傳播的物質(zhì)外殼,擁有其他傳播形式不可撼動(dòng)的核心地位。對(duì)于一張圖片或者一段視頻資源,同一畫(huà)面內(nèi)容的語(yǔ)言解讀,可以有千百種,僅依靠畫(huà)面監(jiān)測(cè)或單純的語(yǔ)音特征識(shí)別技術(shù)并不能有效發(fā)現(xiàn)違法違規(guī)的事件解讀和輿論導(dǎo)向意圖。文本智能語(yǔ)義分析可以進(jìn)行同音、同義、同形等方面的變形分析,同時(shí)進(jìn)行網(wǎng)絡(luò)新詞自動(dòng)跟蹤,對(duì)最新出現(xiàn)的網(wǎng)絡(luò)用語(yǔ)進(jìn)行識(shí)別,能夠有效預(yù)警各種變形信息和潛在不良信息。智能語(yǔ)義分析系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)算法,通過(guò)對(duì)大量現(xiàn)有及新增的違規(guī)案例的持續(xù)學(xué)習(xí)反饋訓(xùn)練,可以讓計(jì)算機(jī)不斷提升對(duì)各種表述方式的理解能力,準(zhǔn)確分析出文本信息的內(nèi)在邏輯和思想要義,從而提高內(nèi)容違規(guī)判別準(zhǔn)確性。

5結(jié)語(yǔ)

智能語(yǔ)音識(shí)別分析技術(shù)相比傳統(tǒng)廣播電視監(jiān)測(cè)手段具有天然的優(yōu)勢(shì),雖然目前智能語(yǔ)義分析能力還不完美,需要更加深入地開(kāi)發(fā)和修正,但在當(dāng)前將其作為廣播電視監(jiān)測(cè)新的補(bǔ)充手段值得探索。

參考文獻(xiàn)

[1]洪青陽(yáng),李琳.語(yǔ)音識(shí)別:原理與應(yīng)用[M].北京:電子工業(yè)出版社,2020.

[2]鄧力.基于深度學(xué)習(xí)的自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2020.

作者:許永武 鄒金池 趙時(shí) 單位:湖北省新聞出版廣電監(jiān)管中心