Jack Jiang

          我的最新工程MobileIMSDK:http://git.oschina.net/jackjiang/MobileIMSDK
          posts - 499, comments - 13, trackbacks - 0, articles - 1

          本文內(nèi)容由“微信多媒體團(tuán)隊(duì)”整理發(fā)布。

          1、引言

          廣州TIT創(chuàng)意園,這里是騰訊在廣州的研發(fā)團(tuán)隊(duì)所在地,LiveVideoStack采訪了微信多媒體內(nèi)核中心音視頻算法高級(jí)工程師梁俊斌(Denny)。從華為2012實(shí)驗(yàn)室到騰訊,過(guò)去十余年梁俊斌一直專(zhuān)注在音頻技術(shù)。他告訴LiveVideoStack:音頻技術(shù)還有許多難點(diǎn)需要解決,而作為技術(shù)人也延展到應(yīng)用場(chǎng)景,關(guān)注用戶需求。本文整理了本次訪談的主要內(nèi)容,僅供參閱。

          學(xué)習(xí)交流:

          - 即時(shí)通訊開(kāi)發(fā)交流3群:185926912[推薦]

          - 移動(dòng)端IM開(kāi)發(fā)入門(mén)文章:《新手入門(mén)一篇就夠:從零開(kāi)發(fā)移動(dòng)端IM

          (本文同步發(fā)布于:http://www.52im.net/thread-1828-1-1.html

          2、相關(guān)文章

          微信團(tuán)隊(duì)分享:視頻圖像的超分辨率技術(shù)原理和應(yīng)用場(chǎng)景

          微信團(tuán)隊(duì)分享:微信每日億次實(shí)時(shí)音視頻聊天背后的技術(shù)解密

          微信團(tuán)隊(duì)分享:微信Android版小視頻編碼填過(guò)的那些坑》 

          微信多媒體團(tuán)隊(duì)訪談:音視頻開(kāi)發(fā)的學(xué)習(xí)、微信的音視頻技術(shù)和挑戰(zhàn)等

          騰訊技術(shù)分享:微信小程序音視頻技術(shù)背后的故事

          Q:Denny你好,先簡(jiǎn)單介紹下自己的經(jīng)歷,從學(xué)生時(shí)代到進(jìn)入職場(chǎng),過(guò)去這段時(shí)間的一些關(guān)鍵的經(jīng)歷,以及現(xiàn)在主要做哪些方面的研究?

          梁俊斌:現(xiàn)在是2018年,二十年前(1998年)我考進(jìn)華南理工大學(xué),直到2007年這9年都在華南理工大學(xué)完成我的本科、碩士、博士的學(xué)業(yè),期間跨越了好幾個(gè)不同的學(xué)科和技術(shù)領(lǐng)域,包括機(jī)械、電子、自動(dòng)化、人工智能,這些不同的學(xué)科跨度還是蠻大的,和其他的音頻同行有不同,他們一開(kāi)始在學(xué)校就專(zhuān)攻音視頻多媒體、編解碼算法。我在大學(xué)期間,在音視頻領(lǐng)域是沒(méi)有較多的積累,只是基本了解一點(diǎn),實(shí)際接觸不多。

          2007年,從華南理工大學(xué)畢業(yè)之后加入了華為公司,進(jìn)入了“2012實(shí)驗(yàn)室”多媒體工程能力中心,在這里我開(kāi)始踏入語(yǔ)音頻領(lǐng)域,并從此鎖定了自己的職業(yè)道路方向,到現(xiàn)在我還在持續(xù)做語(yǔ)音相關(guān)的技術(shù)。期間有過(guò)一些其他部門(mén)的同事邀請(qǐng)我轉(zhuǎn)行,但我拒絕了,我堅(jiān)信要做自己認(rèn)為正確的事情,就必須破釜沉舟把它做深做透。音頻這個(gè)行業(yè)還有很多很不成熟的東西,可能從外界普通用戶的角度來(lái)說(shuō),我們這塊已經(jīng)很成熟了,沒(méi)什么可做的,但實(shí)際上(語(yǔ)音)還有很多尚未解決的難題,需要有人來(lái)做。

          后來(lái)我進(jìn)入了騰訊公司,加入了微信團(tuán)隊(duì)。微信給我最大的觸動(dòng)就是所有人都在用,這種空前的成就感是不言而喻的,所有的親戚朋友都在用,要是自己做不好的話,尤其是語(yǔ)音通話、語(yǔ)音消息每天都在用,哪天不小心出點(diǎn)Bug,就會(huì)影響到很多很多身邊的人,所以在享受微信工作帶來(lái)的滿足感的同時(shí)做技術(shù)每個(gè)環(huán)節(jié)都要求非常嚴(yán)謹(jǐn)。

          華為最為神秘的“2012實(shí)驗(yàn)室”(據(jù)說(shuō)研究的都是各種黑科技):

          華為的“2012實(shí)驗(yàn)室”是華為的總研究組織,據(jù)稱(chēng),該實(shí)驗(yàn)室的名字來(lái)自于任正非在觀看《2012》電影后的暢想,他認(rèn)為未來(lái)信息爆炸會(huì)像數(shù)字洪水一樣,華為要想在未來(lái)生存發(fā)展就得構(gòu)造自己的“諾亞方舟”。

          華為2012實(shí)驗(yàn)室的主要研究的方向有新一代通信、云計(jì)算、音頻視頻分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等。主要面向的是未來(lái)5-10年的發(fā)展方向。華為官方數(shù)據(jù)顯示,2015年,華為研發(fā)投入為596億元人民幣,占2015年銷(xiāo)售收入的15.1%,近十年來(lái),華為已經(jīng)在研發(fā)方面投入了超過(guò)2400億元人民幣。

          2012實(shí)驗(yàn)室的二級(jí)部門(mén)包括:中央硬件工程學(xué)院、海思、研發(fā)能力中心、中央軟件院。今天著重講述華為很少對(duì)外公開(kāi),但在2012實(shí)驗(yàn)室里有著極高戰(zhàn)略地位的研究部門(mén)。

          Q:音頻這個(gè)領(lǐng)域,在外人看來(lái)已經(jīng)沒(méi)有什么可做的,無(wú)外乎就是語(yǔ)音,不像視頻各種新鮮的產(chǎn)品,360度視頻、VR等。那么,音頻這塊到底還有什么挑戰(zhàn)?我們外行所不知道的?

          梁俊斌:語(yǔ)音通話是兩個(gè)或多個(gè)人在不同的地點(diǎn)通過(guò)手機(jī)或者說(shuō)其他終端完成對(duì)話的過(guò)程,這里涉及到通話的外界聲學(xué)環(huán)境因素,包括噪聲、回聲,混響,所有這些環(huán)境因素都會(huì)影響對(duì)方的收聽(tīng)效果,而不同場(chǎng)景環(huán)境下問(wèn)題現(xiàn)象差異較大,如何有效解決這是一個(gè)方面。

          第二方面,微信是一個(gè)超十億級(jí)用戶的APP,其中的音視頻通話功能是最基礎(chǔ)的,我們每天都有幾億人在使用這個(gè)功能,這里涉及成千上萬(wàn)款不同廠家不同型號(hào)的手機(jī)(當(dāng)然還有PC、Mac等設(shè)備),其不同硬件有不同的聲學(xué)特性,例如頻響、不同設(shè)備的內(nèi)置硬件處理后的噪聲、雜音等,也有操作系統(tǒng)非實(shí)時(shí)性的問(wèn)題,還有各種APP的音頻資源沖突等各種狀況,我們都需要做相應(yīng)的適配和有針對(duì)性的優(yōu)化。

          另外,網(wǎng)絡(luò)傳輸可靠性是非常關(guān)鍵的部分,網(wǎng)絡(luò)傳輸存在丟包、抖動(dòng)、時(shí)延等問(wèn)題,網(wǎng)絡(luò)越復(fù)雜問(wèn)題更多。語(yǔ)音包到達(dá)對(duì)方終端后解碼、播放。聲音傳入耳朵的過(guò)程是心理聲學(xué)感知的過(guò)程,你能不能感知的到對(duì)方傳遞的聲音信息,信息是否干凈且易懂。聲音傳遞到大腦,其中的關(guān)鍵信息是否讓你有深刻印象還是聽(tīng)了就忘沒(méi)有痕跡,這些都是很值得研究的課題。而我們微信技術(shù)架構(gòu)部多媒體內(nèi)核中心自主研發(fā)的WAVE(微信音視頻引擎)組件正是圍繞上述問(wèn)題不斷迭代、持續(xù)改進(jìn)優(yōu)化,構(gòu)建高可用性的互聯(lián)網(wǎng)音視頻通話技術(shù)基石。

          行外人不了解這些細(xì)節(jié)問(wèn)題,所以才覺(jué)得沒(méi)什么可做的,然而這個(gè)細(xì)節(jié)問(wèn)題是必須有人做的,而且需要長(zhǎng)期的一絲不茍的投入。做一個(gè)能通話的APP不難,但做一個(gè)超十億級(jí)用戶都認(rèn)可的通話功能是不簡(jiǎn)單的。

          Q:微信做到這個(gè)量級(jí),已經(jīng)不僅僅是做一個(gè)簡(jiǎn)單產(chǎn)品的問(wèn)題了,而是要對(duì)用戶負(fù)責(zé),因?yàn)檫@個(gè)可能會(huì)影響到很多人工作和生活。

          梁俊斌:是的,這是一個(gè)系統(tǒng)工程,而不僅是一個(gè)安裝在手機(jī)上的應(yīng)用軟件,需要涉及通話雙方端到端一環(huán)扣一環(huán)的質(zhì)量監(jiān)控和故障應(yīng)對(duì)體系。我們每天都會(huì)積極搜集用戶的反饋信息,深入具體case去分析通話問(wèn)題的原因,盡我們所能幫助用戶解決問(wèn)題。

          此外我們擁有功能強(qiáng)大的后臺(tái)運(yùn)維系統(tǒng),該系統(tǒng)能實(shí)時(shí)對(duì)大盤(pán)通話質(zhì)量做端到端的分析,對(duì)異常情況會(huì)及時(shí)報(bào)警,保障通話功能的正常使用。雖然微信通話是免費(fèi)的,但我們身上的責(zé)任是巨大的,我們微信技術(shù)架構(gòu)部多媒體內(nèi)核中心每個(gè)同事每天都在為提升改進(jìn)用戶音視頻通話體驗(yàn)而不斷努力。

          Q:在互聯(lián)網(wǎng)上丟包、抖動(dòng)是不可控的,需要來(lái)應(yīng)對(duì)。另外,如何更清晰和深刻的傳達(dá)信息,可能涉及到心理學(xué),耳朵的結(jié)構(gòu)特性,這些能簡(jiǎn)單講一講嗎?

          梁俊斌:是的,互聯(lián)網(wǎng)是相對(duì)不可靠的,在WAVE引擎里面提供了適配不同網(wǎng)絡(luò)傳輸特性的抗丟包、抗抖動(dòng)算法和機(jī)制,讓通話過(guò)程語(yǔ)音更順暢。

          心理聲學(xué)是研究物理聲學(xué)與人類(lèi)聽(tīng)覺(jué)感知之間關(guān)系的一門(mén)邊緣學(xué)科,心理聲學(xué)其中一個(gè)基本特性就是掩蔽特性,其又分為時(shí)域效應(yīng)和頻域效應(yīng),這里我們側(cè)重在頻域上的掩蔽效應(yīng),常規(guī)情況下相鄰頻帶能量強(qiáng)的會(huì)屏蔽掉能量弱的頻帶,在通話應(yīng)用中,例如降噪算法,我們會(huì)通過(guò)降低噪聲頻點(diǎn)能量至掩蔽值以下來(lái)降低噪聲對(duì)人耳感知的干擾,同時(shí)減少對(duì)正常語(yǔ)音的損傷。

          除此以外,心理聲學(xué)還應(yīng)用到很多技術(shù)點(diǎn)上,這里就不一一細(xì)說(shuō)了。

          Q:一般我用微信開(kāi)電話會(huì)議會(huì)用耳機(jī),用耳機(jī)相當(dāng)于就沒(méi)有回聲了,基本上就可以把回聲消除掉了?

          梁俊斌:部分手機(jī)在耳機(jī)模式下由于聲屏蔽設(shè)計(jì)所以基本沒(méi)有回聲,但也有些手機(jī)在耳機(jī)模式下還是有可能產(chǎn)生回聲的,可能是電耦合的電學(xué)回聲,因?yàn)檫@里耳機(jī)產(chǎn)生的回聲的線性度比較高,相對(duì)聲學(xué)回聲的非線性度高而言是比較容易通過(guò)AEC抵消抑制的,所以常規(guī)情況下你通過(guò)耳機(jī)接聽(tīng)基本沒(méi)有回聲問(wèn)題。

          什么是AEC?

          AEC是回聲消除器(Acoustic Echo Canceller)技術(shù)的簡(jiǎn)稱(chēng), AEC是對(duì)揚(yáng)聲器信號(hào)與由它產(chǎn)生的多路徑回聲的相關(guān)性為基礎(chǔ),建立遠(yuǎn)端信號(hào)的語(yǔ)音模型,利用它對(duì)回聲進(jìn)行估計(jì),并不斷地修改濾波器的系數(shù),使得估計(jì)值更加逼近真實(shí)的回聲。然后,將回聲估計(jì)值從話筒的輸入信號(hào)中減去,從而達(dá)到消除回聲的目的,AEC還將話筒的輸入與揚(yáng)聲器過(guò)去的值相比較,從而消除延長(zhǎng)延遲的多次反射的聲學(xué)回聲。根椐存儲(chǔ)器存放的過(guò)去的揚(yáng)聲器的輸出值的多少,AEC可以消除各種延遲的回聲。

          Q:其實(shí)我們要做得事情是非常多的,設(shè)備不斷更新。網(wǎng)絡(luò)情況可能網(wǎng)絡(luò)會(huì)越來(lái)越好一點(diǎn),5G移動(dòng)網(wǎng)絡(luò)穩(wěn)定性會(huì)高一點(diǎn)。

          梁俊斌:從5G的設(shè)計(jì)目標(biāo)是高帶寬低時(shí)延,但目前還沒(méi)真正商用,對(duì)此我還是有點(diǎn)保留的,因?yàn)轭l率越高傳輸?shù)木嚯x越有限,網(wǎng)絡(luò)覆蓋應(yīng)該更小,最終的網(wǎng)絡(luò)質(zhì)量還要跟基站建設(shè)密度相關(guān),要是做得不好的話,對(duì)我們音視頻通話是一個(gè)挑戰(zhàn)。由于純語(yǔ)音通話本身所占帶寬有限,5G的影響相對(duì)來(lái)說(shuō)還不是很大,對(duì)于視頻通話體驗(yàn)應(yīng)該是有提升的,當(dāng)然帶寬越大、時(shí)延越低,我們可以做得技術(shù)可以更多。

          另外通話雙方使用的如果是不同網(wǎng)絡(luò)或者不同運(yùn)營(yíng)商網(wǎng)絡(luò),如何適配和確保數(shù)據(jù)的連接的可靠性,正確性、低時(shí)延,這些是比較重要的。

          關(guān)于移動(dòng)弱網(wǎng)的文章,可以讀一讀以下幾篇:

          現(xiàn)代移動(dòng)端網(wǎng)絡(luò)短連接的優(yōu)化手段總結(jié):請(qǐng)求速度、弱網(wǎng)適應(yīng)、安全保障

          移動(dòng)端IM開(kāi)發(fā)者必讀(一):通俗易懂,理解移動(dòng)網(wǎng)絡(luò)的“弱”和“慢”

          移動(dòng)端IM開(kāi)發(fā)者必讀(二):史上最全移動(dòng)弱網(wǎng)絡(luò)優(yōu)化方法總結(jié)

          Q:您從華為開(kāi)始進(jìn)入音頻領(lǐng)域,我相信這個(gè)過(guò)程中也有其他的機(jī)會(huì)和誘惑,為什么還會(huì)專(zhuān)注在音頻這個(gè)領(lǐng)域?相對(duì)來(lái)說(shuō),多媒體技術(shù)就已經(jīng)很窄了,音頻會(huì)更小眾,更孤獨(dú)。

          梁俊斌:剛才提到“孤獨(dú)”這個(gè)詞很準(zhǔn)確,為什么呢?搞技術(shù)的人就必須習(xí)慣孤獨(dú),享受埋頭鉆研的“孤獨(dú)”帶來(lái)的愉悅,技術(shù)人經(jīng)常面對(duì)挫折而無(wú)助的局面,每一次失敗的嘗試讓我們感受到了冰冷的絕望,但內(nèi)心的光明指引著我們砥礪前行。

          為什么選擇音頻?剛開(kāi)始接觸音頻的時(shí)候,我覺(jué)得音頻技術(shù)可操作性很強(qiáng)。相對(duì)于以前在學(xué)校里面做的很多底層芯片相關(guān)的項(xiàng)目,DSP、ARM、MCU、FPGA等,需要借助別人的專(zhuān)用平臺(tái),在別人提供的最小系統(tǒng)板上或自己設(shè)計(jì)的PCB上開(kāi)發(fā),硬件制(電路)板周期長(zhǎng)。如果工廠制板工藝環(huán)節(jié)出現(xiàn)什么問(wèn)題,例如PCB層間有金屬絲殘留導(dǎo)致短路或不穩(wěn)定狀況,返工還要考慮外面制板工廠的工期以及芯片供貨周期,有時(shí)候芯片要從國(guó)外申購(gòu)就要等好幾周的時(shí)間。

          而做音頻則方便多了,很簡(jiǎn)單,只要你有一臺(tái)PC或者手機(jī),你就能錄音,你就能做處理,你就能馬上聽(tīng)到自己做的東西的效果,整個(gè)過(guò)程完全可以自己掌控。而且在華為、騰訊公司能夠提供相當(dāng)不錯(cuò)的大平臺(tái)和優(yōu)越環(huán)境,讓我可以沉下心來(lái)搞音頻,所以我就一直堅(jiān)持下來(lái)了。

          Q:我也觀察到一個(gè)現(xiàn)象,搞多媒體這些技術(shù)人,大部分還比較低調(diào)的,專(zhuān)注在自己手頭的事情,這個(gè)可能也跟這個(gè)行業(yè)對(duì)人的修煉有關(guān)系吧。

          梁俊斌:(搞多媒體開(kāi)發(fā))就是要不斷的積累,積淀越深厚才能看得更高更遠(yuǎn)。

          那時(shí)候我在華為做了幾年的管理之后反思,因?yàn)樵诖蠊纠锩孀龉芾恚蟛糠謺r(shí)間都是被支配的,沒(méi)有太多的時(shí)間可以專(zhuān)心做自己想做的事情。后來(lái)自己就做了決定,還是全身心投入到技術(shù)研發(fā),做自己想做的事情,這個(gè)是最理想的狀態(tài)。

          Q:音頻技術(shù)的發(fā)展方向在哪里?比如和AI技術(shù)的結(jié)合。

          梁俊斌:我在學(xué)校的時(shí)候就開(kāi)始接觸AI的理論和算法,例如神經(jīng)網(wǎng)絡(luò)、無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)等,那時(shí)候的機(jī)器比現(xiàn)在差太遠(yuǎn)了,更沒(méi)有適合并行運(yùn)算的GPU,跑不了很復(fù)雜的東西,耗時(shí)很長(zhǎng),而且沒(méi)有現(xiàn)在那么開(kāi)放的數(shù)據(jù)庫(kù)可供訓(xùn)練,所以當(dāng)時(shí)的AI理論技術(shù)沒(méi)能得到長(zhǎng)足發(fā)展,也沒(méi)有成功的實(shí)際應(yīng)用。回到現(xiàn)在,過(guò)了那么多年后,以前冷門(mén)的技術(shù)現(xiàn)在變成熱門(mén)了。現(xiàn)在AI和語(yǔ)音結(jié)合得比較緊密,語(yǔ)音識(shí)別、聲紋識(shí)別、語(yǔ)音合成、AI降噪等等,但處理及存儲(chǔ)的開(kāi)銷(xiāo)、時(shí)延問(wèn)題,以及AI算法在實(shí)際運(yùn)行中如何做到可觀可控等問(wèn)題還有待進(jìn)一步解決。

          你提到音頻這一塊是不是越來(lái)越小眾了?當(dāng)下看到的感覺(jué)是越來(lái)越小,但我們要看未來(lái)(的應(yīng)用)。

          目前我們只是做了單聲道、雙聲道的通話應(yīng)用,未來(lái)必然是沉浸式的虛擬現(xiàn)實(shí)音視頻體驗(yàn),隨著傳感器工藝升級(jí),設(shè)備體積進(jìn)一步微型化,網(wǎng)絡(luò)管道的海量帶寬支持,未來(lái)我們將可以非常自由的體驗(yàn)與現(xiàn)實(shí)世界無(wú)異的虛擬現(xiàn)實(shí)世界,這里運(yùn)用到的3D立體音頻動(dòng)態(tài)建模,實(shí)際環(huán)境聲場(chǎng)與虛擬聲場(chǎng)的融合交互技術(shù)。

          另外,隨著便攜傳感器的普及,AI對(duì)個(gè)人和群體的數(shù)據(jù)分析,AI會(huì)比我們自己更了解自己,例如AI根據(jù)外界環(huán)境狀況、個(gè)人喜好、當(dāng)前身體的各項(xiàng)檢測(cè)指標(biāo)判別你當(dāng)下的情緒和心理狀況,可以為你提供更適合當(dāng)前個(gè)人心情、場(chǎng)景環(huán)境的音樂(lè),讓你身心更愉悅或者讓你的情緒得到更有效的宣泄。現(xiàn)在也有一些主動(dòng)降噪的音效設(shè)備,放在床邊,能夠主動(dòng)抑制你的打鼾的聲音,讓你和家人能夠睡得更好,這些都是音頻技術(shù)可以看到的未來(lái)。

          不要局限在自己所做的事情,技術(shù)可以在不同的應(yīng)用場(chǎng)景上得以延展,不同應(yīng)用場(chǎng)景反過(guò)來(lái)決定了需要什么樣的技術(shù),什么樣的算法。所以我并不覺(jué)得我們沒(méi)什么事情可做了,只有我們沒(méi)有把場(chǎng)景和用戶需求理解到位,這反而是我們擔(dān)心的。倘若我們對(duì)用戶需求都不理解,對(duì)使用場(chǎng)景不理解,那我們確實(shí)沒(méi)什么可做的。如果我們搞清楚了用戶的應(yīng)用場(chǎng)景,我們才能開(kāi)發(fā)出相應(yīng)的技術(shù),并告知用戶這個(gè)技術(shù)特性是你所需要的。所以要吃透分析用戶場(chǎng)景和需求,肯定會(huì)有很多事情需要我們做的。

          Q:我的體會(huì)是這樣,我在用英語(yǔ)流利說(shuō)學(xué)英文,非常大的一個(gè)難點(diǎn),就是我在地鐵和公交車(chē)上,噪聲很大,這個(gè)時(shí)候我說(shuō)同樣的話,評(píng)分就會(huì)比安靜的環(huán)境低很多,他沒(méi)辦法根據(jù)環(huán)境去適應(yīng)。如果通過(guò)陣列麥克風(fēng)這樣的硬件可以做到降噪,但是普通的手機(jī)是沒(méi)辦法實(shí)現(xiàn)的。

          梁俊斌:一般人只有兩個(gè)耳朵,如果播放單聲道音源的時(shí)候,你可以理解人只用了一個(gè)耳朵,因?yàn)樗麅蓚€(gè)耳朵聽(tīng)到的東西是完全一樣的。

          人在聽(tīng)單聲道的信號(hào)的時(shí)候,單個(gè)耳朵就能抽取出自己感興趣的內(nèi)容,而忽略干擾信號(hào)的部分,這就是雞尾酒會(huì)效應(yīng),即在一個(gè)很繁雜的環(huán)境里人都能快速捕獲自己想聽(tīng)的內(nèi)容。

          相比之下,我們目前還需要借助多個(gè)麥克風(fēng)組成陣列,通過(guò)陣列算法來(lái)增強(qiáng)某個(gè)方向的信號(hào)衰弱其它方向的信號(hào),如果需要角度分辨度更高,或者立體空間某個(gè)角落的聲音信號(hào)則需要更加多的麥克風(fēng)和更復(fù)雜的陣列布局。

          所以這個(gè)領(lǐng)域的研究就很有趣了,單個(gè)人耳完勝我們目前商用的麥克風(fēng)陣列。很多大牛都在研究這個(gè),還沒(méi)有完全攻克,如果這個(gè)問(wèn)題解決了,那普通手機(jī)只需要一個(gè)麥克風(fēng)就可以實(shí)現(xiàn)人耳相近的效果了。

          什么是麥克風(fēng)陣列?

          麥克風(fēng)陣列(Microphone Array),從字面上,指的是麥克風(fēng)的排列。也就是說(shuō)由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。采用該技術(shù),能利用兩個(gè)麥克風(fēng)接收到聲波的相位之間的差異對(duì)聲波進(jìn)行過(guò)濾,能最大限度將環(huán)境背景聲音清除掉,只剩下需要的聲波。對(duì)于在嘈雜的環(huán)境下采用這種配置的設(shè)備,能使聽(tīng)者聽(tīng)起來(lái)很清晰,無(wú)雜音。

          附錄1:更多音視頻技術(shù)文章

          [1] 開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC的文章:

          開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC的現(xiàn)狀

          簡(jiǎn)述開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC的優(yōu)缺點(diǎn)

          訪談WebRTC標(biāo)準(zhǔn)之父:WebRTC的過(guò)去、現(xiàn)在和未來(lái)

          良心分享:WebRTC 零基礎(chǔ)開(kāi)發(fā)者教程(中文)[附件下載]

          WebRTC實(shí)時(shí)音視頻技術(shù)的整體架構(gòu)介紹

          新手入門(mén):到底什么是WebRTC服務(wù)器,以及它是如何聯(lián)接通話的?

          WebRTC實(shí)時(shí)音視頻技術(shù)基礎(chǔ):基本架構(gòu)和協(xié)議棧

          淺談開(kāi)發(fā)實(shí)時(shí)視頻直播平臺(tái)的技術(shù)要點(diǎn)

          [觀點(diǎn)] WebRTC應(yīng)該選擇H.264視頻編碼的四大理由

          基于開(kāi)源WebRTC開(kāi)發(fā)實(shí)時(shí)音視頻靠譜嗎?第3方SDK有哪些?

          開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC中RTP/RTCP數(shù)據(jù)傳輸協(xié)議的應(yīng)用

          簡(jiǎn)述實(shí)時(shí)音視頻聊天中端到端加密(E2EE)的工作原理

          實(shí)時(shí)通信RTC技術(shù)棧之:視頻編解碼

          開(kāi)源實(shí)時(shí)音視頻技術(shù)WebRTC在Windows下的簡(jiǎn)明編譯教程

          網(wǎng)頁(yè)端實(shí)時(shí)音視頻技術(shù)WebRTC:看起來(lái)很美,但離生產(chǎn)應(yīng)用還有多少坑要填?

          了不起的WebRTC:生態(tài)日趨完善,或?qū)?shí)時(shí)音視頻技術(shù)白菜化

          >> 更多同類(lèi)文章 ……

          [2] 實(shí)時(shí)音視頻開(kāi)發(fā)的其它精華資料:

          即時(shí)通訊音視頻開(kāi)發(fā)(一):視頻編解碼之理論概述

          即時(shí)通訊音視頻開(kāi)發(fā)(二):視頻編解碼之?dāng)?shù)字視頻介紹

          即時(shí)通訊音視頻開(kāi)發(fā)(三):視頻編解碼之編碼基礎(chǔ)

          即時(shí)通訊音視頻開(kāi)發(fā)(四):視頻編解碼之預(yù)測(cè)技術(shù)介紹

          即時(shí)通訊音視頻開(kāi)發(fā)(五):認(rèn)識(shí)主流視頻編碼技術(shù)H.264

          即時(shí)通訊音視頻開(kāi)發(fā)(六):如何開(kāi)始音頻編解碼技術(shù)的學(xué)習(xí)

          即時(shí)通訊音視頻開(kāi)發(fā)(七):音頻基礎(chǔ)及編碼原理入門(mén)

          即時(shí)通訊音視頻開(kāi)發(fā)(八):常見(jiàn)的實(shí)時(shí)語(yǔ)音通訊編碼標(biāo)準(zhǔn)

          即時(shí)通訊音視頻開(kāi)發(fā)(九):實(shí)時(shí)語(yǔ)音通訊的回音及回音消除概述

          即時(shí)通訊音視頻開(kāi)發(fā)(十):實(shí)時(shí)語(yǔ)音通訊的回音消除技術(shù)詳解

          即時(shí)通訊音視頻開(kāi)發(fā)(十一):實(shí)時(shí)語(yǔ)音通訊丟包補(bǔ)償技術(shù)詳解

          即時(shí)通訊音視頻開(kāi)發(fā)(十二):多人實(shí)時(shí)音視頻聊天架構(gòu)探討

          即時(shí)通訊音視頻開(kāi)發(fā)(十三):實(shí)時(shí)視頻編碼H.264的特點(diǎn)與優(yōu)勢(shì)

          即時(shí)通訊音視頻開(kāi)發(fā)(十四):實(shí)時(shí)音視頻數(shù)據(jù)傳輸協(xié)議介紹

          即時(shí)通訊音視頻開(kāi)發(fā)(十五):聊聊P2P與實(shí)時(shí)音視頻的應(yīng)用情況

          即時(shí)通訊音視頻開(kāi)發(fā)(十六):移動(dòng)端實(shí)時(shí)音視頻開(kāi)發(fā)的幾個(gè)建議

          即時(shí)通訊音視頻開(kāi)發(fā)(十七):視頻編碼H.264、VP8的前世今生

          實(shí)時(shí)語(yǔ)音聊天中的音頻處理與編碼壓縮技術(shù)簡(jiǎn)述

          網(wǎng)易視頻云技術(shù)分享:音頻處理與壓縮技術(shù)快速入門(mén)

          學(xué)習(xí)RFC3550:RTP/RTCP實(shí)時(shí)傳輸協(xié)議基礎(chǔ)知識(shí)

          基于RTMP數(shù)據(jù)傳輸協(xié)議的實(shí)時(shí)流媒體技術(shù)研究(論文全文)

          聲網(wǎng)架構(gòu)師談實(shí)時(shí)音視頻云的實(shí)現(xiàn)難點(diǎn)(視頻采訪)

          淺談開(kāi)發(fā)實(shí)時(shí)視頻直播平臺(tái)的技術(shù)要點(diǎn)

          還在靠“喂喂喂”測(cè)試實(shí)時(shí)語(yǔ)音通話質(zhì)量?本文教你科學(xué)的評(píng)測(cè)方法!

          實(shí)現(xiàn)延遲低于500毫秒的1080P實(shí)時(shí)音視頻直播的實(shí)踐分享

          移動(dòng)端實(shí)時(shí)視頻直播技術(shù)實(shí)踐:如何做到實(shí)時(shí)秒開(kāi)、流暢不卡

          如何用最簡(jiǎn)單的方法測(cè)試你的實(shí)時(shí)音視頻方案

          技術(shù)揭秘:支持百萬(wàn)級(jí)粉絲互動(dòng)的Facebook實(shí)時(shí)視頻直播

          簡(jiǎn)述實(shí)時(shí)音視頻聊天中端到端加密(E2EE)的工作原理

          移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(一):開(kāi)篇

          移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(二):采集

          移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(三):處理

          移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(四):編碼和封裝

          移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(五):推流和傳輸

          移動(dòng)端實(shí)時(shí)音視頻直播技術(shù)詳解(六):延遲優(yōu)化

          理論聯(lián)系實(shí)際:實(shí)現(xiàn)一個(gè)簡(jiǎn)單地基于HTML5的實(shí)時(shí)視頻直播

          IM實(shí)時(shí)音視頻聊天時(shí)的回聲消除技術(shù)詳解

          淺談實(shí)時(shí)音視頻直播中直接影響用戶體驗(yàn)的幾項(xiàng)關(guān)鍵技術(shù)指標(biāo)

          如何優(yōu)化傳輸機(jī)制來(lái)實(shí)現(xiàn)實(shí)時(shí)音視頻的超低延遲?

          首次披露:快手是如何做到百萬(wàn)觀眾同場(chǎng)看直播仍能秒開(kāi)且不卡頓的?

          Android直播入門(mén)實(shí)踐:動(dòng)手搭建一套簡(jiǎn)單的直播系統(tǒng)

          網(wǎng)易云信實(shí)時(shí)視頻直播在TCP數(shù)據(jù)傳輸層的一些優(yōu)化思路

          實(shí)時(shí)音視頻聊天技術(shù)分享:面向不可靠網(wǎng)絡(luò)的抗丟包編解碼器

          P2P技術(shù)如何將實(shí)時(shí)視頻直播帶寬降低75%?

          專(zhuān)訪微信視頻技術(shù)負(fù)責(zé)人:微信實(shí)時(shí)視頻聊天技術(shù)的演進(jìn)

          騰訊音視頻實(shí)驗(yàn)室:使用AI黑科技實(shí)現(xiàn)超低碼率的高清實(shí)時(shí)視頻聊天

          微信團(tuán)隊(duì)分享:微信每日億次實(shí)時(shí)音視頻聊天背后的技術(shù)解密

          近期大熱的實(shí)時(shí)直播答題系統(tǒng)的實(shí)現(xiàn)思路與技術(shù)難點(diǎn)分享

          福利貼:最全實(shí)時(shí)音視頻開(kāi)發(fā)要用到的開(kāi)源工程匯總

          七牛云技術(shù)分享:使用QUIC協(xié)議實(shí)現(xiàn)實(shí)時(shí)視頻直播0卡頓!

          實(shí)時(shí)音視頻聊天中超低延遲架構(gòu)的思考與技術(shù)實(shí)踐

          理解實(shí)時(shí)音視頻聊天中的延時(shí)問(wèn)題一篇就夠

          實(shí)時(shí)視頻直播客戶端技術(shù)盤(pán)點(diǎn):Native、HTML5、WebRTC、微信小程序

          寫(xiě)給小白的實(shí)時(shí)音視頻技術(shù)入門(mén)提綱

          微信多媒體團(tuán)隊(duì)訪談:音視頻開(kāi)發(fā)的學(xué)習(xí)、微信的音視頻技術(shù)和挑戰(zhàn)等

          騰訊技術(shù)分享:微信小程序音視頻技術(shù)背后的故事

          微信多媒體團(tuán)隊(duì)梁俊斌訪談:聊一聊我所了解的音視頻技術(shù)

          >> 更多同類(lèi)文章 ……

          附錄2:QQ、微信團(tuán)隊(duì)的技術(shù)分享

          微信朋友圈千億訪問(wèn)量背后的技術(shù)挑戰(zhàn)和實(shí)踐總結(jié)

          騰訊技術(shù)分享:騰訊是如何大幅降低帶寬和網(wǎng)絡(luò)流量的(圖片壓縮篇)

          騰訊技術(shù)分享:騰訊是如何大幅降低帶寬和網(wǎng)絡(luò)流量的(音視頻技術(shù)篇)

          微信團(tuán)隊(duì)分享:微信移動(dòng)端的全文檢索多音字問(wèn)題解決方案

          騰訊技術(shù)分享:Android版手機(jī)QQ的緩存監(jiān)控與優(yōu)化實(shí)踐

          微信團(tuán)隊(duì)分享:iOS版微信的高性能通用key-value組件技術(shù)實(shí)踐

          微信團(tuán)隊(duì)分享:iOS版微信是如何防止特殊字符導(dǎo)致的炸群、APP崩潰的?

          騰訊技術(shù)分享:Android手Q的線程死鎖監(jiān)控系統(tǒng)技術(shù)實(shí)踐

          微信團(tuán)隊(duì)原創(chuàng)分享:iOS版微信的內(nèi)存監(jiān)控系統(tǒng)技術(shù)實(shí)踐

          讓互聯(lián)網(wǎng)更快:新一代QUIC協(xié)議在騰訊的技術(shù)實(shí)踐分享

          iOS后臺(tái)喚醒實(shí)戰(zhàn):微信收款到賬語(yǔ)音提醒技術(shù)總結(jié)

          騰訊技術(shù)分享:社交網(wǎng)絡(luò)圖片的帶寬壓縮技術(shù)演進(jìn)之路

          微信團(tuán)隊(duì)分享:視頻圖像的超分辨率技術(shù)原理和應(yīng)用場(chǎng)景

          微信團(tuán)隊(duì)分享:微信每日億次實(shí)時(shí)音視頻聊天背后的技術(shù)解密

          QQ音樂(lè)團(tuán)隊(duì)分享:Android中的圖片壓縮技術(shù)詳解(上篇)

          QQ音樂(lè)團(tuán)隊(duì)分享:Android中的圖片壓縮技術(shù)詳解(下篇)

          騰訊團(tuán)隊(duì)分享:手機(jī)QQ中的人臉識(shí)別酷炫動(dòng)畫(huà)效果實(shí)現(xiàn)詳解

          騰訊團(tuán)隊(duì)分享 :一次手Q聊天界面中圖片顯示bug的追蹤過(guò)程分享

          微信團(tuán)隊(duì)分享:微信Android版小視頻編碼填過(guò)的那些坑》 

          微信手機(jī)端的本地?cái)?shù)據(jù)全文檢索優(yōu)化之路》 

          企業(yè)微信客戶端中組織架構(gòu)數(shù)據(jù)的同步更新方案優(yōu)化實(shí)戰(zhàn)

          微信團(tuán)隊(duì)披露:微信界面卡死超級(jí)bug“15。。。。”的來(lái)龍去脈

          QQ 18年:解密8億月活的QQ后臺(tái)服務(wù)接口隔離技術(shù)

          月活8.89億的超級(jí)IM微信是如何進(jìn)行Android端兼容測(cè)試的

          以手機(jī)QQ為例探討移動(dòng)端IM中的“輕應(yīng)用”

          一篇文章get微信開(kāi)源移動(dòng)端數(shù)據(jù)庫(kù)組件WCDB的一切!

          微信客戶端團(tuán)隊(duì)負(fù)責(zé)人技術(shù)訪談:如何著手客戶端性能監(jiān)控和優(yōu)化

          微信后臺(tái)基于時(shí)間序的海量數(shù)據(jù)冷熱分級(jí)架構(gòu)設(shè)計(jì)實(shí)踐

          微信團(tuán)隊(duì)原創(chuàng)分享:Android版微信的臃腫之困與模塊化實(shí)踐之路

          微信后臺(tái)團(tuán)隊(duì):微信后臺(tái)異步消息隊(duì)列的優(yōu)化升級(jí)實(shí)踐分享

          微信團(tuán)隊(duì)原創(chuàng)分享:微信客戶端SQLite數(shù)據(jù)庫(kù)損壞修復(fù)實(shí)踐》 

          騰訊原創(chuàng)分享(一):如何大幅提升移動(dòng)網(wǎng)絡(luò)下手機(jī)QQ的圖片傳輸速度和成功率》 

          騰訊原創(chuàng)分享(二):如何大幅壓縮移動(dòng)網(wǎng)絡(luò)下APP的流量消耗(下篇)》 

          騰訊原創(chuàng)分享(三):如何大幅壓縮移動(dòng)網(wǎng)絡(luò)下APP的流量消耗(上篇)》 

          微信Mars:微信內(nèi)部正在使用的網(wǎng)絡(luò)層封裝庫(kù),即將開(kāi)源》 

          如約而至:微信自用的移動(dòng)端IM網(wǎng)絡(luò)層跨平臺(tái)組件庫(kù)Mars已正式開(kāi)源》 

          開(kāi)源libco庫(kù):?jiǎn)螜C(jī)千萬(wàn)連接、支撐微信8億用戶的后臺(tái)框架基石 [源碼下載]》 

          微信新一代通信安全解決方案:基于TLS1.3的MMTLS詳解》 

          微信團(tuán)隊(duì)原創(chuàng)分享:Android版微信后臺(tái)保活實(shí)戰(zhàn)分享(進(jìn)程保活篇)》 

          微信團(tuán)隊(duì)原創(chuàng)分享:Android版微信后臺(tái)保活實(shí)戰(zhàn)分享(網(wǎng)絡(luò)保活篇)》 

          Android版微信從300KB到30MB的技術(shù)演進(jìn)(PPT講稿) [附件下載]》 

          微信團(tuán)隊(duì)原創(chuàng)分享:Android版微信從300KB到30MB的技術(shù)演進(jìn)》 

          微信技術(shù)總監(jiān)談架構(gòu):微信之道——大道至簡(jiǎn)(演講全文)

          微信技術(shù)總監(jiān)談架構(gòu):微信之道——大道至簡(jiǎn)(PPT講稿) [附件下載]》 

          如何解讀《微信技術(shù)總監(jiān)談架構(gòu):微信之道——大道至簡(jiǎn)》

          微信海量用戶背后的后臺(tái)系統(tǒng)存儲(chǔ)架構(gòu)(視頻+PPT) [附件下載]

          微信異步化改造實(shí)踐:8億月活、單機(jī)千萬(wàn)連接背后的后臺(tái)解決方案》 

          微信朋友圈海量技術(shù)之道PPT [附件下載]》 

          微信對(duì)網(wǎng)絡(luò)影響的技術(shù)試驗(yàn)及分析(論文全文)》 

          一份微信后臺(tái)技術(shù)架構(gòu)的總結(jié)性筆記》 

          架構(gòu)之道:3個(gè)程序員成就微信朋友圈日均10億發(fā)布量[有視頻]》 

          快速裂變:見(jiàn)證微信強(qiáng)大后臺(tái)架構(gòu)從0到1的演進(jìn)歷程(一)

          快速裂變:見(jiàn)證微信強(qiáng)大后臺(tái)架構(gòu)從0到1的演進(jìn)歷程(二)》 

          微信團(tuán)隊(duì)原創(chuàng)分享:Android內(nèi)存泄漏監(jiān)控和優(yōu)化技巧總結(jié)》 

          全面總結(jié)iOS版微信升級(jí)iOS9遇到的各種“坑”》 

          微信團(tuán)隊(duì)原創(chuàng)資源混淆工具:讓你的APK立減1M》 

          微信團(tuán)隊(duì)原創(chuàng)Android資源混淆工具:AndResGuard [有源碼]》 

          Android版微信安裝包“減肥”實(shí)戰(zhàn)記錄》 

          iOS版微信安裝包“減肥”實(shí)戰(zhàn)記錄》 

          移動(dòng)端IM實(shí)踐:iOS版微信界面卡頓監(jiān)測(cè)方案》 

          微信“紅包照片”背后的技術(shù)難題》 

          移動(dòng)端IM實(shí)踐:iOS版微信小視頻功能技術(shù)方案實(shí)錄》 

          移動(dòng)端IM實(shí)踐:Android版微信如何大幅提升交互性能(一)

          移動(dòng)端IM實(shí)踐:Android版微信如何大幅提升交互性能(二)

          移動(dòng)端IM實(shí)踐:實(shí)現(xiàn)Android版微信的智能心跳機(jī)制》 

          移動(dòng)端IM實(shí)踐:WhatsApp、Line、微信的心跳策略分析》 

          移動(dòng)端IM實(shí)踐:谷歌消息推送服務(wù)(GCM)研究(來(lái)自微信)

          移動(dòng)端IM實(shí)踐:iOS版微信的多設(shè)備字體適配方案探討》 

          信鴿團(tuán)隊(duì)原創(chuàng):一起走過(guò) iOS10 上消息推送(APNS)的坑

          騰訊信鴿技術(shù)分享:百億級(jí)實(shí)時(shí)消息推送的實(shí)戰(zhàn)經(jīng)驗(yàn)

          IPv6技術(shù)詳解:基本概念、應(yīng)用現(xiàn)狀、技術(shù)實(shí)踐(上篇)

          IPv6技術(shù)詳解:基本概念、應(yīng)用現(xiàn)狀、技術(shù)實(shí)踐(下篇)

          騰訊TEG團(tuán)隊(duì)原創(chuàng):基于MySQL的分布式數(shù)據(jù)庫(kù)TDSQL十年鍛造經(jīng)驗(yàn)分享

          微信多媒體團(tuán)隊(duì)訪談:音視頻開(kāi)發(fā)的學(xué)習(xí)、微信的音視頻技術(shù)和挑戰(zhàn)等

          了解iOS消息推送一文就夠:史上最全iOS Push技術(shù)詳解

          騰訊技術(shù)分享:微信小程序音視頻技術(shù)背后的故事

          騰訊資深架構(gòu)師干貨總結(jié):一文讀懂大型分布式系統(tǒng)設(shè)計(jì)的方方面面

          微信多媒體團(tuán)隊(duì)梁俊斌訪談:聊一聊我所了解的音視頻技術(shù)

          >> 更多同類(lèi)文章 ……

          (本文同步發(fā)布于:http://www.52im.net/thread-1828-1-1.html



          作者:Jack Jiang (點(diǎn)擊作者姓名進(jìn)入Github)
          出處:http://www.52im.net/space-uid-1.html
          交流:歡迎加入即時(shí)通訊開(kāi)發(fā)交流群 215891622
          討論:http://www.52im.net/
          Jack Jiang同時(shí)是【原創(chuàng)Java Swing外觀工程BeautyEye】【輕量級(jí)移動(dòng)端即時(shí)通訊框架MobileIMSDK】的作者,可前往下載交流。
          本博文 歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)注明出處(也可前往 我的52im.net 找到我)。


          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          Jack Jiang的 Mail: jb2011@163.com, 聯(lián)系QQ: 413980957, 微信: hellojackjiang
          主站蜘蛛池模板: 赣州市| 南雄市| 平泉县| 仁怀市| 阳春市| 新干县| 平安县| 上虞市| 高台县| 东平县| 房山区| 介休市| 四子王旗| 沙田区| 开远市| 田东县| 潮州市| 简阳市| 冕宁县| 灵山县| 醴陵市| 城口县| 阳春市| 新干县| 神池县| 江西省| 牙克石市| 陇川县| 宁武县| 荆门市| 视频| 蒲江县| 静海县| 丹阳市| 红原县| 温宿县| 吉首市| 咸宁市| 太康县| 平武县| 营山县|