期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
摘 要:語譜圖是一種在語音分析以及語音合成中具有重要實用價值的時頻圖,能反映出語音信號動態頻譜特征,被認定是語音信號的可視語言。橫坐標代表時間大小,縱坐標代表頻率大小,時間和頻率所對應的像素點的值表示能量值的大小。本文對一小段語音信號和音樂信號進行處理,最終以語譜圖的形式展現出來,并通過對語譜圖的分析來判斷語音信號和音樂信號,檢測語音是否開始和結束,效果良好。這種方法容易區分語音信號中的有用聲段和噪聲聲段。實驗證明,純語音信號頻域能量和過零率變化要大于音樂信號。音樂信號較語音信號能量譜穩定。
關鍵詞:語譜圖;語音分析;語音合成;短時能量;過零率
推薦閱讀:發表人臉識別論文的計算機類期刊
1 引言(Introduction)
語音信號數字處理是一門涉及諸多學科的交叉學科,它以生理學、心理學、語音學和聲學等學科為基礎[1]。語譜圖的廣泛應用研究,從而推動了語譜圖在生活中的利用,結合語譜圖的技術分析,讓其在聲紋鑒定、聾人語訓、數字音頻水印、車型識別、語音合成,以及語音編碼等方面也具有研究意義。語音輸入人機交互手段,日漸成為智慧生活的一部分。
目前開設人工智能專業,研究語音交互的高校日益增多。越來越多人工智能產品問世,有代表性的是騰訊公司的微信,小米公司的米聊、百度公司的小度智能音箱和小米公司的小愛智能音箱。本文針對自然語音和音樂從頻域能量和過零率方面比較,并分析了語音和音樂語譜圖特征。
2 音頻信號處理(Audio signal processing)
語音信號采集處理:第一步將信號進行采樣量化,第二步進行預處理。
預處理步驟包括:預加重、加窗、分幀等。
在此項研究中,音頻是多媒體中的一種重要載體,聲音經過模擬設備記錄或再生,成為模擬音頻,在經數字化成為數字音頻。音頻分析就是以數字音頻信號為分析對象,以數字信號處理為分析手段,提取信號在時域、頻域內一系列的過程。音頻測量一般包括信號電壓、頻率、信噪比、諧波失真等基本參數。
語譜圖的產生流程框圖如圖1所示。
2.1 音頻信號的預加重
從時頻域來看,漢明窗比矩形窗帶寬大兩倍。矩形窗的主瓣寬度小于漢明窗,頻譜分辨率高,然旁瓣峰值較大,容易頻譜泄露,造成高頻成分丟失。漢明窗比矩形窗顯得更平滑些,其旁瓣衰減明顯,更能反映信號時頻特性。
往往選擇窗函數還要看信號基音周期。一個語音幀正常包含1—7個基音周期。不同人的基音周期存在差異。基音周期變化范圍通常是2—14ms,基音頻率變化范圍是500—700Hz,致使N的選擇比較困難。采樣頻率是10kHz時,N點取100—200點比較合適(即10—20ms持續時間)。
2.3 音頻信號的能量和過零率分析
短時能量用來分辨短時音頻信號中的清音和濁音,濁音和清音差別很大,容易區分;還可以界定有聲段和無聲段,以及聲母和韻母。語音識別中,短時能量也能代表語音信號的一些特征[8]。
從圖2和圖3可以看出語音部分的能量是整段語音中最高的部分。而語音部分又分為靜音段、清音段和濁音段三部分,從圖中可以明顯看出值小的是清音段,值大的是濁音段。短時能量可以用來區分語音的清音段和濁音段。語音中含有比音樂中更多的靜音,語音的能量變化比音樂中的大的多。
短時平均過零率代表一幀內信號過零次數。連續信號,觀察其時域波形通過X軸次數即可。離散信號,觀察其信號采樣點符號的變化次數即可。
圖4為語音“西安工業大學”的短時平均過零率圖,圖5為小段音樂“darling”的短時平均過零率圖。
從圖4和圖5可以看出,語音信號和音樂信號不一樣的地方,其由發音的音節和不發音的音節交替組成。語音由于清濁音交替出現,過零率變化明顯比音樂激烈。
3 語譜圖生成和分析(Spectrogram generation and analysis)
本次設計利用Cool Edit Pro,普通立體聲麥克風和筆記本電腦進行錄音。設定采樣頻率8000Hz,幀長取100點,兩幀間距取100點,進行16比特量化。經過采樣之后,得到標準化數字語音信號。
此次錄入的語音信號“西安工業大學”文件名為xg.wav,截取音樂“darling”,將音樂保存文件名為darling.wav。
將音頻信號經過前面一系列的處理之后,我們得到語音信號和音樂信號的語譜圖,分別如圖6和圖7所示。
從圖6和圖7得到,語音信號和純音樂歌曲信號相比,語音頻譜中峰值變化快,不穩定。語譜圖橫軸代表時間,縱軸代表頻率,一個個像素點的值對應于語音信號的能量密度值。采用二維平面示意三維信息,其能量值的大小用顏色來表示,顏色深,代表這個點的語音能量越強。渲圖效果越亮即此處能量越大。
觀察圖6可發現在彩色語譜圖中會間斷的出現空隙,這是因為人在說話的時候會有呼吸的交替,從而出現空隙,在圖7中,間隙很少出現,在音樂播放同時樂譜的伴奏是連續且不間斷地演奏從而很少會出現圖像中間隙的部分。
觀察圖6和圖7可以看出橫杠清楚的出現在圖中的摩擦亂紋,說明了此處語音的錄入出現了濁音。還有一些沒有規則的亂紋,這些條紋代表了語譜圖中具有和時間軸平行的橫條和與時間軸垂直的豎直條。其中,橫條的出現表示語音信號中的共振峰,對于豎直條而言,代表了語音信號基音的周期以及基音頻率等信息。
如果在連續的若干幀中,能量譜中的峰值[10]出現在頻域中相對穩定的位置,則認為這些音頻信號含有音樂成分。
4 結論(Conclusion)
語譜圖是一種可觀察信號特性的平面圖,通過分析音頻的產生原理可以觀察到聲源點的共振屬性和聲樂在自然界的特性。語譜圖用顏色深淺表示聲紋強度大小。顏色深在語譜圖中所占比重大,那么相應影響人感知的效果要強烈得多。通過實驗分析,可以有效區分純音樂、背景音樂語音、純語音。這一過程在場景識別、語音識別、聲紋識別中起著關鍵性的作用。
參考文獻(References)
[1] Zhen Huang,Sabato Marco Siniscalchi,Chin-Hui Lee,et al.A unified approach to transfer learning of deep neural networks with applications to speaker adaptation in automatic speech recognition[J].Neurocomputing,2016(218):448-459.
[2] Ivan Himawan,Petr Motlicek,David Imseng ,Sridha Sridharan,et al.Feature mapping using far-field microphones for distant speech recognition[J].Speech Communication,2016(83):1-9.
[3] Foster R.Goss,Li Zhou,Scott G.Weiner,et al.Incidence of speech recognition errors in the emergency department[J].International Journal of Medical Informatics,2016(93):70-73.
[4] 韓紀慶,張磊,鄭鐵然,等.語音信號處理[M].北京:清華大學出版社,2004:10-19.
[5] 白燕燕,胡曉霞,鄭三婷,等.基于聽覺特性的聲紋識別系統的研究[J].電子設計工程,2015,2(4):86-91.
[6] 趙力.語音信號處理[M].北京:機械工業出版社,2003:43-51.
[7] 張峰,石現峰,張學智,等.數字信號處理原理及應用[M].北京:電子工業出版社,2010:43-55.
[8] 李富強,萬紅,黃俊杰,等.基于MATLAB語譜圖的顯示與分析[J].微計算機信息,2005,21(103):71-76.
[9] 白燕燕.基于聲紋識別的身份確認系統的研究[D].西安工業大學,2012:16-21.
[10] 陳青,龔乾,張鳴,等.基于語譜圖的聲樂分析[J].微計算機信息(管控一體化),2010,26(73):6-8.