T HC NGH IM RÊN MALAB
3.1 Phân tích ting nói
Nh ătrênăhìnhă3.1ăchoăchúngătaăthấyăs ăđ kh i c a vi c phân tích tín hi u b ng LPC.
Hình 3.1: S ăđ kh i phân tích ti ng nói
Xử lý tín hi u trong th i gian ng n,ăchúngătaăth ng dùng cửa sổđể xử lý tín hi u trong mi n tần s .ăTrongătr ng h p này, chúng ta dùng cửa sổ hamming.
H s d đoánăLPCăđ c tìm b ng cách sử d ng hàm v i P=10. Trong phân tích LPC, ti ng nói là k t qu gi định c a b lọc toàn c c v i ngu n quang phổ phẳng.
H s Găđ c tìm d a trên h s LPCăvƠăt ngăquanătínăhi u.
H s T0, U/UV d a trên s so sánh m tăng ỡngăchoătr c v iănĕngăl ngăđoă đ c.
3.2 Tổng h p ti ng nói
Đầu tiên, chúng ta xử lý file 'speech.wav', v i n iădungănh ăsau:ă"Paintătheă circuits" v tín hi u d ng sóng v i t căđ lấy m u 8000Hz và phổ c aăchúng,ănh ă trên hình 3.2
Hình 3.2: D ng sóng tín hi u
File có đ dài kho ng 1.1s(9000 m u), sau khi v tín hi u d ng sóng chúng ta thấyăđ că4ănguyênăơm,ănguyênăơmăth ngăcóăbiênăđ caoăh nănh ng âm khác.
Tín hi u d ngăsóngăchoăchúngătaăítăthôngătin,ăthôngătinăđƣăđ c ẩnăđi.ăĐể thấy đ c, chúng ta s v phổ c a tín hi u v i m i frame 5ms(40 m u) và cửa sổ hammingănh ătrênăhìnhă3.3
Hình 3.3: Phổ c a tín hi u ti ng nói
Nh ng Formants(tần s c ngăh ng c a dây thanh) xuất hi n t i và khá r ng các v t ngang. Chính vì v y, formant là tham s để xử lý ti ng nói.
3.2.1Tổng h p d đoán tuy n tính c a tín hi u h u thanh
Chúng ta xét m t Frame kho ng 30s c a m t file ti ng nói và chúng có d ng nh ătrênăhìnhă3.4
Hình 3.4: D ng sóng tín hi u kho ng 30s
Chúngătaămongăđ i tín hi u ti ng nói xấp xỉ kho ng 65 m u, v i tần s c ăb n 125Hz). Và n i dung c a Frame này b ngă hƠmă periodogram(512ă điểm)ă nh ă trênă hình 3.5
Hình 3.5: N i dung c a Frame
Tần s c ă b n xuất hi n trong kho ng 125Hz. Chúng ta có thể c l ng kho ng cách vịtríăcácăformant(đỉnh trong quan phổ envelope) t i ±300Hz, 1400Hz, 2700Hz.
Chúng ta dùng mô hình LPC v iăP=10.ăChúngătaăcóăđ c h s d đoánăai và s thayăđổi c a residual c a tín hi u.
Vi că că l ng tham s LPC, chúng ta dùng thu t toán Levinson-Durbin. Chọn h s c a b lọc FIR A(z) sao cho tín Frame vào trong A(z),ăngõăraăcóănĕngă l ng thấp nhất. A(z) là b lọcă"Inverse".ăChúngătaăcóăđápă ng tần s (512ăđiểm)và b lọc tổng h p 1/A(z) nh ătrênăhìnhă3.6
Hình 3.6: Đápă ng tần s c a Inverse và b lọc tổng h p
Nóiă cáchă khác,ă đápă ng tần s c a b lọc 1/A(z) phù h p v i phổ biênă đ envelope c a Frame. Chúng ta hãy xét superimpose c aă đápă ng tần s v i periodogram c aănguyênăơmănh ătrênăhìnhă3.7.
Hình 3.7: Đápă ng tần s c a b lọc tổng h p
S phù h păLPCăđ c t đ ngăđi u chỉnhăcácăđiểm c c c a b lọc gần v i đ ngătrònăđ năvị nh ătrênăhìnhă3.8
Hình 3.8: Điểm c c và Zero c a b lọc
N u chúng ta áp d ng inverse c a b lọc v i Frame ngõ vào, chúng ta s có d đoánăresidualăvƠăperiodogramănh ătrênăhìnhă3.9ăvƠă3.10.
Hình 3.10: Periodogram c a d đoánăResidual
So sánh phổ c a tín hi u residual v i phổ c a tín hi u g c. Phổ m i này xấp xỉ b ng phẳng,ăPitchăvƠăơmăđi uăđ c b o toàn. Rõ ràng b lọc c a tổng h p là nghịch đ o c a b lọc Inverse.
Th c s , mô hình LPC mô hình hóa d đoánăresidualăc a ti ng nói h u thanh nh ălƠăm t chu i xung có thể đi u chỉnhăđ căPitchăvƠăbiênăđ . Chẳng h nănh :ă Chúng ta xem xét Frame tín hi u, excitation là m t chu i xung cách ly b i 64 zeros nh ătrênăhìnhă3.11ăvƠăPeriodogramănh ătrênăhìnhă3.12
Hình 3.12: Periodogram c a LPC excitation
Rõ ràng, quang phổ c aăLPCăexcitationăcóăđặcăđiểm phổ t ngăt nh ăphổ c a tín hi u residual: envelope b ng phẳng, n iădungăơmăđi uăt ngă ng v i F0. S khác nhau chính là phổ c a excitation thì "over-harmonic " so v i phổ c a tín hi u residual.
Nh ăv y, chúng ta thử sử d ng b lọc tổng h păđể t oăraăơmă"e"ănh ătrênăhìnhă 3.13ăvƠăPeriodogramănh ătrênăhìnhă3.14
Hình 3.14: Phổ tín hi u c a âm "e"
3.2.2Tổng h p ti ng nói c a âm vô thanh
Chúng ta xét m t Frame h uăthanhănh ătrênăhìnhă3.15,ăvƠăsoăsánhăphổ c a nó nh ătrênăhìnhă3.16.
Xét n i dung phổ c aăFrameănƠy,ăchúngătaăđ i v i v i vấnăđ nhi u tín hi u, chúng ta sử d ngăaveragedăperiodogramăđể căl ng m tăđ phổ công suất, mặc dùăđ phân gi i tần s thấpăh năkhiădùngăperiodogram.ăHƠmăpwlechăv i 8 subframe và 50% overlapănh ătrên hình 3.16.
Hình 3.16: M tăđ phổ công suất
Xét mô hình LP v i s b c là 10, và tổng h p m t Frame. Tổng h păđ c th c hi n b ng b lọc toàn c c, Frame nhi u Gaussian v iă đ l iă đ c thi t l p theo residual.
3.3 Thay đổi thông s c a ch ng trình Matlab
Cách th căthayăđổiănh ăsau:
1.Thayăđổi b c m t cách ng u nhiên 10, 15, 18, 20 c a b lọc LPC.
2.Dùng thu tătoánăPESQăđể đánhăgiá tín hi u sau khi tổng h p và t căđ xử lý(Laptop Intel(R) Core(TM) i3-2310M CPU @ 2.1GHz 2.1GHz Ram 6GB, Window 7 64bit )
3.3.1Cách th c th c hi n 3.3.1.1 Gi ng Nam 3.3.1.1 Gi ng Nam
Cácăcơuănh ăsau:
2.One two three four five six seven eight nine
3.University of Technical Education Ho Chi Minh City
Thayăđổi b c m t cách ng u nhiên 10, 15, 18, 20 c a b lọc LPC, th c hi năđoă t căđ xử lý. B ng 3.1 cho chúng ta thấy r ngăkhiăchúngătaătĕngăpăthìăthu t toán ph c t p. D năđ n t căđ thayăđổi(tĕngălên). B ng 3.2 là k t qu đánhăgiáăb ng thu t toán PESQ, b ng này cho chúng ta thấy r ngăkhiăchúngătaătĕngăpăđ ngănghƿaăv i vi c chúng ta chấtăl ng ti ng nói.
B ng 3.1: T căđ xử lý(Namătr ng thành) Nam Nam
Câu 1 Câu 2 Câu 3
B c Th iăgian(s) 10 0.296687 0.360157 0.398084 15 0.299712 0.361739 0.409344 18 0.30068 0.365433 0.419544 20 0.314293 0.367064 0.428009 B ng 3.2: B ng MOS(Nam tr ng thành) MOS Nam Câu 10 15 18 20 1 1.7212 1.7325 1.7871 1.7972 2 1.8998 1.9521 1.9641 1.9915 3 1.6281 1.6443 1.687 1.7195 3.3.1.2 Gi ng n Cácăcơuănh ăsau:
1.Tr ngăĐ i HọcăS ăPh m Kỹ Thu t H Chí Minh 2.One two three four five six seven eight nine
B ng 3.3 cho chúng ta thấy r ng khiăchúngătaătĕngăpăthìăthu t toán ph c t p. D năđ n t căđ thayă đổi(tĕngălên).ăB ng 3.4 là k t qu đánhăgiáăb ng thu t toán PESQ, b ng này cho chúng ta thấy r ngăkhiăchúngătaătĕngăpăđ ngănghƿaăv i vi c chúng ta chấtăl ng ti ng nói.
B ng 3.3: T căđ xử lý(N tr ng thành) N N
Câu 1 Câu 2 Câu 3
B c Th iăgian(s) 10 0.2995 0.574263 0.4062 15 0.3083 0.58068 0.4379 18 0.3131 0.58483 0.4595 20 0.3164 0.58606 0.464 B ng 3.4: B ng MOS(N tr ng thành) MOS N Câu 10 15 18 20 1 2.4108 2.537 2.4032 2.4203 2 2.2109 2.3207 2.431 2.456 3 2.3651 2.3715 2.4813 2.561
3.4 Th c hi n trên Kit TMS320C6713
B ng 3.5: Tính toán t căđ bit
Tham s Tính toán
Sample rate 8000 samples/second Samples per segment 180 samples/segment
Segment rate =Sample Rate/ Samples per Segment Sample =Rate/ Samples per Segment
=(8000 samples/second)/(180 samples/second) Bit rate =Segment size * Segment Rate
= (54 bits/segment) * (44.44 segments/second) =2400 bits/second
Tổng s bit cần thi t cho từng segment là 54 bit.Chúng ta có t căđ lấy m u 8000Hză vƠă đ c chia thành 180m u/segment. Đi uă nƠyă cóă nghƿaă xấp xỉ 44.4segment và t căđ bitălƠă2400ăbits/sănh ătrongăb ng 3.5
3.5.1Mã hóa
S ăđ kh i c a b mƣăhóaăđ c thể hi n trên hình 3.17
1.Ngõ vào tín hi uăđ căđ aăquaăcửa sổ hamming v i overlap là 50% 2.Tín hi uăđ căđ aăquaăb lọc Pre-emphasis
3.Tính toán d li u cửa sổ b ngăph ngăphápăt t ngăquan.
4.H s LPCăđ c tìm b ng thu t toán Levinson-Durbin Recursion. 5.Segment ti ngănóiăđ c lọc b i h s LPCăđể có residue.
6.Xácăđịnh tín hi u ti ng nói là h u thanh hoặcăvôăthanh.ăQuáătrìnhănƠyăđ c th c hi n b i hai tham s .
7.T t ngăquanăc aăresidueăđ cădùngăđể xácăđịnh chu kǶ.
8.T, G, V/UV và h s LPCăđ c k t h p l i t o thành segment ti ngănói.ăNh ă v y, segment ti ngănóiăhoƠnătoƠnăđ c mã hóa.
3.5.2Gi i mã
S ăđ kh i c a b gi i mã đ c thể hi n trên hình 3.18
Hình 3.18:ăS ăđ kh i gi i mã
Ti ngănóiăđƣăđ c mã hóaăhoƠnătoƠnănh ătrênăhìnhă3.18, các thu t toán cần thi t có thểđ c th c hi năđể tái t o l i ti ng nói. K t qu cu i cùng s là ti ng nói đ c tổng h p có thể đ c truy n v iăítăbĕngăthôngănhất có thể n u cần thi t. Hy
vọng r ng ti ngănóiăđ c tổng h p tái t o là m t xấp xỉ hiểuăđ i v i tín hi u ti ng nóiăbanăđầu.ăCácăb căsauăđơyăgi i thu t toán gi i mã.
1.T o mô hình kích thích các h s LPCăđặcătr ngăchoăkhungăs ho tăđ ng nh ăm t b lọcăđ ng.ăMƠăđóălƠăđầu vào cho các b lọc là kích thích.
2.Đ i v i âm h u thanh, s kích thích s là m t tín hi uăđịnh kǶ c a tất c các điểm zero v i xung từngăgiaiăđo n.ăĐơyălƠăm tămôăhìnhăđ năgi n c a s kích thích. Đ i v i âm vô thanh, kích thích s chỉ đ năgi n là nhi u tr ng.
3.B lọcăng c s kích thích thông qua h s LPC. 4.Ngõ ra s đ căđ aăquaăb lọc de-emphasis.
5.Ngõ ra c a b lọc de-emphasis là phù h p v iănĕngăl ng G c a segment.
3.5.3K t qu th c hi n trên Kit
Tác gi th c hi n 3 câu d iăđơyătrênăng iănamătr ng thành và n tr ng thành.
1.Tr ngăĐ i HọcăS ăPh m Kỹ Thu t H Chí Minh 2.One two three four five six seven eight nine
3.University of Technical Education Ho Chi Minh City
Sau khi th c hi n trên Kit , tác gi khaithácthu tătoánăPESQăđể đánh giá chất l ng ti ng nói . K t qu nh ăb ng 3.6 k t qu th c nghi m trên Kit
B ng 3.6: K t qu th c nghi m trên Kit MOS MOS
Câu Nam N 1 1.6471 1.6108 2 1.7166 1.5585 3 1.7932 1.6611
B ng 3.6 cho chúng ta thấy r ng k t qu MOSăđ u l năh nă1.5.ăĐi u này phù h p v i tiêu chuẩn P.862 c a ITU-T.
Ch ng 4
K T LU N
4.1. K t lu n
Mã hóa d đoánătuy n tính là m t kỹ thu t phân tích/tổng h p ti ng nói và cũngălƠăkỹ thu t nén suy hao, kỹ thu t này s mô hình hóa b máy phát âm c a con ng iăđể t o ra ti ng nói và t căđ bit thấp 2400bits/s. V i tỉ l nén là 26.6:1. Trong lu nă vĕnă nƠy, tác gi pháttriểnth chi ntrênth igian th cđ iv ithu ttoán mãhóati ngnóiLPC-10e nh ăsau:
Tr c tiên, tác gi s mô ph ng trên Matlab. K t qu mô ph ngăđ c tác gi đánhăgiáăb ng cách hai cách. Th nhất,ăđoăth i gian xử lý thu t toán b ng máy vi tính, cách này cho chúng ta thấy r ngăkhiăchúngătaăthayăđổiăpătĕng,ăđ ngănghƿaăv i thu t toán s ph c t păh năthìăt căđ xử lýăthayăđổi(tĕngălên).ăTh hai, th c hi n đánhăgiáăchấtăl ng ti ng nói thông qua tiêu chuẩn P.862, thu t toán c a tiêu chuẩn này cho chúng ta thấy r ngă điểm MOS l nă h nă 1.5,ă đi u này phù h p theo tiêu chuẩn P.862 c a ITU-T.
Ti p theo, tác gi th c hi n trên Kit TMS320C6713, k t qu th c nghi măcũngă đ căđánhăgiáăquaăthu t toán PESQ, vƠăđiểm MOS l năh nă1.5,ăđi u này phù h p theo tiêu chuẩn P.862 c a ITU-T.
Cu i cùng tác gi so sánh gi a mô ph ng trên Matlab và th c nghi m trên Kit DSP TMS320C6713. K t qu cho chúng ta thấy r ng MOS mô ph ng trên Matlab caoăh năth c nghi m trên Kit
Ngoài ra, nghiên c u c a tác gi đƣă đ c chấp nh n t i The International Conference on Signal, Image Processing and Application ICSIA, July 6 - 7, Nottingham, U.K. vƠăđangăreviewăt i IEEE ICCE(The International Conference on Communications and Electronics) 2014 t iăĐƠăNẵng, Vi t Nam
4.2. H ng phát tri n
Đ tài "TH C HI N THU T TOÁN NÉN THO I VÀ TH C NGHI M TRÊNăKITăTMS320C6713"ăđ c phát triểnăthêmănh ăsau:
-Gi m t căđ bit xu ng thấpăh nă2400bits/s. -Nén tho i b ng các thu t toán khác.
TÀI LI U THAM KH O
[1]J.H.M.DanielJurafsky, SpeechandLanguageProcessing, 2nded.,2008.
[2]R.Chassaing, DigitalSignalProcessing
andApplicationswiththeC6713andC6416DSK, 2nded.pub-SV,2004.
[3]H.Magboub, N. Ali,M.Osman,andS.Alfandi,ắMultimediaspeech compressiontechniques,ẰinComputerScienceandInformationTechnology(ICCSIT ), 20103rdIEEEInternationalConferenceon,vol.9,2010,pp.498ậ502.
[4]S.Yeldener, A.Kondoz, and B.Evans,ă ắNaturală soundingă speech coder
operatingat 2.4 kb/s andbelow,ẰinWireless
Communications,1992.ConferenceProceedings., 1992IEEE InternationalConference onSelectedTopicsin,1992,pp.176ậ179.
[5]M. R. Schroeder and B. Atal,ăắCode-excitedlinearprediction(celp):High-quality speech at very lowbită rates,Ằină Acoustics,Speech,andSignal Processing,IEEE International Conference onICASSP’85.,vol.10,Apr1985,pp.937ậ940.
[6]D.Adami, C.Callegari, S.Giordano, M.Pagano,and F. Russo,ắOntheuseofcompressionalgorithmsforthe
classificationofipflows,ẰinPerformanceEvaluation ofComputer TelecommunicationSystems,2009. SPECTS2009.InternationalSymposiumon, vol.41,009,pp.355ậ360.
[7]M.A.Kohler, L.Supplee,andT.Tremain,ắProgresstowards anewgovernmentstandard
2400bpsvoicecoder,ẰinAcoustics,Speech,andSignalProcessing, 1995.ICASSP- 95.,1995InternationalConferenceon,vol.1,1995,pp.488ậ491vol.1.
[8]J.ă Max,ắQuantizing forminimumdistortion,ẰInformationTheory, IRETransactionson, vol.6,no.1,pp.7ậ12,1960.
[9]P.F.PanterandW.DITE,ắQuantizationdistortioninpulse-
countmodulationwithnonuniformspacingoflevels,ẰProceedingsoftheIRE,vol.39,no. 1,pp.44ậ48,1951. [10]P. N.NuggehallyS.Jayant,DigitalCodingofWaveforms:PrinciplesandApplicationstoS peechandVideo,1sted.Prentice-Hall,1984. [11]J.J.LiTan, DigitalSignalProcessingFundamentalsandApplications,2nded.AcademicPress, 2013.
[12]R.W.S.LawrenceR.Rabiner, DigitalProcessingofSpeechSignals,used.Prentice- Hall,1978.
[13]M.Nakhai and F.Marvasti,ắA4.1kb/shybridspeechcoder,ẰinCircuitsand Systems,1999.ISCAS’99.Proceedings ofthe1999IEEE InternationalSymposiumon,vol.3,Jul, 1999,pp.110ậ113vol.3.
[14]A.McCree,J.
Stachurski,T.Unno,E.Ertan,E.Paksoy,V.Viswanathan,A.Heikkinen, A.Ramo,S.Himanen,P.Blocher,andO.Dressler,ắA4kb/s
hybridmelp/celpspeechcoding candidateforitu
standardization,ẰinAcoustics,Speech, andSignalProcessing (ICASSP),2002IEEE InternationalConference on,vol.1,May2002,pp.Iậ629ậIậ632.
[15]U.Bhaskar andK.Swaminathan,ắLowbit-
ratevoicecompressionbasedonfrequency
domaininterpolativetechniques,ẰAudio,Speech,andLanguageProcessing, IEEETransactions on,vol.14,no.2,pp.558ậ576,2006.
[16]M.A.K.GuptaRajani and T.Vebhav,ắVocoder(lpc) analysisbyvariationofinput parametersandsignals,ẰISCAJournalofEngineering Sciences,vol.1,no.3,pp.57ậ 61,July, 2012.
[17]S.Ahmadi
andA.Spanias,ắNewalgorithmsforsinusoidalspeechcodingatlowbitrates,Ằ
inPersonalWirelessCommunications,1997IEEE InternationalConference on,1997,pp.57ậ61.
[18]A.K.J. S.K.Y.NarendraShukla,
AnilKumar,ắCompressivesensinginwirelessmobile communicationsystem at highdataratetransmission,Ằă inInternationalJournal ofEngineeringandTechnicalResearch (IJETR),vol.1,2013.
[19]D.Salomon,DataCompression:TheCompleteReference,2nded. Springer,2004.[Online].Available:
http://www.ecs.csun.edu/dxs/DC3advertis/Dcomp3Ad.html
[20]S.J.Orfanidis, Introductiontosignalprocessing,1sted.Pearson Education,2010. [21]J.W.LajosL.Hanzo,Clare Somerville,Voice andAudioCompression forWireless Communications,2nded. WileyIEEEPress, 2007.
[22]K.Kondo,Subjective
QualityMeasurementofSpeechItsEvaluationEstimationandApplications, 1sted. Springer, February6,2012.
[23]D.MilkovicandE.Zentner,ă ắQuality measuring methods ofcodedspeechinmobileradio
communicationsystems,ẰinAppliedElectromagneticsandCommunications,2005.I CECom2005.18thInternationalConferenceon,2005,pp.1ậ4.
[24]J.ă Gibson,ă ắSpeechcodingmethods, standards,andă applications,ẰăCircuits and SystemsMagazine on,IEEE,vol.5,no.4,pp.30ậ49,2005.
[25] A. M. Kondoz, Digital Speech: Coding for Low Bit Rate Communication Systems, 2nd ed. Wiley, 2004.