Phân tích ting nói

Một phần của tài liệu Thực hiện thuật toán nén thoại và thực nghiệm trên KIT TMS320C6713 (Trang 51)

T HC NGH IM RÊN MALAB

3.1 Phân tích ting nói

Nh ătrênăhìnhă3.1ăchoăchúngătaăthấyăs ăđ kh i c a vi c phân tích tín hi u b ng LPC.

Hình 3.1: S ăđ kh i phân tích ti ng nói

Xử lý tín hi u trong th i gian ng n,ăchúngătaăth ng dùng cửa sổđể xử lý tín hi u trong mi n tần s .ăTrongătr ng h p này, chúng ta dùng cửa sổ hamming.

H s d đoánăLPCăđ c tìm b ng cách sử d ng hàm v i P=10. Trong phân tích LPC, ti ng nói là k t qu gi định c a b lọc toàn c c v i ngu n quang phổ phẳng.

H s Găđ c tìm d a trên h s LPCăvƠăt ngăquanătínăhi u.

H s T0, U/UV d a trên s so sánh m tăng ỡngăchoătr c v iănĕngăl ngăđoă đ c.

3.2 Tổng h p ti ng nói

Đầu tiên, chúng ta xử lý file 'speech.wav', v i n iădungănh ăsau:ă"Paintătheă circuits" v tín hi u d ng sóng v i t căđ lấy m u 8000Hz và phổ c aăchúng,ănh ă trên hình 3.2

Hình 3.2: D ng sóng tín hi u

File có đ dài kho ng 1.1s(9000 m u), sau khi v tín hi u d ng sóng chúng ta thấyăđ că4ănguyênăơm,ănguyênăơmăth ngăcóăbiênăđ caoăh nănh ng âm khác.

Tín hi u d ngăsóngăchoăchúngătaăítăthôngătin,ăthôngătinăđƣăđ c ẩnăđi.ăĐể thấy đ c, chúng ta s v phổ c a tín hi u v i m i frame 5ms(40 m u) và cửa sổ hammingănh ătrênăhìnhă3.3

Hình 3.3: Phổ c a tín hi u ti ng nói

Nh ng Formants(tần s c ngăh ng c a dây thanh) xuất hi n t i và khá r ng các v t ngang. Chính vì v y, formant là tham s để xử lý ti ng nói.

3.2.1Tổng h p d đoán tuy n tính c a tín hi u h u thanh

Chúng ta xét m t Frame kho ng 30s c a m t file ti ng nói và chúng có d ng nh ătrênăhìnhă3.4

Hình 3.4: D ng sóng tín hi u kho ng 30s

Chúngătaămongăđ i tín hi u ti ng nói xấp xỉ kho ng 65 m u, v i tần s c ăb n 125Hz). Và n i dung c a Frame này b ngă hƠmă periodogram(512ă điểm)ă nh ă trênă hình 3.5

Hình 3.5: N i dung c a Frame

Tần s c ă b n xuất hi n trong kho ng 125Hz. Chúng ta có thể c l ng kho ng cách vịtríăcácăformant(đỉnh trong quan phổ envelope) t i ±300Hz, 1400Hz, 2700Hz.

Chúng ta dùng mô hình LPC v iăP=10.ăChúngătaăcóăđ c h s d đoánăai và s thayăđổi c a residual c a tín hi u.

Vi că că l ng tham s LPC, chúng ta dùng thu t toán Levinson-Durbin. Chọn h s c a b lọc FIR A(z) sao cho tín Frame vào trong A(z),ăngõăraăcóănĕngă l ng thấp nhất. A(z) là b lọcă"Inverse".ăChúngătaăcóăđápă ng tần s (512ăđiểm)và b lọc tổng h p 1/A(z) nh ătrênăhìnhă3.6

Hình 3.6: Đápă ng tần s c a Inverse và b lọc tổng h p

Nóiă cáchă khác,ă đápă ng tần s c a b lọc 1/A(z) phù h p v i phổ biênă đ envelope c a Frame. Chúng ta hãy xét superimpose c aă đápă ng tần s v i periodogram c aănguyênăơmănh ătrênăhìnhă3.7.

Hình 3.7: Đápă ng tần s c a b lọc tổng h p

S phù h păLPCăđ c t đ ngăđi u chỉnhăcácăđiểm c c c a b lọc gần v i đ ngătrònăđ năvị nh ătrênăhìnhă3.8

Hình 3.8: Điểm c c và Zero c a b lọc

N u chúng ta áp d ng inverse c a b lọc v i Frame ngõ vào, chúng ta s có d đoánăresidualăvƠăperiodogramănh ătrênăhìnhă3.9ăvƠă3.10.

Hình 3.10: Periodogram c a d đoánăResidual

So sánh phổ c a tín hi u residual v i phổ c a tín hi u g c. Phổ m i này xấp xỉ b ng phẳng,ăPitchăvƠăơmăđi uăđ c b o toàn. Rõ ràng b lọc c a tổng h p là nghịch đ o c a b lọc Inverse.

Th c s , mô hình LPC mô hình hóa d đoánăresidualăc a ti ng nói h u thanh nh ălƠăm t chu i xung có thể đi u chỉnhăđ căPitchăvƠăbiênăđ . Chẳng h nănh :ă Chúng ta xem xét Frame tín hi u, excitation là m t chu i xung cách ly b i 64 zeros nh ătrênăhìnhă3.11ăvƠăPeriodogramănh ătrênăhìnhă3.12

Hình 3.12: Periodogram c a LPC excitation

Rõ ràng, quang phổ c aăLPCăexcitationăcóăđặcăđiểm phổ t ngăt nh ăphổ c a tín hi u residual: envelope b ng phẳng, n iădungăơmăđi uăt ngă ng v i F0. S khác nhau chính là phổ c a excitation thì "over-harmonic " so v i phổ c a tín hi u residual.

Nh ăv y, chúng ta thử sử d ng b lọc tổng h păđể t oăraăơmă"e"ănh ătrênăhìnhă 3.13ăvƠăPeriodogramănh ătrênăhìnhă3.14

Hình 3.14: Phổ tín hi u c a âm "e"

3.2.2Tổng h p ti ng nói c a âm vô thanh

Chúng ta xét m t Frame h uăthanhănh ătrênăhìnhă3.15,ăvƠăsoăsánhăphổ c a nó nh ătrênăhìnhă3.16.

Xét n i dung phổ c aăFrameănƠy,ăchúngătaăđ i v i v i vấnăđ nhi u tín hi u, chúng ta sử d ngăaveragedăperiodogramăđể căl ng m tăđ phổ công suất, mặc dùăđ phân gi i tần s thấpăh năkhiădùngăperiodogram.ăHƠmăpwlechăv i 8 subframe và 50% overlapănh ătrên hình 3.16.

Hình 3.16: M tăđ phổ công suất

Xét mô hình LP v i s b c là 10, và tổng h p m t Frame. Tổng h păđ c th c hi n b ng b lọc toàn c c, Frame nhi u Gaussian v iă đ l iă đ c thi t l p theo residual.

3.3 Thay đổi thông s c a ch ng trình Matlab

Cách th căthayăđổiănh ăsau:

1.Thayăđổi b c m t cách ng u nhiên 10, 15, 18, 20 c a b lọc LPC.

2.Dùng thu tătoánăPESQăđể đánhăgiá tín hi u sau khi tổng h p và t căđ xử lý(Laptop Intel(R) Core(TM) i3-2310M CPU @ 2.1GHz 2.1GHz Ram 6GB, Window 7 64bit )

3.3.1Cách th c th c hi n 3.3.1.1 Gi ng Nam 3.3.1.1 Gi ng Nam

Cácăcơuănh ăsau:

2.One two three four five six seven eight nine

3.University of Technical Education Ho Chi Minh City

Thayăđổi b c m t cách ng u nhiên 10, 15, 18, 20 c a b lọc LPC, th c hi năđoă t căđ xử lý. B ng 3.1 cho chúng ta thấy r ngăkhiăchúngătaătĕngăpăthìăthu t toán ph c t p. D năđ n t căđ thayăđổi(tĕngălên). B ng 3.2 là k t qu đánhăgiáăb ng thu t toán PESQ, b ng này cho chúng ta thấy r ngăkhiăchúngătaătĕngăpăđ ngănghƿaăv i vi c chúng ta chấtăl ng ti ng nói.

B ng 3.1: T căđ xử lý(Namătr ng thành) Nam Nam

Câu 1 Câu 2 Câu 3

B c Th iăgian(s) 10 0.296687 0.360157 0.398084 15 0.299712 0.361739 0.409344 18 0.30068 0.365433 0.419544 20 0.314293 0.367064 0.428009 B ng 3.2: B ng MOS(Nam tr ng thành) MOS Nam Câu 10 15 18 20 1 1.7212 1.7325 1.7871 1.7972 2 1.8998 1.9521 1.9641 1.9915 3 1.6281 1.6443 1.687 1.7195 3.3.1.2 Gi ng n Cácăcơuănh ăsau:

1.Tr ngăĐ i HọcăS ăPh m Kỹ Thu t H Chí Minh 2.One two three four five six seven eight nine

B ng 3.3 cho chúng ta thấy r ng khiăchúngătaătĕngăpăthìăthu t toán ph c t p. D năđ n t căđ thayă đổi(tĕngălên).ăB ng 3.4 là k t qu đánhăgiáăb ng thu t toán PESQ, b ng này cho chúng ta thấy r ngăkhiăchúngătaătĕngăpăđ ngănghƿaăv i vi c chúng ta chấtăl ng ti ng nói.

B ng 3.3: T căđ xử lý(N tr ng thành) N N

Câu 1 Câu 2 Câu 3

B c Th iăgian(s) 10 0.2995 0.574263 0.4062 15 0.3083 0.58068 0.4379 18 0.3131 0.58483 0.4595 20 0.3164 0.58606 0.464 B ng 3.4: B ng MOS(N tr ng thành) MOS N Câu 10 15 18 20 1 2.4108 2.537 2.4032 2.4203 2 2.2109 2.3207 2.431 2.456 3 2.3651 2.3715 2.4813 2.561

3.4 Th c hi n trên Kit TMS320C6713

B ng 3.5: Tính toán t căđ bit

Tham s Tính toán

Sample rate 8000 samples/second Samples per segment 180 samples/segment

Segment rate =Sample Rate/ Samples per Segment Sample =Rate/ Samples per Segment

=(8000 samples/second)/(180 samples/second) Bit rate =Segment size * Segment Rate

= (54 bits/segment) * (44.44 segments/second) =2400 bits/second

Tổng s bit cần thi t cho từng segment là 54 bit.Chúng ta có t căđ lấy m u 8000Hză vƠă đ c chia thành 180m u/segment. Đi uă nƠyă cóă nghƿaă xấp xỉ 44.4segment và t căđ bitălƠă2400ăbits/sănh ătrongăb ng 3.5

3.5.1Mã hóa

S ăđ kh i c a b mƣăhóaăđ c thể hi n trên hình 3.17

1.Ngõ vào tín hi uăđ căđ aăquaăcửa sổ hamming v i overlap là 50% 2.Tín hi uăđ căđ aăquaăb lọc Pre-emphasis

3.Tính toán d li u cửa sổ b ngăph ngăphápăt t ngăquan.

4.H s LPCăđ c tìm b ng thu t toán Levinson-Durbin Recursion. 5.Segment ti ngănóiăđ c lọc b i h s LPCăđể có residue.

6.Xácăđịnh tín hi u ti ng nói là h u thanh hoặcăvôăthanh.ăQuáătrìnhănƠyăđ c th c hi n b i hai tham s .

7.T t ngăquanăc aăresidueăđ cădùngăđể xácăđịnh chu kǶ.

8.T, G, V/UV và h s LPCăđ c k t h p l i t o thành segment ti ngănói.ăNh ă v y, segment ti ngănóiăhoƠnătoƠnăđ c mã hóa.

3.5.2Gi i mã

S ăđ kh i c a b gi i mã đ c thể hi n trên hình 3.18

Hình 3.18:ăS ăđ kh i gi i mã

Ti ngănóiăđƣăđ c mã hóaăhoƠnătoƠnănh ătrênăhìnhă3.18, các thu t toán cần thi t có thểđ c th c hi năđể tái t o l i ti ng nói. K t qu cu i cùng s là ti ng nói đ c tổng h p có thể đ c truy n v iăítăbĕngăthôngănhất có thể n u cần thi t. Hy

vọng r ng ti ngănóiăđ c tổng h p tái t o là m t xấp xỉ hiểuăđ i v i tín hi u ti ng nóiăbanăđầu.ăCácăb căsauăđơyăgi i thu t toán gi i mã.

1.T o mô hình kích thích các h s LPCăđặcătr ngăchoăkhungăs ho tăđ ng nh ăm t b lọcăđ ng.ăMƠăđóălƠăđầu vào cho các b lọc là kích thích.

2.Đ i v i âm h u thanh, s kích thích s là m t tín hi uăđịnh kǶ c a tất c các điểm zero v i xung từngăgiaiăđo n.ăĐơyălƠăm tămôăhìnhăđ năgi n c a s kích thích. Đ i v i âm vô thanh, kích thích s chỉ đ năgi n là nhi u tr ng.

3.B lọcăng c s kích thích thông qua h s LPC. 4.Ngõ ra s đ căđ aăquaăb lọc de-emphasis.

5.Ngõ ra c a b lọc de-emphasis là phù h p v iănĕngăl ng G c a segment.

3.5.3K t qu th c hi n trên Kit

Tác gi th c hi n 3 câu d iăđơyătrênăng iănamătr ng thành và n tr ng thành.

1.Tr ngăĐ i HọcăS ăPh m Kỹ Thu t H Chí Minh 2.One two three four five six seven eight nine

3.University of Technical Education Ho Chi Minh City

Sau khi th c hi n trên Kit , tác gi khaithácthu tătoánăPESQăđể đánh giá chất l ng ti ng nói . K t qu nh ăb ng 3.6 k t qu th c nghi m trên Kit

B ng 3.6: K t qu th c nghi m trên Kit MOS MOS

Câu Nam N 1 1.6471 1.6108 2 1.7166 1.5585 3 1.7932 1.6611

B ng 3.6 cho chúng ta thấy r ng k t qu MOSăđ u l năh nă1.5.ăĐi u này phù h p v i tiêu chuẩn P.862 c a ITU-T.

Ch ng 4

K T LU N

4.1. K t lu n

Mã hóa d đoánătuy n tính là m t kỹ thu t phân tích/tổng h p ti ng nói và cũngălƠăkỹ thu t nén suy hao, kỹ thu t này s mô hình hóa b máy phát âm c a con ng iăđể t o ra ti ng nói và t căđ bit thấp 2400bits/s. V i tỉ l nén là 26.6:1. Trong lu nă vĕnă nƠy, tác gi pháttriểnth chi ntrênth igian th cđ iv ithu ttoán mãhóati ngnóiLPC-10e nh ăsau:

Tr c tiên, tác gi s mô ph ng trên Matlab. K t qu mô ph ngăđ c tác gi đánhăgiáăb ng cách hai cách. Th nhất,ăđoăth i gian xử lý thu t toán b ng máy vi tính, cách này cho chúng ta thấy r ngăkhiăchúngătaăthayăđổiăpătĕng,ăđ ngănghƿaăv i thu t toán s ph c t păh năthìăt căđ xử lýăthayăđổi(tĕngălên).ăTh hai, th c hi n đánhăgiáăchấtăl ng ti ng nói thông qua tiêu chuẩn P.862, thu t toán c a tiêu chuẩn này cho chúng ta thấy r ngă điểm MOS l nă h nă 1.5,ă đi u này phù h p theo tiêu chuẩn P.862 c a ITU-T.

Ti p theo, tác gi th c hi n trên Kit TMS320C6713, k t qu th c nghi măcũngă đ căđánhăgiáăquaăthu t toán PESQ, vƠăđiểm MOS l năh nă1.5,ăđi u này phù h p theo tiêu chuẩn P.862 c a ITU-T.

Cu i cùng tác gi so sánh gi a mô ph ng trên Matlab và th c nghi m trên Kit DSP TMS320C6713. K t qu cho chúng ta thấy r ng MOS mô ph ng trên Matlab caoăh năth c nghi m trên Kit

Ngoài ra, nghiên c u c a tác gi đƣă đ c chấp nh n t i The International Conference on Signal, Image Processing and Application ICSIA, July 6 - 7, Nottingham, U.K. vƠăđangăreviewăt i IEEE ICCE(The International Conference on Communications and Electronics) 2014 t iăĐƠăNẵng, Vi t Nam

4.2. H ng phát tri n

Đ tài "TH C HI N THU T TOÁN NÉN THO I VÀ TH C NGHI M TRÊNăKITăTMS320C6713"ăđ c phát triểnăthêmănh ăsau:

-Gi m t căđ bit xu ng thấpăh nă2400bits/s. -Nén tho i b ng các thu t toán khác.

TÀI LI U THAM KH O

[1]J.H.M.DanielJurafsky, SpeechandLanguageProcessing, 2nded.,2008.

[2]R.Chassaing, DigitalSignalProcessing

andApplicationswiththeC6713andC6416DSK, 2nded.pub-SV,2004.

[3]H.Magboub, N. Ali,M.Osman,andS.Alfandi,ắMultimediaspeech compressiontechniques,ẰinComputerScienceandInformationTechnology(ICCSIT ), 20103rdIEEEInternationalConferenceon,vol.9,2010,pp.498ậ502.

[4]S.Yeldener, A.Kondoz, and B.Evans,ă ắNaturală soundingă speech coder

operatingat 2.4 kb/s andbelow,ẰinWireless

Communications,1992.ConferenceProceedings., 1992IEEE InternationalConference onSelectedTopicsin,1992,pp.176ậ179.

[5]M. R. Schroeder and B. Atal,ăắCode-excitedlinearprediction(celp):High-quality speech at very lowbită rates,Ằină Acoustics,Speech,andSignal Processing,IEEE International Conference onICASSP’85.,vol.10,Apr1985,pp.937ậ940.

[6]D.Adami, C.Callegari, S.Giordano, M.Pagano,and F. Russo,ắOntheuseofcompressionalgorithmsforthe

classificationofipflows,ẰinPerformanceEvaluation ofComputer TelecommunicationSystems,2009. SPECTS2009.InternationalSymposiumon, vol.41,009,pp.355ậ360.

[7]M.A.Kohler, L.Supplee,andT.Tremain,ắProgresstowards anewgovernmentstandard

2400bpsvoicecoder,ẰinAcoustics,Speech,andSignalProcessing, 1995.ICASSP- 95.,1995InternationalConferenceon,vol.1,1995,pp.488ậ491vol.1.

[8]J.ă Max,ắQuantizing forminimumdistortion,ẰInformationTheory, IRETransactionson, vol.6,no.1,pp.7ậ12,1960.

[9]P.F.PanterandW.DITE,ắQuantizationdistortioninpulse-

countmodulationwithnonuniformspacingoflevels,ẰProceedingsoftheIRE,vol.39,no. 1,pp.44ậ48,1951. [10]P. N.NuggehallyS.Jayant,DigitalCodingofWaveforms:PrinciplesandApplicationstoS peechandVideo,1sted.Prentice-Hall,1984. [11]J.J.LiTan, DigitalSignalProcessingFundamentalsandApplications,2nded.AcademicPress, 2013.

[12]R.W.S.LawrenceR.Rabiner, DigitalProcessingofSpeechSignals,used.Prentice- Hall,1978.

[13]M.Nakhai and F.Marvasti,ắA4.1kb/shybridspeechcoder,ẰinCircuitsand Systems,1999.ISCAS’99.Proceedings ofthe1999IEEE InternationalSymposiumon,vol.3,Jul, 1999,pp.110ậ113vol.3.

[14]A.McCree,J.

Stachurski,T.Unno,E.Ertan,E.Paksoy,V.Viswanathan,A.Heikkinen, A.Ramo,S.Himanen,P.Blocher,andO.Dressler,ắA4kb/s

hybridmelp/celpspeechcoding candidateforitu

standardization,ẰinAcoustics,Speech, andSignalProcessing (ICASSP),2002IEEE InternationalConference on,vol.1,May2002,pp.Iậ629ậIậ632.

[15]U.Bhaskar andK.Swaminathan,ắLowbit-

ratevoicecompressionbasedonfrequency

domaininterpolativetechniques,ẰAudio,Speech,andLanguageProcessing, IEEETransactions on,vol.14,no.2,pp.558ậ576,2006.

[16]M.A.K.GuptaRajani and T.Vebhav,ắVocoder(lpc) analysisbyvariationofinput parametersandsignals,ẰISCAJournalofEngineering Sciences,vol.1,no.3,pp.57ậ 61,July, 2012.

[17]S.Ahmadi

andA.Spanias,ắNewalgorithmsforsinusoidalspeechcodingatlowbitrates,Ằ

inPersonalWirelessCommunications,1997IEEE InternationalConference on,1997,pp.57ậ61.

[18]A.K.J. S.K.Y.NarendraShukla,

AnilKumar,ắCompressivesensinginwirelessmobile communicationsystem at highdataratetransmission,Ằă inInternationalJournal ofEngineeringandTechnicalResearch (IJETR),vol.1,2013.

[19]D.Salomon,DataCompression:TheCompleteReference,2nded. Springer,2004.[Online].Available:

http://www.ecs.csun.edu/dxs/DC3advertis/Dcomp3Ad.html

[20]S.J.Orfanidis, Introductiontosignalprocessing,1sted.Pearson Education,2010. [21]J.W.LajosL.Hanzo,Clare Somerville,Voice andAudioCompression forWireless Communications,2nded. WileyIEEEPress, 2007.

[22]K.Kondo,Subjective

QualityMeasurementofSpeechItsEvaluationEstimationandApplications, 1sted. Springer, February6,2012.

[23]D.MilkovicandE.Zentner,ă ắQuality measuring methods ofcodedspeechinmobileradio

communicationsystems,ẰinAppliedElectromagneticsandCommunications,2005.I CECom2005.18thInternationalConferenceon,2005,pp.1ậ4.

[24]J.ă Gibson,ă ắSpeechcodingmethods, standards,andă applications,ẰăCircuits and SystemsMagazine on,IEEE,vol.5,no.4,pp.30ậ49,2005.

[25] A. M. Kondoz, Digital Speech: Coding for Low Bit Rate Communication Systems, 2nd ed. Wiley, 2004.

Một phần của tài liệu Thực hiện thuật toán nén thoại và thực nghiệm trên KIT TMS320C6713 (Trang 51)

Tải bản đầy đủ (PDF)

(71 trang)