Xử lý tiếng nói Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến

16 1.4K 16
Xử lý tiếng nói  Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài báo cáo trình bày cách xác định tần số cơ bản trong tiếng nói bằng phương pháp tự tương quan có cải tiến. Trong bài viết có trình bày cả kết quả thực nghiệm. Chúc các bạn học tốt.Xử lý tiếng nói Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến.

TRƯờNG ĐạI HọC BáCH KHOA Hà NộI VIệN CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG BO CO MễN X Lí TING NểI Đề TàI: XC NH TN S C BN DNG PHNG PHP T TNG QUAN CI TIN Ging viờn hng dn: Trnh Vn Loan Sinh viờn thc hin: Nguyn Vit Anh Lp: MSSV: H Ni, 12-2016 Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin MC LC DANH MC HèNH NH: LI NểI U CHNG I: Mễ T YấU CU V Lí THUYT CHUNG I Mụ t yờu cu: II Lý thuyt chung: Cỏc c tớnh c bn ca tớn hiu ting núi: Cu trỳc file Wav: Hm nng lng thi gian ngn: Zero Crossing Rate: Phng phỏp tớnh tn s c bn bng cỏch s dng hm t tng quan cú ci tin: CHNG 2: LP TRèNH V TH NGHIM 11 Xõy dng chng trỡnh: 11 1.1 La chn cụng ngh: 11 1.2 Thc hin chng trỡnh: 11 1.3 Giao din chng trỡnh: 11 Th nghim v ỏnh giỏ: 12 2.1 Th nghim: 12 2.2 ỏnh giỏ: 14 KT LUN 15 TI LIU THAM KHO 16 Page Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin DANH MC HèNH NH: Hỡnh S chung ca phng phỏp xỏc nh tn s c bn Hỡnh Dng súng tớn hiu 10 Hỡnh Dng súng tớn hiu ó hn ch 10 Hỡnh Giao din chng trỡnh chớnh 11 Hỡnh Giao din chng trỡnh 12 Hỡnh Kt qu ca file Xe.wav 13 Hỡnh Kt qu ca file A96.wav 14 Page Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin LI NểI U X lý ting núi t xut hin ó úng mt vai trũ quan trng cuc sng hng ngy Cựng vi s phỏt trin ngy cng nhanh ca khoa hc k thut, c bit l cụng ngh thụng tin v k thut mỏy tớnh, nhu cu x lý ting núi ca ngi ngy cng ln X lý ting núi cú ng dng mi mt, v c bn cú ng dng nh nhn dng ting núi, ngi núi, tng cht lng ging núi, tng hp ting núi lm c iu ú, vic xỏc nh cỏc c trng ca ting núi nh tn s c bn, formant l ht sc quan trng Ngi ta cú th s dng nhiu phng phỏp khỏc nh LPC, t tng quan, x lý ng hỡnh xỏc nh cỏc c trng ú Trong bi bỏo cỏo ny, em s gii quyt tớnh tn s c bn bng phng phỏp t tng quan cú ci tin Bi bỏo cỏo gm cú chng: Chng 1: Mụ t yờu cu v lý thuyt chung Chng ny nờu rừ yờu cu cn thc hin bi ln v lý thuyt v phng phỏp xỏc nh tn s c bn dựng phng phỏp t tng quan cú ci tin Chng 2: Lp trỡnh v th nghim Chng ny trỡnh by v vic lp trỡnh tớnh tn s c bn bng phng phỏp t tng quan cú ci tin Phn th nghim cú nờu rừ kt qu tớnh c Phn cui l phn kt lun a ỏnh giỏ sau quỏ trỡnh thc hin bi ln ny Page Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin CHNG I: Mễ T YấU CU V Lí THUYT CHUNG I Mụ t yờu cu: Trong bi ln ny, em s gii quyt tớnh tn s c bn bng phng phỏp t tng quan ci tin Nhng phn thc hin bi ln: - c d liu t File WAVE V dng súng tớn hiu V dng súng tớn hiu ó b hn ch Tớnh v v hm t tng quan Tớnh v v tn s c bn II Lý thuyt chung: Cỏc c tớnh c bn ca tớn hiu ting núi: Ting núi m ngi giao tip hng ngy cú bn cht l súng õm lan truyn khụng khớ Súng õm khụng khớ l súng dc s gin n ca khụng khớ Tớn hiu õm ting núi l tớn hiu bin thiờn liờn tc v thi gian Di tn m tai ngi cú th nghe c khỏ rng, t 20 n 20.000Hz, l c tớnh sinh lý quy nh Tớn hiu ting núi cú d tha ln mụi trng cú nhiu.Thc t thỡ tn s 300 n 3400Hz ting núi nghe c khỏ rừ, õy cng chớnh di tn c ngi ta dựng in thoi Tớn hiu ting núi c to thnh t chui cỏc õm v liờn tip Cỏc õm v ny v cỏc dng chuyn i ca chỳng c xem nh cỏc ký hiu biu din thụng tin S sp xp nhng õm v ny c chi phi bi cỏc quy lut ngụn ng, cho nờn cỏc mụ hỡnh toỏn hc c ỏp dng u phi gn bú mt thit vi vic nghiờn cu cỏc quy lut ny X lý ting núi l mt lnh vc x lý thụng tin cha cỏc tớn hiu ting núi vi mc ớch truyn, lu tr, tng hp, nhn dng ting núi X lý ting núi hin ang c nghiờn cu v c vo nhiu ng dng Cỏc nghiờn cu c tin hnh x lý ting núi yờu cu nhng hiu bit trờn nhiu lnh vc v ngy a dng: t ng õm, ngụn ng hc cho n vic x lý tớn hiu v.v Cu trỳc file Wav: Ting núi l tớn hiu tng t, lu tr c mỏy tớnh t trng bi chui s 01ta phi ly mu v lng t hoỏ tớn hiu tng t thnh tớn hiu s mi lu tr c mỏy tớnh Phng phỏp ly mu v lng t hoỏ õm hin thng l phng phỏp PCM Phng phỏp ny s ly mu õm vi tn s khong t 11.025 kHz cho n 44.1 kHz Mi giỏ tr mu c lng t hoỏ bng bits tng Page Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin ng giỏ tr mu t 128 n 127 hoc lng t hoỏ bng 16 bits tng ng giỏ tr mu t 32768 n 32767 So vi lng t hoỏ bng bits thỡ lng t hoỏ bng 16 bits s lu tr õm trung thc hn nhng bự li s byte lu tng gp ụi 2.1 RIFF file Cu trỳc ca Wave File thuc vo lp file c s dng bi cỏc hm Multimedia ca Windows : ú l RIFF file RIFF l ch vit tt ca Resource Interchange File Format (format file trao i ti nguyờn) Mt RIFF file gm mt hoc nhiu loi chunks, mi chunk li cha tr ch n chunk k tip Mi chunk bao gm loi chunk v d liu theo sau loi chunk ú Mt ng dng mun c RIFF file cú th i qua ln lt tng chunk, c d liu nhng chunk nú quan tõm v cú th b qua cỏc chunk m nú khụng quan tõm Mt chunk ca RIFF file luụn bt u bi mt header cú cu trỳc nh sau: typedef struct { FOURCC ckID; DWORD ckSize; } CK; FOURCC gm bytes ch loi chunk i vi Wave File, field ny cú giỏ tr l "WAVE" Nu loi chunk ớt hn ký t thỡ cỏc ký t cũn li bờn phi s c m thờm vo cỏc khong trng ckSize gm byte cha kớch thc vựng d liu ca chunk, vựng d liu ny nm sau header v cú kớch thc l ckSize bytes Chunk cú th cha cỏc subchunks Subchunk cng l mt chunk Mt RIFF file luụn bt u bng mt chunk loi "RIFF" ckSize gm byte cha kớch thc vựng d liu ca chunk, vựng d liu ny nm sau header v cú kớch thc l ckSize bytes Chunk cú th cha cỏc subchunks Subchunk cng l mt chunk Mt RIFF file luụn bt u bng mt chunk loi "RIFF" 2.2 Cu trỳc file Wave: Page Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin Wave file bt u l chunk loi "RIFF Hai subchunk Wave chunk c t thụng tin v õm ca wave file v tip ú l d liu ca tng subchunk ú l subchunk "fmt " v subchunk "data" 2.2.1 Subchuck fmt D liu ca "fmt " chunk l cu trỳc WAVEFORMAT cú cu trỳc nh sau: typedef struct waveformat_tag { WORD wFormatTag; WORD nChannels; DWORD nSamplesPerSec; DWORD nAvgBytesPerSec; WORD nBlockAlign; } WAVEFORMAT; wFormatTag thng cú giỏ tr l WAVE_FORMAT_PCM c nh ngha tin MMSYSTEM.H nh sau: #define WAVE_FORMAT_PCM Giỏ tr ny bỏo cho phn mm ang c Wave File bit kiu mó húa d liu õm sang d liu s l kiu mó húa PCM nChannels cú hai giỏ tr: bng cho õm mono v bng cho õm sterộo nSamplesPerSec cho bit tc ly mu nAvgBytesPerSec cho bit s byte trung bỡnh yờu cu giõy phỏt li mu d liu ca súng õm nBlockAlign cho bit s byte dựng cha mt mu õm Ta thy WAVEFORMAT cha cú thụng tin v s bit dựng lng t húa mt mu d liu ca súng õm Thc t, Wave File s xỏc lp s bit dựng cho mt mu d Page Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin liu bng mt trng gn vo cui cu trỳc ca WAVEFORMAT Cu trỳc ú c nh ngha nh sau: typedef struc pcmwaveformat_tag { WAVEFORMAT wf; WORD wBitsPerSample; } PCMWAVEFORMAT; wBitsPerSample cho bit s bit mt mu d liu Chỳ ý rng cỏc mu d liu phi lu tr dng byte hoc word Do ú, nu mt Wave File dựng 12 bit lng t húa mt mu súng õm thỡ s phi lu tr c bit tha khụng dựng n b Subchuck data: D liu ca "data" subchunk ca Wave File cha cỏc s liu ca õm ó c s húa i vi mu õm bit, d liu ca "data" subchunk bao gm cỏc giỏ tr byte (cú giỏ tr t 255) ca cỏc mu õm i vi mu õm 16 bits, mi mu d liu gm bytes (cú giỏ tr t -32768 ti 32767) Trong mu Mono bits, d liu ca subchunk "data" gm chui cỏc giỏ tr bytes Vi Stereo bits, mi mu gm bytes, d liu s c sp xp xen k (interleave), vi byte u (byte chn) l mu õm ca kờnh bờn trỏi, byte sau (byte l) l ca kờnh bờn phi Hm nng lng thi gian ngn: Nng lng súng mt ca s (vi rng ca s W) c tớnh bng cụng thc sau: Vic tớnh toỏn nng lng mt ca s c s dng phõn bit gia õm vụ v õm hu Do phn õm vụ thng cú nng lng nh cũn phn õm hu thng cú nng lng ln Ta cn chn mt ngng phõn bit gia õm vụ v õm hu Nhng cú mt vi trng hp nng lng ca õm vụ gn bng nng lng ca õm hu Page Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin Zero Crossing Rate: Giỏ tr ny cho bit s ln dng súng tớn hiu ct qua trc honh ca th dng súng tớn hiu m vụ cú ZCR ln mc ngu nhiờn ca tớn hiu cũn õm hu cú ZCR nh Chớnh iu ny giỳp ta cú th phõn bit õm vụ v õm hu bng cỏch chn mt ngng Phng phỏp tớnh tn s c bn bng cỏch s dng hm t tng quan cú ci tin: 5.1 Tn s c bn: Dng súng ca ting núi gm hai phn: Phn ging nhiu ú biờn bin i ngu nhiờn v phn cú tớnh chu k ú tớn hiu lp li gn nh tun hon Phn tớn hiu cú tớnh chu k cha cỏc thnh phn tn s cú dng iu ho Tn s thp nht chớnh l tn s c bn v cng chớnh l tn s dao ng ca mụn i vi ngi núi khỏc nhau, tn s c bn cng khỏc Bng sau cho bit tn s c bn ca gii tớnh v tui Trong hi thoi, tn s c bn thay i liờn tc Giỏ tr tn s c bn ph thuc vo gii tớnh v la tui Vớ d nam cú tn s c bn khong t 80-250 Hz, n cú tn s c bn khong t 150-500 Hz 5.2 Mụ hỡnh chung tớnh tn s c bn: Hỡnh S chung ca phng phỏp xỏc nh tn s c bn 5.3 Hm t tng quan: Cụng thc tớnh hm t tng quan: N l rng ca s m ta ang xột, cũn K thỡ thng ly bng mt na rng ca s Tớnh cht c bn ca hm t tng quan: - L hm chn R(k) = R(-k) Page Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin - R(k) t giỏ tr cc i ti 0: R(k) < R(0) vi mi k Giỏ tr R(0) chớnh bng nng lng ca tớn hiu Da vo cỏc tớnh cht trờn ta cú nhn xột hm t tng quan s t giỏ tr cc i ti cỏc mu 0, T, 2T, Nh vy vic xỏc nh chu k c bn s a v vic xỏc nh chu k c bn ca hm t tng quan 5.4 Phng phỏp t tng quan cú ci tin: tớnh toỏn c d dng hn, ta hn ch mc biờn i vi tớn hiu u vo, ta chn ngng ct loi b i vi nhng giỏ tr biờn < thỡ ta coi bng Nh th vic tớnh toỏn hm t tng quan ca s d dng hn Vớ d: dng súng tớn hiu ban u: Hỡnh Dng súng tớn hiu Dng súng tớn hiu ó b hn ch vi Hỡnh Dng súng tớn hiu ó hn ch 5.5 Mụ t cỏch xỏc nh: u tiờn ta cn chn mt ca s cú thi gian khong 20ms Da vo tn s ly mu c file WAVE ta cú th xỏc nh xem rng ca s l bao nhiờu mu Sau ú mi ca s ta tớnh toỏn nng lng, t l bin thiờn qua trc khụng, hm t tng quan Do nhng on cha õm vụ khụng cú tn s nờn ta cn loi b ú ta da vo nng lng v t l bin thiờn qua trc khụng loi b õy ta cn chn ngng loi b Sau ú vi hm t tng quan tớnh c mi ca s ta tớnh c cc i gn nht, t ú suy tn s c bn ca tớn hiu Vic thc hin tip tc ta dch ca s vi i mt on bng mt na rng ca s Vic tớnh toỏn ny c lp i lp li cho n kt thỳc Page 10 Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin CHNG 2: LP TRèNH V TH NGHIM Xõy dng chng trỡnh: 1.1 La chn cụng ngh: - Ngụn ng lp trỡnh: Java - Giao din Java Swing, cú s dng th vin v th JfreeChart - Tool lp trỡnh: IntelliJ IDEA 1.2 Thc hin chng trỡnh: Chng trỡnh cú cỏc chc nng sau: - c v m file wav Hin th dng súng tớn hiu, hin th nhng thụng tin c t file wav Hin th dng súng tớn hiu ó hn ch Hin th hm t tng quan Hin th ng biu din tn s c bn 1.3 Giao din chng trỡnh: Hỡnh Giao din chng trỡnh chớnh Page 11 Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin Giao din ca chng trỡnh cú cỏc thnh phn theo th t t trờn xung di: Phớa trờn bờn trỏi l khung cha thụng tin v file wav Bờn di l cỏc ụ nhp thụng tin, chn ngng hn ch tớn hiu , chn ngng nng lng v chn ngng ch s ZCR dựng phõn bit gia õm vụ v õm hu Sau nhn vo nỳt OK thỡ s chuyn sang ca s mi cú giao din nh sau: Hỡnh Giao din chng trỡnh Theo th t t trờn xung di ta cú cỏc th th th nht hin th dng súng tớn hiu th th hai hin th dng súng tớn hiu ó hn ch th th ba hin th hm t tng quan ca tớn hiu th th t hin th ng biu din tn s ca tớn hiu Th nghim v ỏnh giỏ: 2.1 Th nghim: Th nghim cỏc file Xe.wav, A96.wav a Vi file Xe.wav: Thụng tin: Frames: 12879, Sample Rate: 16000 Page 12 Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin Thụng s: Window Size Zcr Threshold Power Threshold 320 0.1 200 0.4 Kt qu: Hỡnh Kt qu ca file Xe.wav Kt qu tn s trung bỡnh: 257 Hz b Vi file A96.wav: Thụng tin: Frames: 3450, Sample Rate: 10kHz Thụng s: Window Size Zcr Threshold Power Threshold 200 0.1 200 0.4 Kt qu: Page 13 Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin Hỡnh Kt qu ca file A96.wav Kt qu tn s trung bỡnh: 137 Hz 2.2 ỏnh giỏ: Qua th nghim ta thy vic thit lp cỏc thụng s v ngng nng lng v ngng cho t l ct qua trc khụng l cn thit xỏc nh chớnh xỏc tn s Page 14 Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin KT LUN Nh ó núi, x lý ting núi ó v ang l mt lnh vc quan trng v c quan tõm tớnh ng dng ca nú vo i sng, khoa hc quõn s, dõn s Cựng vi cụng ngh ngy cng phỏt trin, x lý ting núi cng cú c hi phỏt trin hn Vic xỏc nh tn s c bn rt quan trng cho cỏc bi toỏn x lý ting núi mc cao hn sau ny Bi bỏo cỏo ó trỡnh by phng phỏp tỡm tn s c bn ỏp dng phng phỏp t tng quan cú ci tin Tuy nhiờn cũn thiu kinh nghim v kin thc tỡm hiu c cũn cha sõu nờn em cũn nhiu thiu sút v khụng trỏnh nhng ch cũn cha hiu rừ, em xin thy gúp ý hon thin kin thc hn, em xin cm n Page 15 Xỏc nh tn s c bn bng phng phỏp t tng quan ci tin TI LIU THAM KHO [1] Bi ging X lý ting núi, PGS.TS Trnh Vn Loan, H Bỏch Khoa H Ni Page 16 [...]... Page 14 Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến KẾT LUẬN Như đã nói, xử lý tiếng nói đã và đang là một lĩnh vực quan trọng và được quan tâm do tính ứng dụng của nó vào đời sống, khoa học quân sự, dân sự Cùng với công nghệ ngày càng phát triển, xử lý tiếng nói càng có cơ hội phát triển hơn Việc xác định tần số cơ bản rất quan trọng cho các bài toán xử lý tiếng nói ở mức cao hơn sau... bày phương pháp tìm tần số cơ bản áp dụng phương pháp tự tương quan có cải tiến Tuy nhiên do còn thiếu kinh nghiệm và kiến thức tìm hiểu được còn chưa sâu nên em còn nhiều thiếu sót và không tránh khỏi những chỗ còn chưa hiểu rõ, em xin thầy góp ý để hoàn thiện kiến thức hơn, em xin cảm ơn Page 15 Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến TÀI LIỆU THAM KHẢO [1] Bài giảng Xử lý tiếng. .. Thông số: Window Size Zcr Threshold Power Threshold 200 0.1 200 0.4  Kết quả: Page 13 Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến Hình 7 Kết quả của file A96.wav Kết quả tần số trung bình: 137 Hz 2.2 Đánh giá: Qua thử nghiệm ta thấy việc thiết lập các thông số về ngưỡng năng lượng và ngưỡng cho tỉ lệ cắt qua trục không là cần thiết để xác định chính xác tần số Page 14 Xác định tần số. .. những thông tin đọc từ file wav Hiển thị dạng sóng tín hiệu đã hạn chế Hiển thị hàm tự tương quan Hiển thị đường biểu diễn tần số cơ bản 1.3 Giao diện chƣơng trình: Hình 4 Giao diện chƣơng trình chính Page 11 Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến Giao diện của chương trình có các thành phần theo thứ tự từ trên xuống dưới:  Phía trên bên trái là khung chứa thông tin về file wav... hiển thị đường biểu diễn tần số của tín hiệu 2 Thử nghiệm và đánh giá: 2.1 Thử nghiệm: Thử nghiệm các file Xe.wav, A96.wav a Với file Xe.wav: Thông tin: Frames: 12879, Sample Rate: 16000 Page 12 Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến Thông số: Window Size Zcr Threshold Power Threshold 320 0.1 200 0.4  Kết quả: Hình 6 Kết quả của file Xe.wav Kết quả tần số trung bình: 257 Hz b.. .Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến CHƢƠNG 2: LẬP TRÌNH VÀ THỬ NGHIỆM 1 Xây dựng chƣơng trình: 1.1 Lựa chọn công nghệ: - Ngôn ngữ lập trình: Java - Giao diện Java Swing, có sử dụng thư viện vẽ đồ thị JfreeChart... lượng và chọn ngưỡng chỉ số ZCR dùng để phân biệt giữa âm vô thanh và âm hữu thanh  Sau khi nhấn vào nút OK thì sẽ chuyển sang cửa sổ mới có giao diện như sau: Hình 5 Giao diện chƣơng trình Theo thứ tự từ trên xuống dưới ta có các đồ thị     Đồ thị thứ nhất hiển thị dạng sóng tín hiệu Đồ thị thứ hai hiển thị dạng sóng tín hiệu đã hạn chế Đồ thị thứ ba hiển thị hàm tự tương quan của tín hiệu Đồ thị... những chỗ còn chưa hiểu rõ, em xin thầy góp ý để hoàn thiện kiến thức hơn, em xin cảm ơn Page 15 Xác định tần số cơ bản bằng phương pháp tự tương quan cải tiến TÀI LIỆU THAM KHẢO [1] Bài giảng Xử lý tiếng nói, PGS.TS Trịnh Văn Loan, ĐH Bách Khoa Hà Nội Page 16

Ngày đăng: 16/01/2017, 21:56

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan