Tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói luận văn ths công nghệ thông tin 60 48 05001

76 23 0
Tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NHƢ HIỀN TÌM HIỂU, NGHIÊN CỨU VÀ ỨNG DỤNG MỘT SỐ THUẬT TỐN NÉN TIẾNG NĨI LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NHƢ HIỀN TÌM HIỂU, NGHIÊN CỨU VÀ ỨNG DỤNG MỘT SỐ THUẬT TỐN NÉN TIẾNG NĨI Ngành : Công nghệ Thông tin Chuyên ngành : Hệ thống Thông tin Mã số : 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Văn Xuất Hà Nội – 2013 LỜI CAM ĐOAN Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chun mơn nên làm luận văn cách nghiêm túc hồn tồn trung thực Trong luận văn, tơi có sử dụng số tài liệu tham khảo số tác giả Tôi nêu phần tài liệu tham khảo cuối luận văn Tôi xin cam đoan chịu trách nhiệm nội dung trung thực luận văn tốt nghiệp Thạc sĩ mình! Học viên: Nguyễn Như Hiền MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƢƠNG CƠ SỞ TOÁN HỌC CỦA LUẬN VĂN 1.1 Nén liệu 1.1.1 Khái niệm, định nghĩa 1.1.2 Phân loại nén liệu 1.2 Điểm cắt Zero (Zero Crossing) 1.2.1 Khái niệm định nghĩa 1.2.2 Trích chọn đặc trưng dựa vào điểm cắt Zero 1.2.3 Thuật toán lấy điểm cắt Zero 1.3 Phép biến đổi Cosin 11 1.3.1 Khái niệm định nghĩa 11 1.3.2 Thuật toán Cosin nén liệu 15 1.4 Phép biến đổi Wavelet Haar 17 1.4.1 Phép biến đổi Wavelet liên tục (Continuous Wavelet Transform - CWT) 19 1.4.2 Phép biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) 21 1.4.3 Thuật toán Wavelet Haar nén liệu 22 1.5 Hệ số tƣơng quan đại lƣợng ngẫu nhiên 26 1.5.1 Khái niệm định nghĩa 26 1.5.2 Ý nghĩa hệ số tương quan 27 CHƢƠNG ÂM THANH, TIẾNG NÓI VÀ NHẬN DẠNG TIẾNG NÓI 30 2.1 Âm tiếng nói 30 2.1.1 Khái niệm âm 30 2.1.2 Tiếng nói, đặc tính tiếng nói 30 2.2 Tổng quan nhận dạng tiếng nói 30 2.2.1 Nhận dạng tiếng nói 30 2.2.2 Phân loại toán nhận dạng tiếng nói 31 2.2.3 Q trình nhận dạng tiếng nói 31 2.2.4 Một số hệ thống nhận dạng tiếng nói thị trường 33 CHƢƠNG SỐ HÓA ÂM THANH 35 3.1 Âm số 35 3.1.1 Một số khái niệm định nghĩa 35 3.1.2 Số hóa âm 36 3.2 File WAVE 37 3.2.1 Cấu trúc file Wave 37 3.2.2 Đọc, ghi file Wave 41 3.3 Nhiễu khử nhiễu 43 3.3.1 Nhiễu 43 3.3.2 Khử nhiễu 43 CHƢƠNG XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI .47 4.1 Xây dựng ứng dụng thử nghiệm 47 4.1.1 Bài tốn nhận dạng tiếng nói 47 4.1.2 Mô tả tốn nhận dạng từ đơn “Có” “Khơng” .47 4.2 Tổ chức, chuẩn hóa liệu 49 4.3 Học mẫu 49 4.4 Đối sánh đặc trƣng đánh giá kết 49 4.4.1 Thuật toán đối sánh theo hệ số tương quan 49 4.4.2 Thuật toán đối sánh qua phép biến đổi Cosin DCT 53 4.4.3 Thuật toán đối sánh qua phép biến đổi Wavelet Haar 55 4.5 Mơ tả chƣơng trình ứng dụng 55 4.6 Kết thử nghiệm 57 KẾT LUẬN 60 TÀI LIỆU THAM KHẢO 61 DANH MỤC CÁC BẢNG Bảng 1.1: Trọng lượng vòng eo 15 đối tượng 27 Bảng 1.2: Các cặp giá trị (Xi, Yi) với n học sinh trường 28 Bảng 1.3: Số phần tử mẫu n = 15 28 Bảng 3.1: Dạng tệp tin 38 Bảng 3.2: Một dạng chuẩn file Wave 39 Bảng 3.3: Khuôn dạng khúc fmt sử dụng cho liệu PCM: 42 Bảng 4.1: Bảng số lượng mẫu thu thập hai từ “Có” “Không” .57 Bảng 4.2: Bảng số lượng mẫu hai từ “Có” “Khơng” lưu đặc trưng vào sở liệu 58 Bảng 4.3: Kết thử nghiệm chương trình với từ “Có” 58 Bảng 4.4: Kết thử nghiệm chương trình với từ “Không” 58 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Điểm cắt Zero biểu thị tương quan điện áp thời gian Hình 1.2: Mơ tả cách biểu diễn đoạn tín hiệu hai điểm cắt zero qua tam giác ABC Hình 1.3: Sơ đồ mơ tả thuật toán xác định tệp f1.txt chứa ba {x,y,z} .10 Hình 1.4: Ví dụ phép biến đổi DCT chiều 17 Hình 1.5: Biến đổi Wavelet 18 Hình 1.6: Mơ tả miền biến đổi tín hiệu 18 Hình 1.7: Sóng sin wavelet 18 Hình 1.8: Các thành phần wavelet tương ứng với tỉ lệ vị trí khác 20 Hình 1.9: Biến đổi wavelet rời rạc tín hiệu 21 Hình 1.10: Hàm Wavelet ψ(t) hàm tỉ lệ Haar φ(t) 23 Hình 1.11: Tính tốn chuẩn hóa biến đổi wavelet 25 Hình 1.12: Khơi phục lại từ biến đổi wavelet chuẩn hóa 26 Hình 1.13: Đồ thị tương quan vòng eo cân nặng 15 đối tượng .29 Hình 2.1: Cấu trúc tổng quát hệ thống nhận dạng tiếng nói 32 Hình 3.1: Q trình số hóa âm 35 Hình 3.2: Ngun lý số hóa âm 36 Hình 3.3: Khn dạng tệp Wave 37 Hình 3.4: Cấu trúc file wave 39 Hình 3.5: Phần diễn dịch 41 Hình 3.6: Sơ đồ khối thuật tốn lọc nhiễu sử dụng hàm lượng thấp 44 Hình 3.7: Dạng sóng từ “Khơng” đọc qua mic (đã lọc lượng thấp) 45 Hình 3.8: Dạng sóng từ “Khơng” sau lọc nhiễu dựa vào lượng tập trung 45 Hình 3.9: Sơ đồ khối thuật tốn lọc nhiễu sử dụng lượng tập trung 46 Hình 4.1: Sơ đồ khối hệ thống nhận dạng từ đơn “Có” “Khơng” 48 Hình 4.2: Xét tương quan dãy 51 Hình 4.3: Sơ đồ khối thuật toán đối sánh theo hệ số tương quan 52 Hình 4.4: Sơ đồ khối thuật toán đối sánh theo phép biến đổi Cosin DCT 54 Hình 4.5: Giao diện chương trình 55 MỞ ĐẦU Tiếng nói phương tiện trao đổi thơng tin tiện ích vốn có cịn người Ước mơ “máy nói”, “máy hiểu tiếng nói” khơng xuất từ câu truyện khoa học viễn tưởng xa xưa mà động lực thúc nhiều chuyên gia nghiên cứu giới Hiện nay, nhiều thành tựu tiên tiến đưa vào ứng dụng sống Tuy vậy, việc có “máy nói” mang tính tự nhiên (về giọng điệu, phát âm, …) “máy hiểu tiếng nói” thực cịn xa với mong muốn yêu cầu thực tế người Cùng với xu phát triển khoa học cơng nghệ ngày thúc đẩy việc hồn thiện cơng nghệ để đạt mục tiêu người lĩnh vực xử lý tiếng nói Chính thế, việc nắm bắt kỹ thuật công nghệ tiên tiến cho việc xử lý tiếng nói thực cần thiết cho việc xây dựng ứng dụng xử lý tiếng nói Với mục đích đó, luận văn tập trung vào việc tìm hiểu, nghiên cứu tìm kiếm đặc trưng tiếng nói phục vụ cho việc nhận dạng.Trên sở kết nghiên cứu luận văn xây dựng ứng dụng để kiểm tra, đánh giá đặc trưng.Với mục đích trên, khơng làm giảm ý nghĩa nội dung nghiên cứu, luận văn chọn tiếng Việt để thử nghiệm Luận văn gồm chương sau: Chương 1: Cơ sở toán học luận văn Chương trình bày vấn đề lý thuyết làm sở cho chương saunhư nén liệu, Zero Crossing, phép biến đổi Cosine, phép biến đổi Wavelet Haar, hệ số tương quan Peason Chương 2: Âm thanh, tiếng nói nhận dạng tiếng nói Chương trình bày sở lý thuyết âm thanh, tiếng nói nhận dạng tiếng nói Chương 3: Số hóa âm Chương trình bày phương pháp số hóa âm thanh, tiếng nói Chương 4: Xây dựng ứng dụng để nhận dạng tiếng Việt Chương trình bày cách lấy đặc trưng tiếng nói, kỹ thuật nén đặc trưng thử áp dụng cho toán nhận dạng tiếng nói từ đơn tiếng Việt CHƢƠNG 1.CƠ SỞ TOÁN HỌC CỦA LUẬN VĂN 1.1.Nén liệu 1.1.1.Khái niệm, định nghĩa Trong công nghệ thông tin, Nén liệu (tiếng Anh: Data compression) việc biến đổi liệu có dung tích lớn liệu có dung tích nhỏ song khơi phục lại liệu ban đầu với độ xác Tùy thuộc vào khả khôi phục lại liệu ban đầu, người ta chia nén liệu thành hai loại: Nén bảo tồn thơng tin (lostless) nén khơng bảo tồn thơng tin (lossy) Nén liệu lĩnh vực quan trọng Cơng nghệ Thơng tin ngày có nhiều tốn liệu q lớn, thiết bị lưu trữ không đáp ứng được, tốn thời gian, tìm kiếm, tốn dung tích nhớ Nén liệu làm giảm dung tích lưu trữ, giảm thời gian truyền liệu giảm thời gian tìm kiếm, xử lý mà nhiều tốn thực tế địi hỏi Nhìn chung khơng có phương pháp nén tổng qt cho kết tốt tất loại tập tin Kỹ thuật nén tập tin thường áp dụng cho tập tin văn bản, tập tin hình ảnh, âm thanh, video, … Mỗi loại tập tin đòi hỏi phương pháp nén khác 1.1.2.Phân loại nén liệu Về nguyên tắc có loại nén liệu, nén bảo tồn thơng tin nén khơng bảo tồn thơng tin Nén bảo tồn thơng tin loại liệu nén sau giải nén nhận gốc ban đầu Một số kỹ thuật nén bảo tồn thơng tin thơng dụng thuật tốn Lempel-Ziv (LZ), DEFLATE, biến thể thuật toán LZ, tối ưu hóa nhằm tăng tốc độ giải nén tỉ lệ nén, bù lại thuật tốn có tốc độ q trình nén chậm Các thuật tốn nén bảo tồn thơng tin dùng để nén file văn file dạng word, excel, … Các loại liệu không phép sai lệch so với gốc sau giải nén Ngồi cịn số thuật tốn nén bảo tồn thơng tin khác như: o LZ-77 & LZ-78 o LZW o Run-length encoding (RLE),Dictionary coder o Nén Số học o Huffman coding Nén khơng bảo tồn thơng tinlà kiểu nén liệu mà sau giải nén người ta không nhận lại liệu gốc.Đối với hình ảnh, âm thanh, video, nói chung liệu multimedia nén theo kiểu này, ví dụ nén MPEG, JPEG kiểu nén liệu dùng cho liệu Multimedia Về nguyên tắc loại nén dựa vào đặc tính sinh lý giác quan người, người ta lược bỏ số thành phần liệu mà người không nhận Ưu điểm nénkhơng bảo tồn thơng tin so với nén bảo tồn thơng tin nén khơng bảo tồn thơng tin cho tỉ lệ nén cao nhiều so với thuật tốn nén bảo tồn thông tin 1.2.Điểm cắt Zero (Zero Crossing) 1.2.1.Khái niệm định nghĩa Điểm cắt zero khái niệm sử dụng phổ biến kỹ thuật điện, toán học xử lý ảnh Trong toán học, điểm cắt zero điểm mà hàm số đổi dấu, ví dụ từ dương sang âm biểu diễn điểm cắt trục hồnh Hình 1.1: Điểm cắt Zero biểu thị tương quan điện áp thời gian 1.2.2.Trích chọn đặc trưng dựa vào điểm cắt Zero Chúng ta xem đường cong tạo tín hiệu âm đường hình sin liên tụctheo thời gian t, điểm cắt zero điểm đường cong cắt trục thời gian (t).Thay cho việc lưu giữ giá trị mẫu tín hiệu cung ABC lưu thông tin tam giác ABC mô tả hình 1.2 4.2 Tổ chức, chuẩn hóa liệu Việc xác định liệu đầu vào, cách lưu trữ cho hợp lý bước quan trọng Bởi khơng định tốc độ tính tốn, giảm kích thước sở liệu mà cịn liên quan đến độ xác kết  Dữ liệu đầu vào: Là chuỗi dãy tham số {x,y,z}(Dữ liệu âm qua bước trích, chọn Zerocrossing)  Dãy Zerocrossing {(x,y,z)} gọi dãy chuẩn hóa dãy {(x,y,z)} dãy đan dấu z phần tử dãy ứng với z >  Từ dãy Zerocrossing chuẩn hóa {(x,y,z)} ta trích dãy dạng {(x,y)} Dãy gọi dãy đặc trưng Zerocrossing từ vào W 4.3 Học mẫu Sau q trình tính chuẩn hóa dãy Zerocrossing Ta trích dãy đặc trưng Zerocrossing, từ chọn làm mẫu lưu vào sở liệu (DataBase) Giả sử ta có từ vào W dãy {(x,y)} dãy đặc trưng Zerocrossing Khi sở liệu chứa mẫu từ W có dạng: W; {(x,y)} = “W; x1,y1, x2,y2, …, xn,yn*” Nói cách khác từ mẫu sở liệu dòng text kết thúc dấu hiệu “*” Ví dụ: Co1; 7,6,4,2,5,3,6,1,…,* 4.4 Đối sánh đặc trƣng đánh giá kết 4.4.1 Thuật toán đối sánh theo hệ số tương quan Ý tƣởng: Giả sử từ vào nhận dạng làW có dãy đặc trưng Zerocrossing “W;{(x,y)}*” j sở liệu có N từ mẫu có đặc trưng “W ;{(x’,y’)}*” Từ dãy “W;{(x,y)}*” từ vào W ta có dãy ′ từ mẫu sở liệu ta có dãy Từ dãy “Wj;{(x’,y’)}*” ( = 1, ) = = ) ( =1, , = , = max =1, Tính Nếu rk> 0.7 ta kết luận từ vào W từ Wktrong sở liệu, Wk từ mà đạt max , 49 Mơ tả thuật tốn: 1) Input (W); Trích dãy đặc trưng Zerocrossing “W;{(x,y)}*” ; trích dãy = ( = 1, ) từ dãy đặc trưng Zerocrossing W 2) Với = 1, lấy dãy đặc trưng Zerocrossing “Wj;{(x’,y’)}*” từ sở liệu; trích dãy 3) Tính = max, 1≤ ≤ 4) Nếu > khẳng định từ vào Wk ngược lại kết luận khơng biết 5) Dừng, kết thúc thuật tốn Ở đây: - N số từ mẫu sở liệu - c ngưỡng tin cậy, thường c > 0.7 Lƣu ý: Khi tính , ta cần ý độ dài dãy khác Giả sử = = Nếu n ≤ m ta phải duyệt tất dãy có độ dài n bảo tồn thứ tự dãy tìm giá trị tương quan lớn làm giá trị tương quan , Trường hợp n > m ta phải duyệt tất dãy có độ dài m bảo tồn thứ tự dãy tìm giá trị tương quan lớn làm giá trị tương , Hình 4.2 minh họa cách làm 50 dw x1 x1' x2 x2' … xm xm' xm+1 xm+2 …… xn Trường hợp n < m dw dwj x1 x1' x2 x2' … xn xn' xn+1' xn+2' …… xm' Hình 4.2: Xét tương quan dãy Ta có sơ đồ khối thuật tốn nhận dạng hình 4.3: 51 Begin Input file.wav từ đơn W Khử nhiễu (sử dụng hàm lượng thấp, dựa vào lượng tập trung) Trích “W;{(x,y)}*” Trích dãy dw={x} j=1; r=0; rmax=0; k=0; c=0.7; Trích dãy dwj={x’} Tính r = r(dw,dwj) Đúng Sai j = c Đúng Sai Khơng biết Stop Hình 4.3: Sơ đồ khối thuật toán đối sánh theo hệ số tương quan 52 4.4.2 Thuật toán đối sánh qua phép biến đổi Cosin DCT Ý tƣởng: Giả sử từ vào W có dãy đặc trưng Zerocrossing “W;{(x,y)}*” sở j j liệu có N từ mẫu, từ W có dãy đặc trưng Zerocrossing “W ;{(x’,y’)}*” Từ dãy “W;{(x,y)}*” ta có dãy j Từ dãy “W ;{(x’,y’)}*” ta có dãy Từ dãy j j qua phép biến đổi Cosin ta vector pw , vector pw, pw hệ số AC phép biến đổi Cosin với dãy có độ dài Tính khoảng cáchgiữa hai vector p p w j w k Nếu dk ≈ ta kết luận từ vào W Mơ tả thuật toán: 1) Input (W);Xác định dãy đặc trưng Zerocrossing “W;{(x,y)}*” ; trích dãy = (=1,) Với = 1, lấy dãy đặc trưng Zerocrossing “Wj;{(x’,y’)}*” từ 2) sở liệu; trích dãy 3) Biến đổi Cosin dãy= ta vector p ; Biến đổi Cosin dãy = ′ ta vector p w 4) Tính 5) 6) Ở = , = , 1≤ ≤ j w Nếu< khẳng định từ vào W ngược lại kết luận k Dừng, kết thúc thuật tốn đây: - N số phần tử có sở liệu - c ngưỡng chọn; c >0 Lƣu ý: Khi tính d pw , pwj cần lưu ý số thành phần pw pwj khác nhau, ta phải duyệt tất khả p w pwj thuật tốn tính hệ số tương quan Ta có sơ đồ khối thuật toán nhận dạng hình 4.4: 53 Begin Input file.wav từ đơn W Khử nhiễu (sử dụng hàm lượng thấp, dựa vào lượng tập trung) Tríc h “W; {(x, y)}* ” Trích dãy dw={x} Biến đổi Cosin pw =DCT(dw) j=1; d=0; dmin=0; k=0; c=0; Trích dãy dwj={x’} Biến đổi Cosin pwj =DCT(dwj) Tính d = d(pw,pwj) Đúng Sai j=j+1 j

Ngày đăng: 11/11/2020, 22:23

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan