(LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói luận văn ths công nghệ thông tin 60 48 05001

63 7 0
(LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NHƢ HIỀN TÌM HIỂU, NGHIÊN CỨU VÀ ỨNG DỤNG MỘT SỐ THUẬT TỐN NÉN TIẾNG NĨI LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2013 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN NHƢ HIỀN TÌM HIỂU, NGHIÊN CỨU VÀ ỨNG DỤNG MỘT SỐ THUẬT TỐN NÉN TIẾNG NĨI Ngành : Cơng nghệ Thơng tin Chuyên ngành : Hệ thống Thông tin Mã số : 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Văn Xuất Hà Nội – 2013 TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chuyên môn nên làm luận văn cách nghiêm túc hoàn toàn trung thực Trong luận văn, tơi có sử dụng số tài liệu tham khảo số tác giả Tôi nêu phần tài liệu tham khảo cuối luận văn Tôi xin cam đoan chịu trách nhiệm nội dung trung thực luận văn tốt nghiệp Thạc sĩ mình! Học viên: Nguyễn Như Hiền TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƢƠNG CƠ SỞ TOÁN HỌC CỦA LUẬN VĂN .7 1.1 Nén liệu 1.1.1 Khái niệm, định nghĩa 1.1.2 Phân loại nén liệu 1.2 Điểm cắt Zero (Zero Crossing) 1.2.1 Khái niệm định nghĩa 1.2.2 Trích chọn đặc trưng dựa vào điểm cắt Zero 1.2.3 Thuật toán lấy điểm cắt Zero 1.3 Phép biến đổi Cosin 11 1.3.1 Khái niệm định nghĩa .11 1.3.2 Thuật toán Cosin nén liệu 15 1.4 Phép biến đổi Wavelet Haar 17 1.4.1 Phép biến đổi Wavelet liên tục (Continuous Wavelet Transform - CWT) 19 1.4.2 Phép biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) 21 1.4.3 Thuật toán Wavelet Haar nén liệu 22 1.5 Hệ số tƣơng quan đại lƣợng ngẫu nhiên 26 1.5.1 Khái niệm định nghĩa .26 1.5.2 Ý nghĩa hệ số tương quan 27 CHƢƠNG ÂM THANH, TIẾNG NÓI VÀ NHẬN DẠNG TIẾNG NÓI 30 2.1 Âm tiếng nói 30 2.1.1 Khái niệm âm 30 2.1.2 Tiếng nói, đặc tính tiếng nói 30 2.2 Tổng quan nhận dạng tiếng nói 30 2.2.1 Nhận dạng tiếng nói 30 2.2.2 Phân loại tốn nhận dạng tiếng nói 31 TIEU LUAN MOI download : skknchat@gmail.com 2.2.3 Q trình nhận dạng tiếng nói 31 2.2.4 Một số hệ thống nhận dạng tiếng nói thị trường 33 CHƢƠNG SỐ HÓA ÂM THANH 35 3.1 Âm số .35 3.1.1 Một số khái niệm định nghĩa 35 3.1.2 Số hóa âm 36 3.2 File WAVE 37 3.2.1 Cấu trúc file Wave 37 3.2.2 Đọc, ghi file Wave 41 3.3 Nhiễu khử nhiễu 43 3.3.1 Nhiễu .43 3.3.2 Khử nhiễu 43 CHƢƠNG XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI 47 4.1 Xây dựng ứng dụng thử nghiệm 47 4.1.1 Bài tốn nhận dạng tiếng nói 47 4.1.2 Mơ tả tốn nhận dạng từ đơn “Có” “Không” 47 4.2 Tổ chức, chuẩn hóa liệu 49 4.3 Học mẫu .49 4.4 Đối sánh đặc trƣng đánh giá kết 49 4.4.1 Thuật toán đối sánh theo hệ số tương quan 49 4.4.2 Thuật toán đối sánh qua phép biến đổi Cosin DCT .53 4.4.3 Thuật toán đối sánh qua phép biến đổi Wavelet Haar 55 4.5 Mô tả chƣơng trình ứng dụng 55 4.6 Kết thử nghiệm 57 KẾT LUẬN 60 TÀI LIỆU THAM KHẢO 61 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC BẢNG Bảng 1.1: Trọng lượng vòng eo 15 đối tượng 27 Bảng 1.2: Các cặp giá trị (Xi, Yi) với n học sinh trường 28 Bảng 1.3: Số phần tử mẫu n = 15 28 Bảng 3.1: Dạng tệp tin 38 Bảng 3.2: Một dạng chuẩn file Wave .39 Bảng 3.3: Khuôn dạng khúc fmt sử dụng cho liệu PCM: 42 Bảng 4.1: Bảng số lượng mẫu thu thập hai từ “Có” “Khơng” 57 Bảng 4.2: Bảng số lượng mẫu hai từ “Có” “Khơng” lưu đặc trưng vào sở liệu .58 Bảng 4.3: Kết thử nghiệm chương trình với từ “Có” .58 Bảng 4.4: Kết thử nghiệm chương trình với từ “Không” .58 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Điểm cắt Zero biểu thị tương quan điện áp thời gian Hình 1.2: Mơ tả cách biểu diễn đoạn tín hiệu hai điểm cắt zero qua tam giác ABC Hình 1.3: Sơ đồ mơ tả thuật tốn xác định tệp f1.txt chứa ba {x,y,z} .10 Hình 1.4: Ví dụ phép biến đổi DCT chiều 17 Hình 1.5: Biến đổi Wavelet 18 Hình 1.6: Mơ tả miền biến đổi tín hiệu 18 Hình 1.7: Sóng sin wavelet 18 Hình 1.8: Các thành phần wavelet tương ứng với tỉ lệ vị trí khác 20 Hình 1.9: Biến đổi wavelet rời rạc tín hiệu 21 Hình 1.10: Hàm Wavelet ψ(t) hàm tỉ lệ Haar φ(t) 23 Hình 1.11: Tính tốn chuẩn hóa biến đổi wavelet 25 Hình 1.12: Khơi phục lại từ biến đổi wavelet chuẩn hóa 26 Hình 1.13: Đồ thị tương quan vòng eo cân nặng 15 đối tượng 29 Hình 2.1: Cấu trúc tổng quát hệ thống nhận dạng tiếng nói 32 Hình 3.1: Q trình số hóa âm .35 Hình 3.2: Ngun lý số hóa âm 36 Hình 3.3: Khuôn dạng tệp Wave 37 Hình 3.4: Cấu trúc file wave 39 Hình 3.5: Phần diễn dịch 41 Hình 3.6: Sơ đồ khối thuật tốn lọc nhiễu sử dụng hàm lượng thấp 44 Hình 3.7: Dạng sóng từ “Khơng” đọc qua mic (đã lọc lượng thấp) 45 Hình 3.8: Dạng sóng từ “Khơng” sau lọc nhiễu dựa vào lượng tập trung 45 Hình 3.9: Sơ đồ khối thuật tốn lọc nhiễu sử dụng lượng tập trung 46 Hình 4.1: Sơ đồ khối hệ thống nhận dạng từ đơn “Có” “Khơng” 48 Hình 4.2: Xét tương quan dãy .51 Hình 4.3: Sơ đồ khối thuật toán đối sánh theo hệ số tương quan 52 Hình 4.4: Sơ đồ khối thuật toán đối sánh theo phép biến đổi Cosin DCT 54 Hình 4.5: Giao diện chương trình 55 TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Tiếng nói phương tiện trao đổi thơng tin tiện ích vốn có cịn người Ước mơ “máy nói”, “máy hiểu tiếng nói” khơng xuất từ câu truyện khoa học viễn tưởng xa xưa mà cịn động lực thơi thúc nhiều chuyên gia nghiên cứu giới Hiện nay, nhiều thành tựu tiên tiến đưa vào ứng dụng sống Tuy vậy, việc có “máy nói” mang tính tự nhiên (về giọng điệu, phát âm, …) “máy hiểu tiếng nói” thực xa với mong muốn yêu cầu thực tế người Cùng với xu phát triển khoa học công nghệ ngày thúc đẩy việc hồn thiện cơng nghệ để đạt mục tiêu người lĩnh vực xử lý tiếng nói Chính thế, việc nắm bắt kỹ thuật công nghệ tiên tiến cho việc xử lý tiếng nói thực cần thiết cho việc xây dựng ứng dụng xử lý tiếng nói Với mục đích đó, luận văn tập trung vào việc tìm hiểu, nghiên cứu tìm kiếm đặc trưng tiếng nói phục vụ cho việc nhận dạng.Trên sở kết nghiên cứu luận văn xây dựng ứng dụng để kiểm tra, đánh giá đặc trưng.Với mục đích trên, khơng làm giảm ý nghĩa nội dung nghiên cứu, luận văn chọn tiếng Việt để thử nghiệm Luận văn gồm chương sau: Chương 1: Cơ sở tốn học luận văn Chương trình bày vấn đề lý thuyết làm sở cho chương saunhư nén liệu, Zero Crossing, phép biến đổi Cosine, phép biến đổi Wavelet Haar, hệ số tương quan Peason Chương 2: Âm thanh, tiếng nói nhận dạng tiếng nói Chương trình bày sở lý thuyết âm thanh, tiếng nói nhận dạng tiếng nói Chương 3: Số hóa âm Chương trình bày phương pháp số hóa âm thanh, tiếng nói Chương 4: Xây dựng ứng dụng để nhận dạng tiếng Việt Chương trình bày cách lấy đặc trưng tiếng nói, kỹ thuật nén đặc trưng thử áp dụng cho tốn nhận dạng tiếng nói từ đơn tiếng Việt TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG 1.CƠ SỞ TOÁN HỌC CỦA LUẬN VĂN 1.1.Nén liệu 1.1.1.Khái niệm, định nghĩa Trong công nghệ thông tin, Nén liệu (tiếng Anh: Data compression) việc biến đổi liệu có dung tích lớn liệu có dung tích nhỏ song khơi phục lại liệu ban đầu với độ xác Tùy thuộc vào khả khơi phục lại liệu ban đầu, người ta chia nén liệu thành hai loại: Nén bảo tồn thơng tin (lostless) nén khơng bảo tồn thơng tin (lossy) Nén liệu lĩnh vực quan trọng Công nghệ Thông tin ngày có nhiều tốn liệu q lớn, thiết bị lưu trữ không đáp ứng được, tốn thời gian, tìm kiếm, tốn dung tích nhớ Nén liệu làm giảm dung tích lưu trữ, giảm thời gian truyền liệu giảm thời gian tìm kiếm, xử lý mà nhiều tốn thực tế địi hỏi Nhìn chung khơng có phương pháp nén tổng qt cho kết tốt tất loại tập tin Kỹ thuật nén tập tin thường áp dụng cho tập tin văn bản, tập tin hình ảnh, âm thanh, video, … Mỗi loại tập tin đòi hỏi phương pháp nén khác 1.1.2.Phân loại nén liệu Về nguyên tắc có loại nén liệu, nén bảo tồn thơng tin nén khơng bảo tồn thơng tin Nén bảo tồn thơng tin loại liệu nén sau giải nén nhận gốc ban đầu Một số kỹ thuật nén bảo tồn thơng tin thơng dụng thuật tốn Lempel-Ziv (LZ), DEFLATE, biến thể thuật toán LZ, tối ưu hóa nhằm tăng tốc độ giải nén tỉ lệ nén, bù lại thuật toán có tốc độ q trình nén chậm Các thuật tốn nén bảo tồn thơng tin dùng để nén file văn file dạng word, excel, … Các loại liệu không phép sai lệch so với gốc sau giải nén Ngoài cịn số thuật tốn nén bảo tồn thơng tin khác như: o LZ-77 & LZ-78 o LZW o Run-length encoding (RLE),Dictionary coder o Nén Số học o Huffman coding TIEU LUAN MOI download : skknchat@gmail.com Nén khơng bảo tồn thơng tinlà kiểu nén liệu mà sau giải nén người ta không nhận lại liệu gốc.Đối với hình ảnh, âm thanh, video, nói chung liệu multimedia nén theo kiểu này, ví dụ nén MPEG, JPEG kiểu nén liệu dùng cho liệu Multimedia Về nguyên tắc loại nén dựa vào đặc tính sinh lý giác quan người, người ta lược bỏ số thành phần liệu mà người không nhận Ưu điểm nénkhơng bảo tồn thơng tin so với nén bảo tồn thơng tin nén khơng bảo tồn thơng tin cho tỉ lệ nén cao nhiều so với thuật tốn nén bảo tồn thơng tin 1.2.Điểm cắt Zero (Zero Crossing) 1.2.1.Khái niệm định nghĩa Điểm cắt zero khái niệm sử dụng phổ biến kỹ thuật điện, toán học xử lý ảnh Trong toán học, điểm cắt zero điểm mà hàm số đổi dấu, ví dụ từ dương sang âm biểu diễn điểm cắt trục hồnh Hình 1.1: Điểm cắt Zero biểu thị tương quan điện áp thời gian 1.2.2.Trích chọn đặc trưng dựa vào điểm cắt Zero Chúng ta xem đường cong tạo tín hiệu âm đường hình sin liên tụctheo thời gian t, điểm cắt zero điểm đường cong cắt trục thời gian (t).Thay cho việc lưu giữ giá trị mẫu tín hiệu cung ABC lưu thơng tin tam giác ABC mơ tả hình 1.2 TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG XÂY DỰNG ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI 4.1 Xây dựng ứng dụng thử nghiệm 4.1.1 Bài toán nhận dạng tiếng nói Bài tốn đặt xây dựng hệ thống nhận dạng hai từ đơn “Có” “Khơng”, mơi trường có nhiễu mơi trường sinh hoạt bình thường với số người nói khơng hạn chế Nói cách khác đầu vào phát âm từ đơn người nói nhận dạng từ “Có” “Khơng” hệ thống lên từ 4.1.2 Mơ tả tốn nhận dạng từ đơn “Có” “Khơng” Hệ thống nhận dạng hai từ “Có”, “Khơng” dựa thuật tốn Zerocrossing nghĩa lấy đoạn Zerocrossing làm đặc trưng từ  Phương pháp: Nhận dạng từ đơn (Isolate word recognition)  Input: file âm dạng wav, ghi lại phát âm từ đơn  Output: Màn hình trương trình lên từ“Có” “Khơng” từ vào có đặc trưng trùng với từ có sở liệu  Cơ sở liệu: dãy Zerocrossing hai từ “Có” “Không”  Sơ đồ khối hệ thống nhận dạng từ đơn “Có”, “Khơng” hình 4.1: 47 TIEU LUAN MOI download : skknchat@gmail.com Begin Input file.wav từ đơn Khử nhiễu (sử dụng hàm lượng thấp, dựa vào lượng tập trung) Trích, chọn Zerocrossing Chuẩn hóa dãy Zerocrossing Ghi đặc trưng vào sở liệu Đúng Học mẫu Sai Đối sánh đặc trưng với đặc trưng sở liệu Đánh giá kết đổi sánh Ra định Stop Hình 4.1: Sơ đồ khối hệ thống nhận dạng từ đơn “Có” “Không” 48 TIEU LUAN MOI download : skknchat@gmail.com 4.2 Tổ chức, chuẩn hóa liệu Việc xác định liệu đầu vào, cách lưu trữ cho hợp lý ln bước quan trọng Bởi khơng định tốc độ tính tốn, giảm kích thước sở liệu mà liên quan đến độ xác kết  Dữ liệu đầu vào: Là chuỗi dãy tham số {x,y,z}(Dữ liệu âm qua bước trích, chọn Zerocrossing)  Dãy Zerocrossing {(x,y,z)} gọi dãy chuẩn hóa dãy {(x,y,z)} dãy đan dấu z phần tử dãy ứng với z >  Từ dãy Zerocrossing chuẩn hóa {(x,y,z)} ta trích dãy dạng {(x,y)} Dãy gọi dãy đặc trưng Zerocrossing từ vào W 4.3 Học mẫu Sau q trình tính chuẩn hóa dãy Zerocrossing Ta trích dãy đặc trưng Zerocrossing, từ chọn làm mẫu lưu vào sở liệu (DataBase) Giả sử ta có từ vào W dãy {(x,y)} dãy đặc trưng Zerocrossing Khi sở liệu chứa mẫu từ W có dạng: W; {(x,y)} = “W; x1,y1, x2,y2, …, xn,yn*” Nói cách khác từ mẫu sở liệu dòng text kết thúc dấu hiệu “*” Ví dụ: Co1; 7,6,4,2,5,3,6,1,…,* 4.4 Đối sánh đặc trƣng đánh giá kết 4.4.1 Thuật toán đối sánh theo hệ số tương quan Ý tƣởng: Giả sử từ vào nhận dạng làW có dãy đặc trưng Zerocrossing “W;{(x,y)}*” sở liệu có N từ mẫu có đặc trưng “Wj;{(x’,y’)}*” Từ dãy “W;{(x,y)}*” từ vào W ta có dãy 𝑑𝑤 = 𝑥𝑖 (𝑖 = 1, 𝑛) Từ dãy “Wj;{(x’,y’)}*” từ mẫu sở liệu ta có dãy𝑑𝑤 𝑗 = 𝑥𝑖′ (𝑖 = 1, 𝑚) Tính𝑟𝑘 = max 𝑟 𝑑𝑤 , 𝑑𝑤 𝑗 = 𝑟 𝑑𝑤 , 𝑑𝑤 𝑘 𝑗 =1,𝑁 Nếu rk> 0.7 ta kết luận từ vào W từ Wktrong sở liệu, Wk từ mà𝑟 𝑑𝑤 , 𝑑𝑤 𝑘 đạt max 49 TIEU LUAN MOI download : skknchat@gmail.com Mô tả thuật tốn: 1) Input (W); Trích dãy đặc trưng Zerocrossing “W;{(x,y)}*” ; trích dãy 𝑑𝑤 = 𝑥𝑖 (𝑖 = 1, 𝑛) từ dãy đặc trưng Zerocrossing W 2) Với 𝑗 = 1, 𝑁 lấy dãy đặc trưng Zerocrossing “Wj;{(x’,y’)}*” từ sở liệu; trích dãy 𝑑𝑤 𝑗 = 𝑥𝑖′ (𝑖 = 1, 𝑚) 3) Tính 𝑟𝑘 = max 𝑟 𝑑𝑤 , 𝑑𝑤 𝑗 = 𝑟 𝑑𝑤 , 𝑑𝑤 𝑘 1≤𝑗 ≤𝑁 4) Nếu 𝑟𝑘 > 𝑐 khẳng định từ vào Wk ngược lại kết luận khơng biết 5) Dừng, kết thúc thuật tốn Ở đây: - N số từ mẫu sở liệu - c ngưỡng tin cậy, thường c > 0.7 Lƣu ý: Khi tính 𝑟 𝑑𝑤 , 𝑑𝑤 𝑗 ta cần ý độ dài dãy 𝑑𝑤 𝑑𝑤 𝑗 khác Giả sử 𝑑𝑤 = 𝑛 𝑑𝑤 𝑗 = 𝑚 Nếu n ≤ m ta phải duyệt tất dãy có độ dài n bảo toàn thứ tự dãy 𝑑𝑤 𝑗 tìm giá trị tương quan lớn làm giá trị tương quan 𝑟 𝑑𝑤 , 𝑑𝑤 𝑗 Trường hợp n > m ta phải duyệt tất dãy có độ dài m bảo tồn thứ tự dãy 𝑑𝑤 tìm giá trị tương quan lớn làm giá trị tương 𝑟 𝑑𝑤 , 𝑑𝑤 𝑗 Hình 4.2 minh họa cách làm 50 TIEU LUAN MOI download : skknchat@gmail.com Trường hợp n > m dw dw j x1 x1' x2 x2' … xm xm' xm+1 xm+2 …… xn Trường hợp n < m dw dw j x1 x1' x2 x2' … xn xn' xn+1' xn+2' …… xm' Hình 4.2: Xét tương quan dãy Ta có sơ đồ khối thuật tốn nhận dạng hình 4.3: 51 TIEU LUAN MOI download : skknchat@gmail.com Begin Input file.wav từ đơn W Khử nhiễu (sử dụng hàm lượng thấp, dựa vào lượng tập trung) Trích “W;{(x,y)}*” Trích dãy dw={x} j=1; r=0; rmax=0; k=0; c=0.7; Trích dãy dwj={x’} Tính r = r(dw,dwj) Đúng r > rmax Đúng Sai r = rmax; k=j j=j+1 j = c Đúng Nhận dạng Output: Wk Sai Không biết Stop Hình 4.3: Sơ đồ khối thuật tốn đối sánh theo hệ số tương quan 52 TIEU LUAN MOI download : skknchat@gmail.com 4.4.2 Thuật toán đối sánh qua phép biến đổi Cosin DCT Ý tƣởng: Giả sử từ vào W có dãy đặc trưng Zerocrossing “W;{(x,y)}*” sở liệu có N từ mẫu, từ Wj có dãy đặc trưng Zerocrossing “Wj;{(x’,y’)}*” Từ dãy “W;{(x,y)}*” ta có dãy 𝑑𝑤 = 𝑥𝑖 (𝑖 = 1, 𝑛) Từ dãy “Wj;{(x’,y’)}*” ta có dãy 𝑑𝑤 𝑗 = 𝑥𝑖′ (𝑖 = 1, 𝑚) Từ dãy 𝑑𝑤 = 𝑥𝑖 qua phép biến đổi Cosin ta vector pw; từ dãy 𝑑𝑤 𝑗 = 𝑥𝑖′ qua phép biến đổi Cosin ta vector pwj, vector pw, pwj hệ số AC phép biến đổi Cosin với dãy có độ dài Tính khoảng cáchgiữa hai vector pw pwj Giả sử𝑑𝑘 = 𝑑 𝑝𝑤 , 𝑝𝑤 𝑗 = 𝑑 𝑝𝑤 , 𝑝𝑤 𝑘 𝑗 =1,𝑁 Nếu dk ≈ ta kết luận từ vào Wk Mơ tả thuật tốn: 1) Input (W);Xác định dãy đặc trưng Zerocrossing “W;{(x,y)}*” ; trích dãy 𝑑𝑤 = 𝑥𝑖 (𝑖 = 1, 𝑛) 2) Với 𝑗 = 1, 𝑁 lấy dãy đặc trưng Zerocrossing “Wj;{(x’,y’)}*” từ sở liệu; trích dãy 𝑑𝑤 𝑗 = 𝑥𝑖′ (𝑖 = 1, 𝑚) 3) Biến đổi Cosin dãy 𝑑𝑤 = 𝑥𝑖 ta vector pw; Biến đổi Cosin dãy 𝑑𝑤 𝑗 = 𝑥𝑖′ ta vector pwj 4) Tính 𝑑𝑘 = 𝑑 𝑝𝑤 , 𝑝𝑤 𝑗 = 𝑑 𝑝𝑤 , 𝑝𝑤 𝑘 1≤𝑗 ≤𝑁 5) Nếu 𝑑𝑘 < 𝑐 khẳng định từ vào Wk ngược lại kết luận 6) Dừng, kết thúc thuật toán Ở đây: - N số phần tử có sở liệu - c ngưỡng chọn; c >0 Lƣu ý: Khi tính d pw , pw j cần lưu ý số thành phần pw pwj khác nhau, ta phải duyệt tất khả pw pwj thuật tốn tính hệ số tương quan Ta có sơ đồ khối thuật tốn nhận dạng hình 4.4: 53 TIEU LUAN MOI download : skknchat@gmail.com Begin Input file.wav từ đơn W Khử nhiễu (sử dụng hàm lượng thấp, dựa vào lượng tập trung) Trích “W;{(x,y)}*” Trích dãy dw={x} Biến đổi Cosin pw =DCT(dw) j=1; d=0; dmin=0; k=0; c=0; Trích dãy dwj={x’} Biến đổi Cosin pwj =DCT(dwj) Tính d = d(pw,pwj) Đúng d < dmin Đúng Sai d = dmin; k=j j=j+1 j

Ngày đăng: 27/06/2022, 17:19

Hình ảnh liên quan

Hình 1.1: Điểm cắt Zero biểu thị tương quan giữa điện áp và thời gian - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 1.1.

Điểm cắt Zero biểu thị tương quan giữa điện áp và thời gian Xem tại trang 10 của tài liệu.
Hình 1.2: Mô tả cách biểu diễn đoạn tín hiệu giữa hai điểm cắt zero qua tam giác ABC  - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 1.2.

Mô tả cách biểu diễn đoạn tín hiệu giữa hai điểm cắt zero qua tam giác ABC Xem tại trang 11 của tài liệu.
Hình 1.3: Sơ đồ mô tả thuật toán xác định tệpf1.txtchứa các bộ ba {x,y,z} - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 1.3.

Sơ đồ mô tả thuật toán xác định tệpf1.txtchứa các bộ ba {x,y,z} Xem tại trang 12 của tài liệu.
Để dễ hình dung, đầu ra của mỗi tầng được kí hiệulà Xm(n) vớ im là tầng hiện thời. Ta xem x’(n) là biến đổi Cosin(0) tầng của x’(n):  - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

d.

ễ hình dung, đầu ra của mỗi tầng được kí hiệulà Xm(n) vớ im là tầng hiện thời. Ta xem x’(n) là biến đổi Cosin(0) tầng của x’(n): Xem tại trang 15 của tài liệu.
Hình 1.5: Biến đổi Wavelet - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 1.5.

Biến đổi Wavelet Xem tại trang 20 của tài liệu.
Hình 1.8: Các thành phần wavelet tương ứng với các tỉ lệ và vị trí khác nhau - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 1.8.

Các thành phần wavelet tương ứng với các tỉ lệ và vị trí khác nhau Xem tại trang 22 của tài liệu.
Hình 1.9:Biến đổi wavelet rời rạc của tín hiệu - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 1.9.

Biến đổi wavelet rời rạc của tín hiệu Xem tại trang 23 của tài liệu.
Hình 1.10: Hàm Wavelet ψ(t) và hàm tỉ lệ Haarφ(t) cơ bản - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 1.10.

Hàm Wavelet ψ(t) và hàm tỉ lệ Haarφ(t) cơ bản Xem tại trang 25 của tài liệu.
Hình 1.12: Khôi phục lại từ một biến đổi wavelet đã được chuẩn hóa - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 1.12.

Khôi phục lại từ một biến đổi wavelet đã được chuẩn hóa Xem tại trang 28 của tài liệu.
Bảng 1.2: Các cặp giá trị (Xi,Yi) vớ in học sinh trong một trường - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Bảng 1.2.

Các cặp giá trị (Xi,Yi) vớ in học sinh trong một trường Xem tại trang 30 của tài liệu.
Hình 1.13: Đồ thị tương quan giữa vòng eo và cân nặng của 15 đối tượng - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 1.13.

Đồ thị tương quan giữa vòng eo và cân nặng của 15 đối tượng Xem tại trang 31 của tài liệu.
Hình 2.1: Cấu trúc tổng quát của một hệ thống nhận dạng tiếngnói - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 2.1.

Cấu trúc tổng quát của một hệ thống nhận dạng tiếngnói Xem tại trang 34 của tài liệu.
Tóm lại ta có thể mô tả quá trình số hóa âm thanh một cách ngắn gọn như hình 3.1:  - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

m.

lại ta có thể mô tả quá trình số hóa âm thanh một cách ngắn gọn như hình 3.1: Xem tại trang 37 của tài liệu.
Bảng 3.1 sau đây là mô tả dạng tệp Wave cơ bản: - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Bảng 3.1.

sau đây là mô tả dạng tệp Wave cơ bản: Xem tại trang 40 của tài liệu.
Một file wave chuẩn bắt đầu bởi ký hiệu RIFF Header như trong bảng 3.2: - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

t.

file wave chuẩn bắt đầu bởi ký hiệu RIFF Header như trong bảng 3.2: Xem tại trang 41 của tài liệu.
Hình 3.4: Cấu trúcfile wave - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 3.4.

Cấu trúcfile wave Xem tại trang 41 của tài liệu.
Và phần diễn dịch được thể hiện như trong Hình 3.5: - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

ph.

ần diễn dịch được thể hiện như trong Hình 3.5: Xem tại trang 43 của tài liệu.
Bảng 3.3: Khuôn dạng khúc fmt sử dụng cho dữ liệu PCM: - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Bảng 3.3.

Khuôn dạng khúc fmt sử dụng cho dữ liệu PCM: Xem tại trang 44 của tài liệu.
Thuật toán lọc nhiễu sử dụng hàm năng lượng thấp được miêu tả như trong hình 3.6:  - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

hu.

ật toán lọc nhiễu sử dụng hàm năng lượng thấp được miêu tả như trong hình 3.6: Xem tại trang 46 của tài liệu.
Nhìn vào hình trên, ta nhận thấy “năng lượng” của từ“ không” này tập trung ở bên trái nhiều hơn - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

h.

ìn vào hình trên, ta nhận thấy “năng lượng” của từ“ không” này tập trung ở bên trái nhiều hơn Xem tại trang 47 của tài liệu.
Hình 3.7: Dạng sóng của từ “Không” khi đọc qua mic (đã lọc năng lượng thấp) - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 3.7.

Dạng sóng của từ “Không” khi đọc qua mic (đã lọc năng lượng thấp) Xem tại trang 47 của tài liệu.
Thuật toán lọc nhiễu sử dụng năng lượng tập trung được miêu tả như trong hình 3.9:  - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

hu.

ật toán lọc nhiễu sử dụng năng lượng tập trung được miêu tả như trong hình 3.9: Xem tại trang 48 của tài liệu.
Hình 4.1: Sơ đồ khối hệ thống nhận dạng từ đơn “Có” và “Không” - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 4.1.

Sơ đồ khối hệ thống nhận dạng từ đơn “Có” và “Không” Xem tại trang 50 của tài liệu.
Hình 4.2: Xét sự tương quan giữa 2 dãy - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 4.2.

Xét sự tương quan giữa 2 dãy Xem tại trang 53 của tài liệu.
Hình 4.3: Sơ đồ khối thuật toán đối sánh theo hệ số tương quan - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 4.3.

Sơ đồ khối thuật toán đối sánh theo hệ số tương quan Xem tại trang 54 của tài liệu.
Hình 4.5: Giao diện chính của chương trình - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Hình 4.5.

Giao diện chính của chương trình Xem tại trang 57 của tài liệu.
Cuối cùng chương trình hiển thị kết quả nhận dạng ở màn hình chính - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

u.

ối cùng chương trình hiển thị kết quả nhận dạng ở màn hình chính Xem tại trang 59 của tài liệu.
Bảng 4.1: Bảng số lượng mẫu thu thập hai từ“Có” và “Không” - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Bảng 4.1.

Bảng số lượng mẫu thu thập hai từ“Có” và “Không” Xem tại trang 59 của tài liệu.
Bảng 4.3: Kết quả thử nghiệm chương trình với từ“Có” - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Bảng 4.3.

Kết quả thử nghiệm chương trình với từ“Có” Xem tại trang 60 của tài liệu.
Bảng 4.2: Bảng số lượng mẫu hai từ“Có” và “Không” lưu đặc trưng vào cơ sở dữ liệu  - (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu và ứng dụng một số thuật toán nén tiếng nói  luận văn ths  công nghệ thông tin  60 48 05001

Bảng 4.2.

Bảng số lượng mẫu hai từ“Có” và “Không” lưu đặc trưng vào cơ sở dữ liệu Xem tại trang 60 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan