1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng của xử lý số tín hiệu trong phân tích và mã hoá tiếng nói

125 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 125
Dung lượng 2,63 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI WX LUẬN VĂN THẠC SĨ KHOA HỌC ỨNG DỤNG CỦA XỬ LÝ SỐ TÍN HIỆU TRONG PHÂN TÍCH VÀ MÃ HĨA TIẾNG NĨI NGÀNH : ĐIỆN TỬ VIỄN THƠNG TRẦN NGỌC TUẤN Người hướng dẫn khoa học: PGS.TS NGUYỄN QUỐC TRUNG Hà Nội 2008 Luận văn cao học ĐTVT 2006 - 2008 LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ tài liệu ghi rõ luận văn, phần trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp Hà Nội, ngày 17 tháng 11 năm 2008 Trần Ngọc Tuấn i Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Quốc Trung tận tình bảo hướng dẫn cho tơi kiến q báu để tơi hồn thành luận văn Xin chân thành cảm ơn thầy cô giáo khoa Điện Tử - Viễn Thông trường đại học Bách Khoa Hà Nội giúp tơi hồn thành nhiệm vụ môn học suốt thời gian học trường, cảm ơn anh chị bạn đồng nghiệp môn Kỹ Thuật Thông Tin khoa Điện Tử Viễn Thông ĐHBKHN giúp đỡ trình học tập ii Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ vii CÁC THUẬT NGỮ VIẾT TẮT ix CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Cơ sở nghiên cứu mục đích luận văn 1.2 Nội dung cấu trúc luận văn CHƯƠNG TỔNG QUAN CÁC KỸ THUẬT MÃ HÓA TIẾNG NÓI 2.1 Giới thiệu 2.2 Các kỹ thuật mã hóa tiếng nói 2.2.1 Mã hóa theo tham số 2.2.2 Mã hóa dạng sóng 2.2.3 Mã hóa lai 2.3 Các mục tiêu u cầu thuật tốn mã hóa 2.3.1 Chất lượng dung lượng 2.3.2 Trễ mã hóa 2.3.3 Độ bền bỉ (Robustness) 2.3.4 Độ phức tạp chi phí 2.3.5 Ghép nối chuyển mã 10 2.3.6 Xử lý liệu dải tần tiếng nói 10 2.4 Các chuẩn mã hóa tiếng nói 11 2.4.1 Chuẩn mã hóa ITU-T 11 2.4.2 Chuẩn điện thoại số celluar châu Âu 12 2.4.3 Chuẩn điện thoại số Bắc Mỹ 13 2.4.4 Điện thoại bảo mật (Chuẩn quốc phòng Mỹ) 14 iii Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 2.4.5 Điện thoại vệ tinh 15 2.4.6 Đánh giá chất lượng mã hóa 15 CHƯƠNG PHÂN TÍCH TÍN HIỆU TIẾNG NĨI BẰNG PHƯƠNG PHÁP DỰ ĐỐN TUYẾN TÍNH 18 3.1 Giới thiệu 18 3.2 Phân tích phổ thời gian ngắn 19 3.2.1 Biến đổi Fourier thời gian ngắn 19 3.2.2 Vai trò cửa sổ 19 3.3 Mơ hình dự đốn tuyến tính tín hiệu tiếng nói 25 3.3.1 Mơ hình máy phát âm 26 3.3.2 Xác định hệ số mơ hình LPC 28 3.3.3 Q trình phân tích mã hóa LPC thực tế 37 3.3.4 Dãy sai số phân tích LPC 39 3.4 Dự đoán chu kỳ Pitch 41 3.4.1 Tính chu kỳ tín hiệu tín hiệu tiếng nói 41 3.4.2 Dự đoán chu kỳ Pitch (Dự đoán thời gian dài) 41 3.5 Xác định chu kỳ tín hiệu (tần số bản) 48 3.5.1 Tách chu kỳ miền thời gian 49 3.5.2 Tách chu kỳ miền tần số 54 3.5.3 Các kỹ thuật tiền hậu xử lý 56 CHƯƠNG LƯỢNG TỬ HÓA CÁC THAM SỐ LPC BẰNG CÁC TẦN SỐ PHỔ VẠCH LSF 67 4.1 Giới thiệu 67 4.2 Các tham số thay tham số LPC 67 4.3 Biến đổi qua lại LPC LSF 70 4.3.1 Tính tốn hệ số LSF 72 4.3.2 Biến đổi LSF sang LPC 77 4.4 Các tính chất LSF 81 iv Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 CHƯƠNG CÁC BỘ MÃ HĨA TIẾNG NĨI DÙNG KỸ THUẬT PHÂN TÍCH NHỜ TỔNG HỢP AbS 84 5.1 Giới thiệu 84 5.2 Tổng quan mã hóa AbS 85 5.2.1 Bộ lọc biến đổi 88 5.2.2 Thủ tục tối thiểu hóa sai số 88 5.2.3 Tín hiệu kích thích 91 5.3 Mã hóa dự đốn tuyến tính kích thích mã CELP 94 5.3.1 Dự đoán LPC (Dự đoán thời gian ngắn) 96 5.3.2 Dự đoán pitch (Dự đoán thời gian dài) 97 5.3.2 Bảng mã kích thích 101 CHƯƠNG THIẾT KẾ CHƯƠNG TRÌNH MƠ PHỎNG Q TRÌNH PHÂN TÍCH LPC 105 6.1 Giới thiệu 105 6.2 Giao diện chương trình 105 6.3 Các chức 107 6.4 Các kết thực nghiệm 107 KẾT LUẬN 112 TÀI LIỆU THAM KHẢO 114 v Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 DANH MỤC CÁC BẢNG Bảng 2.1 Các chuẩn mã hóa tiếng nói băng hẹp ITU-T 11 Bảng 2.2 Các chuẩn mã hóa ETSI cho truyền thông di động GSM 13 Bảng 2.3 Các chuẩn mã hóa TIA/EIA cho CDMA/TDMA Mỹ 14 Bảng 2.4 Các chuẩn mã hóa DoD (Bộ quốc phòng Mỹ) 14 Bảng 2.5 Các chuẩn mã hóa tiếng nói INMARSAT 15 Bảng 2.6 Thang điểm đánh giá trung bình MOS 16 Bảng 2.7 So sánh chuẩn mã hóa tiếng nói 17 Bảng 3.1 So sánh phương pháp tìm tham số LPC 37 Bảng 3.2 Phối hợp hàm cắt khác 59 Bảng 4.1 Ưu nhược điểm hệ số PARCOR LSF 81 Bảng 4.2 Điều kiện thực nghiệm khảo sát tương quan hệ số LSF.82 Bảng 4.3 Tương quan hệ số LSF khung (ma trận Ω) 82 Bảng 4.4 Tương quan hệ số LSF liên khung (ma trận Ψ) 83 Bảng 5.1 Các tham số thiết lập để so sánh loại mã kích thích 104 Bảng 5.2 Kết so sánh hoạt động loại bảng mã 104 vi Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 DANH MỤC CÁC HÌNH VẼ Hình 2.1 Chất lượng tốc độ kỹ thuật mã hóa tiếng nói Hình 2.2 Chất lượng tiếng nói chuẩn mã hóa 16 Hình 3.1 Dạng sóng tín hiệu tiếng nói hữu vơ 18 Hình 3.2 Các loại cửa sổ miền thời gian 21 Hình 3.3 Đáp ứng tần số loại cửa sổ 21 Hình 3.4 Tác động loại cửa sổ lên tín hiệu tiếng nói hữu 22 Hình 3.5 Tác động loại cửa sổ đến tín hiệu tiếng nói vơ 23 Hình 3.6 Tác động cửa sổ (dài 40 mẫu (5ms)) lên tín hiệu hữu 25 Hình 3.7 Mơ hình phát âm (tạo tiếng nói) 26 Hình 3.8 Dự đoán tiến dự đoán lùi 33 Hình 3.9 Bộ lọc mắt cáo dùng hệ số PARCOR ki 35 Hình 3.10 Bộ lọc mắt cáo đảo tổng hợp tín hiệu tiếng nói từ tín hiệu sai số 35 Hình 3.11 Quan hệ bậc lọc tăng ích dự đốn 38 Hình 3.12 Đường bao phổ tín hiệu qua lọc LPC bậc khác 39 Hình 3.13 Tín hiệu gốc tín hiệu sai số LPC 40 Hình 3.14 So sánh phổ tín hiệu gốc tín hiệu sai số 40 Hình 3.15 Mơ hình tính toán pitch-LPC 42 Hình 3.16 Đồ thị thời gian tín hiệu sai số LPC sai số Pitch 46 Hình 3.17 Biến thiên β đoạn tín hiệu tiếng nói điển hình 47 Hình 3.18 Biến thiên τ đoạn tín hiệu tiếng nói điển hình 47 Hình 3.19 Xác định chu kỳ dùng hàm tự tương quan hàm AMDF 51 Hình 3.20 Hàm tự tương quan trực tiếp chuẩn hóa 53 Hình 3.21 Phát đỉnh sử dụng lọc lược 55 Hình 3.22 Phổ tín hiệu với phương pháp phổ đồng dạng 56 Hình 3.23 Các hàm cắt 58 Hình 3.24 Theo dõi chu kỳ tiến 60 Hình 3.25 Phương pháp theo dõi đường 61 Hình 3.26 Các khoảng tìm kiếm chu kỳ chồng 63 Hình 3.27 Những khoảng tìm kiếm chồng 64 Hình 4.1 Mơ hình dạng ống khơng tổn hao máy phát âm 71 vii Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Hình 4.2 Bộ lọc tổng hợp LPC cấu trúc PARCOR 71 Hình 4.3 Các tham số LSF cho đoạn tiếng nói điển hình 75 Hình 4.4 Phân bố tham số LSF 76 Hình 4.5 Sơ đồ cấu trúc lọc tổng hợp LSF thực tế 80 Hình 5.1 Sơ đồ khối kỹ thuật phân tích tổng hợp dùng vịng kín 85 Hình 5.2 Sơ đồ khối kỹ thuật mã hóa AbS-LPC 86 Hình 5.3 Đồ thị so sánh phổ tín hiệu gốc tín hiệu sau lọc trọng số 90 Hình 5.4 Bộ mã hóa AbS-LPC biến đổi 91 Hình 5.5 Bộ mã hóa AbS-LPC với nhiều loại tín hiệu kích thích khác 92 Hình 5.6 Cấu trúc xung kích thích RPELPC 94 Hình 5.7 Sơ đồ khối thuật tốn mã hóa CELP chuẩn 96 Hình 5.8 Phương pháp lặp lại pitch trường hợp Dmin < L 100 Hình 6.1 Giao diện chương trình 106 Hình 6.2 Tín hiệu sai số với lọc LPC bậc 108 Hình 6.3 Tín hiệu sai số với lọc LPC bậc 10 108 Hình 6.4 So sánh kết phổ tín hiệu với lọc LPC bậc khác 109 Hình 6.5 Tín hiệu tổng hợp đoạn tiếng nói nguyên âm "a" 109 Hình 6.6 Các tham số LTP theo thời gian sau phân tích 110 Hình 6.7 Các tham số LTP sau phân tích đoạn tiếng nói tổng hợp 111 viii Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 CÁC THUẬT NGỮ VIẾT TẮT AaS AbS ACELP Analysis-and-Synthesis Analysis-by-Synthesis Algebraic CELP ADPCM Adaptive Differential PCM AMDF Average Magnitude Difference Function Application-Specific Integrate Circuit Adaptive Transform Coding Code Excited Linear Predictive ASIC ATC CELP CVSDM DMR ETSI DSI ETSI FEC ITU ITU-T LAR LPC LSF Continuous Variable Slope Delta Modulation Digital Mobile Radio European Telecommunications Standards Institute Digital Speech Interpolation European Telecommunications Standards Institute Forward Error Correction International Telecommunication Union ITU-Telecommunication Standardization Sector Log Area Ratio Linear Predictive Coding Line Spectral Frequency ix Phân tích tổng hợp Phân tích cách tổng hợp Dự đốn tuyến tính kích thích mã đại số Điều chế xung mã vi sai tự thích nghi Hàm vi sai biên độ trung bình Mạch tích hợp chun dụng Mã hóa biến đổi tự thích nghi Dự đốn tuyến tính kích thích mã Điều chế delta độ dốc biến đổi liên tục Di động số vô tuyến Viện tiêu chuẩn viễn thông châu Âu Nội suy tiếng nói kỹ thuật số Viện tiêu chuẩn viễn thông châu Âu Mã sửa lỗi trước Liên minh viễn thơng quốc tế Bộ phận tiêu chuẩn hóa viễn thơng quốc tế thuộc ITU Tỉ số miền Loga Mã hóa dự đốn tuyến tính Tần số phổ vạch Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Từ ta thấy để tìm nghiệm phương trình ta phải giải phương trình bậc β Điều rõ ràng phức tạp phải tìm kiếm với tất giá trị D nhỏ L Một giải pháp để giải phương trình dùng phương pháp thử dần giá trị lượng tử β Với phương pháp này, tổng số hạng tính trước với giá trị lượng tử β thay vào phương trình Giá trị β cho sai số bình phương nhỏ giá trị cần tìm Tuy nhiên với phương pháp khối lượng tính tốn lớn, ví dụ L = 50, Dmin = 20 β = bit số lần thử 23 × ( 50 − 20 ) = 240 D > L Một giải pháp cho trường hợp D < L sử dụng cơng thức bảng mã tự thích ứng (adaptive codebook) LTP, lặp lại có chu kỳ đầu LTP trước đó, nghĩa là: ⎧ β rˆ ( n − D ) ⎪ ⎪ β rˆ ( n − D ) rˆ ( n ) = ⎪⎨ ⎪M ⎪ ⎪⎩ β rˆ ( n − aD ) ≤ n ≤ D −1 D ≤ n ≤ 2D −1 (5.25) aD ≤ n ≤ L −1 s% ( n ) sˆ ( n − D ) "0" sˆ ( n ) βi Bộ đệm LTP Dmax a - a - L a - Bộ đệm STP a - Dmin < L Hình 5.8 Lặp lại pitch trường hợp Dmin < L Nói cách khác, phần chưa xác định trước tín hiệu kích thích LTP khung xây dựng cách lặp lại phần xác định với chu kỳ D Sử dụng phương pháp cần xác định giá trị β 100 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Phương pháp khơng tính đến trường hợp xung pitch khung thay đổi biên độ sang khung khác Hình 5.8 biểu diễn thủ tục tổng hợp CELP sử dụng phương pháp tự thích nghi này, lọc LPC lọc trọng số biểu diễn lọc thời gian ngắn STP 5.3.2 Bảng mã kích thích Các véctơ bảng mã kích thích thành phần quan trọng thuật tốn mã hóa CELP Với chức chính: • Cung cấp thơng tin khởi tạo cho nhớ lọc LTP, có số đoạn đột ngột thay đổi tín hiệu tiếng nói mà dự đốn pitch dự đốn khơng xác • Chúng cung cấp thơng tin mà dự đoán thời gian dài LTP bỏ qua Điều đặc biệt quan tín hiệu vào đoạn vô LTP làm việc không hiệu Bởi vậy, việc tổ chức bảng mã kích thích cho mã hóa CELP phương pháp tìm kiếm véctơ tối ưu quan trọng, có nhiều nghiên cứu vấn đề Một hướng nghiên cứu liên quan chi phí tính tốn thủ tục tìm kiếm véctơ Quá trình tìm kiếm véctơ tối ưu kỹ thuật CELP chia làm bước: Với véctơ bảng mã xét, thực tổng hợp để xác định tín hiệu tương ứng sˆk (n) Tính tương quan chéo tín hiệu tham chiếu s% (n) với véctơ tổng hợp sˆk (n) Tính độ tự tương quan tín hiệu tổng hợp sˆk (n) Kiếm tra sai số tối thiểu tương quan chuẩn hóa lớn Để giảm độ phức tạp dung lượng nhớ đồng thời tăng chất lượng có nhiều phiên bảng mã kích thích phát triển sử dụng Phiên mã kích thích chuẩn Gauss, sau có nhiều phiên cải tiến khác mã đại số ACELP, tổng véctơ VSELP, kích thích hỗn hợp tự thích ứng với chu kỳ PAME Sau ta xét loại kích thích chuẩn kích thích Gauss 101 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Kích thích Gauss (kích thích chuẩn) Hầu hết phiên kỹ thuật CELP sử dụng bảng mã kích thích dãy Gauss tín hiệu tiếng nói sau lọc đảo với lọc LPC mắc sau lọc pitch cho dãy sai số giống với nhiễu trắng (nhiễu Gauss) Vấn đề kích thước nhớ để lưu trữ vectơ bảng mã Gauss Ví dụ sử dụng bảng mã 10 bit để tham chiếu L mẫu, số lượng vị trí cần lưu trữ 210 × L Giả sử L = 40 tương ứng với 40960 vị trí cần lưu trữ, số lớn khó khăn để xử lý với thời gian thực Để khắc phục điều này, véctơ Gauss biểu diễn dạng mảng chiều hầu hết mẫu hai véctơ giống Khi sử dụng bảng mã chồng thơng dụng dùng phép dịch (shift) tạo véctơ Nói cách khác, để sinh véctơ bỏ hai mẫu cuối véctơ trước thêm vào hai mẫu vào đầu nghĩa thực dịch lần Một bảng mã chồng dịch chuyển đơn bước tương ứng với lọc LTP độ trễ nhỏ lớn L − L+ C − vị trí kích thước bảng mã C Một số mã hóa sử dụng phiên bảng mã kích thích khác, mã cắt với ngưỡng cắt 1,2 độ lớn vectơ có phương sai Sử dụng mã cắt cho tín hiệu tiếng nói tổng hợp chói Một nguyên nhân so sánh vectơ bảng mã với vectơ tham chiếu số vectơ có thành phần modul lớn chiếm ưu sinh sai số thành phần vector modul nhỏ Vì làm cho biên độ véctơ nhỏ giảm thiểu sai số chúng gây ra, việc so khớp véctơ với mẫu có độ lớn cao tốt nhiều Việc huấn luyện bảng mã Gauss gia tăng chất lượng đáng kể kích thước bảng mã bit Do cần đơn giản sử dụng sinh dãy số ngẫu nhiên Gauss Một số ứng dụng sử dụng bảng mã tam phân, số ngẫu nhiên dãy Gauss chiếm giá trị biên độ, dương, −1 số âm Ngoài loại bảng mã trên, phiên thông dụng khác bảng mã chuẩn bảng mã thưa, 102 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 thành phần khác không vectơ theo sau số cố định số Bảng mã giống với kích thích đa xung LPC Bảng mã chồng hữu dụng việc giảm độ phức tạp tính tốn việc tìm kiếm khối lượng cần lưu trữ giảm Hơn bảng mã này, vectơ gần kề gần giống nhau, tận dụng tính chất để giảm bước tính tốn phép tính tích chập để tạo tín hiệu tổng hợp đầu Nếu đáp ứng xung lọc kết hợp lọc LPC lọc trọng số h(n) véctơ tổng hợp sˆk (n) tương ứng với véctơ kích thích thứ k xk(n) bảng mã dịch đơn bước sau (phép chập): n sk (n) = ∑ xk ( n − i )h ( i ) (5.26) i =0 Với bảng mã dịch đơn bước, khác véctơ kề khác mẫu cuối vị trí cuối véctơ kích thích lẫn véctơ tổng hợp sˆk +1 , véctơ biểu diễn qua véctơ sk sau: sˆk +1 ( n ) = xk +1 ( ) h ( n ) + sˆk ( n −1) (5.27) với sˆk (−1) = Từ phương trình ta thấy cách dịch chuyển véctơ đầu trước mẫu sˆk ( n − 1) cộng thêm vào véctơ tỉ lệ với đáp ứng xung, theo tỉ lệ mẫu nghĩa xk +1 ( ) h ( n ) ta thu véctơ tổng hợp mới, cơng việc tính tốn đơn giản nhiều Khi số lượng bước dịch chuyển bảng mã tăng độ phức tạp tăng lên, số bước dịch chuyển với chiều dài vectơ bảng mã chồng trở thành bảng mã chuẩn chứa véctơ độc lập với ⎧ n ⎪ xk +1h ( i ) sˆk +1 ( n ) = ⎪⎨ Ri =−01 ⎪ x h n − i ) + sˆk ( n − R ) ⎪ i =0 k +1 ( ) ( ⎩ ∑ 0≤n< R ∑ n≥ R (5.28) Nếu sử dụng bảng mã chồng cắt phương trình (5.26) khơng cần phải thực phép nhân với h(i) giá trị xk(n), độ phức tạp tính tốn giảm đáng kể Khi sau tổng hợp 103 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 véctơ với véctơ giảm nhiều tính tốn sử dụng (5.27) Trong phương trình (5.27), mẫu thêm vào để tạo thành véctơ kích thích số hạng (5.27) cần đơn giản dịch chuyển véctơ tổng hợp cũ mẫu cho ta nhận véctơ tổng hợp So sánh phiên bảng mã Gauss trình bày trên, với mã hóa CELP khơng lượng tử bảng 5.1 Kết cho bảng 5.2 (bảng mã chồng với bước dịch R = mẫu) Kết sau kiểm tra cách nghe chủ quan cho thấy chất lượng tiếng nói với bảng mã cắt tốt so sánh với bảng mã Gauss chuẩn Sự khác biệt bảng mã chồng khơng chồng loại khơng đáng kể Nhưng với kết bảng 5.4 cho thấy sử dụng bảng mã chồng thuận lợi cho việc giảm nhớ cho tính tốn Tham số Lấy mẫu Phân tích LPC LTP & hệ số Bảng mã 10 bit Trọng số Tốc độ 8kHz 160 mẫu 40 mẫu 40 mẫu γ = 0,9 Bảng 5.1 Các tham số thiết lập để so sánh loại mã kích thích Bảng mã LTP hệ số (dB) LTP hệ số (dB) Kích thước (từ) Gauss 11,11 12,52 1024 × 40 Gauss cắt 11,20 12,53 1024 × 40 Gauss chồng 11,16 12,49 × 1023 + 40 Gauss cắt chồng 11,18 12,55 × 1023 + 40 Bảng 5.2 Kết so sánh hoạt động loại bảng mã 104 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 CHƯƠNG THIẾT KẾ CHƯƠNG TRÌNH MƠ PHỎNG Q TRÌNH PHÂN TÍCH LPC 6.1 Giới thiệu Chương trình mơ viết ngôn ngữ Visual C++ 6.0 môi trường Window Với liệu đầu vào file dạng *.WAV 16 bit Mono (1 kênh PCM) không nén, mẫu mã hóa 16bit, với độ lớn từ −32767 đến 32768 Với điều kiện thực nghiệm mặc định sau, tần số lấy mẫu 8KHz (8000 mẫu giây) Lựa chọn kích thước khung phân tích 160 mẫu (tương ứng 20ms), kích thước khung 40 mẫu (5ms) tức khung chứa khung Bậc lọc LPC 10, bậc lọc LTP (I = 1) Tuy nhiên thông số đầu vào thay đổi người sử dụng để quan sát thay đổi tín hiệu phân tích Sau đọc file nguồn (chức mở file) thơng số thiết lập, chương trình thực phân tích hiển thị kết quả: + Tín hiệu sai số sau phân tích dự đoán thời gian ngắn STP dự đoán thời gian dài + Tín hiệu tổng hợp LPC sử dụng khơng sử dụng dự đốn thời gian dài LTP + Phát loa tín hiệu gốc, loại tín hiệu tổng hợp + Các tham số LPC αi khung + Vẽ đồ thị phổ tín hiệu gốc tín hiệu tổng hợp khung + Vẽ đồ thị tham số LTP ( β, τ ) theo thời gian + Vẽ đồ thị hàm tự tương quan tín hiệu gốc 6.2 Giao diện chương trình Hình 6.1 giao diện chương trình, gồm cửa sổ tín hiệu Cửa sổ thứ hiển thị tồn tín hiệu tiếng nói gốc đọc vào từ file Ta chọn thị chi tiết đoạn tín hiệu cách click vào phần tín hiệu cửa sổ này, đoạn tín hiệu chi tiết hiển thị cửa sổ thứ Tại cửa 105 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 sổ khung phân tích có dấu phân cách riêng Tại cửa sổ thứ ta chọn cụ thể khung để xem kết phân tích riêng khung Tín hiệu tiếng nói gốc Một đoạn tín hiệu gốc Khung chọn ( khung 64 ) Tín hiệu kết Tín hiệu kết Hình 6.1 Giao diện chương trình Cửa sổ thứ thứ hai cửa sổ hiển thị tín hiệu kết đầu Tùy thuộc vào chọn thị tín hiệu phần "Hiển thị" bên trái Trên hình 6.1 chọn hiển thị tín hiệu sai số ứng với cửa sổ thứ tín hiệu sai số sau phân tích LPC, cịn cửa sổ thứ tín hiệu sai số sau phân tích LTP Bên trái giao diện chương trình thiết lập điều khiển Các tham số bao gồm: + Tham số LPC : Có bậc lọc LPC, chiều dài khung phân tích (theo mẫu) Danh sách tham số a[i] khung phân tích thời chọn 106 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 + Tham số LTP: Bậc lọc LTP cố định (I = 0), chiều dài khung Các tham số thay đổi được, sau thay đổi nhấn nút "Cập nhật" để thay đổi có hiệu lực để hiển thị kết 6.3 Các chức Chương trình hiển thị kết sau phân tích LPC LTP Mỗi chọn khung tham số LPC a[i] hiển thị bên trái phần tham số LPC Các tín hiệu kết đầu hiển thị cửa sổ tín hiệu theo tùy chọn mục "Hiển thị" Gồm tùy chọn sau: + Tín hiệu sai số: Cửa sổ hiển thị tín hiệu sai số sau phân tích LPC LTP + Tín hiệu tổng hợp: Các tín hiệu tổng hợp sau sử dụng phân tích LPC, LTP kết hợp LPC Các tín hiệu tổng hợp tín hiệu gốc phát loa bấm vào nút "Play" + Tham số LTP: Cửa sổ tương ứng hiển thị đồ thị theo khung tham số LTP tăng ích β độ trễ τ (giá trị ứng cử cho chu kỳ pitch tìm được) Ngồi xem hình ảnh phổ tín hiệu gốc phổ tín hiệu sai số sau phân tích LPC cách ấn vào "Phổ tín hiệu", chương trình vẽ phổ tín hiệu tín hiệu gốc (màu xanh) phổ tín hiệu sai số (màu đỏ) khung phân tích chọn 6.4 Các kết thực nghiệm Đối với trường hợp ta ln thấy tín hiệu sai số LPC ln có biên độ cao tín hiệu sai số LTP Hơn tín hiệu sai số LPC cịn tính chu kỳ, cịn tín hiệu sai số LTP đoạn tín hiệu hữu gần giống với nhiễu trắng Hơn bậc p lọc LPC thấp tín hiệu sai số lớn, cịn bậc p cao tín hiệu sai số biên độ nhỏ Trên hình 6.2 6.3 biểu diễn đoạn tín hiệu sai số phân tích với p = p = 10, tăng p ta thấy tín hiệu sai số nhỏ Tuy nhiên tăng p lớn lên vài chục tín hiệu sai số nhỏ khơng đáng kể 107 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Hình 6.2 Tín hiệu sai số với lọc LPC bậc Hình 6.3 Tín hiệu sai số với lọc LPC bậc 10 108 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Về phổ tín hiệu ta thấy rõ p lớn phổ tín hiệu sai số phẳng Trên hình 6.4 kết khung phân tích LPC cho tín hiệu hữu thiết lập p 2, 10 25 Ta thấy rõ tín hiệu sai số (phổ dưới) có cấu trúc formant giống với tín hiệu gốc phổ phẳng hơn, sử dụng tín hiệu sai số để dự đoán thời gian dài LTP p=2 p = 10 p = 25 Hình 6.4 So sánh kết phổ tín hiệu với lọc LPC bậc khác Tín hiệu gốc Tín hiệu tổng hợp sau phân tích LPC Tín hiệu tổng hợp sau phân tích LTP-LPC Hình 6.5 Tín hiệu tổng hợp đoạn tiếng nói ngun âm "a" Trên hình 6.5 đoạn tín hiệu tiếng nói tổng hợp sau phân tích LPC, phân tích LPC kết hợp LTP Ta thấy rõ tín hiệu tổng hợp sau phân tích LTPLPC giống với tín hiệu gốc tín hiệu tổng hợp sau phân tích LPC Sau 109 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 nhiều mẫu tiếng nói nghe thử tín hiệu tổng hợp khơng khác tín hiệu gốc Tuy nhiên ta xét trường hợp lý tưởng, tín hiệu chưa lượng tử hóa tín hiệu nhận xác tuyệt đối nên tín hiệu tổng hợp chất lượng tốt Tín hiệu gốc Các tham số β lọc LTP Các tham sốτ lọc LTP Hình 6.6 Các tham số LTP theo thời gian sau phân tích Hình 6.6 đồ thị tham số LTP theo thời gian đoạn tín hiệu hữu Ta thấy khoảng hữu giá trị β dao động quanh 1, xung nhọn (nơi chuyển tiếp tín hiệu đột ngột) β lớn Trong khoảng hữu giá trị chu kỳ τ biến đổi liên tục, nhờ tính chất làm tiền đề cho kỹ thuật theo dõi chu kỳ trình bày chương Cịn ngồi khoảng hữu tham số LTP biến đổi mạnh 110 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 Hình 6.7 Các tham số LTP sau phân tích đoạn tiếng nói tổng hợp Hình 6.7 ví dụ khác phân tích đoạn tiếng nói hỗn hợp đoạn tín hiệu vơ thanh, hữu q độ Ta thấy giá trị β lớn đoạn chuyển tiếp tín hiệu, khoảng hữu β dao động quanh 1, τ liên tục Những kết thực nghiệm cho thấy kết với lý thuyết phần lớn trình bày chương Chương trình hồn thành thời gian ngắn khơng thể tránh khỏi nhiều thiếu sót hạn chế, mong nhận bảo thầy ý kiến đóng góp bạn để hồn thiện chương trình 111 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 KẾT LUẬN Kết ứng dụng luận văn Luận văn nghiên cứu mã hóa tiếng nói lĩnh vực có tính ứng dụng cao phổ biến Luận văn cho nhìn tổng quan kỹ thuật mã hóa tiếng nói, trình bày đầy đủ sâu sở lý thuyết làm phương tiện cho việc phân tích tiếng nói sở để thiết kế mã hóa tiếng nói Khi DSP với cơng nghệ đại ngày phát triển, ngày thuận lợi thiết kế mã hóa tiếng nói, mà để làm ta khơng thể thiếu kiến thức tàng xử lý tín hiệu số ứng dụng mã hóa tiếng nói Vì luận văn tài liệu tham khảo hữu ích cho quan tâm tìm hiểu lĩnh vực mã hóa tiếng nói Bên cạnh luận văn cung cấp chương trình để kiểm nghiệm lý thuyết nêu sau tiếp tục phát triển chương trình để mơ phỏng, nghiên cứu kỹ thuật mã hóa Tuy nhiên kiến thức thời gian có hạn nên luận văn không tránh khỏi hạn chế Do lĩnh vực nghiên cứu rộng, mà nghiên cứu từ sở chưa thể tìm hiểu hết kỹ thuật mã hóa tiên tiến đại ngày Luận văn dừng lại số kỹ thuật có nhiều phát triển sau mã hóa dự đốn tuyến tính kích thích mã CELP, ngày có nhiều phiên tín hiệu kích thích VSELP (kích thích vectơ tổng), ACELP (kích thích mã đại số), PAME (mã hỗn hợp tự thích ứng với chu kỳ) Ngồi ngày cịn nhiều kỹ thuật mã hóa tiên tiến phát triển mã hóa đa chế độ (multi-mode), mã hóa kích thích đa dải MBE (Multi-Band Excitation) hoạt động với tốc độ thấp mà chất lượng chấp nhận Các hướng phát triển đề tài + Nghiên cứu biện pháp để cải tiến thuật tốn mã hóa để giảm tốc độ bit mà đảm bảo chất lượng + Nghiên cứu kết hợp tối ưu mã nguồn mã hóa kênh + Nghiên cứu kỹ thuật lượng tử hóa hiệu tham số LSF phương pháp nội suy từ tham số khung trước 112 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 + Nghiên cứu phương pháp khắc phục hiệu ứng biên chuyển tiếp khung phân tích + Nghiên cứu mã hóa tiếng nói đại hệ thống thông tin số ngày + Thiết kế chương trình mã hóa tiếng nói cho xử lý tín hiệu DSP Xử lý tình thực tế 113 Trần Ngọc Tuấn Luận văn cao học ĐTVT 2006 - 2008 TÀI LIỆU THAM KHẢO Nguyễn Quốc Trung (2002), Xử lý tín hiệu lọc số, NXB KHKT, Hà Nội A M Kondoz (1994), Digital Speech, John Wiley & Son Lawrence R Rabiner, Ronald W.Schafer (1978) , Digital Processing Of Speech Signals, Prentice Hall Peter Vary, Rainer Martin (2006), Digital Speech Transmission, John Wiley & Son Sadaoki Furui (2001), Digital Speech Processing, Synthesis, and Recognition, Marcel Dekker Thomas F.Quatieri, Discrete-Time Speech Signal Processing, Prentice Hall, 2002 Wai C Chu (2003), Speech Coding Algorithms, John Wiley & Son 114 Trần Ngọc Tuấn ... biến đổi G Tín hiệu tiếng nói đầu s(n) Hình 3.7 Mơ hình phát âm (tạo tiếng nói) Trước lấy thơng số từ tín hiệu tiếng nói, cần có mơ hình lý thuyết cho việc phân tích Trong xử lý tiếng nói, máy... ngày Để nghiên cứu mã hóa tiếng nói trước hết ta phải nghiên cứu tín hiệu tiếng nói, chất tiếng nói loại tín hiệu phải dựa sở lý thuyết tín hiệu Tuy nhiên tiếng nói loại tín hiệu với nhiều đặc... tín hiệu tiếng nói Một phương thức phân tích tiếng nói hiệu mã hóa dự đốn tuyến tính LPC (Linear Predictive Coding) hay phân tích LPC Trong phân tích LPC liên kết mẫu tín hiệu tiếng nói gần kề mơ

Ngày đăng: 28/02/2021, 08:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w