BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ----WX---- LUẬN VĂN THẠC SĨ KHOA HỌC ỨNG DỤNG CỦA XỬ LÝ SỐ TÍN HIỆU TRONG PHÂN TÍCH VÀ MÃ HÓA TIẾNG NÓI NGÀNH : ĐIỆN TỬ VIỄN TH
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
WX
LUẬN VĂN THẠC SĨ KHOA HỌC
ỨNG DỤNG CỦA XỬ LÝ SỐ TÍN HIỆU TRONG
PHÂN TÍCH VÀ MÃ HÓA TIẾNG NÓI
NGÀNH : ĐIỆN TỬ VIỄN THÔNG
TRẦN NGỌC TUẤN
Người hướng dẫn khoa học: PGS.TS NGUYỄN QUỐC TRUNG
Hà Nội 2008
Trang 2LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các tài liệu đã ghi
rõ trong luận văn, các phần trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này đã được nộp để lấy một bằng cấp nào
Trần Ngọc Tuấn
Trang 3LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Quốc Trung
đã tận tình chỉ bảo hướng dẫn và cho tôi những kiến quý báu để tôi có thể hoàn thành được luận văn này
Xin chân thành cảm ơn các thầy cô giáo trong khoa Điện Tử - Viễn Thông trường đại học Bách Khoa Hà Nội đã giúp tôi hoàn thành nhiệm vụ môn học trong suốt thời gian học tại trường, cảm ơn các anh chị và các bạn đồng nghiệp tại bộ môn Kỹ Thuật Thông Tin khoa Điện Tử Viễn Thông ĐHBKHN
đã giúp đỡ tôi trong quá trình học tập
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH VẼ vii
CÁC THUẬT NGỮ VIẾT TẮT ix
CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI 1
1.1 Cơ sở nghiên cứu và mục đích của luận văn 1
1.2 Nội dung và cấu trúc của luận văn 2
CHƯƠNG 2 TỔNG QUAN CÁC KỸ THUẬT MÃ HÓA TIẾNG NÓI 3
2.1 Giới thiệu 3
2.2 Các kỹ thuật mã hóa tiếng nói 3
2.2.1 Mã hóa theo tham số 4
2.2.2 Mã hóa dạng sóng 6
2.2.3 Mã hóa lai 6
2.3 Các mục tiêu và yêu cầu của thuật toán mã hóa 7
2.3.1 Chất lượng và dung lượng 7
2.3.2 Trễ mã hóa 8
2.3.3 Độ bền bỉ (Robustness) 9
2.3.4 Độ phức tạp và chi phí 9
2.3.5 Ghép nối và chuyển mã 10
2.3.6 Xử lý dữ liệu dải tần tiếng nói 10
2.4 Các chuẩn mã hóa tiếng nói 11
2.4.1 Chuẩn mã hóa của ITU-T 11
2.4.2 Chuẩn điện thoại số celluar châu Âu 12
2.4.3 Chuẩn điện thoại số Bắc Mỹ 13
2.4.4 Điện thoại bảo mật (Chuẩn của bộ quốc phòng Mỹ) 14
Trang 52.4.5 Điện thoại vệ tinh 15
2.4.6 Đánh giá chất lượng các bộ mã hóa 15
CHƯƠNG 3 PHÂN TÍCH TÍN HIỆU TIẾNG NÓI BẰNG PHƯƠNG PHÁP DỰ ĐOÁN TUYẾN TÍNH 18
3.1 Giới thiệu 18
3.2 Phân tích phổ thời gian ngắn 19
3.2.1 Biến đổi Fourier thời gian ngắn 19
3.2.2 Vai trò của cửa sổ 19
3.3 Mô hình dự đoán tuyến tính tín hiệu tiếng nói 25
3.3.1 Mô hình bộ máy phát âm 26
3.3.2 Xác định hệ số của mô hình LPC 28
3.3.3 Quá trình phân tích và mã hóa LPC trên thực tế 37
3.3.4 Dãy sai số trong phân tích LPC 39
3.4 Dự đoán chu kỳ Pitch 41
3.4.1 Tính chu kỳ trong tín hiệu tín hiệu tiếng nói 41
3.4.2 Dự đoán chu kỳ Pitch (Dự đoán thời gian dài) 41
3.5 Xác định chu kỳ tín hiệu (tần số cơ bản) 48
3.5.1 Tách chu kỳ trong miền thời gian 49
3.5.2 Tách chu kỳ trong miền tần số 54
3.5.3 Các kỹ thuật tiền và hậu xử lý 56
CHƯƠNG 4 LƯỢNG TỬ HÓA CÁC THAM SỐ LPC BẰNG CÁC TẦN SỐ PHỔ VẠCH LSF 67
4.1 Giới thiệu 67
4.2 Các bộ tham số có thể thay thế tham số LPC 67
4.3 Biến đổi qua lại LPC và LSF 70
4.3.1 Tính toán các hệ số LSF 72
4.3.2 Biến đổi LSF sang LPC 77
4.4 Các tính chất của LSF 81
Trang 6CHƯƠNG 5 CÁC BỘ MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN TÍCH NHỜ TỔNG HỢP AbS 84
5.1 Giới thiệu 84
5.2 Tổng quan về mã hóa AbS 85
5.2.1 Bộ lọc biến đổi 88
5.2.2 Thủ tục tối thiểu hóa sai số 88
5.2.3 Tín hiệu kích thích 91
5.3 Mã hóa dự đoán tuyến tính kích thích bằng mã CELP 94
5.3.1 Dự đoán LPC (Dự đoán thời gian ngắn) 96
5.3.2 Dự đoán pitch (Dự đoán thời gian dài) 97
5.3.2 Bảng mã kích thích 101
CHƯƠNG 6 THIẾT KẾ CHƯƠNG TRÌNH MÔ PHỎNG QUÁ TRÌNH PHÂN TÍCH LPC 105
6.1 Giới thiệu 105
6.2 Giao diện chính của chương trình 105
6.3 Các chức năng chính 107
6.4 Các kết quả thực nghiệm 107
KẾT LUẬN 112
TÀI LIỆU THAM KHẢO 114
Trang 7DANH MỤC CÁC BẢNG
Bảng 2.1 Các chuẩn mã hóa tiếng nói băng hẹp của ITU-T 11
Bảng 2.2 Các chuẩn mã hóa của ETSI cho truyền thông di động GSM 13
Bảng 2.3 Các chuẩn mã hóa của TIA/EIA cho CDMA/TDMA của Mỹ 14
Bảng 2.4 Các chuẩn mã hóa của DoD (Bộ quốc phòng Mỹ) 14
Bảng 2.5 Các chuẩn mã hóa tiếng nói INMARSAT 15
Bảng 2.6 Thang điểm đánh giá trung bình MOS 16
Bảng 2.7 So sánh các chuẩn mã hóa tiếng nói 17
Bảng 3.1 So sánh các phương pháp tìm tham số LPC 37
Bảng 3.2 Phối hợp của các hàm cắt khác nhau 59
Bảng 4.1 Ưu nhược điểm của các hệ số PARCOR và LSF 81
Bảng 4.2 Điều kiện thực nghiệm khảo sát sự tương quan của các hệ số LSF.82 Bảng 4.3 Tương quan giữa các hệ số LSF trong khung (ma trận Ω) 82
Bảng 4.4 Tương quan giữa các hệ số LSF liên khung (ma trận Ψ) 83
Bảng 5.1 Các tham số thiết lập để so sánh các loại mã kích thích 104
Bảng 5.2 Kết quả so sánh hoạt động của 4 loại bảng mã 104
Trang 8DANH MỤC CÁC HÌNH VẼ
Hình 2.1 Chất lượng tại các tốc độ của các kỹ thuật mã hóa tiếng nói 4
Hình 2.2 Chất lượng tiếng nói của các chuẩn mã hóa 16
Hình 3.1 Dạng sóng của tín hiệu tiếng nói hữu thanh và vô thanh 18
Hình 3.2 Các loại cửa sổ trong miền thời gian 21
Hình 3.3 Đáp ứng tần số của các loại cửa sổ 21
Hình 3.4 Tác động của các loại cửa sổ lên tín hiệu tiếng nói hữu thanh 22
Hình 3.5 Tác động của các loại cửa sổ đến tín hiệu tiếng nói vô thanh 23
Hình 3.6 Tác động của cửa sổ (dài 40 mẫu (5ms)) lên tín hiệu hữu thanh 25
Hình 3.7 Mô hình phát âm (tạo tiếng nói) 26
Hình 3.8 Dự đoán tiến và dự đoán lùi 33
Hình 3.9 Bộ lọc mắt cáo dùng các hệ số PARCOR k i 35
Hình 3.10 Bộ lọc mắt cáo đảo tổng hợp tín hiệu tiếng nói từ tín hiệu sai số 35
Hình 3.11 Quan hệ giữa bậc của bộ lọc và tăng ích dự đoán 38
Hình 3.12 Đường bao phổ của tín hiệu qua các bộ lọc LPC bậc khác nhau 39
Hình 3.13 Tín hiệu gốc và tín hiệu sai số LPC 40
Hình 3.14 So sánh phổ của tín hiệu gốc và tín hiệu sai số 40
Hình 3.15 Mô hình tính toán pitch-LPC 42
Hình 3.16 Đồ thị thời gian của tín hiệu sai số LPC và sai số Pitch 46
Hình 3.17 Biến thiên của β trong một đoạn tín hiệu tiếng nói điển hình 47
Hình 3.18 Biến thiên của τ trong một đoạn tín hiệu tiếng nói điển hình 47
Hình 3.19 Xác định chu kỳ dùng hàm tự tương quan và hàm AMDF 51
Hình 3.20 Hàm tự tương quan trực tiếp và chuẩn hóa 53
Hình 3.21 Phát hiện đỉnh sử dụng bộ lọc răng lược 55
Hình 3.22 Phổ tín hiệu với phương pháp phổ đồng dạng 56
Hình 3.23 Các hàm cắt giữa 58
Hình 3.24 Theo dõi chu kỳ tiến 60
Hình 3.25 Phương pháp theo dõi 2 đường 61
Hình 3.26 Các khoảng tìm kiếm chu kỳ chồng nhau 63
Hình 3.27 Những khoảng tìm kiếm chồng nhau 64
Hình 4.1 Mô hình dạng ống không tổn hao của bộ máy phát âm 71
Trang 9Hình 4.2 Bộ lọc tổng hợp LPC bằng cấu trúc PARCOR 71
Hình 4.3 Các tham số LSF cho 1 đoạn tiếng nói điển hình 75
Hình 4.4 Phân bố các tham số LSF 76
Hình 4.5 Sơ đồ cấu trúc của bộ lọc tổng hợp LSF thực tế 80
Hình 5.1 Sơ đồ khối kỹ thuật phân tích bằng tổng hợp dùng vòng kín 85
Hình 5.2 Sơ đồ khối kỹ thuật mã hóa AbS-LPC 86
Hình 5.3 Đồ thị so sánh phổ tín hiệu gốc và tín hiệu sau lọc trọng số 90
Hình 5.4 Bộ mã hóa AbS-LPC biến đổi 91
Hình 5.5 Bộ mã hóa AbS-LPC với nhiều loại tín hiệu kích thích khác nhau 92 Hình 5.6 Cấu trúc xung kích thích đều của RPELPC 94
Hình 5.7 Sơ đồ khối thuật toán mã hóa CELP chuẩn 96
Hình 5.8 Phương pháp lặp lại pitch trong trường hợp Dmin < L 100
Hình 6.1 Giao diện chính của chương trình 106
Hình 6.2 Tín hiệu sai số với bộ lọc LPC bậc 1 108
Hình 6.3 Tín hiệu sai số với bộ lọc LPC bậc 10 108
Hình 6.4 So sánh kết quả phổ tín hiệu với các bộ lọc LPC bậc khác nhau 109
Hình 6.5 Tín hiệu tổng hợp của một đoạn tiếng nói nguyên âm "a" 109
Hình 6.6 Các tham số LTP theo thời gian sau phân tích 110
Hình 6.7 Các tham số LTP sau phân tích một đoạn tiếng nói tổng hợp 111
Trang 10CÁC THUẬT NGỮ VIẾT TẮT
AaS Analysis-and-Synthesis Phân tích và tổng hợp
AbS Analysis-by-Synthesis Phân tích bằng cách tổng hợp ACELP Algebraic CELP Dự đoán tuyến tính kích thích
bằng mã đại số
ADPCM Adaptive Differential PCM Điều chế xung mã vi sai tự
thích nghi AMDF Average Magnitude Difference
Function
Hàm vi sai biên độ trung bình
ASIC Application-Specific Integrate
Delta Modulation
Điều chế delta độ dốc biến đổi liên tục
DMR Digital Mobile Radio Di động số vô tuyến
ETSI European Telecommunications
LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính LSF Line Spectral Frequency Tần số phổ vạch
Trang 11LSP Line Spectrum Pair Cặp phổ vạch
LTP Long-Term Prediction Dự đoán thời gian dài
MELP Mixed Excitation Linear
Prediction
Dự đoán tuyến tính kích thích hỗn hợp
MOS Mean Opinion Score Điểm đánh giá trung bình MPLPC Multi-Pulse LPC Mã hóa dự đoán tuyến tính
kích thích đa xung PAME Pitch Adaptive Mixed
Excitation
Kích thích bằng mã hỗn hợp
tự thích ứng với chu kỳ PARCOR Partial Correlation Coefficient Hệ số tương quan riêng
PCM Pulse Code Modulation Điều chế xung mã
PDA Pitch Detection Algorithm Thuật toán tách chu kỳ
PSTN Public Switched Telephone
SELP Self-Excitation Linear
Prediction
Dự đoán tuyến tính tự kích thích
SIVP Switched-adaptive Inter-frame
VAD Voice Activity Detector Bộ dò hoạt động thoại
VSELP Vector Sum Excited Linear
Prediction
Dự đoán tổng véctơ tuyến tính tồn tại
Trang 12CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI 1.1 Cơ sở nghiên cứu và mục đích của luận văn
Trong các loại tín hiệu trong tự nhiên, tiếng nói là một trong những tín hiệu được nghiên cứu nhiều nhất và sớm nhất do mục đích cơ bản nhất của các hệ thống thông tin là truyền đi tiếng nói Ngày nay dịch vụ viễn thông được sử dụng nhiều nhất và thiết yếu nhất là điện thoại, nhất là điện thoại di động không thể thiếu được trong cuộc sống hiện đại Ngoài ra còn rất nhiều dịch vụ khác nhau liên quan đến truyền tiếng nói Để truyền tiếng nói thì cần phải mã hóa tiếng nói, do đó các kỹ thuật mã hóa tiếng nói hoạt động ổn định
và hiệu quả là rất cần thiết Đã có rất nhiều công trình nghiên cứu và nhiều kỹ thuật mã hóa tiếng nói ra đời Mục đích chính của mã hóa tiếng nói là cho tiếng nói chất lượng tốt và tốc độ thấp Vì tài nguyên kênh là hữu hạn nhất là đối với các kênh vô tuyến, với băng thông thấp, chịu ảnh hưởng lớn của nhiễu nên nếu có thể giảm được tốc độ dữ liệu, tiết kiệm dung lượng và băng thông
là điều rất quý giá Hơn nữa nếu kỹ thuật mã hóa tiếng nói tốc độ càng thấp ta
có thể thêm vào dung lượng tiết kiệm đó là mã kênh để chống nhiễu thì chất lượng dịch vụ sẽ tốt hơn rất nhiều Từ đó ta thấy tầm quan trọng của mã hóa tiếng nói trong các hệ thống thông tin số ngày nay
Để nghiên cứu về mã hóa tiếng nói trước hết ta phải nghiên cứu về tín hiệu tiếng nói, bản chất tiếng nói là một loại tín hiệu vì vậy sẽ phải dựa trên cơ sở
là lý thuyết tín hiệu Tuy nhiên tiếng nói là một loại tín hiệu với nhiều đặc trưng riêng có băng thông từ 0,3-3,4KHz nên các kỹ thuật mã hóa được nghiên cứu để phù hợp và tận dụng được các đặc trưng này
Để có thể phân tích được tiếng nói ta cần mô hình hóa bộ máy phát âm, nghiên cứu cơ chế tạo ra tiếng nói của con người Trước hết phải dựa trên cơ
sở cấu trúc sinh học của bộ máy phát âm con người, gồm thanh quản (gồm 2 dây thanh), tuyến âm (ống dẫn thanh), khoang mũi và vòm miệng Sau đó là
cơ chế hoạt động của bộ máy phát âm để tạo ra tiếng nói Để mô hình hóa bộ máy phát âm dùng trong mã hóa tiếng nói người ta coi như một bộ lọc, do đó phải dựa trên cơ sở của các bộ lọc số trong xử lý tín hiệu Cuối cùng để thiết
Trang 13kế được các bộ mã hóa trong các hệ thống số, phải dựa trên cơ sở lý thuyết xử
lý số tín hiệu DSP
Dựa trên những cơ sở lý thuyết nêu trên, luận văn nghiên cứu các kỹ thuật
mã hóa tiếng nói, cơ sở lý thuyết và các phương tiện để phân tích tiếng nói Tập trung vào kỹ thuật mã hóa theo tham số, kỹ thuật được ứng dụng phổ biến trong các bộ mã hóa ngày nay vì làm việc với tốc độ thấp và chất lượng tiếng nói đảm bảo Sau đó xây dựng một chương trình để mô phỏng quá trình phân tích tiếng nói bằng các phương tiện trên, để minh họa cho lý thuyết
1.2 Nội dung và cấu trúc của luận văn
Luận văn được chia làm 6 chương, với nội dung được tóm tắt như sau: Chương 1 trình bày về cơ sở nghiên cứu và mục đích của luận văn
Chương 2 giới thiệu tổng quan về các kỹ thuật mã hóa tiếng nói Các chỉ tiêu kỹ thuật chính của các kỹ thuật mã hóa và các chuẩn mã hóa do các tổ chức hợp chuẩn thiết lập
Chương 3 trình bày phương pháp phân tích và mã hóa tiếng nói bằng phương pháp mã hóa dự đoán tuyến tính LPC, một phương pháp hiệu quả và được ứng dụng rộng rãi hiện nay Chương 3 đề cập đến mô hình bộ máy phát
âm, kỹ thuật phân tích phổ của tín hiệu tiếng nói thời gian ngắn, cở sở và mô hình phân tích LPC, dự đoán thời gian ngắn STP, dự đoán thời gian dài LTP
và các phương pháp để xác định chu kỳ cơ bản của tín hiệu tiếng nói
Chương 4 nói về các vấn đề trong lượng tử hóa các tham số LPC, một khâu cuối cùng và rất quan trọng trước khi truyền tín hiệu đi Nêu các bộ tham số có thể thay thế tham số LPC, trong đó các tần số phổ vạch LSF tỏ ra hiệu quả nhất để dùng cho lượng tử hóa tín hiệu
Chương 5 trình bày một kỹ thuật mã hóa phân tích bằng tổng hợp AbS, một kỹ thuật mã hóa tiếng nói hiệu quả với tốc độ thấp Cụ thể là kỹ thuật dự đoán tuyến tính kích thích bằng mã CELP mà hiện nay được ứng dụng rộng rãi nhất trong các hệ thống thông tin số
Chương 6 xây dựng một chương trình mô phỏng quá trình phân tích LPC, chương trình có thể thay đổi các thông số của các bộ lọc LPC và LTP để quan sát sự thay đổi của tín hiệu sai số (trong miền thời gian và tần số)
Trang 14CHƯƠNG 2 TỔNG QUAN CÁC KỸ THUẬT MÃ HÓA
TIẾNG NÓI 2.1 Giới thiệu
Kỹ thuật điều chế xung mã PCM (Pulse Code Modulation) được phát minh năm 1938 bởi Alec H.Reeves đã đánh dấu cho sự khởi đầu của truyền thông
số Khác với các hệ thống tương tự, hệ thống PCM có thể khôi phục tín hiệu hoàn hảo tại các trạm lặp của hệ thống thông tin bằng cách bù suy hao trong điều kiện mức tạp âm của kênh chưa đủ lớn để gây ảnh hưởng làm sai lệch dòng bit truyền Vào những năm đầu thập kỷ 60, khi các hệ thống số bắt đầu phổ biến, PCM được sử dụng trong các mạng điện thoại chuyển mạch nội bộ
và công cộng Ngày nay, hầu hết tất cả các mạng điện thoại chuyển mạch công cộng PSTN (Public Switched Telephone Networks) đều hoạt động trên nền tảng PCM, và nhiều mạng sử dụng công nghệ cáp quang vì đặc biệt thích hợp với truyền dữ liệu số Thêm vào đó, ưu thế của kỹ thuật PCM so với các
hệ thống tương tự là sự thuận lợi khi thực hiện các kỹ thuật phức tạp như sửa lỗi, mã hóa, ghép kênh, chuyển mạch và nén tín hiệu
Nhược điểm chính của PCM là băng thông đường truyền lớn hơn băng thông yêu cầu của tín hiệu tương tự Đây là điều rất bất lợi khi sử dụng những kênh có chi phí cao và băng thông hạn chế như các hệ thống thông tin vệ tinh hay hệ thống điện thoại di động Để khắc phục điều đó, đã có rất nhiều công trình về mã hóa tiếng nói được nghiên cứu, và đến nay đã đạt được nhiều thành tựu với nhiều phương pháp mã hóa tiếng nói khác nhau đã được ứng dụng và phát triển Trong từng ứng dụng cụ thể sẽ có những chuẩn mã hóa riêng, trong chương này sẽ trình bày tổng quan về các kỹ thuật và chuẩn mã hóa tiếng nói và sự khác nhau và ưu nhược điểm của chúng
2.2 Các kỹ thuật mã hóa tiếng nói
Các bộ mã hóa được chia làm 2 loại chính là mã hóa dạng sóng và mã hóa tham số như sau:
Trang 15• Bộ mã hóa xấp xỉ dạng sóng: Duy trì dạng sóng của tín hiệu gốc Tạo ra tín hiệu chất lượng càng cao, càng giống với tín hiệu gốc khi ta giảm sai số lượng tử hóa
• Bộ mã hóa tham số: Các bộ mã hóa tạo ra tín hiệu tiếng nói nhưng sẽ không hội tụ về tín hiệu gốc khi giảm sai số lượng tử hóa
Hình 2.1 Chất lượng tại các tốc độ của các kỹ thuật mã hóa tiếng nói
Trên hình 2.1 là đồ thị mô tả chất lượng của các bộ mã hóa với các tốc độ bit khác nhau Trước đây các bộ mã hóa tiếng nói được chia thành 3 loại là
mã hóa dạng sóng, mã hóa nguồn (vocoder) và mã hóa lai (hybrid coder) Mã hóa dạng sóng gồm các bộ mã hóa tiếng nói trực tiếp như PCM hay ADPCM,
mã hóa nguồn gồm những bộ tổng hợp tiếng nói tốc độ bit rất thấp Cuối cùng
là mã hóa lai là các bộ mã hóa sử dụng cả hai kỹ thuật của mã hóa nguồn và
mã hóa dạng sóng ví dụ như CELP, MBE Tuy nhiên hiện tại tất cả các bộ
mã hóa tiếng nói sử dụng một trong các dạng mô hình tiếng nói trên thì tín hiệu đầu ra của nó có 2 trường hợp là có thể hội tụ về tín hiệu gốc nếu tăng tốc độ bit hoặc không thể Vì vậy hiện nay người ta có thể phân loại các bộ
mã hóa tiếng nói một cách thích hợp hơn thành 2 nhóm như trên, khi mà thuật ngữ cũ mã hóa dạng sóng không còn thích hợp
2.2.1 Mã hóa theo tham số
Các bộ mã hóa theo tham số sử dụng một tập các tham số mô hình để mô hình hóa tín hiệu tiếng nói Các tham số sau khi được tính toán tại bộ mã hóa
Trung Bình
Kém Chất lượng
Trang 16sẽ được lượng tử hóa và truyền đến bộ giải mã tại phía thu Bộ giải mã tổng hợp lại tín hiệu dựa trên mô hình với các tham số nhận được Mô hình bộ máy phát âm (nguồn âm) không tính đến tạp âm lượng tử hóa, không tính đến việc duy trì dạng sóng của tín hiệu tổng hợp giống với tín hiệu tiếng nói gốc (trái với mã hóa dạng sóng) Việc ước lượng các tham số mô hình có thể sử dụng vòng mở (open loop) không có phản hồi từ bộ lượng tử hóa hoặc tổng hợp tiếng nói Những bộ mã hóa này chỉ có thể bảo toàn những đặc trưng được xét đến trong mô hình nguồn âm như đường bao phổ, chu kỳ, hay năng lượng tín hiệu Chất lượng tiếng nói tổng hợp của các bộ mã hóa theo tham số không thể đạt đến chất lượng tốt mặc dù có lượng tử hóa các tham số mô hình chính xác hơn (hình 2.1) Hạn chế này là do việc sử dụng mô hình nguồn âm Hơn nữa chúng không bảo toàn được dạng sóng của tín hiệu, và tỷ số tín hiệu trên tạp âm SNR (Signal-to-Noise Ratio) trong trường hợp này là vô nghĩa vì tỷ số này sẽ thường là âm khi tính bằng đơn vị dB (vì dạng sóng của tín hiệu vào và
ra không đồng pha) Tỷ số SNR không phản ánh được chất lượng tiếng nói tổng hợp và chất lượng được đánh giá bằng chủ quan (hoặc cảm giác)
a Các bộ mã nguồn (Vocoder) dựa trên kỹ thuật dự đoán tuyến tính
Mô hình dự đoán tuyến tính được thiết kế để mô hình hóa cơ chế phát âm của con người Tuyến âm được mô hình hóa thành một bộ lọc dự đoán Các xung thanh môn và dòng khí từ thanh môn trong mô hình lần lượt là các xung tuần hoàn và tạp âm Gauss, là tín hiệu kích thích của bộ lọc dự đoán Các hệ
số của bộ lọc dự đoán tuyến tính, công suất tín hiệu, sự lựa chọn tín hiệu kích thích (là xung tuần hoàn hay tạp âm) và chu kỳ tín hiệu của đoạn tín hiệu tiếng nói được ước lượng và truyền đến bộ giải mã Nhược điểm chính của các bộ vocoder dựa trên kỹ thuật dự đoán tuyến tính này là việc quyết định lựa chọn tín hiệu kích thích là dãy xung tuần hoàn hay tạp âm, mà không thể
mô hình hóa hỗn hợp cả 2 loại tín hiệu với cả 2 thành phần có chu kỳ và tạp
âm được Ngày nay, nhờ các kỹ thuật quyết định tiếng nói trong miền tần số
đã cải thiện được chất lượng của các bộ vocoder này
b Bộ mã hóa điều hòa (Harmonic Coder)
Mã hóa điều hòa hay mã hóa dạng Sin biểu diễn tín hiệu tiếng nói thành tổng của các hàm Sin Các tham số mô hình ở đây là biên độ, tần số và pha
Trang 17của hàm Sin thường được ước lượng từ phổ của tín hiệu Tần số được xác định từ các đỉnh của phổ tín hiệu, và các biên độ, tần số được nội suy trong quá trình tổng hợp tín hiệu để được tín hiệu tổng giống tín hiệu tiếng nói ban đầu Việc tăng tốc độ lấy tham số sẽ làm dạng sóng của tín hiệu tổng hợp giống hơn với tín hiệu gốc nếu các tham số này chưa bị lượng tử hóa Tuy nhiên, với mã hóa tốc độ thấp thì người ta không truyền đi pha của tín hiệu,
mà giá trị của pha được nội suy tại bộ giải mã Vì vậy dạng sóng của tín hiệu gốc cũng không được bảo tồn trong trường hợp này
2.2.2 Mã hóa dạng sóng
Các bộ mã hóa dạng sóng tối thiểu hóa sai số giữa dạng sóng của tín hiệu tổng hợp và tín hiệu gốc Các bộ mã hóa dạng sóng đầu tiên sử dụng các kỹ thuật điều chế xung mã PCM và điều chế xung mã vi sai thích ứng ADPCM truyền đi các giá trị đã lượng tử hóa cho từng mẫu Tuy nhiên, ADPCM sử dụng một bộ dự đoán các điểm cực và không thích ứng và lượng tử hóa tín hiệu sai số, với bước lượng tử biến đổi thích nghi Các hệ số dự đoán ADPCM và các bước lượng tử biến đổi thích nghi lùi và phù hợp với tốc độ mẫu
Gần đây, những bộ mã hóa dựa trên phương pháp phân tích nhờ tổng hợp trong miền thời gian như dự đoán tuyến tính kích thích bằng mã CELP (Code Excited Linear Prediction), sử dụng mô hình ống dẫn thanh và dự đoán thời gian dài LTP (Long-Term Prediction) để mô hình hóa sự liên kết giữa các mẫu tín hiệu Bộ mã hóa CELP lưu tín hiệu vào bộ đệm và xử lý phân tích theo từng khối, sau đó truyền đi các hệ số của mô hình bộ lọc dự đoán cùng với chỉ số của vectơ kích thích Kỹ thuật này còn sử dụng bộ lọc nhấn cảm nhận để nhấn mạnh các formant tín hiệu, và khi đó tạp âm lượng tử hóa sẽ bị tín hiệu che khuất
2.2.3 Mã hóa lai
Hầu hết tất cả các bộ mã hóa đều áp dụng cùng một nguyên lý mã hóa để
mã hóa toàn bộ đoạn tín hiệu tiếng nói, bất chấp có những thay đổi lớn trong tín hiệu tiếng nói, như sự chuyển đổi giữa các khoảng hữu thanh, vô thanh, pha trộn, quá độ như các kỹ thuật ADPCM, CELP, IMBE Khi giảm tốc độ
Trang 18bit, chất lượng của các bộ mã hóa này lại càng giảm nhất là với một số dạng tín hiệu Điều đó cho thấy một nguyên lý mã hóa không thích hợp để mã hóa tất cả các dạng tín hiệu tiếng nói Để khắc phục điều này, các bộ mã hóa lai đã kết hợp các phương pháp mã hóa khác nhau để mã hóa dạng tín hiệu tiếng nói trong các đoạn tín hiệu khác nhau
Bộ mã hóa lai có thể chuyển đổi các chế độ mã hóa khác nhau đã định sẵn,
vì vậy chúng là những bộ mã hóa đa chế độ Bộ mã hóa lai còn gọi là bộ mã hóa thích ứng, có thể chuyển đổi kỹ thuật hay chế độ mã hóa theo tín hiệu nguồn, lựa chọn chế độ tốt nhất để mã hóa từng đoạn tín hiệu tiếng nói Việc quyết định chọn chế độ nào dựa vào mạng hoặc kênh cho phép bộ mã hóa thích ứng với tải của mạng hoặc xác suất lỗi kênh, bằng cách thay đổi chế độ
mã hóa và tốc độ bit, thay đổi sự phân phối các bit của mã nguồn và mã kênh Còn với quyết định chế độ dựa vào nguồn, việc phân loại tiếng nói dựa vào các khung với kích thước cố định hoặc biến đổi Số lượng bit phân phối cho các khung ở các chế độ khác nhau có thể giống hoặc khác nhau Tốc độ bit của bộ mã hóa lai cũng có thể cố định hoặc biến đổi Mã hóa tốc độ bit biến đổi được coi là kỹ thuật mã hóa lai mở rộng
2.3 Các mục tiêu và yêu cầu của thuật toán mã hóa
Việc thiết kế các thuật toán mã hóa khác nhau tùy thuộc vào từng ứng dụng cụ thể Do vậy trong quá trình thiết kế thuật toán phải cân nhắc rất kỹ các trọng số của các nhân tố ảnh hưởng khác nhau để có thể cân bằng được giữa các nhân tố đối lập nhau Sau đây ta xét đến các nhân tố chính của các ứng dụng mạng mà có thể ảnh hưởng đến việc lựa chọn thuật toán cho từng ứng dụng cụ thể
2.3.1 Chất lượng và dung lượng
Chất lượng và tốc độ thoại là 2 thông số có quan hệ trực tiếp và trái ngược nhau Nếu bộ mã hóa nguồn có tốc độ càng thấp nghĩa là khả năng nén tín hiệu cao thì chất lượng thoại sẽ càng khó tránh khỏi bị tổn thất ở một mức độ nào đó (các bộ vocoder) Với các hệ thống kết nối với mạng thoại công cộng PSTN và các hệ thống liên đới khác thì những yêu cầu về chất lượng rất nghiêm ngặt và phải tương thích với các chuẩn và hướng dẫn đã được các tổ
Trang 19chức hợp chuẩn thiết lập ra, ví dụ như ITU (tiền thân là CCITT) Những hệ thống như vậy đòi hỏi chất lượng mã hóa rất cao (chất lượng thực) Tuy nhiên với các hệ thống đóng như các mạng nội bộ và các hệ thống quân sự, thì yêu cầu về chất lượng có thể giảm bớt Mặc dù chất lượng tuyệt đối thường được xác định rõ nhưng vẫn có thể sử dụng những chuẩn chất lượng thấp hơn nếu một số nhân tố khác cần tốc độ cao hơn (mã hóa lai) Chẳng hạn như trong hệ thống di động vô tuyến thì chất lượng tổng thể trung bình thường là nhân tố quyết định Chất lượng trung bình thường được đưa vào tính toán trong cả hai điều kiện truyền dẫn tốt và xấu
2.3.2 Trễ mã hóa
Trễ mã hóa trong các hệ thống truyền dẫn thoại là một yếu tố có liên quan chặt chẽ với yêu cầu về chất lượng Trễ mã hóa bao gồm các yếu tố về thuật toán (bộ nhớ đệm các đoạn tiếng nói dùng trong phân tích), tính toán (thời gian để bộ xử lý lưu trữ các mẫu tín hiệu) và các yếu tố truyền dẫn Trong số
đó hai yếu tố đầu tiên liên quan đến phân hệ mã hóa, mặc dù bộ mã hóa thường được điều chỉnh để quá trình truyền dẫn được khởi tạo (thậm chí) trước khi hoàn tất quá trình xử lý các thông tin trong khung đang phân tích của thuật toán, ví dụ trong hệ thống di động châu Âu Pan-European (GSM) bộ
mã hóa sẽ truyền các tham số phổ ngay khi tính toán xong Đối với các ứng dụng của mạng chuyển mạch thoại công cộng PSTN yêu cầu độ trễ nhỏ nếu vấn đề chính của mạng là giảm thiểu tiếng vọng Còn với các ứng dụng của hệ thống di động và thông tin vệ tinh, cần triệt tiếng vọng khi có trễ lan truyền Tuy nhiên với hệ thống PSTN khi trễ là rất nhỏ thì việc triệt tiếng vọng sẽ đòi hỏi cao hơn nếu sử dụng bộ mã hóa có độ trễ lớn, như vậy sẽ tăng chi phí hoạt động của hệ thống Hầu hết các thuật toán tốc độ thấp đều được so sánh về độ trễ mã hóa với hệ thống tiêu chuẩn 64 kb/s PCM Chẳng hạn như hệ thống GSM có giới hạn trên ban đầu là 65 ms với cấu hình back-to-back (nối trực tiếp bộ phát và bộ thu), trong khi đó với chuẩn 16kb/s G.728 trễ tối đa là 5ms với tiêu chí là 2ms
Trang 202.3.3 Độ bền bỉ (Robustness)
Tính bền bỉ trong thông tin là khả năng chống lại các yếu tố tác động từ kênh Trong nhiều ứng dụng, mã hóa nguồn chỉ chiếm một phần trong tổng số dung lượng kênh, phần còn lại giành cho mã sửa lỗi trước FEC (Forward Error Correction) và báo hiệu Trong các kết nối di động chịu ảnh hưởng nhiều bởi các lỗi ngẫu nhiên và lỗi cụm thì khả năng chống lỗi kênh của kỹ thuật mã hóa rất cần thiết cho hoạt động với chất lượng tiếng nói trung bình
có thể chấp nhận được Với việc tăng cường độ bền bỉ (ví dụ phân tập tín hiệu, phát đi 1 tín hiệu với nhiều bản sao) thì có thể sử dụng các mã sửa lỗi FEC ít hơn, vì vậy phần mã nguồn có dung lượng cao hơn và cho ta chất lượng tốt hơn Tuy nhiên sự cân bằng giữa độ bền bỉ và chất lượng rất khó đạt được, đây là một yêu cầu phải xét đến khi bắt đầu thiết kế thuật toán Với các ứng dụng sử dụng các kênh chất lượng tốt hơn như các liên kết cáp quang, thì các lỗi kênh giảm thiểu đi nhiều thì độ bền bỉ có thể đánh đổi dung lượng lấy chất lượng Đây là một đặc điểm khác nhau lớn giữa các hệ thống di động, vệ tinh và đường truyền cố định
Ngoài nhiễu kênh, các bộ mã hóa còn phải làm việc trong môi trường có nhiễu nền Nhiễu nền có thể ảnh hưởng đến quá trình tính toán các tham số của tín hiệu tiếng nói vì vậy bộ mã hóa cần phải được thiết kế để có thể duy trì hoạt động tốt trong mọi điều kiện Như việc duy trì được chất lượng tiếng nói tốt trong môi trường có tạp âm, việc duy trì chất lượng trong điều kiện nhiễu nền của các bộ mã hóa cũng rất quan trọng (trừ khi sử dụng bộ triệt nhiễu thích ứng trước mã hóa)
2.3.4 Độ phức tạp và chi phí
Các thuật toán ngày càng được cải tiến và tinh vi hơn kéo theo độ phức tạp tính toán tăng lên Sự ra đời của các chip xử lý tín hiệu DSP và các chip tích hợp mạch chuyên dụng ASIC đã làm cho chi phí xử lý giảm xuống đáng kể Tuy nhiên độ phức tạp/chi phí xử lý vẫn là một vấn đề lớn, đặc biệt trong các
hệ thống mà sự cơ động của phần cứng (có thể di chuyển được) là nhân tố chính Một kỹ thuật để khắc phục được sự tiêu thụ năng lượng trong khi vẫn tăng hiệu suất kênh là kỹ thuật nội suy tiếng nói kỹ thuật số DSI (Digital
Trang 21Speech Interpolation) Trên thực tế trong một cuộc đàm thoại chỉ khoảng một nửa là các tín hiệu tiếng nói tích cực, vì vậy trong khoảng thời gian không tích cực (khoảng lặng) thì kênh có thể được sử dụng cho những mục đích khác, thường dùng để hạn chế hoạt động của máy phát vì vậy tiết kiệm được công suất Một bộ phận quan trọng của DSI là bộ dò hoạt động thoại VAD (Voice Activity Detector) với chức năng đảm bảo tín hiệu thoại không bị nhầm với khoảng lặng và ngược lại Rõ ràng là lỗi nhầm khoảng lặng với tiếng nói thì
có thể chấp nhận được, nhưng điều ngược lại thì sẽ gây khó chịu
2.3.5 Ghép nối và chuyển mã
Với các ứng dụng cuối-đến-cuối (end-to-end) mà kết nối phải qua nhiều trung gian thì chất lượng tiếng nói rất quan trọng đối với người dùng cuối
(end user), một yếu tố quan trọng của thuật toán là khả năng khi hệ thống kết
nối với chính nó hoặc với các hệ thống mã hóa khác Sự suy giảm qua các kết nối thường có tính tích lũy, nếu thuật toán phụ thuộc nhiều vào các yếu tố kết nối này thì có thể gây ra nhiều suy giảm nghiêm trọng Để khắc phục trong những trường hợp này chưa có phương pháp nào thực sự hiệu quả, thường sử dụng thêm một bộ lọc phía sau để lọc tín hiệu tiếng nói đầu ra Chuyển mã sang một dạng khác (thường là PCM) cũng gây suy giảm chất lượng và tăng chi phí thực hiện
2.3.6 Xử lý dữ liệu dải tần tiếng nói
Khi các kết nối truyền tiếng nói dùng trong truyền dẫn các dạng tín hiệu số khác ví dụ như modem, fax thì một yêu cầu quan trọng của thuật toán là tính năng truyền dữ liệu trên dải tần tiếng nói Các đặc điểm thống kê của dạng sóng và phổ tần số của dữ liệu dải tần tiếng nói không giống với tín hiệu thoại
vì vậy thuật toán phải tương thích với cả hai dạng Việc tính đến sự tương thích với dữ liệu dải tần tiếng nói thường được để lại đến giai đoạn cuối trong giai đoạn phát triển thuật toán, thường xảy ra lỗi trong các hệ thống mạng công cộng, khi người dùng cuối cần truyền những dữ liệu không phải là tiếng nói Hầu hết những bộ mã hóa tiếng nói tốc độ thập đều không thể xử lý các
dữ liệu này, vì được thiết kế chỉ giành cho tiếng nói Để khắc phục điều này, thường phải sử dụng các giải pháp khác Một trong số đó là phát hiện các dữ
Trang 22liệu trên dải tần tiếng nói và sử dụng một giao diện để có thể bỏ qua các bộ
mã hóa và giải mã
2.4 Các chuẩn mã hóa tiếng nói
Việc tiêu chuẩn hóa để định ra các chuẩn là rất thiết yếu để giải quyết những vấn đề về tính tương thích và phù hợp giữa các hệ thống, thiết bị của những nhà sản xuất khác nhau Việc định chuẩn cho phép những thiết bị mã hóa tiếng nói của hãng này có thể làm việc với các thiết bị, hệ thống của hãng khác Trong phần này sẽ trình bày về các chuẩn mã hóa được phát triển cho những hệ thống thông tin cụ thể
2.4.1 Chuẩn mã hóa của ITU-T
Liên minh viễn thông quốc tế bộ phận chuẩn hóa về viễn thông ITU-T (tiền thân là CCITT) đã chuẩn hóa các phương pháp mã hóa chủ yếu cho điện thoại PSTN với băng thông đầu vào 3,4kHz và tần số lấy mẫu 8kHz, với định hướng tăng dung lượng mạng viễn thông bằng các mạch ghép kênh số Ngoài
ra ITU-T có những hướng dẫn cho các bộ mã hóa tiếng nói băng rộng để hỗ trợ băng thông tín hiệu tiếng nói đầu vào 7kHz với tần số lấy mẫu 16kHz, chủ yếu cho các ứng dụng ISDN
Chuẩn mã hóa Tốc độ
(kb/s)
Bộ dò thoại VAD
Triệt nhiễu
Trễ (ms) Chất lượng Năm G.711 (Luật A/W
PCM) 64 Không Không 0 Thực 1972G.726 (ADPCM) 40/32/24/16 Không Không 0,25 Thực 1990 G.728 (LD-CELP) 16 Không Không 1,25 Thực 1992 G.729 (CSA-CELP) 8 Có Không 25 Thực 1996 G.723.1
Bảng 2.1 Các chuẩn mã hóa tiếng nói băng hẹp của ITU-T
Năm 1972, ITU-T đưa ra chuẩn G.711, là chuẩn PCM luật A/µ cho mã hóa tiếng nói tốc độ 64kb/s được thiết kế dựa trên thang lôga với từng biên độ của xung mẫu trước khi được mã hóa thành 8 bit Là hệ thống điện thoại số đầu
Trang 23tiên, G.711 được triển khai trong nhiều mạng PTSN trên khắp thế giới Tiếp theo đó ITU-T đã tăng cường tập trung vào chuẩn hóa những phương pháp
mã hóa phức tạp hơn, như họ G.72x ITU-T đã ban hành chuẩn G.721 là chuẩn điều chế xung mã vi sai thích nghi ADPCM tốc độ 32kb/s, theo sau đó
là các phiên bản mở rộng (40/32/24/16 kb/s), G.726 Phiên bản ADPCM mới nhất là G.726 để thay thế các phiên bản trước Mỗi chuẩn mã hóa của ITU-T ngoại trừ G.723.1 đều đuợc phát triển với mục tiêu giảm đi một nửa tốc độ bit với các chuẩn trước Ví dụ chuẩn mã hóa tiếng nói G.728 và G.728 hoàn thành vào năm 1992 và 1996 được khuyến nghị với tốc độ lần lượt là 16kb/s
và 8kb/s Ngoài ra ITU-T còn ban hành chuẩn G.723.1 mã hóa với 2 tốc độ 5,3/6,3 kb/s cho các hệ thống điện thoại truyền hình Các chuẩn G.728, G.729
và G.723.1 đều có nguyên lý dựa trên kỹ thuật dự đoán tuyến tính kích thích bằng mã CELP Với truyền dẫn không liên tục DTX (Discontinuous Transsmission), ITU-T ban hành 2 phiên bản mở rộng của G.729 và G.723.1 lần lượt là G.729B và G.723.1A Chúng được sử dụng rộng rãi trong thông tin dùng chuyển mạch gói dùng các phương pháp nén tín hiệu Mới hơn nữa xuất hiện các chuẩn hoạt động với tốc độ 4kb/s Hiện nay có 2 bộ mã hóa là ứng cử cho chuẩn này, một bộ mã hóa dựa trên mô hình CELP và một là bộ mã hóa lai giữa mô hình CELP và nguyên lý mã hóa tiếng nói dạng sin Các chuẩn
mã hóa tiếng nói băng hẹp của ITU-T được tóm tắt trên bảng 2.1
Ngoài các chuẩn băng hẹp, ITU-T còn ban hành hai chuẩn mã hóa băng rộng là G.722 và G.722.1 chủ yếu giành cho truyền thông đa phương tiện đòi hỏi chất lượng âm thanh cao G.722 hỗ trợ 3 tốc độ 64, 56 và 48 kb/s dựa trên
kỹ thuật ADPCM băng con (SB-ADPCM) Kỹ thuật này sử dụng bộ lọc gương cầu phương chia tín hiệu vào thành dải cao và dải thấp, sau đó tín hiệu sau lọc thông dải được lượng tử hóa sử dụng ADPCM với bước lượng tử biến đổi tùy thuộc vào dải con Chuẩn G.722.1 hoạt động với tốc độ 32 và 24 kb/s dựa trên kỹ thuật biến đổi Hiện nay, một bộ mã hóa băng rộng mới với tốc độ 13/16/20/24 kb/s đang được tiêu chuẩn hóa
2.4.2 Chuẩn điện thoại số celluar châu Âu
Với sự xuất hiện và phát triển của điện thoại di động số, có nhiều chuẩn đã được viện tiêu chuẩn viễn thông châu Âu ETSI (European
Trang 24Telecommunications Standards Institute) đưa ra Chuẩn đầu tiên được ETSI ban hành là bộ mã hóa GSM toàn tốc FR (Full-Rate) làm việc với tốc độ 13kb/s Sau đó ETSI đưa ra chuẩn GSM bán tốc HR (Half-Rate) 5,6kb/s và GSM tốc độ đầy đủ tăng cường EFR (Enhanced Full-Rate) 12,2kb/s Tiếp theo đó ETSI đưa ra một chuẩn mã hóa mới, gọi là mã hóa đa tốc độ thích nghi AMR (Adaptive Multi-Rate), hoạt động với 8 tốc độ từ 12,2 đến 4,75kb/s (4 tốc độ cho kênh toàn tốc và 4 tốc độ cho kênh bán tốc) Bộ mã hóa AMR đưa ra với mục đích cung cấp chất lượng tiếng nói tốt hơn bằng cách chọn lựa tối ưu giữa phương pháp (và tốc độ) mã nguồn và mã kênh Với môi trường nhiễu vô tuyến cao, AMR sẽ phân phối cho mã kênh (mã sửa lỗi) nhiều bit hơn đồng thời giảm tốc độ mã nguồn và ngược lại
Các chuẩn mã hóa của ETSI còn có khả năng nén các khoảng lặng (thời gian không đàm thoại) sử dụng các bộ dò hoạt động thoại VAD (Voice Activity Detection), nhờ đó có thể giảm được nhiễu vô tuyến và tiết kiệm được năng lượng cho các máy di động Các chuẩn mã hóa cho truyền thông di động châu Âu được tổng kết trên bảng 2.2
Chuẩn mã hóa Tốc độ (kb/s) Bộ dò
thoại VAD
Triệt nhiễu
Trễ (ms)
Chất lượng Năm
FR (RPE-LTP) 13 Có Không 40 Gần thực 1987
HR (VSELP) 5,6 Có Không 45 Gần thực 1994 EFR (ACELP) 12,2 Có Không 40 Thực 1998 AMR
(ACELP)
12,2/10,2/7,95 7,4/6,7/5,9/5,15/4,75
Có Không 40/45 Thực
1999
Bảng 2.2 Các chuẩn mã hóa của ETSI cho truyền thông di động GSM
2.4.3 Chuẩn điện thoại số Bắc Mỹ
Tại Bắc Mỹ, hiệp hội công nghiệp viễn thông TIA (Telecommunication Industries Association) thuộc hiệp hội công nghiệp điện tử EIA (Electronic Industries Association) đưa ra các chuẩn thông tin di động dựa trên kỹ thuật
đa truy nhập phân chia theo mã CDMA và đa truy nhập phân chia theo thời gian TDMA được sử dụng tại Mỹ TIA/EIA đã chọn kỹ thuật CELP của Qualcomm (QCELP) cho chuẩn IS-96-A (Interim Standard-96-A), hoạt động với tốc độ biến đổi trong khoảng 8kb/s và 0,8kb/s được điều khiển bởi một
Trang 25thuật toán lựa chọn tốc độ Sau đó, TIA/EIA ban hành chuẩn IS-127 là bộ mã hóa tốc độ biến đổi cải tiến, có chức năng mới là giảm tạp âm (triệt nhiễu) tại
bộ tiền xử lý trong module nén tiếng nói Trong điều kiện có nhiều tạp âm nền, bộ triệt nhiễu sẽ cho chất lượng tiếng nói tốt hơn Với những hệ thống thông tin cá nhân, TIA/EIA ban hành chuẩn IS-733 hoạt động với tốc độ biến đổi giữa 14,4 và 1,8kb/s Đối với các chuẩn TDMA bắc Mỹ, TIA/EIA ban hành chuẩn IS-54 và IS-641-A lần lượt cho mã hóa tiếng nói toàn tốc và toàn tốc tăng cường Các chuẩn mã hóa cho thông tin di động Nam Mỹ được tóm tắt trên bảng 2.3
Chuẩn mã hóa Tốc độ (kb/s) Bộ dò
thoại VAD
Triệt nhiễu
Trễ (ms)
Chất lượng NămIS-96-A(QCELP) 8,5/4/2/0,8 Có Không 45 Gần thực 1993 IS-127(EVRC) 8,5/4/2/0,8 Có Có 45 Thực 1995 IS-733(QCELP) 14,4/7,2/3,6/1,8 Có Không 45 Thực 1998 IS-54(VSELP) 7,95 Có Không 45 Gần thực 1989 IS-641-A(ACELP) 7,4 Có Không 45 Thực 1996
Bảng 2.3 Các chuẩn mã hóa của TIA/EIA cho thông tin di động CDMA/TDMA của Mỹ
2.4.4 Điện thoại bảo mật (Chuẩn của bộ quốc phòng Mỹ)
Mã hóa tiếng nói là một trong những thành phần chủ yếu của một hệ thống điện thoại an toàn và bảo mật, khi mà các lệnh bằng giọng nói truyền đi phải đảm bảo bên nhận hiểu ngay được trong trường hợp khẩn cấp
Chuẩn mã hóa
Tốc
độ (kb/s)
Bộ dò thoại VAD
Triệt nhiễu
Trễ (ms) Chất lượng Năm FS-1015(LPC-10e) 2,4 Không Không 115 Nghe hiểu 1984 FS-1016(CELP) 4,8 Không Không 67,5 Trung bình 1991 DoD 2,4 (MELP) 2,4 Không Không 67,5 Trung bình 1996 STANAG (NATO)
2,4/1,2 (MELP) 2,4/1,2 Không Có >67,5 Trung bình 2001
Bảng 2.4 Các chuẩn mã hóa của DoD (Bộ quốc phòng Mỹ)
Việc chuẩn hóa chủ yếu do bộ quốc phòng Mỹ DoD (Department of Defence) đảm nhận DoD đã ban hành chuẩn FS-1015 (Federal Standard-
Trang 261015) và FS-1016, lần lượt được gọi là các bộ mã hóa LPC-10e 2,4kb/s và
CELP 4,8kb/s Sau đó DoD ban hành thêm chuẩn mã hóa với tốc độ 2,4kb/s
dựa trên bộ vocoder dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed
Excitation Linear Prediction) dùng mô hình mã hóa tiếng nói dạng sin Chuẩn
mã hóa DoD MELP 2,4kb/s cho chất lượng tiếng nói tốt hơn chuẩn FS-1016
4,8kb/s bán tốc Trong khi đó NATO đã lựa chọn sử dụng một phiên bản cải
tiến của chuẩn mã hóa này làm việc với cả 2 tốc độ 2,4 và 1,2kb/s có sử dụng
bộ tiền xử lý tạp âm Các bộ mã hóa theo tham số như MELP được sử dụng
rộng rãi trong thông tin bảo mật vì chúng có tốc độ rất thấp mà chất lượng
tiếng nói nghe hiểu được Các chuẩn mã hóa của bộ quốc phòng Mỹ được tóm
tắt trên bảng 2.4
2.4.5 Điện thoại vệ tinh
Tập đoàn vệ tinh hàng hải quốc tế (INMARSAT) thông qua 2 chuẩn mã
hóa tiếng nói cho thông tin vệ tinh INMARSAT lựa chọn kỹ thuật kích thích
đa băng cải tiến IMBE (Improved MultiBand Excitation) tốc độ 4,15kb/s cho
hệ thống INMARSAT M và kỹ thuật kích thích đa băng cải tiến AMBE
(Advanced MultiBand Excitation) tốc độ 3,6kb/s cho hệ thống INMARSAT
Mini-M (bảng 2.5)
Chuẩn mã hóa Tốc độ
(kb/s)
Bộ dò thoại VAD
Triệt nhiễu
Trễ (ms) Chất lượng Năm IMBE 4,15 Không Không 120 Trung bình 1990 AMBE 3,6 Không Không - - -
Bảng 2.5 Các chuẩn mã hóa tiếng nói INMARSAT
2.4.6 Đánh giá chất lượng các bộ mã hóa
Để lựa chọn bộ mã hóa tốt nhất cho một ứng dụng cụ thể thường phải trải
qua một quá trình thử và kiểm tra toàn diện trong các điều kiện khác nhau
Nhìn chung, các bộ mã hóa có tốc độ bit thấp sẽ cho tiếng nói có chất lượng
thấp Để đánh giá chất lượng tiếng nói, tỷ số tín hiệu tạp âm SNR được dùng
với nhũng bộ mã hóa dạng sóng, thường với tốc độ bit trên 16kb/s Với nhưng
bộ mã hóa tham số tốc độ bit thấp không bảo toàn dạng sóng, ta không thể
Trang 27dùng tỷ số SNR để đánh giá chất lượng Để đánh giá chất lượng tiếng nói của các bộ mã hóa theo tham số người ta thường dùng những phương pháp đo lường chủ quan Một trong những phương pháp đánh giá chất lượng chủ quan được sử dụng rộng rãi là dùng thang điểm số trung bình MOS (Mean Opinion Score) như trong bảng 2.6
Điểm MOS Đánh giá chủ quan Chất lượng
5 Rất tốt Không cảm thấy gì Trong suốt (Transparent)
4 Tốt Cảm thấy nhưng không khó chịu Thực (Toll)
3 Trung bình Hơi khó nghe Trung bình (Communication)
2 Kém Khó nghe Không thật (Synthetic)
1 Tồi Rất khó nghe Tồi
Bảng 2.6 Thang điểm đánh giá trung bình MOS
Bảng 2.7 so sánh một số chuẩn mã hóa thông dụng về các khía cạnh tốc độ bit, trễ thuật toán và điểm số chất lượng trung bình MOS Còn hình 2.2 là biểu
đồ của các chuẩn này với trục ngang là tốc độ bit và trục dọc là chất lượng tiếng nói theo điểm MOS
Hình 2.2 Chất lượng tiếng nói của các chuẩn mã hóa (Điểm MOS từ 2-5)
PCM tuyến tính G.711 G.726
G.728 G.729
ITU 4
FS1015
FS1016 In-M
Trang 28Ta thấy PCM tuyến tính tốc độ 128kb/s cho chất lượng tốt nhất gọi là
"trong suốt" và với phiên bản dùng luật nén giãn A dùng 8 bit mã hóa 1 mẫu (64kb/s) (cung cấp chuẩn băng hẹp có chất lượng tốt nhất) là có điểm MOS trên 4 (chất lượng thực) Để đánh giá điểm MOS cho một bộ mã hóa nào đó phải thực hiện quá trình kiểm tra đánh giá, nghe thử tổng thể trong nhiều điều kiện khác nhau ITU đã chuẩn hóa các phương pháp kiểm tra đánh giá chất lượng trên, gần đây nhất là chuẩn đánh giá chất lượng tiếng nói P.862 trong
đó có các phương pháp đo lường, đánh giá chất lượng tiếng nói
Chuẩn Năm Thuật toán Tốc độ bit
(kb/s)
Điểm MOS Trễ (ms) G.711 1972 Nén giãn - PCM 64 4,3 0,125
G.726 1991 VBR-ADPCM 16/24/32/40 thực 0,125 G.728 1994 LD-CELP 16 4 0,625 G.729 1995 CS-ACELP 8 4 15 G.723.1 1995 A/MP-MLQ CELP 5,3/6,3 thực 37,5
GSM FR 1989 RPE-LTP 13 3,7 20
GSM EFR 1995 ACELP 12,2 4 20
GSM/2 1994 VSELP 5,6 3,5 24,375 IS54 1989 VSELP 7,95 3,6 20 IS96 1993 Q-CELP 0,8/2/4/8,5 3,5 20 JDC 1990 VSELP 6,7 T.Bình 20 JDC/2 1993 PSI-CELP 3,45 T.Bình 40 Inmarsat-M 1990 IMBE 4,15 3,4 78,75 FS1015 1984 LPC-10 2,4 ko thực 112,5 FS1016 1991 CELP 4,8 3 37,5
FS 2.4 mới 1997 MELP 2,4 3 45,5
Bảng 2.7 So sánh các chuẩn mã hóa tiếng nói
Trang 29CHƯƠNG 3 PHÂN TÍCH TÍN HIỆU TIẾNG NÓI BẰNG
PHƯƠNG PHÁP DỰ ĐOÁN TUYẾN TÍNH
3.1 Giới thiệu
Tín hiệu tiếng nói đã được rất nhiều nhà khoa học nghiên cứu cho nhiều mục đích và ứng dụng khác nhau trong nhiều năm Các nghiên cứu đã phân tích (phân nhỏ) tín hiệu thoại thành nhiều thành phần nhỏ, gọi là các âm vị (phoneme) Tuy nhiên chúng ta sẽ mô tả tín hiệu thoại dưới dạng những đặc điểm chung nhất Những bộ mã hóa nguồn (vocoder) truyền thống mà đã được sử dụng trong nhiều năm trước phân chia tín hiệu thoại đầu vào thành hai loại là âm hữu thanh (voiced) và âm vô thanh (unvoiced) Một đoạn tiếng nói hữu thanh được phân biệt do chứa đựng năng lượng tương đối cao, nhưng quan trọng hơn chúng tuần hoàn và có chu kỳ Còn thành phần vô thanh giống như tạp âm không có tính chu kỳ Tuy nhiên có một số thành phần của tín hiệu tiếng nói không phải là vô thanh cũng không phải hữu thanh mà là hỗn hợp của cả 2 loại Vùng này được gọi là miền quá độ, nơi chuyển tiếp giữa từ
vô thanh sang hữu thanh và ngược lại Đồ thị biên độ thời gian của một đoạn tín hiệu vô thanh và hữu thanh được biểu diễn trên hình 3.1
Hình 3.1 Dạng sóng của tín hiệu tiếng nói hữu thanh và vô thanh
Trang 30Trong nhiều kỹ thuật mã hóa, cần xét đến miền tần số biểu diễn tín hiệu thoại và phép biến đổi Fourier thời gian ngắn rất hay được sử dụng Phép biến đổi phổ thời gian ngắn còn quan trọng trong việc xác định những đặc trưng của một đoạn tín hiệu thoại mà miền thời gian không khảo sát được
3.2 Phân tích phổ thời gian ngắn
3.2.1 Biến đổi Fourier thời gian ngắn
Phép biến đổi Fourier thời gian ngắn đóng một vai trò cơ bản trong việc phân tích tín hiệu tiếng nói trong miền tần số Nó được dùng để mô tả trong miền tần số những đặc tính thay đổi theo thời gian của dạng sóng của tín hiệu Biến đổi Fourier thời gian ngắn (còn gọi là biến đổi Fourier phụ thuộc thời gian) được định nghĩa như sau:
( j ) ( ) ( ) j n k
n
S eω ∞ w k n s n e− ω
=−∞
Trong đó w(k − n) là cửa sổ thực dùng để giới hạn một đoạn tín hiệu vào
để phân tích tại một thời điểm nhất định k Trong quá trình phân tích tín hiệu
tiếng nói, hình dáng và độ dài của cửa sổ có thể tác động đến biểu diễn của tín hiệu thoại sau biến đổi (hoặc những tín hiệu khác) Nhiều loại cửa sổ đã được nghiên cứu với nhiều hình dáng và đặc điểm thích hợp cho các ứng dụng khác nhau Dưới đây là mô tả sơ qua về các dạng cửa sổ và hiệu quả của nó với biến đổi Fourier thời gian ngắn
3.2.2 Vai trò của cửa sổ
Cửa sổ w(n) xác định một phần của tín hiệu tiếng nói để xử lý bằng cách
đưa về 0 phần tín hiệu bên ngoài miền xử lý Đáp ứng tần số lý tưởng của cửa
sổ sẽ có một búp sóng chính rất hẹp để có thể tăng độ phân giải và không có
búp phụ (búp phụ cao gây ra hiện tượng rò tần số, là khi phân tích trong miền tần số bị mất đi một số tần số khiến phổ tín hiệu bị biến đổi nhiều, không trơn) Tuy nhiên trên thực tế không thể có những cửa số như vậy, và tùy theo
những ứng dụng người ta sử dụng những cửa sổ khác nhau Có nhiều loại cửa
sổ như chữ nhật, Hanning, Hamming, Blackman, Kaiser , được định nghĩa như sau:
Trang 32Hình 3.2 Các loại cửa sổ trong miền thời gian
Hình 3.3 Đáp ứng tần số của các loại cửa sổ
Trên hình 3.2 và 3.3 là biểu diễn của các loại cửa sổ trong miền thời gian
và tần số Có thể thấy trên hình 3.3, cửa sổ chữ nhật có phân giải tần số lớn nhất bởi vì có búp trung tâm hẹp nhất nhưng lại có độ rò tần số cao nhất (búp
-20 -40 -60 -80 -100
-20 -40 -60 -80 -100
-20 -40 -60 -80 -100
Trang 33phụ cao nhất) Mặt khác cửa sổ Blackman có dộ phân giải thấp nhất và độ rò tần số nhỏ nhất Ta sẽ khảo sát về sự tác động của các cửa sổ này đến kết quả của biến đổi Fourier thời gian ngắn đối với tín hiệu tiếng nói với 2 loại cửa sổ tiêu biểu, ví dụ cửa sổ chữ nhật và cửa sổ Hamming
Hình 3.4 Tác động của các loại cửa sổ lên tín hiệu tiếng nói hữu thanh (cửa sổ gồm 220 mẫu (27,5ms)) (a) và (b) là đồ thị miền thời gian và tần số của tín hiệu khi sử dụng cửa
sổ chữ nhật, (c) và (d) là đồ thị miền thời gian và tần số khi dùng cửa sổ Hamming
Tác động của cửa sổ chữ nhật và cửa sổ Hamming trong phân tích phổ tín hiệu tiếng nói được biểu diễn trên các hình 3.4, 3.5 và 3.6, trên mỗi hình đồ
thị (a) biểu diễn tín hiệu cửa sổ s(n)w(k−n) sử dụng cửa sổ chữ nhật và đồ thị (b) biểu thị độ lớn theo dB của phổ tín hiệu S k(ω) Và tương tự đồ thị (c) và (d) miêu tả tín hiệu cửa sổ sử dụng cửa sổ Hamming và độ lớn của phổ theo loga tương ứng Trên hình 3.4 là kết quả của một cửa sổ với 220 mẫu (27,5
ms với tốc độ lấy mẫu 8kHz) cho một đoạn tín hiệu hữu thanh Ta có thể thấy
Đường bao phổ tín hiệu gốc
Trang 34sự tuần hoàn của tín hiệu một cách rõ ràng trên hình 3.4(b) và 3.4(d) Tuy nhiên đỉnh của các hài (harmonic peaks) tại bội số của tần số cơ bản sẽ hẹp hơn và nhọn hơn đối với cửa sổ chữ nhật Ngoài ra dễ nhận thấy trên hình 3.4(b) và 3.4(d) là cấu trúc formant (đỉnh) bao gồm một đỉnh lớn nhất đầu tiên tại tần số 50Hz và 3 đỉnh xa hơn tại 1350Hz, 2300Hz và 3400Hz, xu hướng biên độ giảm dần tại các tần số cao hơn do tính thông thấp tự nhiên của xung thanh môn
Hình 3.5 Tác động của các loại cửa sổ đến tín hiệu tiếng nói vô thanh với chiều dài cửa
sổ 220 mẫu (a) và (b) cửa sổ chữ nhật, (c) và (d) cửa sổ Hamming
Mặc dù trên hình 3.4(b) và 3.4(d) cho ta thấy sự giống nhau đáng kể về mặt chu kỳ các hài (pitch harmonic), cấu trúc các đỉnh (formant) và hình dáng phổ nhưng các đỉnh tại hình (b) nhọn hơn trong hình (d) bởi vì độ phân giải tần số của cửa sổ chữ nhật lớn hơn cửa sổ Hamming Tuy nhiên vì độ rò tần
số cao hơn do búp phụ cao hơn cho nên tín hiệu được phân tích với cửa sổ chữ nhật trông như có nhiều tạp âm hơn (bị mất tần số so với phân tích bằng
Trang 35cửa sổ Hamming) gây khó khăn trong quá trình phân tích phổ Chính vì vậy nên cửa sổ chữ nhật thường không được sử dụng trong phân tích phổ tiếng nói
Tác động của cửa sổ đối với tín hiệu tiếng nói vô thanh được biểu diễn trên hình 3.5 Một lần nữa phổ biến đổi chậm với các đỉnh nhọn Phổ tín hiệu ứng với cả 2 cửa sổ đều có nhiều tạp âm tuy nhiên đó là do tính ngẫu nhiên tự nhiên của âm vô thanh Mặc dù bản thân tín hiệu là ngẫu nhiên nhưng một lần nữa cửa sổ Hamming tạo ra phổ trơn hơn cửa sổ chữ nhật
Để thấy được hiệu ứng tác động của cửa sổ với độ dài khác nhau chúng ta
so sánh với hình 3.6 với một khối tín hiệu hữu thanh chỉ gồm 40 mẫu (5ms)
Trong trường hợp này miền thời gian của tiếng nói s(n)w(k−n) biểu diễn trên
hình 3.6(a) và (c) không cho ta thấy tính chu kỳ của tín hiệu Điều đó cũng đúng với phổ tín hiệu trên hình 3.6(b) và (d) Khi so sánh với hình 3.4 ta thấy phổ trên hình 3.6 chỉ có vài đỉnh ở các tần số 500, 1350, 2300 và 3400 Hz tương ứng với cấu trúc các đỉnh (formant) chứa trong cửa sổ
Ta vẫn thấy tác động của cửa sổ chữ nhật và cửa sổ Hamming qua phổ tín hiệu trên hình 3.6(b) và (d) Nếu các cửa sổ với chiều dài 5ms đặt tại đoạn đầu
và đoạn cuối của khoảng 27,5ms, chúng sẽ cho kết quả là phổ tín hiệu với các đặc trưng khác nhau Bởi vậy để có độ phân giải thời gian tốt ta cần một cửa
sổ ngắn, và để có độ phân giải tần số của tín hiệu tốt thì ta cần một cửa sổ dài
hơn (búp chính hẹp hơn) Ta thấy việc lựa chọn chiều dài cửa sổ N cũng là điều cần phải cân nhắc, nếu tăng chiều dài N đơn thuần làm giảm băng thông (búp chính) Nếu N nhỏ, khoảng 30 mẫu thì năng lượng thời gian ngắn sẽ thay đổi rất nhanh Mặt khác, nếu N quá lớn (dài khoảng vài chu kỳ), năng lượng
thời gian ngắn sẽ luôn đạt giá trị trung bình trong một khoảng dài, do đó sẽ
không phản ánh được hết những biến đổi của tín hiệu tiếng nói Từ đó dẫn đến khó có thể chọn giá trị N nào thỏa đáng bởi chiều dài của một chu kỳ thay
đổi từ khoảng 16 mẫu với phụ nữ hoặc trẻ em (tần số cao) và khoảng 150 mẫu đối với người đàn ông giọng trầm (tần số thấp) Bởi vậy trên thực tế người ta
chọn một giá trị thích hợp cho N khoảng từ 120 đến 240 mẫu (khoảng 15 đến 30ms)
Trang 36Hình 3.6 Tác động của cửa sổ (dài 40 mẫu (5ms)) lên tín hiệu hữu thanh
(a) và (b) là đồ thị miền thời gian và tần số của tín hiệu khi sử dụng cửa sổ chữ nhật,
(c) và (d) là đồ thị miền thời gian và tần số khi dùng cửa sổ Hamming
Kích thước cửa sổ còn được xác định bởi những lý do thực tế khác Đó là khi tiếng nói được phân tích, một vài dạng thông số được lấy ra cho việc truyền dẫn, điều đó yêu cầu một tốc độ bit cao hơn cho một cửa sổ kích thước nhỏ hơn (tốc độ cập nhật nhanh hơn) Thêm vào đó trong quá trình phân tích tiếng nói cần thiết có một cửa sổ với độ dài có thể biểu diễn cấu trúc các formant (đỉnh) một cách chính xác và toàn diện (nghĩa là phải nhiều hơn 1 hoặc 2 chu kỳ trong mỗi cửa sổ)
3.3 Mô hình dự đoán tuyến tính tín hiệu tiếng nói
Một trong những phương thức phân tích tiếng nói hiệu quả nhất là mã hóa
dự đoán tuyến tính LPC (Linear Predictive Coding) hay phân tích LPC Trong phân tích LPC sự liên kết giữa các mẫu tín hiệu tiếng nói gần kề nhau được
mô hình hóa và loại bỏ bởi một bộ lọc biến đổi (theo thời gian) Liên quan
Trang 37đến kỹ thuật này, một kỹ thuật khác cũng rất quan trọng là dự đoán chu kỳ (pitch) hay tần số cơ bản của tín hiệu Trong kỹ thuật này, sự tương quan dài (sự liên kết của các mẫu nằm xa nhau) của các mẫu tín hiệu được mô hình hóa Sau đây sẽ trình bày về những kỹ thuật dự đoán tuyến tính này
3.3.1 Mô hình bộ máy phát âm
Hình 3.7 Mô hình phát âm (tạo tiếng nói)
Trước khi lấy ra các thông số từ tín hiệu tiếng nói, chúng ta cần có một mô hình lý thuyết cho việc phân tích Trong xử lý tiếng nói, bộ máy phát âm tạo
ra tiếng nói được coi như một bộ lọc nguồn âm được dùng làm phương tiện để phân tích tiếng nói Hình 3.7 là một sơ đồ khối đơn giản Với mô hình này, tín hiệu đầu vào (hay tín hiệu kích thích) được mô hình hóa thành 2 nguồn là chuỗi xung kích thích đối với tiếng nói hữu thanh và nguồn tạp âm ngẫu nhiên với tiếng nói vô thanh Sự kết hợp của sự phát xạ ngẫu nhiên, ống dẫn thanh
và sự phát xung thanh môn được biểu diễn bởi một bộ lọc biến đổi (theo thời gian) có hàm truyền đạt như sau:
1
1
1( )
Ta thấy hàm truyền đạt bao gồm các điểm cực và điểm không Tuy nhiên
nếu bậc của mẫu số đủ lớn, H(Z) có thể xấp xỉ bởi một mô hình toàn điểm
không, như sau:
Các hệ số mô hình (LPC)
Trang 38Phương trình (3.9) cũng là một phương trình dự đoán tuyến tính thông
dụng, tín hiệu đầu ra hiện tại s(n) được xác định bằng tổng của trọng số của kích thích vào hiện tại G.x(n) và tổng trọng số của các tín hiệu ra trước đó Vì
vậy với phân tích dự đoán tuyến tính, ta sẽ thực hiện như sau : dựa vào tín
hiệu s(n) tính toán xác định các tham số a j ( j = 1, ,p ) Những tham số thu được sẽ là những tham số của mô hình hệ thống với hàm truyền đạt H(z)
Nếu αi biểu diễn giá trị đánh giá của a i, thì sai số được tính như sau:
thể được viết lại thành :
1
( ) ( ) ( ) ( )
p j j
Trang 39Trong đó φn( , )i j =E s n i s n j{ ( − ) ( − )} (3.14)
Ta thấy để phương trình (3.13) đúng thì phải có giả thiết tín hiệu của mô hình phải là tín hiệu dừng Nhưng với tín hiệu tiếng nói thì điều này sẽ không đúng khi xét một đoạn dài Tuy nhiên với một đoạn ngắn các mẫu tín hiệu thì
ta có thể coi là tín hiệu dừng Khi đó kỳ vọng ở phương trình (3.14) sẽ được thay thế bởi tổng của một số hữu hạn các mẫu trong một đoạn tín hiệu nhỏ Việc chọn độ dài của tín hiệu để khảo sát ra sao chúng ta sẽ xét trong những phần sau
Trong phần này, phương trình phân tích dự đoán tuyến tính được xây dựng
từ cách tiếp cận cực tiểu hóa bình phương trung bình Ngoài ra còn có phương pháp tiếp cận khác là phương pháp xấp xỉ cực đại (Maximum Likelihood) và một số phương pháp khác Ngoài ứng dụng trong xử lý tiếng nói, LPC ngoài
ra còn được ứng dụng trong các lĩnh vực rộng hơn như điều khiển và Radar Tuy nhiên trong xử lý tiếng nói, phân tích dự đoán tuyến tính có thể nói là thành công nhất, nó có thể biểu diễn chính xác tín hiệu tiếng nói với một bộ tham số nhỏ
3.3.2 Xác định hệ số của mô hình LPC
Như đã đề cập ở phần trước, với mô hình biến đổi theo thời gian tự nhiên của tín hiệu thoại Để có thể dùng phương pháp phân tích dự đoán tuyến tính (LPC) áp dụng với tín hiệu dừng, ta phải giới hạn tín hiệu thành phân tích từng đoạn ngắn Điều đó thực hiện bằng cách thay thế kỳ vọng trong phương trình (3.13) bằng tổng các đoạn giới hạn Nghĩa là:
a Phương pháp tự tương quan AM (Auto-correlation Method)
Với giả thiết tín hiệu sn (m) là một cửa sổ và sẽ bằng 0 nếu m nằm ngoài
khoảng 0≤ ≤ −m N 1, với N là chiều dài của chuỗi mẫu Chúng ta thực hiện dự
Trang 40đoán các mẫu giá trị 0 trong khoảng N m N p≤ ≤ + (các mẫu thực chất có giá trị khác 0) và sai số dự đoán ở đây sẽ là giá trị khác 0 Tương tự, phần đầu của khung hiện tại luôn chịu tác động của những sai số xảy ra ở những khung trước Phương trình (3.15) có thể giới hạn lại:
1 0
M
L
(3.21)
Ma trận vuông p × p trong biểu thức trên là ma trận đối xứng qua đường
chéo chính, và các phần tử trên đường chéo chính đều bằng nhau, người ta gọi
là ma trận Toeplitz Phương trình (3.20) có thể giải bằng cách lấy nghịch đảo
ma trận vuông p × p trên tuy nhiên phương pháp này ít được sử dụng vì có
nhiều sai số trong tính toán như từ sự giới hạn về độ chính xác dẫn đến sai số tích lũy Bằng cách khai thác các đặc điểm của ma trận Toeplitz, nhiều thuật toán đệ quy hiệu quả đã được đưa ra Phương pháp thông dụng nhất là thuật