1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Ứng dụng của xử lý số tín hiệu trong phân tích và mã hoá tiếng nói

125 584 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 125
Dung lượng 2,41 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ----WX---- LUẬN VĂN THẠC SĨ KHOA HỌC ỨNG DỤNG CỦA XỬ LÝ SỐ TÍN HIỆU TRONG PHÂN TÍCH VÀ MÃ HÓA TIẾNG NÓI NGÀNH : ĐIỆN TỬ VIỄN TH

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

WX

LUẬN VĂN THẠC SĨ KHOA HỌC

ỨNG DỤNG CỦA XỬ LÝ SỐ TÍN HIỆU TRONG

PHÂN TÍCH VÀ MÃ HÓA TIẾNG NÓI

NGÀNH : ĐIỆN TỬ VIỄN THÔNG

TRẦN NGỌC TUẤN

Người hướng dẫn khoa học: PGS.TS NGUYỄN QUỐC TRUNG

Hà Nội 2008

Trang 2

LỜI CAM ĐOAN

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các tài liệu đã ghi

rõ trong luận văn, các phần trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này đã được nộp để lấy một bằng cấp nào

Trần Ngọc Tuấn

Trang 3

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Quốc Trung

đã tận tình chỉ bảo hướng dẫn và cho tôi những kiến quý báu để tôi có thể hoàn thành được luận văn này

Xin chân thành cảm ơn các thầy cô giáo trong khoa Điện Tử - Viễn Thông trường đại học Bách Khoa Hà Nội đã giúp tôi hoàn thành nhiệm vụ môn học trong suốt thời gian học tại trường, cảm ơn các anh chị và các bạn đồng nghiệp tại bộ môn Kỹ Thuật Thông Tin khoa Điện Tử Viễn Thông ĐHBKHN

đã giúp đỡ tôi trong quá trình học tập

Trang 4

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ vii

CÁC THUẬT NGỮ VIẾT TẮT ix

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI 1

1.1 Cơ sở nghiên cứu và mục đích của luận văn 1

1.2 Nội dung và cấu trúc của luận văn 2

CHƯƠNG 2 TỔNG QUAN CÁC KỸ THUẬT MÃ HÓA TIẾNG NÓI 3

2.1 Giới thiệu 3

2.2 Các kỹ thuật mã hóa tiếng nói 3

2.2.1 Mã hóa theo tham số 4

2.2.2 Mã hóa dạng sóng 6

2.2.3 Mã hóa lai 6

2.3 Các mục tiêu và yêu cầu của thuật toán mã hóa 7

2.3.1 Chất lượng và dung lượng 7

2.3.2 Trễ mã hóa 8

2.3.3 Độ bền bỉ (Robustness) 9

2.3.4 Độ phức tạp và chi phí 9

2.3.5 Ghép nối và chuyển mã 10

2.3.6 Xử lý dữ liệu dải tần tiếng nói 10

2.4 Các chuẩn mã hóa tiếng nói 11

2.4.1 Chuẩn mã hóa của ITU-T 11

2.4.2 Chuẩn điện thoại số celluar châu Âu 12

2.4.3 Chuẩn điện thoại số Bắc Mỹ 13

2.4.4 Điện thoại bảo mật (Chuẩn của bộ quốc phòng Mỹ) 14

Trang 5

2.4.5 Điện thoại vệ tinh 15

2.4.6 Đánh giá chất lượng các bộ mã hóa 15

CHƯƠNG 3 PHÂN TÍCH TÍN HIỆU TIẾNG NÓI BẰNG PHƯƠNG PHÁP DỰ ĐOÁN TUYẾN TÍNH 18

3.1 Giới thiệu 18

3.2 Phân tích phổ thời gian ngắn 19

3.2.1 Biến đổi Fourier thời gian ngắn 19

3.2.2 Vai trò của cửa sổ 19

3.3 Mô hình dự đoán tuyến tính tín hiệu tiếng nói 25

3.3.1 Mô hình bộ máy phát âm 26

3.3.2 Xác định hệ số của mô hình LPC 28

3.3.3 Quá trình phân tích và mã hóa LPC trên thực tế 37

3.3.4 Dãy sai số trong phân tích LPC 39

3.4 Dự đoán chu kỳ Pitch 41

3.4.1 Tính chu kỳ trong tín hiệu tín hiệu tiếng nói 41

3.4.2 Dự đoán chu kỳ Pitch (Dự đoán thời gian dài) 41

3.5 Xác định chu kỳ tín hiệu (tần số cơ bản) 48

3.5.1 Tách chu kỳ trong miền thời gian 49

3.5.2 Tách chu kỳ trong miền tần số 54

3.5.3 Các kỹ thuật tiền và hậu xử lý 56

CHƯƠNG 4 LƯỢNG TỬ HÓA CÁC THAM SỐ LPC BẰNG CÁC TẦN SỐ PHỔ VẠCH LSF 67

4.1 Giới thiệu 67

4.2 Các bộ tham số có thể thay thế tham số LPC 67

4.3 Biến đổi qua lại LPC và LSF 70

4.3.1 Tính toán các hệ số LSF 72

4.3.2 Biến đổi LSF sang LPC 77

4.4 Các tính chất của LSF 81

Trang 6

CHƯƠNG 5 CÁC BỘ MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT

PHÂN TÍCH NHỜ TỔNG HỢP AbS 84

5.1 Giới thiệu 84

5.2 Tổng quan về mã hóa AbS 85

5.2.1 Bộ lọc biến đổi 88

5.2.2 Thủ tục tối thiểu hóa sai số 88

5.2.3 Tín hiệu kích thích 91

5.3 Mã hóa dự đoán tuyến tính kích thích bằng mã CELP 94

5.3.1 Dự đoán LPC (Dự đoán thời gian ngắn) 96

5.3.2 Dự đoán pitch (Dự đoán thời gian dài) 97

5.3.2 Bảng mã kích thích 101

CHƯƠNG 6 THIẾT KẾ CHƯƠNG TRÌNH MÔ PHỎNG QUÁ TRÌNH PHÂN TÍCH LPC 105

6.1 Giới thiệu 105

6.2 Giao diện chính của chương trình 105

6.3 Các chức năng chính 107

6.4 Các kết quả thực nghiệm 107

KẾT LUẬN 112

TÀI LIỆU THAM KHẢO 114

Trang 7

DANH MỤC CÁC BẢNG

Bảng 2.1 Các chuẩn mã hóa tiếng nói băng hẹp của ITU-T 11

Bảng 2.2 Các chuẩn mã hóa của ETSI cho truyền thông di động GSM 13

Bảng 2.3 Các chuẩn mã hóa của TIA/EIA cho CDMA/TDMA của Mỹ 14

Bảng 2.4 Các chuẩn mã hóa của DoD (Bộ quốc phòng Mỹ) 14

Bảng 2.5 Các chuẩn mã hóa tiếng nói INMARSAT 15

Bảng 2.6 Thang điểm đánh giá trung bình MOS 16

Bảng 2.7 So sánh các chuẩn mã hóa tiếng nói 17

Bảng 3.1 So sánh các phương pháp tìm tham số LPC 37

Bảng 3.2 Phối hợp của các hàm cắt khác nhau 59

Bảng 4.1 Ưu nhược điểm của các hệ số PARCOR và LSF 81

Bảng 4.2 Điều kiện thực nghiệm khảo sát sự tương quan của các hệ số LSF.82 Bảng 4.3 Tương quan giữa các hệ số LSF trong khung (ma trận Ω) 82

Bảng 4.4 Tương quan giữa các hệ số LSF liên khung (ma trận Ψ) 83

Bảng 5.1 Các tham số thiết lập để so sánh các loại mã kích thích 104

Bảng 5.2 Kết quả so sánh hoạt động của 4 loại bảng mã 104

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 2.1 Chất lượng tại các tốc độ của các kỹ thuật mã hóa tiếng nói 4

Hình 2.2 Chất lượng tiếng nói của các chuẩn mã hóa 16

Hình 3.1 Dạng sóng của tín hiệu tiếng nói hữu thanh và vô thanh 18

Hình 3.2 Các loại cửa sổ trong miền thời gian 21

Hình 3.3 Đáp ứng tần số của các loại cửa sổ 21

Hình 3.4 Tác động của các loại cửa sổ lên tín hiệu tiếng nói hữu thanh 22

Hình 3.5 Tác động của các loại cửa sổ đến tín hiệu tiếng nói vô thanh 23

Hình 3.6 Tác động của cửa sổ (dài 40 mẫu (5ms)) lên tín hiệu hữu thanh 25

Hình 3.7 Mô hình phát âm (tạo tiếng nói) 26

Hình 3.8 Dự đoán tiến và dự đoán lùi 33

Hình 3.9 Bộ lọc mắt cáo dùng các hệ số PARCOR k i 35

Hình 3.10 Bộ lọc mắt cáo đảo tổng hợp tín hiệu tiếng nói từ tín hiệu sai số 35

Hình 3.11 Quan hệ giữa bậc của bộ lọc và tăng ích dự đoán 38

Hình 3.12 Đường bao phổ của tín hiệu qua các bộ lọc LPC bậc khác nhau 39

Hình 3.13 Tín hiệu gốc và tín hiệu sai số LPC 40

Hình 3.14 So sánh phổ của tín hiệu gốc và tín hiệu sai số 40

Hình 3.15 Mô hình tính toán pitch-LPC 42

Hình 3.16 Đồ thị thời gian của tín hiệu sai số LPC và sai số Pitch 46

Hình 3.17 Biến thiên của β trong một đoạn tín hiệu tiếng nói điển hình 47

Hình 3.18 Biến thiên của τ trong một đoạn tín hiệu tiếng nói điển hình 47

Hình 3.19 Xác định chu kỳ dùng hàm tự tương quan và hàm AMDF 51

Hình 3.20 Hàm tự tương quan trực tiếp và chuẩn hóa 53

Hình 3.21 Phát hiện đỉnh sử dụng bộ lọc răng lược 55

Hình 3.22 Phổ tín hiệu với phương pháp phổ đồng dạng 56

Hình 3.23 Các hàm cắt giữa 58

Hình 3.24 Theo dõi chu kỳ tiến 60

Hình 3.25 Phương pháp theo dõi 2 đường 61

Hình 3.26 Các khoảng tìm kiếm chu kỳ chồng nhau 63

Hình 3.27 Những khoảng tìm kiếm chồng nhau 64

Hình 4.1 Mô hình dạng ống không tổn hao của bộ máy phát âm 71

Trang 9

Hình 4.2 Bộ lọc tổng hợp LPC bằng cấu trúc PARCOR 71

Hình 4.3 Các tham số LSF cho 1 đoạn tiếng nói điển hình 75

Hình 4.4 Phân bố các tham số LSF 76

Hình 4.5 Sơ đồ cấu trúc của bộ lọc tổng hợp LSF thực tế 80

Hình 5.1 Sơ đồ khối kỹ thuật phân tích bằng tổng hợp dùng vòng kín 85

Hình 5.2 Sơ đồ khối kỹ thuật mã hóa AbS-LPC 86

Hình 5.3 Đồ thị so sánh phổ tín hiệu gốc và tín hiệu sau lọc trọng số 90

Hình 5.4 Bộ mã hóa AbS-LPC biến đổi 91

Hình 5.5 Bộ mã hóa AbS-LPC với nhiều loại tín hiệu kích thích khác nhau 92 Hình 5.6 Cấu trúc xung kích thích đều của RPELPC 94

Hình 5.7 Sơ đồ khối thuật toán mã hóa CELP chuẩn 96

Hình 5.8 Phương pháp lặp lại pitch trong trường hợp Dmin < L 100

Hình 6.1 Giao diện chính của chương trình 106

Hình 6.2 Tín hiệu sai số với bộ lọc LPC bậc 1 108

Hình 6.3 Tín hiệu sai số với bộ lọc LPC bậc 10 108

Hình 6.4 So sánh kết quả phổ tín hiệu với các bộ lọc LPC bậc khác nhau 109

Hình 6.5 Tín hiệu tổng hợp của một đoạn tiếng nói nguyên âm "a" 109

Hình 6.6 Các tham số LTP theo thời gian sau phân tích 110

Hình 6.7 Các tham số LTP sau phân tích một đoạn tiếng nói tổng hợp 111

Trang 10

CÁC THUẬT NGỮ VIẾT TẮT

AaS Analysis-and-Synthesis Phân tích và tổng hợp

AbS Analysis-by-Synthesis Phân tích bằng cách tổng hợp ACELP Algebraic CELP Dự đoán tuyến tính kích thích

bằng mã đại số

ADPCM Adaptive Differential PCM Điều chế xung mã vi sai tự

thích nghi AMDF Average Magnitude Difference

Function

Hàm vi sai biên độ trung bình

ASIC Application-Specific Integrate

Delta Modulation

Điều chế delta độ dốc biến đổi liên tục

DMR Digital Mobile Radio Di động số vô tuyến

ETSI European Telecommunications

LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính LSF Line Spectral Frequency Tần số phổ vạch

Trang 11

LSP Line Spectrum Pair Cặp phổ vạch

LTP Long-Term Prediction Dự đoán thời gian dài

MELP Mixed Excitation Linear

Prediction

Dự đoán tuyến tính kích thích hỗn hợp

MOS Mean Opinion Score Điểm đánh giá trung bình MPLPC Multi-Pulse LPC Mã hóa dự đoán tuyến tính

kích thích đa xung PAME Pitch Adaptive Mixed

Excitation

Kích thích bằng mã hỗn hợp

tự thích ứng với chu kỳ PARCOR Partial Correlation Coefficient Hệ số tương quan riêng

PCM Pulse Code Modulation Điều chế xung mã

PDA Pitch Detection Algorithm Thuật toán tách chu kỳ

PSTN Public Switched Telephone

SELP Self-Excitation Linear

Prediction

Dự đoán tuyến tính tự kích thích

SIVP Switched-adaptive Inter-frame

VAD Voice Activity Detector Bộ dò hoạt động thoại

VSELP Vector Sum Excited Linear

Prediction

Dự đoán tổng véctơ tuyến tính tồn tại

Trang 12

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI 1.1 Cơ sở nghiên cứu và mục đích của luận văn

Trong các loại tín hiệu trong tự nhiên, tiếng nói là một trong những tín hiệu được nghiên cứu nhiều nhất và sớm nhất do mục đích cơ bản nhất của các hệ thống thông tin là truyền đi tiếng nói Ngày nay dịch vụ viễn thông được sử dụng nhiều nhất và thiết yếu nhất là điện thoại, nhất là điện thoại di động không thể thiếu được trong cuộc sống hiện đại Ngoài ra còn rất nhiều dịch vụ khác nhau liên quan đến truyền tiếng nói Để truyền tiếng nói thì cần phải mã hóa tiếng nói, do đó các kỹ thuật mã hóa tiếng nói hoạt động ổn định

và hiệu quả là rất cần thiết Đã có rất nhiều công trình nghiên cứu và nhiều kỹ thuật mã hóa tiếng nói ra đời Mục đích chính của mã hóa tiếng nói là cho tiếng nói chất lượng tốt và tốc độ thấp Vì tài nguyên kênh là hữu hạn nhất là đối với các kênh vô tuyến, với băng thông thấp, chịu ảnh hưởng lớn của nhiễu nên nếu có thể giảm được tốc độ dữ liệu, tiết kiệm dung lượng và băng thông

là điều rất quý giá Hơn nữa nếu kỹ thuật mã hóa tiếng nói tốc độ càng thấp ta

có thể thêm vào dung lượng tiết kiệm đó là mã kênh để chống nhiễu thì chất lượng dịch vụ sẽ tốt hơn rất nhiều Từ đó ta thấy tầm quan trọng của mã hóa tiếng nói trong các hệ thống thông tin số ngày nay

Để nghiên cứu về mã hóa tiếng nói trước hết ta phải nghiên cứu về tín hiệu tiếng nói, bản chất tiếng nói là một loại tín hiệu vì vậy sẽ phải dựa trên cơ sở

là lý thuyết tín hiệu Tuy nhiên tiếng nói là một loại tín hiệu với nhiều đặc trưng riêng có băng thông từ 0,3-3,4KHz nên các kỹ thuật mã hóa được nghiên cứu để phù hợp và tận dụng được các đặc trưng này

Để có thể phân tích được tiếng nói ta cần mô hình hóa bộ máy phát âm, nghiên cứu cơ chế tạo ra tiếng nói của con người Trước hết phải dựa trên cơ

sở cấu trúc sinh học của bộ máy phát âm con người, gồm thanh quản (gồm 2 dây thanh), tuyến âm (ống dẫn thanh), khoang mũi và vòm miệng Sau đó là

cơ chế hoạt động của bộ máy phát âm để tạo ra tiếng nói Để mô hình hóa bộ máy phát âm dùng trong mã hóa tiếng nói người ta coi như một bộ lọc, do đó phải dựa trên cơ sở của các bộ lọc số trong xử lý tín hiệu Cuối cùng để thiết

Trang 13

kế được các bộ mã hóa trong các hệ thống số, phải dựa trên cơ sở lý thuyết xử

lý số tín hiệu DSP

Dựa trên những cơ sở lý thuyết nêu trên, luận văn nghiên cứu các kỹ thuật

mã hóa tiếng nói, cơ sở lý thuyết và các phương tiện để phân tích tiếng nói Tập trung vào kỹ thuật mã hóa theo tham số, kỹ thuật được ứng dụng phổ biến trong các bộ mã hóa ngày nay vì làm việc với tốc độ thấp và chất lượng tiếng nói đảm bảo Sau đó xây dựng một chương trình để mô phỏng quá trình phân tích tiếng nói bằng các phương tiện trên, để minh họa cho lý thuyết

1.2 Nội dung và cấu trúc của luận văn

Luận văn được chia làm 6 chương, với nội dung được tóm tắt như sau: Chương 1 trình bày về cơ sở nghiên cứu và mục đích của luận văn

Chương 2 giới thiệu tổng quan về các kỹ thuật mã hóa tiếng nói Các chỉ tiêu kỹ thuật chính của các kỹ thuật mã hóa và các chuẩn mã hóa do các tổ chức hợp chuẩn thiết lập

Chương 3 trình bày phương pháp phân tích và mã hóa tiếng nói bằng phương pháp mã hóa dự đoán tuyến tính LPC, một phương pháp hiệu quả và được ứng dụng rộng rãi hiện nay Chương 3 đề cập đến mô hình bộ máy phát

âm, kỹ thuật phân tích phổ của tín hiệu tiếng nói thời gian ngắn, cở sở và mô hình phân tích LPC, dự đoán thời gian ngắn STP, dự đoán thời gian dài LTP

và các phương pháp để xác định chu kỳ cơ bản của tín hiệu tiếng nói

Chương 4 nói về các vấn đề trong lượng tử hóa các tham số LPC, một khâu cuối cùng và rất quan trọng trước khi truyền tín hiệu đi Nêu các bộ tham số có thể thay thế tham số LPC, trong đó các tần số phổ vạch LSF tỏ ra hiệu quả nhất để dùng cho lượng tử hóa tín hiệu

Chương 5 trình bày một kỹ thuật mã hóa phân tích bằng tổng hợp AbS, một kỹ thuật mã hóa tiếng nói hiệu quả với tốc độ thấp Cụ thể là kỹ thuật dự đoán tuyến tính kích thích bằng mã CELP mà hiện nay được ứng dụng rộng rãi nhất trong các hệ thống thông tin số

Chương 6 xây dựng một chương trình mô phỏng quá trình phân tích LPC, chương trình có thể thay đổi các thông số của các bộ lọc LPC và LTP để quan sát sự thay đổi của tín hiệu sai số (trong miền thời gian và tần số)

Trang 14

CHƯƠNG 2 TỔNG QUAN CÁC KỸ THUẬT MÃ HÓA

TIẾNG NÓI 2.1 Giới thiệu

Kỹ thuật điều chế xung mã PCM (Pulse Code Modulation) được phát minh năm 1938 bởi Alec H.Reeves đã đánh dấu cho sự khởi đầu của truyền thông

số Khác với các hệ thống tương tự, hệ thống PCM có thể khôi phục tín hiệu hoàn hảo tại các trạm lặp của hệ thống thông tin bằng cách bù suy hao trong điều kiện mức tạp âm của kênh chưa đủ lớn để gây ảnh hưởng làm sai lệch dòng bit truyền Vào những năm đầu thập kỷ 60, khi các hệ thống số bắt đầu phổ biến, PCM được sử dụng trong các mạng điện thoại chuyển mạch nội bộ

và công cộng Ngày nay, hầu hết tất cả các mạng điện thoại chuyển mạch công cộng PSTN (Public Switched Telephone Networks) đều hoạt động trên nền tảng PCM, và nhiều mạng sử dụng công nghệ cáp quang vì đặc biệt thích hợp với truyền dữ liệu số Thêm vào đó, ưu thế của kỹ thuật PCM so với các

hệ thống tương tự là sự thuận lợi khi thực hiện các kỹ thuật phức tạp như sửa lỗi, mã hóa, ghép kênh, chuyển mạch và nén tín hiệu

Nhược điểm chính của PCM là băng thông đường truyền lớn hơn băng thông yêu cầu của tín hiệu tương tự Đây là điều rất bất lợi khi sử dụng những kênh có chi phí cao và băng thông hạn chế như các hệ thống thông tin vệ tinh hay hệ thống điện thoại di động Để khắc phục điều đó, đã có rất nhiều công trình về mã hóa tiếng nói được nghiên cứu, và đến nay đã đạt được nhiều thành tựu với nhiều phương pháp mã hóa tiếng nói khác nhau đã được ứng dụng và phát triển Trong từng ứng dụng cụ thể sẽ có những chuẩn mã hóa riêng, trong chương này sẽ trình bày tổng quan về các kỹ thuật và chuẩn mã hóa tiếng nói và sự khác nhau và ưu nhược điểm của chúng

2.2 Các kỹ thuật mã hóa tiếng nói

Các bộ mã hóa được chia làm 2 loại chính là mã hóa dạng sóng và mã hóa tham số như sau:

Trang 15

• Bộ mã hóa xấp xỉ dạng sóng: Duy trì dạng sóng của tín hiệu gốc Tạo ra tín hiệu chất lượng càng cao, càng giống với tín hiệu gốc khi ta giảm sai số lượng tử hóa

• Bộ mã hóa tham số: Các bộ mã hóa tạo ra tín hiệu tiếng nói nhưng sẽ không hội tụ về tín hiệu gốc khi giảm sai số lượng tử hóa

Hình 2.1 Chất lượng tại các tốc độ của các kỹ thuật mã hóa tiếng nói

Trên hình 2.1 là đồ thị mô tả chất lượng của các bộ mã hóa với các tốc độ bit khác nhau Trước đây các bộ mã hóa tiếng nói được chia thành 3 loại là

mã hóa dạng sóng, mã hóa nguồn (vocoder) và mã hóa lai (hybrid coder) Mã hóa dạng sóng gồm các bộ mã hóa tiếng nói trực tiếp như PCM hay ADPCM,

mã hóa nguồn gồm những bộ tổng hợp tiếng nói tốc độ bit rất thấp Cuối cùng

là mã hóa lai là các bộ mã hóa sử dụng cả hai kỹ thuật của mã hóa nguồn và

mã hóa dạng sóng ví dụ như CELP, MBE Tuy nhiên hiện tại tất cả các bộ

mã hóa tiếng nói sử dụng một trong các dạng mô hình tiếng nói trên thì tín hiệu đầu ra của nó có 2 trường hợp là có thể hội tụ về tín hiệu gốc nếu tăng tốc độ bit hoặc không thể Vì vậy hiện nay người ta có thể phân loại các bộ

mã hóa tiếng nói một cách thích hợp hơn thành 2 nhóm như trên, khi mà thuật ngữ cũ mã hóa dạng sóng không còn thích hợp

2.2.1 Mã hóa theo tham số

Các bộ mã hóa theo tham số sử dụng một tập các tham số mô hình để mô hình hóa tín hiệu tiếng nói Các tham số sau khi được tính toán tại bộ mã hóa

Trung Bình

Kém Chất lượng

Trang 16

sẽ được lượng tử hóa và truyền đến bộ giải mã tại phía thu Bộ giải mã tổng hợp lại tín hiệu dựa trên mô hình với các tham số nhận được Mô hình bộ máy phát âm (nguồn âm) không tính đến tạp âm lượng tử hóa, không tính đến việc duy trì dạng sóng của tín hiệu tổng hợp giống với tín hiệu tiếng nói gốc (trái với mã hóa dạng sóng) Việc ước lượng các tham số mô hình có thể sử dụng vòng mở (open loop) không có phản hồi từ bộ lượng tử hóa hoặc tổng hợp tiếng nói Những bộ mã hóa này chỉ có thể bảo toàn những đặc trưng được xét đến trong mô hình nguồn âm như đường bao phổ, chu kỳ, hay năng lượng tín hiệu Chất lượng tiếng nói tổng hợp của các bộ mã hóa theo tham số không thể đạt đến chất lượng tốt mặc dù có lượng tử hóa các tham số mô hình chính xác hơn (hình 2.1) Hạn chế này là do việc sử dụng mô hình nguồn âm Hơn nữa chúng không bảo toàn được dạng sóng của tín hiệu, và tỷ số tín hiệu trên tạp âm SNR (Signal-to-Noise Ratio) trong trường hợp này là vô nghĩa vì tỷ số này sẽ thường là âm khi tính bằng đơn vị dB (vì dạng sóng của tín hiệu vào và

ra không đồng pha) Tỷ số SNR không phản ánh được chất lượng tiếng nói tổng hợp và chất lượng được đánh giá bằng chủ quan (hoặc cảm giác)

a Các bộ mã nguồn (Vocoder) dựa trên kỹ thuật dự đoán tuyến tính

Mô hình dự đoán tuyến tính được thiết kế để mô hình hóa cơ chế phát âm của con người Tuyến âm được mô hình hóa thành một bộ lọc dự đoán Các xung thanh môn và dòng khí từ thanh môn trong mô hình lần lượt là các xung tuần hoàn và tạp âm Gauss, là tín hiệu kích thích của bộ lọc dự đoán Các hệ

số của bộ lọc dự đoán tuyến tính, công suất tín hiệu, sự lựa chọn tín hiệu kích thích (là xung tuần hoàn hay tạp âm) và chu kỳ tín hiệu của đoạn tín hiệu tiếng nói được ước lượng và truyền đến bộ giải mã Nhược điểm chính của các bộ vocoder dựa trên kỹ thuật dự đoán tuyến tính này là việc quyết định lựa chọn tín hiệu kích thích là dãy xung tuần hoàn hay tạp âm, mà không thể

mô hình hóa hỗn hợp cả 2 loại tín hiệu với cả 2 thành phần có chu kỳ và tạp

âm được Ngày nay, nhờ các kỹ thuật quyết định tiếng nói trong miền tần số

đã cải thiện được chất lượng của các bộ vocoder này

b Bộ mã hóa điều hòa (Harmonic Coder)

Mã hóa điều hòa hay mã hóa dạng Sin biểu diễn tín hiệu tiếng nói thành tổng của các hàm Sin Các tham số mô hình ở đây là biên độ, tần số và pha

Trang 17

của hàm Sin thường được ước lượng từ phổ của tín hiệu Tần số được xác định từ các đỉnh của phổ tín hiệu, và các biên độ, tần số được nội suy trong quá trình tổng hợp tín hiệu để được tín hiệu tổng giống tín hiệu tiếng nói ban đầu Việc tăng tốc độ lấy tham số sẽ làm dạng sóng của tín hiệu tổng hợp giống hơn với tín hiệu gốc nếu các tham số này chưa bị lượng tử hóa Tuy nhiên, với mã hóa tốc độ thấp thì người ta không truyền đi pha của tín hiệu,

mà giá trị của pha được nội suy tại bộ giải mã Vì vậy dạng sóng của tín hiệu gốc cũng không được bảo tồn trong trường hợp này

2.2.2 Mã hóa dạng sóng

Các bộ mã hóa dạng sóng tối thiểu hóa sai số giữa dạng sóng của tín hiệu tổng hợp và tín hiệu gốc Các bộ mã hóa dạng sóng đầu tiên sử dụng các kỹ thuật điều chế xung mã PCM và điều chế xung mã vi sai thích ứng ADPCM truyền đi các giá trị đã lượng tử hóa cho từng mẫu Tuy nhiên, ADPCM sử dụng một bộ dự đoán các điểm cực và không thích ứng và lượng tử hóa tín hiệu sai số, với bước lượng tử biến đổi thích nghi Các hệ số dự đoán ADPCM và các bước lượng tử biến đổi thích nghi lùi và phù hợp với tốc độ mẫu

Gần đây, những bộ mã hóa dựa trên phương pháp phân tích nhờ tổng hợp trong miền thời gian như dự đoán tuyến tính kích thích bằng mã CELP (Code Excited Linear Prediction), sử dụng mô hình ống dẫn thanh và dự đoán thời gian dài LTP (Long-Term Prediction) để mô hình hóa sự liên kết giữa các mẫu tín hiệu Bộ mã hóa CELP lưu tín hiệu vào bộ đệm và xử lý phân tích theo từng khối, sau đó truyền đi các hệ số của mô hình bộ lọc dự đoán cùng với chỉ số của vectơ kích thích Kỹ thuật này còn sử dụng bộ lọc nhấn cảm nhận để nhấn mạnh các formant tín hiệu, và khi đó tạp âm lượng tử hóa sẽ bị tín hiệu che khuất

2.2.3 Mã hóa lai

Hầu hết tất cả các bộ mã hóa đều áp dụng cùng một nguyên lý mã hóa để

mã hóa toàn bộ đoạn tín hiệu tiếng nói, bất chấp có những thay đổi lớn trong tín hiệu tiếng nói, như sự chuyển đổi giữa các khoảng hữu thanh, vô thanh, pha trộn, quá độ như các kỹ thuật ADPCM, CELP, IMBE Khi giảm tốc độ

Trang 18

bit, chất lượng của các bộ mã hóa này lại càng giảm nhất là với một số dạng tín hiệu Điều đó cho thấy một nguyên lý mã hóa không thích hợp để mã hóa tất cả các dạng tín hiệu tiếng nói Để khắc phục điều này, các bộ mã hóa lai đã kết hợp các phương pháp mã hóa khác nhau để mã hóa dạng tín hiệu tiếng nói trong các đoạn tín hiệu khác nhau

Bộ mã hóa lai có thể chuyển đổi các chế độ mã hóa khác nhau đã định sẵn,

vì vậy chúng là những bộ mã hóa đa chế độ Bộ mã hóa lai còn gọi là bộ mã hóa thích ứng, có thể chuyển đổi kỹ thuật hay chế độ mã hóa theo tín hiệu nguồn, lựa chọn chế độ tốt nhất để mã hóa từng đoạn tín hiệu tiếng nói Việc quyết định chọn chế độ nào dựa vào mạng hoặc kênh cho phép bộ mã hóa thích ứng với tải của mạng hoặc xác suất lỗi kênh, bằng cách thay đổi chế độ

mã hóa và tốc độ bit, thay đổi sự phân phối các bit của mã nguồn và mã kênh Còn với quyết định chế độ dựa vào nguồn, việc phân loại tiếng nói dựa vào các khung với kích thước cố định hoặc biến đổi Số lượng bit phân phối cho các khung ở các chế độ khác nhau có thể giống hoặc khác nhau Tốc độ bit của bộ mã hóa lai cũng có thể cố định hoặc biến đổi Mã hóa tốc độ bit biến đổi được coi là kỹ thuật mã hóa lai mở rộng

2.3 Các mục tiêu và yêu cầu của thuật toán mã hóa

Việc thiết kế các thuật toán mã hóa khác nhau tùy thuộc vào từng ứng dụng cụ thể Do vậy trong quá trình thiết kế thuật toán phải cân nhắc rất kỹ các trọng số của các nhân tố ảnh hưởng khác nhau để có thể cân bằng được giữa các nhân tố đối lập nhau Sau đây ta xét đến các nhân tố chính của các ứng dụng mạng mà có thể ảnh hưởng đến việc lựa chọn thuật toán cho từng ứng dụng cụ thể

2.3.1 Chất lượng và dung lượng

Chất lượng và tốc độ thoại là 2 thông số có quan hệ trực tiếp và trái ngược nhau Nếu bộ mã hóa nguồn có tốc độ càng thấp nghĩa là khả năng nén tín hiệu cao thì chất lượng thoại sẽ càng khó tránh khỏi bị tổn thất ở một mức độ nào đó (các bộ vocoder) Với các hệ thống kết nối với mạng thoại công cộng PSTN và các hệ thống liên đới khác thì những yêu cầu về chất lượng rất nghiêm ngặt và phải tương thích với các chuẩn và hướng dẫn đã được các tổ

Trang 19

chức hợp chuẩn thiết lập ra, ví dụ như ITU (tiền thân là CCITT) Những hệ thống như vậy đòi hỏi chất lượng mã hóa rất cao (chất lượng thực) Tuy nhiên với các hệ thống đóng như các mạng nội bộ và các hệ thống quân sự, thì yêu cầu về chất lượng có thể giảm bớt Mặc dù chất lượng tuyệt đối thường được xác định rõ nhưng vẫn có thể sử dụng những chuẩn chất lượng thấp hơn nếu một số nhân tố khác cần tốc độ cao hơn (mã hóa lai) Chẳng hạn như trong hệ thống di động vô tuyến thì chất lượng tổng thể trung bình thường là nhân tố quyết định Chất lượng trung bình thường được đưa vào tính toán trong cả hai điều kiện truyền dẫn tốt và xấu

2.3.2 Trễ mã hóa

Trễ mã hóa trong các hệ thống truyền dẫn thoại là một yếu tố có liên quan chặt chẽ với yêu cầu về chất lượng Trễ mã hóa bao gồm các yếu tố về thuật toán (bộ nhớ đệm các đoạn tiếng nói dùng trong phân tích), tính toán (thời gian để bộ xử lý lưu trữ các mẫu tín hiệu) và các yếu tố truyền dẫn Trong số

đó hai yếu tố đầu tiên liên quan đến phân hệ mã hóa, mặc dù bộ mã hóa thường được điều chỉnh để quá trình truyền dẫn được khởi tạo (thậm chí) trước khi hoàn tất quá trình xử lý các thông tin trong khung đang phân tích của thuật toán, ví dụ trong hệ thống di động châu Âu Pan-European (GSM) bộ

mã hóa sẽ truyền các tham số phổ ngay khi tính toán xong Đối với các ứng dụng của mạng chuyển mạch thoại công cộng PSTN yêu cầu độ trễ nhỏ nếu vấn đề chính của mạng là giảm thiểu tiếng vọng Còn với các ứng dụng của hệ thống di động và thông tin vệ tinh, cần triệt tiếng vọng khi có trễ lan truyền Tuy nhiên với hệ thống PSTN khi trễ là rất nhỏ thì việc triệt tiếng vọng sẽ đòi hỏi cao hơn nếu sử dụng bộ mã hóa có độ trễ lớn, như vậy sẽ tăng chi phí hoạt động của hệ thống Hầu hết các thuật toán tốc độ thấp đều được so sánh về độ trễ mã hóa với hệ thống tiêu chuẩn 64 kb/s PCM Chẳng hạn như hệ thống GSM có giới hạn trên ban đầu là 65 ms với cấu hình back-to-back (nối trực tiếp bộ phát và bộ thu), trong khi đó với chuẩn 16kb/s G.728 trễ tối đa là 5ms với tiêu chí là 2ms

Trang 20

2.3.3 Độ bền bỉ (Robustness)

Tính bền bỉ trong thông tin là khả năng chống lại các yếu tố tác động từ kênh Trong nhiều ứng dụng, mã hóa nguồn chỉ chiếm một phần trong tổng số dung lượng kênh, phần còn lại giành cho mã sửa lỗi trước FEC (Forward Error Correction) và báo hiệu Trong các kết nối di động chịu ảnh hưởng nhiều bởi các lỗi ngẫu nhiên và lỗi cụm thì khả năng chống lỗi kênh của kỹ thuật mã hóa rất cần thiết cho hoạt động với chất lượng tiếng nói trung bình

có thể chấp nhận được Với việc tăng cường độ bền bỉ (ví dụ phân tập tín hiệu, phát đi 1 tín hiệu với nhiều bản sao) thì có thể sử dụng các mã sửa lỗi FEC ít hơn, vì vậy phần mã nguồn có dung lượng cao hơn và cho ta chất lượng tốt hơn Tuy nhiên sự cân bằng giữa độ bền bỉ và chất lượng rất khó đạt được, đây là một yêu cầu phải xét đến khi bắt đầu thiết kế thuật toán Với các ứng dụng sử dụng các kênh chất lượng tốt hơn như các liên kết cáp quang, thì các lỗi kênh giảm thiểu đi nhiều thì độ bền bỉ có thể đánh đổi dung lượng lấy chất lượng Đây là một đặc điểm khác nhau lớn giữa các hệ thống di động, vệ tinh và đường truyền cố định

Ngoài nhiễu kênh, các bộ mã hóa còn phải làm việc trong môi trường có nhiễu nền Nhiễu nền có thể ảnh hưởng đến quá trình tính toán các tham số của tín hiệu tiếng nói vì vậy bộ mã hóa cần phải được thiết kế để có thể duy trì hoạt động tốt trong mọi điều kiện Như việc duy trì được chất lượng tiếng nói tốt trong môi trường có tạp âm, việc duy trì chất lượng trong điều kiện nhiễu nền của các bộ mã hóa cũng rất quan trọng (trừ khi sử dụng bộ triệt nhiễu thích ứng trước mã hóa)

2.3.4 Độ phức tạp và chi phí

Các thuật toán ngày càng được cải tiến và tinh vi hơn kéo theo độ phức tạp tính toán tăng lên Sự ra đời của các chip xử lý tín hiệu DSP và các chip tích hợp mạch chuyên dụng ASIC đã làm cho chi phí xử lý giảm xuống đáng kể Tuy nhiên độ phức tạp/chi phí xử lý vẫn là một vấn đề lớn, đặc biệt trong các

hệ thống mà sự cơ động của phần cứng (có thể di chuyển được) là nhân tố chính Một kỹ thuật để khắc phục được sự tiêu thụ năng lượng trong khi vẫn tăng hiệu suất kênh là kỹ thuật nội suy tiếng nói kỹ thuật số DSI (Digital

Trang 21

Speech Interpolation) Trên thực tế trong một cuộc đàm thoại chỉ khoảng một nửa là các tín hiệu tiếng nói tích cực, vì vậy trong khoảng thời gian không tích cực (khoảng lặng) thì kênh có thể được sử dụng cho những mục đích khác, thường dùng để hạn chế hoạt động của máy phát vì vậy tiết kiệm được công suất Một bộ phận quan trọng của DSI là bộ dò hoạt động thoại VAD (Voice Activity Detector) với chức năng đảm bảo tín hiệu thoại không bị nhầm với khoảng lặng và ngược lại Rõ ràng là lỗi nhầm khoảng lặng với tiếng nói thì

có thể chấp nhận được, nhưng điều ngược lại thì sẽ gây khó chịu

2.3.5 Ghép nối và chuyển mã

Với các ứng dụng cuối-đến-cuối (end-to-end) mà kết nối phải qua nhiều trung gian thì chất lượng tiếng nói rất quan trọng đối với người dùng cuối

(end user), một yếu tố quan trọng của thuật toán là khả năng khi hệ thống kết

nối với chính nó hoặc với các hệ thống mã hóa khác Sự suy giảm qua các kết nối thường có tính tích lũy, nếu thuật toán phụ thuộc nhiều vào các yếu tố kết nối này thì có thể gây ra nhiều suy giảm nghiêm trọng Để khắc phục trong những trường hợp này chưa có phương pháp nào thực sự hiệu quả, thường sử dụng thêm một bộ lọc phía sau để lọc tín hiệu tiếng nói đầu ra Chuyển mã sang một dạng khác (thường là PCM) cũng gây suy giảm chất lượng và tăng chi phí thực hiện

2.3.6 Xử lý dữ liệu dải tần tiếng nói

Khi các kết nối truyền tiếng nói dùng trong truyền dẫn các dạng tín hiệu số khác ví dụ như modem, fax thì một yêu cầu quan trọng của thuật toán là tính năng truyền dữ liệu trên dải tần tiếng nói Các đặc điểm thống kê của dạng sóng và phổ tần số của dữ liệu dải tần tiếng nói không giống với tín hiệu thoại

vì vậy thuật toán phải tương thích với cả hai dạng Việc tính đến sự tương thích với dữ liệu dải tần tiếng nói thường được để lại đến giai đoạn cuối trong giai đoạn phát triển thuật toán, thường xảy ra lỗi trong các hệ thống mạng công cộng, khi người dùng cuối cần truyền những dữ liệu không phải là tiếng nói Hầu hết những bộ mã hóa tiếng nói tốc độ thập đều không thể xử lý các

dữ liệu này, vì được thiết kế chỉ giành cho tiếng nói Để khắc phục điều này, thường phải sử dụng các giải pháp khác Một trong số đó là phát hiện các dữ

Trang 22

liệu trên dải tần tiếng nói và sử dụng một giao diện để có thể bỏ qua các bộ

mã hóa và giải mã

2.4 Các chuẩn mã hóa tiếng nói

Việc tiêu chuẩn hóa để định ra các chuẩn là rất thiết yếu để giải quyết những vấn đề về tính tương thích và phù hợp giữa các hệ thống, thiết bị của những nhà sản xuất khác nhau Việc định chuẩn cho phép những thiết bị mã hóa tiếng nói của hãng này có thể làm việc với các thiết bị, hệ thống của hãng khác Trong phần này sẽ trình bày về các chuẩn mã hóa được phát triển cho những hệ thống thông tin cụ thể

2.4.1 Chuẩn mã hóa của ITU-T

Liên minh viễn thông quốc tế bộ phận chuẩn hóa về viễn thông ITU-T (tiền thân là CCITT) đã chuẩn hóa các phương pháp mã hóa chủ yếu cho điện thoại PSTN với băng thông đầu vào 3,4kHz và tần số lấy mẫu 8kHz, với định hướng tăng dung lượng mạng viễn thông bằng các mạch ghép kênh số Ngoài

ra ITU-T có những hướng dẫn cho các bộ mã hóa tiếng nói băng rộng để hỗ trợ băng thông tín hiệu tiếng nói đầu vào 7kHz với tần số lấy mẫu 16kHz, chủ yếu cho các ứng dụng ISDN

Chuẩn mã hóa Tốc độ

(kb/s)

Bộ dò thoại VAD

Triệt nhiễu

Trễ (ms) Chất lượng Năm G.711 (Luật A/W

PCM) 64 Không Không 0 Thực 1972G.726 (ADPCM) 40/32/24/16 Không Không 0,25 Thực 1990 G.728 (LD-CELP) 16 Không Không 1,25 Thực 1992 G.729 (CSA-CELP) 8 Có Không 25 Thực 1996 G.723.1

Bảng 2.1 Các chuẩn mã hóa tiếng nói băng hẹp của ITU-T

Năm 1972, ITU-T đưa ra chuẩn G.711, là chuẩn PCM luật A/µ cho mã hóa tiếng nói tốc độ 64kb/s được thiết kế dựa trên thang lôga với từng biên độ của xung mẫu trước khi được mã hóa thành 8 bit Là hệ thống điện thoại số đầu

Trang 23

tiên, G.711 được triển khai trong nhiều mạng PTSN trên khắp thế giới Tiếp theo đó ITU-T đã tăng cường tập trung vào chuẩn hóa những phương pháp

mã hóa phức tạp hơn, như họ G.72x ITU-T đã ban hành chuẩn G.721 là chuẩn điều chế xung mã vi sai thích nghi ADPCM tốc độ 32kb/s, theo sau đó

là các phiên bản mở rộng (40/32/24/16 kb/s), G.726 Phiên bản ADPCM mới nhất là G.726 để thay thế các phiên bản trước Mỗi chuẩn mã hóa của ITU-T ngoại trừ G.723.1 đều đuợc phát triển với mục tiêu giảm đi một nửa tốc độ bit với các chuẩn trước Ví dụ chuẩn mã hóa tiếng nói G.728 và G.728 hoàn thành vào năm 1992 và 1996 được khuyến nghị với tốc độ lần lượt là 16kb/s

và 8kb/s Ngoài ra ITU-T còn ban hành chuẩn G.723.1 mã hóa với 2 tốc độ 5,3/6,3 kb/s cho các hệ thống điện thoại truyền hình Các chuẩn G.728, G.729

và G.723.1 đều có nguyên lý dựa trên kỹ thuật dự đoán tuyến tính kích thích bằng mã CELP Với truyền dẫn không liên tục DTX (Discontinuous Transsmission), ITU-T ban hành 2 phiên bản mở rộng của G.729 và G.723.1 lần lượt là G.729B và G.723.1A Chúng được sử dụng rộng rãi trong thông tin dùng chuyển mạch gói dùng các phương pháp nén tín hiệu Mới hơn nữa xuất hiện các chuẩn hoạt động với tốc độ 4kb/s Hiện nay có 2 bộ mã hóa là ứng cử cho chuẩn này, một bộ mã hóa dựa trên mô hình CELP và một là bộ mã hóa lai giữa mô hình CELP và nguyên lý mã hóa tiếng nói dạng sin Các chuẩn

mã hóa tiếng nói băng hẹp của ITU-T được tóm tắt trên bảng 2.1

Ngoài các chuẩn băng hẹp, ITU-T còn ban hành hai chuẩn mã hóa băng rộng là G.722 và G.722.1 chủ yếu giành cho truyền thông đa phương tiện đòi hỏi chất lượng âm thanh cao G.722 hỗ trợ 3 tốc độ 64, 56 và 48 kb/s dựa trên

kỹ thuật ADPCM băng con (SB-ADPCM) Kỹ thuật này sử dụng bộ lọc gương cầu phương chia tín hiệu vào thành dải cao và dải thấp, sau đó tín hiệu sau lọc thông dải được lượng tử hóa sử dụng ADPCM với bước lượng tử biến đổi tùy thuộc vào dải con Chuẩn G.722.1 hoạt động với tốc độ 32 và 24 kb/s dựa trên kỹ thuật biến đổi Hiện nay, một bộ mã hóa băng rộng mới với tốc độ 13/16/20/24 kb/s đang được tiêu chuẩn hóa

2.4.2 Chuẩn điện thoại số celluar châu Âu

Với sự xuất hiện và phát triển của điện thoại di động số, có nhiều chuẩn đã được viện tiêu chuẩn viễn thông châu Âu ETSI (European

Trang 24

Telecommunications Standards Institute) đưa ra Chuẩn đầu tiên được ETSI ban hành là bộ mã hóa GSM toàn tốc FR (Full-Rate) làm việc với tốc độ 13kb/s Sau đó ETSI đưa ra chuẩn GSM bán tốc HR (Half-Rate) 5,6kb/s và GSM tốc độ đầy đủ tăng cường EFR (Enhanced Full-Rate) 12,2kb/s Tiếp theo đó ETSI đưa ra một chuẩn mã hóa mới, gọi là mã hóa đa tốc độ thích nghi AMR (Adaptive Multi-Rate), hoạt động với 8 tốc độ từ 12,2 đến 4,75kb/s (4 tốc độ cho kênh toàn tốc và 4 tốc độ cho kênh bán tốc) Bộ mã hóa AMR đưa ra với mục đích cung cấp chất lượng tiếng nói tốt hơn bằng cách chọn lựa tối ưu giữa phương pháp (và tốc độ) mã nguồn và mã kênh Với môi trường nhiễu vô tuyến cao, AMR sẽ phân phối cho mã kênh (mã sửa lỗi) nhiều bit hơn đồng thời giảm tốc độ mã nguồn và ngược lại

Các chuẩn mã hóa của ETSI còn có khả năng nén các khoảng lặng (thời gian không đàm thoại) sử dụng các bộ dò hoạt động thoại VAD (Voice Activity Detection), nhờ đó có thể giảm được nhiễu vô tuyến và tiết kiệm được năng lượng cho các máy di động Các chuẩn mã hóa cho truyền thông di động châu Âu được tổng kết trên bảng 2.2

Chuẩn mã hóa Tốc độ (kb/s) Bộ dò

thoại VAD

Triệt nhiễu

Trễ (ms)

Chất lượng Năm

FR (RPE-LTP) 13 Có Không 40 Gần thực 1987

HR (VSELP) 5,6 Có Không 45 Gần thực 1994 EFR (ACELP) 12,2 Có Không 40 Thực 1998 AMR

(ACELP)

12,2/10,2/7,95 7,4/6,7/5,9/5,15/4,75

Có Không 40/45 Thực

1999

Bảng 2.2 Các chuẩn mã hóa của ETSI cho truyền thông di động GSM

2.4.3 Chuẩn điện thoại số Bắc Mỹ

Tại Bắc Mỹ, hiệp hội công nghiệp viễn thông TIA (Telecommunication Industries Association) thuộc hiệp hội công nghiệp điện tử EIA (Electronic Industries Association) đưa ra các chuẩn thông tin di động dựa trên kỹ thuật

đa truy nhập phân chia theo mã CDMA và đa truy nhập phân chia theo thời gian TDMA được sử dụng tại Mỹ TIA/EIA đã chọn kỹ thuật CELP của Qualcomm (QCELP) cho chuẩn IS-96-A (Interim Standard-96-A), hoạt động với tốc độ biến đổi trong khoảng 8kb/s và 0,8kb/s được điều khiển bởi một

Trang 25

thuật toán lựa chọn tốc độ Sau đó, TIA/EIA ban hành chuẩn IS-127 là bộ mã hóa tốc độ biến đổi cải tiến, có chức năng mới là giảm tạp âm (triệt nhiễu) tại

bộ tiền xử lý trong module nén tiếng nói Trong điều kiện có nhiều tạp âm nền, bộ triệt nhiễu sẽ cho chất lượng tiếng nói tốt hơn Với những hệ thống thông tin cá nhân, TIA/EIA ban hành chuẩn IS-733 hoạt động với tốc độ biến đổi giữa 14,4 và 1,8kb/s Đối với các chuẩn TDMA bắc Mỹ, TIA/EIA ban hành chuẩn IS-54 và IS-641-A lần lượt cho mã hóa tiếng nói toàn tốc và toàn tốc tăng cường Các chuẩn mã hóa cho thông tin di động Nam Mỹ được tóm tắt trên bảng 2.3

Chuẩn mã hóa Tốc độ (kb/s) Bộ dò

thoại VAD

Triệt nhiễu

Trễ (ms)

Chất lượng NămIS-96-A(QCELP) 8,5/4/2/0,8 Có Không 45 Gần thực 1993 IS-127(EVRC) 8,5/4/2/0,8 Có Có 45 Thực 1995 IS-733(QCELP) 14,4/7,2/3,6/1,8 Có Không 45 Thực 1998 IS-54(VSELP) 7,95 Có Không 45 Gần thực 1989 IS-641-A(ACELP) 7,4 Có Không 45 Thực 1996

Bảng 2.3 Các chuẩn mã hóa của TIA/EIA cho thông tin di động CDMA/TDMA của Mỹ

2.4.4 Điện thoại bảo mật (Chuẩn của bộ quốc phòng Mỹ)

Mã hóa tiếng nói là một trong những thành phần chủ yếu của một hệ thống điện thoại an toàn và bảo mật, khi mà các lệnh bằng giọng nói truyền đi phải đảm bảo bên nhận hiểu ngay được trong trường hợp khẩn cấp

Chuẩn mã hóa

Tốc

độ (kb/s)

Bộ dò thoại VAD

Triệt nhiễu

Trễ (ms) Chất lượng Năm FS-1015(LPC-10e) 2,4 Không Không 115 Nghe hiểu 1984 FS-1016(CELP) 4,8 Không Không 67,5 Trung bình 1991 DoD 2,4 (MELP) 2,4 Không Không 67,5 Trung bình 1996 STANAG (NATO)

2,4/1,2 (MELP) 2,4/1,2 Không Có >67,5 Trung bình 2001

Bảng 2.4 Các chuẩn mã hóa của DoD (Bộ quốc phòng Mỹ)

Việc chuẩn hóa chủ yếu do bộ quốc phòng Mỹ DoD (Department of Defence) đảm nhận DoD đã ban hành chuẩn FS-1015 (Federal Standard-

Trang 26

1015) và FS-1016, lần lượt được gọi là các bộ mã hóa LPC-10e 2,4kb/s và

CELP 4,8kb/s Sau đó DoD ban hành thêm chuẩn mã hóa với tốc độ 2,4kb/s

dựa trên bộ vocoder dự đoán tuyến tính kích thích hỗn hợp MELP (Mixed

Excitation Linear Prediction) dùng mô hình mã hóa tiếng nói dạng sin Chuẩn

mã hóa DoD MELP 2,4kb/s cho chất lượng tiếng nói tốt hơn chuẩn FS-1016

4,8kb/s bán tốc Trong khi đó NATO đã lựa chọn sử dụng một phiên bản cải

tiến của chuẩn mã hóa này làm việc với cả 2 tốc độ 2,4 và 1,2kb/s có sử dụng

bộ tiền xử lý tạp âm Các bộ mã hóa theo tham số như MELP được sử dụng

rộng rãi trong thông tin bảo mật vì chúng có tốc độ rất thấp mà chất lượng

tiếng nói nghe hiểu được Các chuẩn mã hóa của bộ quốc phòng Mỹ được tóm

tắt trên bảng 2.4

2.4.5 Điện thoại vệ tinh

Tập đoàn vệ tinh hàng hải quốc tế (INMARSAT) thông qua 2 chuẩn mã

hóa tiếng nói cho thông tin vệ tinh INMARSAT lựa chọn kỹ thuật kích thích

đa băng cải tiến IMBE (Improved MultiBand Excitation) tốc độ 4,15kb/s cho

hệ thống INMARSAT M và kỹ thuật kích thích đa băng cải tiến AMBE

(Advanced MultiBand Excitation) tốc độ 3,6kb/s cho hệ thống INMARSAT

Mini-M (bảng 2.5)

Chuẩn mã hóa Tốc độ

(kb/s)

Bộ dò thoại VAD

Triệt nhiễu

Trễ (ms) Chất lượng Năm IMBE 4,15 Không Không 120 Trung bình 1990 AMBE 3,6 Không Không - - -

Bảng 2.5 Các chuẩn mã hóa tiếng nói INMARSAT

2.4.6 Đánh giá chất lượng các bộ mã hóa

Để lựa chọn bộ mã hóa tốt nhất cho một ứng dụng cụ thể thường phải trải

qua một quá trình thử và kiểm tra toàn diện trong các điều kiện khác nhau

Nhìn chung, các bộ mã hóa có tốc độ bit thấp sẽ cho tiếng nói có chất lượng

thấp Để đánh giá chất lượng tiếng nói, tỷ số tín hiệu tạp âm SNR được dùng

với nhũng bộ mã hóa dạng sóng, thường với tốc độ bit trên 16kb/s Với nhưng

bộ mã hóa tham số tốc độ bit thấp không bảo toàn dạng sóng, ta không thể

Trang 27

dùng tỷ số SNR để đánh giá chất lượng Để đánh giá chất lượng tiếng nói của các bộ mã hóa theo tham số người ta thường dùng những phương pháp đo lường chủ quan Một trong những phương pháp đánh giá chất lượng chủ quan được sử dụng rộng rãi là dùng thang điểm số trung bình MOS (Mean Opinion Score) như trong bảng 2.6

Điểm MOS Đánh giá chủ quan Chất lượng

5 Rất tốt Không cảm thấy gì Trong suốt (Transparent)

4 Tốt Cảm thấy nhưng không khó chịu Thực (Toll)

3 Trung bình Hơi khó nghe Trung bình (Communication)

2 Kém Khó nghe Không thật (Synthetic)

1 Tồi Rất khó nghe Tồi

Bảng 2.6 Thang điểm đánh giá trung bình MOS

Bảng 2.7 so sánh một số chuẩn mã hóa thông dụng về các khía cạnh tốc độ bit, trễ thuật toán và điểm số chất lượng trung bình MOS Còn hình 2.2 là biểu

đồ của các chuẩn này với trục ngang là tốc độ bit và trục dọc là chất lượng tiếng nói theo điểm MOS

Hình 2.2 Chất lượng tiếng nói của các chuẩn mã hóa (Điểm MOS từ 2-5)

PCM tuyến tính G.711 G.726

G.728 G.729

ITU 4

FS1015

FS1016 In-M

Trang 28

Ta thấy PCM tuyến tính tốc độ 128kb/s cho chất lượng tốt nhất gọi là

"trong suốt" và với phiên bản dùng luật nén giãn A dùng 8 bit mã hóa 1 mẫu (64kb/s) (cung cấp chuẩn băng hẹp có chất lượng tốt nhất) là có điểm MOS trên 4 (chất lượng thực) Để đánh giá điểm MOS cho một bộ mã hóa nào đó phải thực hiện quá trình kiểm tra đánh giá, nghe thử tổng thể trong nhiều điều kiện khác nhau ITU đã chuẩn hóa các phương pháp kiểm tra đánh giá chất lượng trên, gần đây nhất là chuẩn đánh giá chất lượng tiếng nói P.862 trong

đó có các phương pháp đo lường, đánh giá chất lượng tiếng nói

Chuẩn Năm Thuật toán Tốc độ bit

(kb/s)

Điểm MOS Trễ (ms) G.711 1972 Nén giãn - PCM 64 4,3 0,125

G.726 1991 VBR-ADPCM 16/24/32/40 thực 0,125 G.728 1994 LD-CELP 16 4 0,625 G.729 1995 CS-ACELP 8 4 15 G.723.1 1995 A/MP-MLQ CELP 5,3/6,3 thực 37,5

GSM FR 1989 RPE-LTP 13 3,7 20

GSM EFR 1995 ACELP 12,2 4 20

GSM/2 1994 VSELP 5,6 3,5 24,375 IS54 1989 VSELP 7,95 3,6 20 IS96 1993 Q-CELP 0,8/2/4/8,5 3,5 20 JDC 1990 VSELP 6,7 T.Bình 20 JDC/2 1993 PSI-CELP 3,45 T.Bình 40 Inmarsat-M 1990 IMBE 4,15 3,4 78,75 FS1015 1984 LPC-10 2,4 ko thực 112,5 FS1016 1991 CELP 4,8 3 37,5

FS 2.4 mới 1997 MELP 2,4 3 45,5

Bảng 2.7 So sánh các chuẩn mã hóa tiếng nói

Trang 29

CHƯƠNG 3 PHÂN TÍCH TÍN HIỆU TIẾNG NÓI BẰNG

PHƯƠNG PHÁP DỰ ĐOÁN TUYẾN TÍNH

3.1 Giới thiệu

Tín hiệu tiếng nói đã được rất nhiều nhà khoa học nghiên cứu cho nhiều mục đích và ứng dụng khác nhau trong nhiều năm Các nghiên cứu đã phân tích (phân nhỏ) tín hiệu thoại thành nhiều thành phần nhỏ, gọi là các âm vị (phoneme) Tuy nhiên chúng ta sẽ mô tả tín hiệu thoại dưới dạng những đặc điểm chung nhất Những bộ mã hóa nguồn (vocoder) truyền thống mà đã được sử dụng trong nhiều năm trước phân chia tín hiệu thoại đầu vào thành hai loại là âm hữu thanh (voiced) và âm vô thanh (unvoiced) Một đoạn tiếng nói hữu thanh được phân biệt do chứa đựng năng lượng tương đối cao, nhưng quan trọng hơn chúng tuần hoàn và có chu kỳ Còn thành phần vô thanh giống như tạp âm không có tính chu kỳ Tuy nhiên có một số thành phần của tín hiệu tiếng nói không phải là vô thanh cũng không phải hữu thanh mà là hỗn hợp của cả 2 loại Vùng này được gọi là miền quá độ, nơi chuyển tiếp giữa từ

vô thanh sang hữu thanh và ngược lại Đồ thị biên độ thời gian của một đoạn tín hiệu vô thanh và hữu thanh được biểu diễn trên hình 3.1

Hình 3.1 Dạng sóng của tín hiệu tiếng nói hữu thanh và vô thanh

Trang 30

Trong nhiều kỹ thuật mã hóa, cần xét đến miền tần số biểu diễn tín hiệu thoại và phép biến đổi Fourier thời gian ngắn rất hay được sử dụng Phép biến đổi phổ thời gian ngắn còn quan trọng trong việc xác định những đặc trưng của một đoạn tín hiệu thoại mà miền thời gian không khảo sát được

3.2 Phân tích phổ thời gian ngắn

3.2.1 Biến đổi Fourier thời gian ngắn

Phép biến đổi Fourier thời gian ngắn đóng một vai trò cơ bản trong việc phân tích tín hiệu tiếng nói trong miền tần số Nó được dùng để mô tả trong miền tần số những đặc tính thay đổi theo thời gian của dạng sóng của tín hiệu Biến đổi Fourier thời gian ngắn (còn gọi là biến đổi Fourier phụ thuộc thời gian) được định nghĩa như sau:

( j ) ( ) ( ) j n k

n

S eω ∞ w k n s n e− ω

=−∞

Trong đó w(k n) là cửa sổ thực dùng để giới hạn một đoạn tín hiệu vào

để phân tích tại một thời điểm nhất định k Trong quá trình phân tích tín hiệu

tiếng nói, hình dáng và độ dài của cửa sổ có thể tác động đến biểu diễn của tín hiệu thoại sau biến đổi (hoặc những tín hiệu khác) Nhiều loại cửa sổ đã được nghiên cứu với nhiều hình dáng và đặc điểm thích hợp cho các ứng dụng khác nhau Dưới đây là mô tả sơ qua về các dạng cửa sổ và hiệu quả của nó với biến đổi Fourier thời gian ngắn

3.2.2 Vai trò của cửa sổ

Cửa sổ w(n) xác định một phần của tín hiệu tiếng nói để xử lý bằng cách

đưa về 0 phần tín hiệu bên ngoài miền xử lý Đáp ứng tần số lý tưởng của cửa

sổ sẽ có một búp sóng chính rất hẹp để có thể tăng độ phân giải và không có

búp phụ (búp phụ cao gây ra hiện tượng rò tần số, là khi phân tích trong miền tần số bị mất đi một số tần số khiến phổ tín hiệu bị biến đổi nhiều, không trơn) Tuy nhiên trên thực tế không thể có những cửa số như vậy, và tùy theo

những ứng dụng người ta sử dụng những cửa sổ khác nhau Có nhiều loại cửa

sổ như chữ nhật, Hanning, Hamming, Blackman, Kaiser , được định nghĩa như sau:

Trang 32

Hình 3.2 Các loại cửa sổ trong miền thời gian

Hình 3.3 Đáp ứng tần số của các loại cửa sổ

Trên hình 3.2 và 3.3 là biểu diễn của các loại cửa sổ trong miền thời gian

và tần số Có thể thấy trên hình 3.3, cửa sổ chữ nhật có phân giải tần số lớn nhất bởi vì có búp trung tâm hẹp nhất nhưng lại có độ rò tần số cao nhất (búp

-20 -40 -60 -80 -100

-20 -40 -60 -80 -100

-20 -40 -60 -80 -100

Trang 33

phụ cao nhất) Mặt khác cửa sổ Blackman có dộ phân giải thấp nhất và độ rò tần số nhỏ nhất Ta sẽ khảo sát về sự tác động của các cửa sổ này đến kết quả của biến đổi Fourier thời gian ngắn đối với tín hiệu tiếng nói với 2 loại cửa sổ tiêu biểu, ví dụ cửa sổ chữ nhật và cửa sổ Hamming

Hình 3.4 Tác động của các loại cửa sổ lên tín hiệu tiếng nói hữu thanh (cửa sổ gồm 220 mẫu (27,5ms)) (a) và (b) là đồ thị miền thời gian và tần số của tín hiệu khi sử dụng cửa

sổ chữ nhật, (c) và (d) là đồ thị miền thời gian và tần số khi dùng cửa sổ Hamming

Tác động của cửa sổ chữ nhật và cửa sổ Hamming trong phân tích phổ tín hiệu tiếng nói được biểu diễn trên các hình 3.4, 3.5 và 3.6, trên mỗi hình đồ

thị (a) biểu diễn tín hiệu cửa sổ s(n)w(k−n) sử dụng cửa sổ chữ nhật và đồ thị (b) biểu thị độ lớn theo dB của phổ tín hiệu S k(ω) Và tương tự đồ thị (c) và (d) miêu tả tín hiệu cửa sổ sử dụng cửa sổ Hamming và độ lớn của phổ theo loga tương ứng Trên hình 3.4 là kết quả của một cửa sổ với 220 mẫu (27,5

ms với tốc độ lấy mẫu 8kHz) cho một đoạn tín hiệu hữu thanh Ta có thể thấy

Đường bao phổ tín hiệu gốc

Trang 34

sự tuần hoàn của tín hiệu một cách rõ ràng trên hình 3.4(b) và 3.4(d) Tuy nhiên đỉnh của các hài (harmonic peaks) tại bội số của tần số cơ bản sẽ hẹp hơn và nhọn hơn đối với cửa sổ chữ nhật Ngoài ra dễ nhận thấy trên hình 3.4(b) và 3.4(d) là cấu trúc formant (đỉnh) bao gồm một đỉnh lớn nhất đầu tiên tại tần số 50Hz và 3 đỉnh xa hơn tại 1350Hz, 2300Hz và 3400Hz, xu hướng biên độ giảm dần tại các tần số cao hơn do tính thông thấp tự nhiên của xung thanh môn

Hình 3.5 Tác động của các loại cửa sổ đến tín hiệu tiếng nói vô thanh với chiều dài cửa

sổ 220 mẫu (a) và (b) cửa sổ chữ nhật, (c) và (d) cửa sổ Hamming

Mặc dù trên hình 3.4(b) và 3.4(d) cho ta thấy sự giống nhau đáng kể về mặt chu kỳ các hài (pitch harmonic), cấu trúc các đỉnh (formant) và hình dáng phổ nhưng các đỉnh tại hình (b) nhọn hơn trong hình (d) bởi vì độ phân giải tần số của cửa sổ chữ nhật lớn hơn cửa sổ Hamming Tuy nhiên vì độ rò tần

số cao hơn do búp phụ cao hơn cho nên tín hiệu được phân tích với cửa sổ chữ nhật trông như có nhiều tạp âm hơn (bị mất tần số so với phân tích bằng

Trang 35

cửa sổ Hamming) gây khó khăn trong quá trình phân tích phổ Chính vì vậy nên cửa sổ chữ nhật thường không được sử dụng trong phân tích phổ tiếng nói

Tác động của cửa sổ đối với tín hiệu tiếng nói vô thanh được biểu diễn trên hình 3.5 Một lần nữa phổ biến đổi chậm với các đỉnh nhọn Phổ tín hiệu ứng với cả 2 cửa sổ đều có nhiều tạp âm tuy nhiên đó là do tính ngẫu nhiên tự nhiên của âm vô thanh Mặc dù bản thân tín hiệu là ngẫu nhiên nhưng một lần nữa cửa sổ Hamming tạo ra phổ trơn hơn cửa sổ chữ nhật

Để thấy được hiệu ứng tác động của cửa sổ với độ dài khác nhau chúng ta

so sánh với hình 3.6 với một khối tín hiệu hữu thanh chỉ gồm 40 mẫu (5ms)

Trong trường hợp này miền thời gian của tiếng nói s(n)w(k−n) biểu diễn trên

hình 3.6(a) và (c) không cho ta thấy tính chu kỳ của tín hiệu Điều đó cũng đúng với phổ tín hiệu trên hình 3.6(b) và (d) Khi so sánh với hình 3.4 ta thấy phổ trên hình 3.6 chỉ có vài đỉnh ở các tần số 500, 1350, 2300 và 3400 Hz tương ứng với cấu trúc các đỉnh (formant) chứa trong cửa sổ

Ta vẫn thấy tác động của cửa sổ chữ nhật và cửa sổ Hamming qua phổ tín hiệu trên hình 3.6(b) và (d) Nếu các cửa sổ với chiều dài 5ms đặt tại đoạn đầu

và đoạn cuối của khoảng 27,5ms, chúng sẽ cho kết quả là phổ tín hiệu với các đặc trưng khác nhau Bởi vậy để có độ phân giải thời gian tốt ta cần một cửa

sổ ngắn, và để có độ phân giải tần số của tín hiệu tốt thì ta cần một cửa sổ dài

hơn (búp chính hẹp hơn) Ta thấy việc lựa chọn chiều dài cửa sổ N cũng là điều cần phải cân nhắc, nếu tăng chiều dài N đơn thuần làm giảm băng thông (búp chính) Nếu N nhỏ, khoảng 30 mẫu thì năng lượng thời gian ngắn sẽ thay đổi rất nhanh Mặt khác, nếu N quá lớn (dài khoảng vài chu kỳ), năng lượng

thời gian ngắn sẽ luôn đạt giá trị trung bình trong một khoảng dài, do đó sẽ

không phản ánh được hết những biến đổi của tín hiệu tiếng nói Từ đó dẫn đến khó có thể chọn giá trị N nào thỏa đáng bởi chiều dài của một chu kỳ thay

đổi từ khoảng 16 mẫu với phụ nữ hoặc trẻ em (tần số cao) và khoảng 150 mẫu đối với người đàn ông giọng trầm (tần số thấp) Bởi vậy trên thực tế người ta

chọn một giá trị thích hợp cho N khoảng từ 120 đến 240 mẫu (khoảng 15 đến 30ms)

Trang 36

Hình 3.6 Tác động của cửa sổ (dài 40 mẫu (5ms)) lên tín hiệu hữu thanh

(a) và (b) là đồ thị miền thời gian và tần số của tín hiệu khi sử dụng cửa sổ chữ nhật,

(c) và (d) là đồ thị miền thời gian và tần số khi dùng cửa sổ Hamming

Kích thước cửa sổ còn được xác định bởi những lý do thực tế khác Đó là khi tiếng nói được phân tích, một vài dạng thông số được lấy ra cho việc truyền dẫn, điều đó yêu cầu một tốc độ bit cao hơn cho một cửa sổ kích thước nhỏ hơn (tốc độ cập nhật nhanh hơn) Thêm vào đó trong quá trình phân tích tiếng nói cần thiết có một cửa sổ với độ dài có thể biểu diễn cấu trúc các formant (đỉnh) một cách chính xác và toàn diện (nghĩa là phải nhiều hơn 1 hoặc 2 chu kỳ trong mỗi cửa sổ)

3.3 Mô hình dự đoán tuyến tính tín hiệu tiếng nói

Một trong những phương thức phân tích tiếng nói hiệu quả nhất là mã hóa

dự đoán tuyến tính LPC (Linear Predictive Coding) hay phân tích LPC Trong phân tích LPC sự liên kết giữa các mẫu tín hiệu tiếng nói gần kề nhau được

mô hình hóa và loại bỏ bởi một bộ lọc biến đổi (theo thời gian) Liên quan

Trang 37

đến kỹ thuật này, một kỹ thuật khác cũng rất quan trọng là dự đoán chu kỳ (pitch) hay tần số cơ bản của tín hiệu Trong kỹ thuật này, sự tương quan dài (sự liên kết của các mẫu nằm xa nhau) của các mẫu tín hiệu được mô hình hóa Sau đây sẽ trình bày về những kỹ thuật dự đoán tuyến tính này

3.3.1 Mô hình bộ máy phát âm

Hình 3.7 Mô hình phát âm (tạo tiếng nói)

Trước khi lấy ra các thông số từ tín hiệu tiếng nói, chúng ta cần có một mô hình lý thuyết cho việc phân tích Trong xử lý tiếng nói, bộ máy phát âm tạo

ra tiếng nói được coi như một bộ lọc nguồn âm được dùng làm phương tiện để phân tích tiếng nói Hình 3.7 là một sơ đồ khối đơn giản Với mô hình này, tín hiệu đầu vào (hay tín hiệu kích thích) được mô hình hóa thành 2 nguồn là chuỗi xung kích thích đối với tiếng nói hữu thanh và nguồn tạp âm ngẫu nhiên với tiếng nói vô thanh Sự kết hợp của sự phát xạ ngẫu nhiên, ống dẫn thanh

và sự phát xung thanh môn được biểu diễn bởi một bộ lọc biến đổi (theo thời gian) có hàm truyền đạt như sau:

1

1

1( )

Ta thấy hàm truyền đạt bao gồm các điểm cực và điểm không Tuy nhiên

nếu bậc của mẫu số đủ lớn, H(Z) có thể xấp xỉ bởi một mô hình toàn điểm

không, như sau:

Các hệ số mô hình (LPC)

Trang 38

Phương trình (3.9) cũng là một phương trình dự đoán tuyến tính thông

dụng, tín hiệu đầu ra hiện tại s(n) được xác định bằng tổng của trọng số của kích thích vào hiện tại G.x(n) và tổng trọng số của các tín hiệu ra trước đó Vì

vậy với phân tích dự đoán tuyến tính, ta sẽ thực hiện như sau : dựa vào tín

hiệu s(n) tính toán xác định các tham số a j ( j = 1, ,p ) Những tham số thu được sẽ là những tham số của mô hình hệ thống với hàm truyền đạt H(z)

Nếu αi biểu diễn giá trị đánh giá của a i, thì sai số được tính như sau:

thể được viết lại thành :

1

( ) ( ) ( ) ( )

p j j

Trang 39

Trong đó φn( , )i j =E s n i s n j{ ( − ) ( − )} (3.14)

Ta thấy để phương trình (3.13) đúng thì phải có giả thiết tín hiệu của mô hình phải là tín hiệu dừng Nhưng với tín hiệu tiếng nói thì điều này sẽ không đúng khi xét một đoạn dài Tuy nhiên với một đoạn ngắn các mẫu tín hiệu thì

ta có thể coi là tín hiệu dừng Khi đó kỳ vọng ở phương trình (3.14) sẽ được thay thế bởi tổng của một số hữu hạn các mẫu trong một đoạn tín hiệu nhỏ Việc chọn độ dài của tín hiệu để khảo sát ra sao chúng ta sẽ xét trong những phần sau

Trong phần này, phương trình phân tích dự đoán tuyến tính được xây dựng

từ cách tiếp cận cực tiểu hóa bình phương trung bình Ngoài ra còn có phương pháp tiếp cận khác là phương pháp xấp xỉ cực đại (Maximum Likelihood) và một số phương pháp khác Ngoài ứng dụng trong xử lý tiếng nói, LPC ngoài

ra còn được ứng dụng trong các lĩnh vực rộng hơn như điều khiển và Radar Tuy nhiên trong xử lý tiếng nói, phân tích dự đoán tuyến tính có thể nói là thành công nhất, nó có thể biểu diễn chính xác tín hiệu tiếng nói với một bộ tham số nhỏ

3.3.2 Xác định hệ số của mô hình LPC

Như đã đề cập ở phần trước, với mô hình biến đổi theo thời gian tự nhiên của tín hiệu thoại Để có thể dùng phương pháp phân tích dự đoán tuyến tính (LPC) áp dụng với tín hiệu dừng, ta phải giới hạn tín hiệu thành phân tích từng đoạn ngắn Điều đó thực hiện bằng cách thay thế kỳ vọng trong phương trình (3.13) bằng tổng các đoạn giới hạn Nghĩa là:

a Phương pháp tự tương quan AM (Auto-correlation Method)

Với giả thiết tín hiệu sn (m) là một cửa sổ và sẽ bằng 0 nếu m nằm ngoài

khoảng 0≤ ≤ −m N 1, với N là chiều dài của chuỗi mẫu Chúng ta thực hiện dự

Trang 40

đoán các mẫu giá trị 0 trong khoảng N m N p≤ ≤ + (các mẫu thực chất có giá trị khác 0) và sai số dự đoán ở đây sẽ là giá trị khác 0 Tương tự, phần đầu của khung hiện tại luôn chịu tác động của những sai số xảy ra ở những khung trước Phương trình (3.15) có thể giới hạn lại:

1 0

M

L

(3.21)

Ma trận vuông p × p trong biểu thức trên là ma trận đối xứng qua đường

chéo chính, và các phần tử trên đường chéo chính đều bằng nhau, người ta gọi

là ma trận Toeplitz Phương trình (3.20) có thể giải bằng cách lấy nghịch đảo

ma trận vuông p × p trên tuy nhiên phương pháp này ít được sử dụng vì có

nhiều sai số trong tính toán như từ sự giới hạn về độ chính xác dẫn đến sai số tích lũy Bằng cách khai thác các đặc điểm của ma trận Toeplitz, nhiều thuật toán đệ quy hiệu quả đã được đưa ra Phương pháp thông dụng nhất là thuật

Ngày đăng: 22/07/2017, 23:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Quốc Trung (2002), Xử lý tín hiệu và lọc số, NXB KHKT, Hà Nội Sách, tạp chí
Tiêu đề: Xử lý tín hiệu và lọc số
Tác giả: Nguyễn Quốc Trung
Nhà XB: NXB KHKT
Năm: 2002
2. A. M. Kondoz (1994), Digital Speech, John Wiley &amp; Son Sách, tạp chí
Tiêu đề: Digital Speech
Tác giả: A. M. Kondoz
Năm: 1994
3. Lawrence R. Rabiner, Ronald W.Schafer (1978) , Digital Processing Of Speech Signals, Prentice Hall Sách, tạp chí
Tiêu đề: Digital Processing Of Speech Signals
4. Peter Vary, Rainer Martin (2006), Digital Speech Transmission, John Wiley &amp; Son Sách, tạp chí
Tiêu đề: Digital Speech Transmission
Tác giả: Peter Vary, Rainer Martin
Năm: 2006
5. Sadaoki Furui (2001), Digital Speech Processing, Synthesis, and Recognition, Marcel Dekker Sách, tạp chí
Tiêu đề: Digital Speech Processing, Synthesis, and Recognition
Tác giả: Sadaoki Furui
Năm: 2001
6. Thomas F.Quatieri, Discrete-Time Speech Signal Processing, Prentice Hall, 2002 Sách, tạp chí
Tiêu đề: Discrete-Time Speech Signal Processing
7. Wai C. Chu (2003), Speech Coding Algorithms, John Wiley &amp; Son Sách, tạp chí
Tiêu đề: Speech Coding Algorithms
Tác giả: Wai C. Chu
Năm: 2003

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w