1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận án tiến sĩ Hệ thống thông tin: Tự động nhận dạng tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm

150 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 150
Dung lượng 4,01 MB

Nội dung

Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói cho các vùng phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng của hệ thống nhận dạng và đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu năng nhận dạng.

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Phạm Ngọc Hưng

NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT

Chuyên ngành: Hệ thống thông tin

Mã số: 62480104

LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 PGS.TS Trịnh Văn Loan

2 TS Nguyễn Hồng Quang

Hà Nội - 2017

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là công trình nghiên cứu của riêng tôi Các số liệu, kết quả trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định

TS Nguyễn Hồng Quang

Trang 3

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ Thông tin và Truyền thông, Bộ môn Kỹ thuật máy tính, Bộ môn Hệ thống thông tin đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập tại Trường

Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là PGS.TS Trịnh Văn Loan và TS Nguyễn Hồng Quang Hai Thầy đã luôn tận tình giúp đỡ, đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tôi có thể triển khai

và hoàn thành công việc nghiên cứu của mình

Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống Thông tin, Bộ môn Kỹ thuật máy tính, Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu

Cảm ơn Khoa Công nghệ Thông tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tôi trong suốt quá trình nghiên cứu và hoàn thành luận án này

Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân hữu đã động viên và giúp đỡ tôi trong quá trình nghiên cứu

Cuối cùng tôi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi nuôi dưỡng và là nguồn động lực để tôi vượt mọi trở ngại khó khăn để hoàn thành luận án này

Phạm Ngọc Hưng

Trang 4

MỤC LỤC

MỤC LỤC 4

GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 7

DANH MỤC CÁC BẢNG 10

DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ 12

MỞ ĐẦU 14

1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ 18 1.1 Nhận dạng tiếng nói 18

1.1.1 Tổng quan về nhận dạng tiếng nói 18

1.1.2 Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói 19

1.1.3 Các thách thức đối với nhận dạng tự động tiếng nói 20

1.1.4 Phân loại hệ thống nhận dạng tự động tiếng nói 21

1.2 Nhận dạng phương ngữ 23

1.2.1 Các mô hình nhận dạng phương ngữ 23

1.2.2 Nhận dạng phương ngữ theo các phương diện khác nhau 24

1.3 Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt 29

1.4 Một số mô hình nhận dạng 30

1.4.1 Mô hình GMM 30

1.4.2 Bộ phân lớp SVM 32

1.4.3 Mạng nơ ron nhận tạo 38

1.5 Kết chương 54

2 XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 56

2.1 Tổng quan phương ngữ tiếng Việt 56

2.1.1 Phương ngữ và phân vùng phương ngữ tiếng Việt 56

2.1.2 Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt 57

2.1.3 Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58 2.2 Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt 60

2.2.1 Âm tiết và âm vị trong tiếng Việt 60

2.2.2 Âm đệm và cách kết hợp âm đệm trong các phương ngữ 64

Trang 5

2.3 Phụ âm đầu trong phương ngữ tiếng Việt 65

2.3.1 Hệ thống phụ âm đầu 65

2.3.2 So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam 67

2.4 Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt 67

2.4.1 Hệ thống thanh điệu Hà Nội 68

2.4.2 Hệ thống thanh điệu Nghệ - Tĩnh và Huế 68

2.4.3 Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh 69

2.4.4 Một số nhận xét về hệ thống thanh điệu các phương ngữ 70

2.5 Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói 71

2.6 Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt 71

2.6.1 Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt 72

2.6.2 Chuẩn bị và chuẩn hóa văn bản 73

2.6.3 Ghi âm 75

2.6.4 Kết quả ghi âm và đặc tính VDSPEC 78

2.7 Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC 79

2.7.1 Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ 79

2.7.2 Phân tích thống kê phân bố F0 của các thanh điệu 81

2.7.3 Phân tích dữ liệu dùng LDA 83

2.8 Kết chương 87

3 NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 89

3.1 Nhận dạng phương ngữ tiếng Việt với GMM 89

3.1.1 Công cụ thử nghiệm nhận dạng phương ngữ ALIZE 89

3.1.2 Lựa chọn số lượng hệ số MFCC 91

3.1.3 Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp MFCC với tham số F0 92

3.1.4 Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp formant, dải thông tương ứng và tham số F0 95

3.1.5 Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng phương ngữ tiếng Việt 96

3.2 SVM nhận dạng phương ngữ tiếng Việt 98

3.2.1 Bộ phân lớp SMO 98

Trang 6

3.2.2 Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO 99

3.3 lBk nhận dạng phương ngữ tiếng Việt 103

3.3.1 Bộ phân lớp IBk 103

3.3.2 Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk 106

3.4 Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron 107

3.4.1 Bộ phân lớp MultilayerPerceptron trong Weka 107

3.4.2 MultilayerPerceptron nhận dạng phương ngữ tiếng Việt 107

3.5 JRip nhận dạng phương ngữ tiếng Việt 108

3.5.1 Bộ phân lớp JRip 108

3.5.2 Nhận dạng phương ngữ tiếng Việt với JRip 109

3.6 Nhận dạng phương ngữ tiếng Việt với PART 110

3.6.1 Bộ phân lớp PART 110

3.6.2 Kết quả dùng PART nhận dạng phương ngữ tiếng Việt 110

3.7 Kết chương 110

4 CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ 112

4.1 HMM nhận dạng tiếng Việt nói 112

4.1.1 Mô hình HMM 112

4.1.2 HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính 125

4.2 Cải thiện hiệu năng nhận dạng tiếng Việt nói thông qua sử dụng thông tin phương ngữ 130 4.2.1 Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông tin phương ngữ 130 4.2.2 Nhận dạng tiếng Việt nói khi có thông tin phương ngữ 132

4.3 Kết chương 133

KẾT LUẬN VÀ KIẾN NGHỊ 134

TÀI LIỆU THAM KHẢO 137

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 149

Trang 7

GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Chữ viết tắt Chữ viết đầy đủ Giải thích

AANN Auto-Associative Neural Network

ANN Artificial Neural Network Mạng nơ-ron nhân tạo

ARFF Attribute-Relation File Format Định dạng file tham số đặc trưng

trong Weka ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói

BKSPEC Bach Khoa SPEech Corpus

Bộ ngữ liệu được phát triển tại Bộ môn Kỹ thuật Máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại học Bách khoa Hà Nội

BMMI Boosted Maximum Mutual

Information

Thông tin tương hỗ cực đại tăng cường

CMS Cepstral Mean Subtraction Trừ trung bình Cepstral

CMU SLM

Carnegie Mellon University Statistical Language Modeling Toolkit

Bộ công cụ mô hình hóa ngôn ngữ thống kê của trường Carnegie Mellon

DCF Detection Cost Function Hàm giá phát hiện

DET Detection Error Tradeoff Cân bằng sai số phát hiện

ELRA European Language Resources

EM Expectation Maximization Cực đại hóa kỳ vọng

ERM Empirical Risk Minimization Tối thiểu hóa rủi ro theo kinh

nghiệm

fMPE feature-space Minimum Phone Error

FST Finite-State-Transducer Chuyển trạng thái hữu hạn

GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss

Trang 8

HLDA Heteroscedastic Linear Discriminant

Analysis

Phân tích phân biệt tuyến tính hiệp phương sai không đồng nhất

HTK Hidden Markov Model Toolkit Bộ công cụ mô hình Markov ẩn

gần nhất trong Weka IBL Instance Based Learning Học dựa trên đối tượng

IREP Incremental Reduced Error Pruning

LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính LDC Linguistic Data Consortium Hội đoàn dữ liệu ngôn ngữ

LPC Linear Prediction Coding Mã hóa tiên đoán tuyến tính

MFCC Mel Frequency Cepstral Coefficients Các hệ số Cepstral theo thang đo

NIST National Institute of Standards and

Trang 9

PPR Parallel Phone Recognition

PPRLM Parallel Phone Recognition followed

by Language Modeling

PRLM Phone Recognition followed by

Language Modeling

RIPPER Repeated Incremental Pruning to

Produce Error Reduction

SAT Speaker Adaptive Training Huấn luyện thích nghi người nói SBS Sequential Backward Selection Lựa chọn lùi lần lượt

SFS Sequential Forward Selection Lựa chọn tiến lần lượt

SMO Sequential Minimal Optimization Thuật giải tối ưu hóa cực tiểu lần

VDSPEC Vietnamese Dialect Speech Corpus Bộ ngữ liệu phương ngữ tiếng Việt VTLN Vocal Tract Length Normalization Chuẩn hóa chiều dài tuyến âm

Trang 10

DANH MỤC CÁC BẢNG

Bảng 2.1: Sự khác biệt giữa các phương ngữ về từ và cách sử dụng từ 59

Bảng 2.2: Cấu trúc âm tiết tiếng Việt 61

Bảng 2.3: Hệ thống phụ âm làm âm đầu 62

Bảng 2.4: Bảng các âm chính là nguyên âm đơn 63

Bảng 2.5: Cách thể hiện bằng chữ viết các nguyên âm 63

Bảng 2.6: Vị trí các âm vị trong hệ thống âm cuối 64

Bảng 2.7: Hệ thống phụ âm đầu ở Bắc Bộ 66

Bảng 2.8: So sánh các hệ thống phụ âm đầu giữa PNB, PNT và PNN 67

Bảng 2.9: Phân loại thanh điệu theo truyền thống 67

Bảng 2.10: Đặc tính văn bản theo chủ đề 73

Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC 78

Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ 78

Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề 79

Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu 80

Bảng 3.1: Kết quả nhận dạng dùng GMM với các tham số MFCC, F0 và các giá trị chuẩn hóa từ F0 94

Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ không phụ thuộc giới tính khi sử dụng hệ số MFCC kết hợp với tham số F0 94

Bảng 3.3: Kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp formant, dải thông tương ứng và các tham số F0 96

Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác nhau 98

Bảng 3.5: Bộ phân lớp SMO, kết quả nhận dạng với 384 tham số 100

Bảng 3.6: Bộ phân lớp SMO, ma trận sai nhầm với 384 tham số 101

Bảng 3.7: Bộ phân lớp SMO, kết quả nhận dạng khi không có thông tin liên quan trực tiếp F0 101

Bảng 3.8: Bộ phân lớp SMO, ma trận sai nhầm khi không có thông tin liên quan trực tiếp F0 101

Bảng 3.9: Bộ phân lớp SMO, kết quả thử nghiệm khi chỉ dùng tham số liên quan trực tiếp F0 102

Bảng 3.10: Bộ phân lớp SMO, ma trận sai nhầm khi chỉ sử du ̣ng tham số liên quan trực tiếp F0 102

Bảng 3.11: Bộ phân lớp SMO, kết quả nhận dạng khi chỉ dùng tham số liên quan trực tiếp MFCC 102

Bảng 3.12: Bộ phân lớp SMO, ma trận sai nhầm khi chỉ dùng tham số liên quan trực tiếp MFCC 102

Bảng 3.13: Thuật giải IBl, CD – Concept Description [8] 104

Trang 11

Bảng 3.14: Mô tả thuật giải k-láng giềng gần nhất 105

Bảng 3.15: Bộ phân lớp IBk, kết quả nhận dạng với k = 1 106

Bảng 3.16: Bộ phân lớp IBk, ma trận sai nhầm với k=1 106

Bảng 3.17: Bộ phân lớp IBk, kết quả nhận dạng với k=5 106

Bảng 3.18: Bộ phân lớp IBk, ma trận sai nhầm với k=5 107

Bảng 3.19: Kết quả nhận dạng phương ngữ tiếng Việt dùng MultilayerPerceptron 108

Bảng 3.20: Ma trận sai nhầm nhâ ̣n da ̣ng phương ngữ tiếng Việt dùng MultilayerPerceptron 108

Bảng 3.21: Kết quả dùng bộ phân lớp JRip nhận dạng phương ngữ tiếng Việt 109

Bảng 3.22: Ma trận sai nhầm khi dùng JRip nhâ ̣n da ̣ng phương ngữ tiếng Việt 109

Bảng 3.23: Kết quả sử dụng PART nhận dạng phương ngữ tiếng Việt 110

Bảng 3.24: Ma trận sai nhầm khi sử dụng PART nhận dạng phương ngữ tiếng Việt 110

Bảng 4.1: Phân chia tập dữ liệu dùng cho huấn luyện và thử nghiệm 129

Bảng 4.2: Kết quả nhận dạng khi chưa biết thông tin phương ngữ 129

Bảng 4.3: Kết quả nhận dạng khi đã biết thông tin về phương ngữ 132

Trang 12

DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ

Hình 1.1: Quyết định lề mềm 33

Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM: Chunking, Osuna và SMO 37

Hình 1.3: Mô hình một nơ-ron 38

Hình 1.4: Biến đổi làm mịn tạo ra do có thiên áp bk ; lưu ý là vk = bk nếu uk = 0 40

Hình 1.5: Mô hình nơ-ron phi tuyến 40

Hình 1.6: Hàm ngưỡng 41

Hình 1.7: Hàm kích tuyến tính đoạn 42

Hình 1.8: Hàm kích hoạt Sigmoid với tham số độ dốc a 43

Hình 1.9: Mạng nơ-ron truyền thẳng một lớp 43

Hình 1.10: Mạng nơ-ron truyền thẳng có kết nối đầy đủ bao gồm một lớp ẩn và một lớp ra 45

Hình 1.11: Mạng nơ-ron hồi quy không có vòng tự phản hồi và không có nơ-ron ẩn 46

Hình 1.12: Mạng nơ-ron hồi quy với các nơ-ron ẩn 46

Hình 1.13: Kiến trúc đồ thị của Multilayer Perceptron với hai lớp ẩn 49

Hình 1.14: Minh họa chiều của hai luồng tín hiệu cơ bản trong Multilayer Perceptron (hàm tín hiệu lan truyền thẳng và lan truyền ngược của tín hiệu lỗi) 49

Hình 1.15: Đồ thị luồng tín hiệu chi tiết của nơ-ron ra j 51

Hình 1.16: Đồ thị chi tiết luồng tín hiệu của nơ-ron ra k kết nối với nơ-ron ẩn j 53

Hình 2.1: Vị trí, vai trò âm đệm trong âm tiết 62

Hình 2.2: Sơ đồ kết hợp âm đệm /w/ với các nguyên âm ở PNB và PNT 65

Hình 2.3: So sánh cấu trúc âm tiết PNB, PNT với PNN 65

Hình 2.4: Sơ đồ biến đổi các phụ âm ngạc hóa trong PNB và PNN 66

Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c) 70

Hình 2.6: Sự phân bố các âm vị trong VDSPEC 74

Hình 2.7: Đáp ứng tần số của SM48 75

Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá trị trung bình của tỉ số này 77

Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) 80

Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) 80

Hình 2.11: Biến thiên F0 của thanh hỏi 81

Hình 2.12: Biến thiên F0 của thanh ngã 81

Hình 2.13: Biến thiên F0 của thanh nặng 82

Hình 2.14: Biến thiên F0 của thanh ngang 82

Trang 13

Hình 2.15: Biến thiên F0 của thanh huyền 82

Hình 2.16: Biến thiên F0 của thanh sắc 82

Hình 2.17: Các bước thực hiện phân lớp theo LDA 85

Hình 2.18: Phân lớp phương ngữ dùng LDA cho thanh sắc (từ “chính”) 86

Hình 2.19: Phân lớp phương ngữ dùng LDA cho thanh ngang (từ “kinh”) 86

Hình 2.20: Phân lớp phương ngữ dùng LDA cho thanh nặng (từ “mạnh”) 86

Hình 2.21: Phân lớp phương ngữ dùng LDA cho thanh huyền (từ “thành”) 86

Hình 2.22: Phân lớp phương ngữ dùng LDA cho thanh hỏi (từ “tỉnh”) 87

Hình 2.23: Phân lớp phương ngữ dùng LDA cho thanh ngã (từ “vĩnh”) 87

Hình 3.1: Sơ đồ hệ thống nhận dạng phương ngữ tiếng Việt 90

Hình 3.2: Thử nghiệm đánh giá, lựa chọn số hệ số MFCC 91

Hình 3.3: Đồ thị DET với số thành phần Gauss (M) từ 20 đến 4096 97

Hình 3.4: Hai nhân tử Lagrange phải đáp ứng tất cả các ràng buộc của bài toán đầy đủ 99

Hình 3.5: Phương pháp k láng giềng gần nhất 105

Hình 4.1: Kiến trúc bộ nhận dạng dựa trên HMM 114

Hình 4.2: Mô hình âm vị dựa trên HMM 116

Hình 4.3: Mô hình âm phụ thuộc ngữ cảnh 118

Hình 4.4: Tạo mô hình kết nối các trạng thái 119

Hình 4.5: Phân cụm cây quyết định 120

Hình 4.6: Minh họa lưới từ 123

Hình 4.7: Minh họa mạng nhầm lẫn 124

Hình 4.8: Cấu trúc lưới từ tạo ra bởi hệ thống HTK 125

Hình 4.9: Mô hình nhận dạng tự động tiếng nói 126

Hình 4.10: Phương pháp huấn luyện của Kaldi 127

Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói sử dụng thông tin phương ngữ 130

Hình 4.12: Sơ đồ hệ thống nhận dạng tiếng nói sử dụng thông tin phương ngữ trên bộ ngữ liệu VDSPEC 131

Trang 14

MỞ ĐẦU

1 Lý do chọn đề tài

Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hoá quá trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính Trong bối cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy tính phục vụ con người trong cuộc sống

Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành công Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành công nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn chế, đặc biệt là độ chính xác, chất lượng nhận dạng Ngoài các khó khăn trong nhận dạng tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại lớn phải kể đến là vấn đề về phương ngữ tiếng Việt

Tiếng Việt có nhiều phương ngữ khác nhau Giữa các phương ngữ có sự khác biệt

cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và phân chia các phương ngữ Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu thành từ hay sự biến đổi của từ Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ

Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc,

chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”) Trong khi

đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của

kính) Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng” Cũng như vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng” Ở miền Trung, hai vật kính và gương đều được gọi bằng từ “gương” Hai thao tác tương ứng đeo kính, soi gương được diễn đạt bằng “soi gương” và “đeo gương” Xét về mặt ngữ âm, sự khác biệt

giữa các phương ngữ được thể hiện khá rõ ràng Chẳng hạn với phương ngữ Nam, hai phụ

âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm Do vậy, từ

“tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”

Sự khác biệt nêu trên gây ra không ít khó khăn cho ngay chính con người khi giao tiếp với người sử dụng phương ngữ khác Rõ ràng, sự khác biệt đó cũng ảnh hưởng tới các

hệ thống nhận dạng tiếng Việt nói, làm giảm hiệu quả nhận dạng của các hệ thống nhận dạng tiếng nói

Chính vì vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các vùng phương ngữ khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng tiếng Việt nói Trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có thể xác định được tiếng nói đó thuộc phương ngữ nào thì có thể xây dựng hệ thống nhận dạng với ngữ liệu được tổ chức phù hợp cho từng phương ngữ và sử dụng ngữ liệu này để nhận dạng tiếng

Trang 15

nói của phương ngữ tương ứng Với cách xây dựng hệ thống nhận dạng tiếng nói như vậy, các sai nhầm nhận dạng của hệ thống do phương thức phát âm hay thậm chí là cả do sử dụng từ địa phương sẽ được giảm bớt, hiệu năng nhận dạng của hệ thống sẽ được cải thiện

Từ các lý do nêu trên, luận án lựa chọn đề tài nghiên cứu “Tự động nhận dạng tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” nhằm nghiên cứu sâu hơn về vấn đề xử lý nhận dạng tiếng Việt nói, giải quyết một số hạn chế trong nhận dạng tiếng Việt nói hiện tại liên quan đến phương ngữ và góp phần phát triển các ứng dụng công nghệ thông tin cho người Việt cũng như các sản phẩm ứng dụng công nghệ thông tin sử dụng tiếng Việt trong dịch tự động, giao tiếp và tương tác người-máy

2 Mục tiêu nghiên cứu của luận án

Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói cho các vùng phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng của hệ thống nhận dạng và đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu năng nhận dạng

3 Nhiệm vụ nghiên cứu của luận án

Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau:

(1) Nghiên cứu đặc điểm phương ngữ tiếng Việt từ đó xác định được các nét đặc trưng, sự khác biệt giữa các phương ngữ chính của tiếng Việt làm cơ sở cho nghiên cứu nhận dạng phương ngữ tiếng Việt Luận án cũng đánh giá sự ảnh hưởng của phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói

(2) Xây dựng bộ ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói

(3) Nghiên cứu, đề xuất mô hình hệ thống nhận dạng tự động, bộ tham số phù hợp

để nhận dạng phương ngữ tiếng Việt

(4) Nghiên cứu, đề xuất mô hình hệ thống nhận dạng tự động tiếng Việt nói theo phương ngữ chính của tiếng Việt Hệ thống mới sử dụng các thông tin về phương ngữ nhằm nâng cao hiệu năng của hệ thống nhận dạng tiếng Việt nói

4 Đối tượng và phạm vi nghiên cứu của luận án

Đối tượng nghiên cứu trọng tâm của luận án là nhận dạng phương ngữ tiếng Việt

Từ kết quả nhận dạng phương ngữ, xây dựng mô hình nhận dạng tiếng Việt nói theo phương ngữ Mô hình mới sử dụng thông tin về phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói Việc nghiên cứu phương ngữ tiếng Việt chủ yếu chỉ tập trung theo hướng xử lý tín hiệu

Phương ngữ tiếng Việt rất phong phú Về mặt địa lý, xét theo phương thức phát âm, phương ngữ có thể thay đổi theo từng làng, xã Tuy nhiên, trong phạm vi nghiên cứu của luận án, do thời gian có hạn, luận án chỉ giới hạn nghiên cứu nhận dạng ba phương ngữ chính và phổ biến của tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng

Trang 16

Hà Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và phương ngữ Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện)

Bên cạnh đó, với mục tiêu ứng dụng kết quả nhận dạng phương ngữ tiếng Việt vào

hệ thống nhận dạng tự động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng, nhận dạng phương ngữ được xem là bước tiền xử lý trong hệ thống nhận dạng tự động tiếng Việt Việc nhận dạng phương ngữ cần được tiến hành trước khi nhận dạng nội dung, nghĩa là ở thời điểm còn chưa biết nội dung tiếng nói Vì vậy, thao tác của hệ thống nhận dạng phương ngữ chưa thể khai thác các thông tin về từ địa phương mà chủ yếu là khai thác thông tin về phương thức phát âm của phương ngữ

Các thử nghiệm nhận dạng phương ngữ mà luận án tiến hành dựa trên ngữ liệu với

số lượng từ vựng hạn chế để từ đó xác định được các đặc trưng của từng phương ngữ và đề xuất mô hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận dạng tiếng Việt nói

5 Ý nghĩa khoa học và thực tiễn của luận án

Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể cho mở rộng nghiên cứu về phương ngữ tiếng Việt Các nghiên cứu về phương ngữ tiếng Việt đã được triển khai cho đến nay chủ yếu thực hiện theo phương diện ngôn ngữ Nghiên cứu về phương diện xử lý tín hiệu vẫn còn hạn chế Do vậy, hướng nghiên cứu theo phương diện xử lý tín hiệu sẽ giúp mở rộng phạm vi nghiên cứu cũng như gia tăng khả năng ứng dụng các kết quả đạt được trong lĩnh vực nghiên cứu xử lý tiếng Việt nói nói chung và nhận dạng tiếng Việt nói nói riêng

Từ kết quả nhận dạng phương ngữ, đề xuất mô hình mới nhận dạng tiếng Việt nói

sử dụng thông tin phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói, góp phần hoàn thiện hơn khả năng nhận dạng của hệ thống nhận dạng tự động tiếng Việt nói

6 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm

Về lý thuyết: luận án nghiên cứu tổng quan về phương ngữ tiếng Việt, các mô hình nhận dạng phương ngữ của một số ngôn ngữ trên thế giới, các mô hình nhận dạng tiếng nói dựa trên các tài liệu, công trình khoa học đã được công bố, sách báo, giáo trình liên quan

Về thực nghiệm: luận án xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng nội dung tiếng Việt nói Luận án cũng

sử dụng các công cụ mã nguồn mở kết hợp lập trình phần mềm xử lý dữ liệu, thực hiện các nghiên cứu, thử nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng và thử nghiệm mô hình nhận dạng phương ngữ cũng như nhận dạng tiếng Việt nói theo phương ngữ

7 Kết quả nghiên cứu, đóng góp của luận án

Kết quả nghiên cứu và đóng góp của luận án tập trung vào các điểm chính sau:

Trang 17

(1) Phân tích đặc điểm phương ngữ tiếng Việt, sự khác biệt giữa các phương ngữ chính của tiếng Việt về phương diện phát âm về mặt xử lý tín hiệu

(2) Xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt cũng như các nghiên cứu khác về nhận dạng tiếng Việt nói; thực hiện một số nghiên cứu, thử nghiệm, phân tích đặc điểm của phương ngữ tiếng Việt

(3) Đề xuất mô hình nhận dạng phương ngữ tiếng Việt và bộ tham số phù hợp cho

mô hình nhận dạng phương ngữ tiếng Việt

(4) Sử dụng mô hình HMM (Hidden Markov Model) nhận dạng tiếng Việt nói trên

bộ ngữ liệu có phương ngữ

(5) Đề xuất mô hình nhận dạng tiếng Việt nói theo phương ngữ

8 Nội dung luận án

Nội dung chính của luận án được trình bày trong 4 chương như sau:

Chương 1: Tổng quan về nhận dạng tiếng nói và nhận dạng phương ngữ Chương này trình bày tổng quan về nhận dạng tiếng nói, lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói; các nghiên cứu và kết quả đạt được về nhận dạng phương ngữ; việc nghiên cứu về nhận dạng tiếng nói và phương ngữ tiếng Việt, các vấn đề còn tồn tại trong nghiên cứu, nhận dạng tiếng Việt nói và phương ngữ tiếng Việt; làm rõ vấn đề cần nghiên cứu, giải quyết trong luận án

Chương 2: Xây dựng bộ ngữ liệu cho nghiên cứu nhận dạng phương ngữ tiếng Việt Nội dung chương này đề cập các nghiên cứu chi tiết hơn về phương ngữ tiếng Việt,

từ đó cho thấy sự khác biệt giữa các phương ngữ, đặc biệt là phương thức phát âm, làm cơ

sở cho nghiên cứu nhận dạng phương ngữ tiếng Việt Chương 2 cũng trình bày phương pháp xây dựng bộ ngữ liệu dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và kết quả phân tích đạt được đối với một số đặc trưng của phương ngữ tiếng Việt dựa trên ngữ liệu đã xây dựng

Chương 3: Nhận dạng phương ngữ tiếng Việt Chương này tập trung vào nghiên cứu các mô hình nhận dạng phương ngữ tiếng Việt, việc lựa chọn tham số ứng dụng cho mỗi mô hình và trình bày các kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng các mô hình và tham số đã đề xuất

Chương 4: Cải thiện hiệu năng nhận dạng tiếng Việt với thông tin về phương ngữ Luận án sẽ trình bày mô hình nhận dạng tiếng nói dựa trên HMM sử dụng các thông tin về phương ngữ nhằm cải thiện hiệu năng nhận dạng tiếng Việt nói Kết quả thử nghiệm cho thấy mô hình nhận dạng tiếng Việt nói có sử dụng thông tin phương ngữ cho hiệu năng nhận dạng tốt hơn so với trường hợp không có thông tin về phương ngữ

Cuối cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được, hướng mở rộng nghiên cứu, phát triển đề tài và các đóng góp khoa học của luận án

Trang 18

1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN

DẠNG PHƯƠNG NGỮ

Chương 1 đề cập nội dung tổng quan về nhận dạng tiếng nói và nhận dạng phương ngữ Đây là vấn đề chính mà luận án quan tâm Trong chương này, luận án tập trung tổng hợp, phân tích tình hình nghiên cứu trong và ngoài nước về nhận dạng tiếng nói và nhận dạng phương ngữ nhằm xác định các hướng tiếp cận, phương pháp giải quyết các bài toán trong lĩnh vực này Đồng thời, Chương 1 cũng tổng hợp các nghiên cứu liên quan về nhận dạng tiếng Việt và phương ngữ tiếng Việt, nêu bật những mặt còn tồn tại, những vấn đề cần giải quyết đối với nhận dạng tiếng Việt và phương ngữ tiếng Việt từ đó tìm hướng tiếp cận nhằm nâng cao hiệu năng cho hệ thống nhận dạng tiếng Việt nói

1.1 Nhận dạng tiếng nói

1.1.1 Tổng quan về nhận dạng tiếng nói

Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống hiểu được tiếng nói của con người Nhờ hệ thống này, tiếng nói có thể được chuyển đổi tự động thành văn bản, hoặc tự động điều khiển các quá trình khác [178] Phương thức truyền thông tự nhiên nhất đối với con người là thông qua tiếng nói nên ước mơ cuối cùng của nhận dạng tiếng nói là cho phép con người có ngôn ngữ khác nhau giao tiếp với nhau và với máy một cách

tự nhiên, hiệu quả hơn Có thể nói, các ứng dụng nhận dạng tiếng nói hiện đang dần trở nên phổ biến, phục vụ đời sống con người cũng như trong các lĩnh vực kỹ thuật khác nhau Trong lĩnh vực tương tác người máy, nhận dạng tiếng nói được định nghĩa là khả năng hệ thống máy tính có thể chấp nhận đầu vào là lời nói theo định dạng file âm thanh và tạo ra được văn bản chứa nội dung tương ứng

Nhận dạng tự động tiếng nói ASR (Automatic Speech Recognition) mô phỏng khả năng nghe và hiểu lời nói của con người Hệ thống ASR có thể chuyển đổi lời nói thành văn bản Bài toán nhận dạng tự động tiếng nói là một chương trình máy tính tiếp nhận đầu vào là các mẫu tiếng nói và tạo ra văn bản tương ứng mà con người có thể hiểu được như khi trực tiếp nghe tiếng nói đó ASR là một trong các lĩnh vực của nhận dạng mẫu ASR phát triển mạnh tương xứng với các lĩnh vực khác của nhận dạng mẫu vì mong muốn tạo ra được cỗ máy có khả năng tạo ra được các quyết định phức tạp và thực tế, có chức năng nhanh như con người đồng thời có thể hiểu được lời nói Tương tự như bất kỳ hệ thống nhận dạng mẫu nào, ASR tìm kiếm để hiểu được các mẫu tiếng nói đầu vào Các nghiên cứu về xử lý tín hiệu, xử lý tiếng nói và đặc biệt là nhận dạng tiếng nói đã thu hút nhiều nhà khoa học tham gia và mang lại nhiều thành tựu trong các lĩnh vực này [33, 37, 55, 57,

63, 75, 94, 95, 134]

CHƯƠNG 1

Trang 19

Mục tiếp theo dưới đây sẽ trình bày tóm lược về lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói

1.1.2 Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng

tiếng nói

Điều đầu tiên quan trọng cần phải kể đến trong lịch sử phát triển của nhận dạng tiếng nói là việc thành lập các mô hình thống kê và các thuật giải liên quan tạo điều kiện cho việc thực hiện các mô hình này Mô hình HMM đã được giới thiệu như là một mô hình

âm học của hệ thống nhận dạng tiếng nói từ đầu những năm 1970 [12, 82] Hơn 30 năm sau, phương pháp này vẫn còn được sử dụng rộng rãi Một lượng lớn các mô hình và thuật giải đã được đề xuất và sử dụng hiệu quả trong lĩnh vực này Thuật giải tối đa hóa kỳ vọng

EM (Expectation Maximization) và thuật giải quay lui (Forward – Backward) hoặc thuật giải Baum – Welch [14, 36] đã có vai trò chủ yếu và quan trọng trong việc huấn luyện mô

hình HMM một cách hiệu quả Tương tự như vậy, mô hình ngôn ngữ N-gram và các biến

thể được huấn luyện với các tính toán cơ bản hoặc sử dụng kỹ thuật EM-Style đã đạt được các hiệu quả quan trọng Bên cạnh mô hình âm học HMM và mô hình ngôn ngữ cơ bản

N-gram, đã có nghiên cứu mới được công bố như các mô hình phân đoạn [38, 39, 60] và

các mô hình ngôn ngữ và tiếng nói có cấu trúc [27, 40, 175] Các thuật giải thích nghi hiệu quả cho phép tích hợp được trên các ứng dụng đòi hỏi xử lý nhanh Đây là chìa khóa dẫn đến thành công cho việc phát triển các sản phẩm thương mại của công nghệ nhận dạng tiếng nói Các kỹ thuật thích nghi phổ biến có thể kể đến là tối đa xác suất hậu nghiệm MAP (Maximum a Posteriori probability), ước lượng MLLR (Estimation và Maximum Likelihood Linear Regression) [96] Các kỹ thuật thích nghi đã được tổng quát hóa để huấn luyện các mô hình chung, một đại diện tốt trong số đó có thể kể đến là mô hình thống kê toàn thể của tập dữ liệu huấn luyện đầy đủ Kỹ thuật này được gọi là kỹ thuật huấn luyện thích nghi người nói SAT (Speaker Adaptive Training) [9] Huang cùng cộng sự đã có nghiên cứu so sánh các phương pháp nhận dạng độc lập người nói, nhận dạng phụ thuộc người nói và nhận dạng thích nghi người nói [74] Kết quả nghiên cứu này cho thấy: khi nhận dạng độc lập người nói, tỷ lệ lỗi từ đạt 4,3%, còn khi sử dụng dữ liệu phụ thuộc người nói, tỷ lệ lỗi từ đã giảm đến 1,4% Trong các thử nghiệm, nhóm tác giả đều áp dụng phương pháp thich nghi người nói

Nhóm thứ hai trong những tiến bộ đáng kể của lĩnh vực xử lý tiếng nói là sự hình thành cơ sở hạ tầng tính toán mạnh về phần cứng cho phép phát triển được các thuật giải,

mô hình thống kê nêu trên Định luật Moore quan sát sự tiến bộ trong lĩnh vực phát triển của máy tính và dự báo khả năng tính toán tăng gấp đôi sau mỗi khoảng thời gian từ 12 đến

18 tháng Cũng như vậy, chi phí cho bộ nhớ sẽ được giảm đi Cơ sở hạ tầng mạnh nói trên

là phương tiện cho phép các nhà nghiên cứu về nhận dạng tiếng nói có thể phát triển và đánh giá độ phức tạp các thuật giải trên các tác vụ đủ lớn Ngữ liệu tiếng nói đóng vai trò quan trọng để thực hiện các nghiên cứu nhận dạng tiếng nói Ngữ liệu tiếng nói lớn cho phép các mô hình thống kê học hiệu quả hơn Trong những năm qua, Viện Tiêu chuẩn và

Trang 20

Công nghệ NIST (National Institute of Standard and Technology), Hiệp hội dữ liệu ngôn ngữ học LDC (Linguistic Data Consortium), Hiệp hội Tài nguyên Ngôn ngữ châu Âu ELRA (European Language Resources Association) và các tổ chức khác đã xây dựng được các bộ ngữ liệu tiếng nói, chú giải và chia sẻ rộng rãi cho cộng đồng trên toàn thế giới Với

sự phát triển, hội nhập và chia sẻ trên phạm vi toàn cầu, hiện nay, nhiều phòng thí nghiệm, các nhà nghiên cứu đã được hưởng lợi ích từ các công cụ phục vụ cho nghiên cứu được cung cấp miễn phí như HTK (Hidden Markov Model Toolkit), Sphinx, CMU LM toolkit

và SRILM toolkit Mặt khác, các hỗ trợ cho nghiên cứu sâu, rộng, kết hợp với các hội nghị, hội thảo, hệ thống đánh giá được DARPA (U.S Department of Defense Advanced Research Projects Agency) và các tổ chức, cá nhân khác tài trợ đã trở nên cần thiết cho sự phát triển hệ thống nhận dạng tiếng nói hiện nay

Nhóm tiến bộ thứ 3 có thể kể đến thuộc về lĩnh vực biểu diễn tri thức Các kỹ thuật phân tích tham số tiếng nói như MFCC (Mel-Frequency Cepstral Coefficients) [35], tiên đoán cảm thụ tuyến tính PLP (Perceptual Linear Prediction) [70], chuẩn hóa thông qua trừ trung bình cepstral CMS (Cepstral Mean Subtraction) [138], RASTA [70] và chuẩn hóa chiều dài tuyến âm VTLN (Vocal Tract Length Normalization) [42] Gần đây, có nhiều thuật giải đã được đề xuất cho nhận dạng tiếng nói mang lại hiệu quả cao như Phân tích phân biệt tuyến tính hiệp phương sai không đồng nhất HLDA (Heteroscedastic Linear Discriminant Analysis) [90], cực tiểu lỗi từ theo không gian đặc trưng fMPE (feature-space Minimum Phone Error) [131] và mạng nơ ron dựa trên các đặc trưng [111]

Nhóm cuối cùng trong các tiến bộ lớn của nhận dạng tiếng nói là giải mã và các thuật giải tìm kiếm Ban đầu tập trung vào giải mã ngăn xếp (thuật giải tìm kiếm A∗) [84]

và tìm kiếm đồng bộ thời gian Viterbi (time-synchronous Viterbi search) [114, 142, 168, 170] Nếu không có các thuật giải khả thi thì các nhận dạng tiếng nói liên tục có quy mô lớn khó có thể thực hiện được

Như vậy có thể thấy, nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong các năm qua Có nhiều mô hình nhận dạng đã được đề xuất trong đó mô hình HMM với nền tảng chính không có nhiều thay đổi song việc mô hình hóa, các kỹ thuật cài đặt cụ thể vẫn liên tục được cải tiến Vì thế, HMM vẫn giữ được vị trí quan trọng trong các hệ thống nhận dạng tiếng nói Bên cạnh đó, các kỹ thuật phân tích tham số cũng đạt được những bước tiến quan trọng Các thuật giải tìm kiếm được cải tiến giúp bộ giải mã thực hiện các nhiệm

vụ tìm kiếm, cho ra lời giải hiệu quả hơn

1.1.3 Các thách thức đối với nhận dạng tự động tiếng nói

Vì có nhiều ý nghĩa trong nghiên cứu cũng như thực tiễn ứng dụng, nhận dạng tiếng nói đã thu hút nhiều nhà khoa học tham gia nhưng lĩnh vực này cũng phải đối mặt với nhiều thách thức

Thách thức lớn đầu tiên đối với nhận dạng tự động tiếng nói có thể kể đến là làm thế nào để xử lý được các biến thiên trong tiếng nói Cùng một âm do cùng một người nói

ở những thời điểm khác nhau song tín hiệu tiếng nói có thể không hoàn toàn như nhau

Trang 21

Trong các hệ thống nhận dạng tiếng nói phụ thuộc người nói, sự khác biệt của tiếng nói thường không lớn so với hệ thống nhận dạng độc lập người nói Ngay cả khi tiếng nói được giới hạn bởi một người nói thì sự thay đổi về môi trường ghi âm, điều kiện nói, thiết

bị ghi âm vẫn là tồn tại khách quan tạo ra sự khác biệt trong tín hiệu tiếng nói cần nhận dạng

Thách thức lớn khác đối với ASR là phải giải quyết bài toán nhận dạng nhầm, khi

mà hệ thống thường phải đối mặt với thực tế là tiếng nói cần nhận dạng không hoàn toàn theo đúng với tiếng nói đã được huấn luyện Trong ASR, một số người nói thường sẽ đọc các văn bản đã được chọn từ trước và sử dụng tiếng nói thu được theo cách đó để xây dựng các mô hình Độ chính xác của ASR thường tỷ lệ với sự tương tự giữa dữ liệu huấn luyện

và dữ liệu thử nghiệm Dễ dàng nhận thấy, hệ thống nhận dạng cho độ chính xác cao khi

dữ liệu huấn luyện và nhận dạng đều do một người nói và nội dung nói tương tự nhau Độ chính xác đó sẽ giảm khi dữ liệu thử nghiệm và dữ liệu dùng huấn luyện là tiếng nói của những người khác nhau, nội dung nói khác nhau hay môi trường, thiết bị ghi âm khác nhau Thách thức đặt ra đối với người thiết kế ASR là phải chuẩn bị đủ về mặt dữ liệu và cài đặt thuật giải tốt

Tác động phức tạp nhất tới tín hiệu tiếng nói mà ASR phải xử lý là nhiễu kênh, nhiễu nền và các nhiễu khác từ bên ngoài Kỹ thuật trừ phổ cơ bản giúp giải quyết được vấn đề nhiễu cộng trong khi một số kỹ thuật khác giúp khử được nhiễu chập

Mặc dù phải đối mặt với nhiều thách thức song nhận dạng tự động tiếng nói đã đạt được nhiều bước tiến quan trọng Các kết quả nghiên cứu đã dần đi vào cuộc sống trở thành các ứng dụng thường ngày Lĩnh vực này vẫn tiếp tục thu hút nhiều nhà khoa học tham gia nhằm tiếp tục cải thiện hiệu năng nhận dạng, gia tăng khả năng ứng dụng trong thực tiễn

1.1.4 Phân loại hệ thống nhận dạng tự động tiếng nói

Các hệ thống nhận dạng tự động tiếng nói có thể được phân loại theo các cách khác nhau tùy thuộc tiêu chí sử dụng phân loại như dựa trên sự phụ thuộc người nói, đặc điểm liên tục hay rời rạc của tiếng nói cần nhận dạng, độ lớn của từ vựng

Theo tiêu chí sự phụ thuộc vào người nói, hệ thống nhận dạng tiếng nói có thể được chia làm 3 loại gồm hệ thống nhận dạng tiếng nói phụ thuộc người nói, hệ thống nhận dạng tiếng nói độc lập người nói và hệ thống nhận dạng tiếng nói thích nghi người nói, cụ thể như sau:

1) Hệ thống nhận dạng tiếng nói phụ thuộc người nói: hệ thống này đòi hỏi người

dùng phải huấn luyện hệ thống bằng chính tiếng nói của mình Nói khác đi, tiếng nói cần nhận dạng và tiếng nói dùng cho huấn luyện đều do cùng một người nói Hệ thống này có thể được xây dựng một cách dễ dàng với chi phí thấp và độ chính xác cao Tuy nhiên, mức độ linh hoạt của hệ thống lại thấp hơn so với hệ thống nhận dạng không phụ thuộc người nói và hệ thống nhận dạng thích nghi người nói

Trang 22

2) Hệ thống nhận dạng không phụ thuộc người nói: có đặc điểm là không đòi hỏi

người dùng phải huấn luyện hệ thống bằng chính giọng nói của mình Nói cách khác, hệ thống có thể được huấn luyện độc lập, sử dụng tiếng nói của người khác để huấn luyện mà vẫn có khả năng nhận dạng được tiếng nói được phát

âm bởi người không tham gia huấn luyện Hệ thống này có thể làm việc với tiếng nói được phát âm từ người nói bất kỳ Việc xây dựng hệ thống như vậy thường phức tạp và đòi hỏi chi phí cao hơn song có ưu điểm là hệ thống rất linh hoạt nhưng độ chính xác thường thấp hơn so với hệ thống phụ thuộc người nói

3) Hệ thống nhận dạng tiếng nói thích nghi người nói: được xây dựng để có khả

năng thích nghi với người nói mới Hệ thống này đã được huấn luyện sẵn trước khi sử dụng bằng tiếng nói có thể khác với tiếng nói của người sử dụng Trong quá trình hoạt động, hệ thống sẽ tiếp nhận thông tin, đặc điểm của người nói mới để điều chỉnh nhằm thích nghi theo các đặc điểm riêng của người nói mới

Hệ thống này có vị trí xếp hạng nằm giữa hai hệ thống được nêu trước đó Hệ thống vừa có tính linh hoạt vì không ràng buộc huấn luyện và sử dụng cùng người nói như hệ thống phụ thuộc người nói lại vẫn đạt được độ chính xác nhờ khả năng thich nghi người nói

Các hệ thống nhận dạng tiếng nói được phân loại dựa trên đặc điểm của tiếng nói huấn luyện và nhận dạng sẽ gồm bốn loại như sau:

1) Hệ thống nhận dạng tiếng nói theo từ rời rạc: hệ thống này được thiết kế để

nhận dạng tiếng nói được phát âm thành từng từ rời rạc Giữa các từ có khoảng lặng đủ lớn và phân tách với nhau Hệ thống này là dạng đơn giản nhất của hệ thống nhận dạng tiếng nói Tuy khả năng nhận dạng có hạn chế nhưng hệ thống này lại được sử dụng phổ biến trong các sản phẩm thực

2) Hệ thống nhận dạng tiếng nói cho các từ có liên kết với nhau: trong trường hợp

này, hệ thống nhận dạng tiếng nói được thiết kế để nhận dạng các từ tương tự như hệ thống nhận dạng từ rời rạc Tuy nhiên, các từ này có liên kết với nhau nên hệ thống cho phép tiếng nói cần nhận dạng có thể được phân tách với nhau bởi các khoảng lặng nhỏ

3) Hệ thống nhận dạng tiếng nói phát âm liên tục: hệ thống làm việc với tiếng nói

trong đó không có khoảng lặng về mặt tín hiệu giữa các từ Hệ thống cho phép người dùng có thể phát âm một cách tự nhiên, cùng với đó thì máy tính sẽ thực hiện việc nhận dạng nội dung Các hệ thống loại này đòi hỏi xử lý phức tạp hơn

vì việc xác định các từ là rất khó về mặt tín hiệu

4) Hệ thống nhận dạng tiếng nói tự nhiên: hệ thống được thiết kế để nhận dạng

được tiếng nói được phát âm một cách tự nhiên với các từ phát ra một cách liên tiếp có thể xen kẽ những âm đệm không có nghĩa như "ừ", "à" thậm chí là nói lắp

Trang 23

Hệ thống nhận dạng tiếng nói cũng có thể phân loại theo lượng từ vựng Theo cách này, các hệ thống nhận dạng tiếng nói có thể chia thành 3 loại bao gồm hệ thống nhận dạng với từ vựng ít (số lượng từ chỉ đến hàng chục từ), hệ thống nhận dạng tiếng nói với từ vựng trung bình (số lượng từ đến vài trăm từ) và hệ thống nhận dạng tiếng nói với từ vựng lớn (số lượng từ lên đến hàng nghìn từ)

Hệ thống nhận dạng tiếng nói rất đa dạng và phong phú Cách tiếp cận trong nghiên cứu nhận dạng tiếng nói cũng đa dạng tương tự Mặc dù mục tiêu, nội dung cụ thể của từng nghiên cứu là khác nhau song đều có điểm chung là cải thiện hiệu năng, nâng cao hiệu quả hoạt động của hệ thống nhận dạng

1.2 Nhận dạng phương ngữ

Nhận dạng phương ngữ dựa trên tín hiệu tiếng nói là một lĩnh vực của xử lý tín hiệu tiếng nói thu hút nhiều nhà khoa học tham gia Phương ngữ có thể hiểu là tiếng nói ở một vùng, địa phương có những đặc điểm khác biệt với tiếng nói ở vùng, hay địa phương khác Sự khác biệt có thể là ở từ vựng, ngữ pháp, ngữ âm Chương 2 sẽ bàn luận chi tiết hơn về khái niệm phương ngữ, đặc điểm và sự phân vùng phương ngữ của tiếng Việt Nếu nhận dạng được phương ngữ chính xác thì có thể giúp cải thiện nhiều ứng dụng, dịch vụ như nhận dạng tự động tiếng nói, hệ thống chăm sóc sức khỏe điện tử (e-health), các hệ thống e-learning, Nhận dạng phương ngữ có nhiều nét tương tự như nhận dạng ngôn ngữ tuy nhiên phức tạp và chứa đựng nhiều thách thức hơn so với nhận dạng ngôn ngữ của tiếng nói

1.2.1 Các mô hình nhận dạng phương ngữ

Phương pháp tiếp cận của nhận dạng phương ngữ cũng tương tự như các phương pháp được dùng trong nhận dạng ngôn ngữ Các phương pháp tiếp cận này có thể chia làm hai nhóm bao gồm phương pháp dựa trên âm học và phương pháp dựa trên ràng buộc âm

vị Trong khi phương pháp đầu dựa trên mô hình đặc trưng phổ của tiếng nói thì phương pháp thứ hai dựa trên việc mô hình ngôn ngữ để nhận dạng các từ đặc trưng

1.2.1.1 Mô hình ràng buộc âm vị

Với mỗi ngôn ngữ, các từ đều được cấu thành từ một tập các âm vị Các mô hình nhận dạng phương ngữ dựa theo phương pháp ràng buộc âm vị (Phonotactic Modeling) được xây dựng dựa trên các bộ nhận dạng âm vị Bộ nhận dạng âm vị sẽ tiến hành phân tích tiếng nói cần nhận dạng thành các âm vị Mỗi từ đều có thể được phiên âm bởi một tập các âm vị đã biết Nhiệm vụ được đặt ra là phải xây dựng được bộ nhận dạng âm vị có độ chính xác cao Một cách thực hiện theo hướng tiếp cận này là xây dựng bộ nhận dạng âm

vị theo mô hình ngôn ngữ PRLM (Phone Recognition followed by Language Modeling) [20] Tiếp theo, bộ nhận dạng âm vị đơn lẻ được sử dụng để nhận dạng phương ngữ Bộ nhận dạng âm vị sẽ tạo ra một dãy các âm vị dùng để huấn luyện các mô hình ngôn ngữ

N-gram cho mỗi phương ngữ Trong quá trình nhận dạng, tiếng nói cần nhận dạng sẽ được

Trang 24

phân đoạn bằng cách sử dụng bộ nhận dạng âm vị và phương ngữ đã được đánh số theo mô hình ngôn ngữ sẽ cho ra điểm số cao nhất ứng với phương ngữ nhận dạng được Mở rộng của phương pháp PRLM là phương pháp sử dụng bộ nhận dạng âm vị song song theo mô hình ngôn ngữ PPRLM (Parallel Phone Recognition followed by Language Modeling) PPRLM sử dụng các bộ nhận dạng âm vị nhiều đầu ra thay cho bộ nhận dạng âm vị đơn được sử dụng trong PRLM Tiếng nói cần nhận dạng sẽ được nạp vào một dãy các bộ nhận dạng âm vị đã được huấn luyện cho từng phương ngữ Đầu ra của các bộ nhận dạng là các điểm số được tính thông qua một dãy các mô hình ngôn ngữ Cả hai phương pháp này thường được sử dụng cho trường hợp dữ liệu phiên âm bị hạn chế Khi dữ liệu phiên âm sẵn có và phong phú, có thể sử dụng các bộ nhận dạng âm vị độc lập trong đó mỗi bộ nhận dạng có riêng một mô hình ngôn ngữ Trong quá trình nhận dạng, tập các bộ nhận dạng âm

vị song song được sử dụng và cho ra dãy âm vị đã được tối ưu vì mỗi bộ nhận dạng có một

mô hình ngôn ngữ của riêng mình Phương pháp này được gọi là phương pháp nhận dạng

âm vị song song PPR (Parallel Phone Recognition) Phương pháp PPR gặp trở ngại là cần phải có dữ liệu phiên âm cho tất cả các phương ngữ cần nhận dạng

Trong cả ba phương pháp đã nêu, việc nhận dạng phương ngữ đều dựa trên kết quả phân tích, nhận dạng âm vị của tiếng nói cần xử lý và mô hình ngôn ngữ tương ứng với mỗi phương ngữ có thể nhận dạng

1.2.1.2 Mô hình âm học

Cách tiếp cận khác để nhận dạng phương ngữ thay cho cách tiếp cận dựa trên mô hình ràng buộc âm vị là sử dụng mô hình âm học (Acoustic Modeling) [185] Cách tiếp cận này sử dụng mô hình hỗn hợp Gauss GMM (Gaussian Mixture Model) để xây dựng hệ thống nhận dạng GMM đã được sử dụng thành công trong các ứng dụng nhận dạng phương ngữ [29, 51, 109] GMM sử dụng các tham số là các đặc trưng của tiếng nói cần nhận dạng Các đặc trưng này trích chọn trong thời gian ngắn của tiếng nói bao gồm phổ, thông tin về ngôn điệu như tần số cơ bản và đường bao tần số cơ bản, cường độ tại các phần đặc biệt của tiếng nói và biến thiên theo thời gian của cường độ tương ứng, ngữ điệu, năng lượng, GMM là một trong các công cụ được sử dụng phổ biến hiện nay trong nhận dạng tiếng nói, nhận dạng ngôn ngữ và nhận dạng phương ngữ Mô hình GMM sẽ trình bày chi tiết hơn trong Chương 3 của luận án

1.2.2 Nhận dạng phương ngữ theo các phương diện khác nhau

1.2.2.1 Theo phương diện ngôn ngữ học

Phương ngữ là khía cạnh phức tạp trong nhận dạng tiếng nói, tương ứng với đặc trưng của ngôn ngữ trong một cộng đồng giao tiếp cụ thể Phương ngữ không phải là cố định mà nó thay đổi theo thời gian và theo vùng địa lý, lãnh thổ Dễ dàng nhận thấy, trong giao tiếp của thế hệ trẻ hiện nay, ngoài ngôn từ vốn có của ngôn ngữ đang sử dụng họ còn dùng những từ, cụm từ mới, chưa từng được sử dụng trước đây Cùng với thời gian, ngôn ngữ bị thay đổi kéo theo các đặc điểm của phương ngữ cũng bị thay đổi

Trang 25

Nghiên cứu nhận dạng phương ngữ được bắt đầu từ rất sớm Những ghi nhận đầu tiên có thể kể đến là các khảo sát để nhận dạng các vùng phương ngữ của George Wenker vào đầu năm 1877 [77, 98, 159] Tiếp theo có thể kể đến là các nghiên cứu của Bailey về việc có tồn tại phương ngữ Midland hay không (năm 1968) và tiếp tục được Davis, Lawrence M cùng các đồng sự nhắc lại trong một nghiên cứu năm 1992 [34]

Nhận dạng phương ngữ nhiều ngôn ngữ trên thế giới đã được nghiên cứu như tiếng

Ả rập, tiếng Thái, tiếng Trung Quốc, tiếng Anh, Có nhiều nghiên cứu phương ngữ tiếng

Ả rập đã được công bố như [20, 50, 109] Nghiên cứu nhận dạng phương ngữ tiếng Ả rập của tác giả Fadi Biadsy và cộng sự sử dụng câu nhận dạng có độ dài 30 giây Trong nghiên cứu [20], nhóm tác giả đã sử dụng mô hình ràng buộc âm vị để nhận dạng phương ngữ cho

độ chính xác đạt 81,60%, kết hợp ngôn điệu và ràng buộc âm vị cho độ chính xác nhận dạng 86,33% [50] Nghiên cứu của M Belgacem và các thành viên sử dụng mô hình GMM nhận dạng tự động phương ngữ tiếng Ả rập cho độ chính xác 73,33% Trong nghiên cứu này, nhóm tác giả sử dụng bộ công cụ mã nguồn mở ALIZE để thực hiện các thử nghiệm nhận dạng [109]

Với quan điểm ngôn ngữ học, việc phân biệt các phương ngữ có thể dựa trên các đặc điểm, các thành phần của chính tiếng nói được sử dụng như hệ thống nguyên âm, phụ

âm, từ vựng, hệ thống các từ, các đặc trưng âm học, âm vị,

1) Nhận dạng phương ngữ dựa trên nguyên âm, phụ âm

Một trong các nghiên cứu đầu tiên nhận dạng phương ngữ dựa trên nguyên âm là nghiên cứu của Peterson và Barney [129] Các tác giả đã thực hiện nghiên cứu dựa trên đặc điểm về khoảng cách nguyên âm Nghiên cứu của họ đã chỉ ra rằng các nguyên âm được hiểu khác nhau nếu xuất hiện trong vị trí khác nhau trong không gian formant Tương tự, nguyên âm được phát âm bởi người nói khác nhau thì xuất hiện ở vị trí khác nhau trong không gian formant Nghiên cứu này có một đóng góp đáng kể trong lĩnh vực nhận dạng

và là công trình đầu tiên giới thiệu tầm quan trọng của phương ngữ Hướng đi này cũng gặp trở ngại là việc xác định sự thay đổi khoảng cách của các nguyên âm diễn ra thế nào sẽ khó khăn Chính vì vậy, nhóm tác giả Hillenbrand, Clark và Wheeler [71] đã lặp lại thử nghiệm tương tự nhằm tìm ra sự thay đổi một cách chính xác khoảng cách của các nguyên

âm Nghiên cứu của họ đã xác định được sự thay đổi về phổ, độ dài và trạng thái ổn định của các formant F1, F2 cho mỗi nguyên âm Nghiên cứu đi đến kết luận sự giảm khoảng cách của các nguyên âm không làm ảnh hưởng tới khả năng nhận thức đối với nguyên âm Kết quả họ tìm được cũng trùng với kết luận trước đó, độ đo formant F1 và F2 chưa đủ để

mô tả cho sự phân tách nguyên âm với nhau Vấn đề này lại tiếp tục được lặp lại trong nghiên cứu của Hajiwara Trong nghiên cứu này Hajiwara [66] đã phát hiện ra phương ngữ Nam California rất hiếm khi phát âm được các nguyên âm tròn môi Đây là lý do mà F2 của một số nguyên âm do họ phát âm có tần số cao hơn Tiếp tục khai thác các đặc trưng của nguyên âm trong nhận dạng phương ngữ, Fridland cùng đồng sự đã đề cập tới trong nghiên cứu được công bố mới đây vào năm 2014 [56] Trong nghiên cứu này, các tác giả

Trang 26

đã đề cập tới sự khác nhau về thời lượng và phổ của các nguyên âm giữa các phương ngữ

Họ xây dựng độ đo tỷ lệ F1/F2 và độ dài của nguyên âm để phân biệt các phương ngữ

Phụ âm đã được xem là thông tin định danh phương ngữ giúp phân biệt giọng người nước ngoài và các giai tầng xã hội Theo hướng này, William Labov đã tiến hành nghiên cứu sự khác nhau của các giọng theo phương diện xã hội học [173, 174] Trong nghiên cứu này, tác giả sử dụng sự khác nhau trong cách phát âm phụ âm "r" khi đi sau một nguyên âm như các từ "bar", "sort", "churn" Đây là cách đơn giản để phân biệt tiếng Anh-Mỹ và Anh-Anh [173, 174]

Tóm lại, các nghiên cứu đã chỉ ra rằng phụ âm và khoảng cách nguyên âm là những đặc trưng quan trọng trong phân biệt phương ngữ và có thể được sử dụng như các tham số cho hệ thống nhận dạng phương ngữ

2) Nhận dạng phương ngữ sử dụng các đặc trưng về âm học và âm vị

Mô hình âm học đã được quan tâm và đề cập tới trong nhiều công trình nghiên cứu hàng thập kỷ qua cho cả nhận dạng ngôn ngữ và định danh người nói Đây là cách tiếp cận đơn giản và cho kết quả tương đối tốt Trong nhận dạng phương ngữ, mô hình âm học được sử dụng với giả thiết rằng sự khác biệt của các phương ngữ thể hiện trong phân bố phổ tiếng nói của phương ngữ Có nhiều nghiên cứu nhận dạng phương ngữ sử dụng các đặc trưng âm học và âm vị đã được thực hiện như [19, 28, 50, 136, 146]

1.2.2.2 Theo phương diện của phương pháp nhận dạng

Nhiều phương pháp đã được sử dụng trong nhận dạng ngôn ngữ cũng được sử dụng cho nhận dạng phương ngữ như GMM, HMM, Máy hỗ trợ véc tơ SVM (Support Vector Machines), mạng nơ ron NN (Neural Networks), mạng nơ ron sâu DNN (Deep Neural Networks)

1) Mô hình hỗn hợp Gauss

Đến nay, đã có nhiều nghiên cứu sử dụng mô hình GMM để nhận dạng phương ngữ Một trong số đó có thể kể đến là nghiên cứu của Chen, Chang và Wang phân lớp phương ngữ tiếng Trung [29] Mô hình GMM dựa trên các véc tơ đặc trưng MFCC để nhận dạng các giọng Beijing, Shanghai, Guangdong và Taiwan của Trung Quốc Mô hình GMM đã được huấn luyện để nhận dạng được hầu hết các giọng được đưa vào thử nghiệm

Có thể sử dụng các kiểu giọng đã được nhận dạng để lựa chọn mô hình phụ thuộc giọng nói cho hệ thống nhận dạng tiếng nói Tiếp theo, có thể kể đến nghiên cứu của Faria sử dụng GMM để nhận dạng giọng nói có phải là tiếng Anh chuẩn hay không [51] Nghiên cứu này nhằm phân biệt tiếng nói có phải là giọng Anh Mỹ chuẩn hay không từ những người nói tiếng Anh là người Nga, Tây Ban Nha, Pháp, Đức, Trung Quốc, Ấn Độ và từ một số nước khác Nghiên cứu này dựa trên các đặc trưng về từ vựng để nhận dạng giọng của người nói Các thử nghiệm được thực hiện trên bộ ngữ liệu Fisher với độ chính xác nhận dạng đạt 84,5% cho giọng chuẩn

Trang 27

2) Mô hình Markov ẩn

Mô hình Markov ẩn HMM coi phương ngữ như là quá trình ngẫu nhiên có thể chuyển từ trạng thái này sang trạng thái khác với các xác suất khác nhau Mỗi trạng thái tương ứng với một xử lý từ đó có thể chuyển sang trạng thái mới với xác suất mới Trạng thái được gọi là ẩn là những trạng thái mà việc nhận dạng cho phép tìm ra chúng HMM được huấn luyện theo một đặc trưng cụ thể Với phương ngữ, các mô hình được thành lập

và hiệu chỉnh cho từng phương ngữ khác nhau Tiếng nói cần được nhận dạng sau đó sẽ đem so khớp với từng mô hình và đánh giá bằng điểm số Mô hình cho điểm số cao nhất được chọn và phương ngữ tương ứng với mô hình đã huấn luyện là kết quả nhận dạng

Nghiên cứu của Nancy F Chen, Wade Shen, Joseph P Campbell, Pedro A Carrasquillo sử dụng mô hình HMM nhận dạng phương ngữ tiếng Ả rập dựa trên đặc điểm phát âm của từng phương ngữ [28] Một mô hình HMM được sử dụng để dóng các âm vị với các âm của từng phương ngữ cụ thể để mô tả hiện tượng chèn, thay thế và xóa xuất hiện khi nào với mức độ thường xuyên ra sao Cây quyết định được sử dụng để tìm ra quy luật ngữ âm phụ thuộc ngữ cảnh Các tác giả đã tiến hành nhận dạng cho bốn phương ngữ của tiếng Ả rập Kết quả nhận dạng sử dụng mô hình được đề xuất cho kết quả nhận dạng tương đối tăng 21-36% so với mức cơ sở

Torres-Cũng sử dụng HMM nhận dạng phương ngữ, Fadi Biadsy và các cộng sự sử dụng

mô hình ràng buộc âm vị nhận dạng năm phương ngữ tiếng Ả rập [20] Nhóm tác giả đã sử dụng HMM toolkit (HTK) để tiến hành các thử nghiệm Các mô hình âm học được xây dựng sử dụng HMM ba trạng thái liên tục với hỗn hợp 12 thành phần Gauss cho mỗi trạng thái Các tác giả đã trích chọn đặc trưng bao gồm 12 hệ số MFCC trên mỗi khung tiếng nói

có độ dài 25ms và độ dịch chuyển khung là 10ms Mỗi véc tơ đặc trưng có kích thước là 39 bao gồm 13 đặc trưng (12 hệ số MFCC với một giá trị năng lượng), 13 giá trị đạo hàm bậc nhất và 13 giá trị đạo hàm bậc hai của 13 đặc trưng ban đầu Các thử nghiệm được thực hiện trên bộ ngữ liệu Broadcast News TDT4 (47,61 giờ tiếng nói với tần số lấy mẫu là

8 kHz) Kết quả nhận dạng phương ngữ đạt độ chính xác tổng thể là 81,60% với độ dài tiếng nói nhận dạng là 30 giây

3) Mô hình máy hỗ trợ véc tơ

Máy hỗ trợ véc tơ (SVM) cũng là một trong các bộ phân lớp hiệu quả thường được dùng gần đây SVM có thể phân chia các đối tượng thành hai lớp bằng một đường biên với khoảng trống lề vừa đủ Một trong các ưu điểm chính của SVM là ngay cả khi không thể phân chia một cách tuyến tính các nhóm thì các nhóm này có thể được thay đổi bằng cách

sử dụng hàm nhân (kernel function) với các khoảng cách lề khác và khi đó chúng có thể phân chia được

SVM đã được sử dụng để phân biệt phương ngữ tiếng Anh - Trung, Anh - Ấn Độ

và Anh - Canada [65], nhận dạng phương ngữ và cảm xúc tiếng Hindi [136] Trong nghiên cứu [136], các tác giả xây dựng hai hệ thống nhận dạng phương ngữ và nhận dạng cảm xúc độc lập với nhau Hệ thống nhận dạng phương ngữ sử dụng đặc trưng về phổ, độ dài âm

tiết, đường bao tần số cơ bản F0 và đường bao năng lượng Các mô hình được huấn luyện

Trang 28

cho năm phương ngữ cần nhận dạng là Chattisgharhi (C), Bengali (B), Marathi (M), General (G) và Telugu (T) Trường hợp chỉ sử dụng đặc trưng phổ, tỷ lệ nhận dạng đúng khoảng 64% Tỷ lệ nhận dạng trung bình đạt được trong trường hợp sử dụng độ dài âm tiết, tần số cơ bản và năng lượng lần lượt là 58%, 64% và 49% Trường hợp kết hợp đồng thời các tham số trên cho tỷ lệ nhận dạng đúng đến 81%

4) Mô hình mạng nơ ron

Trong quá trình tìm kiếm các mô hình mới, hiệu quả thay thế cho con người trong nhận dạng, người ta đã khám phá ra một số mô hình mạng nơ ron (NN) có khả năng sử dụng trong các hệ thống xử lý tiếng nói [135] Các mô hình ngôn điệu dựa trên mạng nơ ron đã chứng minh là có khả năng nắm bắt được các thông tin về ngôn điệu cụ thể của người nói, ngôn ngữ và các loại đơn vị âm thanh [135] Với kết quả rất hứa hẹn, các mô hình ngôn điệu được đề xuất mở rộng cho các mô hình thông thường nhằm nâng cao hiệu năng cho các hệ thống nhận dạng ngôn ngữ, nhận dạng tiếng nói và nhận dạng người nói Ngoài ra, các nghiên cứu cũng chỉ ra rằng các mô hình ngôn điệu có thể nâng cao chất lượng của hệ thống tổng hợp tiếng nói Nghiên cứu của K Sreenivasa Rao và Shashidhar G Koolagudi sử dụng mạng nơ ron nhận dạng phương ngữ tiếng Hindi (năm 2011) cho tỷ lệ nhận dạng đúng phương ngữ lên đến 81% [136] Trong nghiên cứu này các tác giả sử dụng

mô hình AANN (Auto-Associative Neural Network) bao gồm năm lớp Lớp thứ nhất và lớp thứ năm lần lượt là lớp vào và lớp ra Các lớp ẩn bao gồm lớp thứ ba đến lớp thứ tư Số lượng nơ ron ở các lớp khác nhau Hàm kích hoạt ở lớp vào và lớp ra là hàm tuyến tính còn

hàm kích hoạt ở các lớp ẩn là hàm phi tuyến tanh(s) trong đó s là giá trị kích hoạt Cũng sử

dụng mạng nơ ron, Sinha, S và đồng sự đã xây dựng mô hình mạng nơ ron nạp trước bao gồm hai lớp để nhận dạng phương ngữ tiếng Hindi [148] Các tác giả đã thử nghiệm nhận dạng cho các phương ngữ chính của tiếng Hindi bao gồm Khariboli, Bhojpuri, Haryanvi và Bagheli với ngữ liệu được thu thập từ 15 người nói bao gồm cả nam và nữ cho mỗi phương ngữ Nghiên cứu này sử dụng các đặc trưng của tiếng nói bao gồm phổ và ngôn điệu cho

độ chính xác nhận dạng đạt 79%

5) Mô hình mạng nơ ron sâu

Mạng nơ ron sâu (DNN) là mạng nơ ron nhân tạo ANN (Artificial Neural Network) với nhiều lớp ẩn nằm giữa lớp vào và lớp ra DNN thường được thiết kế theo kiểu mạng nạp trước Các nghiên cứu gần đây đạt được các thành công lớn với kiến trúc mạng hồi quy cho các ứng dụng như mô hình hóa ngôn ngữ [141], nhận dạng tiếng nói [64], định danh ngôn ngữ [99, 152] DNN đã được nghiên cứu ứng dụng trong nhận dạng phương ngữ JING Ya-peng cùng nhóm nghiên cứu đã sử dụng DNN huấn luyện có giám sát nhận dạng phương ngữ tiếng Trung [84] Các tác giả đã thực hiện nghiên cứu của mình dựa trên việc chỉnh sửa phần mềm QuickNet và sử dụng DNN với phương pháp tiền huấn luyện xây dựng các lớp mạng cho DNN Bước tiền huấn luyện được khởi đầu là một mạng gồm 3 lớp cho đến khi đạt được lớp tối đa Các trọng số khởi đầu của một lớp mạng mới là kết hợp một phần trọng số của lớp đã huấn luyện trước đó với các trọng số ngẫu nhiên gần với lớp

Trang 29

ra Tiếp theo, sử dụng phương pháp huấn luyện lan truyền ngược truyền thống để huấn luyện mạng sau khi đã khởi tạo trọng số cho tối đa các lớp mạng

6) Một số phương pháp khác

Ngoài ra, có thể kể đến một số phương pháp khác được dùng trong nhận dạng phương ngữ như hiệp biến thống kê (Statistical Covariance), GPU (Graphics Processing Units) Kỹ thuật phân cụm cũng là một hướng tiếp cận hiệu quả trong nhận dạng phương ngữ [112] Trong nghiên cứu của mình, N Nagy và các thành viên đã thực hiện phân cụm các phương ngữ sử dụng các đặc trưng âm vị chung của chúng Cũng có những nghiên cứu nhằm tăng tốc hệ thống nhận dạng bằng cách sử dụng công nghệ mới Nghiên cứu của Hanani sử dụng các bộ xử lý đồ họa (GPU) để tăng tốc độ xử lý của bộ nhận dạng [68]

1.3 Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ

tiếng Việt

Nghiên cứu về nhận dạng tiếng Việt nói đã được một số nhà nghiên cứu trong và ngoài nước thực hiện Các nghiên cứu đã được thực hiện cho tiếng nói rời rạc và tiếng nói liên tục

Để làm tiền đề cho các nghiên cứu sau này đối với tiếng Việt nói, trước tiên hệ thống nguyên âm tiếng Việt đã được phân tích để xác định các đặc trưng cơ bản như phân

bố formant [163], quy luật biến thiên thanh điệu Đối với nhận dạng tiếng Việt nói, đã có các nghiên cứu như nhận dạng từ tiếng Việt phát âm rời rạc, số lượng từ vựng hạn chế [31, 120] Nghiên cứu về hệ thống nhận dạng các số phát âm liên tục bằng tiếng Việt thực hiện

ở [121] Nhóm tác giả đã thử nghiệm trên 442 câu với 2340 từ tiếng nói phát âm qua đường điện thoại Kết quả thử nghiệm cho thấy khả năng nhận dạng đạt tới 96,83% các từ chính xác và 87,67% các câu được nhận dạng đúng Gần đây, có các nghiên cứu nhận dạng tiếng Việt phát âm liên tục độc lập người nói có số lượng từ vựng lớn (7000 âm tiết tương ứng khoảng 40000 từ) [115, 116, 117, 118] Nghiên cứu trong [156] là nhận dạng tiếng nói liên tục tiếng Việt vốn từ vựng lớn, sử dụng bộ công cụ HTK trên cơ sở dữ liệu âm thanh thu từ các đài truyền thanh VOV Trong trường hợp này, độ chính xác nhận dạng được cải thiện đến 10% và sai số liên quan giảm 36,5% Hệ thống nhận dạng tiếng Việt nói cũng đã được thực hiện được bằng hệ nhúng và hoạt động trên thời gian thực [4] Nghiên cứu nhận dạng cho ngôn ngữ các nước Đông Nam Á bao gồm tiếng Trung, tiếng Thái và tiếng Việt

đã được thực hiện theo cách tiếp cận mới [164] Theo đó, các tác giả đã thực hiện nhận dạng ở mức từ thay vì mức âm tiết như một số nghiên cứu đã có trước đây Kiến trúc FlaVoR bao gồm 2 lớp được sử dụng để nhận dạng Lớp thứ nhất có chức năng tìm kiếm các nguyên âm đơn Lớp thứ hai thực hiện nhiệm vụ giải mã từ Thử nghiệm trên tiếng Việt (dữ liệu âm thanh lấy từ các bản tin thời sự Việt Nam- VNBN) cho thấy cách tiếp cận này vừa hiệu quả lại linh hoạt

Trang 30

Nhiều mô hình, công nghệ, giải pháp khác nhau đã được nghiên cứu và thử nghiệm trong hệ thống nhận dạng tiếng nói tự động trong đó mô hình HMM được ứng dụng khá phổ biến Theo nội dung nghiên cứu được công bố tại [117], các tác giả đã sử dụng mô hình HMM trong nhận dạng các giọng của tiếng Việt nói phát âm liên tục Từ các thực

nghiệm, nhóm tác giả đã chỉ ra phương pháp tốt nhất để học F0 và năng lượng là sử dụng

hàm biến đổi logarit đồng thời cũng chỉ ra việc sử dụng 8 mẫu giọng (thay vì 6 giọng theo cách bỏ dấu) và sự khác biệt giữa giọng nam và giọng nữ của người nói để tăng độ chính xác của hệ thống nhận dạng tiếng Việt nói

Về phương diện ngôn ngữ, tiếng Việt và phương ngữ tiếng Việt đã có nhiều nghiên cứu được tổng hợp trong công trình của tác giả Hoàng Thị Châu [2], các tác giả khác như Hoàng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến [3], Trần Thị Ngọc Lang [162], Võ Xuân Trang [171] Tuy nhiên, nghiên cứu phương ngữ tiếng Việt theo phương diện xử lý tín hiệu còn rất hạn chế

1.4 Một số mô hình nhận dạng

1.4.1 Mô hình GMM

Phân bố Gauss còn go ̣i là phân bố chuẩn, đươ ̣c sử du ̣ng rô ̣ng rãi cho viê ̣c mô hình

hóa các phân bố của các biến liên tu ̣c Trong trường hơ ̣p véc tơ 𝑿 là một chiều, phân bố Gauss có thể đươ ̣c viết dưới da ̣ng:

𝑔(𝑿|𝝁, 𝚺) = 1

(2𝜋𝚺)1/2exp {− 1

2𝚺(𝑿 − 𝝁)

Trong đó 𝝁 là trung bình, 𝚺 là phương sai Trường hợp véc tơ 𝑿 có D chiều, phân

bố Gauss đa thể hiện có da ̣ng:

Trong đó 𝝁 là véc tơ trung bình có D chiều, 𝚺 là ma trâ ̣n hiê ̣p phương sai có kích

thước 𝐷 𝑥 𝐷, |𝚺| là đi ̣nh thức của 𝚺

Phân bố Gauss tương ứ ng với nhiều bối cảnh khác nhau và có thể đươ ̣c sử du ̣ng trong những tình huống rất đa da ̣ng Chẳng ha ̣n với trường hợp biến là một chiều và thực, phân bố Gauss là phân bố cực đa ̣i hóa entropy Phân bố Gauss đa chiều cũng có thuô ̣c tính

này

Mô hình hỗn hợp Gauss đa thể hiện (multi-variate) GMM được biết đến là một trong các mô hình có khả năng phân lớp rất tốt đã được sử dụng trong các nghiên cứu về nhận dạng người nói [80], định danh các phương ngữ tiếng Anh [159], tiếng Trung [102], tiếng Thái [149], tiếng Hindi [146], nhận dạng ngôn ngữ [25, 160] Lý do tại sao GMM thường được dùng trong nhận dạng người nói, định danh ngôn ngữ và định danh phương

Trang 31

ngữ có thể được suy diễn như sau Ngay cả trong trường hợp không nghe rõ nội dung câu nói, con người vẫn có khả năng cảm nhận đang nghe giọng người, ngôn ngữ, phương ngữ nào mà mình đã biết Trong trường hợp như vậy, thông tin tổng quát hay đường bao thông tin về ngữ âm đã giúp con người nhận ra giọng, ngôn ngữ, phương ngữ mà chưa cần dùng đến các thông tin chi tiết khác về nội dung cũng như về ngữ âm mà người nói truyền tải Bằng cách lựa chọn thích hợp số các thành phần phân bố Gauss, điều chỉnh trung bình

và phương sai của chúng cũng như các trọng số trong tổ hợp tuyến tính, GMM có thể xấp

xỉ phần lớn các mật độ phân bố liên tục với độ chính xác tùy chọn Cũng chính vì vậy, GMM cho phép mô hình hóa chỉ các phân bố cơ bản của cảm nhận về ngữ âm của người nói hay cũng là cảm nhận đường bao thông tin ngữ âm đã nói ở trên Yếu tố của phép trung bình trong khi xác định mô hình GMM có thể loại đi các nhân tố chi tiết ảnh hưởng đến đặc trưng âm học như biến thiên ngữ âm theo thời gian của người nói khác nhau và chỉ giữ lại những gì là đặc trưng cơ bản cho giọng vùng, miền như trong trường hợp định danh phương ngữ Mặt khác, việc sử dụng GMM như là hàm khả hiện sẽ cho phép tính toán không tốn kém, dựa trên mô hình thống kê đã được biết rõ

Một mô hình hỗn hợp Gauss đa thể hiện là tổng có trọng số của M thành phần mật

độ Gauss như biểu thức (1.3):

𝑝(𝑿|𝜆) = ∑ 𝜋𝑖 𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊)

𝑀

𝑖=1

(1.3)

Trong (1.3), 𝑿 là véc tơ dữ liệu (chứa tập các véc tơ tham số của đối tượng cần biểu

diễn, mỗi phần tử của tập giả thiết có kích thước D), πi, i=1, , M là các trọng số của hỗn

hợp và 𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊) là các hàm mật độ Gauss thành phần theo biểu thức (1.4) với véc tơ trung bình 𝝁𝒊 của véc tơ kích thước D và ma trận hiệp phương sai 𝚺𝒊 kích thước DxD

𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊) = 1

(2𝜋)𝐷/2|𝚺𝒊|1/2 𝑒𝑥𝑝 {−1

2 (𝑿 − 𝝁𝒊)

𝑇𝚺𝒊−1(𝑿 − 𝝁𝒊)} (1.4) Các trọng số hỗn hợp cần thỏa mãn điều kiện ∑𝑀𝑖=1𝜋𝑖 = 1

Một GMM đầy đủ được tham số hóa bởi véc tơ trung bình, ma trận hiệp phương sai

và các trọng số hỗn hợp từ tất cả các thành phần Gauss Các tham số này có thể được biểu diễn gọn lại theo (1.5):

Trang 32

Giả thiết 𝑇 là số lượng véc tơ đặc trưng hay cũng là toàn bộ số lượng khung (frame)

tiếng nói, M là số thành phần Gauss:

Ý tưởng của thuật giải EM là bắt đầu với mô hình khởi đầu λ, đánh giá mô hình mới 𝜆̅ sao cho

Mô hình mới lại là mô hình khởi đầu cho bước lặp tiếp theo và quá trình lặp lại cho đến khi ngưỡng hội tụ đạt được Trên thực tế, thuật giải cực đại hóa kỳ vọng là đi tìm 𝜆sao cho log 𝑝(𝑿|𝜆) của dữ liệu 𝑿 đạt cực đại

Trong trường hợp thử nghiệm nhận dạng phương ngữ tiếng Việt với mô hình GMM, véc tơ 𝒙𝑡 sẽ chứa các tham số đặc trưng của tín hiệu tiếng nói như hệ số MFCC, các

tham số liên quan đến F0, formant và dải thông tương ứng

1.4.2 Bộ phân lớp SVM

SVM cơ bản là một bộ phân lớp nhị phân phi tuyến có khả năng đoán nhận liệu một

véc tơ vào x thuộc về lớp 1 (khi đó đầu ra mong muốn là y = +1) hoặc thuộc lớp 2 (y = -1)

[150] Lần đầu tiên thuật giải phân lớp này được đề xuất là vào năm 1992 [21] và là phiên bản phi tuyến của thuật giải tuyến tính cũ hơn nhiều, cũng chính là thuật giải về luật quyết định siêu phẳng tối ưu (còn gọi là thuật giải hướng dọc tổng quát), đã được giới thiệu vào những năm 60

Cho một tập dữ liệu khả tách, mục đích là tìm ra hàm quyết định tối ưu Có thể dễ dàng nhận thấy, có vô số lời giải tối ưu cho bài toán này, nghĩa là chúng có thể tách các mẫu huấn luyện với sai số bằng không Tuy nhiên, bởi vì ta cần tìm hàm quyết định có khả năng tổng quát hóa cho những mẫu chưa biết, nên có thể nghĩ tới các tiêu chí bổ sung để tìm ra lời giải tốt nhất trong số các lời giải có sai số bằng không Nếu đã biết mật độ xác suất của các lớp, có thể dùng tiêu chí cực đại hậu nghiệm (Maximum a Posteriori - MAP)

để tìm lời giải tối ưu Tiếc là, trong phần lớn trường hợp thực tế, thông tin này không có sẵn Vì vậy, có thể áp dụng tiêu chí khác đơn giản hơn: trong số những hàm không có sai

số huấn luyện, sẽ chọn ra hàm có lề cực đại với lề là khoảng cách giữa mẫu gần nhất và ranh giới quyết định được xác định bởi hàm đó Tất nhiên, tối ưu theo nghĩa lề cực đại

Trang 33

không nhất thiết đi với tối ưu theo nghĩa tối thiểu hóa số sai số khi kiểm thử, nhưng là tiêu chí đơn giản cho lời giải tốt nhất trên thực tế đối với nhiều bài toán [49]

lớp được giả thiết là khả tách tuyến tính Véc tơ w biểu diễn cho siêu phẳng phân tách

trong không gian như vậy Cần lưu ý rằng, nghĩa của không gian đặc trưng ở đây không liên quan đến không gian đặc trưng của tiếng nói thường được gọi là không gian vào

Mặt khác, 𝑟𝑥 là khoảng cách giữa các mẫu được biến đổi ∅(𝒙𝑖) và siêu phẳng phân tách, còn ‖𝑤‖ là chuẩn Ơ-Clít của 𝒘 Gọi véc tơ hỗ trợ là những véc tơ gần biên quyết định nhất Các véc tơ này xác định lề và là các mẫu duy nhất cần dùng để tìm ra lời giải

Như vậy, với mỗi mẫu x i ta có 𝑟𝑥 = 𝑓(𝒙𝑖)/||𝑤|| Do đó, mục đích là tìm ra bộ phân lớp tối

ưu được thực hiện bằng cách tối tiểu hóa ‖𝑤‖ cho tất cả các mẫu được phân lớp đúng, tức là:

Để có được bộ phân lớp với khả năng tổng quát hóa tốt hơn và có thể xử lý được trường hợp không khả tách, nên cho phép một số lượng dữ liệu nào đó bị phân loại nhầm Điều này được thực hiện bằng cách đưa ra điểm phạt tùy thuộc vào hàm được tối thiểu hóa:

Trang 34

Yêu cầu là 𝑦𝑖(𝒘𝑇 ∅(𝒙𝑖) + 𝑏) ≥ 1 − 𝜉𝑖 , 𝜉𝑖 ≥ 0 , với i=1,…,N,

Ở đây, 𝒙𝑖 ∈ ℜ𝑛 (i=1,…,N) là các véc tơ huấn luyện tương ứng với nhãn

𝑦𝑖 ∈ {±1}, còn các biến 𝜉𝑖 được gọi là các biến nới lỏng (slack) cho phép sai số nhất định

có được lời giải trong trường hợp không khả tách 𝜉𝑖 thỏa mãn 0 ≤ 𝜉𝑖 ≤ 1 cho các mẫu được phân lớp tốt nhưng trong lề và 𝜉𝑖 > 1 cho các mẫu bị phân lớp sai Mặt khác, số hạng

C biểu diễn cho sự thỏa hiệp giữa số sai số huấn luyện và khả năng tổng quát hóa

Bài toán này thường được giải quyết bằng cách đưa ra ràng buộc cho hàm cần tối thiểu hóa với việc sử dụng nhân tử Lagrange, dẫn tới việc cực đại hóa của đối ngẫu Wolfe:

Yêu cầu là ∑ 𝛼𝑖𝑦𝑖 = 0 𝑣à 0 ≤ 𝛼𝑖 ≤ 𝐶

𝑛

𝑖=1

(1.12) Đây là bài toán lồi bậc 2, vì vậy sự hội tụ tới cực tiểu toàn cục sẽ được đảm bảo bằng cách sử dụng sơ đồ quy hoạch toàn phương (Quadratic Programming - QP) Biên quyết định cuối cùng 𝒘 được cho bởi:

Nói chung, không biết hàm ∅(𝑥𝑖) một cách tường minh (thực tế, trong phần lớn các trường hợp, không thể đánh giá hàm này chừng nào mà kích thước của không gian đặc trưng còn là vô hạn) Tuy nhiên, thực ra không cần phải biết hàm này, bởi vì chỉ cần đánh giá các tích điểm ∅𝑇(𝑥𝑖) ∅(𝑥𝑗) bằng cách sử dụng thủ thuật kernel, trong đó tích này có thể được đánh giá bằng cách dùng hàm 𝐾(𝑥𝑖, 𝑥𝑗)

Có nhiều cài đặt SVM tính hàm này cho mỗi cặp của các mẫu vào bằng cách tạo ra

ma trận kernel lưu trong bộ nhớ

Bằng cách sử dụng phương pháp này và thay 𝒘 ở (1.9) bằng biểu thức (1.13), dạng cuối cùng của SVM như sau:

𝑓(𝒙) = ∑ 𝛼𝑖𝑦𝑖𝐾(𝒙𝑖, 𝒙) + 𝑏

𝑛

𝑖=1

Các hàm kernel được sử dụng rộng rãi nhất là:

- Hàm kernel tuyến tính đơn giản (Linear Kernel):

Trang 35

Không gian đặc trưng liên kết với nó là đa thức cho tới bậc p

- Hàm kernel sigmoid (sigmoid kernel):

có Điều này được gọi là tối thiểu hóa rủi ro (Risk Minimization - RM) Tuy nhiên, trong các bài toán phân lớp điển hình, ta chỉ có số lượng giới hạn các mẫu sẵn có (trong một số trường hợp có thể có một số lượng vô hạn các mẫu mà ta cũng chỉ có thể làm với một tập con) và vì vậy, tất cả những điều có thể làm được là cố gắng cực tiểu số lượng phân lớp nhầm trong tập huấn luyện Điều này được gọi tối thiểu hóa rủi ro theo kinh nghiệm (Empirical Risk Minimization - ERM) và phần lớn các bộ phân lớp đều dựa trên ERM cho tiến trình học

Mặc dầu vậy, việc có bộ phân lớp với ERM tốt (hoặc thậm chí là muốn như vậy) là không đủ Tính phức tạp của các bộ phân lớp thường phải được cố định từ trước và vì vậy, hoặc có thể lựa chọn một cấu trúc quá đơn giản nên không thể mô hình hóa một cách đúng đắn biên phân lớp của bài toán, hoặc lại quá phức tạp, vượt trên mức tập huấn luyện và không thể tổng quát hóa các mẫu thiếu Điều này được gọi là rủi ro cấu trúc và một bộ phân lớp tốt phải duy trì được sự thỏa hiệp giữa các ERM và SRM (Structural Risk Minimization - tối thiểu hóa rủi ro cấu trúc)

Với SVM, không cần phải cố định trước độ phức tạp của máy sinh ra, nhưng có một tham số (là 𝐶 trong phương trình (1.11)) sẽ thiết lập thỏa hiệp giữa ERM và SRM

Trang 36

Tiếc là không có phương pháp nào để biết trước giá trị thích hợp nhất cho tham số này Vì vậy, phải chọn ra tham số này bằng quá trình tìm kiếm

Một số phương pháp huấn luyện SVM:

Do có kích thước rất lớn, bài toán QP sinh ra từ SVM không thể dễ dàng giải được thông qua các kỹ thuật QP chuẩn Dạng bậc hai trong (1.12) kéo theo ma trận có số phần tử bằng bình phương mẫu huấn luyện Ma trận này không thể chứa gọn trong 128 MB bộ nhớ nếu có nhiều hơn 4000 mẫu huấn luyện (giả thiết là mỗi phần tử được lưu trữ như là một số chính xác kép 8-byte)

Vapnik [166] mô tả một phương pháp để giải bài toán QP SVM mà từ đó có tên gọi

là phân khúc dữ liệu ("chunking") Có một yếu tố mà thuật giải chunking sử dụng là giá trị của dạng bình phương là như nhau nếu bỏ các hàng và cột của ma trận tương ứng với các nhân tử Lagrange bằng không Do vậy, bài toán QP lớn có thể được chia thành một loạt các bài toán QP nhỏ hơn, mà mục đích cuối cùng của các bài toán này là tìm ra tất cả các nhân tử Lagrange khác không và loại bỏ tất cả các nhân tử Lagrange bằng không Ở mỗi bước, việc phân khúc dữ liệu sẽ giải bài toán QP bao gồm các mẫu sau: mỗi một nhân tử

Lagrange khác không từ bước trước và các mẫu xấu nhất M vi phạm các điều kiện KKT [53] với một giá trị nào đó của M (Hình 1.2) Nếu có ít hơn M mẫu vi phạm các điều kiện

KKT ở một bước nào đấy, tất cả các mẫu vi phạm sẽ được thêm vào Mỗi bài toán nhỏ QP được khởi tạo với kết quả của bài toán nhỏ trước đó Kích thước của bài toán QP nhỏ tăng theo thời gian, nhưng cũng có thể giảm Tại bước cuối cùng, toàn bộ tập các nhân tử khác không Lagrange đã được tìm thấy; vì vậy bước cuối cùng giải được bài toán QP lớn

Việc phân khúc dữ liệu làm giảm rõ rệt kích thước của ma trận từ bình phương số mẫu huấn luyện xuống gần bằng bình phương số nhân tử Lagrange khác không Tuy nhiên, ngay cả khi kích thước ma trận đã được giảm mà vẫn không chứa gọn được vào bộ nhớ nên chunking còn chưa thể giải được các bài toán huấn luyện cỡ lớn Một cách để giải bài toán này là dùng cấu trúc dữ liệu phức tạp đối với phương pháp QP Cấu trúc dữ liệu như thế tránh được việc cần phải lưu trữ toàn bộ Hessian Các vòng lặp trong của các phương pháp QP như vậy thực hiện các tích điểm giữa các véc tơ và các hàng (hoặc cột) của Hessian, thay vì nhân ma trận véc tơ đầy đủ

Osuna [126] đã gợi ý một chiến lược mới để giải bài toán QP SVM Osuna chỉ ra rằng bài toán QP lớn có thể được chia thành một loạt các bài toán con QP nhỏ hơn Chỉ cần

ít nhất một mẫu vi phạm các điều kiện KKT được thêm vào các mẫu đối với bài toán con trước đó thì mỗi bước sẽ giảm hàm mục tiêu tổng thể và duy trì một điểm khả thi tuân theo tất cả các ràng buộc Do vậy, dãy các bài toán con QP luôn luôn bổ sung ít nhất một phần

tử vi phạm sẽ tiệm cận hội tụ

Osuna và các cộng sự đề nghị giữ một ma trận kích thước không đổi cho mỗi bài toán con QP, kéo theo việc bổ sung và loại bỏ cùng một số mẫu ở mỗi bước (Hình 1.2) [126, 130] Bằng cách sử dụng ma trận có kích thước không đổi sẽ cho phép huấn luyện các tập dữ liệu có kích thước tùy ý Thuật giải của Osuna [126] gợi ý việc thêm vào một mẫu và bớt một mẫu ở mỗi bước Trên thực tế, việc thêm hoặc bớt các mẫu sử dụng các kỹ

Trang 37

thuật khác nhau Trong bất cứ trường hợp nào, tất cả các phương pháp này cũng cần phải giải bài toán QP Việc có được lời giải đúng đối với bài toán QP là rất khó khăn nên cần đưa ra nhiều mức độ chính xác khác nhau

Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM:

Chunking, Osuna và SMO

Trên Hình 1.2 [130], mỗi phương pháp được minh họa 3 bước Đường mảnh nằm ngang ở mỗi bước biểu diễn cho tập huấn luyện, trong khi đó các hộp biểu diễn cho các nhân tử Lagrange đã được tối ưu ở bước đó Nhóm ba đường tương ứng với ba bước lặp huấn luyện, lần lặp thứ nhất ở trên cùng

Một số ưu thế và các bất lợi của SVM:

Các ưu thế của SVM có thể kể đến là:

- Có lời giải duy nhất và sự hội tụ được đảm bảo (các lời giải được tìm ra bằng phương pháp tối thiểu hóa hàm lồi) Đây là ưu thế so với các bộ phân lớp khác chẳng hạn ANN thường rơi vào tối thiểu cục bộ hoặc không hội tụ tới một giá trị ổn định

- Lời giải với lề cực đại làm cho SVM trở nên mạnh hơn và rất thích hợp cho các ứng dụng như nhận dạng tự động tiếng nói (ASR) trong môi trường có nhiễu

- Bởi vì trong quá trình cực tiểu hóa chỉ có ma trận kernel là liên quan, nên có thể thực hiện với các véc tơ vào có số chiều lớn, cũng như có thể tính toán được các kernel tương ứng Trong thực tế, có thể thực hiện điều này với các véc tơ có số chiều đến hàng nghìn

Trong số các bất lợi, có thể nêu bật các điểm sau:

- Phần lớn việc cài đặt của thuật giải SVM cần phải tính toán và lưu trữ trong bộ nhớ ma trận kernel đầy đủ của tất cả các mẫu vào Thao tác này có không gian

phức tạp O(n2) và là một trong những vấn đề chính của thuật giải dẫn tới hạn chế việc áp dụng chúng cho cơ sở dữ liệu tiếng nói rất lớn Phần lớn các cài đặt cho phép làm việc với vài nghìn mẫu Tuy nhiên, một số biến thể của thuật giải đang được phát triển sẽ cho phép làm việc với hàng triệu mẫu [113]

Trang 38

- Tính tối ưu của lời giải nhận được có thể phụ thuộc vào kernel đã sử dụng và không có phương pháp nào để biết trước kernel nào là tốt nhất cho một thao tác

cụ thể Mặc dù các kernel như RBF được xem như là phổ quát, vẫn cần phải thực hiện tìm kiếm dựa theo lưới để cố định tất cả các tham số của SVM

- Như đã nói ở trên, giá trị tốt nhất cho tham số C cũng không được biết từ đầu

- Giống như ANN, các véc tơ vào của SVM với việc thiết lập như đã thấy phải có kích thước cố định Đây là vấn đề đối với nhận dạng tiếng nói trong đó mỗi một dãy cần được nhận dạng đều có một thời hạn khác nhau

Mặc dù có những bất lợi này, SVM vẫn có đủ sức thu hút để sử dụng trong các ứng dụng khác nhau và đặc biệt là nhận dạng tiếng nói

1.4.3 Mạng nơ ron nhận tạo

Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) thường gọi tắt là mạng nơ-ron (Neural network) là mô hình toán học hay hệ thống xử lý thông tin được xây dựng dựa trên cơ sở tổng quát hóa mô hình toán học của nơ-ron thần kinh sinh học và phỏng theo cơ chế làm việc của bộ não người

Mô hình nơ-ron:

Mỗi nơ-ron là một đơn vị xử lý thông tin trong mạng nơ-ron Mô hình của nơ-ron trên Hình 1.3 [147] bao gồm 3 thành phần chính:

Hình 1.3: Mô hình một nơ-ron

1 Tập các liên kết thần kinh (synapses) hay các đường kết nối có trọng số Mỗi tín

hiệu x j ở đầu vào của liên kết thứ j được kết nối với nơ-ron k được nhân với trọng

số w kj Chỉ số thứ nhất (k) tham chiếu đến nơ-ron được đề cập đến và chỉ số thứ hai (j) tham chiếu đến liên kết tương ứng qua trọng số Không giống liên kết trong bộ

não, trọng số liên kết của nơ-ron nhân tạo có thể nằm trong một phạm vi bao gồm

cả các giá trị âm và giá trị dương

2 Một bộ cộng để lấy tổng các tín hiệu vào đã được đánh trọng số Các thao tác được

mô tả ở đây tạo nên bộ tổ hợp tuyến tính

Trang 39

3 Một hàm kích hoạt hay còn gọi là hàm kích hoạt (Activation Function) để hạn chế

độ đầu ra của nơ-ron Hàm kích hoạt cũng được xem như là hàm chặn (Squashing Function) để ép phạm vi biên độ cho phép của tín hiệu ra thuộc giá trị hữu hạn nào

đó Thông thường phạm vi biên độ chuẩn hóa đầu ra của nơ-ron được biểu thị dưới dạng khoảng đóng [0,1] hoặc [-1,1]

Mô hình nơ-ron ở Hình 1.3 cũng bao gồm thiên áp từ bên ngoài b k Thiên áp b k

tác dụng làm tăng hoặc giảm mạng đầu vào của hàm kích hoạt tùy thuộc vào giá trị của b k

là dương hay âm tương ứng

Về mặt toán học, nơ-ron k có thể được biểu diễn bằng cặp phương trình:

trong đó đó x 1 , x 2 , …, x m là các tín hiệu vào; w k1 , w k2 , …, w km là trọng số của các

liên kết của nơ-ron k; u k là bộ tổ hợp tuyến tính đầu ra đối với các tín hiệu vào; b k là thiên

áp 𝜑( ) là hàm kích hoạt; và yk là tín hiệu ra của nơ-ron Việc dùng b k có tác dụng làm biến đổi mịn đầu ra u k của bộ tổ hợp tuyến tính trong mô hình (Hình 1.3) như sau:

Đặc biệt, tùy thuộc vào giá trị b k là dương hay âm mà quan hệ giữa trường cảm ứng

cục bộ (induced local field) hay hoạt thế (activation potential) v k của nơ-ron k và đầu ra bộ

tổ hợp tuyến tính u k được thay đổi theo cách như ở Hình 1.4 [147] Lưu ý do phép biến đổi làm mịn mà quan hệ của vk đối với uk không đi qua gốc tọa độ

Thiên áp b k là một tham số bên ngoài của nơ-ron nhân tạo k, có thể tính đến b k như

ở biểu thức (1.20) Một cách tương đương, có thể kết hợp công thức (1.19) với (1.21) thành:

Trang 40

Hình 1.4: Biến đổi làm mịn tạo ra do có thiên áp b k ; lưu ý là v k = b k nếu u k = 0

Công thức (1.22) đã bổ sung một liên kết mới Đầu vào của liên kết này là:

Ngày đăng: 26/04/2021, 15:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w