BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Phạm Ngọc Hưng
NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC
CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT
THEO PHƯƠNG THỨC PHÁT ÂM
Chuyên ngành: Hệ thống thông tin Mã số: 62480104
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TS Trịnh Văn Loan 2 TS Nguyễn Hồng Quang
Trang 22
LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là công trình nghiên cứu của riêng tơi Các số liệu, kết quả trong luận án là trung thực và chưa từng được cơng bố trong bất kỳ cơng trình nào Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN
PGS.TS Trịnh Văn Loan Phạm Ngọc Hưng
Trang 33
LỜI CẢM ƠN
Tơi xin bày tỏ lịng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Công nghệ Thông tin và Truyền thông, Bộ môn Kỹ thuật máy tính, Bộ mơn Hệ thống thơng tin đã tạo điều kiện thuận lợi cho tơi trong q trình học tập tại Trường
Tôi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là PGS.TS Trịnh Văn Loan và TS Nguyễn Hồng Quang Hai Thầy đã ln tận tình giúp đỡ, đưa ra những lời khuyên, những định hướng khoa học rất q báu để tơi có thể triển khai và hồn thành cơng việc nghiên cứu của mình
Xin chân thành cảm ơn các thầy cô, các đồng nghiệp trong Bộ môn Hệ thống Thông tin, Bộ môn Kỹ thuật máy tính, Viện Cơng nghệ Thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội nơi tôi học tập, thực hiện đề tài nghiên cứu đã nhiệt tình giúp đỡ và động viên tơi trong suốt q trình nghiên cứu
Cảm ơn Khoa Cơng nghệ Thơng tin và Trường Đại học Sư phạm Kỹ thuật Hưng Yên, nơi tôi đang công tác đã luôn tạo điều kiện cho tơi trong suốt q trình nghiên cứu và hồn thành luận án này
Với tấm lòng biết ơn đến các thầy cô, các nhà khoa học, các đồng nghiệp và bạn bè thân hữu đã động viên và giúp đỡ tơi trong q trình nghiên cứu
Cuối cùng tơi muốn bày tỏ lòng biết ơn sâu sắc tới gia đình, nơi ni dưỡng và là nguồn động lực để tơi vượt mọi trở ngại khó khăn để hồn thành luận án này
Trang 44
MỤC LỤC
MỤC LỤC 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 7
DANH MỤC CÁC BẢNG 10
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ 12
MỞ ĐẦU 14
1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN DẠNG PHƯƠNG NGỮ191.1 Nhận dạng tiếng nói 19
1.1.1 Tổng quan về nhận dạng tiếng nói 19
1.1.2 Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói 20
1.1.3 Các thách thức đối với nhận dạng tự động tiếng nói 21
1.1.4 Phân loại hệ thống nhận dạng tự động tiếng nói 22
1.2 Nhận dạng phương ngữ 24
1.2.1 Các mơ hình nhận dạng phương ngữ 24
1.2.2 Nhận dạng phương ngữ theo các phương diện khác nhau 25
1.3 Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt 30
1.4 Một số mơ hình nhận dạng 31
1.4.1 Mơ hình GMM 31
1.4.2 Bộ phân lớp SVM 33
1.4.3 Mạng nơ ron nhận tạo 39
1.5 Kết chương 43
2 XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 45
2.1 Tổng quan phương ngữ tiếng Việt 45
2.1.1 Phương ngữ và phân vùng phương ngữ tiếng Việt 45
2.1.2 Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt 46
2.1.3 Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 472.2 Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt 49
2.2.1 Âm tiết và âm vị trong tiếng Việt 49
Trang 55
2.3 Phụ âm đầu trong phương ngữ tiếng Việt 54
2.3.1 Hệ thống phụ âm đầu 54
2.3.2 So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam 56
2.4 Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt 56
2.4.1 Hệ thống thanh điệu Hà Nội 57
2.4.2 Hệ thống thanh điệu Nghệ - Tĩnh và Huế 57
2.4.3 Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh 58
2.4.4 Một số nhận xét về hệ thống thanh điệu các phương ngữ 59
2.5 Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói 60
2.6 Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng phương ngữ tiếng Việt 60
2.6.1 Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt 62
2.6.2 Chuẩn bị và chuẩn hóa văn bản 62
2.6.3 Ghi âm 64
2.6.4 Kết quả ghi âm và đặc tính VDSPEC 67
2.7 Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC 68
2.7.1 Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ 68
2.7.2 Phân tích thống kê phân bố F0 của các thanh điệu 70
2.7.3 Phân tích dữ liệu dùng LDA 72
2.8 Kết chương 76
3 NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT 78
3.1 Nhận dạng phương ngữ tiếng Việt với GMM 78
3.1.1 Công cụ thử nghiệm nhận dạng phương ngữ ALIZE 78
3.1.2 Lựa chọn số lượng hệ số MFCC 80
3.1.3 Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp MFCC với tham số F0 81
3.1.4 Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp formant, dải thông tương ứng và tham số F0 84
3.1.5 Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng phương ngữ tiếng Việt 85
3.2 SVM nhận dạng phương ngữ tiếng Việt 87
Trang 66
3.2.2 Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO 88
3.3 lBk nhận dạng phương ngữ tiếng Việt 92
3.3.1 Bộ phân lớp IBk 92
3.3.2 Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk 95
3.4 Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron 96
3.4.1 Bộ phân lớp MultilayerPerceptron trong Weka 96
3.4.2 MultilayerPerceptron nhận dạng phương ngữ tiếng Việt 96
3.5 JRip nhận dạng phương ngữ tiếng Việt 97
3.5.1 Bộ phân lớp JRip 97
3.5.2 Nhận dạng phương ngữ tiếng Việt với JRip 98
3.6 Nhận dạng phương ngữ tiếng Việt với PART 99
3.6.1 Bộ phân lớp PART 99
3.6.2 Kết quả dùng PART nhận dạng phương ngữ tiếng Việt 99
3.7 Kết chương 99
4 CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ 102
4.1 HMM nhận dạng tiếng Việt nói 102
4.1.1 Mơ hình HMM 102
4.1.2 HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính 115
4.2 Cải thiện hiệu năng nhận dạng tiếng Việt nói thơng qua sử dụng thơng tin phương ngữ 1204.2.1 Mơ hình nhận dạng tiếng Việt nói với việc sử dụng thơng tin phương ngữ 1204.2.2 Nhận dạng tiếng Việt nói khi có thông tin phương ngữ 122
4.3 Kết chương 123
KẾT LUẬN VÀ KIẾN NGHỊ 125
TÀI LIỆU THAM KHẢO 128
Trang 77
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt Chữ viết đầy đủ Giải thích
AANN Auto-Associative Neural Network
AM Acoustic Model Mơ hình âm học
ANN Artificial Neural Network Mạng nơ-ron nhân tạo
ARFF Attribute-Relation File Format Định dạng file tham số đặc trưng trong Weka
ASR Automatic Speech Recognition Tự động nhận dạng tiếng nói
BKSPEC Bach Khoa SPEech Corpus
Bộ ngữ liệu được phát triển tại Bộ mơn Kỹ thuật Máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại học Bách khoa Hà Nội
BKTC Bach Khoa Text Code
BMMI Boosted Maximum Mutual Information
Thông tin tương hỗ cực đại tăng cường
CD Concept Description Mô tả khái niệm
CFG Context-Free Grammar Ngữ pháp phi ngữ cảnh
CMS Cepstral Mean Subtraction Trừ trung bình Cepstral CMU SLM
Carnegie Mellon University Statistical Language Modeling Toolkit
Bộ công cụ mô hình hóa ngơn ngữ thống kê của trường Carnegie Mellon
DCF Detection Cost Function Hàm giá phát hiện
DET Detection Error Tradeoff Cân bằng sai số phát hiện
DL Descrition Length Độ dài mô tả
DNN Deep Neural Networks Mạng nơ-ron sâu
ELRA European Language Resources
Association Hội tài nguyên ngôn ngữ châu Âu
EM Expectation Maximization Cực đại hóa kỳ vọng
ERM Empirical Risk Minimization Tối thiểu hóa rủi ro theo kinh nghiệm
F0 Fundamental frequency Tần số cơ bản
fMLLR feature-space MLLR
fMMI feature-space MMI
fMPE feature-space Minimum Phone Error
Trang 88
HLDA Heteroscedastic Linear Discriminant Analysis
Phân tích phân biệt tuyến tính hiệp phương sai khơng đồng nhất
HMM Hidden Markov Model Mô hình Markov ẩn
HTK Hidden Markov Model Toolkit Bộ cơng cụ mơ hình Markov ẩn IBk Instance Based k Tên gọi bộ phân lớp k láng giềng
gần nhất trong Weka IBL Instance Based Learning Học dựa trên đối tượng IREP Incremental Reduced Error Pruning
JRip
KKT Karush–Kuhn–Tucker Điều kiện Karush–Kuhn–Tucker
k-NN k-Nearest Neighbour K láng giềng gần nhất
LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính LDC Linguistic Data Consortium Hội đồn dữ liệu ngơn ngữ
LLR Log Likelihood Ratio
LPC Linear Prediction Coding Mã hóa tiên đốn tuyến tính
MAP Maximum a Posteriori
MFCC Mel Frequency Cepstral Coefficients Các hệ số Cepstral theo thang đo tần số Mel
MHAH Mơ hình âm học
MHNN Mơ hình ngơn ngữ
MLLR Maximum Likelihood Linear Regression
MLLT Maximum Likelihood Linear
Transforms
MMI Maximum Mutual Information
MPE Minimum Phone Error Cực tiểu hóa lỗi âm
NIST National Institute of Standards and Technology
Viện Tiêu chuẩn và Công nghệ Quốc gia của Mỹ
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
NN Neural Networks
PART
PCA Principal Component Analysis Phân tích các thành phần chính PLP Perceptual Linear Prediction Tiên đốn cảm thụ tuyến tính
PNB Phương ngữ Bắc
PNN Phương ngữ nam
Trang 99
PPR Parallel Phone Recognition
PPRLM Parallel Phone Recognition followed by Language Modeling
PRLM Phone Recognition followed by Language Modeling
QP Quadratic Programming Quy hoạch toàn phương
RBF Radial Basis Function Hàm cơ bản hướng Gauss
RIPPER Repeated Incremental Pruning to
Produce Error Reduction
RM Risk Minimization Tối thiểu hóa rủi ro
SAT Speaker Adaptive Training Huấn luyện thích nghi người nói SBS Sequential Backward Selection Lựa chọn lùi lần lượt
SFS Sequential Forward Selection Lựa chọn tiến lần lượt
SMO Sequential Minimal Optimization Thuật giải tối ưu hóa cực tiểu lần lượt
SRILM Stanford Research Institute Language Modeling
Bộ cơng cụ tạo mơ hình ngơn ngữ SRI
SRM Structural Risk Minimization Tối thiểu hóa rủi ro cấu trúc SVM Support Vector Machines Máy véc-tơ hỗ trợ
TTS Text-to-Speech Văn bản thành tiếng nói
VDSPEC Vietnamese Dialect Speech Corpus Bộ ngữ liệu phương ngữ tiếng Việt VTLN Vocal Tract Length Normalization Chuẩn hóa chiều dài tuyến âm
Trang 1010
DANH MỤC CÁC BẢNG
Bảng 2.1: Sự khác biệt giữa các phương ngữ về từ và cách sử dụng từ 48
Bảng 2.2: Cấu trúc âm tiết tiếng Việt 50
Bảng 2.3: Hệ thống phụ âm làm âm đầu 51
Bảng 2.4: Bảng các âm chính là nguyên âm đơn 52
Bảng 2.5: Cách thể hiện bằng chữ viết các nguyên âm 52
Bảng 2.6: Vị trí các âm vị trong hệ thống âm cuối 53
Bảng 2.7: Hệ thống phụ âm đầu ở Bắc Bộ 55
Bảng 2.8: So sánh các hệ thống phụ âm đầu giữa PNB, PNT và PNN 56
Bảng 2.9: Phân loại thanh điệu theo truyền thống 56
Bảng 2.10: Đặc tính văn bản theo chủ đề 63
Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC 67
Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ 67
Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề 68
Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu 69
Bảng 3.1: Kết quả nhận dạng dùng GMM với các tham số MFCC, F0 và các giá trị chuẩn hóa từ F0 83
Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ khơng phụ thuộc giới tính khi sử dụng hệ số MFCC kết hợp với tham số F0 83
Bảng 3.3: Kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp formant, dải thông tương ứng và các tham số F0 85
Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác nhau 87
Bảng 3.5: Bộ phân lớp SMO, kết quả nhận dạng với 384 tham số 89
Bảng 3.6: Bộ phân lớp SMO, ma trâ ̣n sai nhầm với 384 tham số 90
Bảng 3.7: Bộ phân lớp SMO, kết quả nhận dạng khi khơng có thông tin liên quan trực tiếp F0 90
Bảng 3.8: Bộ phân lớp SMO, ma trâ ̣n sai nhầm khi không có thông tin liên quan trực tiếp F0 90
Bảng 3.9: Bộ phân lớp SMO, kết quả thử nghiệm khi chỉ dùng tham số liên quan trực tiếp F0 91
Bảng 3.10: Bộ phân lớp SMO, ma trâ ̣n sai nhầm khi chỉ sử dụng tham số liên quan trực tiếp F0 91
Bảng 3.11: Bộ phân lớp SMO, kết quả nhận dạng khi chỉ dùng tham số liên quan trực tiếp MFCC 91
Bảng 3.12: Bộ phân lớp SMO, ma trâ ̣n sai nhầm khi chỉ dùng tham số liên quan trực tiếp MFCC 91
Trang 1111
Bảng 3.14: Mô tả thuật giải k-láng giềng gần nhất 94
Bảng 3.15: Bộ phân lớp IBk, kết quả nhận dạng với k = 1 95
Bảng 3.16: Bộ phân lớp IBk, ma trâ ̣n sai nhầm với k=1 95
Bảng 3.17: Bộ phân lớp IBk, kết quả nhận dạng với k=5 95
Bảng 3.18: Bộ phân lớp IBk, ma trâ ̣n sai nhầm với k=5 96
Bảng 3.19: Kết quả nhận dạng phương ngữ tiếng Việt dùng MultilayerPerceptron 97
Bảng 3.20: Ma trâ ̣n sai nhầm nhâ ̣n da ̣ng phương ngữ tiếng Việt dùng MultilayerPerceptron 97
Bảng 3.21: Kết quả dùng bộ phân lớp JRip nhận dạng phương ngữ tiếng Việt 98
Bảng 3.22: Ma trâ ̣n sai nhầm khi dùng JRip nhâ ̣n da ̣ng phương ngữ tiếng Việt 98
Bảng 3.23: Kết quả sử dụng PART nhận dạng phương ngữ tiếng Việt 99
Bảng 3.24: Ma trâ ̣n sai nhầm khi sử dụng PART nhận dạng phương ngữ tiếng Việt 99
Bảng 4.1: Phân chia tập dữ liệu dùng cho huấn luyện và thử nghiệm 119
Bảng 4.2: Kết quả nhận dạng khi chưa biết thông tin phương ngữ 119
Trang 1212
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1: Quyết định lề mềm 34
Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM: Chunking, Osuna và SMO 38
Hình 1.3: Mơ hình một nơ-ron 39
Hình 1.4: Biến đổi làm mịn tạo ra do có thiên áp bk; lưu ý là vk = bk nếu uk = 0 41
Hình 1.5: Mơ hình nơ-ron phi tuyến 41
Hình 2.1: Vị trí, vai trị âm đệm trong âm tiết 51
Hình 2.2: Sơ đồ kết hợp âm đệm /w/ với các nguyên âm ở PNB và PNT 54
Hình 2.3: So sánh cấu trúc âm tiết PNB, PNT với PNN 54
Hình 2.4: Sơ đồ biến đổi các phụ âm ngạc hóa trong PNB và PNN 55
Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c) 59
Hình 2.6: Sự phân bố các âm vị trong VDSPEC 63
Hình 2.7: Đáp ứng tần số của SM48 64
Hình 2.8: (a) Dạng sóng tín hiệu được ghi âm (b) Tỉ số tín hiệu trên nhiễu tính theo dB và giá trị trung bình của tỉ số này 66
Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) 69
Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b) và Thành phố Hồ Chí Minh (c) 69
Hình 2.11: Biến thiên F0 của thanh hỏi 70
Hình 2.12: Biến thiên F0 của thanh ngã 70
Hình 2.13: Biến thiên F0 của thanh nặng 71
Hình 2.14: Biến thiên F0 của thanh ngang 71
Hình 2.15: Biến thiên F0 của thanh huyền 71
Hình 2.16: Biến thiên F0 của thanh sắc 71
Hình 2.17: Các bước thực hiện phân lớp theo LDA 74
Hình 2.18: Phân lớp phương ngữ dùng LDA cho thanh sắc (từ “chính”) 75
Hình 2.19: Phân lớp phương ngữ dùng LDA cho thanh ngang (từ “kinh”) 75
Hình 2.20: Phân lớp phương ngữ dùng LDA cho thanh nặng (từ “mạnh”) 75
Hình 2.21: Phân lớp phương ngữ dùng LDA cho thanh huyền (từ “thành”) 75
Hình 2.22: Phân lớp phương ngữ dùng LDA cho thanh hỏi (từ “tỉnh”) 76
Hình 2.23: Phân lớp phương ngữ dùng LDA cho thanh ngã (từ “vĩnh”) 76
Hình 3.1: Sơ đồ hệ thống nhận dạng phương ngữ tiếng Việt 79
Hình 3.2: Thử nghiệm đánh giá, lựa chọn số hệ số MFCC 80
Hình 3.3: Đồ thị DET với số thành phần Gauss (M) từ 20 đến 4096 86
Trang 1313
Hình 3.5: Phương pháp k láng giềng gần nhất 94
Hình 4.1: Kiến trúc bộ nhận dạng dựa trên HMM 104
Hình 4.2: Mơ hình âm vị dựa trên HMM 106
Hình 4.3: Mơ hình âm phụ thuộc ngữ cảnh 108
Hình 4.4: Tạo mơ hình kết nối các trạng thái 109
Hình 4.5: Phân cụm cây quyết định 110
Hình 4.6: Minh họa lưới từ 113
Hình 4.7: Minh họa mạng nhầm lẫn 114
Hình 4.8: Cấu trúc lưới từ tạo ra bởi hệ thống HTK 115
Hình 4.9: Mơ hình nhận dạng tự động tiếng nói 116
Hình 4.10: Phương pháp huấn luyện của Kaldi 117
Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói sử dụng thơng tin phương ngữ 120
Trang 1414
MỞ ĐẦU
1 Lý do chọn đề tài
Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hố q trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính Trong bối cảnh đó, xử lý tiếng nói nói chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy tính phục vụ con người trong cuộc sống
Trên thế giới đã có nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành cơng Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế Riêng về nhận dạng tiếng Việt, mặc dù đã có nhiều nghiên cứu và đạt được các thành cơng nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn chế, đặc biệt là độ chính xác, chất lượng nhận dạng Ngồi các khó khăn trong nhận dạng tiếng nói nói chung, nhận dạng tiếng Việt nói cịn gặp trở ngại lớn phải kể đến là vấn đề về phương ngữ tiếng Việt
Tiếng Việt có nhiều phương ngữ khác nhau Giữa các phương ngữ có sự khác biệt cả về từ vựng và ngữ âm trong đó ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và phân chia các phương ngữ Xét về từ vựng, sự khác nhau có thể ở một số bộ phận cấu thành từ hay sự biến đổi của từ Sự khác nhau cũng có thể xuất phát từ nguồn gốc của từ Ví dụ khi nói về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc,
chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”) Trong khi
đó, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của kính) Thay vì nói “đeo kính”, phương ngữ Nam lại dùng cách nói “đeo kiếng” Cũng như vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nói “soi kiếng” Ở miền Trung,
hai vật kính và gương đều được gọi bằng từ “gương” Hai thao tác tương ứng đeo kính, soi gương được diễn đạt bằng “soi gương” và “đeo gương” Xét về mặt ngữ âm, sự khác biệt
giữa các phương ngữ được thể hiện khá rõ ràng Chẳng hạn với phương ngữ Nam, hai phụ âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm Do vậy, từ “tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và
phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “mình” thành “mừn”
Trang 1515
phát âm mỗi phương ngữ tác động lên và làm sai lệch kết quả nhận dạng Nếu hệ thống nhận dạng tiếng nói biết trước tiếng nói cần nhận dạng là thuộc phương ngữ nào thì có thể lựa chọn các tham số phù hợp, sử dụng mơ hình đã được huấn luận theo phương ngữ đó để nhận dạng Như vậy có thể giảm được các sai nhầm và giúp cải thiện hiệu năng cho hệ thống nhận dạng dạng
Chính vì vậy, cần thiết phải nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các vùng phương ngữ khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng tiếng Việt nói Trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có thể xác định được tiếng nói đó thuộc phương ngữ nào thì có thể xây dựng hệ thống nhận dạng với ngữ liệu được tổ chức phù hợp cho từng phương ngữ và sử dụng ngữ liệu này để nhận dạng tiếng nói của phương ngữ tương ứng Với cách xây dựng hệ thống nhận dạng tiếng nói như vậy, các sai nhầm nhận dạng của hệ thống do phương thức phát âm hay thậm chí là cả do sử dụng từ địa phương sẽ được giảm bớt, hiệu năng nhận dạng của hệ thống sẽ được cải thiện
Từ các lý do nêu trên, luận án lựa chọn đề tài nghiên cứu “Tự động nhận dạng tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” nhằm nghiên cứu sâu hơn về vấn đề xử lý nhận dạng tiếng Việt nói, giải quyết một số hạn chế trong nhận dạng tiếng Việt nói hiện tại liên quan đến phương ngữ và góp phần phát triển các ứng dụng công nghệ thông tin cho người Việt cũng như các sản phẩm ứng dụng công nghệ thông tin sử dụng tiếng Việt trong dịch tự động, giao tiếp và tương tác người-máy
2 Mục tiêu nghiên cứu của luận án
Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói cho các vùng phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng của hệ thống nhận dạng và đề xuất giải pháp kỹ thuật nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu năng nhận dạng
3 Nhiệm vụ nghiên cứu của luận án
Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính sau:
(1) Nghiên cứu đặc điểm phương ngữ tiếng Việt từ đó xác định được các nét đặc trưng, sự khác biệt giữa các phương ngữ chính của tiếng Việt làm cơ sở cho nghiên cứu nhận dạng phương ngữ tiếng Việt Luận án cũng đánh giá sự ảnh hưởng của phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói
(2) Xây dựng bộ ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói
(3) Nghiên cứu, đề xuất mơ hình hệ thống nhận dạng tự động, bộ tham số phù hợp để nhận dạng phương ngữ tiếng Việt
Trang 1616
4 Đối tượng và phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu trọng tâm của luận án là nhận dạng phương ngữ tiếng Việt Từ kết quả nhận dạng phương ngữ, xây dựng mơ hình nhận dạng tiếng Việt nói theo phương ngữ Mơ hình mới sử dụng thông tin về phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói Việc nghiên cứu phương ngữ tiếng Việt chủ yếu chỉ tập trung theo hướng xử lý tín hiệu
Phương ngữ tiếng Việt rất phong phú Về mặt địa lý, xét theo phương thức phát âm, phương ngữ có thể thay đổi theo từng làng, xã Tuy nhiên, trong phạm vi nghiên cứu của luận án, do thời gian có hạn, luận án chỉ giới hạn nghiên cứu nhận dạng ba phương ngữ chính và phổ biến của tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng Hà Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và phương ngữ Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện)
Bên cạnh đó, với mục tiêu ứng dụng kết quả nhận dạng phương ngữ tiếng Việt vào hệ thống nhận dạng tự động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng, nhận dạng phương ngữ được xem là bước tiền xử lý trong hệ thống nhận dạng tự động tiếng Việt Việc nhận dạng phương ngữ cần được tiến hành trước khi nhận dạng nội dung, nghĩa là ở thời điểm còn chưa biết nội dung tiếng nói Vì vậy, thao tác của hệ thống nhận dạng phương ngữ chưa thể khai thác các thông tin về từ địa phương mà chủ yếu là khai thác thông tin về phương thức phát âm của phương ngữ
Các thử nghiệm nhận dạng phương ngữ mà luận án tiến hành dựa trên ngữ liệu với số lượng từ vựng hạn chế để từ đó xác định được các đặc trưng của từng phương ngữ và đề xuất mơ hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận dạng tiếng Việt nói
5 Ý nghĩa khoa học và thực tiễn của luận án
Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có đóng góp đáng kể cho mở rộng nghiên cứu về phương ngữ tiếng Việt Các nghiên cứu về phương ngữ tiếng Việt đã được triển khai cho đến nay chủ yếu thực hiện theo phương diện ngôn ngữ Nghiên cứu về phương diện xử lý tín hiệu vẫn cịn hạn chế Do vậy, hướng nghiên cứu theo phương diện xử lý tín hiệu sẽ giúp mở rộng phạm vi nghiên cứu cũng như gia tăng khả năng ứng dụng các kết quả đạt được trong lĩnh vực nghiên cứu xử lý tiếng Việt nói nói chung và nhận dạng tiếng Việt nói nói riêng
Từ kết quả nhận dạng phương ngữ, đề xuất mơ hình mới nhận dạng tiếng Việt nói sử dụng thông tin phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói, góp phần hồn thiện hơn khả năng nhận dạng của hệ thống nhận dạng tự động tiếng Việt nói
6 Phương pháp nghiên cứu
Trang 1717
Về lý thuyết: luận án nghiên cứu tổng quan về phương ngữ tiếng Việt, các mơ hình nhận dạng phương ngữ của một số ngơn ngữ trên thế giới, các mơ hình nhận dạng tiếng nói dựa trên các tài liệu, cơng trình khoa học đã được cơng bố, sách báo, giáo trình liên quan
Về thực nghiệm: luận án xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng nội dung tiếng Việt nói Luận án cũng sử dụng các cơng cụ mã nguồn mở kết hợp lập trình phần mềm xử lý dữ liệu, thực hiện các nghiên cứu, thử nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng và thử nghiệm mơ hình nhận dạng phương ngữ cũng như nhận dạng tiếng Việt nói theo phương ngữ
7 Kết quả nghiên cứu, đóng góp của luận án
Kết quả nghiên cứu và đóng góp của luận án tập trung vào các điểm chính sau: (1) Phân tích đặc điểm phương ngữ tiếng Việt, sự khác biệt giữa các phương ngữ
chính của tiếng Việt về phương diện phát âm về mặt xử lý tín hiệu
(2) Xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt cũng như các nghiên cứu khác về nhận dạng tiếng Việt nói; thực hiện một số nghiên cứu, thử nghiệm, phân tích đặc điểm của phương ngữ tiếng Việt
(3) Đề xuất mơ hình nhận dạng phương ngữ tiếng Việt và bộ tham số phù hợp cho mô hình nhận dạng phương ngữ tiếng Việt
(4) Sử dụng mơ hình HMM (Hidden Markov Model) nhận dạng tiếng Việt nói trên bộ ngữ liệu có phương ngữ
(5) Đề xuất mơ hình nhận dạng tiếng Việt nói theo phương ngữ
8 Nội dung luận án
Nội dung chính của luận án được trình bày trong 4 chương như sau:
Chương 1: Tổng quan về nhận dạng tiếng nói và nhận dạng phương ngữ Chương này trình bày tổng quan về nhận dạng tiếng nói, lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói; các nghiên cứu và kết quả đạt được về nhận dạng phương ngữ; việc nghiên cứu về nhận dạng tiếng nói và phương ngữ tiếng Việt, các vấn đề còn tồn tại trong nghiên cứu, nhận dạng tiếng Việt nói và phương ngữ tiếng Việt; làm rõ vấn đề cần nghiên cứu, giải quyết trong luận án
Chương 2: Xây dựng bộ ngữ liệu cho nghiên cứu nhận dạng phương ngữ tiếng Việt Nội dung chương này đề cập các nghiên cứu chi tiết hơn về phương ngữ tiếng Việt, từ đó cho thấy sự khác biệt giữa các phương ngữ, đặc biệt là phương thức phát âm, làm cơ sở cho nghiên cứu nhận dạng phương ngữ tiếng Việt Chương 2 cũng trình bày phương pháp xây dựng bộ ngữ liệu dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và kết quả phân tích đạt được đối với một số đặc trưng của phương ngữ tiếng Việt dựa trên ngữ liệu đã xây dựng
Trang 1818
mỗi mơ hình và trình bày các kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng các mơ hình và tham số đã đề xuất
Chương 4: Cải thiện hiệu năng nhận dạng tiếng Việt với thơng tin về phương ngữ Luận án sẽ trình bày mơ hình nhận dạng tiếng nói dựa trên HMM sử dụng các thông tin về phương ngữ nhằm cải thiện hiệu năng nhận dạng tiếng Việt nói Kết quả thử nghiệm cho thấy mơ hình nhận dạng tiếng Việt nói có sử dụng thơng tin phương ngữ cho hiệu năng nhận dạng tốt hơn so với trường hợp không có thơng tin về phương ngữ
Trang 1919
1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ NHẬN
DẠNG PHƯƠNG NGỮ
Chương 1 đề cập nội dung tổng quan về nhận dạng tiếng nói và nhận dạng phương ngữ Đây là vấn đề chính mà luận án quan tâm Trong chương này, luận án tập trung tổng hợp, phân tích tình hình nghiên cứu trong và ngồi nước về nhận dạng tiếng nói và nhận dạng phương ngữ nhằm xác định các hướng tiếp cận, phương pháp giải quyết các bài toán trong lĩnh vực này Đồng thời, Chương 1 cũng tổng hợp các nghiên cứu liên quan về nhận dạng tiếng Việt và phương ngữ tiếng Việt, nêu bật những mặt còn tồn tại, những vấn đề cần giải quyết đối với nhận dạng tiếng Việt và phương ngữ tiếng Việt từ đó tìm hướng tiếp cận nhằm nâng cao hiệu năng cho hệ thống nhận dạng tiếng Việt nói
1.1 Nhận dạng tiếng nói
1.1.1 Tổng quan về nhận dạng tiếng nói
Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống hiểu được tiếng nói của con người Nhờ hệ thống này, tiếng nói có thể được chuyển đổi tự động thành văn bản, hoặc tự động điều khiển các quá trình khác [179] Phương thức truyền thông tự nhiên nhất đối với con người là thông qua tiếng nói nên ước mơ cuối cùng của nhận dạng tiếng nói là cho phép con người có ngơn ngữ khác nhau giao tiếp với nhau và với máy một cách tự nhiên, hiệu quả hơn Có thể nói, các ứng dụng nhận dạng tiếng nói hiện đang dần trở nên phổ biến, phục vụ đời sống con người cũng như trong các lĩnh vực kỹ thuật khác nhau Trong lĩnh vực tương tác người máy, nhận dạng tiếng nói được định nghĩa là khả năng hệ thống máy tính có thể chấp nhận đầu vào là lời nói theo định dạng file âm thanh và tạo ra được văn bản chứa nội dung tương ứng
Nhận dạng tự động tiếng nói ASR (Automatic Speech Recognition) mơ phỏng khả năng nghe và hiểu lời nói của con người Hệ thống ASR có thể chuyển đổi lời nói thành văn bản Bài tốn nhận dạng tự động tiếng nói là một chương trình máy tính tiếp nhận đầu vào là các mẫu tiếng nói và tạo ra văn bản tương ứng mà con người có thể hiểu được như khi trực tiếp nghe tiếng nói đó ASR là một trong các lĩnh vực của nhận dạng mẫu ASR phát triển mạnh tương xứng với các lĩnh vực khác của nhận dạng mẫu vì mong muốn tạo ra được cỗ máy có khả năng tạo ra được các quyết định phức tạp và thực tế, có chức năng nhanh như con người đồng thời có thể hiểu được lời nói Tương tự như bất kỳ hệ thống nhận dạng mẫu nào, ASR tìm kiếm để hiểu được các mẫu tiếng nói đầu vào Các nghiên cứu về xử lý tín hiệu, xử lý tiếng nói và đặc biệt là nhận dạng tiếng nói đã thu hút nhiều nhà khoa học tham gia và mang lại nhiều thành tựu trong các lĩnh vực này [33, 37, 55, 57, 63, 75, 94, 95, 135]
Trang 2020
Mục tiếp theo dưới đây sẽ trình bày tóm lược về lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói
1.1.2 Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nói
Điều đầu tiên quan trọng cần phải kể đến trong lịch sử phát triển của nhận dạng tiếng nói là việc thành lập các mơ hình thống kê và các thuật giải liên quan tạo điều kiện cho việc thực hiện các mơ hình này Mơ hình HMM đã được giới thiệu như là một mơ hình âm học của hệ thống nhận dạng tiếng nói từ đầu những năm 1970 [12, 82] Hơn 30 năm sau, phương pháp này vẫn còn được sử dụng rộng rãi Một lượng lớn các mơ hình và thuật giải đã được đề xuất và sử dụng hiệu quả trong lĩnh vực này Thuật giải tối đa hóa kỳ vọng EM (Expectation Maximization) và thuật giải quay lui (Forward – Backward) hoặc thuật giải Baum – Welch [14, 36] đã có vai trò chủ yếu và quan trọng trong việc huấn luyện mơ hình HMM một cách hiệu quả Tương tự như vậy, mơ hình ngơn ngữ N-gram và các biến
thể được huấn luyện với các tính tốn cơ bản hoặc sử dụng kỹ thuật EM-Style đã đạt được các hiệu quả quan trọng Bên cạnh mơ hình âm học HMM và mơ hình ngơn ngữ cơ bản
N-gram, đã có nghiên cứu mới được cơng bố như các mơ hình phân đoạn [38, 39, 60] và các mơ hình ngơn ngữ và tiếng nói có cấu trúc [27, 40, 176] Các thuật giải thích nghi hiệu quả cho phép tích hợp được trên các ứng dụng địi hỏi xử lý nhanh Đây là chìa khóa dẫn đến thành công cho việc phát triển các sản phẩm thương mại của cơng nghệ nhận dạng tiếng nói Các kỹ thuật thích nghi phổ biến có thể kể đến là tối đa xác suất hậu nghiệm MAP (Maximum a Posteriori probability), ước lượng MLLR (Estimation và Maximum Likelihood Linear Regression) [96] Các kỹ thuật thích nghi đã được tổng qt hóa để huấn luyện các mơ hình chung, một đại diện tốt trong số đó có thể kể đến là mơ hình thống kê toàn thể của tập dữ liệu huấn luyện đầy đủ Kỹ thuật này được gọi là kỹ thuật huấn luyện thích nghi người nói SAT (Speaker Adaptive Training) [9] Huang cùng cộng sự đã có nghiên cứu so sánh các phương pháp nhận dạng độc lập người nói, nhận dạng phụ thuộc người nói và nhận dạng thích nghi người nói [74] Kết quả nghiên cứu này cho thấy: khi nhận dạng độc lập người nói, tỷ lệ lỗi từ đạt 4,3%, còn khi sử dụng dữ liệu phụ thuộc người nói, tỷ lệ lỗi từ đã giảm đến 1,4% Trong các thử nghiệm, nhóm tác giả đều áp dụng phương pháp thich nghi người nói
Trang 2121
Cơng nghệ NIST (National Institute of Standard and Technology), Hiệp hội dữ liệu ngôn ngữ học LDC (Linguistic Data Consortium), Hiệp hội Tài nguyên Ngôn ngữ châu Âu ELRA (European Language Resources Association) và các tổ chức khác đã xây dựng được các bộ ngữ liệu tiếng nói, chú giải và chia sẻ rộng rãi cho cộng đồng trên toàn thế giới Với sự phát triển, hội nhập và chia sẻ trên phạm vi tồn cầu, hiện nay, nhiều phịng thí nghiệm, các nhà nghiên cứu đã được hưởng lợi ích từ các cơng cụ phục vụ cho nghiên cứu được cung cấp miễn phí như HTK (Hidden Markov Model Toolkit), Sphinx, CMU LM toolkit và SRILM toolkit Mặt khác, các hỗ trợ cho nghiên cứu sâu, rộng, kết hợp với các hội nghị, hội thảo, hệ thống đánh giá được DARPA (U.S Department of Defense Advanced Research Projects Agency) và các tổ chức, cá nhân khác tài trợ đã trở nên cần thiết cho sự phát triển hệ thống nhận dạng tiếng nói hiện nay
Nhóm tiến bộ thứ 3 có thể kể đến thuộc về lĩnh vực biểu diễn tri thức Các kỹ thuật phân tích tham số tiếng nói như MFCC (Mel-Frequency Cepstral Coefficients) [35], tiên đốn cảm thụ tuyến tính PLP (Perceptual Linear Prediction) [70], chuẩn hóa thơng qua trừ trung bình cepstral CMS (Cepstral Mean Subtraction) [139], RASTA [70] và chuẩn hóa chiều dài tuyến âm VTLN (Vocal Tract Length Normalization) [42] Gần đây, có nhiều thuật giải đã được đề xuất cho nhận dạng tiếng nói mang lại hiệu quả cao như Phân tích phân biệt tuyến tính hiệp phương sai không đồng nhất HLDA (Heteroscedastic Linear Discriminant Analysis) [90], cực tiểu lỗi từ theo không gian đặc trưng fMPE (feature-space Minimum Phone Error) [132] và mạng nơ ron dựa trên các đặc trưng [112]
Nhóm cuối cùng trong các tiến bộ lớn của nhận dạng tiếng nói là giải mã và các thuật giải tìm kiếm Ban đầu tập trung vào giải mã ngăn xếp (thuật giải tìm kiếm A∗) [84]
và tìm kiếm đồng bộ thời gian Viterbi (time-synchronous Viterbi search) [115, 143, 169, 171] Nếu khơng có các thuật giải khả thi thì các nhận dạng tiếng nói liên tục có quy mơ lớn khó có thể thực hiện được
Như vậy có thể thấy, nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong các năm qua Có nhiều mơ hình nhận dạng đã được đề xuất trong đó mơ hình HMM với nền tảng chính khơng có nhiều thay đổi song việc mơ hình hóa, các kỹ thuật cài đặt cụ thể vẫn liên tục được cải tiến Vì thế, HMM vẫn giữ được vị trí quan trọng trong các hệ thống nhận dạng tiếng nói Bên cạnh đó, các kỹ thuật phân tích tham số cũng đạt được những bước tiến quan trọng Các thuật giải tìm kiếm được cải tiến giúp bộ giải mã thực hiện các nhiệm vụ tìm kiếm, cho ra lời giải hiệu quả hơn
1.1.3 Các thách thức đối với nhận dạng tự động tiếng nói
Vì có nhiều ý nghĩa trong nghiên cứu cũng như thực tiễn ứng dụng, nhận dạng tiếng nói đã thu hút nhiều nhà khoa học tham gia nhưng lĩnh vực này cũng phải đối mặt với nhiều thách thức
Trang 2222
Trong các hệ thống nhận dạng tiếng nói phụ thuộc người nói, sự khác biệt của tiếng nói thường không lớn so với hệ thống nhận dạng độc lập người nói Ngay cả khi tiếng nói được giới hạn bởi một người nói thì sự thay đổi về mơi trường ghi âm, điều kiện nói, thiết bị ghi âm vẫn là tồn tại khách quan tạo ra sự khác biệt trong tín hiệu tiếng nói cần nhận dạng
Thách thức lớn khác đối với ASR là phải giải quyết bài toán nhận dạng nhầm, khi mà hệ thống thường phải đối mặt với thực tế là tiếng nói cần nhận dạng khơng hồn tồn theo đúng với tiếng nói đã được huấn luyện Trong ASR, một số người nói thường sẽ đọc các văn bản đã được chọn từ trước và sử dụng tiếng nói thu được theo cách đó để xây dựng các mơ hình Độ chính xác của ASR thường tỷ lệ với sự tương tự giữa dữ liệu huấn luyện và dữ liệu thử nghiệm Dễ dàng nhận thấy, hệ thống nhận dạng cho độ chính xác cao khi dữ liệu huấn luyện và nhận dạng đều do một người nói và nội dung nói tương tự nhau Độ chính xác đó sẽ giảm khi dữ liệu thử nghiệm và dữ liệu dùng huấn luyện là tiếng nói của những người khác nhau, nội dung nói khác nhau hay môi trường, thiết bị ghi âm khác nhau Thách thức đặt ra đối với người thiết kế ASR là phải chuẩn bị đủ về mặt dữ liệu và cài đặt thuật giải tốt
Tác động phức tạp nhất tới tín hiệu tiếng nói mà ASR phải xử lý là nhiễu kênh, nhiễu nền và các nhiễu khác từ bên ngoài Kỹ thuật trừ phổ cơ bản giúp giải quyết được vấn đề nhiễu cộng trong khi một số kỹ thuật khác giúp khử được nhiễu chập
Mặc dù phải đối mặt với nhiều thách thức song nhận dạng tự động tiếng nói đã đạt được nhiều bước tiến quan trọng Các kết quả nghiên cứu đã dần đi vào cuộc sống trở thành các ứng dụng thường ngày Lĩnh vực này vẫn tiếp tục thu hút nhiều nhà khoa học tham gia nhằm tiếp tục cải thiện hiệu năng nhận dạng, gia tăng khả năng ứng dụng trong thực tiễn
1.1.4 Phân loại hệ thống nhận dạng tự động tiếng nói
Các hệ thống nhận dạng tự động tiếng nói có thể được phân loại theo các cách khác nhau tùy thuộc tiêu chí sử dụng phân loại như dựa trên sự phụ thuộc người nói, đặc điểm liên tục hay rời rạc của tiếng nói cần nhận dạng, độ lớn của từ vựng
Theo tiêu chí sự phụ thuộc vào người nói, hệ thống nhận dạng tiếng nói có thể được chia làm 3 loại gồm hệ thống nhận dạng tiếng nói phụ thuộc người nói, hệ thống nhận dạng tiếng nói độc lập người nói và hệ thống nhận dạng tiếng nói thích nghi người nói, cụ thể như sau:
1) Hệ thống nhận dạng tiếng nói phụ thuộc người nói: hệ thống này địi hỏi người
Trang 2323
2) Hệ thống nhận dạng khơng phụ thuộc người nói: có đặc điểm là khơng địi hỏi
người dùng phải huấn luyện hệ thống bằng chính giọng nói của mình Nói cách khác, hệ thống có thể được huấn luyện độc lập, sử dụng tiếng nói của người khác để huấn luyện mà vẫn có khả năng nhận dạng được tiếng nói được phát âm bởi người khơng tham gia huấn luyện Hệ thống này có thể làm việc với tiếng nói được phát âm từ người nói bất kỳ Việc xây dựng hệ thống như vậy thường phức tạp và địi hỏi chi phí cao hơn song có ưu điểm là hệ thống rất linh hoạt nhưng độ chính xác thường thấp hơn so với hệ thống phụ thuộc người nói
3) Hệ thống nhận dạng tiếng nói thích nghi người nói: được xây dựng để có khả
năng thích nghi với người nói mới Hệ thống này đã được huấn luyện sẵn trước khi sử dụng bằng tiếng nói có thể khác với tiếng nói của người sử dụng Trong quá trình hoạt động, hệ thống sẽ tiếp nhận thông tin, đặc điểm của người nói mới để điều chỉnh nhằm thích nghi theo các đặc điểm riêng của người nói mới Hệ thống này có vị trí xếp hạng nằm giữa hai hệ thống được nêu trước đó Hệ thống vừa có tính linh hoạt vì khơng ràng buộc huấn luyện và sử dụng cùng người nói như hệ thống phụ thuộc người nói lại vẫn đạt được độ chính xác nhờ khả năng thich nghi người nói
Các hệ thống nhận dạng tiếng nói được phân loại dựa trên đặc điểm của tiếng nói huấn luyện và nhận dạng sẽ gồm bốn loại như sau:
1) Hệ thống nhận dạng tiếng nói theo từ rời rạc: hệ thống này được thiết kế để
nhận dạng tiếng nói được phát âm thành từng từ rời rạc Giữa các từ có khoảng lặng đủ lớn và phân tách với nhau Hệ thống này là dạng đơn giản nhất của hệ thống nhận dạng tiếng nói Tuy khả năng nhận dạng có hạn chế nhưng hệ thống này lại được sử dụng phổ biến trong các sản phẩm thực
2) Hệ thống nhận dạng tiếng nói cho các từ có liên kết với nhau: trong trường hợp
này, hệ thống nhận dạng tiếng nói được thiết kế để nhận dạng các từ tương tự như hệ thống nhận dạng từ rời rạc Tuy nhiên, các từ này có liên kết với nhau nên hệ thống cho phép tiếng nói cần nhận dạng có thể được phân tách với nhau bởi các khoảng lặng nhỏ
3) Hệ thống nhận dạng tiếng nói phát âm liên tục: hệ thống làm việc với tiếng nói
trong đó khơng có khoảng lặng về mặt tín hiệu giữa các từ Hệ thống cho phép người dùng có thể phát âm một cách tự nhiên, cùng với đó thì máy tính sẽ thực hiện việc nhận dạng nội dung Các hệ thống loại này địi hỏi xử lý phức tạp hơn vì việc xác định các từ là rất khó về mặt tín hiệu
4) Hệ thống nhận dạng tiếng nói tự nhiên: hệ thống được thiết kế để nhận dạng
Trang 2424
Hệ thống nhận dạng tiếng nói cũng có thể phân loại theo lượng từ vựng Theo cách này, các hệ thống nhận dạng tiếng nói có thể chia thành 3 loại bao gồm hệ thống nhận dạng với từ vựng ít (số lượng từ chỉ đến hàng chục từ), hệ thống nhận dạng tiếng nói với từ vựng trung bình (số lượng từ đến vài trăm từ) và hệ thống nhận dạng tiếng nói với từ vựng lớn (số lượng từ lên đến hàng nghìn từ)
Hệ thống nhận dạng tiếng nói rất đa dạng và phong phú Cách tiếp cận trong nghiên cứu nhận dạng tiếng nói cũng đa dạng tương tự Mặc dù mục tiêu, nội dung cụ thể của từng nghiên cứu là khác nhau song đều có điểm chung là cải thiện hiệu năng, nâng cao hiệu quả hoạt động của hệ thống nhận dạng
1.2 Nhận dạng phương ngữ
Nhận dạng phương ngữ dựa trên tín hiệu tiếng nói là một lĩnh vực của xử lý tín hiệu tiếng nói thu hút nhiều nhà khoa học tham gia Phương ngữ có thể hiểu là tiếng nói ở một vùng, địa phương có những đặc điểm khác biệt với tiếng nói ở vùng, hay địa phương khác Sự khác biệt có thể là ở từ vựng, ngữ pháp, ngữ âm Chương 2 sẽ bàn luận chi tiết hơn về khái niệm phương ngữ, đặc điểm và sự phân vùng phương ngữ của tiếng Việt Nếu nhận dạng được phương ngữ chính xác thì có thể giúp cải thiện nhiều ứng dụng, dịch vụ như nhận dạng tự động tiếng nói, hệ thống chăm sóc sức khỏe điện tử (e-health), các hệ thống e-learning, Nhận dạng phương ngữ có nhiều nét tương tự như nhận dạng ngôn ngữ tuy nhiên phức tạp và chứa đựng nhiều thách thức hơn so với nhận dạng ngơn ngữ của tiếng nói
1.2.1 Các mơ hình nhận dạng phương ngữ
Phương pháp tiếp cận của nhận dạng phương ngữ cũng tương tự như các phương pháp được dùng trong nhận dạng ngôn ngữ Các phương pháp tiếp cận này có thể chia làm hai nhóm bao gồm phương pháp dựa trên âm học và phương pháp dựa trên ràng buộc âm vị Trong khi phương pháp đầu dựa trên mơ hình đặc trưng phổ của tiếng nói thì phương pháp thứ hai dựa trên việc mơ hình ngơn ngữ để nhận dạng các từ đặc trưng
1.2.1.1 Mơ hình ràng buộc âm vị
Với mỗi ngôn ngữ, các từ đều được cấu thành từ một tập các âm vị Các mơ hình nhận dạng phương ngữ dựa theo phương pháp ràng buộc âm vị (Phonotactic Modeling) được xây dựng dựa trên các bộ nhận dạng âm vị Bộ nhận dạng âm vị sẽ tiến hành phân tích tiếng nói cần nhận dạng thành các âm vị Mỗi từ đều có thể được phiên âm bởi một tập các âm vị đã biết Nhiệm vụ được đặt ra là phải xây dựng được bộ nhận dạng âm vị có độ chính xác cao Một cách thực hiện theo hướng tiếp cận này là xây dựng bộ nhận dạng âm vị theo mơ hình ngơn ngữ PRLM (Phone Recognition followed by Language Modeling) [20] Tiếp theo, bộ nhận dạng âm vị đơn lẻ được sử dụng để nhận dạng phương ngữ Bộ nhận dạng âm vị sẽ tạo ra một dãy các âm vị dùng để huấn luyện các mô hình ngơn ngữ
Trang 2525
phân đoạn bằng cách sử dụng bộ nhận dạng âm vị và phương ngữ đã được đánh số theo mô hình ngơn ngữ sẽ cho ra điểm số cao nhất ứng với phương ngữ nhận dạng được Mở rộng của phương pháp PRLM là phương pháp sử dụng bộ nhận dạng âm vị song song theo mơ hình ngơn ngữ PPRLM (Parallel Phone Recognition followed by Language Modeling) PPRLM sử dụng các bộ nhận dạng âm vị nhiều đầu ra thay cho bộ nhận dạng âm vị đơn được sử dụng trong PRLM Tiếng nói cần nhận dạng sẽ được nạp vào một dãy các bộ nhận dạng âm vị đã được huấn luyện cho từng phương ngữ Đầu ra của các bộ nhận dạng là các điểm số được tính thơng qua một dãy các mơ hình ngôn ngữ Cả hai phương pháp này thường được sử dụng cho trường hợp dữ liệu phiên âm bị hạn chế Khi dữ liệu phiên âm sẵn có và phong phú, có thể sử dụng các bộ nhận dạng âm vị độc lập trong đó mỗi bộ nhận dạng có riêng một mơ hình ngơn ngữ Trong q trình nhận dạng, tập các bộ nhận dạng âm vị song song được sử dụng và cho ra dãy âm vị đã được tối ưu vì mỗi bộ nhận dạng có một mơ hình ngơn ngữ của riêng mình Phương pháp này được gọi là phương pháp nhận dạng âm vị song song PPR (Parallel Phone Recognition) Phương pháp PPR gặp trở ngại là cần phải có dữ liệu phiên âm cho tất cả các phương ngữ cần nhận dạng
Trong cả ba phương pháp đã nêu, việc nhận dạng phương ngữ đều dựa trên kết quả phân tích, nhận dạng âm vị của tiếng nói cần xử lý và mơ hình ngơn ngữ tương ứng với mỗi phương ngữ có thể nhận dạng
1.2.1.2 Mơ hình âm học
Cách tiếp cận khác để nhận dạng phương ngữ thay cho cách tiếp cận dựa trên mơ hình ràng buộc âm vị là sử dụng mơ hình âm học (Acoustic Modeling) [186] Cách tiếp cận này sử dụng mơ hình hỗn hợp Gauss GMM (Gaussian Mixture Model) để xây dựng hệ thống nhận dạng GMM đã được sử dụng thành công trong các ứng dụng nhận dạng phương ngữ [29, 51, 110] GMM sử dụng các tham số là các đặc trưng của tiếng nói cần nhận dạng Các đặc trưng này trích chọn trong thời gian ngắn của tiếng nói bao gồm phổ, thơng tin về ngôn điệu như tần số cơ bản và đường bao tần số cơ bản, cường độ tại các phần đặc biệt của tiếng nói và biến thiên theo thời gian của cường độ tương ứng, ngữ điệu, năng lượng, GMM là một trong các công cụ được sử dụng phổ biến hiện nay trong nhận dạng tiếng nói, nhận dạng ngơn ngữ và nhận dạng phương ngữ Mơ hình GMM sẽ trình bày chi tiết hơn trong Chương 3 của luận án
1.2.2 Nhận dạng phương ngữ theo các phương diện khác nhau
1.2.2.1 Theo phương diện ngôn ngữ học
Trang 2626
Nghiên cứu nhận dạng phương ngữ được bắt đầu từ rất sớm Những ghi nhận đầu tiên có thể kể đến là các khảo sát để nhận dạng các vùng phương ngữ của George Wenker vào đầu năm 1877 [77, 98, 160] Tiếp theo có thể kể đến là các nghiên cứu của Bailey về việc có tồn tại phương ngữ Midland hay không (năm 1968) và tiếp tục được Davis, Lawrence M cùng các đồng sự nhắc lại trong một nghiên cứu năm 1992 [34]
Nhận dạng phương ngữ nhiều ngôn ngữ trên thế giới đã được nghiên cứu như tiếng Ả rập, tiếng Thái, tiếng Trung Quốc, tiếng Anh, Có nhiều nghiên cứu phương ngữ tiếng Ả rập đã được công bố như [20, 50, 110] Nghiên cứu nhận dạng phương ngữ tiếng Ả rập của tác giả Fadi Biadsy và cộng sự sử dụng câu nhận dạng có độ dài 30 giây Trong nghiên cứu [20], nhóm tác giả đã sử dụng mơ hình ràng buộc âm vị để nhận dạng phương ngữ cho độ chính xác đạt 81,60%, kết hợp ngôn điệu và ràng buộc âm vị cho độ chính xác nhận dạng 86,33% [50] Nghiên cứu của M Belgacem và các thành viên sử dụng mơ hình GMM nhận dạng tự động phương ngữ tiếng Ả rập cho độ chính xác 73,33% Trong nghiên cứu này, nhóm tác giả sử dụng bộ công cụ mã nguồn mở ALIZE để thực hiện các thử nghiệm nhận dạng [110]
Với quan điểm ngôn ngữ học, việc phân biệt các phương ngữ có thể dựa trên các đặc điểm, các thành phần của chính tiếng nói được sử dụng như hệ thống nguyên âm, phụ âm, từ vựng, hệ thống các từ, các đặc trưng âm học, âm vị,
1) Nhận dạng phương ngữ dựa trên nguyên âm, phụ âm
Trang 2727
đã đề cập tới sự khác nhau về thời lượng và phổ của các nguyên âm giữa các phương ngữ Họ xây dựng độ đo tỷ lệ F1/F2 và độ dài của nguyên âm để phân biệt các phương ngữ
Phụ âm đã được xem là thông tin định danh phương ngữ giúp phân biệt giọng người nước ngoài và các giai tầng xã hội Theo hướng này, William Labov đã tiến hành nghiên cứu sự khác nhau của các giọng theo phương diện xã hội học [174, 175] Trong nghiên cứu này, tác giả sử dụng sự khác nhau trong cách phát âm phụ âm "r" khi đi sau một nguyên âm như các từ "bar", "sort", "churn" Đây là cách đơn giản để phân biệt tiếng Anh-Mỹ và Anh-Anh [174, 175]
Tóm lại, các nghiên cứu đã chỉ ra rằng phụ âm và khoảng cách nguyên âm là những đặc trưng quan trọng trong phân biệt phương ngữ và có thể được sử dụng như các tham số cho hệ thống nhận dạng phương ngữ
2) Nhận dạng phương ngữ sử dụng các đặc trưng về âm học và âm vị
Mơ hình âm học đã được quan tâm và đề cập tới trong nhiều cơng trình nghiên cứu hàng thập kỷ qua cho cả nhận dạng ngôn ngữ và định danh người nói Đây là cách tiếp cận đơn giản và cho kết quả tương đối tốt Trong nhận dạng phương ngữ, mơ hình âm học được sử dụng với giả thiết rằng sự khác biệt của các phương ngữ thể hiện trong phân bố phổ tiếng nói của phương ngữ Có nhiều nghiên cứu nhận dạng phương ngữ sử dụng các đặc trưng âm học và âm vị đã được thực hiện như [19, 28, 50, 137, 147]
1.2.2.2 Theo phương diện của phương pháp nhận dạng
Nhiều phương pháp đã được sử dụng trong nhận dạng ngôn ngữ cũng được sử dụng cho nhận dạng phương ngữ như GMM, HMM, Máy hỗ trợ véc tơ SVM (Support Vector Machines), mạng nơ ron NN (Neural Networks), mạng nơ ron sâu DNN (Deep Neural Networks)
1) Mô hình hỗn hợp Gauss
Trang 2828
2) Mơ hình Markov ẩn
Mơ hình Markov ẩn HMM coi phương ngữ như là quá trình ngẫu nhiên có thể chuyển từ trạng thái này sang trạng thái khác với các xác suất khác nhau Mỗi trạng thái tương ứng với một xử lý từ đó có thể chuyển sang trạng thái mới với xác suất mới Trạng thái được gọi là ẩn là những trạng thái mà việc nhận dạng cho phép tìm ra chúng HMM được huấn luyện theo một đặc trưng cụ thể Với phương ngữ, các mơ hình được thành lập và hiệu chỉnh cho từng phương ngữ khác nhau Tiếng nói cần được nhận dạng sau đó sẽ đem so khớp với từng mơ hình và đánh giá bằng điểm số Mơ hình cho điểm số cao nhất được chọn và phương ngữ tương ứng với mô hình đã huấn luyện là kết quả nhận dạng
Nghiên cứu của Nancy F Chen, Wade Shen, Joseph P Campbell, Pedro A Torres-Carrasquillo sử dụng mơ hình HMM nhận dạng phương ngữ tiếng Ả rập dựa trên đặc điểm phát âm của từng phương ngữ [28] Một mơ hình HMM được sử dụng để dóng các âm vị với các âm của từng phương ngữ cụ thể để mô tả hiện tượng chèn, thay thế và xóa xuất hiện khi nào với mức độ thường xuyên ra sao Cây quyết định được sử dụng để tìm ra quy luật ngữ âm phụ thuộc ngữ cảnh Các tác giả đã tiến hành nhận dạng cho bốn phương ngữ của tiếng Ả rập Kết quả nhận dạng sử dụng mơ hình được đề xuất cho kết quả nhận dạng tương đối tăng 21-36% so với mức cơ sở
Cũng sử dụng HMM nhận dạng phương ngữ, Fadi Biadsy và các cộng sự sử dụng mơ hình ràng buộc âm vị nhận dạng năm phương ngữ tiếng Ả rập [20] Nhóm tác giả đã sử dụng HMM toolkit (HTK) để tiến hành các thử nghiệm Các mơ hình âm học được xây dựng sử dụng HMM ba trạng thái liên tục với hỗn hợp 12 thành phần Gauss cho mỗi trạng thái Các tác giả đã trích chọn đặc trưng bao gồm 12 hệ số MFCC trên mỗi khung tiếng nói có độ dài 25ms và độ dịch chuyển khung là 10ms Mỗi véc tơ đặc trưng có kích thước là 39 bao gồm 13 đặc trưng (12 hệ số MFCC với một giá trị năng lượng), 13 giá trị đạo hàm bậc nhất và 13 giá trị đạo hàm bậc hai của 13 đặc trưng ban đầu Các thử nghiệm được thực hiện trên bộ ngữ liệu Broadcast News TDT4 (47,61 giờ tiếng nói với tần số lấy mẫu là 8 kHz) Kết quả nhận dạng phương ngữ đạt độ chính xác tổng thể là 81,60% với độ dài tiếng nói nhận dạng là 30 giây
3) Mơ hình máy hỗ trợ véc tơ
Máy hỗ trợ véc tơ (SVM) cũng là một trong các bộ phân lớp hiệu quả thường được dùng gần đây SVM có thể phân chia các đối tượng thành hai lớp bằng một đường biên với khoảng trống lề vừa đủ Một trong các ưu điểm chính của SVM là ngay cả khi khơng thể phân chia một cách tuyến tính các nhóm thì các nhóm này có thể được thay đổi bằng cách sử dụng hàm nhân (kernel function) với các khoảng cách lề khác và khi đó chúng có thể phân chia được
Trang 2929
cho năm phương ngữ cần nhận dạng là Chattisgharhi (C), Bengali (B), Marathi (M), General (G) và Telugu (T) Trường hợp chỉ sử dụng đặc trưng phổ, tỷ lệ nhận dạng đúng khoảng 64% Tỷ lệ nhận dạng trung bình đạt được trong trường hợp sử dụng độ dài âm tiết, tần số cơ bản và năng lượng lần lượt là 58%, 64% và 49% Trường hợp kết hợp đồng thời các tham số trên cho tỷ lệ nhận dạng đúng đến 81%
4) Mô hình mạng nơ ron
Trong quá trình tìm kiếm các mơ hình mới, hiệu quả thay thế cho con người trong nhận dạng, người ta đã khám phá ra một số mơ hình mạng nơ ron (NN) có khả năng sử dụng trong các hệ thống xử lý tiếng nói [136] Các mơ hình ngơn điệu dựa trên mạng nơ ron đã chứng minh là có khả năng nắm bắt được các thông tin về ngôn điệu cụ thể của người nói, ngơn ngữ và các loại đơn vị âm thanh [136] Với kết quả rất hứa hẹn, các mô hình ngơn điệu được đề xuất mở rộng cho các mơ hình thơng thường nhằm nâng cao hiệu năng cho các hệ thống nhận dạng ngôn ngữ, nhận dạng tiếng nói và nhận dạng người nói Ngồi ra, các nghiên cứu cũng chỉ ra rằng các mơ hình ngơn điệu có thể nâng cao chất lượng của hệ thống tổng hợp tiếng nói Nghiên cứu của K Sreenivasa Rao và Shashidhar G Koolagudi sử dụng mạng nơ ron nhận dạng phương ngữ tiếng Hindi (năm 2011) cho tỷ lệ nhận dạng đúng phương ngữ lên đến 81% [137] Trong nghiên cứu này các tác giả sử dụng mơ hình AANN (Auto-Associative Neural Network) bao gồm năm lớp Lớp thứ nhất và lớp thứ năm lần lượt là lớp vào và lớp ra Các lớp ẩn bao gồm lớp thứ ba đến lớp thứ tư Số lượng nơ ron ở các lớp khác nhau Hàm kích hoạt ở lớp vào và lớp ra là hàm tuyến tính cịn hàm kích hoạt ở các lớp ẩn là hàm phi tuyến tanh(s) trong đó s là giá trị kích hoạt Cũng sử
dụng mạng nơ ron, Sinha, S và đồng sự đã xây dựng mơ hình mạng nơ ron nạp trước bao gồm hai lớp để nhận dạng phương ngữ tiếng Hindi [149] Các tác giả đã thử nghiệm nhận dạng cho các phương ngữ chính của tiếng Hindi bao gồm Khariboli, Bhojpuri, Haryanvi và Bagheli với ngữ liệu được thu thập từ 15 người nói bao gồm cả nam và nữ cho mỗi phương ngữ Nghiên cứu này sử dụng các đặc trưng của tiếng nói bao gồm phổ và ngơn điệu cho độ chính xác nhận dạng đạt 79%
5) Mơ hình mạng nơ ron sâu
Trang 3030
ra Tiếp theo, sử dụng phương pháp huấn luyện lan truyền ngược truyền thống để huấn luyện mạng sau khi đã khởi tạo trọng số cho tối đa các lớp mạng
6) Một số phương pháp khác
Ngồi ra, có thể kể đến một số phương pháp khác được dùng trong nhận dạng phương ngữ như hiệp biến thống kê (Statistical Covariance), GPU (Graphics Processing Units) Kỹ thuật phân cụm cũng là một hướng tiếp cận hiệu quả trong nhận dạng phương ngữ [113] Trong nghiên cứu của mình, N Nagy và các thành viên đã thực hiện phân cụm các phương ngữ sử dụng các đặc trưng âm vị chung của chúng Cũng có những nghiên cứu nhằm tăng tốc hệ thống nhận dạng bằng cách sử dụng công nghệ mới Nghiên cứu của Hanani sử dụng các bộ xử lý đồ họa (GPU) để tăng tốc độ xử lý của bộ nhận dạng [68]
1.3 Nghiên cứu nhận dạng tiếng nói và nhận dạng phương ngữ tiếng Việt
Nghiên cứu về nhận dạng tiếng Việt nói đã được một số nhà nghiên cứu trong và ngoài nước thực hiện Các nghiên cứu đã được thực hiện cho tiếng nói rời rạc và tiếng nói liên tục
Trang 3131
Nhiều mơ hình, cơng nghệ, giải pháp khác nhau đã được nghiên cứu và thử nghiệm trong hệ thống nhận dạng tiếng nói tự động trong đó mơ hình HMM được ứng dụng khá phổ biến Theo nội dung nghiên cứu được công bố tại [118], các tác giả đã sử dụng mơ hình HMM trong nhận dạng các giọng của tiếng Việt nói phát âm liên tục Từ các thực nghiệm, nhóm tác giả đã chỉ ra phương pháp tốt nhất để học F0 và năng lượng là sử dụng
hàm biến đổi logarit đồng thời cũng chỉ ra việc sử dụng 8 mẫu giọng (thay vì 6 giọng theo cách bỏ dấu) và sự khác biệt giữa giọng nam và giọng nữ của người nói để tăng độ chính xác của hệ thống nhận dạng tiếng Việt nói
Về phương diện ngơn ngữ, tiếng Việt và phương ngữ tiếng Việt đã có nhiều nghiên cứu được tổng hợp trong cơng trình của tác giả Hồng Thị Châu [2], các tác giả khác như Hoàng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến [3], Trần Thị Ngọc Lang [163], Võ Xuân Trang [172] Tuy nhiên, nghiên cứu phương ngữ tiếng Việt theo phương diện xử lý tín hiệu cịn rất hạn chế
1.4 Một số mơ hình nhận dạng 1.4.1 Mơ hình GMM
Phân bớ Gauss còn gọi là phân bố chuẩn, được sử dụng rộng rãi cho viê ̣c mô hình hóa các phân bố của các biến liên tục Trong trường hợp véc tơ 𝑿 là một chiều, phân bố Gauss có thể được viết dưới da ̣ng:
𝑔(𝑿|𝝁, 𝚺) = (2𝜋𝚺)1 1/2exp {−2𝚺 (𝑿 − 𝝁)1 2} (1.1)
Trong đó 𝝁 là trung bình, 𝚺 là phương sai Trường hợp véc tơ 𝑿 có D chiều, phân
bố Gauss đa thể hiện có da ̣ng:
𝑔(𝑿|𝝁, 𝚺) = (2𝜋)1𝐷/2|𝚺|11/2 exp {−12(𝑿 − 𝝁)𝑇𝚺−1(𝑿 − 𝝁)} (1.2)
Trong đó 𝝁 là véc tơ trung bình có D chiều, 𝚺 là ma trâ ̣n hiê ̣p phương sai có kích
thước 𝐷 𝑥 𝐷, |𝚺| là đi ̣nh thức của 𝚺
Phân bố Gauss tương ứng với nhiều bối cảnh khác nhau và có thể được sử dụng trong những tình huống rất đa da ̣ng Chẳng ha ̣n với trường hợp biến là một chiều và thực, phân bố Gauss là phân bố cực đa ̣i hóa entropy Phân bố Gauss đa chiều cũng có thuộc tính này
Trang 3232
ngữ có thể được suy diễn như sau Ngay cả trong trường hợp không nghe rõ nội dung câu nói, con người vẫn có khả năng cảm nhận đang nghe giọng người, ngôn ngữ, phương ngữ nào mà mình đã biết Trong trường hợp như vậy, thông tin tổng quát hay đường bao thông tin về ngữ âm đã giúp con người nhận ra giọng, ngôn ngữ, phương ngữ mà chưa cần dùng đến các thông tin chi tiết khác về nội dung cũng như về ngữ âm mà người nói truyền tải Bằng cách lựa chọn thích hợp số các thành phần phân bố Gauss, điều chỉnh trung bình và phương sai của chúng cũng như các trọng số trong tổ hợp tuyến tính, GMM có thể xấp xỉ phần lớn các mật độ phân bố liên tục với độ chính xác tùy chọn Cũng chính vì vậy, GMM cho phép mơ hình hóa chỉ các phân bố cơ bản của cảm nhận về ngữ âm của người nói hay cũng là cảm nhận đường bao thơng tin ngữ âm đã nói ở trên Yếu tố của phép trung bình trong khi xác định mơ hình GMM có thể loại đi các nhân tố chi tiết ảnh hưởng đến đặc trưng âm học như biến thiên ngữ âm theo thời gian của người nói khác nhau và chỉ giữ lại những gì là đặc trưng cơ bản cho giọng vùng, miền như trong trường hợp định danh phương ngữ Mặt khác, việc sử dụng GMM như là hàm khả hiện sẽ cho phép tính tốn khơng tốn kém, dựa trên mơ hình thống kê đã được biết rõ
Một mơ hình hỗn hợp Gauss đa thể hiện là tổng có trọng số của M thành phần mật
độ Gauss như biểu thức (1.3):
𝑝(𝑿|𝜆) = ∑ 𝜋𝑖 𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊)
𝑀
𝑖=1
(1.3)
Trong (1.3), 𝑿 là véc tơ dữ liệu (chứa tập các véc tơ tham số của đối tượng cần biểu diễn, mỗi phần tử của tập giả thiết có kích thước D), πi, i=1, , M là các trọng số của hỗn hợp và 𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊) là các hàm mật độ Gauss thành phần theo biểu thức (1.4) với véc tơ trung bình 𝝁𝒊 của véc tơ kích thước D và ma trận hiệp phương sai 𝚺𝒊kích thước DxD
𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊) = (2𝜋)𝐷/21|𝚺
𝒊|1/2 𝑒𝑥𝑝 {−12 (𝑿 − 𝝁𝒊)𝑇𝚺𝒊−1(𝑿 − 𝝁𝒊)} (1.4)
Các trọng số hỗn hợp cần thỏa mãn điều kiện ∑ 𝜋𝑀𝑖 = 1
𝑖=1
Một GMM đầy đủ được tham số hóa bởi véc tơ trung bình, ma trận hiệp phương sai và các trọng số hỗn hợp từ tất cả các thành phần Gauss Các tham số này có thể được biểu diễn gọn lại theo (1.5):
𝜆 = {𝝅𝒊, 𝝁𝒊, 𝚺𝒊}, 𝑖 = 1,2, … , 𝑀 (1.5)
Để định danh phương ngữ, mỗi phương ngữ được biểu diễn bằng một GMM và được tham chiếu bởi mơ hình 𝜆 của phương ngữ đó Trong trường hợp dùng MFCC như là
véc tơ đặc trưng, đường bao phổ của lớp âm học thứ i được biểu diễn bằng trung bình 𝝁𝒊
của thành phần thứ i, cịn biến thiên của đường bao phổ trung bình được biểu diễn bằng ma
Trang 3333
Giả thiết 𝑇 là số lượng véc tơ đặc trưng hay cũng là toàn bộ số lượng khung (frame) tiếng nói, M là số thành phần Gauss: 𝑿 = {𝒙1, 𝒙2, … , 𝒙𝑇 } (1.6) Khả hiện GMM là : 𝑝(𝑿|𝜆) = ∏ 𝑝(𝒙𝑡|𝜆)𝑇𝑡=1(1.7)
Biểu thức (1.7) là hàm phi tuyến đối với 𝜆 nên không thể trực tiếp cực đại hóa mà các tham số khả hiện cực đại có thể nhận được bằng cách dùng thuật giải cực đại hóa kỳ vọng EM (Expectation Maximization)
Ý tưởng của thuật giải EM là bắt đầu với mô hình khởi đầu λ, đánh giá mơ hình mới 𝜆̅ sao cho
𝑝(𝑿|𝜆̅) ≥ 𝑝(𝑿|λ) (1.8)
Mơ hình mới lại là mơ hình khởi đầu cho bước lặp tiếp theo và quá trình lặp lại cho đến khi ngưỡng hội tụ đạt được Trên thực tế, thuật giải cực đại hóa kỳ vọng là đi tìm 𝜆sao cho log 𝑝(𝑿|𝜆) của dữ liệu 𝑿 đạt cực đại
Trong trường hợp thử nghiệm nhận dạng phương ngữ tiếng Việt với mơ hình GMM, véc tơ 𝒙𝑡 sẽ chứa các tham số đặc trưng của tín hiệu tiếng nói như hệ số MFCC, các tham số liên quan đến F0, formant và dải thông tương ứng
1.4.2 Bộ phân lớp SVM
SVM cơ bản là một bộ phân lớp nhị phân phi tuyến có khả năng đốn nhận liệu một
véc tơ vào x thuộc về lớp 1 (khi đó đầu ra mong muốn là y = +1) hoặc thuộc lớp 2 (y = -1)
[151] Lần đầu tiên thuật giải phân lớp này được đề xuất là vào năm 1992 [21] và là phiên bản phi tuyến của thuật giải tuyến tính cũ hơn nhiều, cũng chính là thuật giải về luật quyết định siêu phẳng tối ưu (còn gọi là thuật giải hướng dọc tổng quát), đã được giới thiệu vào những năm 60
Trang 3434
không nhất thiết đi với tối ưu theo nghĩa tối thiểu hóa số sai số khi kiểm thử, nhưng là tiêu chí đơn giản cho lời giải tốt nhất trên thực tế đối với nhiều bài tốn [49]
Hình 1.1: Quyết định lề mềm
Như có thể suy ra từ Hình 1.1 [152], hàm phân biệt phi tuyến 𝑓(𝒙𝑖) có thể được viết thành:
𝑓(𝒙𝑖) = 𝒘𝑇 ∅(𝒙𝑖) + 𝑏, (1.9)
Trong đó, ∅(𝒙𝑖) là ánh xạ ℜ𝑛 ↦ ℜ𝑛′, (𝑛 ≪ 𝑛′), là hàm phi tuyến ánh xạ véc tơ 𝒙𝑖vào không gian đặc trưng (feature space) có kích thước lớn hơn (có thể là vơ hạn) ở đó các lớp được giả thiết là khả tách tuyến tính Véc tơ w biểu diễn cho siêu phẳng phân tách trong không gian như vậy Cần lưu ý rằng, nghĩa của không gian đặc trưng ở đây không liên quan đến không gian đặc trưng của tiếng nói thường được gọi là không gian vào
Mặt khác, 𝑟𝑥 là khoảng cách giữa các mẫu được biến đổi ∅(𝒙𝑖) và siêu phẳng phân tách, cịn ‖𝑤‖ là chuẩn Ơ-Clít của 𝒘 Gọi véc tơ hỗ trợ là những véc tơ gần biên quyết định nhất Các véc tơ này xác định lề và là các mẫu duy nhất cần dùng để tìm ra lời giải
Như vậy, với mỗi mẫu xi ta có 𝑟𝑥 = 𝑓(𝒙𝑖)/||𝑤|| Do đó, mục đích là tìm ra bộ phân lớp tối ưu được thực hiện bằng cách tối tiểu hóa ‖𝑤‖ cho tất cả các mẫu được phân lớp đúng, tức là:
𝑦𝑖(𝒘𝑇 ∅(𝒙𝑖) + 𝑏) ≥ 1 (1.10)
Điều này có thể được thiết lập như bài tốn tối ưu hóa bậc hai: min𝑤,𝑏 12‖𝑤‖2,
Yêu cầu là 𝑦𝑖(𝒘𝑇 ∅(𝒙𝑖) + 𝑏) ≥ 1
Để có được bộ phân lớp với khả năng tổng quát hóa tốt hơn và có thể xử lý được trường hợp không khả tách, nên cho phép một số lượng dữ liệu nào đó bị phân loại nhầm Điều này được thực hiện bằng cách đưa ra điểm phạt tùy thuộc vào hàm được tối thiểu hóa:
min
𝑤,𝑏,𝜉𝑖𝐿𝑃 = 12‖𝑤‖2+ 𝐶 ∑ 𝜉𝑖𝑁
𝑖=1
Trang 3535
Yêu cầu là 𝑦𝑖(𝒘𝑇 ∅(𝒙𝑖) + 𝑏) ≥ 1 − 𝜉𝑖 , 𝜉𝑖 ≥ 0 , với i=1,…,N,
Ở đây, 𝒙𝑖 ∈ ℜ𝑛 (i=1,…,N) là các véc tơ huấn luyện tương ứng với nhãn
𝑦𝑖 ∈ {±1}, còn các biến 𝜉𝑖 được gọi là các biến nới lỏng (slack) cho phép sai số nhất định có được lời giải trong trường hợp khơng khả tách 𝜉𝑖 thỏa mãn 0 ≤ 𝜉𝑖 ≤ 1 cho các mẫu được phân lớp tốt nhưng trong lề và 𝜉𝑖 > 1 cho các mẫu bị phân lớp sai Mặt khác, số hạng
C biểu diễn cho sự thỏa hiệp giữa số sai số huấn luyện và khả năng tổng qt hóa
Bài tốn này thường được giải quyết bằng cách đưa ra ràng buộc cho hàm cần tối thiểu hóa với việc sử dụng nhân tử Lagrange, dẫn tới việc cực đại hóa của đối ngẫu Wolfe:
max𝛼𝑖 𝐿𝐷 = ∑ 𝛼𝑖 −12 ∑ ∑ 𝑦𝑖𝑦𝑖𝛼𝑖𝛼𝑖∅𝑇(𝒙𝑖)∅(𝒙𝑗),𝑛𝑗=1𝑛𝑖=1𝑛𝑖=1 Yêu cầu là ∑ 𝛼𝑖𝑦𝑖 = 0 𝑣à 0 ≤ 𝛼𝑖 ≤ 𝐶𝑛𝑖=1(1.12) Đây là bài tốn lồi bậc 2, vì vậy sự hội tụ tới cực tiểu toàn cục sẽ được đảm bảo bằng cách sử dụng sơ đồ quy hoạch toàn phương (Quadratic Programming - QP) Biên quyết định cuối cùng 𝒘 được cho bởi:
𝒘 = ∑ 𝛼𝑖𝑦𝑖∅(𝒙𝑖)
𝑛
𝑖=1
(1.13) Theo (1.13), chỉ các véc tơ với 𝛼𝑖 ≠ 0 liên đới sẽ góp phần định xác định véc tơ trọng số 𝒘 và do vậy xác định được biên phân tách Đây là các véc tơ hỗ trợ đã được nói ở trên xác định biên giới phân tách và lề
Nói chung, khơng biết hàm ∅(𝑥𝑖) một cách tường minh (thực tế, trong phần lớn các trường hợp, không thể đánh giá hàm này chừng nào mà kích thước của khơng gian đặc trưng cịn là vô hạn) Tuy nhiên, thực ra không cần phải biết hàm này, bởi vì chỉ cần đánh giá các tích điểm ∅𝑇(𝑥𝑖) ∅(𝑥𝑗) bằng cách sử dụng thủ thuật kernel, trong đó tích này có thể được đánh giá bằng cách dùng hàm 𝐾(𝑥𝑖, 𝑥𝑗)
Có nhiều cài đặt SVM tính hàm này cho mỗi cặp của các mẫu vào bằng cách tạo ra ma trận kernel lưu trong bộ nhớ
Bằng cách sử dụng phương pháp này và thay 𝒘 ở (1.9) bằng biểu thức (1.13), dạng cuối cùng của SVM như sau:
𝑓(𝒙) = ∑ 𝛼𝑖𝑦𝑖𝐾(𝒙𝑖, 𝒙) + 𝑏
𝑛
𝑖=1
(1.14)
Trang 3636
𝐾𝐿(𝒙𝑖, 𝒙𝑗) = 𝒙𝑖𝑇 𝒙𝑗; (1.15)
- Hàm kernel cơ bản hướng Gauss RBF (Radial Basis Function Kernel):
𝐾𝑅𝐵𝐹(𝒙𝑖, 𝒙𝑗) = 𝑒𝑥𝑝 (−𝛾‖𝒙𝑖 − 𝒙𝑗‖2), (1.16)
Ở đây, 𝛾 là tỷ lệ với nghịch đảo của phương sai hàm Gauss và không gian đặc trưng liên kết với nó có kích thước vơ hạn;
- Hàm kernel đa thức (polynomial kernel):
𝐾𝑃(𝒙𝑖, 𝒙𝑗) = (1 + 𝒙𝑖𝑇 𝒙𝑗)𝑃, (1.17)
Không gian đặc trưng liên kết với nó là đa thức cho tới bậc p
- Hàm kernel sigmoid (sigmoid kernel):
𝐾𝑆𝐼𝐺(𝒙𝑖, 𝒙𝑗) = 𝑡𝑎𝑛ℎ(𝑎𝒙𝑖𝑇 𝒙𝑗 + 𝑏)𝑃, (1.18)
Cần lưu ý rằng, có một số điều kiện mà một hàm cần phải thỏa mãn để được sử dụng như kernel Các điều kiện này thường được gọi là KKT (Karush-Kuhn-Tucker) [53] và có thể được giảm xuống để chỉ kiểm tra ma trận kernel là đối xứng và bán xác định dương
Lý do khiến SVM trở nên hiệu quả hơn trong nhiều ứng dụng so với các phương pháp khác dựa trên biệt thức tuyến tính là tiêu chí học của nó Mục tiêu của bất cứ bộ phân lớp nào là tối thiểu hóa được số lượng các phân lớp nhầm lẫn với bất kỳ tập mẫu nào có thể có Điều này được gọi là tối thiểu hóa rủi ro (Risk Minimization - RM) Tuy nhiên, trong các bài tốn phân lớp điển hình, ta chỉ có số lượng giới hạn các mẫu sẵn có (trong một số trường hợp có thể có một số lượng vô hạn các mẫu mà ta cũng chỉ có thể làm với một tập con) và vì vậy, tất cả những điều có thể làm được là cố gắng cực tiểu số lượng phân lớp nhầm trong tập huấn luyện Điều này được gọi tối thiểu hóa rủi ro theo kinh nghiệm (Empirical Risk Minimization - ERM) và phần lớn các bộ phân lớp đều dựa trên ERM cho tiến trình học
Mặc dầu vậy, việc có bộ phân lớp với ERM tốt (hoặc thậm chí là muốn như vậy) là khơng đủ Tính phức tạp của các bộ phân lớp thường phải được cố định từ trước và vì vậy, hoặc có thể lựa chọn một cấu trúc quá đơn giản nên khơng thể mơ hình hóa một cách đúng đắn biên phân lớp của bài toán, hoặc lại quá phức tạp, vượt trên mức tập huấn luyện và không thể tổng quát hóa các mẫu thiếu Điều này được gọi là rủi ro cấu trúc và một bộ phân lớp tốt phải duy trì được sự thỏa hiệp giữa các ERM và SRM (Structural Risk Minimization - tối thiểu hóa rủi ro cấu trúc)
Trang 3737
Tiếc là không có phương pháp nào để biết trước giá trị thích hợp nhất cho tham số này Vì vậy, phải chọn ra tham số này bằng quá trình tìm kiếm
Một số phương pháp huấn luyện SVM:
Do có kích thước rất lớn, bài tốn QP sinh ra từ SVM khơng thể dễ dàng giải được thông qua các kỹ thuật QP chuẩn Dạng bậc hai trong (1.12) kéo theo ma trận có số phần tử bằng bình phương mẫu huấn luyện Ma trận này không thể chứa gọn trong 128 MB bộ nhớ nếu có nhiều hơn 4000 mẫu huấn luyện (giả thiết là mỗi phần tử được lưu trữ như là một số chính xác kép 8-byte)
Vapnik [167] mơ tả một phương pháp để giải bài tốn QP SVM mà từ đó có tên gọi là phân khúc dữ liệu ("chunking") Có một yếu tố mà thuật giải chunking sử dụng là giá trị của dạng bình phương là như nhau nếu bỏ các hàng và cột của ma trận tương ứng với các nhân tử Lagrange bằng khơng Do vậy, bài tốn QP lớn có thể được chia thành một loạt các bài toán QP nhỏ hơn, mà mục đích cuối cùng của các bài tốn này là tìm ra tất cả các nhân tử Lagrange khác không và loại bỏ tất cả các nhân tử Lagrange bằng không Ở mỗi bước, việc phân khúc dữ liệu sẽ giải bài toán QP bao gồm các mẫu sau: mỗi một nhân tử Lagrange khác không từ bước trước và các mẫu xấu nhất M vi phạm các điều kiện KKT
[53] với một giá trị nào đó của M (Hình 1.2) Nếu có ít hơn M mẫu vi phạm các điều kiện KKT ở một bước nào đấy, tất cả các mẫu vi phạm sẽ được thêm vào Mỗi bài toán nhỏ QP được khởi tạo với kết quả của bài tốn nhỏ trước đó Kích thước của bài toán QP nhỏ tăng theo thời gian, nhưng cũng có thể giảm Tại bước cuối cùng, tồn bộ tập các nhân tử khác khơng Lagrange đã được tìm thấy; vì vậy bước cuối cùng giải được bài tốn QP lớn
Việc phân khúc dữ liệu làm giảm rõ rệt kích thước của ma trận từ bình phương số mẫu huấn luyện xuống gần bằng bình phương số nhân tử Lagrange khác khơng Tuy nhiên, ngay cả khi kích thước ma trận đã được giảm mà vẫn không chứa gọn được vào bộ nhớ nên chunking còn chưa thể giải được các bài toán huấn luyện cỡ lớn Một cách để giải bài toán này là dùng cấu trúc dữ liệu phức tạp đối với phương pháp QP Cấu trúc dữ liệu như thế tránh được việc cần phải lưu trữ tồn bộ Hessian Các vịng lặp trong của các phương pháp QP như vậy thực hiện các tích điểm giữa các véc tơ và các hàng (hoặc cột) của Hessian, thay vì nhân ma trận véc tơ đầy đủ
Osuna [127] đã gợi ý một chiến lược mới để giải bài toán QP SVM Osuna chỉ ra rằng bài tốn QP lớn có thể được chia thành một loạt các bài toán con QP nhỏ hơn Chỉ cần ít nhất một mẫu vi phạm các điều kiện KKT được thêm vào các mẫu đối với bài toán con trước đó thì mỗi bước sẽ giảm hàm mục tiêu tổng thể và duy trì một điểm khả thi tuân theo tất cả các ràng buộc Do vậy, dãy các bài tốn con QP ln ln bổ sung ít nhất một phần tử vi phạm sẽ tiệm cận hội tụ
Trang 3838
thuật khác nhau Trong bất cứ trường hợp nào, tất cả các phương pháp này cũng cần phải giải bài tốn QP Việc có được lời giải đúng đối với bài toán QP là rất khó khăn nên cần đưa ra nhiều mức độ chính xác khác nhau
Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM: Chunking, Osuna và SMO
Trên Hình 1.2 [131], mỗi phương pháp được minh họa 3 bước Đường mảnh nằm ngang ở mỗi bước biểu diễn cho tập huấn luyện, trong khi đó các hộp biểu diễn cho các nhân tử Lagrange đã được tối ưu ở bước đó Nhóm ba đường tương ứng với ba bước lặp huấn luyện, lần lặp thứ nhất ở trên cùng
Một số ưu thế và các bất lợi của SVM:
Các ưu thế của SVM có thể kể đến là:
- Có lời giải duy nhất và sự hội tụ được đảm bảo (các lời giải được tìm ra bằng phương pháp tối thiểu hóa hàm lồi) Đây là ưu thế so với các bộ phân lớp khác chẳng hạn ANN thường rơi vào tối thiểu cục bộ hoặc không hội tụ tới một giá trị ổn định
- Lời giải với lề cực đại làm cho SVM trở nên mạnh hơn và rất thích hợp cho các ứng dụng như nhận dạng tự động tiếng nói (ASR) trong mơi trường có nhiễu - Bởi vì trong q trình cực tiểu hóa chỉ có ma trận kernel là liên quan, nên có thể
thực hiện với các véc tơ vào có số chiều lớn, cũng như có thể tính tốn được các kernel tương ứng Trong thực tế, có thể thực hiện điều này với các véc tơ có số chiều đến hàng nghìn
Trong số các bất lợi, có thể nêu bật các điểm sau:
Trang 3939
- Tính tối ưu của lời giải nhận được có thể phụ thuộc vào kernel đã sử dụng và khơng có phương pháp nào để biết trước kernel nào là tốt nhất cho một thao tác cụ thể Mặc dù các kernel như RBF được xem như là phổ quát, vẫn cần phải thực hiện tìm kiếm dựa theo lưới để cố định tất cả các tham số của SVM
- Như đã nói ở trên, giá trị tốt nhất cho tham số C cũng không được biết từ đầu - Giống như ANN, các véc tơ vào của SVM với việc thiết lập như đã thấy phải có
kích thước cố định Đây là vấn đề đối với nhận dạng tiếng nói trong đó mỗi một dãy cần được nhận dạng đều có một thời hạn khác nhau
Mặc dù có những bất lợi này, SVM vẫn có đủ sức thu hút để sử dụng trong các ứng dụng khác nhau và đặc biệt là nhận dạng tiếng nói
1.4.3 Mạng nơ ron nhận tạo
Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) thường gọi tắt là mạng nơ-ron (Neural network) là mơ hình tốn học hay hệ thống xử lý thông tin được xây dựng dựa trên cơ sở tổng qt hóa mơ hình tốn học của nơ-ron thần kinh sinh học và phỏng theo cơ chế làm việc của bộ não người
Mơ hình nơ-ron:
Mỗi nơ-ron là một đơn vị xử lý thông tin trong mạng nơ-ron Mơ hình của nơ-ron trên Hình 1.3 [148] bao gồm 3 thành phần chính:
Hình 1.3: Mơ hình một nơ-ron
1 Tập các liên kết thần kinh (synapses) hay các đường kết nối có trọng số Mỗi tín hiệu xjở đầu vào của liên kết thứ j được kết nối với nơ-ron k được nhân với trọng
số wkj Chỉ số thứ nhất (k) tham chiếu đến nơ-ron được đề cập đến và chỉ số thứ hai (j) tham chiếu đến liên kết tương ứng qua trọng số Không giống liên kết trong bộ não, trọng số liên kết của nơ-ron nhân tạo có thể nằm trong một phạm vi bao gồm cả các giá trị âm và giá trị dương
Trang 4040
3 Một hàm kích hoạt hay cịn gọi là hàm kích hoạt (Activation Function) để hạn chế độ đầu ra của nơ-ron Hàm kích hoạt cũng được xem như là hàm chặn (Squashing Function) để ép phạm vi biên độ cho phép của tín hiệu ra thuộc giá trị hữu hạn nào đó Thơng thường phạm vi biên độ chuẩn hóa đầu ra của nơ-ron được biểu thị dưới dạng khoảng đóng [0,1] hoặc [-1,1]
Mơ hình nơ-ron ở Hình 1.3 cũng bao gồm thiên áp từ bên ngồi bk Thiên áp bk có tác dụng làm tăng hoặc giảm mạng đầu vào của hàm kích hoạt tùy thuộc vào giá trị của bk
là dương hay âm tương ứng
Về mặt toán học, nơ-ron k có thể được biểu diễn bằng cặp phương trình:
𝑢𝑘= ∑ 𝑤𝑘𝑗𝑥𝑗𝑚𝑗=1(1.19) và 𝑦𝑘 = 𝜑(𝑢𝑘+ 𝑏𝑘) (1.20)
trong đó đó x1, x2, …, xm là các tín hiệu vào; wk1, wk2, …, wkm là trọng số của các liên kết của nơ-ron k; uk là bộ tổ hợp tuyến tính đầu ra đối với các tín hiệu vào; bk là thiên
áp 𝜑( ) là hàm kích hoạt; và yk là tín hiệu ra của nơ-ron Việc dùng bk có tác dụng làm biến đổi mịn đầu ra uk của bộ tổ hợp tuyến tính trong mơ hình (Hình 1.3) như sau:
𝑣𝑘= 𝑢𝑘+ 𝑏𝑘 (1.21)
Đặc biệt, tùy thuộc vào giá trị bklà dương hay âm mà quan hệ giữa trường cảm ứng cục bộ (induced local field) hay hoạt thế (activation potential) vk của nơ-ron k và đầu ra bộ
tổ hợp tuyến tính uk được thay đổi theo cách như ở Hình 1.4 [148] Lưu ý do phép biến đổi làm mịn mà quan hệ của vkđối với ukkhông đi qua gốc tọa độ