MỤC LỤC LỜI CẢM ƠN
BANG KE CAC THUAT NGU ANH VIET
CHUONG 1 TONG QUAN VE NHAN DANG TIENG NOI
1.1 Giới thiệu
1.2 Nguyên tắc của hệ thống nhận dạng tiếng nói
1.2.1 Phân tích đặc tính tiếng nói " 1.22 Phan lớp mấẫu 19 12.3 Xử lý ngônngữ 20
1.3 Nghiên cứu hiện thời về nhận dạng tiếng n
1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính
1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngơn ngữ nước ngồi
1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng VIỆ( 5S SStseekrkekerrkrxee 1.4 Cơ sở dữ liệu tiếng nói
1.5 Ngôn ngữ tiếng Việt
1.5.1 Đặc điểm âm tiết tiếng Việt
1.5.2 Âm vị tiếng Việt
1.5.3 Sự phần bố của các šm vị Hếng VIỆT esieai-aiiiiiisiieieikssiia6440400601011460461366604618 33 CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNGNÓI LIÊN TỤC SỬ DỤNG HMM VÀ ANN 34 2.1 Các phương pháp xử lý tín hiệu tiếng nói 2.1.1 Phương pháp tính hệ số MECC 2.1.2 Phương pháp tính hệ số PLP a 2.1.3 Các kỹ thuật khử nhiễu 2222 1111121211212 re 2.2 Mô hình Markov ẩn 2.2.1 Quá trình Markov 2.2.2 Mô hình Markov ẩn
2.2.3 Ba bài toán cơ bản của mô hình Markov ẩn 2.2.4 Các giải pháp toán học cho ba bài toán cơ bản
2.2.5 Các loại mô hình Markov ẩn
2.3 Mạng neuron nhân tạo 2.3.1 Giới thiệu 2.3.2 Mạng Perceptron đa lớp MLP 2.4 Huấn luyện các hệ thống nhận dạng
Trang 22.4.3 Huấn luyện hệ thống nhận dạng dùng HMM/ANN ecceeeieeree 64
2.5 Nhận dạng
2.5.1 Xây dựng mạng từ
2.5.2 Mô hình ngôn ngữ N-gram
2.5.3 Sử dụng mạng từ trong hệ thống nhận dạng
29/4 GiB SMES scecaevarezevusevsassenecsusavsserasnesnssvnesnesuessassesssssseeaventerues 69
CHUONG 3 CO SO DU LIEU VA GAN NHAN TIENG VIET 3.1 Bang ky tu phién 4m 3.2 Gan nhan bang tay 3.2.1 Giới thiệu 3.2.2 Các nguyên tắc chung về gán nhãn bằng tay 3.2.3 Các âm tắc 3.2.4 Âm đóng 32.5 Âmxát 3.2.6 Phu am mii
3.2.7 Nguyên âm đơn, nguyên âm đôi và bán nguyên am 3.2.8 Phu âm cuối
3.2.9 Am tac thanh hau es
32:10 Ait dent nasssenencecanemumarcnemonta aren )BĐGG12008000800 3.0 3.3 Gan nhan tự động 3.3.1 Giới thiệu 3.3.2 Gán nhãn tự động cơ sở dữ liệu 3.3.3 Đánh giá độ chính xác của gán nhãn tự động 3.4 Xây dựng cơ sở dữ liệu tiếng Việt 3.4.1 Giới thiệu
3.4.2 Giới thiệu cơ sở dữ liệu tiếng nói của CSLU 3.4.3 Phương pháp xây dựng cơ sở dữ liệu tiếng Việt
CHƯƠNG 4 HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT LIÊN TỤC - 88 4.1 Phân tích hai phương pháp nhận dạng HMM liên tục và HMM/ANN - 88 4.2 Hệ thống nhận dạng chữ số tiếng Việt liên tục sử dụng HMM/ANN
4.2.1 Giới thiệu
4.2.2 _ Hệ thống nhận dạng chữ số liên tục tiếng Việt dùng ANN 4.2.3 Vai trò của âm đóng trong phiên âm các chữ số
4.2.4 _ Số lượng category cho mỗi nguyên âm
4.2.5 Giới hạn về độ dài
4.2.6 _ Phương pháp trích chọn đặc đính phổ của tiếng nói
4.2.7 _ Hệ thống nhận dạng mười chữ số tiếng Việt dùng mạng HMM/ANN 4.2.8 Hệ thống nhận dạng chữ số tiếng Việt dùng HMM liên tục
4.2.9 Nghiên cứu sử dụng tần số cơ bản a
F UÀnca n
Trang 34.3 Hệ thống nhận dạng liên tục tiếng Việt không thanh điệu kích thước trung bình 114 4.3.1 Giới thiệu
4.3.2 Hệ thống nhận dạng cơ sở dùng HMM liên tục 4.3.3 Xây dựng hệ thống với nhiều hàm Gauss
4.3.4 Bổ sung thêm âm vị khoảng lặng
4.3.5 Vai trò của âm đóng 4.3.6 Phụ âm cuối là âm mũi
4.3.7 Thử nghiệm tiếng địa phương thổ ngữ
4.3.8 Huấn luyện với các thông tin nhãn thời gian
4.3.9 Thử nghiệm với dữ liệu kiểm tra và dữ liệu huấn luyện trùng nhau
4.3.10 Két luan
4.4 Chương trình ứng dụng nhận dạng tiếng nói
4.4.1 Chương trình trình diễn nhận dạng chữ số tiếng Việt liên tục
4.4.2 _ Chương trình nhận dạng tiếng Việt không thanh điệu liên tục kích thước trung bình 132 4.4.3 Chương trình ứng dụng thông tin qua mạng điện thoại -:-+©+-++++s+s+s+++2 133
CÁC KIẾN NGHỊ VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO =
PHU LUC A BANG KÝ HIỆU ÂM VỊ TIẾNG VIỆT -eeeeeerisissreereeee
PHU LỤC B GIỚI THIỆU MỘT SỐ BỘ CÔNG CỤ XỬ LÝ TIẾNG NÓI DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN
TÀI LIỆU THAM KHẢO
Trang 4
MO BAU
Tính cấp thiết của đề tài
Năm 1969, TS John Pierce, Giám đốc Nghiên cứu thuộc Phòng thí nghiệm Điện thoại Bell đã viết một bài báo nổi tiếng “Đích đến của nhận dạng tiếng nói”, trong đó
ông cho rằng nhận dạng tiếng nói là một nhiệm vụ không thể thực hiện được với máy
tính và “sự lôi cuốn nghiên cứu về nhận dạng tiếng nói giống như là sự lôi cuốn việc nghiên cứu biến nước thành dầu lửa, lấy vàng từ đáy biển, chữa trị bệnh ung thư hay đi tới mặt trăng” Vào năm 1980, GS Gorge trong một bài báo tương tự cũng cho rằng
không cần thiết phải xây dựng các hệ thống hiểu tiếng nói để thu nhận thông tin qua điện thoại hoặc là ra lệnh cho máy tính vì những nhiệm vụ như vậy là quá khó khăn [33] Tuy nhiên trái ngược với các dự đoán, hiện nay một số ứng dụng nhận dạng tiếng nói đã được dùng rộng rãi trong xã hội và trong khoa học, đặc biệt là trong viễn thông
Điện thoại di động đã có thể quay số điện thoại bằng giọng nói, các hệ thống xử lý
thoại đa kênh có thể điều khiển các cuộc gọi thông qua tiếng nói, máy tính cá nhân với phần mềm nhận dạng tiếng nói có thể trợ giúp cho những người khiếm thính, các phần
mềm thương mại nhận dạng đọc chính tả đã được sử dụng tại Mỹ, Canada, Nhật,
Sự phát triển vượt bậc của ngành khoa học nhận dạng tiếng nói trong vài thập kỷ
gần đây là kết quả của việc áp dụng các phương pháp tiên tiến của công nghệ thông tin
Một trong những phương pháp đó là mô hình Markov ẩn HMM (Hidden Markov Model) và mạng no ron nhân tao ANN (Artificial Neural Network) Đây là hai phương
pháp được nghiên cứu nhiều nhất hiện nay trong các phòng thí nghiệm nhận dạng tiếng nói trên thế giới Các hệ thống nhận dạng thử nghiệm có thể nhận dạng đến hàng chục nghìn từ với độ chính xác trên 90%
Trang 5nhận dạng tiếng nói tiếng Việt là rất cần thiết để xây dựng các hệ thống nhận dạng tiếng nói của riêng tiếng Việt, đưa các hệ thống này áp dụng vào trong thực tế
Mục đích nghiên cứu
Mục đích nghiên cứu của luận án là nghiên cứu các phương pháp nhận dạng tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng ngôn ngữ nước ngồi: mơ hình Markov ẩn HMM, mạng nơ ron nhân tạo ANN và hệ thống lai ghép
giữa hai phương pháp này (hybrid HMM/ANN) Trên cơ sở các nghiên cứu này, ứng
dụng các phương pháp nhận dạng trên vào trong nhận dạng tiếng Việt
Luận án đặt vấn đề nghiên cứu phương pháp thiết kế, xây dựng cơ sở dữ liệu tiếng
Việt và đặc biệt là phương pháp gán nhãn âm vị cho phát âm liên tục tiếng Việt
Luận án nghiên cứu và tìm hiểu các đặc điểm chung và đặc điểm riêng biệt của
ngôn ngữ tiếng Việt so với ngôn ngữ nước ngoài để từ đó phân tích và phát hiện các vấn đề đặc thù của ứng dụng hai phương pháp nhận dạng trên vào trong hệ thống nhận dạng tiếng Việt liên tục Các kết quả nghiên cứu của nhận dạng tiếng nước ngoài và một số kết quả nghiên cứu của các tác giả trong nước về nhận dạng tiếng Việt sẽ được kế thừa và sử dụng Các thử nghiệm tập trung vào các khía cạnh đặc trưng của ngôn ngữ tiếng
Việt và các vấn đề nhận dạng các phát âm qua điện thoại
Thanh điệu là một thành phần của giọng nói Với các ngôn ngữ không có thanh điệu, thanh điệu ít được nghiên cứu sử dụng Tiếng Việt là một trong số ít ngôn ngữ có
thanh điệu Luận án nghiên cứu về vai trò của thanh điệu trong các hệ thống nhận dạng
tiếng Việt, tận dụng thông tin về thanh điệu để nâng cao hiệu quả nhận dạng tiếng Việt Pham vi nghiên cứu
Các hệ thống nhận dạng tiếng nói bao gồm hai loại: hệ thống nhận dạng từ rời rạc
(discrete) và hệ thống nhận dạng từ liên tục (continuous) Nhận dạng từ liên tục bao
gồm hệ thống nhận dạng kích thước nhỏ và hệ thống nhận dạng kích thuớc trung bình hoặc lớn Nhận dạng từ liên tục là một bài toán khó khăn hơn nhiều so với nhận dạng từ rời rạc Hiện nay mới chỉ có một nghiên cứu về hệ thống liên tục kích thước nhỏ tiếng Việt (mười chữ số) được trình bày trong luận án của TS Nguyễn Thành Phúc Trong đề tài này nghiên cứu sinh (NCS) dat van dé tap trung nghiên cứu về hệ thống nhận dạng
Trang 6Tuy nhiên xây dựng một hệ thống nhận dạng liên tục kích thước lớn (tới hàng chục
nghìn âm tiết) hoặc không hạn chế số lượng âm tiết là một nhiệm vụ phức tạp và mất
nhiều thời gian, vượt ra ngồi khn khổ của một đề tài nghiên cứu sinh Luận án giới hạn nghiên cứu các hệ thống nhận dạng liên tục kích thước nhỏ và trung bình Việc
nghiên cứu hệ thống nhận dạng kích thước trung bình sẽ là một bước chuẩn bị để mở rộng nghiên cứu về hệ thống nhận dạng kích thước lớn
Một trong các lĩnh vực được áp dụng nhiều nhất của nhận dạng tiếng nói là ngành viễn thông, nhận dạng các thu âm qua hệ thống điện thoại Tiếng nói thu âm qua điện thoại có đặc điểm là: có nhiều nhiễu trên đường truyền, chất lượng thu âm thấp, tần số bị giới hạn trong giải 300-3400Hz, độ đa dạng cao do sự đa dạng của mạng điện thoại:
kiểu của micro, kiểu của tổng đài chuyển mạch, hệ thống truyền dẫn Các nghiên cứu hiện thời về nhận dạng tiếng nói tiếng Việt mới chỉ tập trung vào các thu âm trong môi trường cách âm hay văn phòng mà chưa có nghiên cứu về các thu âm trong điện thoại
Với mong muốn nghiên cứu về các đặc thù của các thu âm qua điện thoại, giải quyết các vấn đề với các thu âm chất lượng không cao, luận án tập trung nghiên cứu hệ thống nhận dạng tiếng nói qua mạng điện thoại
Ý nghĩa khoa học và thực tiễn của đề tài
Nhận dạng tiếng nói đang được nghiên cứu tại nhiều nước trên thế giới, tuy vậy ở Việt nam nghiên cứu nhận dạng tiếng nói còn ít Các nghiên cứu của luận án tập trung vào các vấn đề đang còn chưa được nghiên cứu nhiều trong tiếng Việt
Cơ sở dữ liệu tiếng nói tốt góp phần nghiên cứu nhận dạng tiếng nói đi đúng hướng và thành công Hiện tại chưa có cơ sở dữ liệu tiếng nói với số lượng từ lớn và chất lượng tốt cho tiếng Việt Luận án đã xây dựng hai cơ sở dữ liệu tiếng nói thu âm qua điện thoại với số lượng người nói trên 200 người: cơ sở dữ liệu mười chữ số và cơ sở dữ liệu có kích thước từ điển 528 từ Hai cơ sở dữ liệu này giúp cho nghiên cứu về các hệ thống nhận dạng tiếng nói tiếng Việt Ngoài ra qua kinh nghiệm nghiên cứu xây dựng hai cơ sở dữ liệu này, luận án giới thiệu một số tiêu chí và phương pháp để xây dựng cơ sở dữ
liệu lớn hơn
Trang 7phương pháp gán nhãn âm vị bằng tay các phát âm liên tục tiếng Việt Ngoài ra một phương pháp gán nhãn tự động âm vị được trình bày trong luận án để giúp cho công việc gán nhãn được nhanh chóng
Luận án đã nghiên cứu hệ thống nhận dạng chữ số liên tục tiếng Việt thu âm qua điện thoại dùng hệ thống hai ghép HMM/ANN với độ chính xác là 97,78% ở mức từ và 91,78% ở mức câu Kết quả này gần tương đương với các hệ thống nhận dạng tương tự của nước ngoài Các chương trình trình diễn và chương trình ứng dụng của hệ thống này đã được xây dựng để minh hoạ khả năng ứng dụng của hệ thống nhận dạng này trong thực tế
Luận án mạnh dạn nghiên cứu về hệ thống nhận dạng liên tục tiếng Việt kích thước trung bình gồm 528 từ Phương pháp được áp dụng là dùng mô hình Markov ẩn liên
tục Tuy kết quả nhận dạng còn chưa cao: 76,57% ở mức từ và 29,97% ở mức câu, nhưng các phân tích và phát hiện của luận án về các đặc thù của nhận dạng tiếng Việt là thông tin có ích trong bước tiếp theo: nghiên cứu hệ thống nhận dạng kích thước lớn
Tổ chức của luận án
Nội dung cơ bản của luận án gồm bốn chương:
Chương 1: Tổng quan về nhận dạng tiếng nói
Trình bày khái quát về nguyên tắc hoạt động, các bộ phận của hệ thống nhận dạng
tiếng nói; độ chính xác hiện thời của các hệ thống nhận dạng tiếng nước ngoài và tiếng
Việt; cơ sở dữ liệu tiếng nói và các đặc điểm của ngôn ngữ tiếng Việt Chương 2: Hệ thống nhận dạng tiếng nói liên tục dùng HMM và ANN
Trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói liên tục, các phương pháp trích chọn các đặc tính phổ; cơ sở lý thuyết cla mé hinh Markov an HMM va ting
dụng của chúng trong nhận dạng tiếng nói; cơ sở lý thuyết của mạng neuron đa lớp; phương pháp huấn luyện hệ thống nhận dạng tiếng nói; thuật toán nhận dạng, giải mã
Chương 3 Cơ sở dữ liệu và gán nhãn tiếng Việt
Trang 8gán nhãn các 4m vi trong một cơ sở dữ liệu; xây dựng hai cơ sở dữ liệu tiếng Việt thu
âm qua điện thoại
Chương 4 Hệ thống nhận dạng tiếng Việt liên tục
Trình bày các hệ thống nhận dạng tiếng Việt liên tục được nghiên cứu, phân tích về
hai loại hệ thống nhận dạng: hệ thống nhận dạng dùng HMM liên tục và hệ thống nhận
dạng dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng chữ số tiếng Việt liên tục dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng liên tục tiếng Việt không
thanh điệu có kích thước trung bình dùng mô hình HMM liên tục; một số chương trình
trình diễn nhận dạng tiếng Việt
Trang 9BẢNG KÊ CÁC KÝ HIỆU VIẾT TẮT Viết tắt Nghĩa
ASR Automatic Speech Recognition
ANN Artificial Neural Network
CD-HMM Continuous-Density Hidden Markov Model
CMS Cepstral Mean Subtraction
DCT Discrete Cosin Transform
DFT Discrete Fourier Transform
DHMM Discrete Hidden Markov Model
DTW Dynamic Time Warping
EM Expectation-Maximization
FFT Fast Fourier Transform
HMM Hidden Markov Model (M6 hinh Markov an)
HMM/ANN | Hệ thống lai ghép giữa mô hình Markov ẩn và mạng neuron
IPA International Phonetic Alphabet (Bảng ký tự phiên âm quốc tế)
F0 Formant 0 (Tần số formant cơ bản)
F1,F2,F3 Formant 1, Formant 2, Formant 3 LPC Linear Predictive Coding
LVCSR Large-Vocabulary Continuous Speech Recognition
MAP Maximum A Posterior
MFCC Mel Scale Frequency Cepstral Coefficients (Cac hé s6 cepstral véi thang tần số Mel)
ML Maximum Likelihood
MLP Multi-Layer Perceptron (Mang no ron Perceptron da lép)
NCS Nghiên cứu sinh
PLP Perceptual Linear Prediction RASTA RelAtive SpecTral
Trang 10
BẢNG KÊ CÁC THUẬT NGỮ ANH-VIỆT
Tiếng Anh Tiếng Việt
acoustic model mô hình âm học affricates âm tắc xát category don vi nhan dang codebook sách mã codeword từ mã context ngữ cảnh forced alignment gán nhãn cưỡng bức classification phân lớp
corpus cơ sở dữ liệu tiếng nói
diphthong nguyên âm đôi embedded training huấn luyện nhúng error back propagation truyền sai số ngược fricate âm xát hidden layer lớp ẩn initial am dau input layer lớp vào language model mô hình ngôn ngữ labeling gán nhãn learning học
liasion hiện tượng nối âm
Trang 11
semi-vowel bán nguyên âm Segmentation phân đoạn speaking rate tốc độ phát âm
Spectrogram biểu đồ phổ
spontaneous speech tiếng nói tự nhiên training huấn luyện unvoiced vô thanh
vowel nguyên âm
vocal cord dây thanh âm vocal tract đường phát âm waveform biểu đồ sóng
voiced hữu thanh
Trang 12CHƯƠNG 1 TỔNG QUAN VỀ
NHẬN DẠNG TIẾNG NÓI
Trong chương này, phần một giới thiệu khái quát về hệ thống nhận dạng tiếng nói Phần thứ hai trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói, các giai đoạn cơ bản của hệ thống nhận dạng tiếng nói Phần tiếp theo trình bày về khả năng nhận dạng hiện thời (state of art) của các hệ thống nhận dạng trên thế giới với các ngôn ngữ nước ngoài như tiếng Anh, tiếng Hán, tiếng Thái Các nghiên cứu hiện thời về nhận dạng tiếng nói đối với tiếng Việt cũng được giới thiệu Phần thứ tư trình bày về cơ sở dữ liệu tiếng nói, một bộ phận gắn liền với nhận dạng tiếng nói Phần cuối dành để trình
bày về đặc điểm của ngôn ngữ tiếng Việt
11 GIỚI THIỆU
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được
học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là
các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng
với các mẫu đã được học và lưu trữ trong bộ nhớ
Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:
Trang 13tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để
nhận dạng tiếng nói
—_ Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm
thành dãy các ký hiệu ngữ âm
— Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói nhất là khi
thông tin về âm học là không rõ ràng
Lĩnh vực nghiên cứu của nhận dạng tiếng nói khá rộng liên quan đến nhiều ngành khác nhau Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói : — Xử lý tín hiệu số (digital signal proccessing): Các kỹ thuật xử lý tín hiệu số dùng để
phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thông tin quan trọng từ tiếng nói
— Vat ly hay 4m hoc (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín hiệu
tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ chế hoạt động của tai người
— Nhận dạng mẫu: các thuật toán dùng đề phân loại dữ liệu thành tập các mẫu và đối sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu
— Lý thuyết thông tin và khoa học máy tính (information and computer science theory): các thuật toán để tính toán các tham số của các mô hình thống kê, các thuật toán giải mã và mã hoá (lập trình động, các thuật toán dùng ngăn xếp, giải mã Viterbi) để tìm một đường đi tốt nhất dãy các từ được nhận dạng
— Ngôn ngữ học (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là đơn vị ngữ âm cơ bản của tiếng nói và vai trò của chúng trong việc sản sinh ra giọng nói
— Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con người, của tai người cũng như là quá trình phân tích âm học và ngôn ngữ tại bộ não
— Tâm lý học ứng dụng (applied psychology) Những kiến thức về quá trình sinh ra
tiếng nói cũng như quá trình nhận thức tiếng nói của loài người
Trang 141.2 NGUYEN TAC CUA HE THONG NHAN DANG TIENG NOI
Hình 1.1 miêu tả các lớp hệ thống nhận dạng tiếng nói khác nhau: nhận dạng từ rời
rạc (discrete) và nhận dạng từ liên tục (continuous) với hai loại: hệ thống kích thước nhỏ và hệ thống kích thước trung bình hoặc lớn [31]
Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết là chỉ bao gồm một từ hoặc một nhóm từ độc lập Các từ được nhận dạng mà không phụ thuộc vào ngữ cảnh của nó Nhận dạng tiếng nói với các từ rời rạc được ứng dụng trong
các chương trình dạng câu lệnh-điều khiển (command-control), chẳng hạn như ứng dụng quay số bằng giọng nói trong điện thoại di động Bài toán nhận dạng tiếng nói các
từ rời rạc rõ ràng là dễ hơn rất nhiều so với bài toán nhận dạng tiếng nói liên tục Hệ thống nhận dạng Hệ thống nhận dạng từ Hệ thống nhận dạng từ rời rạc liên tục Hệ thống với kích Hệ thống với kích thước bộ từ điển nhỏ thước bộ từ điển trung bình và lớn Hình 1.1 Các hệ thống nhận dạng tiếng nói
Luận án này chỉ đề cập đến hệ thống nhận dạng các từ liên tục Phần sau đây trình bày nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục
Một phát âm dưới dạng wav được phân tích thành một dãy các vector đặc tính phổ,
mỗi vector tương ứng với một khung tín hiệu (thường có độ dài 10ms) Ví dụ một phát
âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y,, y;, , yự
Trang 15n g n 0 ¡_ ]“—— Mô hình âm thanh ì ) ] f aida DO0000 0000000 | & | Mo hinh ngon ngit | ——————> _ | P(WJ).P(Y|VW) Hình 1.2 Khái quát về hệ thống nhận dạng Theo luật xác suất Bayes ta có:
W= argmax P(W |Y)= nga Si VỦ L4
w w P(Y)
Do xác suất P(Y) là độc lập với W, do đó để tìm được dãy từ có xác suất cao nhất
JŸ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y/W) cao nhất Xác suất P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ (language
model) Xác suất P(Y/W) được xác định bởi mô hình âm học (acoustic model)
Hình 1.2 cho thấy mối quan hệ giữa các xác suất này Trong đó với một phát âm là dãy từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W) Bằng từ điển phiên âm
ta biến đổi chúng thành dãy các âm vị tương ứng Dãy các âm vị này cho ta xây dựng
Trang 16sẽ cho ta xác suất P(Y/W) Về mặt nguyên tắc quá trình này có thể lặp đi lặp lại với tất cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất Dãy các đặc Dãy các từ ‹ tính phổ hoặc âm vị Từ, câu được Tín hiệu : nhận dạng
tiếngnói | Phân tích đặc Phân lớp mẫu Xử lý ngôn ngữ
——>| tính(feature (pattern (language |»
analysis) clasification) processing)
Các từ, âm vị Các từ, câu
Mô hình âm học Mô hình ngôn ngữ (acoustic model) (language) model) Hinh 1.3 Cac qua trinh nhan dang
Trong thực tế việc tìm xác suất với tất cả các dãy từ là không thể áp dụng Một quá
trình xem xét song song tất cả các dãy từ có thể được áp dụng và một quá trình chọn lọc
xoá đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất Quá trình tìm kiếm này được gọi là quá trình giải mã (decoding)
Hình 1.3 cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ
1.2.1 Phân tích đặc tính tiếng nói
Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng tiếng nói từ tín hiệu tiếng nói Quá trình này loại bỏ những thông tin không quan trọng, chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm riêng biệt của từng người nói, Tiếng nói được phân tích theo từng khung thời gian
(frame) voi dé dai dao động từ 8ms tới 25ms [24] Kết quả ra của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói
Trang 17Có hai cách tiếp cận thông dụng hiện nay thường được áp dụng để phân tích tín
hiệu tiếng nói đó là phương pháp dựa vào mô hình hoá đường phát âm (vocal tract) và
phương pháp dựa vào mơ hình hố cảm nhận âm thanh của con người (human auditory
system) Cả hai cách này đều đang được áp dụng thành công trong các hệ thống nhận
dang Su cai tién cha các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng của các hệ thống nhận dạng tiếng nói Hai phương pháp trích chọn tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: phương pháp MFCC (Mel Scale Frequency Cepstral Coefficients) va PLP (Perceptual Linear Prediction)
Có hai kỹ thuật xử lý tiếng nói có vị trí quan trọng là kỹ thuật RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction) Đây là hai kỹ thuật áp dụng nhằm lọc
bỏ nhiễu, những âm thanh không phải là tiếng nói Hai kỹ thuật này đặc biệt có ích
trong xử lý tiếng nói thu âm qua điện thoại [8] Cả hai kỹ thuật đều có thể dùng kết hợp được với một trong hai phương pháp trích chọn đặc tính phổ MECC hoặc PLP Kỹ thuật RASTA có ưu điểm là có thể được áp dụng trong các hệ thống nhận dạng trực tiếp (live), nhận dạng phát âm mà không cần đợi phát âm đó kết thúc [18] Kỹ thuật này thường được đi kèm với phương pháp trích chọn đặc tính PLP [18] Ngược lại kỹ thuật
CMS có ưu điểm là đơn giản, thời gian tính toán nhanh, dễ áp dụng 1.2.2 Phân lớp mẫu
Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ
hoặc âm vị) Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template matcher), rule-based, mạng neuron và mô hình Markov ẩn
Nguyên tắc cơ bản của phương pháp đối sánh mẫu đó là cất giữ một số lượng các mẫu (examples) tiếng nói, bao gồm các vector đặc tính Tín hiệu tiếng nói cần nhận dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã được cất giữ trước đó Do tốc độ phát âm là rất khác nhau, từ phát âm nhanh đến phát âm chậm, nên kỹ thuật căn chỉnh thời gian động DTW (Dynamic Time Warping) được
áp dụng để dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với
các mẫu
Trang 18Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định để xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói Đối với hệ thống nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hoá sự đa
đạng của tín hiệu tiếng nói Một vấn đề nữa là với cây quyết định, rất khó phục hồi lỗi nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích
Mô hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh
được áp dụng thành công trong nhận dạng tiếng nói Đa số các hệ thống nhận dạng tiếng nói hiện nay dùng mô hình Markov ẩn Chi tiết về mô hình Markov ẩn sẽ được
trình bày trong Chương 2
Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với mong
muốn sử dụng khả năng phân lớp mạnh của mạng Mạng neuron truyền thẳng đa lớp
Perceptron thường được sử dụng trong nhận dạng tiếng nói Tuy nhiên mạng neuron có
hạn chế về khả năng mơ hình hố sự biến thiên của tiếng nói theo thời gian Vì vậy mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong các hệ thống lai ghép mạng neuron và mô hình Markov ẩn Chương 2 sẽ trình bày chi tiết về
mạng neuron cũng như mạng lai ghép giữa mạng neuron và mô hình Markov ẩn
1.2.3 Xử lý ngôn ngữ
Mô hình ngôn ngữ đóng vai trò quan trọng trong xử lý ngôn ngữ Mục đích của mô hình ngôn ngữ N-gram (hay n-gram) là tìm ra xác suất của một từ theo sau một số
lượng từ nào đó trong một phát âm Ví dụ từ w¿ theo sau dãy k-Ï các từ w¿, ws, .,M¿.;
(kí hiệu W“') trong một phát âm N-gram gia thiét rằng từ w„, chỉ phụ thuộc vào ø- các
từ đứng trước nó tức là
P(w, Wi) = P(w, Wea)
Trang 19Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu:
f(W,_z;W,_¡,W, )
P(w, |w,_„w,_;)= BỘ >.)
k~2s W_~I
trong đó hàm /(x,y,z) là số lần xuất hiện của bộ ba từ x,y,z (trigram), b(x,y) là số lần
xuất hiện của bộ đôi (bigram) x,y
Tuy nhiên một vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các bộ ba
là quá lớn Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích thước là 10000 từ thì số lượng các bộ ba là VỶ Số lượng từ này rõ ràng là quá lớn, sẽ có nhiều
bộ ba không xuất hiện hoặc xuất hiện rất ít chỉ một hoặc hai lần trong cơ sở dữ liệu Với các trường hợp này xác suất của các bộ ba là không tính được hoặc rất nhỏ
Mặc dù có khó khăn về tính tốn như trên, mơ hình ngôn ngữ vẫn chứng minh được là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng Trong các hệ thống
nhận dạng với kích thước lớn hiện nay, các mô hình ngôn ngữ 3-gram và 2-gram dùng phổ biến [43] Một số hệ thống nhận dạng có khả năng thay đổi mô hình ngôn ngữ
theo ngữ cảnh, tự điều chỉnh mô hình ngôn ngữ trong quá trình nhận dang [46, 47] 1.3 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI
1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính
Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến độ
chính xác nhận dạng:
—_ Sự phụ thuộc vào người nói Hệ thống nhận dạng tiếng nói có thể là phụ thuộc vào người nói (speaker dependent) hoặc là độc lập với người nói (speaker independent) Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người Tỷ lệ lỗi nhận dạng tiếng nói của hệ thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống nhận dạng tiếng nói phụ thuộc người nói tương đương [38]
— Kích thước của bộ từ điển Kích thước bộ từ điển mà hệ thống nhận dạng tiếng nói
có thể hiểu được càng lớn thì khả năng nhầm lẫn giữa các từ, các câu càng cao và nhiệm vụ nhận dạng tiếng nói càng trở nên khó khăn
Trang 20—_ Tốc độ nói, hiện tượng đồng phát âm Trong một phát âm, một âm bị ảnh hưởng rất lớn của các âm xung quanh nó Các từ rời rạc được nhận dạng dễ dàng hơn là các từ
trong một phát âm liên tục
— Sự biến đổi trong lời nói Con người có thể hiểu được lời nói ngay cả khi nó bị xen lẫn bởi các tạp âm như tiếng ho, tiếng cười, tiếng “à, ờ”, Tuy nhiên đối với máy tính
các trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói
— Điều kiện môi trường Tiếng nói có chất lượng thấp (bi méo tín hiệu, bị nhiễu kênh truyền, .) thường đặt ra rất nhiều vấn đề để giải quyết cho các hệ thống nhận dạng tiếng nói Theo [49] tỷ lệ lỗi của hệ thống nhận dạng khi làm việc với tiếng nói có tỉ
số tín hiệu trên nhiéu SNR > 40dB (SNR- Signal to Noise Ratio) so với tiếng nói có
SNR >18dB tang lén nhiều lần, có thể lên tới 10 lần
— Các phát âm tự nhiên và các phát âm liên tục Hệ thống nhận dạng tiếng nói có thể
làm việc với các phát âm được đọc từ các văn bản chuẩn bị sẵn hoặc với các phát âm
do người nói nói một cách tự nhiên (spontaneous) Nhận dạng các phát âm tự nhiên rõ
ràng là khó khăn hơn nhiều so với các phát âm đọc sẵn Lý do là các phát âm tự nhiên
số lượng từ vựng thường là không hạn chế, hệ thống phải phân biệt với các từ không có
trong bộ từ điển Ngoài ra trong các phát âm người nói vừa nói vừa nghĩ và do đó phát âm không rõ ràng, tốc độ phát âm khác nhau, tiếng nói có thể xen lẫn với các tạp âm khác
— Các giới hạn về ngôn ngữ Các hệ thống nhận dạng có thể làm việc với các câu có ngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể Với các hệ thống này, nhiệm
vụ nhận dạng sẽ dễ dàng hơn hệ thống nhận dạng mà các từ không có ràng buộc cụ thể về ngữ pháp, hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ (word-loop)
nghĩa là bất kì một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển
Độ chính xác của các hệ thống nhận dạng được đánh giá trên cơ sở mức từ và mức
câu Độ chính xác nhận dạng ở mức từ được đánh giá bằng công thức:
N=S-D=~T yo 90%
Trong đó Š là số lượng từ bị nhận dạng nham (substitution), D 14 s6 lugng tir bi xo
(deleted), J 14 s6 tir bi chén (insertion), N là tổng số các từ được nhận dạng
Trang 21N-S
*100%
Trong đó N là tổng số câu nhận dạng, S là số câu nhận dạng sai
1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngơn ngữ nước ngồi
Cơng nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các phần mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H Về lĩnh vực ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance và SpeechWorks là các hãng phần mềm nổi tiếng Rất nhiều trung tâm nghiên cứu đang tập trung nghiên cứu về
nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft
Research, CSLU,
Trang 22Môi trường thu âm tiếng nói có ảnh hưởng lớn đến độ chính xác nhận dạng Do vậy
nên cùng với một thuật toán, hệ thống nhận dạng có khả năng nhận dạng kém hơn
nhiều khi làm việc trong môi trường thực tế so với trong môi trường phòng thí nghiệm Ví dụ như một hệ thống nhận dạng các số của thẻ tín dụng ngân hàng được đọc bởi người bán hàng tại các cửa hàng bán lẻ tại Mỹ có độ chính xác nhận dạng là 98% (so với 99.7% trong môi trường phòng thí nghiệm) [36] Sự khác nhau về tỷ lệ lỗi nhận dạng chủ yếu là do sự khác nhau giữa chất lượng tiếng nói được thu âm trong môi trường phòng thí nghiệm và mơi trường bên ngồi
Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so với khả năng nhận dạng của con người theo đánh giá của [9] Từ Bảng I.1 ta thấy tỷ lệ lỗi nhận dạng của con người thấp hơn năm lần so với tỷ lệ lỗi nhận dạng bằng máy tính Đối với các hệ thống nhận dạng làm việc với giọng nói tự nhiên hoặc đối thoại thì tỷ lệ lỗi nhận dạng của máy tính cao hơn đến mười lần Với cơ sở dữ liệu tiếng nói có nhiều
nhiễu thì sự khác nhau này có thể còn cao hơn nữa Do vậy có thể nói khả năng nhận
dạng tiếng nói hiện thời còn xa mới có thể đạt tới khả năng của con người
Ngồi ngơn ngữ châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các ngôn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm tiếng Bắc kinh và tiếng Quảng đông), tiếng Thái lan cũng đã được thực hiện Với tiếng Trung quốc, nhiều nghiên cứu đã được tiến hành, một số hệ thống nhận dạng tiếng Trung quốc với kích thước từ vựng lớn cũng đã được xây dựng [17]
Bảng 1.1 So sánh tỷ lệ lỗi nhận dạng của máy tính và con người với một số hệ thống nhận dạng Hệ thống nhận dạng Kích thước từ vựng Máy tính Con người Liên tục 10 0.72% 0.009% Các chữ cái 26 5% 1%
Giọng nói tự nhiên 2000 36.7% 3.8%
Giong nói chất lượng tốt của WS 5000 4.5% 0.9%
Giọng nói có nhiều nhiêu WS.J 20000 8.6% 1.1%
Trang 23
hệ thống nhận dạng liên tục kích thước trung bình và lớn tiếng Thái lan, hiện thời các nghiên cứu mới chỉ ở bước khởi đầu
1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt
Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng Việt Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt chủ yếu mới tập trung vào
nhận dạng các từ rời rạc
Hệ thống nhận dạng tiếng Việt, giống như hệ thống nhận dạng các ngôn ngữ có
thanh điệu khác, bao gồm hai quá trình nhận dạng song song: nhận dạng các từ không có thanh điệu và nhận dạng thanh điệu [45] Hình 1.5 miêu tả hệ thống nhận dạng ngôn ngữ có thanh điệu, trong đó có tiếng Việt: nhận dạng các từ không dấu nhận dạng thanh điệu
Hình 1.5 Hệ thống nhận dạng ngôn ngữ có thanh điệu
Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS Nguyễn Thành Phúc [3] Trong luận án tiến sĩ của mình TS Nguyễn Thành Phúc đã tiến hành
nghiên cứu và thực hiện các công việc sau:
— Xây dựng được một số cơ sở dữ liệu thu âm trong môi trường trong nhà:
e_ Cơ sở dữ liệu gồm 10 chữ số tiếng Việt gồm 812 câu, mỗi câu gồm 6 từ, do 15
người nói Các câu đều được gán nhãn bằng tay
e _ Cơ sở dữ liệu gồm sáu âm tiết khác nhau về thanh điệu gồm 350 câu
e Cơ sở dữ liệu gồm 22 từ có các âm đầu khác nhau và có cùng phần van 1a EO gồm có 350 câu
— Nghiên cứu quá trình xây dựng một cơ sở dữ liệu tiếng Việt, để xuất bảng ký hiệu
âm vị tiếng Việt dùng để phiên âm các âm vị
— Khảo sát nhận dạng đối với các từ khác nhau về thanh điệu
Trang 24—_ Tiến hành xây dựng hệ thống nhận dạng với mười chữ số tiếng Việt liên tục với điều
kiện thu âm trong nhà Nghiên cứu các giải pháp nhằm tăng cường độ chính xác nhận
dạng: mô hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận
dạng, Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ
Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS Nguyễn Quốc Cường và cộng sự tại phòng thí nghiệm CLIPS-IMAG, trường đại học Grenoble
tại Pháp [30] Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt dùng mô hình Markov ẩn đối với từ rời rạc Đây là một trong những công trình đầu tiên nghiên cứu về
nhận dạng thanh điệu tiếng Việt Các thử nghiệm được tiến hành trên cơ sở dữ liệu gồm 9720 từ do 18 người nói đến từ ba miền Bắc Trung Nam, thu âm với tần suất lấy mẫu
16kHz/s, biến đổi A/D 16 bit Kết quả thu được tỷ lệ nhận dạng chính xác thanh điệu đạt 91,6%
Ngoài ra trước TS Nguyễn Thành Phúc có một số công trình nghiên cứu đã được công bố Theo [3] các công trình trên bao gồm:
— Công trình nghiên cứu nhận dạng tiếng nói theo phương pháp âm học-ngữ âm học
của TS Nguyên Anh Tuấn Kết quả của công trình như sau:
Hình thức hố được ngơn ngữ hình học của các từ tiếng Việt, cho phép nâng cao độ tin cậy của phân đoạn hoá các từ thành từng đoạn tương ứng với phần đầu, phần vần và thanh điệu của âm tiết tiếng Việt
Nghiên cứu và hình thức hoá những đặc trưng của sáu thanh điệu tiếng Việt,
cho phép xác định tự động kiểu thanh điệu tiếng Việt
Thông qua biểu đồ phổ đã xác định được đặc trưng formant của các nguyên âm và bán nguyên âm tiếng Việt Các đặc trưng này có thể sử dụng để phân loại các nguyên âm
Đã tìm được các thông số phổ và thời gian của các nguyên âm và phụ âm tiếng
Việt
Trang 25Hệ thống nhận dạng xây dựng trên thuật toán này có độ chính xác là 95%, không phụ thuộc vào giọng nói
—_ Đề tài nghiên cứu cấp nhà nước mã số KHCN 01-07 do Khoa Công nghệ thông tin Đại học Bách khoa Hà nội thực hiện hoàn thành vào tháng 6/1998 đã áp dụng phương pháp dự báo tuyến tính LPC để đánh giá các tham số cơ bản (F0-F5 và tương quan FI1- F2) của các nguyên âm tiếng Việt: “a, â, ã, e, é, i, 0, 6, ơ, u, ư”
— TS Đặng Văn Chuyết và KS Ngô Đức Bình đã áp dụng phương pháp phân tích cepstral thời gian ngắn tín hiệu tiếng nói để xác định và quan sát sự biến đổi của các formant của nguyên âm tiếng Việt khi thay đổi ngữ cảnh
— TS Nguyễn Thế Hiếu ứng dụng phương pháp hiệu chỉnh thời gian động DTW để nhận dạng các từ rời rạc cho tiếng Việt Các tham số được sử dụng là các F1 và F2 Hệ thống nhận dạng thử nghiệm với năm nguyên âm tiếng Việt: “a,e,i,o,u”, mười chữ số
tiếng Việt và các từ điều khiển: "tiến, lùi, phải, trái, trước, sau, dừng” Độ chính xác nhận dạng trung bình là 78,47%
14 COSO DU LIEU TIẾNG NÓI
Cơ sở dữ liệu của một hệ thống nhận dạng là một bộ phận không thể tách rời với các
thuật toán dùng trong nhận dạng Tính chất của cơ sở dữ liệu cũng là những tính chất
của một hệ thống nhận dạng Cơ sở dữ liệu tiếng được dùng để phát triển, huấn luyện và
kiểm tra năng lực làm việc của các hệ thống xử lý tiếng nói Cơ sở dữ liệu tiếng thường có kích thước lớn, được xây dựng công phu bao gồm nhiều giọng nói của nhiều người nói gồm nhiều lứa tuổi, đến từ nhiều vùng địa lý khác nhau
Do vai trò quan trọng của cơ sở dữ liệu tiếng nói nên nhiều cơ sở dữ liệu tiếng nước
ngoài đã được phát triển trong những thập kỷ qua Ví dụ như cơ sở dữ liệu tiếng Anh: TIMIT, CSLU, WSJCAMO, tiéng Nhật ART, tiếng Triều tiên COCOSDA, Hệ cơ sở
dữ liệu chẳng hạn như TIMTIT đã được sử dụng rộng rãi trong cộng đồng các nhà nghiên cứu và trở thành một cơ sở để đánh giá so sánh giữa các nghiên cứu
Qui trình xây dựng một cơ sở dữ liệu tiếng gồm có hai giai đoạn chính: thu thập dữ
liệu và phiên âm chính tả, gán nhãn thời gian ở mức âm vị Người ta phân biệt các tính
chất của các loại cơ sở đữ liệu:
Trang 26— Cơ sở đữ liệu gồm các từ rời rạc hoặc cơ sở dữ liệu gồm các câu phát âm liên tục Loại cơ sở dữ liệu đầu được dùng cho các hệ thống nhận dạng rời rạc, loại thứ hai dùng cho các hệ thống nhận dạng liên tục
—_ Cơ sở dữ liệu có kích thước nhỏ, trung bình hoặc lớn tương ứng với các hệ thống
nhận dạng nhỏ, trung bình hoặc lớn Kích thước của cơ sở dữ liệu được tính là kích thước của bộ từ điển các từ có mặt trong nó
—_ Môi trường thu âm của cơ sở dữ liệu: trong phòng studio, trong phòng thí nghiệm,
trong môi trường văn phòng, trong mơi trường bên ngồi, thu âm qua điện thoại cố
định, thu âm qua điện thoại di động,
— Thiết bị thu âm và chất lượng thu âm cũng là một tính chất quan trọng Cơ sở dữ liệu có thể được thu âm với chất lượng cao như TIMIT với tần số lấy mẫu là 44kHz/s, hoặc chỉ với 8Hzk/s khi thu âm qua điện thoại như cơ sở dữ liệu của CSLU
—_ Đặc điểm của người nói trong cơ sở dữ liệu Với hệ thống nhận dạng phụ thuộc người nói, cơ sở dữ liệu có thể chỉ bao gồm một người nói Thông thường cơ sở dữ liệu bao gồm hàng trăm người nói
— Phương pháp phát âm Với hệ cơ sở dữ liệu TIMIT, người nói đọc các câu có nội
dụng chuẩn bị sẵn Đối với một số cơ sở dữ liệu của CSLU thì người nói được phỏng
vấn qua điện thoại và họ phát âm theo phương thức tự nhiên (spontaneous), vừa nói vừa ngh1
Sau quá trình thu âm của cơ sở dữ liệu là một quá trình quan trọng: phiên âm chính tả và gán nhãn thời gian ở mức âm vị cho các phát âm Phiên âm chính tả là ghi lại nội dung của các phát âm dưới dạng văn bản, mỗi tệp văn bản tương ứng với một tệp phát
âm
1.5 NGONNGU TIENG VIET
1.5.1 Dac diém âm tiết tiếng Việt 1.5.1.1 Tính độc lập cao
Trong tiếng Việt, âm tiết được thể hiện khá đầy đủ, rõ ràng, được tách và ngắt thành từng khúc đoạn riêng biệt Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu
Trang 27bật và tách bạch hơn Do đó nên việc vạch ra ranh giới giữa các âm tiết trong tiếng Việt dễ dàng hơn nhiều việc phân chia ranh giới âm tiết trong các ngôn ngữ châu Âu [5]
(trong ngôn ngữ châu Âu, việc phân chia âm tiết có khi phải dùng phương pháp phân tích phổ) Việc tách bạch âm tiết còn được thể hiện ở chữ viết, mỗi âm tiết được viết tách ra thành một từ riêng biệt Có thể nói so với các âm tiết châu Âu, tiếng Việt có tính
độc lập cao hơn hẳn
Trong các ngôn ngữ châu Âu thường gặp các hiện tượng nối âm (liaison), ví dụ như :
Les ` amis have Sư ‘ou done it 2 Trong tiếng Việt không có hiện tượng nối âm như vậy
1.5.1.2 Khả năng biểu hiện ý nghĩa
Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa Gần như toàn bộ các âm tiết đều hoạt động như từ Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với ranh
giới của hình vị [4] (hình vị là đơn vị có nghĩa nhỏ nhất trong một ngôn ngữ) Chính vì
vậy trong một phát ngôn, số lượng âm tiết trùng với số lượng hình vị 1.5.1.3 Cấu trúc chặt chế
Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 1.6:
Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2) Trong đó C1 là phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối Thanh điệu Vân === Âm đệm Âm chính Âm cuối
Hình 1.6 Cấu trúc của âm tiết tiếng Việt
Âm tiết tiếng Việt có cấu trúc gồm hai bậc: bậc một bao gồm các thành tố trực tiếp được phân định bằng những ranh giới có ý nghĩa ngữ âm học Phần thứ hai bao gồm các yếu tố của phần vần chỉ có chức năng khu biệt thuần tuý Quan hệ giữa các yếu tố ở bậc một là quan hệ lỏng lẻo, giữa các yếu tố của bậc hai có quan hệ chặt chẽ Các thực nghiệm đã chứng minh rằng: tính độc lập của thanh điệu đối với các âm vị cụ thể lộ ra ở
Trang 28chỗ đường nét âm điệu và trường độ của nó không gắn liền với thành phần âm thanh của âm tiết
Theo GS Bang và cộng sự [I] số lượng âm tiết phát âm được của tiếng Việt là
18958 So với các các ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào khoảng 3000-5000 Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn, và chính vì thế ít có hiện tượng đồng âm, ít gây trở ngại cho việc nhận diện âm tiết Theo [5],
trong tiếng Việt có 6 thanh điệu, 21 âm đầu và 155 phan vần và phần vần đóng vai trò khu biệt lớn hơn cả so với các yếu tố khác trong Bậc l Âm tiết
Thanh Âm đầu Phần vần | Bậc 1
Âm đệm Âm chính Âm duối | Bậc 2
Hình 1.7 Cấu trúc hai bậc của âm tiết tiếng Việt
1.5.2 Âm vị tiếng Việt
Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa Về mặt xã hội của ngữ âm, trong số các âm vị trong lời nói của ngôn ngữ, ta có thể tập hợp một số lượng
có hạn những đơn vị mang những nét chung về cấu tạo âm thanh và về chức năng trong ngôn ngữ đó gọi là âm vị
Có một cản trở khi nghiên cứu âm vị tiếng Việt là chưa có một qui định chính thức
về pháp lý, hay một chuẩn chung của các nhà khoa học ngữ âm về một chuẩn tiếng Việt Có thể quan niệm tạm thời coi "tiếng Việt chuẩn như một thứ tiếng chung được
hình thành trên cơ sở tiếng địa phương của miền Bắc với trung tâm là Hà nội mà cách
Trang 291.5.2.1 Thanh điệu
Âm vị tiếng Việt có hai loại âm vị đoạn tính và âm vị siêu đoạn tính Âm vị đoạn tính là các đơn vị có thể chia cắt được trong chuỗi lời nói như nguyên âm, phụ âm Âm vị siêu đoạn tính là loại đơn vị không có âm đoạn tính, không độc lập tồn tại, nhưng
cũng có chức năng phân biệt nghĩa, nhận diện từ, đó là thanh điệu Đây là đặc điểm
riêng của tiếng Việt so với các ngôn ngữ Châu Âu Một số ngôn ngữ khác như tiếng
Hán, tiếng Thái cũng có đặc điểm này như tiếng Việt
Thanh điệu được hình thành bằng sự rung động của dây thanh, tuỳ theo sự rung đó
nhanh hay chậm, mạnh hay yếu, biến chuyển ra sao mà ta có các thanh điệu khác nhau
Thanh điệu tiếng Việt thuộc loại thanh lướt, có nghĩa là các thanh điệu phân biệt với
nhau bằng sự di chuyển cao độ từ thấp lên cao hay từ cao xuống thấp 5 4 3 2 1
Hình 1.8 Các thanh điệu tiếng Việt 1 Không dấu, 2 Huyền, 3 Ngã, 4 Hỏi, 5 Sắc, 6.Nặng
Theo các nhà ngôn ngữ học thì thanh điệu có ảnh hưởng bao chùm lên toàn bộ âm tiết, mặc dù gánh nặng chủ yếu tập trung ở phần vần Tiếng Việt có sáu thanh điệu Nếu
chia thang độ của giọng nói bình thường thành 5 bậc thì ta có thanh điệu tiếng Việt
được miêu tả như trong Hình 1.8 1.5.2.2 Âm đầu
Trong các sách giáo khoa tiếng Việt [2, 4, 5, 7], tiếng Việt có 21 âm vị là âm đầu
Các âm vị /p,r/ không được liệt kê là các âm vị đầu tiếng Việt và được coi là âm vị có
nguồn gốc từ ngơn ngữ nước ngồi Âm vị /?/, âm tắc thanh hầu được liệt kê trong một số sách giáo khoa tiếng Việt như một phụ âm đầu Trong những âm tiết như: ”ai, ơi, ăn, oản, uống, oanh, uyên” có hiện tượng khép khe thanh lúc mở đầu khi chúng được phát âm lên Tiếng bật do động tác mở khe thanh đột ngột được nghe rõ hoặc không rõ ở từng người, trong từng lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm
Trang 30Thừa nhận tồn tại âm tắc thanh hầu đưa đến xây dựng được một mô hình tổng quát của âm tiết tiếng Việt cân xứng hơn với ba thành tố luôn có mặt: thanh điệu, âm đầu, âm van [5]
1.5.2.3 Âm đệm
Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hoá âm tiết và khu biệt âm tiết này với âm tiết khác Khác với âm chính luôn nằm ở đỉnh âm tiết, âm đệm nằm ở đường cong đi lên của đỉnh âm tiết Âm đệm không xuất hiện trước
các nguyên âm tròn môi /u,o,2/, nó chỉ xuất hiện trước các nguyên âm hàng trước Độ mở của âm đệm phụ thuộc vào độ mở của các nguyên âm-âm chính đi sau
1.5.2.4 Âm chính
Âm chính là nguyên âm và có mặt trong mọi âm tiết qui định ăm sắc của âm tiết Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 nguyên âm đôi Âm
chính âm tiết có thể chia thành 4 nhóm :
— Nhóm nguyên âm đơn, hàng trước, không tròn môi Âm sắc của nhóm này thường là bổng Có thể dài và thể ngắn Thể ngắn có sự biến dạng ít nhiều về trường độ, âm sắc, cường độ, phát âm căng và ngắn
— Nhóm nguyên âm đơn, hàng sau tròn môi Âm sắc trầm Có thể dài và thể ngắn Sự
thể hiện thể ngắn có cấu âm không giữ đều
— Nhóm nguyên âm đơn, hàng sau, không tròn môi Âm sắc trầm vừa
— Nguyên âm đôi phát âm yếu dần, yếu tố đầu phát âm mạnh hơn yếu tố sau, do đó âm sắc của nguyên âm đôi là do yếu tố đầu quyết định Nguyên âm chỉ có một thể dài
và không bị biến dạng về âm sắc và trường độ
1.5.2.5 Âm cuối
Các âm cuối tiếng Việt có đặc điểm giống nhau là không buông (bộ phận cấu âm tiến đến vị trí cấu âm rồi giữ nguyên vị trí đó chứ không về vị trí cũ) Do đó có sự khác biệt lớn giữa âm /t/ trong phát âm hai từ
của không khí được khai thông sau khi bị cản trở bằng một động tác mở ra tạo thành at" và "ta" Trong khi phát âm từ "ta", lối thoát
Trang 31Trong nhiều trường hợp phụ âm cuối hầu như chỉ là một khoảng im lặng Ví dụ như
âm vị /k/ trong từ "tác" Do vậy âm vị /k/ được nhận diện chủ yếu làm biến đổi âm sắc
của âm chính đi ở giai đoạn cuối
Bảng 1.2 Phân bố giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuối
Am Am phu Ban nguyén 4m cudi
chinh tại Ví dụ tại iil Vidu i + uy ie - iu + ué + = éu € + oe + eo de ei uyén # - yéu u - ui - + ui ° - ôi “ + ôi a - oi - + oi wy - uôi = + uôi w - - + + uu, ui * + quơ - + -, Oi ¥ + uân + + âu,ay a + oa + + ao,ai a + an + + au,ay wy - - + + ưu,ươi
Bán nguyên âm cũng không thường xuyên được thể hiện rõ rệt mà chỉ được nhận
diện bằng việc biến đổi âm sắc của âm chính Về mặt này thì bán nguyên âm còn có tác dụng mạnh hơn là phụ âm cuối
1.5.3 Sự phân bố của các âm vị tiếng Việt
Các âm tiết tiếng Việt có cấu trúc chặt chẽ và các âm vị trong tiếng Việt kết hợp với
nhau theo những qui luật Sau đây là Bảng 1.2 tổng kết sự phân bố giữa nguyên âm âm
chính và các âm đệm và bán nguyên âm cuối [4]
Trang 32CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNG
NOI LIEN TUC SU DUNG HMM VA ANN Chương này tập trung trình bày các vấn đề lý thuyết của các phương pháp nhận dạng: mạng ANN và mô hình Markov ẩn và sự kết hợp giữa chúng Phần một trình
bày về giai đoạn đầu của hệ thống nhận dạng tiếng nói: các phương pháp xử lý tiếng
nói Phần hai trình bày về mô hình Markov ẩn, và ứng dụng trong nhận dạng tiếng nói Phần tiếp theo trình bày về mạng neuron nhân tạo, đặc biệt là mạng Perceptron đa lớp, loại mạng hay được sử dụng trong nhận dạng tiếng nói Phần thứ tư trình bày về phương pháp huấn luyện hệ thống nhận dạng liên tục dùng các kỹ thuật: mô hình Markov ẩn liên tục CD-HMM, mạng neuron nhân tạo ANN và hệ thống lai ghép HMM/ANN Phần cuối cùng trình bày về thuật toán giải mã trong các hệ thống nhận dạng liên tục
2.1 CÁC PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU TIẾNG NÓI
Phần này sẽ giới thiệu hai phương pháp được sử dụng rộng rãi trong các hệ thống nhận dạng hiện tại để tính toán các hệ số MEFCC (Mel Scale Frequency Cepstral Coefficients) và hệ số PLP (Perceptual Linear Prediction) Hai kỹ thuật xử lý tiếng nói RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction) cũng được giới thiệu Đây là hai kỹ thuật loại bỏ nhiễu hay được sử dụng đặc biệt là trong
phát âm có nhiều nhiễu như các câu thu âm qua điện thoại
2.1.1 Phương pháp tinh hé sé MFCC
Hình 2.1 miêu tả các bước tính toán hệ số MFCC:
1) Nhấn mạnh tín hiéu (pre-emphasis) Trong bước xử lý đầu tiên này, tín hiệu được đưa qua một bộ lọc số:
-1 FL pye(Z) = 14 Gy 2
Trang 33— Giọng nói có sự suy giảm khoảng 20dB/decade khi lên tần số cao do đặc điểm sinh lý của hệ thống phát âm của con người Bước xử lý này sẽ tăng cường tín hiệu lên một giá trị gần 20dB/decade để khắc phục sự suy giảm này,
—_ Hệ thống thính giác của con người nhạy cảm hơn với vùng tần số cao, bước xử lý này nhấn mạnh vùng tần số cao, trợ giúp cho quá trình mơ hình hố âm thanh sau này của hệ thống nhận dạng
Tín hiệu tiếng nói
JÌ
Nhấn mạnh Tạo khung tín Làm cửa sổ D DFT
(pre-emphasis) D hiệu (framing) B (windowing) 4L Lọc tần số Mel (Mel- frequency filtering) J1 Tính giá trị delta 6 Chinh gia tri O DCT 6 Logarit gia tri nang MFCC cepstral lượng Hệ số delta MFCC Hệ số MFCC
Hình 2.1 Các bước xử lý của phương pháp tính toán hệ số MFCC
2) Tạo khung tín hiệu (framing) Tín hiệu tiếng nói luôn luôn biến thiên theo thời gian, tuy nhiên trong khoảng thời gian khoảng 10-20ms, tín hiệu tiếng nói được coi là tương đối ổn định Do đó tín hiệu thường được chia thành các khung kích thước 20-30ms với vùng gối lên nhau khoảng 10-15 ms
3) _ Làm cửa số (frame windowing) Cửa số Hamming thường được áp dụng cho
mỗi khung tín hiệu để giảm sự tác động của việc chia khung tín hiệu:
2z(n-])
s„ ={0,54— 0,46cos( 3,
Trong đó N là số mẫu dữ liệu (sample) của cửa sổ
4) DFT (Discrete Fourier Transform) Tại bước này với mỗi khung tín hiệu, biến
đổi Fourier được áp dụng để chuyển về miền tần số Công việc tính toán được thực hiện bằng thuật toán FFT (Fast Fourier Transform)
Trang 345) Lọc theo thang tần số Mel (Mel-frequency bandpass filter) Cac b6 loc sé được áp dụng để lọc các tin hiệu theo các giải tần số khác nhau
Phản ứng của tai người với các thành phần của tần số là không tuyến tính Sự khác nhau về tần số ở vùng tần số thấp (<IKHz) dễ được nhận biết bởi con người hơn là ở vùng tần số cao Lọc theo thang tần số Mel mô phỏng tính chất này bằng cách dùng các bộ lọc được phân bố theo một hàm phi tuyến trong khoảng không gian tần số, thông thường là hàm Mel: Mel( f)= 2595log,.(1+ =) 6) Logarit giá trị năng lượng (logarit of filter energies) Cac gia trị năng lượng Ẩ & thu được tại mỗi kênh lọc được lấy logarit để “nén” các giá trị này vào một miền giá trị hẹp hơn
7) DCT (Discrete Cosin Transform)
Do giọng nói phát âm bởi con người có phổ khá trơn (smooth) trên miền tần số, do vậy các giá trị năng lượng của các bộ lọc gần nhau có sự tương quan (correlated) khá gần Bước xử lý này biến đổi các giá trị năng lượng thành các hệ số ít tương quan với nhau hơn, các hệ số này được gọi là hệ số cepstral
C= sm cos ey— 0,5)) i = 7 N
Trong đó N là số kênh lọc, zn, là giá trị logarit năng lượng của mạch lọc thứ /, ¡ là bậc của hệ số cepstral
8) Chỉnh các giá trị cepstral Giá trị cepstral bậc cao thường có giá trị rất thấp, so với các giá trị cepstral bậc thấp Sự khác biệt này gây khó khăn cho việc mô hình hoá dữ liệu, ví dụ như khi sử dụng các hàm mật độ xác suất Gauss Do đó
các hệ số cepstral được điều chỉnh lại (re-scaled) theo công thức: ce, =exp(n*k)c,
Sau bước hiệu chỉnh này ta thu được các giá trị MFCC
9) Tính giá trị delta MFCC Các giá trị delta của các hệ số MFCC được tính toán
Trang 35iC}
d= Dip Cr09 —¢,.6)
t
230
Trong đó Ølà số khung tín hiệu lân cận được dùng (thông thường là 2)
Ngoài ra giá trị delta của delta (hay còn gọi là acceleration) cũng có thể được tính toán từ các giá trị delta dùng cùng một công thức như trên
2.1.2 Phương pháp tính hệ số PLP
Phương pháp PLP được phát triển dựa trên phương pháp mã hoá dự báo tuyến tính LPC (Linear Prediction Coding)
Phương pháp LPC hay còn gọi là mô hình hoá tự hồi qui (autoregression modeling) là phương pháp mô hình hoá tín hiệu bằng sự kết hợp tuyến tính các mẫu tín hiệu trước đó:
N
s(n) = -Yali)s(n —1)+e(n) i=l
trong đó ẤN là số hệ số hay là bậc của dự báo, các a(¡) là các hệ số dự báo tuyến
tinh (linear prediction coefficients), e(n) 1a ham 16i
Cac hé s6 a(i) dugc chon dé làm cực tiểu hàm lỗi dự báo trung bình bình phương
Có một vài phương pháp để tính các hệ số này: phương pháp dùng ma trận hiệp phương sai (covariance matrix), phương pháp tự tương quan (auto-correlation method), phương pháp lưới hay còn gọi là phương pháp điều hoà (lattice or harmonic) Phương pháp hay được áp dụng nhất trong nhận dạng tiếng nói là phương pháp tự tương quan dùng thuật toán đệ qui Levinson-Durbin
Thuật toán Levinson-Durbin như sau:
Tính p+1 các hệ số tự tương quan đầu tiên (p là bậc của dự báo tuyến tính) bằng công thức sau:
Trong đó s(n) là tín hiệu trong cửa số, N là số lượng mẫu trong cửa sổ Các hệ số sau đó được tính toán đệ qui như sau:
Trang 36E® =r, i-l tr-3 2/3] k,)=——=qm—— ‘ me trong đó 1<¡<p a =k i a,=a;!-k,* aj, voi l< j<i-1 E®=(1-k?)g6-° Các bước trên được tính toán lặp với ¡=1,2, p Cuối cùng ta thu được các hệ số: a,=a'?) với l<j<p Phương pháp tính các hệ số PLP dựa vào phương pháp LPC Hình 2.2 miêu tả các bước xử lý tính toán hệ số PLP:
1) FFT Tương tự như phương pháp MECC, tín hiệu tiếng nói được chia thành
các khung tín hiệu và được biến đổi Fourier sang miền tần số bằng thuật toán FFT Tiếng nói FFT d Lọc tần số Bark (Bark ở Nhấn mạnh dùng hàm frequency filter) Equal-loudness
Luật cường độ nghe (power law of hearing)
Trang 372) Lọc theo thang tần số Bark Tương tự như phương pháp tính MECC, tín hiệu tiếng nói được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến, trong
trường hợp này là thang tần số Bark:
Bark( )=6Inf—/—+[( f +12) 1200 1200
3) Nhấn mạnh tín hiệu dùng hàm cqual-loudness Bước xử lý này tương tự như bước nhấn manh pre-emphasis của phương pháp MFCC Hàm này mô phỏng đường cong cân bằng độ ồn (equal-loudness curve)
(ø?+56,8*10%)ø*
@? +.6,3*10°)(@? + 0,38*10°)(w* + 9,58 * 10")
E(œ)= (a)="
4) Dùng luật cường độ nghe (power law of hearing) Bước xử ly nay giống như bước lấy giá trị logarit trong phương pháp MFCC Hàm căn bậc ba được sử dụng
để “nén” các giá trị năng lượng
O(f)= (Ff)?
5) Biến đổi Fourier ngược (inverse DFT) Các hệ số tự tương quan được biến đổi
Fourier ngược để sau đó dùng làm giá trị đầu vào cho phương pháp LPC
6) Thuật toán Durbin được sử dụng để tính toán các hệ số dự báo tuyến tính giống như trong phương pháp LPC
7) Tính các giá trị delta Phương pháp tính tương tự như phương pháp tính hệ số MECC
2.1.3 Các kỹ thuật khử nhiễu
2.1.3.1 Kỹ thuật CMS
Đây là một kỹ thuật thông dụng để khử nhiễu trong các hệ thống nhận dạng, được dùng kết hợp trong quá trình tính toán các đặc tính phổ của tiếng nói Phương pháp này dựa trên giả thiết là các đặc tính tần số của môi trường là thường xuyên cố định hoặc biến đổi chậm Các tham số cepstral của một phát âm được trừ đi giá trị trung bình của các tham số trong một khoảng thời gian nào đó và làm cho các giá trị
này ít bị ảnh hưởng bởi môi trường:
A 7
O(r) = O(t)- =r)
t=1
Trang 38trong đó 7 là độ dài của vùng lấy giá trị trung bình, thường là độ dài của cả phát
âm
2.1.3.2 Kỹ thuật RASTA
RASTA là kỹ thuật lọc dựa trên giả thiết rằng các tính chất thời gian của các nhiễu là khác so với các tính chất thời gian của giọng nói Tốc độ thay đổi của các
thành phần không phải tiếng nói thường xuyên nằm ngoài tốc độ hoạt động của bộ
máy phát âm con người Bằng cách dùng bộ lọc số, kỹ thuật RASTA có thể loại bỏ
được một phần các nhiễu của môi trường và các nhiễu bổ sung bất thường khác Bộ
lọc dùng trong RASTA là:
0,2+0,1z!—0,2z2?—0,1z3
z= 1-0,94z
2.2_ MƠ HÌNH MARKOV ẨN
Phan này được dành để giới thiệu về mô hình Markov ẩn và ứng dụng của chúng
trong nhận dạng tiếng nói 2.2.1 Quá trình Markov
Xét sự tiến triển theo thời gian của một hệ thống nào đó (có thể là một hệ vật lý
hay hệ sinh thái, .), ký hiệu g, là vị trí của hệ tại thời điểm / Các vị trí có thể có được của hệ được gọi là không gian trạng thái, ký hiệu là S= ƒS;, S›, S;, .} Giả sử
tại thời điểm s hệ ở trạng thái S;, nếu xác suất để hệ ở trạng thái S; tai thoi điểm ¿
trong tương lai chỉ phụ thuộc vào s, ứ, Š,, Š; thì có nghĩa là sự tiến triển của hệ chỉ
phụ thuộc vào hiện tại và độc lập với quá khứ Ta gọi đó là tính Markov và hệ có
tính chất này được gọi là quá trình Markov
Nếu không gian trạng thái Š của hệ là đếm được thì ta gọi hệ là xích Markov Nếu thời gian / là rời rac t=0,1,2, thi ta có xích Markov rời rạc Ta có thể biểu diễn tính Markov của hệ bằng biểu thức sau :
P(g, = S;/ 41 = Sis Wz = Str) = P(g, = S;/ 4.1 = Sj)
Dat P(s,i,t,j) = P(q, = S; | q, = S;) la xdc suat dé hé tai thoi diém s 6 trang thai i,
dén thoi diém ¢ chuyén sang trang thai j Ta goi P(s,i,t,j) 1a x4c suat chuyén cia hé
Trang 39P(s,i,t,j)= P(sth,i,tt+hj)
thì ta nói hệ là thuần nhất theo thời gian Bắt đầu từ đây ta chỉ xét xích Markov rời rạc và thuần nhất
Hình 2.3 Xích Markov với năm trạng thái S;, S;, , S; và các xác suất chuyển trạng thái
Hình 2.3 trình bày một ví dụ về mô hình xích Markov rời rạc và thuần nhất, trong đó hệ có thể ở một trong năm trạng thái S,, Š›, , Sy (trong vi du trén N=5)
Tại mỗi thời điểm 1=0,1,2, hé chuyển trạng thái theo xác suất chuyển trạng thai a;
tương ứng với mỗi trạng thái
a,= Pan = 5S, 14, = 5, )
N = aa
„ấy =l=L N 4a, 20;i,7=1,N
Ngoài ra ta định nghĩa xác suất trạng thái khởi đầu (initial state distribution) 2 =
(7, Z, Zxy}, trong đó 7, là xác suất để trạng thái ¡ được chọn tại thời điểm khởi
đầu /=l:
,=P(a¡=Š:)
i i=l!
Tr, >0;i=1,N
Quá trình Markov miêu tả ở trên được gọi là một mô hinh Markov quan sát được (observable Markov model) Đầu ra của quá trình là một tập các trạng thái tại các
Trang 40thời điểm rời rạc liên tiếp nhau, trong đó mỗi trạng thái tương ứng với một sự kiện vật lý có thể quan sát được (observation event)
2.2.2 Mo hinh Markov an
Mô hình Markov ẩn là kết quả của mở rộng khái niệm từ mô hình Markov bằng cách mỗi trạng thái được gắn với một hàm phát xạ quan sát (observation distribution) Ngoai qua trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trạng thái còn có một quá trình ngẫu nhiên nữa đó là quá trình ngẫu nhiên sinh ra một quan sát Như vậy trong Mô hình Markov ẩn có một quá trình ngẫu nhiên kép, trong đó có một quá trình ngẫu nhiên không quan sát được Tập các quan sát Ó được sinh ra bởi dãy các trạng thái SŠ;, Š;, ŠS„ của mô hình, mà dãy các trạng thái này là không thấy được, đó chính là lý do mô hình được gọi là mô hình Markov ẩn (hidden) [31]
Một mô hình Markov ẩn được đặc trưng bởi các thành phần cơ bản sau :
1) N, số trạng thái (state) trong mô hình Markov Các trạng thái thường được ký hiệu bằng $= ($S;, Š;, Š;, .} và trạng thái của mô hình tại thời điểm được kí hiệu là q,
2) M số ký hiệu quan sát (observation symbol), đây là kích thước của bảng từ
vựng của mô hình Các ký hiệu quan sát được biểu diễn bằng V= ƒv¿, Vp, .}
3) A = {a,}, xác suất chuyển trạng thái (state transition probability distribution)
Trong đó a; là xác suất để trạng thái j xuất hiện tại thời điểm +! khi trạng thái i đã xuất hiện tại thời điểm /
đụ = P(q,¿¡ = Š; Í 4, = S;)
4) B=(b(k)} xác suất phát xạ quan sát trong mỗi trạng thái (observation symbol probability distribution in state) b(k) là xác suất của quan sát v¿ tại trạng thái / tại thời điểm /