nghiên cứu ứng dụng mạng neuron và mô hình markov ẩn trong nhận dạng tiếng việt luận án ts. đảm bảo toán học cho máy tính và hệ thống tính toán

Trang 1

MỤC LỤC LỜI CẢM ƠN

BANG KE CAC THUAT NGU ANH VIET

CHUONG 1 TONG QUAN VE NHAN DANG TIENG NOI

1.1 Giới thiệu

1.2 Nguyên tắc của hệ thống nhận dạng tiếng nói

1.2.1 Phân tích đặc tính tiếng nói " 1.22 Phan lớp mấẫu 19 12.3 Xử lý ngônngữ 20

1.3 Nghiên cứu hiện thời về nhận dạng tiếng n

1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính

1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngơn ngữ nước ngồi

1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng VIỆ( 5S SStseekrkekerrkrxee 1.4 Cơ sở dữ liệu tiếng nói

1.5 Ngôn ngữ tiếng Việt

1.5.1 Đặc điểm âm tiết tiếng Việt

1.5.2 Âm vị tiếng Việt

1.5.3 Sự phần bố của các šm vị Hếng VIỆT esieai-aiiiiiisiieieikssiia6440400601011460461366604618 33 CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNGNÓI LIÊN TỤC SỬ DỤNG HMM VÀ ANN 34 2.1 Các phương pháp xử lý tín hiệu tiếng nói 2.1.1 Phương pháp tính hệ số MECC 2.1.2 Phương pháp tính hệ số PLP a 2.1.3 Các kỹ thuật khử nhiễu 2222 1111121211212 re 2.2 Mô hình Markov ẩn 2.2.1 Quá trình Markov 2.2.2 Mô hình Markov ẩn

2.2.3 Ba bài toán cơ bản của mô hình Markov ẩn 2.2.4 Các giải pháp toán học cho ba bài toán cơ bản

2.2.5 Các loại mô hình Markov ẩn

2.3 Mạng neuron nhân tạo 2.3.1 Giới thiệu 2.3.2 Mạng Perceptron đa lớp MLP 2.4 Huấn luyện các hệ thống nhận dạng

Trang 2

2.4.3 Huấn luyện hệ thống nhận dạng dùng HMM/ANN ecceeeieeree 64

2.5 Nhận dạng

2.5.1 Xây dựng mạng từ

2.5.2 Mô hình ngôn ngữ N-gram

2.5.3 Sử dụng mạng từ trong hệ thống nhận dạng

29/4 GiB SMES scecaevarezevusevsassenecsusavsserasnesnssvnesnesuessassesssssseeaventerues 69

CHUONG 3 CO SO DU LIEU VA GAN NHAN TIENG VIET 3.1 Bang ky tu phién 4m 3.2 Gan nhan bang tay 3.2.1 Giới thiệu 3.2.2 Các nguyên tắc chung về gán nhãn bằng tay 3.2.3 Các âm tắc 3.2.4 Âm đóng 32.5 Âmxát 3.2.6 Phu am mii

3.2.7 Nguyên âm đơn, nguyên âm đôi và bán nguyên am 3.2.8 Phu âm cuối

3.2.9 Am tac thanh hau es

32:10 Ait dent nasssenencecanemumarcnemonta aren )BĐGG12008000800 3.0 3.3 Gan nhan tự động 3.3.1 Giới thiệu 3.3.2 Gán nhãn tự động cơ sở dữ liệu 3.3.3 Đánh giá độ chính xác của gán nhãn tự động 3.4 Xây dựng cơ sở dữ liệu tiếng Việt 3.4.1 Giới thiệu

3.4.2 Giới thiệu cơ sở dữ liệu tiếng nói của CSLU 3.4.3 Phương pháp xây dựng cơ sở dữ liệu tiếng Việt

CHƯƠNG 4 HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT LIÊN TỤC - 88 4.1 Phân tích hai phương pháp nhận dạng HMM liên tục và HMM/ANN - 88 4.2 Hệ thống nhận dạng chữ số tiếng Việt liên tục sử dụng HMM/ANN

4.2.1 Giới thiệu

4.2.2 _ Hệ thống nhận dạng chữ số liên tục tiếng Việt dùng ANN 4.2.3 Vai trò của âm đóng trong phiên âm các chữ số

4.2.4 _ Số lượng category cho mỗi nguyên âm

4.2.5 Giới hạn về độ dài

4.2.6 _ Phương pháp trích chọn đặc đính phổ của tiếng nói

4.2.7 _ Hệ thống nhận dạng mười chữ số tiếng Việt dùng mạng HMM/ANN 4.2.8 Hệ thống nhận dạng chữ số tiếng Việt dùng HMM liên tục

4.2.9 Nghiên cứu sử dụng tần số cơ bản a

F UÀnca n

Trang 3

4.3 Hệ thống nhận dạng liên tục tiếng Việt không thanh điệu kích thước trung bình 114 4.3.1 Giới thiệu

4.3.2 Hệ thống nhận dạng cơ sở dùng HMM liên tục 4.3.3 Xây dựng hệ thống với nhiều hàm Gauss

4.3.4 Bổ sung thêm âm vị khoảng lặng

4.3.5 Vai trò của âm đóng 4.3.6 Phụ âm cuối là âm mũi

4.3.7 Thử nghiệm tiếng địa phương thổ ngữ

4.3.8 Huấn luyện với các thông tin nhãn thời gian

4.3.9 Thử nghiệm với dữ liệu kiểm tra và dữ liệu huấn luyện trùng nhau

4.3.10 Két luan

4.4 Chương trình ứng dụng nhận dạng tiếng nói

4.4.1 Chương trình trình diễn nhận dạng chữ số tiếng Việt liên tục

4.4.2 _ Chương trình nhận dạng tiếng Việt không thanh điệu liên tục kích thước trung bình 132 4.4.3 Chương trình ứng dụng thông tin qua mạng điện thoại -:-+©+-++++s+s+s+++2 133

CÁC KIẾN NGHỊ VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO =

PHU LUC A BANG KÝ HIỆU ÂM VỊ TIẾNG VIỆT -eeeeeerisissreereeee

PHU LỤC B GIỚI THIỆU MỘT SỐ BỘ CÔNG CỤ XỬ LÝ TIẾNG NÓI DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

Trang 4

MO BAU

Tính cấp thiết của đề tài

Năm 1969, TS John Pierce, Giám đốc Nghiên cứu thuộc Phòng thí nghiệm Điện thoại Bell đã viết một bài báo nổi tiếng “Đích đến của nhận dạng tiếng nói”, trong đó

ông cho rằng nhận dạng tiếng nói là một nhiệm vụ không thể thực hiện được với máy

tính và “sự lôi cuốn nghiên cứu về nhận dạng tiếng nói giống như là sự lôi cuốn việc nghiên cứu biến nước thành dầu lửa, lấy vàng từ đáy biển, chữa trị bệnh ung thư hay đi tới mặt trăng” Vào năm 1980, GS Gorge trong một bài báo tương tự cũng cho rằng

không cần thiết phải xây dựng các hệ thống hiểu tiếng nói để thu nhận thông tin qua điện thoại hoặc là ra lệnh cho máy tính vì những nhiệm vụ như vậy là quá khó khăn [33] Tuy nhiên trái ngược với các dự đoán, hiện nay một số ứng dụng nhận dạng tiếng nói đã được dùng rộng rãi trong xã hội và trong khoa học, đặc biệt là trong viễn thông

Điện thoại di động đã có thể quay số điện thoại bằng giọng nói, các hệ thống xử lý

thoại đa kênh có thể điều khiển các cuộc gọi thông qua tiếng nói, máy tính cá nhân với phần mềm nhận dạng tiếng nói có thể trợ giúp cho những người khiếm thính, các phần

mềm thương mại nhận dạng đọc chính tả đã được sử dụng tại Mỹ, Canada, Nhật,

Sự phát triển vượt bậc của ngành khoa học nhận dạng tiếng nói trong vài thập kỷ

gần đây là kết quả của việc áp dụng các phương pháp tiên tiến của công nghệ thông tin

Một trong những phương pháp đó là mô hình Markov ẩn HMM (Hidden Markov Model) và mạng no ron nhân tao ANN (Artificial Neural Network) Đây là hai phương

pháp được nghiên cứu nhiều nhất hiện nay trong các phòng thí nghiệm nhận dạng tiếng nói trên thế giới Các hệ thống nhận dạng thử nghiệm có thể nhận dạng đến hàng chục nghìn từ với độ chính xác trên 90%

Trang 5

nhận dạng tiếng nói tiếng Việt là rất cần thiết để xây dựng các hệ thống nhận dạng tiếng nói của riêng tiếng Việt, đưa các hệ thống này áp dụng vào trong thực tế

Mục đích nghiên cứu

Mục đích nghiên cứu của luận án là nghiên cứu các phương pháp nhận dạng tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng ngôn ngữ nước ngồi: mơ hình Markov ẩn HMM, mạng nơ ron nhân tạo ANN và hệ thống lai ghép

giữa hai phương pháp này (hybrid HMM/ANN) Trên cơ sở các nghiên cứu này, ứng

dụng các phương pháp nhận dạng trên vào trong nhận dạng tiếng Việt

Luận án đặt vấn đề nghiên cứu phương pháp thiết kế, xây dựng cơ sở dữ liệu tiếng

Việt và đặc biệt là phương pháp gán nhãn âm vị cho phát âm liên tục tiếng Việt

Luận án nghiên cứu và tìm hiểu các đặc điểm chung và đặc điểm riêng biệt của

ngôn ngữ tiếng Việt so với ngôn ngữ nước ngoài để từ đó phân tích và phát hiện các vấn đề đặc thù của ứng dụng hai phương pháp nhận dạng trên vào trong hệ thống nhận dạng tiếng Việt liên tục Các kết quả nghiên cứu của nhận dạng tiếng nước ngoài và một số kết quả nghiên cứu của các tác giả trong nước về nhận dạng tiếng Việt sẽ được kế thừa và sử dụng Các thử nghiệm tập trung vào các khía cạnh đặc trưng của ngôn ngữ tiếng

Việt và các vấn đề nhận dạng các phát âm qua điện thoại

Thanh điệu là một thành phần của giọng nói Với các ngôn ngữ không có thanh điệu, thanh điệu ít được nghiên cứu sử dụng Tiếng Việt là một trong số ít ngôn ngữ có

thanh điệu Luận án nghiên cứu về vai trò của thanh điệu trong các hệ thống nhận dạng

tiếng Việt, tận dụng thông tin về thanh điệu để nâng cao hiệu quả nhận dạng tiếng Việt Pham vi nghiên cứu

Các hệ thống nhận dạng tiếng nói bao gồm hai loại: hệ thống nhận dạng từ rời rạc

(discrete) và hệ thống nhận dạng từ liên tục (continuous) Nhận dạng từ liên tục bao

gồm hệ thống nhận dạng kích thước nhỏ và hệ thống nhận dạng kích thuớc trung bình hoặc lớn Nhận dạng từ liên tục là một bài toán khó khăn hơn nhiều so với nhận dạng từ rời rạc Hiện nay mới chỉ có một nghiên cứu về hệ thống liên tục kích thước nhỏ tiếng Việt (mười chữ số) được trình bày trong luận án của TS Nguyễn Thành Phúc Trong đề tài này nghiên cứu sinh (NCS) dat van dé tap trung nghiên cứu về hệ thống nhận dạng

Trang 6

Tuy nhiên xây dựng một hệ thống nhận dạng liên tục kích thước lớn (tới hàng chục

nghìn âm tiết) hoặc không hạn chế số lượng âm tiết là một nhiệm vụ phức tạp và mất

nhiều thời gian, vượt ra ngồi khn khổ của một đề tài nghiên cứu sinh Luận án giới hạn nghiên cứu các hệ thống nhận dạng liên tục kích thước nhỏ và trung bình Việc

nghiên cứu hệ thống nhận dạng kích thước trung bình sẽ là một bước chuẩn bị để mở rộng nghiên cứu về hệ thống nhận dạng kích thước lớn

Một trong các lĩnh vực được áp dụng nhiều nhất của nhận dạng tiếng nói là ngành viễn thông, nhận dạng các thu âm qua hệ thống điện thoại Tiếng nói thu âm qua điện thoại có đặc điểm là: có nhiều nhiễu trên đường truyền, chất lượng thu âm thấp, tần số bị giới hạn trong giải 300-3400Hz, độ đa dạng cao do sự đa dạng của mạng điện thoại:

kiểu của micro, kiểu của tổng đài chuyển mạch, hệ thống truyền dẫn Các nghiên cứu hiện thời về nhận dạng tiếng nói tiếng Việt mới chỉ tập trung vào các thu âm trong môi trường cách âm hay văn phòng mà chưa có nghiên cứu về các thu âm trong điện thoại

Với mong muốn nghiên cứu về các đặc thù của các thu âm qua điện thoại, giải quyết các vấn đề với các thu âm chất lượng không cao, luận án tập trung nghiên cứu hệ thống nhận dạng tiếng nói qua mạng điện thoại

Ý nghĩa khoa học và thực tiễn của đề tài

Nhận dạng tiếng nói đang được nghiên cứu tại nhiều nước trên thế giới, tuy vậy ở Việt nam nghiên cứu nhận dạng tiếng nói còn ít Các nghiên cứu của luận án tập trung vào các vấn đề đang còn chưa được nghiên cứu nhiều trong tiếng Việt

Cơ sở dữ liệu tiếng nói tốt góp phần nghiên cứu nhận dạng tiếng nói đi đúng hướng và thành công Hiện tại chưa có cơ sở dữ liệu tiếng nói với số lượng từ lớn và chất lượng tốt cho tiếng Việt Luận án đã xây dựng hai cơ sở dữ liệu tiếng nói thu âm qua điện thoại với số lượng người nói trên 200 người: cơ sở dữ liệu mười chữ số và cơ sở dữ liệu có kích thước từ điển 528 từ Hai cơ sở dữ liệu này giúp cho nghiên cứu về các hệ thống nhận dạng tiếng nói tiếng Việt Ngoài ra qua kinh nghiệm nghiên cứu xây dựng hai cơ sở dữ liệu này, luận án giới thiệu một số tiêu chí và phương pháp để xây dựng cơ sở dữ

liệu lớn hơn

Trang 7

phương pháp gán nhãn âm vị bằng tay các phát âm liên tục tiếng Việt Ngoài ra một phương pháp gán nhãn tự động âm vị được trình bày trong luận án để giúp cho công việc gán nhãn được nhanh chóng

Luận án đã nghiên cứu hệ thống nhận dạng chữ số liên tục tiếng Việt thu âm qua điện thoại dùng hệ thống hai ghép HMM/ANN với độ chính xác là 97,78% ở mức từ và 91,78% ở mức câu Kết quả này gần tương đương với các hệ thống nhận dạng tương tự của nước ngoài Các chương trình trình diễn và chương trình ứng dụng của hệ thống này đã được xây dựng để minh hoạ khả năng ứng dụng của hệ thống nhận dạng này trong thực tế

Luận án mạnh dạn nghiên cứu về hệ thống nhận dạng liên tục tiếng Việt kích thước trung bình gồm 528 từ Phương pháp được áp dụng là dùng mô hình Markov ẩn liên

tục Tuy kết quả nhận dạng còn chưa cao: 76,57% ở mức từ và 29,97% ở mức câu, nhưng các phân tích và phát hiện của luận án về các đặc thù của nhận dạng tiếng Việt là thông tin có ích trong bước tiếp theo: nghiên cứu hệ thống nhận dạng kích thước lớn

Tổ chức của luận án

Nội dung cơ bản của luận án gồm bốn chương:

Chương 1: Tổng quan về nhận dạng tiếng nói

Trình bày khái quát về nguyên tắc hoạt động, các bộ phận của hệ thống nhận dạng

tiếng nói; độ chính xác hiện thời của các hệ thống nhận dạng tiếng nước ngoài và tiếng

Việt; cơ sở dữ liệu tiếng nói và các đặc điểm của ngôn ngữ tiếng Việt Chương 2: Hệ thống nhận dạng tiếng nói liên tục dùng HMM và ANN

Trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói liên tục, các phương pháp trích chọn các đặc tính phổ; cơ sở lý thuyết cla mé hinh Markov an HMM va ting

dụng của chúng trong nhận dạng tiếng nói; cơ sở lý thuyết của mạng neuron đa lớp; phương pháp huấn luyện hệ thống nhận dạng tiếng nói; thuật toán nhận dạng, giải mã

Chương 3 Cơ sở dữ liệu và gán nhãn tiếng Việt

Trang 8

gán nhãn các 4m vi trong một cơ sở dữ liệu; xây dựng hai cơ sở dữ liệu tiếng Việt thu

âm qua điện thoại

Chương 4 Hệ thống nhận dạng tiếng Việt liên tục

Trình bày các hệ thống nhận dạng tiếng Việt liên tục được nghiên cứu, phân tích về

hai loại hệ thống nhận dạng: hệ thống nhận dạng dùng HMM liên tục và hệ thống nhận

dạng dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng chữ số tiếng Việt liên tục dùng hệ thống lai ghép HMM/ANN; hệ thống nhận dạng liên tục tiếng Việt không

thanh điệu có kích thước trung bình dùng mô hình HMM liên tục; một số chương trình

trình diễn nhận dạng tiếng Việt

Trang 9

BẢNG KÊ CÁC KÝ HIỆU VIẾT TẮT Viết tắt Nghĩa

ASR Automatic Speech Recognition

ANN Artificial Neural Network

CD-HMM Continuous-Density Hidden Markov Model

CMS Cepstral Mean Subtraction

DCT Discrete Cosin Transform

DFT Discrete Fourier Transform

DHMM Discrete Hidden Markov Model

DTW Dynamic Time Warping

EM Expectation-Maximization

FFT Fast Fourier Transform

HMM Hidden Markov Model (M6 hinh Markov an)

HMM/ANN | Hệ thống lai ghép giữa mô hình Markov ẩn và mạng neuron

IPA International Phonetic Alphabet (Bảng ký tự phiên âm quốc tế)

F0 Formant 0 (Tần số formant cơ bản)

F1,F2,F3 Formant 1, Formant 2, Formant 3 LPC Linear Predictive Coding

LVCSR Large-Vocabulary Continuous Speech Recognition

MAP Maximum A Posterior

MFCC Mel Scale Frequency Cepstral Coefficients (Cac hé s6 cepstral véi thang tần số Mel)

ML Maximum Likelihood

MLP Multi-Layer Perceptron (Mang no ron Perceptron da lép)

NCS Nghiên cứu sinh

PLP Perceptual Linear Prediction RASTA RelAtive SpecTral

Trang 10

BẢNG KÊ CÁC THUẬT NGỮ ANH-VIỆT

Tiếng Anh Tiếng Việt

acoustic model mô hình âm học affricates âm tắc xát category don vi nhan dang codebook sách mã codeword từ mã context ngữ cảnh forced alignment gán nhãn cưỡng bức classification phân lớp

corpus cơ sở dữ liệu tiếng nói

diphthong nguyên âm đôi embedded training huấn luyện nhúng error back propagation truyền sai số ngược fricate âm xát hidden layer lớp ẩn initial am dau input layer lớp vào language model mô hình ngôn ngữ labeling gán nhãn learning học

liasion hiện tượng nối âm

Trang 11

semi-vowel bán nguyên âm Segmentation phân đoạn speaking rate tốc độ phát âm

Spectrogram biểu đồ phổ

spontaneous speech tiếng nói tự nhiên training huấn luyện unvoiced vô thanh

vowel nguyên âm

vocal cord dây thanh âm vocal tract đường phát âm waveform biểu đồ sóng

voiced hữu thanh

Trang 12

CHƯƠNG 1 TỔNG QUAN VỀ

NHẬN DẠNG TIẾNG NÓI

Trong chương này, phần một giới thiệu khái quát về hệ thống nhận dạng tiếng nói Phần thứ hai trình bày cơ sở lý thuyết của một hệ thống nhận dạng tiếng nói, các giai đoạn cơ bản của hệ thống nhận dạng tiếng nói Phần tiếp theo trình bày về khả năng nhận dạng hiện thời (state of art) của các hệ thống nhận dạng trên thế giới với các ngôn ngữ nước ngoài như tiếng Anh, tiếng Hán, tiếng Thái Các nghiên cứu hiện thời về nhận dạng tiếng nói đối với tiếng Việt cũng được giới thiệu Phần thứ tư trình bày về cơ sở dữ liệu tiếng nói, một bộ phận gắn liền với nhận dạng tiếng nói Phần cuối dành để trình

bày về đặc điểm của ngôn ngữ tiếng Việt

11 GIỚI THIỆU

Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được

học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là

các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng

với các mẫu đã được học và lưu trữ trong bộ nhớ

Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:

Trang 13

tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để

nhận dạng tiếng nói

—_ Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm

thành dãy các ký hiệu ngữ âm

— Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói nhất là khi

thông tin về âm học là không rõ ràng

Lĩnh vực nghiên cứu của nhận dạng tiếng nói khá rộng liên quan đến nhiều ngành khác nhau Sau đây là các ngành và mối liên hệ của chúng với nhận dạng tiếng nói : — Xử lý tín hiệu số (digital signal proccessing): Các kỹ thuật xử lý tín hiệu số dùng để

phân tích tín hiệu tiếng nói biến thiên theo thời gian nhằm trích ra các thông tin quan trọng từ tiếng nói

— Vat ly hay 4m hoc (acoustic): Khoa học nghiên cứu về mối quan hệ giữa tín hiệu

tiếng nói và cơ chế sinh lý học của bộ máy phát âm của con người, cũng như cơ chế hoạt động của tai người

— Nhận dạng mẫu: các thuật toán dùng đề phân loại dữ liệu thành tập các mẫu và đối sánh các mẫu dựa trên cơ sở tính toán khoảng cách giữa các đặc điểm của mẫu

— Lý thuyết thông tin và khoa học máy tính (information and computer science theory): các thuật toán để tính toán các tham số của các mô hình thống kê, các thuật toán giải mã và mã hoá (lập trình động, các thuật toán dùng ngăn xếp, giải mã Viterbi) để tìm một đường đi tốt nhất dãy các từ được nhận dạng

— Ngôn ngữ học (linguistics): Kiến thức về cấu trúc của ngôn ngữ, đặc biệt là đơn vị ngữ âm cơ bản của tiếng nói và vai trò của chúng trong việc sản sinh ra giọng nói

— Sinh lý học (physiology): Kiến thức về cấu tạo của bộ máy phát âm của con người, của tai người cũng như là quá trình phân tích âm học và ngôn ngữ tại bộ não

— Tâm lý học ứng dụng (applied psychology) Những kiến thức về quá trình sinh ra

tiếng nói cũng như quá trình nhận thức tiếng nói của loài người

Trang 14

1.2 NGUYEN TAC CUA HE THONG NHAN DANG TIENG NOI

Hình 1.1 miêu tả các lớp hệ thống nhận dạng tiếng nói khác nhau: nhận dạng từ rời

rạc (discrete) và nhận dạng từ liên tục (continuous) với hai loại: hệ thống kích thước nhỏ và hệ thống kích thước trung bình hoặc lớn [31]

Trong hệ thống nhận dạng từ rời rạc, các phát âm được nhận dạng được giả thiết là chỉ bao gồm một từ hoặc một nhóm từ độc lập Các từ được nhận dạng mà không phụ thuộc vào ngữ cảnh của nó Nhận dạng tiếng nói với các từ rời rạc được ứng dụng trong

các chương trình dạng câu lệnh-điều khiển (command-control), chẳng hạn như ứng dụng quay số bằng giọng nói trong điện thoại di động Bài toán nhận dạng tiếng nói các

từ rời rạc rõ ràng là dễ hơn rất nhiều so với bài toán nhận dạng tiếng nói liên tục Hệ thống nhận dạng Hệ thống nhận dạng từ Hệ thống nhận dạng từ rời rạc liên tục Hệ thống với kích Hệ thống với kích thước bộ từ điển nhỏ thước bộ từ điển trung bình và lớn Hình 1.1 Các hệ thống nhận dạng tiếng nói

Luận án này chỉ đề cập đến hệ thống nhận dạng các từ liên tục Phần sau đây trình bày nguyên tắc cơ bản của một hệ thống nhận dạng từ liên tục

Một phát âm dưới dạng wav được phân tích thành một dãy các vector đặc tính phổ,

mỗi vector tương ứng với một khung tín hiệu (thường có độ dài 10ms) Ví dụ một phát

âm Y được phân tích thành dãy các vector đặc tính phổ tương ứng y,, y;, , yự

Trang 15

W= argmax P(W |Y)= nga Si VỦ L4

w w P(Y)

Do xác suất P(Y) là độc lập với W, do đó để tìm được dãy từ có xác suất cao nhất

JŸ phải tìm dãy từ sao cho hai xác suất P(W) và P(Y/W) cao nhất Xác suất P(W) độc lập với tín hiệu tiếng nói và xác suất này xác định bởi mô hình ngôn ngữ (language

model) Xác suất P(Y/W) được xác định bởi mô hình âm học (acoustic model)

Hình 1.2 cho thấy mối quan hệ giữa các xác suất này Trong đó với một phát âm là dãy từ “giọng nói”, mô hình ngôn ngữ sẽ cho ta xác suất P(W) Bằng từ điển phiên âm

ta biến đổi chúng thành dãy các âm vị tương ứng Dãy các âm vị này cho ta xây dựng

Trang 16

sẽ cho ta xác suất P(Y/W) Về mặt nguyên tắc quá trình này có thể lặp đi lặp lại với tất cả các dãy từ có thể để tìm ra dãy từ có xác suất lớn nhất Dãy các đặc Dãy các từ ‹ tính phổ hoặc âm vị Từ, câu được Tín hiệu : nhận dạng

tiếngnói | Phân tích đặc Phân lớp mẫu Xử lý ngôn ngữ

——>| tính(feature (pattern (language |»

analysis) clasification) processing)

Các từ, âm vị Các từ, câu

Mô hình âm học Mô hình ngôn ngữ (acoustic model) (language) model) Hinh 1.3 Cac qua trinh nhan dang

Trong thực tế việc tìm xác suất với tất cả các dãy từ là không thể áp dụng Một quá

trình xem xét song song tất cả các dãy từ có thể được áp dụng và một quá trình chọn lọc

xoá đi các dãy từ khó có khả năng trở thành dãy từ tốt nhất Quá trình tìm kiếm này được gọi là quá trình giải mã (decoding)

Hình 1.3 cho ta thấy các bước cơ bản của một hệ thống nhận dạng tiếng nói gồm có ba giai đoạn: phân tích đặc tính, phân lớp mẫu và xử lý ngôn ngữ

1.2.1 Phân tích đặc tính tiếng nói

Phân tích các đặc tính trích ra các thông tin cần thiết cho quá trình nhận dạng tiếng nói từ tín hiệu tiếng nói Quá trình này loại bỏ những thông tin không quan trọng, chẳng hạn như tiếng ồn của môi trường thu âm, nhiễu trên đường truyền, các đặc điểm riêng biệt của từng người nói, Tiếng nói được phân tích theo từng khung thời gian

(frame) voi dé dai dao động từ 8ms tới 25ms [24] Kết quả ra của giai đoạn này là các vector đặc tính của mỗi khung tín hiệu tiếng nói

Trang 17

Có hai cách tiếp cận thông dụng hiện nay thường được áp dụng để phân tích tín

hiệu tiếng nói đó là phương pháp dựa vào mô hình hoá đường phát âm (vocal tract) và

phương pháp dựa vào mơ hình hố cảm nhận âm thanh của con người (human auditory

system) Cả hai cách này đều đang được áp dụng thành công trong các hệ thống nhận

dang Su cai tién cha các phương pháp này sẽ dẫn tới nâng cao năng lực nhận dạng của các hệ thống nhận dạng tiếng nói Hai phương pháp trích chọn tiếng nói đang được sử dụng rộng rãi hiện nay trong các hệ thống nhận dạng hiện tại là: phương pháp MFCC (Mel Scale Frequency Cepstral Coefficients) va PLP (Perceptual Linear Prediction)

Có hai kỹ thuật xử lý tiếng nói có vị trí quan trọng là kỹ thuật RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction) Đây là hai kỹ thuật áp dụng nhằm lọc

bỏ nhiễu, những âm thanh không phải là tiếng nói Hai kỹ thuật này đặc biệt có ích

trong xử lý tiếng nói thu âm qua điện thoại [8] Cả hai kỹ thuật đều có thể dùng kết hợp được với một trong hai phương pháp trích chọn đặc tính phổ MECC hoặc PLP Kỹ thuật RASTA có ưu điểm là có thể được áp dụng trong các hệ thống nhận dạng trực tiếp (live), nhận dạng phát âm mà không cần đợi phát âm đó kết thúc [18] Kỹ thuật này thường được đi kèm với phương pháp trích chọn đặc tính PLP [18] Ngược lại kỹ thuật

CMS có ưu điểm là đơn giản, thời gian tính toán nhanh, dễ áp dụng 1.2.2 Phân lớp mẫu

Bước thứ hai trong hệ thống nhận dạng tiếng nói đó là phân lớp mẫu, trong đó hệ thống sẽ gán dãy các vector đặc tính thành dãy tối ưu các đơn vị tiếng nói cơ bản (từ

hoặc âm vị) Có bốn phương pháp hay được áp dụng đó là: đối sánh mẫu (template matcher), rule-based, mạng neuron và mô hình Markov ẩn

Nguyên tắc cơ bản của phương pháp đối sánh mẫu đó là cất giữ một số lượng các mẫu (examples) tiếng nói, bao gồm các vector đặc tính Tín hiệu tiếng nói cần nhận dạng được phân tích và các vector đặc tính của chúng sẽ được so sánh với các mẫu đã được cất giữ trước đó Do tốc độ phát âm là rất khác nhau, từ phát âm nhanh đến phát âm chậm, nên kỹ thuật căn chỉnh thời gian động DTW (Dynamic Time Warping) được

áp dụng để dãn hoặc co hẹp thời gian trên trục thời gian nhằm giảm sự khác biệt so với

các mẫu

Trang 18

Hệ thống rule-based xây dựng một loạt các tiêu chuẩn trên một cây quyết định để xác định xem đơn vị nào của ngôn ngữ nằm trong tín hiệu tiếng nói Đối với hệ thống nhận dạng tiếng nói lớn, phương pháp này gặp khó khăn trong việc tổng quát hoá sự đa

đạng của tín hiệu tiếng nói Một vấn đề nữa là với cây quyết định, rất khó phục hồi lỗi nếu như một quyết định sai được xác định ngay từ khi bắt đầu phân tích

Mô hình Markov ẩn được nghiên cứu rộng rãi gần đây như là một công cụ mạnh

được áp dụng thành công trong nhận dạng tiếng nói Đa số các hệ thống nhận dạng tiếng nói hiện nay dùng mô hình Markov ẩn Chi tiết về mô hình Markov ẩn sẽ được

trình bày trong Chương 2

Mạng neuron được áp dụng trong nhận dạng tiếng nói từ những năm 1980 với mong

muốn sử dụng khả năng phân lớp mạnh của mạng Mạng neuron truyền thẳng đa lớp

Perceptron thường được sử dụng trong nhận dạng tiếng nói Tuy nhiên mạng neuron có

hạn chế về khả năng mơ hình hố sự biến thiên của tiếng nói theo thời gian Vì vậy mạng neuron gần đây hay được sử dụng thay thế các hàm mật độ xác suất trong các hệ thống lai ghép mạng neuron và mô hình Markov ẩn Chương 2 sẽ trình bày chi tiết về

mạng neuron cũng như mạng lai ghép giữa mạng neuron và mô hình Markov ẩn

1.2.3 Xử lý ngôn ngữ

Mô hình ngôn ngữ đóng vai trò quan trọng trong xử lý ngôn ngữ Mục đích của mô hình ngôn ngữ N-gram (hay n-gram) là tìm ra xác suất của một từ theo sau một số

lượng từ nào đó trong một phát âm Ví dụ từ w¿ theo sau dãy k-Ï các từ w¿, ws, .,M¿.;

(kí hiệu W“') trong một phát âm N-gram gia thiét rằng từ w„, chỉ phụ thuộc vào ø- các

từ đứng trước nó tức là

P(w, Wi) = P(w, Wea)

Trang 19

Về mặt nguyên tắc các xác suất của mô hình ngôn ngữ có thể được tính toán trực tiếp từ số lần xuất hiện của các từ trong cơ sở dữ liệu:

f(W,_z;W,_¡,W, )

P(w, |w,_„w,_;)= BỘ >.)

k~2s W_~I

trong đó hàm /(x,y,z) là số lần xuất hiện của bộ ba từ x,y,z (trigram), b(x,y) là số lần

xuất hiện của bộ đôi (bigram) x,y

Tuy nhiên một vấn đề khó khăn cơ bản của mô hình ngôn ngữ là số lượng các bộ ba

là quá lớn Chẳng hạn với một hệ thống nhận dạng với bộ từ điển V có kích thước là 10000 từ thì số lượng các bộ ba là VỶ Số lượng từ này rõ ràng là quá lớn, sẽ có nhiều

bộ ba không xuất hiện hoặc xuất hiện rất ít chỉ một hoặc hai lần trong cơ sở dữ liệu Với các trường hợp này xác suất của các bộ ba là không tính được hoặc rất nhỏ

Mặc dù có khó khăn về tính tốn như trên, mơ hình ngôn ngữ vẫn chứng minh được là chúng đóng vai trò quan trọng trong các hệ thống nhận dạng Trong các hệ thống

nhận dạng với kích thước lớn hiện nay, các mô hình ngôn ngữ 3-gram và 2-gram dùng phổ biến [43] Một số hệ thống nhận dạng có khả năng thay đổi mô hình ngôn ngữ

theo ngữ cảnh, tự điều chỉnh mô hình ngôn ngữ trong quá trình nhận dang [46, 47] 1.3 NGHIÊN CỨU HIỆN THỜI VỀ NHẬN DẠNG TIẾNG NÓI

1.3.1 Các yếu tố ảnh hưởng đến khả năng nhận dạng của máy tính

Sau đây là các đặc điểm chính của hệ thống nhận dạng tiếng nói liên quan đến độ

chính xác nhận dạng:

—_ Sự phụ thuộc vào người nói Hệ thống nhận dạng tiếng nói có thể là phụ thuộc vào người nói (speaker dependent) hoặc là độc lập với người nói (speaker independent) Xây dựng một hệ thống nhận dạng tiếng nói cho giọng nói của một người dễ dàng hơn là xây dựng hệ thống nhận dạng tiếng nói cho nhiều người Tỷ lệ lỗi nhận dạng tiếng nói của hệ thống độc lập với người nói thường cao hơn 3 đến 5 lần so với hệ thống nhận dạng tiếng nói phụ thuộc người nói tương đương [38]

— Kích thước của bộ từ điển Kích thước bộ từ điển mà hệ thống nhận dạng tiếng nói

có thể hiểu được càng lớn thì khả năng nhầm lẫn giữa các từ, các câu càng cao và nhiệm vụ nhận dạng tiếng nói càng trở nên khó khăn

Trang 20

—_ Tốc độ nói, hiện tượng đồng phát âm Trong một phát âm, một âm bị ảnh hưởng rất lớn của các âm xung quanh nó Các từ rời rạc được nhận dạng dễ dàng hơn là các từ

trong một phát âm liên tục

— Sự biến đổi trong lời nói Con người có thể hiểu được lời nói ngay cả khi nó bị xen lẫn bởi các tạp âm như tiếng ho, tiếng cười, tiếng “à, ờ”, Tuy nhiên đối với máy tính

các trường hợp như vậy gây ra những khó khăn đặc biệt trong nhận dạng tiếng nói

— Điều kiện môi trường Tiếng nói có chất lượng thấp (bi méo tín hiệu, bị nhiễu kênh truyền, .) thường đặt ra rất nhiều vấn đề để giải quyết cho các hệ thống nhận dạng tiếng nói Theo [49] tỷ lệ lỗi của hệ thống nhận dạng khi làm việc với tiếng nói có tỉ

số tín hiệu trên nhiéu SNR > 40dB (SNR- Signal to Noise Ratio) so với tiếng nói có

SNR >18dB tang lén nhiều lần, có thể lên tới 10 lần

— Các phát âm tự nhiên và các phát âm liên tục Hệ thống nhận dạng tiếng nói có thể

làm việc với các phát âm được đọc từ các văn bản chuẩn bị sẵn hoặc với các phát âm

do người nói nói một cách tự nhiên (spontaneous) Nhận dạng các phát âm tự nhiên rõ

ràng là khó khăn hơn nhiều so với các phát âm đọc sẵn Lý do là các phát âm tự nhiên

số lượng từ vựng thường là không hạn chế, hệ thống phải phân biệt với các từ không có

trong bộ từ điển Ngoài ra trong các phát âm người nói vừa nói vừa nghĩ và do đó phát âm không rõ ràng, tốc độ phát âm khác nhau, tiếng nói có thể xen lẫn với các tạp âm khác

— Các giới hạn về ngôn ngữ Các hệ thống nhận dạng có thể làm việc với các câu có ngữ pháp rõ ràng trong các chương trình ứng dụng cụ thể Với các hệ thống này, nhiệm

vụ nhận dạng sẽ dễ dàng hơn hệ thống nhận dạng mà các từ không có ràng buộc cụ thể về ngữ pháp, hay nói cách khác các từ quan hệ với nhau bằng vòng lặp từ (word-loop)

nghĩa là bất kì một từ nào trong bộ từ điển đều có thể theo sau từ khác trong bộ từ điển

Độ chính xác của các hệ thống nhận dạng được đánh giá trên cơ sở mức từ và mức

câu Độ chính xác nhận dạng ở mức từ được đánh giá bằng công thức:

N=S-D=~T yo 90%

Trong đó Š là số lượng từ bị nhận dạng nham (substitution), D 14 s6 lugng tir bi xo

(deleted), J 14 s6 tir bi chén (insertion), N là tổng số các từ được nhận dạng

Trang 21

N-S

*100%

Trong đó N là tổng số câu nhận dạng, S là số câu nhận dạng sai

1.3.2 Các nghiên cứu về nhận dạng tiếng nói ngơn ngữ nước ngồi

Cơng nghệ nhận dạng tiếng nói đã có bước tiến dài trong các thập kỷ qua, một số các phần mềm nhận dạng tiếng nói đã có mặt trên thị trường, chẳng hạn như các phần mềm nhận dạng tiếng nói đọc chính tả của IBM, Gragon Systems, L&H Về lĩnh vực ứng dụng nhận dạng tiếng nói trong viễn thông, Nuance và SpeechWorks là các hãng phần mềm nổi tiếng Rất nhiều trung tâm nghiên cứu đang tập trung nghiên cứu về

nhận dạng tiếng nói, chẳng hạn như Bell Labs, IBM Research Center, Microsoft

Research, CSLU,

Trang 22

Môi trường thu âm tiếng nói có ảnh hưởng lớn đến độ chính xác nhận dạng Do vậy

nên cùng với một thuật toán, hệ thống nhận dạng có khả năng nhận dạng kém hơn

nhiều khi làm việc trong môi trường thực tế so với trong môi trường phòng thí nghiệm Ví dụ như một hệ thống nhận dạng các số của thẻ tín dụng ngân hàng được đọc bởi người bán hàng tại các cửa hàng bán lẻ tại Mỹ có độ chính xác nhận dạng là 98% (so với 99.7% trong môi trường phòng thí nghiệm) [36] Sự khác nhau về tỷ lệ lỗi nhận dạng chủ yếu là do sự khác nhau giữa chất lượng tiếng nói được thu âm trong môi trường phòng thí nghiệm và mơi trường bên ngồi

Bảng 1.1 so sánh tỷ lệ lỗi nhận dạng của các hệ thống nhận dạng tiếng Anh so với khả năng nhận dạng của con người theo đánh giá của [9] Từ Bảng I.1 ta thấy tỷ lệ lỗi nhận dạng của con người thấp hơn năm lần so với tỷ lệ lỗi nhận dạng bằng máy tính Đối với các hệ thống nhận dạng làm việc với giọng nói tự nhiên hoặc đối thoại thì tỷ lệ lỗi nhận dạng của máy tính cao hơn đến mười lần Với cơ sở dữ liệu tiếng nói có nhiều

nhiễu thì sự khác nhau này có thể còn cao hơn nữa Do vậy có thể nói khả năng nhận

dạng tiếng nói hiện thời còn xa mới có thể đạt tới khả năng của con người

Ngồi ngơn ngữ châu Âu, các nghiên cứu về nhận dạng tiếng nói đối với các ngôn ngữ đơn âm và có thanh điệu giống tiếng Việt như tiếng Trung Quốc (bao gồm tiếng Bắc kinh và tiếng Quảng đông), tiếng Thái lan cũng đã được thực hiện Với tiếng Trung quốc, nhiều nghiên cứu đã được tiến hành, một số hệ thống nhận dạng tiếng Trung quốc với kích thước từ vựng lớn cũng đã được xây dựng [17]

Bảng 1.1 So sánh tỷ lệ lỗi nhận dạng của máy tính và con người với một số hệ thống nhận dạng Hệ thống nhận dạng Kích thước từ vựng Máy tính Con người Liên tục 10 0.72% 0.009% Các chữ cái 26 5% 1%

Giọng nói tự nhiên 2000 36.7% 3.8%

Giong nói chất lượng tốt của WS 5000 4.5% 0.9%

Giọng nói có nhiều nhiêu WS.J 20000 8.6% 1.1%

Trang 23

hệ thống nhận dạng liên tục kích thước trung bình và lớn tiếng Thái lan, hiện thời các nghiên cứu mới chỉ ở bước khởi đầu

1.3.3 Các nghiên cứu về nhận dạng tiếng nói tiếng Việt

Cho đến thời điểm hiện nay, chưa có nhiều các nghiên cứu về nhận dạng tiếng Việt Các công việc nghiên cứu về nhận dạng tiếng nói tiếng Việt chủ yếu mới tập trung vào

nhận dạng các từ rời rạc

Hệ thống nhận dạng tiếng Việt, giống như hệ thống nhận dạng các ngôn ngữ có

thanh điệu khác, bao gồm hai quá trình nhận dạng song song: nhận dạng các từ không có thanh điệu và nhận dạng thanh điệu [45] Hình 1.5 miêu tả hệ thống nhận dạng ngôn ngữ có thanh điệu, trong đó có tiếng Việt: nhận dạng các từ không dấu nhận dạng thanh điệu

Hình 1.5 Hệ thống nhận dạng ngôn ngữ có thanh điệu

Nghiên cứu gần đây nhất về nhận dạng tiếng Việt là nghiên cứu của TS Nguyễn Thành Phúc [3] Trong luận án tiến sĩ của mình TS Nguyễn Thành Phúc đã tiến hành

nghiên cứu và thực hiện các công việc sau:

— Xây dựng được một số cơ sở dữ liệu thu âm trong môi trường trong nhà:

e_ Cơ sở dữ liệu gồm 10 chữ số tiếng Việt gồm 812 câu, mỗi câu gồm 6 từ, do 15

người nói Các câu đều được gán nhãn bằng tay

e _ Cơ sở dữ liệu gồm sáu âm tiết khác nhau về thanh điệu gồm 350 câu

e Cơ sở dữ liệu gồm 22 từ có các âm đầu khác nhau và có cùng phần van 1a EO gồm có 350 câu

— Nghiên cứu quá trình xây dựng một cơ sở dữ liệu tiếng Việt, để xuất bảng ký hiệu

âm vị tiếng Việt dùng để phiên âm các âm vị

— Khảo sát nhận dạng đối với các từ khác nhau về thanh điệu

Trang 24

—_ Tiến hành xây dựng hệ thống nhận dạng với mười chữ số tiếng Việt liên tục với điều

kiện thu âm trong nhà Nghiên cứu các giải pháp nhằm tăng cường độ chính xác nhận

dạng: mô hình âm tiết, đơn vị nhận dạng cơ bản, ảnh hưởng của ngữ cảnh trong nhận

dạng, Độ chính xác nhận dạng cao nhất thu được là 98,83% ở mức từ

Một nghiên cứu về nhận dạng thanh điệu tiếng Việt được tiến hành bởi TS Nguyễn Quốc Cường và cộng sự tại phòng thí nghiệm CLIPS-IMAG, trường đại học Grenoble

tại Pháp [30] Tác giả đã nghiên cứu nhận dạng thanh điệu tiếng Việt dùng mô hình Markov ẩn đối với từ rời rạc Đây là một trong những công trình đầu tiên nghiên cứu về

nhận dạng thanh điệu tiếng Việt Các thử nghiệm được tiến hành trên cơ sở dữ liệu gồm 9720 từ do 18 người nói đến từ ba miền Bắc Trung Nam, thu âm với tần suất lấy mẫu

16kHz/s, biến đổi A/D 16 bit Kết quả thu được tỷ lệ nhận dạng chính xác thanh điệu đạt 91,6%

Ngoài ra trước TS Nguyễn Thành Phúc có một số công trình nghiên cứu đã được công bố Theo [3] các công trình trên bao gồm:

— Công trình nghiên cứu nhận dạng tiếng nói theo phương pháp âm học-ngữ âm học

của TS Nguyên Anh Tuấn Kết quả của công trình như sau:

Hình thức hố được ngơn ngữ hình học của các từ tiếng Việt, cho phép nâng cao độ tin cậy của phân đoạn hoá các từ thành từng đoạn tương ứng với phần đầu, phần vần và thanh điệu của âm tiết tiếng Việt

Nghiên cứu và hình thức hoá những đặc trưng của sáu thanh điệu tiếng Việt,

cho phép xác định tự động kiểu thanh điệu tiếng Việt

Thông qua biểu đồ phổ đã xác định được đặc trưng formant của các nguyên âm và bán nguyên âm tiếng Việt Các đặc trưng này có thể sử dụng để phân loại các nguyên âm

Đã tìm được các thông số phổ và thời gian của các nguyên âm và phụ âm tiếng

Việt

Trang 25

Hệ thống nhận dạng xây dựng trên thuật toán này có độ chính xác là 95%, không phụ thuộc vào giọng nói

—_ Đề tài nghiên cứu cấp nhà nước mã số KHCN 01-07 do Khoa Công nghệ thông tin Đại học Bách khoa Hà nội thực hiện hoàn thành vào tháng 6/1998 đã áp dụng phương pháp dự báo tuyến tính LPC để đánh giá các tham số cơ bản (F0-F5 và tương quan FI1- F2) của các nguyên âm tiếng Việt: “a, â, ã, e, é, i, 0, 6, ơ, u, ư”

— TS Đặng Văn Chuyết và KS Ngô Đức Bình đã áp dụng phương pháp phân tích cepstral thời gian ngắn tín hiệu tiếng nói để xác định và quan sát sự biến đổi của các formant của nguyên âm tiếng Việt khi thay đổi ngữ cảnh

— TS Nguyễn Thế Hiếu ứng dụng phương pháp hiệu chỉnh thời gian động DTW để nhận dạng các từ rời rạc cho tiếng Việt Các tham số được sử dụng là các F1 và F2 Hệ thống nhận dạng thử nghiệm với năm nguyên âm tiếng Việt: “a,e,i,o,u”, mười chữ số

tiếng Việt và các từ điều khiển: "tiến, lùi, phải, trái, trước, sau, dừng” Độ chính xác nhận dạng trung bình là 78,47%

14 COSO DU LIEU TIẾNG NÓI

Cơ sở dữ liệu của một hệ thống nhận dạng là một bộ phận không thể tách rời với các

thuật toán dùng trong nhận dạng Tính chất của cơ sở dữ liệu cũng là những tính chất

của một hệ thống nhận dạng Cơ sở dữ liệu tiếng được dùng để phát triển, huấn luyện và

kiểm tra năng lực làm việc của các hệ thống xử lý tiếng nói Cơ sở dữ liệu tiếng thường có kích thước lớn, được xây dựng công phu bao gồm nhiều giọng nói của nhiều người nói gồm nhiều lứa tuổi, đến từ nhiều vùng địa lý khác nhau

Do vai trò quan trọng của cơ sở dữ liệu tiếng nói nên nhiều cơ sở dữ liệu tiếng nước

ngoài đã được phát triển trong những thập kỷ qua Ví dụ như cơ sở dữ liệu tiếng Anh: TIMIT, CSLU, WSJCAMO, tiéng Nhật ART, tiếng Triều tiên COCOSDA, Hệ cơ sở

dữ liệu chẳng hạn như TIMTIT đã được sử dụng rộng rãi trong cộng đồng các nhà nghiên cứu và trở thành một cơ sở để đánh giá so sánh giữa các nghiên cứu

Qui trình xây dựng một cơ sở dữ liệu tiếng gồm có hai giai đoạn chính: thu thập dữ

liệu và phiên âm chính tả, gán nhãn thời gian ở mức âm vị Người ta phân biệt các tính

chất của các loại cơ sở đữ liệu:

Trang 26

— Cơ sở đữ liệu gồm các từ rời rạc hoặc cơ sở dữ liệu gồm các câu phát âm liên tục Loại cơ sở dữ liệu đầu được dùng cho các hệ thống nhận dạng rời rạc, loại thứ hai dùng cho các hệ thống nhận dạng liên tục

—_ Cơ sở dữ liệu có kích thước nhỏ, trung bình hoặc lớn tương ứng với các hệ thống

nhận dạng nhỏ, trung bình hoặc lớn Kích thước của cơ sở dữ liệu được tính là kích thước của bộ từ điển các từ có mặt trong nó

—_ Môi trường thu âm của cơ sở dữ liệu: trong phòng studio, trong phòng thí nghiệm,

trong môi trường văn phòng, trong mơi trường bên ngồi, thu âm qua điện thoại cố

định, thu âm qua điện thoại di động,

— Thiết bị thu âm và chất lượng thu âm cũng là một tính chất quan trọng Cơ sở dữ liệu có thể được thu âm với chất lượng cao như TIMIT với tần số lấy mẫu là 44kHz/s, hoặc chỉ với 8Hzk/s khi thu âm qua điện thoại như cơ sở dữ liệu của CSLU

—_ Đặc điểm của người nói trong cơ sở dữ liệu Với hệ thống nhận dạng phụ thuộc người nói, cơ sở dữ liệu có thể chỉ bao gồm một người nói Thông thường cơ sở dữ liệu bao gồm hàng trăm người nói

— Phương pháp phát âm Với hệ cơ sở dữ liệu TIMIT, người nói đọc các câu có nội

dụng chuẩn bị sẵn Đối với một số cơ sở dữ liệu của CSLU thì người nói được phỏng

vấn qua điện thoại và họ phát âm theo phương thức tự nhiên (spontaneous), vừa nói vừa ngh1

Sau quá trình thu âm của cơ sở dữ liệu là một quá trình quan trọng: phiên âm chính tả và gán nhãn thời gian ở mức âm vị cho các phát âm Phiên âm chính tả là ghi lại nội dung của các phát âm dưới dạng văn bản, mỗi tệp văn bản tương ứng với một tệp phát

âm

1.5 NGONNGU TIENG VIET

1.5.1 Dac diém âm tiết tiếng Việt 1.5.1.1 Tính độc lập cao

Trong tiếng Việt, âm tiết được thể hiện khá đầy đủ, rõ ràng, được tách và ngắt thành từng khúc đoạn riêng biệt Âm tiết nào của tiếng Việt cũng mang một thanh điệu và cấu

Trang 27

bật và tách bạch hơn Do đó nên việc vạch ra ranh giới giữa các âm tiết trong tiếng Việt dễ dàng hơn nhiều việc phân chia ranh giới âm tiết trong các ngôn ngữ châu Âu [5]

(trong ngôn ngữ châu Âu, việc phân chia âm tiết có khi phải dùng phương pháp phân tích phổ) Việc tách bạch âm tiết còn được thể hiện ở chữ viết, mỗi âm tiết được viết tách ra thành một từ riêng biệt Có thể nói so với các âm tiết châu Âu, tiếng Việt có tính

độc lập cao hơn hẳn

Trong các ngôn ngữ châu Âu thường gặp các hiện tượng nối âm (liaison), ví dụ như :

Les ` amis have Sư ‘ou done it 2 Trong tiếng Việt không có hiện tượng nối âm như vậy

1.5.1.2 Khả năng biểu hiện ý nghĩa

Tuyệt đại đa số các âm tiết tiếng Việt đều có nghĩa Gần như toàn bộ các âm tiết đều hoạt động như từ Nói cách khác trong tiếng Việt ranh giới của âm tiết trùng với ranh

giới của hình vị [4] (hình vị là đơn vị có nghĩa nhỏ nhất trong một ngôn ngữ) Chính vì

vậy trong một phát ngôn, số lượng âm tiết trùng với số lượng hình vị 1.5.1.3 Cấu trúc chặt chế

Mỗi âm tiết tiếng Việt ở dạng đầy đủ có 5 phần như Hình 1.6:

Cấu trúc tổng quát của một âm tiết tiếng Việt là (C1)(w)V(C2) Trong đó C1 là phụ âm đầu, (w) là âm đệm, V là âm chính và C2 là âm cuối Thanh điệu Vân === Âm đệm Âm chính Âm cuối

Hình 1.6 Cấu trúc của âm tiết tiếng Việt

Âm tiết tiếng Việt có cấu trúc gồm hai bậc: bậc một bao gồm các thành tố trực tiếp được phân định bằng những ranh giới có ý nghĩa ngữ âm học Phần thứ hai bao gồm các yếu tố của phần vần chỉ có chức năng khu biệt thuần tuý Quan hệ giữa các yếu tố ở bậc một là quan hệ lỏng lẻo, giữa các yếu tố của bậc hai có quan hệ chặt chẽ Các thực nghiệm đã chứng minh rằng: tính độc lập của thanh điệu đối với các âm vị cụ thể lộ ra ở

Trang 28

chỗ đường nét âm điệu và trường độ của nó không gắn liền với thành phần âm thanh của âm tiết

Theo GS Bang và cộng sự [I] số lượng âm tiết phát âm được của tiếng Việt là

18958 So với các các ngôn ngữ thông thường trên thế giới có số lượng âm tiết vào khoảng 3000-5000 Điều này cho thấy tiếng Việt có số lượng âm tiết rất lớn, và chính vì thế ít có hiện tượng đồng âm, ít gây trở ngại cho việc nhận diện âm tiết Theo [5],

trong tiếng Việt có 6 thanh điệu, 21 âm đầu và 155 phan vần và phần vần đóng vai trò khu biệt lớn hơn cả so với các yếu tố khác trong Bậc l Âm tiết

Thanh Âm đầu Phần vần | Bậc 1

Âm đệm Âm chính Âm duối | Bậc 2

Hình 1.7 Cấu trúc hai bậc của âm tiết tiếng Việt

1.5.2 Âm vị tiếng Việt

Âm vị là đơn vị đoạn tính nhỏ nhất có chức năng phân biệt nghĩa Về mặt xã hội của ngữ âm, trong số các âm vị trong lời nói của ngôn ngữ, ta có thể tập hợp một số lượng

có hạn những đơn vị mang những nét chung về cấu tạo âm thanh và về chức năng trong ngôn ngữ đó gọi là âm vị

Có một cản trở khi nghiên cứu âm vị tiếng Việt là chưa có một qui định chính thức

về pháp lý, hay một chuẩn chung của các nhà khoa học ngữ âm về một chuẩn tiếng Việt Có thể quan niệm tạm thời coi "tiếng Việt chuẩn như một thứ tiếng chung được

hình thành trên cơ sở tiếng địa phương của miền Bắc với trung tâm là Hà nội mà cách

Trang 29

1.5.2.1 Thanh điệu

Âm vị tiếng Việt có hai loại âm vị đoạn tính và âm vị siêu đoạn tính Âm vị đoạn tính là các đơn vị có thể chia cắt được trong chuỗi lời nói như nguyên âm, phụ âm Âm vị siêu đoạn tính là loại đơn vị không có âm đoạn tính, không độc lập tồn tại, nhưng

cũng có chức năng phân biệt nghĩa, nhận diện từ, đó là thanh điệu Đây là đặc điểm

riêng của tiếng Việt so với các ngôn ngữ Châu Âu Một số ngôn ngữ khác như tiếng

Hán, tiếng Thái cũng có đặc điểm này như tiếng Việt

Thanh điệu được hình thành bằng sự rung động của dây thanh, tuỳ theo sự rung đó

nhanh hay chậm, mạnh hay yếu, biến chuyển ra sao mà ta có các thanh điệu khác nhau

Thanh điệu tiếng Việt thuộc loại thanh lướt, có nghĩa là các thanh điệu phân biệt với

nhau bằng sự di chuyển cao độ từ thấp lên cao hay từ cao xuống thấp 5 4 3 2 1

Hình 1.8 Các thanh điệu tiếng Việt 1 Không dấu, 2 Huyền, 3 Ngã, 4 Hỏi, 5 Sắc, 6.Nặng

Theo các nhà ngôn ngữ học thì thanh điệu có ảnh hưởng bao chùm lên toàn bộ âm tiết, mặc dù gánh nặng chủ yếu tập trung ở phần vần Tiếng Việt có sáu thanh điệu Nếu

chia thang độ của giọng nói bình thường thành 5 bậc thì ta có thanh điệu tiếng Việt

được miêu tả như trong Hình 1.8 1.5.2.2 Âm đầu

Trong các sách giáo khoa tiếng Việt [2, 4, 5, 7], tiếng Việt có 21 âm vị là âm đầu

Các âm vị /p,r/ không được liệt kê là các âm vị đầu tiếng Việt và được coi là âm vị có

nguồn gốc từ ngơn ngữ nước ngồi Âm vị /?/, âm tắc thanh hầu được liệt kê trong một số sách giáo khoa tiếng Việt như một phụ âm đầu Trong những âm tiết như: ”ai, ơi, ăn, oản, uống, oanh, uyên” có hiện tượng khép khe thanh lúc mở đầu khi chúng được phát âm lên Tiếng bật do động tác mở khe thanh đột ngột được nghe rõ hoặc không rõ ở từng người, trong từng lúc, phụ thuộc vào phong cách và bối cảnh ngữ âm

Trang 30

Thừa nhận tồn tại âm tắc thanh hầu đưa đến xây dựng được một mô hình tổng quát của âm tiết tiếng Việt cân xứng hơn với ba thành tố luôn có mặt: thanh điệu, âm đầu, âm van [5]

1.5.2.3 Âm đệm

Âm đệm có chức năng tu chỉnh âm sắc của âm tiết lúc khởi đầu, làm trầm hoá âm tiết và khu biệt âm tiết này với âm tiết khác Khác với âm chính luôn nằm ở đỉnh âm tiết, âm đệm nằm ở đường cong đi lên của đỉnh âm tiết Âm đệm không xuất hiện trước

các nguyên âm tròn môi /u,o,2/, nó chỉ xuất hiện trước các nguyên âm hàng trước Độ mở của âm đệm phụ thuộc vào độ mở của các nguyên âm-âm chính đi sau

1.5.2.4 Âm chính

Âm chính là nguyên âm và có mặt trong mọi âm tiết qui định ăm sắc của âm tiết Âm chính tiếng Việt có tất cả 14 âm gồm 11 nguyên âm đơn và 3 nguyên âm đôi Âm

chính âm tiết có thể chia thành 4 nhóm :

— Nhóm nguyên âm đơn, hàng trước, không tròn môi Âm sắc của nhóm này thường là bổng Có thể dài và thể ngắn Thể ngắn có sự biến dạng ít nhiều về trường độ, âm sắc, cường độ, phát âm căng và ngắn

— Nhóm nguyên âm đơn, hàng sau tròn môi Âm sắc trầm Có thể dài và thể ngắn Sự

thể hiện thể ngắn có cấu âm không giữ đều

— Nhóm nguyên âm đơn, hàng sau, không tròn môi Âm sắc trầm vừa

— Nguyên âm đôi phát âm yếu dần, yếu tố đầu phát âm mạnh hơn yếu tố sau, do đó âm sắc của nguyên âm đôi là do yếu tố đầu quyết định Nguyên âm chỉ có một thể dài

và không bị biến dạng về âm sắc và trường độ

1.5.2.5 Âm cuối

Các âm cuối tiếng Việt có đặc điểm giống nhau là không buông (bộ phận cấu âm tiến đến vị trí cấu âm rồi giữ nguyên vị trí đó chứ không về vị trí cũ) Do đó có sự khác biệt lớn giữa âm /t/ trong phát âm hai từ

của không khí được khai thông sau khi bị cản trở bằng một động tác mở ra tạo thành at" và "ta" Trong khi phát âm từ "ta", lối thoát

Trang 31

Trong nhiều trường hợp phụ âm cuối hầu như chỉ là một khoảng im lặng Ví dụ như

âm vị /k/ trong từ "tác" Do vậy âm vị /k/ được nhận diện chủ yếu làm biến đổi âm sắc

của âm chính đi ở giai đoạn cuối

Bảng 1.2 Phân bố giữa nguyên âm âm chính và các âm đệm và bán nguyên âm cuối

Am Am phu Ban nguyén 4m cudi

chinh tại Ví dụ tại iil Vidu i + uy ie - iu + ué + = éu € + oe + eo de ei uyén # - yéu u - ui - + ui ° - ôi “ + ôi a - oi - + oi wy - uôi = + uôi w - - + + uu, ui * + quơ - + -, Oi ¥ + uân + + âu,ay a + oa + + ao,ai a + an + + au,ay wy - - + + ưu,ươi

Bán nguyên âm cũng không thường xuyên được thể hiện rõ rệt mà chỉ được nhận

diện bằng việc biến đổi âm sắc của âm chính Về mặt này thì bán nguyên âm còn có tác dụng mạnh hơn là phụ âm cuối

1.5.3 Sự phân bố của các âm vị tiếng Việt

Các âm tiết tiếng Việt có cấu trúc chặt chẽ và các âm vị trong tiếng Việt kết hợp với

nhau theo những qui luật Sau đây là Bảng 1.2 tổng kết sự phân bố giữa nguyên âm âm

chính và các âm đệm và bán nguyên âm cuối [4]

Trang 32

CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNG

NOI LIEN TUC SU DUNG HMM VA ANN Chương này tập trung trình bày các vấn đề lý thuyết của các phương pháp nhận dạng: mạng ANN và mô hình Markov ẩn và sự kết hợp giữa chúng Phần một trình

bày về giai đoạn đầu của hệ thống nhận dạng tiếng nói: các phương pháp xử lý tiếng

nói Phần hai trình bày về mô hình Markov ẩn, và ứng dụng trong nhận dạng tiếng nói Phần tiếp theo trình bày về mạng neuron nhân tạo, đặc biệt là mạng Perceptron đa lớp, loại mạng hay được sử dụng trong nhận dạng tiếng nói Phần thứ tư trình bày về phương pháp huấn luyện hệ thống nhận dạng liên tục dùng các kỹ thuật: mô hình Markov ẩn liên tục CD-HMM, mạng neuron nhân tạo ANN và hệ thống lai ghép HMM/ANN Phần cuối cùng trình bày về thuật toán giải mã trong các hệ thống nhận dạng liên tục

2.1 CÁC PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU TIẾNG NÓI

Phần này sẽ giới thiệu hai phương pháp được sử dụng rộng rãi trong các hệ thống nhận dạng hiện tại để tính toán các hệ số MEFCC (Mel Scale Frequency Cepstral Coefficients) và hệ số PLP (Perceptual Linear Prediction) Hai kỹ thuật xử lý tiếng nói RASTA (RelAtive SpecTral) và CMS (Cepstral Mean Subtraction) cũng được giới thiệu Đây là hai kỹ thuật loại bỏ nhiễu hay được sử dụng đặc biệt là trong

phát âm có nhiều nhiễu như các câu thu âm qua điện thoại

2.1.1 Phương pháp tinh hé sé MFCC

Hình 2.1 miêu tả các bước tính toán hệ số MFCC:

1) Nhấn mạnh tín hiéu (pre-emphasis) Trong bước xử lý đầu tiên này, tín hiệu được đưa qua một bộ lọc số:

-1 FL pye(Z) = 14 Gy 2

Trang 33

— Giọng nói có sự suy giảm khoảng 20dB/decade khi lên tần số cao do đặc điểm sinh lý của hệ thống phát âm của con người Bước xử lý này sẽ tăng cường tín hiệu lên một giá trị gần 20dB/decade để khắc phục sự suy giảm này,

—_ Hệ thống thính giác của con người nhạy cảm hơn với vùng tần số cao, bước xử lý này nhấn mạnh vùng tần số cao, trợ giúp cho quá trình mơ hình hố âm thanh sau này của hệ thống nhận dạng

Tín hiệu tiếng nói

JÌ

Nhấn mạnh Tạo khung tín Làm cửa sổ D DFT

(pre-emphasis) D hiệu (framing) B (windowing) 4L Lọc tần số Mel (Mel- frequency filtering) J1 Tính giá trị delta 6 Chinh gia tri O DCT 6 Logarit gia tri nang MFCC cepstral lượng Hệ số delta MFCC Hệ số MFCC

Hình 2.1 Các bước xử lý của phương pháp tính toán hệ số MFCC

2) Tạo khung tín hiệu (framing) Tín hiệu tiếng nói luôn luôn biến thiên theo thời gian, tuy nhiên trong khoảng thời gian khoảng 10-20ms, tín hiệu tiếng nói được coi là tương đối ổn định Do đó tín hiệu thường được chia thành các khung kích thước 20-30ms với vùng gối lên nhau khoảng 10-15 ms

3) _ Làm cửa số (frame windowing) Cửa số Hamming thường được áp dụng cho

mỗi khung tín hiệu để giảm sự tác động của việc chia khung tín hiệu:

2z(n-])

s„ ={0,54— 0,46cos( 3,

Trong đó N là số mẫu dữ liệu (sample) của cửa sổ

4) DFT (Discrete Fourier Transform) Tại bước này với mỗi khung tín hiệu, biến

đổi Fourier được áp dụng để chuyển về miền tần số Công việc tính toán được thực hiện bằng thuật toán FFT (Fast Fourier Transform)

Trang 34

5) Lọc theo thang tần số Mel (Mel-frequency bandpass filter) Cac b6 loc sé được áp dụng để lọc các tin hiệu theo các giải tần số khác nhau

Phản ứng của tai người với các thành phần của tần số là không tuyến tính Sự khác nhau về tần số ở vùng tần số thấp (<IKHz) dễ được nhận biết bởi con người hơn là ở vùng tần số cao Lọc theo thang tần số Mel mô phỏng tính chất này bằng cách dùng các bộ lọc được phân bố theo một hàm phi tuyến trong khoảng không gian tần số, thông thường là hàm Mel: Mel( f)= 2595log,.(1+ =) 6) Logarit giá trị năng lượng (logarit of filter energies) Cac gia trị năng lượng Ẩ & thu được tại mỗi kênh lọc được lấy logarit để “nén” các giá trị này vào một miền giá trị hẹp hơn

7) DCT (Discrete Cosin Transform)

Do giọng nói phát âm bởi con người có phổ khá trơn (smooth) trên miền tần số, do vậy các giá trị năng lượng của các bộ lọc gần nhau có sự tương quan (correlated) khá gần Bước xử lý này biến đổi các giá trị năng lượng thành các hệ số ít tương quan với nhau hơn, các hệ số này được gọi là hệ số cepstral

C= sm cos ey— 0,5)) i = 7 N

Trong đó N là số kênh lọc, zn, là giá trị logarit năng lượng của mạch lọc thứ /, ¡ là bậc của hệ số cepstral

8) Chỉnh các giá trị cepstral Giá trị cepstral bậc cao thường có giá trị rất thấp, so với các giá trị cepstral bậc thấp Sự khác biệt này gây khó khăn cho việc mô hình hoá dữ liệu, ví dụ như khi sử dụng các hàm mật độ xác suất Gauss Do đó

các hệ số cepstral được điều chỉnh lại (re-scaled) theo công thức: ce, =exp(n*k)c,

Sau bước hiệu chỉnh này ta thu được các giá trị MFCC

9) Tính giá trị delta MFCC Các giá trị delta của các hệ số MFCC được tính toán

Trang 35

iC}

d= Dip Cr09 —¢,.6)

t

230

Trong đó Ølà số khung tín hiệu lân cận được dùng (thông thường là 2)

Ngoài ra giá trị delta của delta (hay còn gọi là acceleration) cũng có thể được tính toán từ các giá trị delta dùng cùng một công thức như trên

2.1.2 Phương pháp tính hệ số PLP

Phương pháp PLP được phát triển dựa trên phương pháp mã hoá dự báo tuyến tính LPC (Linear Prediction Coding)

Phương pháp LPC hay còn gọi là mô hình hoá tự hồi qui (autoregression modeling) là phương pháp mô hình hoá tín hiệu bằng sự kết hợp tuyến tính các mẫu tín hiệu trước đó:

N

s(n) = -Yali)s(n —1)+e(n) i=l

trong đó ẤN là số hệ số hay là bậc của dự báo, các a(¡) là các hệ số dự báo tuyến

tinh (linear prediction coefficients), e(n) 1a ham 16i

Cac hé s6 a(i) dugc chon dé làm cực tiểu hàm lỗi dự báo trung bình bình phương

Có một vài phương pháp để tính các hệ số này: phương pháp dùng ma trận hiệp phương sai (covariance matrix), phương pháp tự tương quan (auto-correlation method), phương pháp lưới hay còn gọi là phương pháp điều hoà (lattice or harmonic) Phương pháp hay được áp dụng nhất trong nhận dạng tiếng nói là phương pháp tự tương quan dùng thuật toán đệ qui Levinson-Durbin

Thuật toán Levinson-Durbin như sau:

Tính p+1 các hệ số tự tương quan đầu tiên (p là bậc của dự báo tuyến tính) bằng công thức sau:

Trong đó s(n) là tín hiệu trong cửa số, N là số lượng mẫu trong cửa sổ Các hệ số sau đó được tính toán đệ qui như sau:

Trang 36

E® =r, i-l tr-3 2/3] k,)=——=qm—— ‘ me trong đó 1<¡<p a =k i a,=a;!-k,* aj, voi l< j<i-1 E®=(1-k?)g6-° Các bước trên được tính toán lặp với ¡=1,2, p Cuối cùng ta thu được các hệ số: a,=a'?) với l<j<p Phương pháp tính các hệ số PLP dựa vào phương pháp LPC Hình 2.2 miêu tả các bước xử lý tính toán hệ số PLP:

1) FFT Tương tự như phương pháp MECC, tín hiệu tiếng nói được chia thành

các khung tín hiệu và được biến đổi Fourier sang miền tần số bằng thuật toán FFT Tiếng nói FFT d Lọc tần số Bark (Bark ở Nhấn mạnh dùng hàm frequency filter) Equal-loudness

Luật cường độ nghe (power law of hearing)

Trang 37

2) Lọc theo thang tần số Bark Tương tự như phương pháp tính MECC, tín hiệu tiếng nói được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến, trong

trường hợp này là thang tần số Bark:

Bark( )=6Inf—/—+[( f +12) 1200 1200

3) Nhấn mạnh tín hiệu dùng hàm cqual-loudness Bước xử lý này tương tự như bước nhấn manh pre-emphasis của phương pháp MFCC Hàm này mô phỏng đường cong cân bằng độ ồn (equal-loudness curve)

(ø?+56,8*10%)ø*

@? +.6,3*10°)(@? + 0,38*10°)(w* + 9,58 * 10")

E(œ)= (a)="

4) Dùng luật cường độ nghe (power law of hearing) Bước xử ly nay giống như bước lấy giá trị logarit trong phương pháp MFCC Hàm căn bậc ba được sử dụng

để “nén” các giá trị năng lượng

O(f)= (Ff)?

5) Biến đổi Fourier ngược (inverse DFT) Các hệ số tự tương quan được biến đổi

Fourier ngược để sau đó dùng làm giá trị đầu vào cho phương pháp LPC

6) Thuật toán Durbin được sử dụng để tính toán các hệ số dự báo tuyến tính giống như trong phương pháp LPC

7) Tính các giá trị delta Phương pháp tính tương tự như phương pháp tính hệ số MECC

2.1.3 Các kỹ thuật khử nhiễu

2.1.3.1 Kỹ thuật CMS

Đây là một kỹ thuật thông dụng để khử nhiễu trong các hệ thống nhận dạng, được dùng kết hợp trong quá trình tính toán các đặc tính phổ của tiếng nói Phương pháp này dựa trên giả thiết là các đặc tính tần số của môi trường là thường xuyên cố định hoặc biến đổi chậm Các tham số cepstral của một phát âm được trừ đi giá trị trung bình của các tham số trong một khoảng thời gian nào đó và làm cho các giá trị

này ít bị ảnh hưởng bởi môi trường:

A 7

O(r) = O(t)- =r)

t=1

Trang 38

trong đó 7 là độ dài của vùng lấy giá trị trung bình, thường là độ dài của cả phát

âm

2.1.3.2 Kỹ thuật RASTA

RASTA là kỹ thuật lọc dựa trên giả thiết rằng các tính chất thời gian của các nhiễu là khác so với các tính chất thời gian của giọng nói Tốc độ thay đổi của các

thành phần không phải tiếng nói thường xuyên nằm ngoài tốc độ hoạt động của bộ

máy phát âm con người Bằng cách dùng bộ lọc số, kỹ thuật RASTA có thể loại bỏ

được một phần các nhiễu của môi trường và các nhiễu bổ sung bất thường khác Bộ

lọc dùng trong RASTA là:

0,2+0,1z!—0,2z2?—0,1z3

z= 1-0,94z

2.2_ MƠ HÌNH MARKOV ẨN

Phan này được dành để giới thiệu về mô hình Markov ẩn và ứng dụng của chúng

trong nhận dạng tiếng nói 2.2.1 Quá trình Markov

Xét sự tiến triển theo thời gian của một hệ thống nào đó (có thể là một hệ vật lý

hay hệ sinh thái, .), ký hiệu g, là vị trí của hệ tại thời điểm / Các vị trí có thể có được của hệ được gọi là không gian trạng thái, ký hiệu là S= ƒS;, S›, S;, .} Giả sử

tại thời điểm s hệ ở trạng thái S;, nếu xác suất để hệ ở trạng thái S; tai thoi điểm ¿

trong tương lai chỉ phụ thuộc vào s, ứ, Š,, Š; thì có nghĩa là sự tiến triển của hệ chỉ

phụ thuộc vào hiện tại và độc lập với quá khứ Ta gọi đó là tính Markov và hệ có

tính chất này được gọi là quá trình Markov

Nếu không gian trạng thái Š của hệ là đếm được thì ta gọi hệ là xích Markov Nếu thời gian / là rời rac t=0,1,2, thi ta có xích Markov rời rạc Ta có thể biểu diễn tính Markov của hệ bằng biểu thức sau :

P(g, = S;/ 41 = Sis Wz = Str) = P(g, = S;/ 4.1 = Sj)

Dat P(s,i,t,j) = P(q, = S; | q, = S;) la xdc suat dé hé tai thoi diém s 6 trang thai i,

dén thoi diém ¢ chuyén sang trang thai j Ta goi P(s,i,t,j) 1a x4c suat chuyén cia hé

Trang 39

P(s,i,t,j)= P(sth,i,tt+hj)

thì ta nói hệ là thuần nhất theo thời gian Bắt đầu từ đây ta chỉ xét xích Markov rời rạc và thuần nhất

Hình 2.3 Xích Markov với năm trạng thái S;, S;, , S; và các xác suất chuyển trạng thái

Hình 2.3 trình bày một ví dụ về mô hình xích Markov rời rạc và thuần nhất, trong đó hệ có thể ở một trong năm trạng thái S,, Š›, , Sy (trong vi du trén N=5)

Tại mỗi thời điểm 1=0,1,2, hé chuyển trạng thái theo xác suất chuyển trạng thai a;

tương ứng với mỗi trạng thái

a,= Pan = 5S, 14, = 5, )

N = aa

„ấy =l=L N 4a, 20;i,7=1,N

Ngoài ra ta định nghĩa xác suất trạng thái khởi đầu (initial state distribution) 2 =

(7, Z, Zxy}, trong đó 7, là xác suất để trạng thái ¡ được chọn tại thời điểm khởi

đầu /=l:

,=P(a¡=Š:)

i i=l!

Tr, >0;i=1,N

Quá trình Markov miêu tả ở trên được gọi là một mô hinh Markov quan sát được (observable Markov model) Đầu ra của quá trình là một tập các trạng thái tại các

Trang 40

thời điểm rời rạc liên tiếp nhau, trong đó mỗi trạng thái tương ứng với một sự kiện vật lý có thể quan sát được (observation event)

2.2.2 Mo hinh Markov an

Mô hình Markov ẩn là kết quả của mở rộng khái niệm từ mô hình Markov bằng cách mỗi trạng thái được gắn với một hàm phát xạ quan sát (observation distribution) Ngoai qua trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trạng thái còn có một quá trình ngẫu nhiên nữa đó là quá trình ngẫu nhiên sinh ra một quan sát Như vậy trong Mô hình Markov ẩn có một quá trình ngẫu nhiên kép, trong đó có một quá trình ngẫu nhiên không quan sát được Tập các quan sát Ó được sinh ra bởi dãy các trạng thái SŠ;, Š;, ŠS„ của mô hình, mà dãy các trạng thái này là không thấy được, đó chính là lý do mô hình được gọi là mô hình Markov ẩn (hidden) [31]

Một mô hình Markov ẩn được đặc trưng bởi các thành phần cơ bản sau :

1) N, số trạng thái (state) trong mô hình Markov Các trạng thái thường được ký hiệu bằng $= ($S;, Š;, Š;, .} và trạng thái của mô hình tại thời điểm được kí hiệu là q,

2) M số ký hiệu quan sát (observation symbol), đây là kích thước của bảng từ

vựng của mô hình Các ký hiệu quan sát được biểu diễn bằng V= ƒv¿, Vp, .}

3) A = {a,}, xác suất chuyển trạng thái (state transition probability distribution)

Trong đó a; là xác suất để trạng thái j xuất hiện tại thời điểm +! khi trạng thái i đã xuất hiện tại thời điểm /

đụ = P(q,¿¡ = Š; Í 4, = S;)

4) B=(b(k)} xác suất phát xạ quan sát trong mỗi trạng thái (observation symbol probability distribution in state) b(k) là xác suất của quan sát v¿ tại trạng thái / tại thời điểm /

Định dạng
Số trang	146
Dung lượng	37,23 MB