Thanh ngã bị tách đôi

Thang ngã có 4 biến điệu, đường nét bị gãy ở giữa thành 2 đoạn, phần hai đi lên và kết thúc cao. Nét gãy ở giữa phần lớn bị tách ra (hình 5.3), nhưng cũng có biến điệu mà trong đó nét gãy khơng bị đứt ra (hình 5.4). Điều đó chứng tỏ hiện tượng tắc họng ở giữa của thanh ngã khơng có tính chất bắt buộc.

Hiệu tần số cơ bản:

Nữ: Giữa E1 và A2–101Hz, Giữa E1và A1 – 5Hz, Giữa M1 và A1 – 22Hz, Giữa E2 và A2– 72Hz

Nam: Giữa E1 và A2– 160Hz Giữa E1và A1 – 39Hz Giữa M1 và A1 – 2Hz Giữa E2 và A2– 114Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (9 – 19) Hz, ở giọng nam

(19 – 59) Hz.

Âm vực: nữ (185 – 314) Hz, nam (128 – 308) Hz.

Giá trị trung bình của trường độ: nữ 277 ms , nam 291 ms. Giá trị phương sai của trường độ: nữ 63 ms, nam 25 ms.

5.2.5. Thanh 4 (Thanh hỏi)

Các tiếng được lựa chọn để khảo sát là:

ả, bảo, biển, cảnh, hẳn, khỉ, kiểm, điểm, lẻ, lửng, tổ, tổng, ảnh, sảnh, triển, ẩm, bổng, chổi, điểu, hiểu, lủng, lẳng, ngửa, phỏm, tỉnh, tiểu.

Hình 5.4: Thanh hỏi

Thanh hỏi có 3 biến điệu, đường nét ban đầu đi xuống rồi sau đó đi lên hoặc mạnh (thường gặp ở giọng nam) hoặc yếu (thường gặp ở giọng nữ).

- Giữa E và A: 13Hz - Giữa E và M 67Hz - Giữa M và A 54Hz Nam: - Giữa E và A: 7Hz - Giữa E và M : 29Hz - Giữa M và A: 36Hz

Giá trị phương sai của tần số cơ bản:

ở giọng nữ (5 – 27) Hz, ở giọng nam (8 – 49) Hz.

Âm vực: nữ (259 – 132) Hz, nam (159 – 83) Hz.

Giá trị trung bình của trường độ: nữ 336 ms , nam 347 ms. Giá trị phương sai của trường độ: nữ 80 ms, nam 31 ms.

5.2.6. Thanh 5 (Thanh sắc)

Trường hợp A:

Các tiếng được lựa chọn để khảo sát là:

Cấu, chí, cứu, hóa, lớn. nó, phố, thứ, tính, bá, có, giống, lắm, lối, nhóm, tá, ứng, bái, bán, chó, cứng, ngó, khí, thí, yếu, chứng, tố, trấn, ví, nghé.

Hình 5.5a. Thanh sắc (trường hợp a) Hiệu tần số cơ bản: nữ 95Hz, nam 141Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (5 – 27) Hz, ở giọng nam

Âm vực: nữ (174 – 301) Hz, nam (113 – 224) Hz.

Giá trị trung bình của trường độ: nữ 277 ms , nam 291 ms. Giá trị phương sai của trường độ: nữ 80 ms, nam 35 ms.

Trường hợp B:

Các tiếng được khảo sát là:

Hót, mát, tát, xát, xuất, bức, cát, phác, thướt, tót, các, bút, trích, nhích, pháp, thấp, chất, khác, quốc, tháp, thức.

Hình 5.5b: Thanh sắc (trường hợp b)

Thanh sắc có 4 biến điệu, đường nét bằng phẳng hoặc lên gấp và ngắn.

Hiệu tần số cơ bản: nữ 60Hz, nam 104Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (10 – 30) Hz, ở giọng nam

(10 – 43) Hz.

Âm vực: nữ (224 – 316) Hz, nam (143 – 274) Hz.

Giá trị trung bình của trường độ: nữ 105 ms , nam 104 ms. Giá trị phương sai của trường độ: nữ 49 ms, nam 45 ms.

5.2.7. Thanh 6 (Thanh nặng)

Trường hợp A:

Các tiếng được lựa chọn để khảo sát là:

Cộ, đoạn, dụng, giận, gọi, loại, trọng, vẹn, động, lạnh, thượng, mạ, ngoại, tạ, vị, hạo, mạnh, mạo, thị, vậy, vị, điệu, định, dụ, hiện, phụ, tạn, tạo.

Hình 5.6a: thanh nặng (trường hợp a) Hiệu tần số cơ bản: nữ 53Hz, nam 71Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (8 – 22) Hz, ở giọng nam

(23 – 35) Hz.

Âm vực: nữ (252 – 151) Hz, nam (166 – 85) Hz.

Giá trị trung bình của trường độ: nữ 214 ms , nam 204 ms. Giá trị phương sai của trường độ: nữ 63 ms, nam 45 ms.

Trường hợp B:

Các tiếng được lựa chọn để khảo sát là:

Gặp, một, đạt, được, nhật, bật, bặt, thuật, đặt, đọc, nhạc, việt, thạch, lực, cập.

Hình 5.6b: Thanh nặng (trường hợp b) Hiệu tần số cơ bản: nữ 33Hz, nam 42Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (13 – 24) Hz, ở giọng nam

Âm vực: nữ (247 – 163) Hz, nam (156 – 95) Hz.

Giá trị trung bình của trường độ: nữ 145 ms , nam 116 ms. Giá trị phương sai của trường độ: nữ 67 ms, nam 39 ms.

Thanh nặng có 5 biến điệu, đường nét nói chung đi xuống rất gấp và ngắn. Nhận xét:

Quá trình vận động của tần số cơ bản của các thanh điệu được chia làm 2 phần:

- Phần ổn định: Phần ổn định là sự vận động của tần số cơ bản ở phần vần của âm tiết với tư cách là yếu tố mang những dấu hiệu khu biệt âm vị học chủ yếu của các thanh điệu.

- Phần động: Phần động là sự vận động của tần số cơ bản của phụ âm đầu hữu thanh trong các âm tiết.

Nếu phần ổn định của thanh điệu được xem như là trung tâm và phần động được xem như là ngoại biên thì người ta có thể nhận thấy tính chất động của phần ngoại biên là một yếu tố rất quan trọng, đóng vai trò như một vùng đệm đảm bảo tính ổn định cho những đặc trưng ngữ âm cơ bản và chức năng khu biệt âm vị học của các thanh điệu.

Trong khuôn khổ luận văn, chúng tôi chỉ nghiên cứu đến phần chủ yếu quyết định thanh điệu, tức là xem như thanh điệu nằm ở phần vần của âm tiết.

Qua khảo sát, kết quả về âm vực của các thanh như sau: - Nhóm cao: ngã, sắc

- Nhóm thấp: ngang, huyền, hỏi, ngã, nặng.

- Riêng thanh ngã, vì sự biến đổi của nó chạy dài từ vùng tần số thấp đến vùng tần số cao, nên chúng tôi xếp thanh ngã vào cả hai lớp. Sự phân lớp này được ứng dụng vào mơ đun phân lớp tiếng nói trong nhận dạng tiếng Việt.

Kết quả về trường độ của các thanh như sau: - Nhóm dài: ngang, huyền, hỏi, ngã, sắc - Nhóm ngắn: sắc, nặng.

hai dạng của thanh nặng đều có trường độ ngắn. Còn dạng (b) của thanh sắc (trong trường hợp âm tắc) cũng thuộc dạng ngắn trong khi dạng (a) của thanh sắc vẫn thuộc dạng có trường độ dài.

5.3 Giải pháp nhận dạng tiếng Việt theo mơ hình âm vị

Mặc dù trong tiếng Việt số tiếng là giới hạn (chỉ khoảng 7000-8000 tiếng), nhưng nếu đứng ở góc độ nhận dạng tiếng nói thì số lượng đó là đáng kể. Do đó, khả năng ứng dụng mơ hình âm vị vào trong tiếng Việt để cho có thể tăng số từ trong bộ từ vựng hệ thống nhận dạng là rất đáng xem xét.

Ở đây, sau khi xem xét, tôi nhận thấy mặc dù thanh điệu ảnh hưởng toàn bộ tiếng trong Tiếng Việt, nhưng nó ảnh hưởng lớn nhất vẫn là ở các nguyên âm. Do đó, ta có một giải pháp cho việc nhận dạng theo mơ hình âm vị đơn giản hóa về vấn đề thanh điệu như sau:

Một giải pháp cho việc áp dụng mơ hình âm vị vào nhận dạng Tiếng Việt:

Ta xét các âm vị bao gồm các dạng sau:

- Các phụ âm bao gồm: b, d, đ, g, h, k, l, m, n, p, r, s, t, v, x, ch, th, kh, qu, nh - Các nguyên âm bao gồm cả dấu thanh điệu: a, á, à, ả, ạ, ã, â, ấ, ầ, ẫ,

ẩ, ậ, ă, ằ, ắ, ẳ, ẵ, ặ, e, é, è, ẻ, ẽ, ẹ, ê, ế, ề, ể, ễ, ệ, i, í, ì, ỉ, ĩ, ị, o, ó, ò, ỏ,

õ, ọ, ô, ố, ồ, ổ, ỗ, ộ, ơ, ớ, ờ, ở, ỡ, ợ, u, ú, ù, ủ, ũ, ụ, ư, ứ, ừ, ử, ữ, ự, ai, ái, ải, ãi, ại….

Cấu trúc nhận dạng theo mơ hình âm vị sẽ dùng mơ hình HMM trái phải, mỗi âm vị là một mơ hình. Chúng ta thấy mặc dù đã đơn giản hóa mơ hình âm vị nhưng số lượng mơ hình HMM vẫn là quá lớn và không mang lại hiệu quả cần thiết.

Như vậy chúng ta vẫn sẽ sử dụng mơ hình nhận dạng ngun từ mà không phân tách âm vị, mỗi một từ sẽ là một mơ hình HMM. Và khi đó, nhận dạng thanh điệu cho các từ là khâu không thể thiếu của hệ thống nhận dạng.

5.4 Xây dựng mô hình nhận dạng thanh điệu tiếng Việt

Hình 5.8 Mơ hình nhận dạng thanh điệu tiếng Việt (a) cơng đoạn huấn luyện, (b) công đoạn nhận dạng. công đoạn nhận dạng.

5.4.1 Khối tiền xử lý

Tiếng nói được thu qua micro trong mơi trường thực có nhiễu nên cần phải được xử lý triệt nhiễu và nâng cao chất lượng. Phương pháp sử dụng là phương pháp triệt nhiễu dùng biến đổi wavelet cải tiến (Xem 4.3.2).

Trong công thức 4.9 hằng số tỷ lệ  được chọn bằng thực nghiệm là 0.38, q = 0.2, độ dài tương ứng của khung Lfrm và đoạn Lseg cũng được chọn bằng thực nghiệm là 64ms và 512ms.

Trong công thức 4.12 để đơn giản chọn  = 0.5

Sau khi được triệt nhiễu, tín hiệu tiếng nói sẽ được phân đoạn thành các khung chồng lấp, tiếp theo đó sẽ được nhân với cửa sổ Hamming 512 điểm để làm trơn phần đầu và cuối khung (Xem 2.2.1.2, 2.2.1.3).

5.4.2 Khối trích chu kỳ pitch

Như đã khảo sát trong phần 5.2, yếu tố chủ yếu ảnh hưởng đến thanh điệu là tần số cơ bản F0 nên giá trị này cần phải được xác định trong mỗi khung tiếng nói.

Hình 5.9: Tín hiệu tuần hồn của ngun âm [o] trong tiếng ‘hỏi’

F0 được trích theo phương pháp dùng CWT (Xem 4.5.2).

5.4.3 Tạo vector đặc trưng V(F0)

Trong nhận dạng tiếng Trung Quốc (Mandarin), Yang et all định nghĩa vector đặc trưng như sau:

bản F0 chúng tôi sử dụng vector đặc trưng cải tiến từ vector Mandarin có 10 thành phần như sau:

Cơng thức 5.2

Trong đó:

- ft là tần số cơ bản tại khung tín hiệu t. - ft+1 là tần số cơ bản tại khung tín hiệu t+1 - et là năng lượng tại khung tín hiệu t

- emax là năng lượng cực đại trong phần hữu thanh - d là chiều dài của phần hữu thanh (tính bằng số khung) - fmax là tần số cơ bản cực đại trong vùng hữu thanh - fmin là tần số cơ bản cực tiểu trong vùng hữu thanh

- fst là tần số cơ bản ở khung đầu tiên trong vùng hữu thanh - fed là tần số cơ bản ở khung cuối cùng trong vùng hữu thanh

5.4.4. Huấn luyện cho mơ hình

Trong mơ hình nhận dạng thanh điệu tiếng việt chúng tôi sử dụng 8 mơ hình MM tương ứng cho 6 thanh điệu. Ở đây chúng tôi sử dụng 8 mơ hình vì thanh có 5 có trường hợp là 5a và 5b, thanh 6 có 2 trường hợp là thanh 6a và 6b.

Hình 5.10: Quá trình khởi tạo các tham số

Các tham số của mơ hình được khởi tạo theo thuật tốn sau:

- Với mỗi mơ hình, lấy tất cả các vector đặc trưng ứng với mơ hình này

- Tất cả các vector được chia thành các đoạn bằng nhau tuỳ vào số trạng thái của mơ hình.

- Ta tính các tham số thống kê (giá trị trung bình và phương sai) cho mỗi đoạn tương ứng với một trạng thái trong mơ hình.

Sử dụng thuật toán Viterbi để phân đoạn lại, sau đó tính tốn các tham số thống kê và cập nhật trở lại mơ hình.

- Lặp lại bước cuối cho đến khi hội tụ.

5.4.5 Nhận dạng

Hình 5.11: Sơ đồ khối hệ nhận dạng thanh điệu tiếng Việt

Tín hiệu tiếng nói sau khi đã qua tiền xử lý, trích tần số cơ bản, tạo các vector đặc trưng dựa vào vector V(F0). Các vector đặc trưng này được đưa qua một bộ nhận dạng (sử dụng thuật tốn Viterbi để tìm ra chuỗi trạng thái có xác suất lớn nhất) và đầu ra là kết quả nhận dạng. Tuy nhiên, vì thanh 5 và thanh 6 được chia thành 2 trường hợp, nên đến đây vẫn chưa phải là kết quả cuối cùng, ta phải dựa vào 2 luật sau để quyết định:

- nếu là thanh 5a hay thanh 5b đều quyết định là thanh 5 (thanh sắc) - nếu là thanh 6a hay 6b đều quyết định là thanh 6 (thanh nặng)

5.5 Các kết quả nhận dạng thanh điệu

Sử dụng mơ Hình HMM 6 trạng thái, bỏ phần bắt đầu 10%, nhận dạng 8 mơ hình cho 8 thanh (mỗi thanh sắc và nặng chia thành 2 trường hợp) , sau đó dùng luật quyết định để đưa ra kết luận cho 6 thanh.

Tách riêng huấn luyện 100 mẫu, test 100 mẫu đối với nhận dạng 6 thanh :

Kết quả:

Kết quả nhận dạng hệ thống nhận dạng thanh điệu cài đặt trên phần mềm MATLAB 7.0.1

Đúng 114 tiếng (95 %); Sai 5 tiếng (5 %)

Ngang Huyền Ngã Hỏi Sắc Nặng Tỉ lệ đúng Ngang 20 100 % Huyền 20 100 % Ngã 18 2 90 % Hỏi 1 18 1 90 % Sắc 1 1 18 90 % Nặng 20 100 %

Chương 6. XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT NGUYÊN TỪ RỜI RẠC HOÀN CHỈNH

6.1. Phương pháp sử dụng 6.1.1. Tổng quát 6.1.1. Tổng quát

Trong chương 5, chúng ta đã xây dựng hệ thống nhận dạng thanh điệu tiếng Việt với độ chính xác 95 %. Đó là một tỉ lệ khá cao so với các nghiên cứu về nhận dạng thanh điệu tiếng Việt. Tuy nhiên tỉ lệ này vẫn chưa đủ để ứng dụng trong một hệ nhận dạng tiếng Việt hoàn chỉnh.

Việc phân lớp thanh điệu thành 2 lớp thanh cao và thanh thấp đạt độ chính xác 99.8 % là rất cao. Vì vậy, chúng tôi ứng dụng modul nhận dạng thanh điệu vào việc phân lớp. Nhờ đó có thể nâng được số lượng từ trong từ điển lên đáng kể mà vẫn giữ được độ chính xác cao.

Hình 6.1 Mơ hình tổng qt;(a) cơng đoạn huấn luyện; (b) cơng đoạn nhận dạng

6.1.2 Tiền xử lý

Tiếng nói được xử lý giống như trong hệ thống nhận dạng thanh điệu (Xem 5.3.1)

6.1.3 Huấn luyện mẫu

Bộ dữ liệu sau khi thu, được tạo thành 2 bộ từ điển tương ứng với 2 lớp thanh điệu: thanh cao và thanh thấp. Trong đó bộ từ điển thanh cao gồm: thanh sắc và thanh ngã, bộ từ điển thanh thấp gồm: thanh ngang (thanh không dấu), thanh huyền, thanh ngã, thanh hỏi, thanh nặng, thanh ngã. Ở đây chúng tôi phân thanh ngã ở cả hai từ điển, bởi vì:

- Theo tài liệu thống kê của I. S. Bystrov và M. V. Gordina (1976) thì tần số xuất hiện của thanh ngã là thấp nhất trong các thanh (chỉ 7%).

- Thanh ngã là thanh nếu chỉ phân lớp vào lớp thanh cao thì làm cho tỉ lệ nhận dạng đúng bị giảm xuống và ngược lại, vì sự biến đổi của nó chạy dài từ vùng tần số thấp đến vùng tần số cao.

Do đó cách giải quyết của chúng tôi là đưa thanh ngã vào cả hai bộ từ điển. Tín hiệu tiếng nói sau khi qua các bước tiền xử lý được tiến hành rút trích đặc trưng. Tất cả dãy dữ liệu của tín hiệu được phân khung và dùng SCWT phân tích thành các vector đặc trưng.

Các vector đặc trưng này sẽ được dùng để huấn luyện. Kết quả huấn luyện là các mơ hình HMM cho các từ theo từng lớp từ điển. Ứng với mỗi lớp từ điển, chúng ta có một bộ các mơ hình HMM.

Để sử dụng việc phân lớp, chúng tôi sử dụng đặc trưng F0. Theo khảo sát của luận văn, thanh điệu tiếng Việt được chia làm hai lớp phân tách nhau bỡi thanh ngang. Do đó, dữ liệu đưa vào sau khi tiền xử lý, chúng tôi tách riêng các từ thanh ngang đem trích F0. Giá trị trung bình của F0 của các thanh ngang sẽ là giá trị ngưỡng phân lớp. Giá trị này sẽ được cộng thêm P trong quá trình phân lớp, (P là phương sai của F0).

6.1.4 Công đoạn nhận dạng

Sau khi huấn luyện mẫu, ta sẽ có các bộ từ điển tương ứng với các lớp. Nếu mơ hình HMM nhận dạng được X tiếng, và giả sử ta có thể phân các tiếng thành A lớp; như vậy tổng số từ vựng ta có thể nhận dạng được sẽ tăng lên khoảng ~ X*A tiếng.

Hình 6.3: Cơng đoạn nhận dạng

Bắt đầu cơng đoạn nhận dạng, tín hiệu tiếng nói sẽ được đưa qua bộ xác định lớp thanh điệu. Tại đây các cơng việc trích pitch và phân lớp sẽ được tiến hành.

Sau khi đã xác định được lớp, chương trình sẽ lấy bộ từ vựng tương ứng của lớp đó lên để tiến hành việc nhận dạng từ. Như vậy, thay vì phải nhận dạng X*A từ (sẽ vượt q khả năng của mơ hình HMM), chúng ta chỉ cần nhận dạng A từ của lớp thứ Xi.

Tóm lại, cơng đoạn nhận dạng ở đây chúng tơi chia làm hai bước:

Lý thuyết nhận dạng tiếng nói

Minh họa hoạt động bộ lọc IIR