Một số đặc trưng ngữ âm tiếng Việt

Một phần của tài liệu Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn (Trang 92)

5.1.1. Thanh điệu

Thanh điệu là đặc tính đặc trưng của tiếng Việt nói riêng và các ngôn ngữ có thanh điệu nói chung so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp,…

Thanh điệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phân biệt các từ đồng âm.

Trong tiếng Việt, thanh điệu cũng là một đặc điểm mang đậm tính địa phương. Tổng cộng có 6 thanh, nhưng tuỳ vào từng địa phương mà số lượng thanh điệu tiếng Việt có thể bị giảm xuống còn 5 hay 4 do sự sát nhập một số thanh lại với nhau.

Người ta phân biệt thanh điệu dựa vào 2 yếu tố: âm điệu và âm vực. Âm vực: là miền giá trị của tần số cơ bản còn âm điệu là sự thay đổi tần số cơ bản của thanh điệu, hay đường nét của thanh điệu.

5.1.2. Âm vị

Trong ngôn ngữ nói, tiếng nói bao gồm nhiều câu, mỗi câu bao gồm nhiều từ, và mỗi từ lại bao gồm nhiều âm vị. Theo quan điểm ngữ âm, âm vị được xem là đơn vị nhỏ nhất của tiếng nói. Âm vị gồm 2 loại chính: nguyên âm và phụ âm. Nguyên âm là các âm mà khi phát âm, luồng không khí đi ra không bị cản trở. Phụ âm là các âm mà luồng không khí khi đi ra bị cản trở ở một số bộ phận của bộ máy phát âm.

Ngoài ra, người ta còn chia một dạng âm vị nữa như một bán nguyên âm, khi sự cản trở luồng không khí là không đáng kể. Các bán nguyên âm có đặc điểm gần như nguyên âm nhưng thường chỉ đi kèm, và bản thân không tạo thành âm tiết được.

Các nguyên âm và phụ âm riêng biệt lại được chia thành nhiều nhóm nhỏ dựa vào các đặc điểm vật lý, sinh học, hay vị trí và cách thức phát âm của bộ máy phát âm.

5.1.3. Trường độ

Trường độ tiếng nói là thời gian phát âm một tiếng. Xét đến trường độ sẽ liên quan đến tính tắc – xát, hệ thống âm chính – âm cuối, ảnh hưởng của những biến đổi của âm cuối… Thường thì âm tắc, còn gọi là âm khép, sẽ làm cho trường độ của tiếng nói giảm do sự tắc thanh quản.

5.2 Một số khảo sát về thanh điệu tiếng Việt 5.2.1 Tổng quan 5.2.1 Tổng quan

Các thông số cơ bản của thanh điệu bao gồm: tần số cơ bản, cường độ, và trường độ. Tuy nhiên, khác với tần số cơ bản và trường độ, cường độ không đóng vai trò chủ yếu đối với việc xác định những đặc trưng của thanh điệu. Tuỳ theo ngữ cảnh và những sắc thái tình cảm trong giao tiếp bằng ngôn ngữ cường độ có thể bị biến đổi. Do đó, đặc trưng này thuộc ngữ điệu câu, và chỉ là một hiện tượng đi kèm với thanh điệu. Khi miêu tả tần số cơ bản, hai thuộc tính ngữ âm ảnh hưởng trực tiếp đến các đặc trưng của thanh điệu là: sự vận động của F0 và âm vực. Đường nét của tần số cơ bản thể hiện như một hàm thời gian, chỉ tồn tại trong âm hữu thanh. Âm vực là độ cao tương đối của tần số cơ bản trong sự vận động của nó. Trường độ của thanh điệu là hàm thời gian của tần số cơ bản trong một âm tiết. Tần số cơ bản chỉ tồn tại trong các âm hữu thanh, phản ánh trực tiếp trường độ của thanh điệu. Do đó, trường độ của thanh điệu không phải bao giờ cũng trùng với trường độ của âm tiết.

Sự vận động tần số cơ bản của thanh điệu trong từng âm tiết được phân chia thành 2 giai đoạn. Riêng thanh 3 (thanh ngã) có trường hợp bị gián đoạn thành 2 phần. Gọi các điểm mốc là: điểm đầu(E), điểm giữa(M), điểm cuối(A). Thanh ngã khi bị gián đoạn có 6 điểm mốc.

5.2.2 Thanh 1 (thanh ngang)

Cao, đan, nam, vương, lê, nguyên, an, bông, cơm, dương, em, hoa, kênh, mai, linh, phong, ông, rang, siêu, tâm, xin, vinh.

Hình 5.1 Thanh ngang

Thanh ngang có 4 biến điệu, nhưng nhìn chung đường nét cơ bản là ngang và bằng phẳng.

Hiệu tần số cơ bản <10Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (8 – 16) Hz, ở giọng nam (20 – 24) Hz.

Âm vực: nữ (271 – 296) Hz, nam (239 – 251) Hz.

Giá trị trung bình của trường độ: nữ 423 ms , nam 266 ms.

Giá trị phương sai của trường độ: nữ 83 ms, nam 39 ms.

5.2.3 Thanh 2 (Thanh huyền)

Các tiếng được lựa chọn để khảo sát là:

Vì, từ, trò, ke, cừ, và, trì, bà, lời, bồng, cồn, đầm, dầu, hàng, khùng, làn, người, miền, ồn, phình, rằng, sàm, tình, thừng, triều, vừa.

Thanh huyền có 3 biến điệu, nhưng đường nét nói chung đi xuống đều đặn, bằng phẳng.

Hiệu tần số cơ bản: nữ 42Hz, nam 53Hz

Giá trị phương sai của tần số cơ bản: ở giọng nữ (6 – 11) Hz, ở giọng nam (9 – 16) Hz.

Âm vực: nữ (163 – 256) Hz, nam (122 – 175) Hz.

Giá trị trung bình của trường độ: nữ 396 ms , nam 304 ms.

Giá trị phương sai của trường độ: nữ 87 ms, nam 45 ms.

5.2.4 Thanh 3 (Thanh ngã)

Các tiếng được lựa chọn để khảo sát là:

Chữ, dĩ, chuỗi, dãy, hãy, mỗi, ngã, ngữ, nhiễu, những, rõ, tiễn, sẽ, nghĩa, nghĩ, lũi, ĩ, giữa, dỗ, chữ, đỗ, lưỡi, mũi, nguyễn, quẫy, vẫn, mãi, quãng, diễn.

Hình 5.3a: Thanh ngã bị tách đôi

Thang ngã có 4 biến điệu, đường nét bị gãy ở giữa thành 2 đoạn, phần hai đi lên và kết thúc cao. Nét gãy ở giữa phần lớn bị tách ra (hình 5.3), nhưng cũng có biến điệu mà trong đó nét gãy không bị đứt ra (hình 5.4). Điều đó chứng tỏ hiện tượng tắc họng ở giữa của thanh ngã không có tính chất bắt buộc.

Hiệu tần số cơ bản:

Nữ: Giữa E1 và A2–101Hz, Giữa E1và A1 – 5Hz, Giữa M1 và A1 – 22Hz, Giữa E2 và A2– 72Hz

Nam: Giữa E1 và A2– 160Hz Giữa E1và A1 – 39Hz Giữa M1 và A1 – 2Hz Giữa E2 và A2– 114Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (9 – 19) Hz, ở giọng nam (19 – 59) Hz.

Âm vực: nữ (185 – 314) Hz, nam (128 – 308) Hz.

Giá trị trung bình của trường độ: nữ 277 ms , nam 291 ms.

Giá trị phương sai của trường độ: nữ 63 ms, nam 25 ms.

5.2.5. Thanh 4 (Thanh hỏi)

Các tiếng được lựa chọn để khảo sát là:

ả, bảo, biển, cảnh, hẳn, khỉ, kiểm, điểm, lẻ, lửng, tổ, tổng, ảnh, sảnh, triển, ẩm, bổng, chổi, điểu, hiểu, lủng, lẳng, ngửa, phỏm, tỉnh, tiểu.

Hình 5.4: Thanh hỏi

Thanh hỏi có 3 biến điệu, đường nét ban đầu đi xuống rồi sau đó đi lên hoặc mạnh (thường gặp ở giọng nam) hoặc yếu (thường gặp ở giọng nữ).

- Giữa E và A: 13Hz - Giữa E và M 67Hz - Giữa M và A 54Hz Nam: - Giữa E và A: 7Hz - Giữa E và M : 29Hz - Giữa M và A: 36Hz

Giá trị phương sai của tần số cơ bản:

ở giọng nữ (5 – 27) Hz, ở giọng nam (8 – 49) Hz.

Âm vực: nữ (259 – 132) Hz, nam (159 – 83) Hz.

Giá trị trung bình của trường độ: nữ 336 ms , nam 347 ms.

Giá trị phương sai của trường độ: nữ 80 ms, nam 31 ms.

5.2.6. Thanh 5 (Thanh sắc)

Trường hợp A:

Các tiếng được lựa chọn để khảo sát là:

Cấu, chí, cứu, hóa, lớn. nó, phố, thứ, tính, bá, có, giống, lắm, lối, nhóm, tá, ứng, bái, bán, chó, cứng, ngó, khí, thí, yếu, chứng, tố, trấn, ví, nghé.

Hình 5.5a. Thanh sắc (trường hợp a) Hiệu tần số cơ bản: nữ 95Hz, nam 141Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (5 – 27) Hz, ở giọng nam (19 – 31) Hz.

Âm vực: nữ (174 – 301) Hz, nam (113 – 224) Hz.

Giá trị trung bình của trường độ: nữ 277 ms , nam 291 ms.

Giá trị phương sai của trường độ: nữ 80 ms, nam 35 ms.

Trường hợp B:

Các tiếng được khảo sát là:

Hót, mát, tát, xát, xuất, bức, cát, phác, thướt, tót, các, bút, trích, nhích, pháp, thấp, chất, khác, quốc, tháp, thức.

Hình 5.5b: Thanh sắc (trường hợp b)

Thanh sắc có 4 biến điệu, đường nét bằng phẳng hoặc lên gấp và ngắn.

Hiệu tần số cơ bản: nữ 60Hz, nam 104Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (10 – 30) Hz, ở giọng nam (10 – 43) Hz.

Âm vực: nữ (224 – 316) Hz, nam (143 – 274) Hz.

Giá trị trung bình của trường độ: nữ 105 ms , nam 104 ms.

Giá trị phương sai của trường độ: nữ 49 ms, nam 45 ms.

5.2.7. Thanh 6 (Thanh nặng)

Trường hợp A:

Các tiếng được lựa chọn để khảo sát là:

Cộ, đoạn, dụng, giận, gọi, loại, trọng, vẹn, động, lạnh, thượng, mạ, ngoại, tạ, vị, hạo, mạnh, mạo, thị, vậy, vị, điệu, định, dụ, hiện, phụ, tạn, tạo.

Hình 5.6a: thanh nặng (trường hợp a) Hiệu tần số cơ bản: nữ 53Hz, nam 71Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (8 – 22) Hz, ở giọng nam (23 – 35) Hz.

Âm vực: nữ (252 – 151) Hz, nam (166 – 85) Hz.

Giá trị trung bình của trường độ: nữ 214 ms , nam 204 ms.

Giá trị phương sai của trường độ: nữ 63 ms, nam 45 ms.

Trường hợp B:

Các tiếng được lựa chọn để khảo sát là:

Gặp, một, đạt, được, nhật, bật, bặt, thuật, đặt, đọc, nhạc, việt, thạch, lực, cập.

Hình 5.6b: Thanh nặng (trường hợp b) Hiệu tần số cơ bản: nữ 33Hz, nam 42Hz.

Giá trị phương sai của tần số cơ bản: ở giọng nữ (13 – 24) Hz, ở giọng nam (20 – 26) Hz.

Âm vực: nữ (247 – 163) Hz, nam (156 – 95) Hz.

Giá trị trung bình của trường độ: nữ 145 ms , nam 116 ms.

Giá trị phương sai của trường độ: nữ 67 ms, nam 39 ms.

Thanh nặng có 5 biến điệu, đường nét nói chung đi xuống rất gấp và ngắn. Nhận xét:

Quá trình vận động của tần số cơ bản của các thanh điệu được chia làm 2 phần:

- Phần ổn định: Phần ổn định là sự vận động của tần số cơ bản ở phần vần của âm tiết với tư cách là yếu tố mang những dấu hiệu khu biệt âm vị học chủ yếu của các thanh điệu.

- Phần động: Phần động là sự vận động của tần số cơ bản của phụ âm đầu hữu thanh trong các âm tiết.

Nếu phần ổn định của thanh điệu được xem như là trung tâm và phần động được xem như là ngoại biên thì người ta có thể nhận thấy tính chất động của phần ngoại biên là một yếu tố rất quan trọng, đóng vai trò như một vùng đệm đảm bảo tính ổn định cho những đặc trưng ngữ âm cơ bản và chức năng khu biệt âm vị học của các thanh điệu.

Trong khuôn khổ luận văn, chúng tôi chỉ nghiên cứu đến phần chủ yếu quyết định thanh điệu, tức là xem như thanh điệu nằm ở phần vần của âm tiết.

Qua khảo sát, kết quả về âm vực của các thanh như sau: - Nhóm cao: ngã, sắc

- Nhóm thấp: ngang, huyền, hỏi, ngã, nặng.

- Riêng thanh ngã, vì sự biến đổi của nó chạy dài từ vùng tần số thấp đến vùng tần số cao, nên chúng tôi xếp thanh ngã vào cả hai lớp. Sự phân lớp này được ứng dụng vào mô đun phân lớp tiếng nói trong nhận dạng tiếng Việt.

Kết quả về trường độ của các thanh như sau: - Nhóm dài: ngang, huyền, hỏi, ngã, sắc - Nhóm ngắn: sắc, nặng.

hai dạng của thanh nặng đều có trường độ ngắn. Còn dạng (b) của thanh sắc (trong trường hợp âm tắc) cũng thuộc dạng ngắn trong khi dạng (a) của thanh sắc vẫn thuộc dạng có trường độ dài.

5.3 Giải pháp nhận dạng tiếng Việt theo mô hình âm vị

Mặc dù trong tiếng Việt số tiếng là giới hạn (chỉ khoảng 7000-8000 tiếng), nhưng nếu đứng ở góc độ nhận dạng tiếng nói thì số lượng đó là đáng kể. Do đó, khả năng ứng dụng mô hình âm vị vào trong tiếng Việt để cho có thể tăng số từ trong bộ từ vựng hệ thống nhận dạng là rất đáng xem xét.

Ở đây, sau khi xem xét, tôi nhận thấy mặc dù thanh điệu ảnh hưởng toàn bộ tiếng trong Tiếng Việt, nhưng nó ảnh hưởng lớn nhất vẫn là ở các nguyên âm. Do đó, ta có một giải pháp cho việc nhận dạng theo mô hình âm vị đơn giản hóa về vấn đề thanh điệu như sau:

Một giải pháp cho việc áp dụng mô hình âm vị vào nhận dạng Tiếng Việt:

Ta xét các âm vị bao gồm các dạng sau:

- Các phụ âm bao gồm: b, d, đ, g, h, k, l, m, n, p, r, s, t, v, x, ch, th, kh, qu, nh - Các nguyên âm bao gồm cả dấu thanh điệu: a, á, à, ả, ạ, ã, â, ấ, ầ, ẫ,

ẩ, ậ, ă, ằ, ắ, ẳ, ẵ, ặ, e, é, è, ẻ, ẽ, ẹ, ê, ế, ề, ể, ễ, ệ, i, í, ì, ỉ, ĩ, ị, o, ó, ò, ỏ,

õ, ọ, ô, ố, ồ, ổ, ỗ, ộ, ơ, ớ, ờ, ở, ỡ, ợ, u, ú, ù, ủ, ũ, ụ, ư, ứ, ừ, ử, ữ, ự, ai, ái, ải, ãi, ại….

Cấu trúc nhận dạng theo mô hình âm vị sẽ dùng mô hình HMM trái phải, mỗi âm vị là một mô hình. Chúng ta thấy mặc dù đã đơn giản hóa mô hình âm vị nhưng số lượng mô hình HMM vẫn là quá lớn và không mang lại hiệu quả cần thiết.

Như vậy chúng ta vẫn sẽ sử dụng mô hình nhận dạng nguyên từ mà không phân tách âm vị, mỗi một từ sẽ là một mô hình HMM. Và khi đó, nhận dạng thanh điệu cho các từ là khâu không thể thiếu của hệ thống nhận dạng.

5.4 Xây dựng mô hình nhận dạng thanh điệu tiếng Việt

Hình 5.8 Mô hình nhận dạng thanh điệu tiếng Việt (a) công đoạn huấn luyện, (b) công đoạn nhận dạng.

5.4.1 Khối tiền xử lý

Tiếng nói được thu qua micro trong môi trường thực có nhiễu nên cần phải được xử lý triệt nhiễu và nâng cao chất lượng. Phương pháp sử dụng là phương pháp triệt nhiễu dùng biến đổi wavelet cải tiến (Xem 4.3.2).

Trong công thức 4.9 hằng số tỷ lệ  được chọn bằng thực nghiệm là 0.38, q = 0.2, độ dài tương ứng của khung Lfrm và đoạn Lseg cũng được chọn bằng thực nghiệm là 64ms và 512ms.

Trong công thức 4.12 để đơn giản chọn  = 0.5

Sau khi được triệt nhiễu, tín hiệu tiếng nói sẽ được phân đoạn thành các khung chồng lấp, tiếp theo đó sẽ được nhân với cửa sổ Hamming 512 điểm để làm trơn phần đầu và cuối khung (Xem 2.2.1.2, 2.2.1.3).

5.4.2 Khối trích chu kỳ pitch

Như đã khảo sát trong phần 5.2, yếu tố chủ yếu ảnh hưởng đến thanh điệu là tần số cơ bản F0 nên giá trị này cần phải được xác định trong mỗi khung tiếng nói.

Hình 5.9: Tín hiệu tuần hoàn của nguyên âm [o] trong tiếng ‘hỏi’

F0 được trích theo phương pháp dùng CWT (Xem 4.5.2).

5.4.3 Tạo vector đặc trưng V(F0)

Trong nhận dạng tiếng Trung Quốc (Mandarin), Yang et all định nghĩa vector đặc trưng như sau:

Công thức 5.1

bản F0 chúng tôi sử dụng vector đặc trưng cải tiến từ vector Mandarin có 10 thành phần như sau:

Công thức 5.2

Trong đó:

- ft là tần số cơ bản tại khung tín hiệu t. - ft+1 là tần số cơ bản tại khung tín hiệu t+1 - et là năng lượng tại khung tín hiệu t

- emax là năng lượng cực đại trong phần hữu thanh - d là chiều dài của phần hữu thanh (tính bằng số khung) - fmax là tần số cơ bản cực đại trong vùng hữu thanh - fmin là tần số cơ bản cực tiểu trong vùng hữu thanh

- fst là tần số cơ bản ở khung đầu tiên trong vùng hữu thanh - fed là tần số cơ bản ở khung cuối cùng trong vùng hữu thanh

5.4.4. Huấn luyện cho mô hình

Trong mô hình nhận dạng thanh điệu tiếng việt chúng tôi sử dụng 8 mô hình MM tương ứng cho 6 thanh điệu. Ở đây chúng tôi sử dụng 8 mô hình vì thanh có 5 có trường hợp là 5a và 5b, thanh 6 có 2 trường hợp là thanh 6a và 6b.

Hình 5.10: Quá trình khởi tạo các tham số

Các tham số của mô hình được khởi tạo theo thuật toán sau:

- Với mỗi mô hình, lấy tất cả các vector đặc trưng ứng với mô hình này

- Tất cả các vector được chia thành các đoạn bằng nhau tuỳ vào số trạng thái của mô hình.

- Ta tính các tham số thống kê (giá trị trung bình và phương sai) cho mỗi đoạn tương ứng với một trạng thái trong mô hình.

Sử dụng thuật toán Viterbi để phân đoạn lại, sau đó tính toán các tham số thống kê và cập nhật trở lại mô hình.

Một phần của tài liệu Nhận dạng tiếng Việt sử dụng biến đổi Wavelet và mô hình Markov ẩn (Trang 92)

Tải bản đầy đủ (PDF)

(120 trang)