Sau khi huấn luyện mẫu, ta sẽ có các bộ từđiển tươngứng với các lớp. Nếu mô hình HMM nhận dạng được X tiếng, và giả sử ta có thể phân các tiếng thành A lớp; như vậy tổng số từ vựng ta có thể nhận dạng được sẽ tăng lên khoảng ~ X*A tiếng.
Hình 6.3: côngđoạn nhận dạng
Bắt đầu công đoạn nhận dạng, tín hiệu tiếng nói sẽ được đưa qua bộ xác định lớp thanh điệu. Tại đây các công việc trích pitch và phân lớp sẽđược tiến hành.
Sau khi đã xác định được lớp, chương trình sẽ lấy bộ từ vựng tương ứng của lớp đó lên để tiến hành việc nhận dạng từ. Như vậy, thay vì phải nhận dạng X*A từ
(sẽ vượt quá khả năng của mô hình HMM), chúng ta chỉ cần nhận dạng A từ của lớp thứ Xi.
Tóm lại, công đoạn nhận dạng ởđây chúng tôi chia làm hai bước: Bước 1: xác định lớp từđiển.
Chương 7. Hiện thực hoá mô hình nhận dạng tiếng Việt 7.1. Nhận dạng tiếng đơn Các tiếng dùng nhận dạng: STT Tiếng Lớp STT Tiếng Lớp STT Tiếng Lớp 1 Không 2 2 Một 2 3 Hai 2 4 Ba 2 5 Bốn 1 6 N ăm 2 7 Sáu 1 8 Bảy 2 9 Tám 1 10 Chín 1 11 Mười 2 12 Báo 1 13 Biết 1 14 Bình 2 15 Bóng 1 16 Cháy 1 17 Chèn 2 18 Chương 2 19 Có 1 20 Cửa 2 21 Đài 2 22 Đi 2 23 Điện 2 24 Đổi 2 25 Đoái 1 26 Đọc 2 27 Dạng 2 28 Dự 2 29 Giá 1 30 Giờ 2 31 Giúp 1 32 Hối 1 33 Hô 2 34 In 2 35 Lưu 2 36 Mở 2 37 Mới 1 38 Chạy 2 39 Phố 1 40 Phút 1 41 Quạt 2 42 Soạn 2 43 Tắt 1 44 Thành 2 45 Thảo 2 46 Thiếu 1 47 Thời 2 48 Thoát 1
49 Thứ 1 50 Tính 1 51 Tốc 1
52 Chuyền 2 53 Việt 2 54 Xoá 1
55 Xuống 1 56 Đỡ 2
Trong đó:
Lớp 1 (nhóm thanh cao) gồm có: sắc, ngã.
Lớp 2 (nhóm thanh thấp) gồm có: ngang, huyền, ngã, hỏi, nặng.
Các đặc trưng: Chúng tôi sử dụng phương pháp phân tích LPC để rút trích đặc trưng với các giá trị tham số như sau:
Các hệ số LPC N M P Q K Giá trị 25 ms 10 ms 10 12 3
Rút trích đặc trưng thanh điệu (F0) bằng thuật toán AMDF (M = 10ms, N = 5ms). Các tham số mô hình HMM: Số trạng thái: 5 Số Mixture: 4 Kết quả: 1. Bảng kết quả phân lớp thanh điệu:
Nhóm Nhóm thanh cao Nhóm thanh thấp Kết quả
Nhóm thanh cao 6098 22 99,64% Nhóm thanh thấp 22 7618 99,71%
2. Kết quả nhận dạng tiếng: N hận dạng trên tập huấn luyện: Số tiếng nhận dạng: 13760, đạt kết quả: 100% N hận dạng trên tập dữ liệu mới: Số tiếng dùng huấn luyện: 9174 Số tiếng dùng để thử: 4586 Các tiếng sai: Báo Sáu (1 lần)
Đi Điện (1 lần)
Số tiếng đúng: 4584, đạt tỉ lệ: 99,96%
7.2. Nhận dạng câu
Chúng tôi biến đổi sang nhận dạng từđơn, bằng cách tách các tiếng và đưa vào nhận dạng từ rời.
Quá trình nhận dạng câu được tiến hành như sau:
Hình 7.1: mô hình nhận dạng câu
Sau khi nhận dạng hết các từ trong câu, dùng luật để quyết định câu nói. Cách tính điểm và luật quyết định được miêu tả như sau:
Tính vị trí tiếng thứ i hiện tại của câu nói và nhận dạng tiếng đó.
Tại vị trí thứ i của mỗi câu nói tươngứng, nếu tiếng nhận dạng được thuộc câu nào thì câuđó sẽđược cộng thêm 1 điểm.
Kết thúc việc nhận dạng hết các từ trong câu, câu nào có số điểm cao nhất chính là kết quả.
Chương 8. Kết luận
8.1. Kết luận
Qua thời gian nghiên cứu và cài đặt, luận văn đã làm được một số công việc như sau:
Khảo sát một số đặc tính ngữ âm tiếng Việt, trong đó ứng dụng được
đặc điểm về thanh điệu vào hệ nhận dạng.
Cài đặt hệ nhận dạng sử dụng mô hình HMM liên tục.
Cài đặt hệ nhận dạng 6 thanh điệu tiếng Việt đạt hiệu quả khoảng 98,5%.
Đề nghị phương phápứng dụng đặc điểm thanh điệu tiếng Việt vào việc phân lớp trong hệ nhận dạng tiếng nói tiếng Việt và cài đặt thử nghiệm
đạt hiệu quả nâng số từ vựng nhận dạng được lên đến khoảng 60 từ.
Đề nghị và cài đặt thử nghiệm mô hình nhận dạng câu.
Trong giới hạn thời gian làm luận văn, chúng tôi chỉ mới có những bước đầu nghiên cứu tiếp cận theo hướng các đặc điểm ngữ âm tiếng Việt, vì vậy chắc chắn đề
tài còn nhiều thiếu sót. Tuy nhiên với một số ý tưởng và kết quả đã đạt được, chúng tôi hy vọng rằng luận văn này sẽ góp phần xây dựng các hệ thống nhận dạng tiếng Việt ngày càng hoàn chỉnh hơn.
Chương trình Demođược cài đặt trên hệ thống với các thông số như sau: Máy PC Celeron 1.2 Gb Bus 100, 96 Mb Ram.
Card âm thanh hiệu Creative
Micro dùng để thu dùng để thu âm dạng cầm tay.
Tiếng nói được thu với tần số lấy mẫu 16000Hz, kích thước mỗi mẫu là 16 bit.
Tiếng nói được rút trích đặc trưng bằng phương pháp LPC với chiều dài frame phân tích là N = 25 ms, phần chồng lấp M = 10 ms, số chiều vector LPC là p = 12.
8.2. Hướng phát triển:
Do trong thời gian ngắn, lượng dữ liệu thu vào có giới hạn dẫn đến kết quả
chưa được đánh giá chính xác. Điều này có thể cải tiến bằng cách thu nhiều mẫu hơn, xử lý để tăng độ chính xác, thu mẫu của nhiều người để có các thống kê, khảo sát tốt hơn, và xây dựng mô hình nhận dạng độc lập người nói.
Khảo sát thêm các đặc trưng ảnh hưởng đến thanh điệu như: phoóc măng, trường độ, ảnh hưởng của phụ âm nhằm nâng cao chất lượng nhận dạng thanh điệu, cũng như chất lượng phân lớp thanh điệu để từ đó có thể phân nhiều lớp hơn. (Hiện tại chỉ phân làm 2 lớp).
Tăng thêm số đặc điểm ngữ âm dùng để phân lớp như: nguyên âm, phụ âm, trường độ…
Tài liệu tham khảo
[1] B. H. Vu, “Về đặc trưng cơ bản của thanh điệu tiếng Việt ở trạng thái tĩnh”, 1999.
[2] Đinh Lê Thư – Nguyễn Văn Huệ, “Cơ cấu ngữ âm tiếng Việt”, NXB giáo dục, 1998
[3] Hồ Ngọc Điệp – Luận văn tốt nghiệp Khoa CNTT –ĐH KHTN, 1999
[4] L. R Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proc. IEEE, 77(2), pp. 257-286, 1989. [5] Hà Việt Uyên Synh - Luận án thạc sĩ Khoa CNTT –ĐH KHTN, 1999.
[6] Lê Văn Lợi, “Thanh học – Các bệnh về giọng nói, lời nói và ngôn ngữ”, NXB Y học, 1999.
[7] Nguyễn Đức Hoàng Hạ– Luận văn tốt nghiệp Khoa CNTT –ĐH KHTN, 2002 [8] Nguyễn Quốc Cường, “Tone Recognition for Vietnamese”, 2001
[9] Steven W. Smith, “Digital Signal Processing”, 1999
[10] Steve Young et all, “The HTK Book”, the Cambridge University Engineering Department, July 2000
[11] Thái Hùng Văn - Luận án thạc sĩ Khoa CNTT –ĐH KHTN, 2000. [12] T.T. Doan. “Ngữ âm tiếng việt”, 1977
[13] Võ Tuấn Kiệt - Luận án thạc sĩ Khoa CNTT – ĐH KHTN, 1999.
[14] W.J Yang et all, "Hidden Markov Model for Mandarin Lexical Tone Recognition", IEEE Trans. ASSP, vol36, no 7, July 1988, pp 988-992.
[15] P. Renevey, “Speech Recognition in Noisy Conditions Using Missing Feature Approach”, EPFL, 2000.
[16] Lawrence Rabiner and Biing-Hwang Juang, “Fundamentals of Speech Recognition”, Prentice Hall, 1993
Phụ lục 1:
N gữ âm tiếng Việt
1. Thanh điệu
Thanh điệu là đặc trưng ngôn điệu của âm tiết. Nó có chức năng khu biệt âm tiết và do đó cũng có chức năng khu biệt vỏ âm thanh của hình vị hay của từ trong tiếng Việt. Đặc tính của thanh điệu bao trùm lên toàn bộ âm tiết và thể hiện rõ nhất ở
phần vần. Người ta gọi thanh điệu là âm vị siêu đoạn tính. Số lượng thanh điệu trong tiếng Việt khác nhau giữa các tiếng địa phương. Số lượng nhiều nhất là 6 thanh trong phát âm Hà Nội – hay trong tiếng Bắc nói chung và được phản ánh trên chữ viết. Đó là các thanh : sắc (/), huyền (\), hỏi (?), ngã ( ~), nặng (. ) và thanh không dấu.
Trong các tiếng địa phương từ Thanh Hóa trở vào Nam thường chỉ có năm thanh, thanh ngã trùng với thanh hỏi (trong tiếng nói của một số vùng ở Thanh Hoá, tiếng Bình Trị Thiên, Nam Trung bộ và Nam bộ), hoặc thanh ngã trùng với thanh nặng (trong tiếng nói vùng Nghệ An, Hà Tĩnh). Ngoài ra, trong một vài thổ ngữ
lẻ tẻở Nghệ An và Quảng Bình chỉ có 4 thanh điệu.
1.1 Những nét khu biệt của thanh điệu
Thanh điệu trong tiếng Việt bao gồm một loạt những đặc trưng ngữ âm
điệu tính và phi điệu tính.
Đặc trưng điệu tính là những đặc trưng ngữ âm được biểu hiện bằng tần số cơ bản (F0) trong cấu trúc thanh điệu như âm vực và âm điệu
Đặc trưng phi điệu tính là những đặc trưng còn lại khác với F0 như
cường độ, trường độ, hiện tượng yết hầu hóa và thanh hầu hoá.
1.1.1 Âm điệu
Âm điệu là đặc điểm của sự biến thiên của tần số thanh cơ bản trong quá trình phát âm một âm tiết. Sự biến thiên này được gọi là đường nét âm điệu.
Dựa vào đặc trưng này có thể phân thanh điệu thành hai nhóm lớn: bằng và trắc hay có người gọi đó là thế đối lập giữa không biến điệu và biến điệu (Nguyễn Hàm Dương, 1963).
Thanh không dấu (thanh 1) và thanh huyền (thanh 2) là những thanh bằng. Chúng có âm điệu bằng phẳng hoặc hơi đi xuống.
Thanh ngã ( thanh 3), thanh hỏi (thanh 4), thanh sắc (thanh 5) và thanh nặng (thanh 6) là những thanh trắc. Chúng có đường nét âm điệu phức tạp và giới hạn biến
đổi rất rộng. Thông thường, thanh sắc được miêu tả là một thanh đi lên, thanh nặng là thanh đi xuống, thanh hỏi và thanh ngã là thanh cóđường nét vừa đi xuống vừa đi lên. Vì vậy, các thanh sắc và thanh nặng còn được gọi là các thanh có đường nét âm điệu một hướng hay không gãy, đối lập với thanh hỏi và thanh ngã là những thanh có
đường nét âm điệu đổi hướng hoặc gãy (Đoàn Thiện Thuật, 1977).
1.1.2 Âm vực
Âm vực được hiểu là mức âm điệu trung bình (hay cao độ trung bình) của thanh điệu trong quá trình phát âm tiết.
Trong tiếng Việt, các thanh điệu thuộc hai âm vực vao và thấp:
Âm vực cao gồm các thanh 1, 3, 5 (tức là các thanh không dấu, ngã, sắc). Âm vực thấp gồm các thanh 2, 4, 6 ( huyền, hỏi, nặng)
Trong nhóm thanh cao, thanh 1 có âm điệu bằng phẳng, nên thường có độ cao trung bình thấp hơn thanh 3 và thanh 5. vì vậy có tác giả coi nó thuộc âm vực trung và chia thanh điệu tiếng việt thành ba âm vực: cao, trung, thấp ( Nguyễn Đình Hoà, 1967; R. B. Jones và Huỳnh Sanh thông, 1960). Điều này có thể đúng với một số thổ
ngữ miền nam (M. V. Gordia, 1984). Còn trong phương ngữ bắc bộ, các thanh chỉ có 2 âm vực cao và thấp.
1.2 Sự thể hiện của các thanh điệu trong các âm tiết rời 1.2.1 Các thanh điệu trong ngôn ngữ bắc bộ
Thanh 1: (không dấu)
Trong phương ngữ Bắc bộ, thanh 1 là thanh tương đối cao, có âm điệu bằng phẳng ổn định, giống nhau ở tất cả các âm tiết. Đô cao của thanh ít thay đổi trong phát âm của mỗi người và nó không phụ thuộc vào thành phần của âm tiết. trong các âm tiết khác nhau như a, ha, hoa, hoan, hai … đường nét hầu như không thay đổi. Thanh này không bị yết hầu hoá, cường độ yếu và đồng đều từđầu đến cuối.
Thanh này được phát âm ở âm vực thấp so với thanh 1. Đường nét âm
điệu đi xuống thoai thoải. Cũng giống như thanh 1, thanh hai có cường độ đồng đều không thay đổi , không bị yết hầu hóa trong quá trình phát âm.
Thanh 3: (ngã)
Thanh ngã chỉ có trong phương ngữ bắc bộ, thuộc âm vực cao, đường nét gãy, có 2 biến thể như sau:
a. Bắt đầuở cao độ cao hơn thanh 2 và thấp hơn thanh 1,ở giữa âm tiết có sự
hạ giọng đột ngột, kèm theo sự giảm cường độ, sau đó đường nét âm điệu vút lên cao.
b. Đường nét âm điệu bắt đầu bằng phẳng hoặc hơi đi lênở phần đầu vần của âm tiết, ở giữa vần có sự hạ giọng đột ngột, giảm cường độ, và đường nét âm điệu bị gián đoạn do sự bóp thanh hầu. Sau đó đường nét vút lên cao, sự
yết hầu hóa tăng cường về cuối âm tiết.
Về mặt âm điệu, thanh 3 rất gần với thanh 5, đối lập của chúng chủ yếu là sự
chuyển điệu đột ngột và đặc trưng phi điệu tính. Trong phát âm của trẻ em thường vắng mặt âm tắc thanh hầu và đường nét gãy nên thanh 3 trùng với thanh 5 (Đoàn Thiện Thuật, 1977, tr. 112)
Thanh 4: (hỏi)
Trong tiếng bắc thanh 4 bắt đầu ở mức cao của thanh 2, đi xuống thoai thoải
đến gần giữa vần thì giữ âm điệu bằng phẳng trong một khoảng thời gian ngắn sau đó chuyển sang đường nét đi lên cân đối với nét đi xuống và kết thúc gần với cao độ bắt
đầu. Phần thấp nhất của âm điệu đi qua giữa phần vần.
Trong một số trường hợp, thanh 4 được hiện thực hóa không có phần âm điệu
đi xuống làm cho nó giống với đường nét thanh 5, hoặc không có đường nét đi lên (đặc biệt thường gặp trong phát âm của trẻ em dưới 3 tuổi) làm cho nó gần đồng nhất với đường nét âm điệu thanh 6.
Thanh 4 thường bị yết hầu hóa mạnh hầu như từđầu đến cuối. Thanh 5: (sắc)
Đây là một thanh cao, đường nét âm điệu đi lên, nhưng có thay đổi ít nhiều phụ
thuộc vào loại hình âm tiết và độ dài ngắn của nguyên âm.
a. Trong những âm tiết không kết thúc bằng phụ âm cuối vô thanh: (ví dụ: bá, bái, bán) thanh 5 bắt đầu hơi thấp hơn thanh 1, ban đầu có
đường nét bằng phẳng (khoảng ½ độ dài phần vần) sau đó đi lên tương đối dốc. Như vậy, trong những âm tiết loại này, đường nét thanh 5 chỉ khác thanh 1 ở phần cuối. (H2)
b. Trong những âm tiết kết thúc bằng phụ âm cuối vô thanh với nguyên âm dài, đoạn bằng phẳng của thanh rút ngắn lại, có khi mất hẳn, ví dụ thanh sắc trong hót, thướt. Còn trong âm tiết khép có nguyên âm ngắn, thanh 5 bắt đầu cao hơn và khoảng nâng ít hơn, ví dụ thanh sắc trong tắc, mất (H2)
Trong khi tăng dần cường độ về cuối âm tiết, thanh này có sự yết hầu hóa mạnh.
Thanh 6: (nặng)
Thanh này phát âm ở âm vực thấp. Đường nét đi xuống và thay đổi ít nhiều phụ thuộc vào loại hình âm tiết và độ dài ngắn của nguyên âm. a. Trong những âm tiết không kết thúc bằng phụ âm cuối vô thanh (ví dụ: tạ, tại, tạn), thanh 6 bắt đầu ở mức của thanh 2, âm điệu đi xuống đột ngột thường thể
hiện trên bán nguyên âm cuối và phụ âm cuối.
b. Trong những âm tiết kết thúc bằng phụ âm cuối vô thanh, âm điệu bằng phẳng và có sự hạ giọng ở cuối nguyên âm. Vì vậy đường nét của thanh gần giống thanh 2. Khi có nguyên âm ngắn, sựđi xuống này có thể vắng mặt. khi ấy nó khu biệt với thanh 2 nhờ những đặc trưng phi điệu tính (H2)
Thanh 6 là thanh ngắn nhất trong các thanh điệu tiếng việt.
Dưới đây là đồ thị về đường nét âm điệu của các thanh trong phương ngữ bắc bộ theo M. V. Gordina (1984)
Hình 1: Hệ thống 6 thanh điệu (giọng nữ bắc bộ)
1.2.2 Thanh điệu trong các tiếng địa phương khác
Ngoài hệ thống thanh điệu phương ngữ Bắc bộ, mà đại diện là phát âm Hà Nội, có số lượng đối lập tối đa trong các thanh điệu, có những đặc trưng điệu tính và phi điệu tính khác nhau. Từ Thanh Hóa trở vào Nam còn có nhiều hệ thống thanh điệu khác thanh điệu tiếng Bắc về số lượng và phẩm chất ngữ âm.
1.2.2.1 Thanh điệu trong các thổ ngữ miền Trung
Các thổ ngữ miền Trung có nhiều biến dạng phức tạp của hệ thống thanh điệu. Về số lượng, có các hệ thống 5 thanh và các hệ thống 4 thanh.
Trong những thổ ngữ có 5 thanhđiệu, người ta phân biệt ra giọng thanh, giọng Nghệ và giọng bình trị thiên.
- Giọng Thanh: Trong một số thổ ngữ vùng Thanh Hoá, thanh 3 (thanh ngã) trùng với thanh 4 (thanh hỏi) thành một thanh, tạm gọi là thanh ¾. Thanh này có đường nét âm điệu giống thanh 4 Nghệ (thổ ngữ Vinh) với đường nét đi lên