BẢNG KÝ TỰ PHIÊN ÂM

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 26 - 28)

Mỗi cơ sở dữ liệu sử dụng một phương thức để phiên âm chính tả và phiên âm ở mức âm vị. Để phiên âm chính tả tiếng Việt các phát âm được ghi bằng tiếng quốc ngữ thông thường. Tuy nhiên do tiếng Việt các nhiều dấu và các ký tự đặc biệt không phải mã ASCII chuẩn, việc ghi theo các bộ mã tiếng Việt hiện đang sử dụng như TCVN3,

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

VNI, … sẽ tạo ra các tệp văn bản có mã đặc biệt và khó dùng trong môi trường lập trình máy tính.

Với mỗi một ngôn ngữ, đều có một bảng ký tự phiên âm thống nhất (phonetic notation) để gán nhãn các âm vị. Với tiếng Việt, hiện tại các sách giáo khoa tiếng Việt sử dụng bảng phiên âm ngữ âm quốc tế IPA (International Phonetic Association) để biểu diễn các âm vị. Bảng phiên âm IPA đã được sử dụng rộng rãi từ lâu như phương thức thống nhất dùng phiên âm các ngôn ngữ trên thế giớị Tuy nhiên bảng ký tự IPA chứa các ký tự không phải la mã ASCII chuẩn, do vậy khó sử dụng trong hệ thống máy tính. Bảng ký tự Worldbet [Hieronymus 1993] được Hieronymus, J.L phát triển nhằm khắc phục nhược điểm nàỵ Tuy vậy bảng ký tự Worldbet viết cho tiếng Việt có nhiều điểm khác so với các qui tắc ngữ âm được miêu tả trong các sách giáo khoa tiếng Việt. Một dạng phiên âm ngữ âm quốc tế khác đang được phát triển cho các ngôn ngữ trên thế giới dùng các ký tự ASCII là SAMPA, tuy nhiên rất tiếc là chưa có bảng ký hiệu âm vị SAMPA cho tiếng Việt.

Trong luận án tiến sĩ kỹ thuật, tác giả Nguyễn Thành Phúc [Phúc 2000] đã đề xuất cách phiên âm chính tả và bảng ký hiệu âm vị như sau:

- Với phiên âm chính tả, các từ tiếng Việt được phiên âm theo cách bỏ dấu thông dụng với các ký tự: “^, ?, \, +,‟,”. Ví dụ như câu “nhận dạng tiếng nói” được ghi lại thành “nhận dạng tiê‟ng no‟i”. Tác giả cũng đề nghị một phương thức ghi âm chính tả thay thế kiểu Telex.

- Với phiên âm âm vị, tác giả dùng cách ghi giống như trong bảng ký hiệu Worldbet dùng cho tiếng Việt, trong đó có sửa đổi lại các bất hợp lý của bảng ký hiệu này cho phù hợp với các sách giáo khoa tiếng Việt.

Tuy nhiên cách phiên âm theo kiểu Worldbet khó nhớ và còn xa lạ đối với tiếng Việt. Ngoài ra giữa cách ghi chính tả và ghi âm vị không có mối liên hệ thống nhất.

Trong quá trình nghiên cứu, để tiến hành xây dựng cơ sở dữ liệu và xây dựng các hệ thống nhận dạng, học viên đã xây dựng một phương thức phiên âm chính tả và

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn

bảng ký hiệu âm vị thống nhất dùng mã ASCII, Phương thức ghi âm chính tả và ghi âm âm vị này được xây dựng phỏng theo phương thức gõ Telex, vốn đã thông dụng và được sử dụng rộng rãị

Với ghi âm chính tả. Các từ được ghi lại giống như phương thức gõ Telex với một số qui ước như sau:

- Chữ “ư” chỉ được ghi một cách duy nhất “uw”. Ví dụ từ “từ” được ghi thành “tuwf”. - Các từ bỏ dấu được đặt vào cuối từ. Ví dụ câu “sắc huyền ngã” được ghi thành “sawcs huyeenf ngax”.

Ngoài ra trong quá trình phiên âm chính tả một số qui tắc được dùng như sau: - Không dùng dấu chấm, dấu phẩy, …

- Chỉ bao gồm chữ thường, không có chữ hoa (kể cả tên riêng).

Với phiên âm âm vị, các âm vị cũng được ghi âm giống như phương thức gõ Telex. Nếu có sự khác nhau giữa cách ghi chính tả của các âm vị, chúng sẽ được qui định theo một cách thống nhất. Các âm vị phiên âm IPA được biểu diễn dưới dạng các chữa cái ASCIỊ Bảng chi tiết ký hiệu âm vị tiếng Việt được trình bày chi tiết trong phần phụ lục.

Một phần của tài liệu Nghiên cứu một số phương pháp trong nhận dạng tiếng nói (Trang 26 - 28)