Vấn đề phân loại NSW

Một phần của tài liệu Nghiên cứu một số phương pháp tổng hợp tiếng nói (Trang 47 - 48)

Việc phân loại cho NSW cần dựa trên các thuộc tính của nó. NSW có một số thuộc tính độc lập đƣợc thể hiện ở bản thân nó, đó là độ dài token, thành phần token có hay không chứa các loại số, dấu và chữ cái, có hay không có nguyên âm, có chữ viết hoa không, có đƣợc viết hoa toàn bộ hay không. Những thuộc tính này cũng đƣợc áp dụng để xét cho một khung nhìn bao gồm 2 token liền trƣớc và 2 token liền sau token đang xét (tri-gram). NSW còn có một số thuộc tính phụ thuộc nhƣ tính ngữ cảnh, loại của token dạng chữ thay đổi giữa các miền thông tin khác nhau, khi đó ta cần tìm các thuộc tính dựa trên miền thông tin đó. Những thuộc tính này sẽ quyết định việc phân loại chi tiết cho những NSW loại chữ. Ở mục 2.3 sau đây ta sẽ đƣa ra một hệ thống phân loại chi tiết cho các NSW

3.2.3.4.Vấn đề mở rộng NSW

Trong bƣớc Tag Expander xác định cách đọc thì việc xác định cách đọc cho từ viết tắt khá phức tạp và chứa nhập nhằng cần dùng tới mô hình ngôn ngữ, các trƣờng hợp còn lại xác định cách đọc dựa vào luật mở rộng. Vì cùng một từ viết tắt nhƣng nó viết tắt cho các từ khác nhau, cho nên cần phải chú ý giải quyết vấn đề

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

này. Để thuận tiện cho việc xử lý, bộ chuẩn hóa văn bản tiếng Việt sẽ tách công đoạn này thành một bƣớc riêng.

Tổng hợp lại từ các phân tích trên có thể dẫn đến một mô hình chuẩn hóa phù hợp cho văn bản tiếng Việt nhƣ sẽ trình bày ở mục 2.3 sau đây.

3.3.Giải pháp đề xuất

Giải pháp cho bài toán chuẩn hóa văn bản tiếng Việt phải giải quyết đƣợc những vấn đề chung của bài toán chuẩn hóa văn bản nói chung và những vấn đề đặc thù trong tiếng Việt. Đó là phải xử lý đƣợc những trƣờng hợp không thể áp dụng luật phiên âm để đƣa ra thông tin về ngữ âm. Cụ thể là thao tác với các loại NSW là số (số điện thoại, số đếm, phân số, địa chỉ, thời gian … ), các từ viết tắt, các từ đọc nhƣ một dãy kí tự (WTO, NATO, TP, TS…), các từ mƣợn (karaoke, auto,

version…), các từ phức nhƣ 1m75, các kí tự Hi Lạp, các địa chỉ mail và địa chỉ URL…

Việc xử lý các NSW trong tiếng Việt có nhiều vấn đề phức tạp vì sự phong phú và các thuộc tính địa phƣơng của nó. Nhiều phân loại nhỏ đƣợc sử dụng có cách phiên âm dựa trên những tiếng cơ bản khá khác với cách phát âm ban đầu trong từ điển. Thêm vào đó có một mức độ nhập nhằng khá cao trong việc phát âm khiến cho nhiều trƣờng hợp có hơn một cách phát âm, và việc phát âm sao cho đúng phụ thuộc vào ngữ cảnh của từ đó. Trƣờng hợp điển hình là một số “2010” có thể đọc nhƣ một số số học là “hai nghìn không trăm mƣời” hoặc nhƣ dãy số trong một mã là “hai không một không”. Các từ viết tắt cũng có nhiều sự nhập nhằng khi ứng với mỗi từ viết tắt cũng có nhiều ứng cử viên cho từ đầy đủ của nó. Những sự nhập nhằng và phức tạp đó đòi hỏi phải xét tới yếu tố ngữ cảnh trong văn bản đầu vào. Và vì thế mô hình cần có khả năng học dựa trên ngữ cảnh xuất hiện các NSW.

Một phần của tài liệu Nghiên cứu một số phương pháp tổng hợp tiếng nói (Trang 47 - 48)

Tải bản đầy đủ (PDF)

(82 trang)