Tách từ tiếng Việt dùng mơ hình WFST

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 27)

Đây cĩ thể được xem là mơ hình tách từ đầu tiên dành cho tiếng Việt [16].

Mơ hình này là một cải tiến của mơ hình WFST (Weighted Finite State Transducer) của Richard Sproat [17] để phù hợp hơn với tiếng Việt . Mơ hình được đề xuất để

giải quyết vấn đề tách từ trong tiếng Việt là một mơ hình lai như sau:

3 Trong các từ điển được sử dụng, cĩ 6979 từ đơn trong từ điển từ, và tổng cộng 7457 tiếng trong từ điển tiếng.

4 Theo định nghĩa của WordNet thì Factoid là một đối tượng biểu diễn những thơng tin đặc biệt. Trong luận văn này chúng tơi chỉ xét các loại thơng tin sau: ngày tháng, thời gian, phần trăm, tiền tệ, số, độ đo, địa chỉ email, số điện thoại, trang web

Hình 4: Qui trình của mơ hình WFST

Đầu tiên cho câu đi qua phần tiền xử lý, giai đoạn này loại bỏ các lỗi về cách trình bày một câu. Tuy nhiên điều quan trọng hơn là trong cơng đoạn này cịn chuẩn hố về cách bỏ dấu, cách viết các ký tự y,i... trong tiếng Việt. (Do cịn chưa chuẩn nên tiếng Việt cĩ một số âm tiết khi viết thì khác nhau nhưng nghĩa và cách đọc thì như nhau. Ví dụ: thời kỳ = thời kì, hồ = hịa v..v...).

Sau đĩ câu được đưa vào một mơ hình WFST. Giai đoạn này sẽ tự động nhận diện các từ láy, danh từ riêng (do đặc điểm tiếng Việt: danh từ riêng phải viết hoa chữ cái đầu tiên của mỗi tiếng), tên riêng người Việt (Theo luật sinh), tên riêng nước ngồi,... và gán cho chúng một trọng số thích hợp. Mơ hình WFST sẽ căn cứ

trên các trọng số này để chọn ra một cách tách từ thích hợp.

Nếu trong giai đoạn trên, câu cần tách vẫn cịn nhập nhằng (điều này được xác định thơng qua một giá trị ngưỡng nào đĩ) mơ hình sẽ tự động gọi mơ hình mạng Neural để khử các nhập nhằng đĩ và chọn ra trường hợp tách từ phù hợp.

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 27)