Khi tách từ bằng phữơng pháp LRMM, ta cĩ chú ý đến việc nhận diện và

Một phần của tài liệu khóa luận phương pháp thêm dấu tiếng việt vào văn bản tiếng việt không dấu (Trang 35 - 36)

tách các từ tên riêng ra dứa trên I từ điển tên riêng. Việc xác định các tên

riêng dựa trên chữ cái viết hoa đầu của từ, 1 cụm tên riêng, cĩ thê chỉ cần viết hoa tiếng đầu tiênTà được.

Da Nang > Đà Nẵng Da nang > Đà Nẵng da nang đa năng 3.2.1.3. Chọn từ thích hợp

Với từ điển chuyển đổi TuDienChinh.txt, ta cĩ ánh xạ 1-1 để chuyển 1 từ khơng dấu thành cĩ dấu. Ngồi ra, để tăng độ linh hoạt và chính xác của khơng dấu thành cĩ dấu. Ngồi ra, để tăng độ linh hoạt và chính xác của

Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt khơng dấu

phương pháp, ta cĩ thêm 1 từ điển phụ, gọi là từ điển cụm từ CumTu.txt, lưu những cụm từ thường xuyên được sử dụng.

Các cụm từ này được lưu cĩ cấu trúc. Với mỗi cụm từ, ta cĩ 1 từ chính, và các chuỗi từ cịn lại trong cụm từ. Đi kèm với chuỗi từ là con số thể hiện

vị trí của từ chính này với chuỗi từ. (xem chỉ tiết cấu trúc và cách tạo trong

mục 3.2.2.2)

Ví dụ 3-7: 1 vài cụm từ được lưu

tối <TAB> Ilquần áo mặc buổi <TAB> Ilbuỗi <FAB> 2lhơm

> từ “tối” cĩ 3 cụm từ là “quần áo mặc buơi tối”, “buổi tối” và “tối

hơm” với “tối” là từ chính trong 3 cụm từ trến,

Sau khi ánh xạ l-l dựa trên TuDienChinh.txt xong, chương trình sẽ làm thêm 1 bước nữa, là tìm trong từ điển £m-từ, xem cĩ sự xuất hiện cụm từ

nào trong văn bản khơng ? Nếu cĩ, thì chương trình sẽ sửa lại kết quả, để được kết quả chính xác hơn. Phương pháp xét duyệt được mơ tả như sau:

Một phần của tài liệu khóa luận phương pháp thêm dấu tiếng việt vào văn bản tiếng việt không dấu (Trang 35 - 36)