tách các từ tên riêng ra dứa trên I từ điển tên riêng. Việc xác định các tên
riêng dựa trên chữ cái viết hoa đầu của từ, 1 cụm tên riêng, cĩ thê chỉ cần viết hoa tiếng đầu tiênTà được.
Da Nang > Đà Nẵng Da nang > Đà Nẵng da nang đa năng 3.2.1.3. Chọn từ thích hợp
Với từ điển chuyển đổi TuDienChinh.txt, ta cĩ ánh xạ 1-1 để chuyển 1 từ khơng dấu thành cĩ dấu. Ngồi ra, để tăng độ linh hoạt và chính xác của khơng dấu thành cĩ dấu. Ngồi ra, để tăng độ linh hoạt và chính xác của
Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt khơng dấu
phương pháp, ta cĩ thêm 1 từ điển phụ, gọi là từ điển cụm từ CumTu.txt, lưu những cụm từ thường xuyên được sử dụng.
Các cụm từ này được lưu cĩ cấu trúc. Với mỗi cụm từ, ta cĩ 1 từ chính, và các chuỗi từ cịn lại trong cụm từ. Đi kèm với chuỗi từ là con số thể hiện
vị trí của từ chính này với chuỗi từ. (xem chỉ tiết cấu trúc và cách tạo trong
mục 3.2.2.2)
Ví dụ 3-7: 1 vài cụm từ được lưu
tối <TAB> Ilquần áo mặc buổi <TAB> Ilbuỗi <FAB> 2lhơm
> từ “tối” cĩ 3 cụm từ là “quần áo mặc buơi tối”, “buổi tối” và “tối
hơm” với “tối” là từ chính trong 3 cụm từ trến,
Sau khi ánh xạ l-l dựa trên TuDienChinh.txt xong, chương trình sẽ làm thêm 1 bước nữa, là tìm trong từ điển £m-từ, xem cĩ sự xuất hiện cụm từ
nào trong văn bản khơng ? Nếu cĩ, thì chương trình sẽ sửa lại kết quả, để được kết quả chính xác hơn. Phương pháp xét duyệt được mơ tả như sau: