Việt khơng dấu thì người ta vẫn đánh được các ký tự viết hoa như các danh từ riêng.
Do đĩ, các từ viết hoa sẽ khơng “thường hĩa” (lowercase) và các từ viết hoa này sẽ
được căn cứ để nhận dạng danh từ riêng. Da Nang > Đà Nẵng.
da nang đa năng
Do đĩ, tác giả lưu ý người dùng về đặc điểm này khi sử dụng chương trình. 3.1.2.1.2. Tách câu
Căn cứ vào các đặc điểm của đgơn ngữ của tiếng Việt : các từ được cách
nhau bởi các ký tự như “.”, “,”, “:”...để tách thành các câu. Mỗi câu là một đơn vị xử lý chính trong chương trình. Việc quyết định câu là đơn vị cơ bản là do nhiều khi nghĩa lý chính trong chương trình. Việc quyết định câu là đơn vị cơ bản là do nhiều khi nghĩa
của câu sẽ được quyết định sự-lựa chĩn về đấu trong câu.
3.1.2.1.3. Tìm các khả năng đánh dấu của từ, câu
File từ điển (VNMarKDic.txt) sẽ cung cấp cho chúng ta xác suất của các nhĩm âm tiết cĩ thê Xuất hiện trong các văn bản tiếng Việt. File từ điển này sẽ được trình bày kỹ:hơn trong phần sau.
Căn cứ vào tập tin từ điển VNMarkDic.txt, tác giả cĩ thê tạo ra các trường hợp cĩ thể đánh dấu của các từ trong câu. Tổ hợp các thành phần này sẽ tạo nên các câu trong câu ứng viên đã được đánh dấu trong tiếng Việt. Tuy nhiên, do căn cứ vào tập tin VNMarkDic.txt nên tác giả cĩ thể tạo ra số lượng các câu ứng viên khơng nhiều lắm.
Câu cần gán đấu = “Toc do truyen thong se tang cao”.
Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt khơng dấu
Thơng qua tập tin từ điển VNarkDic.tx:, tác giả cĩ các thơng tin sau: - toc do = “tốc độ” 8.68
- truyen = “truyền” 12.31 - truyen thong = “truyền thống” 12.31 - thong tin = “thơng tin” 7.24
-tin = “tn” 7.33
- §€ = “sẽ” 6.09
- tang = “tăng” 7.43
- Cao = “cao” 6.95
Sau khi tổ hợp các từ ta sẽ được 2 trường hợp sau: