4 Chương : XỬ LÝ NGÔN NGỮ VÀ TRA TỪ ĐIỂN
4.2.3 Tìm từ tiếng Việt có nghĩa
Trong tiếng Anh, mỗi từđều có nghĩa riêng của nó, vì vậy ứng dụng có thể tra riêng từng từ mà người dùng chỉđịnh. Nhưng đối với tiếng Việt, một từ có thểđược tạo từ nhiều tiếng nên nếu chỉ tra một tiếng thì rất dễ rơi vào trường hợp không tìm
thấy từ trong từđiển vì số từđơn trong tiếng Việt rất ít. Chính vì vậy, ứng dụng sẽ
nhận dạng nhiều tiếng nằm trên cùng một hàng với tiếng mà người dùng chỉ định, cụ thể là 3 tiếng gồm tiếng mà người dùng chỉđịnh và 2 tiếng nằm kềở 2 bên.
Tuy nhiên, một người không biết tiếng Việt thì không thể biết được rằng một từ nào đó gồm những tiếng nào. Vì vậy mà ứng dụng sẽ hỗ trợ người dùng tìm ra từ
tiếng Việt dài nhất, có nghĩa từ những tiếng đã nhận dạng được. Sau đây là thuật toán tìm ra từ tiếng Việt có nghĩa:
Ø Bước 1: Ứng dụng sẽ cắt ra chuỗi con gồm: tiếng đã được người dùng chỉ định và hai tiếng liền kề (nếu có).
Ø Bước 2: Liệt kê ra những từ có chứa tiếng mà người dùng chỉ định theo thứ tự từ trái sang phải và chiều dài giảm dần.
Ø Bước 3: Lần lượt tra từđiển các từ trong bước 2. Quá trình này sẽ ngừng khi tìm ra từ có nghĩa hoặc khi không có từ nào có nghĩa.
Xét ví dụ: Kết quả nhận dạng là “phép tính quan hệ trên bộ”, với tiếng mà người dùng chỉ định là “quan”. Ở bước 1, ứng dụng sẽ cắt ra chuỗi gồm 3 tiếng “tính quan hệ”. Ở bước 2, ứng dụng liệt kê các từ sau: “tính quan hệ”, “tính quan”, “quan hệ” và “quan”. Ở bước 3, ứng dụng sẽ lần lượt tra từđiển các từở bước 2 và ngừng sau khi tra được từ “quan hệ” vì từ này có trong từ điển và xuất kết quả ra cho người dùng mà không cần phải tiếp tục tra từ “quan” nữa.