Vì lý do nêu trên, xác định lại chính xác cụm từ để hỏi là một nhiệm vụ quan trọng. Để thực hiện, chúng ta có thể áp dụng cách nhúng mã Java vào JAPE (Mã chương trình nhúng Java vào JAPE để xác định lại một số từ để hỏi được đặt trong phụ lục A). Có hai phương án được đưa ra để giải quyết vấn đề này:
Phƣơng án thứ nhất: Chúng ta tạo ra một luật mà LHS khớp với tất cả các từ để hỏi có thể có trong tự nhiên (vì số lượng từ để hỏi là hạn chế, trong tiếng Anh, tập từ để hỏi chuẩn gồm có: who, when, what, where, why, how). Sau đó, các cụm từ (hoặc từ) được chú giải bởi kiểu TokenVn với các đặc trưng category có giá trị tương ứng là xâu “Tudehoi” biểu diễn nhãn từ loại, đặc trưng string với giá trị tương ứng là xâu biểu diễn từ để hỏi.
Phƣơng án thứ hai: Thay vì tạo ra một luật, chúng ta tạo ra nhiều luật mà mỗi luật có LHS khớp với một nhóm các cụm từ (hoặc từ) để hỏi với phân loại ngữ nghĩa
câu hỏi như: hỏi đúng sai, hỏi về thời gian, hỏi về địa điểm, hỏi về người, hỏi số lượng… Sau đó, chúng ta tạo chú giải ngữ nghĩa cho các nhóm này, kiểu chú giải TokenVn (trong hình 4-5) cho mỗi cụm từ (hoặc từ) trong nhóm, với đặc trưng type
nhận các giá trị khác nhau đối với mỗi nhóm, đặc trưng category nhận giá trị “Tudehoi”, đặc trưng “string” là xâu tương ứng biểu diễn từ để hỏi.
44
Chúng ta có thể thấy rằng, sử dụng phương án thứ hai chính là phân loại câu hỏi nhưng ở mức độ đơn giản nhất: phân loại chỉ dựa trên các từ để hỏi chuẩn. Và chúng
tôi lựa chọn phương án này để thực hiện.
Hình 4-5: Một số từ để hỏi đã đƣợc xác định lại bằng cách sử dụng JAPE
Chúng tôi xác định một số nhóm dưới đây chứa các cụm từ (hoặc từ) để hỏi mà có cùng phân loại về mặt ngữ nghĩa:
Nhóm các cụm từ (hoặc từ) để hỏi mà câu trả lời mong muốn ở dạng Đúng hoặc Sai như: phải không, đúng không, có đúng là, có phải là, có đúng, có phải, Có đúng, Có phải, Có đúng là, Có phải là.
Kiểu chú giải TokenVn được tạo ra cho các cụm từ (hoặc từ) này, có đặc trưng type nhận giá trị là “YesNo”, đặc trưng category nhận giá trị là ―Tudehoi‖, đặc trưng string là xâu ký tự biểu diễn cụm từ (hoặc từ).
Nhóm các cụm từ (hoặc từ) dùng để hỏi về thời gian như: bao giờ, Bao giờ, ngày
45
nào, khi nào, Khi nào, là khi nào, thời gian nào, là thời gian nào, vào thời gian nào, dịp nào, Dịp nào, hồi nào, Hồi nào, là dịp nào, vào hồi nào, …
Kiểu chú giải TokenVn được tạo ra cho các cụm từ (hoặc từ) này, có đặc trưng type nhận giá trị là “When”, đặc trưng category nhận giá trị là ―Tudehoi‖, đặc trưng string là xâu ký tự biểu diễn từ hoặc cụm từ.
Nhóm các cụm từ (hoặc từ) dùng để hỏi về số lượng như: “bao nhiêu”, “là bao
nhiêu”, “số lượng”, có kiểu chú giải TokenVn được tạo ra cho các cụm từ (hoặc
từ) này, có đặc trưng type nhận giá trị là “Many”, đặc trưng category nhận giá trị là ―Tudehoi‖, đặc trưng string là xâu ký tự biểu diễn từ hoặc cụm từ.
Nhóm các cụm từ (hoặc từ) dùng để hỏi về người như: ―ai”, “ai nào”, “người
nào”, “những ai”, “những người nào”, “là ai”, “là ai nào”, “là người nào”, “là những ai”, là những ai nào” “là những người nào”.
Kiểu chú giải TokenVn được tạo ra cho các cụm từ (hoặc từ) này, có đặc trưng type nhận giá trị là “Who”, đặc trưng category nhận giá trị là ―Tudehoi‖, đặc trưng string là xâu ký tự biểu diễn từ hoặc cụm từ.
Nhóm các cụm từ (hoặc từ) dùng để hỏi về địa điểm như: ở đâu, Ở đâu, là ở đâu, là ở đâu nào, nơi nào, Nơi nào, ở nơi nào, là nơi nào, ở nơi nào đó, là nơi nào đó, địa điểm nào, chỗ nào, là chỗ nào, là chỗ nào đó,…
Kiểu chú giải TokenVn được tạo ra cho các cụm từ (hoặc từ) này, có đặc trưng type nhận giá trị là “Where”, đặc trưng category nhận giá trị là ―Tudehoi‖, đặc trưng string là xâu ký tự biểu diễn từ hoặc cụm từ.
Nhóm các cụm từ (hoặc từ) được dùng như mệnh lệnh: “cho biết”, “Cho biết”, “Kể ra”, “kể ra”, “tìm”, “Tìm”, “Tìm ra”, “tìm ra”, “liệt kê”, “Liệt kê”, “Danh sách”, “danh sách”, “đưa ra”, “Đưa ra”, “hiện ra”, “Hiện ra”, “chỉ ra”, “Chỉ ra”.
Kiểu chú giải TokenVn được tạo ra cho các cụm từ (hoặc từ) này, có đặc trưng type nhận giá trị là “List”, đặc trưng category nhận giá trị là ―Tudehoi‖, đặc trưng string là xâu ký tự biểu diễn từ hoặc cụm từ.
46
Nhóm các từ hoặc cụm từ dùng để hỏi các thức, nguyên nhân: “thế nào”, “là thế nào”, “như thế nào”, “làm sao”, “tại sao”, “là tại làm sao”, “là sao”.
Kiểu chú giải TokenVn được tạo ra cho các cụm từ (hoặc từ) này, có đặc trưng type nhận giá trị là “HowWhy”, đặc trưng category nhận giá trị là ―Tudehoi‖, đặc trưng
string là xâu ký tự biểu diễn từ hoặc cụm từ.
Nhóm các từ hoặc cụm từ dùng để hỏi các thức, nguyên nhân: “cái gì”, “Cái gì”, “là gì”, “Là gì”, “những gì”, “Những gì”, “những cái gì”, “Những cái gì”, “là cái gì”, “Là cái gì”, “là những cái gì”.
Kiểu chú giải TokenVn được tạo ra cho các cụm từ (hoặc từ) này, có đặc trưng type nhận giá trị là “What”, đặc trưng category nhận giá trị là ―Tudehoi‖, đặc trưng string là xâu ký tự biểu diễn từ hoặc cụm từ.
47