III- SO SÁNH THỰC NGHIỆM
NHẬN DẠNG NGÔN NGỮ TỰ NHIÊN
I- GIỚI THIỆU
Đây là phần áp dụng các giải thuật phân tích cú pháp để nhận dạng một câu nhập thuộc ngôn ngữ tự nhiên (Tiếng Anh).
Qua phần nhận xét và đánh giá hai giải thuật phân tích cú pháp Earley và CYK, chúng ta nhận thấy giải thuật CYK không thích hợp cho việc nhận dạng ngôn ngữ tự nhiên với các lý do sau :
+ Phải chuyển văn phạm NNTN về dạng chuẩn Chomsky
+ Số bước thực hiện của gt CYK lớn hơn rất nhiều so với giải thuật Earley (xem phần hiện thực so sánh độphức tạp của hai giải thuật này để thấy rõ hơn).
Do đó trong phần áp dụng nhận dạng ngôn ngữ tự nhiên sẽ sử dụng giải thuật Earley để thực hiện. Trong phần này thực hiện nhiệm vụ : Phân tích câu nhập và in ra chuỗi dẫn xuất nếu câu nhập thuộc ngôn ngữ đã cho.
Sơ đồ DFD khi nhận dạng câu nhập :
Quá trình nhận dạng một câu nhập có thể mô tả như sau :
• Chuỗi nhập là một câu tiếng Anh sẽ được đưa qua bộ “phân tích token”, đâu User Nhập VP NNTN Văn phạm NNTN Văn phạm Phân tích token Nhận dạngNNTN Câu nhập tiếng Anh
Chuỗi token của câu nhập Chuỗi dẫn xuất Từ Điển Token Tạo từ điển Từ
• Chuỗi token này sẽ được bộ “nhận dạng NNTN” phân tích theo giải thuật Earley dựa vào tập văn phạm NNTN định nghĩa trước.
• Bộ “nhận dạng NNTN” sẽ in ra quá trình dẫn xuất ra câu nhập nếu nó thuộc văn phạm đã cho.
• Bộ nhận dạng chỉ nhận dạng được những từ có trong từ điển, nếu không có sẽ báo lỗi. Nếu chúng ta tạo ra được bộ từ điển càng nhiều từ thì bộ nhận dạng sẽ nhận dạng được nhiều câu nhập hơn.
Ví dụ :