Những thành tựu mà đồ án đã đạt được:
• Tìm hiểu và nghiên cứu rất các phương pháp phân tích cú pháp cũng như những mô hình trên thế giới để tìm ra hướng đi mới cho nhánh đề tài này.
• Tìm hiểu và kết hợp sử dụng bộ tách từ và bộ gán nhãn thành bộ tiền xử lí cho đầu vào của phân tích cú pháp.
• Thiết kế dữ liệu đầu ra cho hệ thống hỗ trợ các công đoạn khác trong tổng hợp tiếng nói có thể dễ dàng sử dụng.
• Xây dựng thành công giải thuật A* áp dụng cho phân tích cú pháp tiếng Việt với tốc độ và độ chính xác khả quan.
• Đề xuất ra được ý tưởng về giải thuật lelightwin cắt tỉa giúp tăng tốc độ của hệ thống phân tích lên một tầm mới.
Hướng phát triển của đồ án:
Đồ án đã thử đem so sánh hệ thống với một số hệ thống phân tích cú pháp khác như hệ thống phân tích cú pháp PCFG của thầy Hoàng Anh Việt K46, hệ thống phân tích cú pháp học máy thống kê của VLSP. Kết quả cho thấy như sau:
• Chương trình phân tích của thầy Việt tốc độ rất nhanh do tập luật cú pháp đơn giản chỉ có 180 luật (trong khi bộ luật của hệ thống là 938 luật) tuy nhiên với những trường hợp câu phức tạp và lằng nhằng thì kết quả không mấy khả quan. Nhưng hệ thống của thầy Việt có một điểm mà hệ thống của đồ án cần phải học hỏi là có sử dụng giải thuật huấn luyện inside outside, giải thuật này sẽ giúp cải thiện chất lượng của bộ phân tích cú pháp lên rất nhiều.
• Chương trình PTCP của VLSP thật sự rất tốt, kết quả cho ra vô cùng khả quan. Nếu với những câu không có dấu phẩy, thì bộ phân tích cú pháp của VLSP tỏ ra ưu thế hơn hẳn so với hệ thống của đồ án. Nguyên nhân của kết quả này là do VLSP (GS.Hồ Tú Bảo) có tập TreeBank khổng lồ gồm 10.000 câu với bộ luật cú pháp đã được nghiên cứu rất kĩ lưỡng. Thêm vào đó, hệ thống tách từ và gán nhãn của họ đã được nghiên cứu rất khoa học và đã được thử nghiệm đảm bảo độ chính xác trên 90%.
Ngoài ra, mô hình PCFG mà hệ thống sử dụng vẫn chưa phải là tối ưu khi các trường hợp nhập nhằng cú pháp ở cấp độ từ vựng vẫn chưa thể giải quyết được. Về vấn đề này, mô hình LPCFG đã được nghiên cứu từ rất lâu và cho kết quả vô cùng khả quan trong việc xử lí nhập nhằng cấp độ từ vựng. Ngoài ra, với việc thêm thông tin của từ vào trong luật cú pháp, mô hình LPCFG có thể tận dụng được tối đa
thông tin mà tập TreeBank mang lại, đó thực sự là một hướng phát triển đầy hứa hẹn.
Qua những điều đã phân tích ở trên, những hướng phát triển của đồ án trong tương lai sẽ là :
• Hoàn thành giải thuật lelightwin cắt tỉa.
• Kết hợp giải thuật A* sử dụng mô hình LPCFG giúp nâng cao độ chính xác của bộ phân tích cú pháp.
• Xây dựng một tập VietTreeBank có quy mô lớn hơn hoặc tái sử dụng tập TreeBank của VLSP nhằm nâng cao chất lượng của dữ liệu huấn luyện cũng như bộ luật cú pháp.
• Hệ thống lại các nhãn từ loại và ngữ loại để sử dụng bộ vnTagger thay thế cho vnqtag.