4.2.1.1 Giới thiệu
Công cụ phân tích cú pháp ngôn ngữ tự nhiên là một chương trình mà chỉ ra các cấu trúc ngữ pháp của câu. Phân tích cú pháp xác suất sử dụng kiến thức về ngôn ngữ thu được từ phân tích cú pháp câu ban đầu để tạo ra các phân tích có khả năng nhất của câu mới. Những phân tích cú pháp thống kê vẫn còn làm cho một số sai lầm, nhưng thường làm việc khá tốt. Việc phát triển là một trong những bước đột phá lớn nhất trong xử lý ngôn ngữ tự nhiên trong những năm 1990 [26].
Stanford-parser là một công cụ phân tích cú pháp hỗ trợ phân tích cú pháp
tiếng Anh và có thể được điều chỉnh đề làm việc với các ngôn ngữ khác. Phân tích
cú pháp tiếng Trung dựa trên Chinesse Treebank, phân tích cú pháp tiếng Đức là
dựa trên Negra corpus và phân tích cú pháp tiếng Ả Rập dựa trên Penn Arabic
Treebank. Còn được sử dụng để phân tích cú pháp cho các ngôn ngữ khác như:
tiếng Ý, Bungary và Bồ Đào Nha.
4.2.1.2 Hoạt động phân tích cú pháp
- Chọn file đầu vào hoặc có thể đánh trực tiếp trên phần mền:
Hình 4.4. Chọn file đầu vào
- Chọn parser:
Việc chọn parser phụ thuộc và câu cần phân tích là ngôn ngữ nào thì ta sẽ
chọn parser của ngôn ngữ đó. Theo hình 4.5: câu phân tích là tiếng Trung nên
parser cần chọn là “chinese parser” (công cụ phân tích cú pháp tiếng Trung) - Kết quả phân tích cú pháp:
Hình 4.6. Kết quả phân tích cú pháp
Kết quả thu được có thể lưu ra file (chức năng Save Output), như sau:
(ROOT (IP (NP (PN 我)) (VP (VV 学习) (NP (NN 汉语。)))))
4.2.1.3 Đánh giá
Công cụ phân tích cú pháp Stanford-parser đơn giản và hiệu quả. Khi chọn
file dữ liệu cần phân tích thì linh hoạt (cho đánh trực tiếp trên phần mềm hoặc chọn
chính xác của việc phân tích cú pháp, với số lượng câu đầu vào còn hạn chế và là dạng ngữ pháp cơ bản nên kết quả thu được so sánh với phân tích theo [27] là chính xác. Để đánh giá đúng về độ chính xác của việc phân tích cú pháp thì cần có lượng dữ liệu lớn và các dạng câu có ngữ pháp phức tạp hơn.