Công cụ phân tích cú pháp (Parser)

4.2.1.1 Giới thiệu

Công cụ phân tích cú pháp ngôn ngữ tự nhiên là một chương trình mà chỉ ra các cấu trúc ngữ pháp của câu. Phân tích cú pháp xác suất sử dụng kiến thức về ngôn ngữ thu được từ phân tích cú pháp câu ban đầu để tạo ra các phân tích có khả năng nhất của câu mới. Những phân tích cú pháp thống kê vẫn còn làm cho một số sai lầm, nhưng thường làm việc khá tốt. Việc phát triển là một trong những bước đột phá lớn nhất trong xử lý ngôn ngữ tự nhiên trong những năm 1990 [26].

Stanford-parser là một công cụ phân tích cú pháp hỗ trợ phân tích cú pháp

tiếng Anh và có thể được điều chỉnh đề làm việc với các ngôn ngữ khác. Phân tích

cú pháp tiếng Trung dựa trên Chinesse Treebank, phân tích cú pháp tiếng Đức là

dựa trên Negra corpus và phân tích cú pháp tiếng Ả Rập dựa trên Penn Arabic

Treebank. Còn được sử dụng để phân tích cú pháp cho các ngôn ngữ khác như:

tiếng Ý, Bungary và Bồ Đào Nha.

4.2.1.2 Hoạt động phân tích cú pháp

- Chọn file đầu vào hoặc có thể đánh trực tiếp trên phần mền:

Hình 4.4. Chọn file đầu vào

- Chọn parser:

Việc chọn parser phụ thuộc và câu cần phân tích là ngôn ngữ nào thì ta sẽ

chọn parser của ngôn ngữ đó. Theo hình 4.5: câu phân tích là tiếng Trung nên

parser cần chọn là “chinese parser” (công cụ phân tích cú pháp tiếng Trung) - Kết quả phân tích cú pháp:

Hình 4.6. Kết quả phân tích cú pháp

Kết quả thu được có thể lưu ra file (chức năng Save Output), như sau:

(ROOT (IP (NP (PN 我)) (VP (VV 学习) (NP (NN 汉语。)))))

4.2.1.3 Đánh giá

Công cụ phân tích cú pháp Stanford-parser đơn giản và hiệu quả. Khi chọn

file dữ liệu cần phân tích thì linh hoạt (cho đánh trực tiếp trên phần mềm hoặc chọn

chính xác của việc phân tích cú pháp, với số lượng câu đầu vào còn hạn chế và là dạng ngữ pháp cơ bản nên kết quả thu được so sánh với phân tích theo [27] là chính xác. Để đánh giá đúng về độ chính xác của việc phân tích cú pháp thì cần có lượng dữ liệu lớn và các dạng câu có ngữ pháp phức tạp hơn.

Các cách tiếp cận lai (hybrid MTs)

Nhận xét về các chiến lược