Chương 2 Một số hướng tiếp cận trích chọn quan hệ ngữ nghĩa
3.2. Cây phân tích cú pháp tiếng Việt
Trong mục này sẽ trình bày một số các khái niệm và thành phần cơ bản về cây phân tích cú pháp1, là cơ sở cho biểu diễn các đặc trưng của một quan hệ.
3.2.1. Phân tích cú pháp
Nhận đầu vào là một chuỗi các từ tố (là kết quả của q trình phần tích từ tố, thơng thường đối với xử lý ngôn ngữ là các từ), phân tích cú pháp (parsing hay syntatic analys) là q trình phân tích nhằm đưa ra cấu trúc ngữ pháp của chuỗi từ đó dựa vào một văn phạm nào đó. Thơng thường cấu trúc ngữ pháp được là ở dạng cây, bởi thông qua dạng này sự phụ thuộc của các thành phần là trực quan. Cây này được gọi là cây phân tích cú pháp.
Hình 10: Ví dụ về cây phân tích cú pháp tiếng Việt
3.2.2. Một số thành phần cơ bản của cây phân tích cú pháp tiếng Việt
Cấu trúc của cây cú pháp như sau:
Nút gốc thể hiện loại câu (trần thuật, nghi vấn, cảm thán, cầu khiến) Các nút lá biểu diễn các từ trong câu
Nút cha của các nút lá này biểu diễn nhãn từ loại tương ứng của nút con.
1
KC01.01/06-10: "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt" (VLSP)
33
Các nút trung gian còn lại thể hiện chức năng ngữ pháp (cụm danh từ, cụm động từ, bổ ngữ …)
Ví dụ: Với câu: “Trường Đại học Công nghệ được thành lập ngày 25 tháng
5 năm 2004.” , sau khi tiến hành phân tích cú pháp, ta được cây phân tích cú pháp
như hình 10. Có 14 nhãn từ loại, 5 nhãn cụm từ và 4 loại nhãn câu được liệt kê và mô tả như trong phụ lục.