Nội dung phía trên đã trình bày các kiến thức cơ bản về một số hệ hình thức văn phạm và cách thức xây dựng biểu diễn ngữ nghĩa bậc một. Trong các chương tiếp theo, chúng ta sẽ vận dụng những kiến thức này để tìm hiểu một số hệ thống phân tích cú pháp - ngữ nghĩa văn phạm TAG đã có, hướng tới xây dựng hệ thống phân tích cú pháp - ngữ nghĩa cho văn phạm TAG tiếng Việt.
Chương 3
Cơng cụ phân tích cú pháp - ngữ nghĩa TuLiPA
Nội dung của chương này trình bày chi tiết q trình phân tích cú pháp - ngữ nghĩa văn phạm TAG sử dụng công cụ TuLiPA.
3.1 Một số cơng cụ phân tích cú pháp - ngữ nghĩa phổ biến cho văn phạm TAG
Cơng cụ phân tích cú pháp cho văn phạm TAG khá đa dạng. Hệ thống phân tích cú pháp TAG điển hình đầu tiên được phát triển cùng với một văn phạm kích thước lớn cho tiếng Anh là XTAG của Trường Đại học Pennsylvania, Hoa Kỳ [33]. Hệ thống này gồm một mô-đun biểu diễn từ vựng LTAG và một bộ phân tích cú pháp dạng hai chiều từ dưới lên. Hình 3.1 minh họa tổng quan của hệ thống phân tích cú pháp XTAG. Đầu tiên, câu cần phân tích được chuyển tới bộ phân tích hình thái và bộ gán nhãn. Kết quả của hai quá trình này được kết hợp với nhau cho đầu ra là các câu chứa chú giải các nhãn từ loại và thơng tin hình thái (số, thì,...) cho mỗi từ, đây chính là đầu vào cho q trình phân tích cú pháp. XTAG sử dụng chiến lược phân tích hai phần cho các văn phạm từ vựng hóa. Trước tiên, hệ thống tiến hành lựa chọn cho mỗi từ một tập hợp cây cơ bản mà nó có khả năng làm từ neo dựa trên các bộ cơ sở dữ liệu xây dựng sẵn: Cơ sở dữ liệu cú pháp, cơ sở dữ liệu cây, cơ sở dữ liệu thống kê. Tiếp
Câu cần phân tích Bộ phân tích hình thái Bộ gán nhãn Bộ trộn (P.O.S Blender) CSDL hình thái CSDL từ điển Lựa chọn tập cây cơ sở cho các từ Thế, kết nối các cây cơ bản sinh
cây cú pháp
CSDL cú pháp CSDL thống kê
CSDL cây