Văn phạm phi ngữ cảnh (Context Free Gramma r CFG)

Một phần của tài liệu Nghiên cứu xây dựng thuật toán trích rút tự động các luật văn phạm PCFG LTGA từ các kho ngữ liệu có chú giải cú pháp tiếng việt phục vụ cho bài toán phân tích cú pháp (Trang 88)

Văn phạm phi ngữ cảnh CFG đã được sử dụng tương đối phổ biến cho bài toán phân tích cú pháp thành phần của ngôn ngữ tự nhiên [41], ngay cả với tiếng Việt cũng đã được sử dụng [15,78]. Các thành phần của văn phạm CFG có thể ánh xạ tương ứng với các ký hiệu trong ngôn ngữ tự nhiên, cụ thể là các kí hiệu kết thúc tương ứng với các từ trong ngôn ngữ, kí hiệu không kết thúc tương ứng với các phân loại cú pháp (cụm từ, từ loại). Tiên đề biểu diễn phân loại “câu”. Các quy tắc sinh biểu diễn các quy tắc ngữ pháp, có thể chia các quy tắc ngữ pháp thành các quy tắc từ vựng (chứa ít nhất một kí hiệu kết thúc) và các quy tắc ngữđoạn (không chứa kí hiệu kết thúc nào). Với mỗi từ trong từ vựng có một tập các quy tắc sinh chứa từ

này trong vế phải.

Một cây dẫn xuất cũng được gọi là cây cú pháp biểu diễn một phân tích của một câu thành các thành phần kế tiếp.

Miền xác định phụ thuộc của văn phạm CFG: Mỗi hệ hình thức văn phạm có một miền xác định phụ thuộc cục bộ (domain of locality), nghĩa là phạm vi mà trong

73

một văn phạm phi ngữ cảnh, miền xác định phụ thuộc là cây có chiều cao một tầng tương ứng với một quy tắc trong văn phạm.

Ví dụ: Xét các luật trong văn phạm phi ngữ cảnh G được biểu diễn dưới dạng hình cây như Hình 5.1

Hình 5. 1Biểu diễn văn phạm G dưới dạng cây

Trong ví dụ, ta thấy các đối của vị từ thường không ở trong một miền xác

định phụ thuộc, cụ thể hai đối của “thích” nằm trong hai quy tắc (hai miền xác định phụ thuộc): quy tắc (1) và (2).

Một văn phạm hình thức gồm các quy tắc được từ vựng hoá sẽ có tính mô tả

ngôn ngữ học cao, làm cho các quy tắc gắn với mỗi từ mô tả được đặc trưng riêng của từđó. Tuy nhiên, không phải tất cả các quy tắc của CFG đều từ vựng hoáđược.

Ví dụ: Trong ví dụ trên, các quy tắc (3), (4), (5) đều được từ vựng hóa. Quy tắc (2) hầu như được từ vựng hóa vì nếu thay V trong quy tắc (2) bằng “thích” thì quy tắc này trở thành từ vựng hóa được. Tuy nhiên, quy tắc (1) không thể từ vựng hóa được.

Văn phạm CFG đã được sử dụng tương đối phổ biến cho bài toán phân tích cú pháp của ngôn ngữ tự nhiên, theo cả hai cách tiếp cận, đó là dựa theo luật và dựa vào thống kê [41]. S NP VP V NP VP NP Hà V thích NP môn lý (1) (2) (3) (4) (5)

74

Một phần của tài liệu Nghiên cứu xây dựng thuật toán trích rút tự động các luật văn phạm PCFG LTGA từ các kho ngữ liệu có chú giải cú pháp tiếng việt phục vụ cho bài toán phân tích cú pháp (Trang 88)

Tải bản đầy đủ (PDF)

(150 trang)