Văn phạm phi ngữ cảnh CFG đã được sử dụng tương đối phổ biến cho bài toán phân tích cú pháp thành phần của ngôn ngữ tự nhiên [41], ngay cả với tiếng Việt cũng đã được sử dụng [15,78]. Các thành phần của văn phạm CFG có thể ánh xạ tương ứng với các ký hiệu trong ngôn ngữ tự nhiên, cụ thể là các kí hiệu kết thúc tương ứng với các từ trong ngôn ngữ, kí hiệu không kết thúc tương ứng với các phân loại cú pháp (cụm từ, từ loại). Tiên đề biểu diễn phân loại “câu”. Các quy tắc sinh biểu diễn các quy tắc ngữ pháp, có thể chia các quy tắc ngữ pháp thành các quy tắc từ vựng (chứa ít nhất một kí hiệu kết thúc) và các quy tắc ngữđoạn (không chứa kí hiệu kết thúc nào). Với mỗi từ trong từ vựng có một tập các quy tắc sinh chứa từ
này trong vế phải.
Một cây dẫn xuất cũng được gọi là cây cú pháp biểu diễn một phân tích của một câu thành các thành phần kế tiếp.
Miền xác định phụ thuộc của văn phạm CFG: Mỗi hệ hình thức văn phạm có một miền xác định phụ thuộc cục bộ (domain of locality), nghĩa là phạm vi mà trong
73
một văn phạm phi ngữ cảnh, miền xác định phụ thuộc là cây có chiều cao một tầng tương ứng với một quy tắc trong văn phạm.
Ví dụ: Xét các luật trong văn phạm phi ngữ cảnh G được biểu diễn dưới dạng hình cây như Hình 5.1
Hình 5. 1Biểu diễn văn phạm G dưới dạng cây
Trong ví dụ, ta thấy các đối của vị từ thường không ở trong một miền xác
định phụ thuộc, cụ thể hai đối của “thích” nằm trong hai quy tắc (hai miền xác định phụ thuộc): quy tắc (1) và (2).
Một văn phạm hình thức gồm các quy tắc được từ vựng hoá sẽ có tính mô tả
ngôn ngữ học cao, làm cho các quy tắc gắn với mỗi từ mô tả được đặc trưng riêng của từđó. Tuy nhiên, không phải tất cả các quy tắc của CFG đều từ vựng hoáđược.
Ví dụ: Trong ví dụ trên, các quy tắc (3), (4), (5) đều được từ vựng hóa. Quy tắc (2) hầu như được từ vựng hóa vì nếu thay V trong quy tắc (2) bằng “thích” thì quy tắc này trở thành từ vựng hóa được. Tuy nhiên, quy tắc (1) không thể từ vựng hóa được.
Văn phạm CFG đã được sử dụng tương đối phổ biến cho bài toán phân tích cú pháp của ngôn ngữ tự nhiên, theo cả hai cách tiếp cận, đó là dựa theo luật và dựa vào thống kê [41]. S NP VP V NP VP NP Hà V thích NP môn lý (1) (2) (3) (4) (5)
74