Khái niệm chung về văn phạm

Một phần của tài liệu Nghiên cứu xây dựng thuật toán trích rút tự động các luật văn phạm PCFG LTGA từ các kho ngữ liệu có chú giải cú pháp tiếng việt phục vụ cho bài toán phân tích cú pháp (Trang 86)

5.2.1.1. Định nghĩa

Một tập hợp Σ≠ Ø hữu hạn các đối tượng được gọi là một bảng chữ cái. Mỗi phần tử thuộc tập Σ được gọi là một chữ cái hay một kí hiệu kết thúc. Một từ hay một xâu trên bảng chữ cái Σ là một dãy hữu hạn gồm một số lớn hơn hoặc bằng không các kí hiệu của Σ. Xâu không có kí hiệu nào được gọi là từ rỗng và được kí hiệu ε.

71

Kí hiệu Σ* là tập hợp gồm tất cả các từ trên bảng chữ cái Σ, kể cả từ rỗng. Mỗi một tập con của tập Σ* được gọi là một ngôn ngữ trên bảng chữ cái Σ.

Văn phạm hay văn phạm sinh hay văn phạm ngữ cấu là một bộ bốn G = (Σ, V, σ, P), trong đó:

- Σ: Bảng chữ cái chính (kí hiệu cơ bản), còn gọi là bảng chữ cái từ của văn phạm.

- V: Bảng chữ cái phụ (bao gồm các kí hiệu phụ không kết thúc) hay bảng chữ cái hỗ trợ của văn phạm.

- Σ, V là các tập hữu hạn và khác trống; Σ ∩V = Ø

- σ ∈V và được gọi là tiên đề hay kí hiệu xuất phát của văn phạm

- P = {φ → ψ | φ ∈ (Σ ∪V)+, ψ ∈ (Σ ∪V)*, → ∉ (Σ ∪V)}: Tập quy tắc sinh hay tập quy tắc thế của văn phạm.

- Với mỗi quy tắc thế (quy tắc sinh) r = φ → ψ của văn phạm, φ gọi là vế

trái, ψ gọi là vế phải của quy tắc đó. Quy tắc r được gọi là quy tắc kết (hoặc quy tắc kết thúc) nếu ψ ≠ε và không một kí hiệu nào thuộc ψ mà lại xuất hiện ở vế trái của quy tắc trong P.

5.2.1.2. Phân loại Chomsky

Chomsky [39] đã đưa ra một cách phân lớp các văn phạm dựa theo ràng buộc về dạng của các quy tắc sinh của một văn phạm bất kì;

a. Văn phạm tổng quát (loại 0)

Văn phạm tổng quát là các văn phạm không có ràng buộc về dạng quy tắc. b. Văn phạm cảm ngữ cảnh (loại 1)

Văn phạm G = (Σ, V, σ, P) được gọi là văn phạm cảm ngữ cảnh nếu mỗi quy tắc của nó đều có dạng ξ1Aξ2→ξ1θξ2. Trong đó ξ1, ξ2 là các từ tuỳ ý trong bảng chữ

cái hỗn hợp Σ∪ V, A ∈ V và θ - từ tuỳ ý khác rỗng thuộc bảng chữ cái Σ∪ V. Quy tắc dạng ξ1Aξ2 →ξ1θξ2, trong đó ξ1, ξ2, A, θ thoả mãn các tính chất vừa nêu được gọi là quy tắc cảm ngữ cảnh, còn các từξ1,ξ2 và cặp ξ1, ξ2 được gọi một

72

cách tương ứng là ngữ cảnh trái, ngữ cảnh phải và ngữ cảnh của quy tắc cảm ngữ

cảnh ξ1Aξ2 →ξ1θξ2.

c. Văn phạm phi ngữ cảnh (loại 2)

Nếu ξ1 = ξ2 = ε thì quy tắc cảm ngữ cảnh được gọi là quy tắc phi ngữ cảnh hay quy tắc ngữ cảnh tự do, nói cách khác quy tắc A →θ, A∈V, θ∈ (Σ∪V)+ được gọi là quy tắc phi ngữ cảnh.

Văn phạm cảm ngữ cảnh mà tất cả các quy tắc của nó đều là quy tắc phi ngữ

cảnh được gọi là văn phạm phi ngữ cảnh hay văn phạm với ngữ cảnh tự do. d. Văn phạm chính quy (loại 3)

Văn phạm tuyến tính phải mà mỗi quy tắc của nó thuộc một trong hai dạng: A → aB, A → a, A, B là các kí hiệu phụ, còn a – kí hiệu cơ bản được gọi là văn phạm chính quy hay văn phạm ôtômat

Một phần của tài liệu Nghiên cứu xây dựng thuật toán trích rút tự động các luật văn phạm PCFG LTGA từ các kho ngữ liệu có chú giải cú pháp tiếng việt phục vụ cho bài toán phân tích cú pháp (Trang 86)