Văn phạm phi ngữ cảnh

Một phần của tài liệu Nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt (Trang 71 - 76)

Chương 6 VĂN PHẠM PHI NGỮ CẢNH VÀ PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT

6.1 Văn phạm phi ngữ cảnh

6.1.1 Văn phạm và ngôn ngữ sinh bởi văn phạm

Một tập hợp Χ ≠ φ (vô hạn hoặc hữu hạn) các đối tượng được gọi là một bảng chữ cái.

Mỗi phần tử thuộc tập Χ được gọi là một chữ cái hay một ký hiệu. Mỗi dãy ký hiệu các phần tử của Χ: α = ai1ai2...ait, aij ∈ Χ, 1 ≤ j ≤ t được gọi là một từ hay một xâu trên bảng chữ cái Χ. Ví dụ ba, ca, con,... Tổng số vị trí của tất cả các ký hiệu xuất hiện trong từ α được gọi là độ dài của α, ký hiệu là |α|. Từ có độ dài bằng 0 được gọi là từ rỗng (trống), được ký hiệu là ε.

Gọi Σ* là tập hợp gồm tất cả các từ trên bảng chữ cái Σ, kể cả từ rỗng. Mỗi một tập con của tập Σ* được gọi là một ngôn ngữ trên bảng chữ cái Σ. Tập rỗng cũng là một ngôn ngữ trên bảng chữ cái tuỳ ý, được ký hiệu bằng φ.

Giả sử có bảng chữ cái Σ, một văn phạm là một bộ bốn G = (Σ, V, σ, P), trong đó:

• Σ là bảng chữ cái chính hay bảng chữ cái từ hay tập ký hiệu kết

• V là bảng chữ cái phụ hay bảng chữ cái làm việc hay tập ký hiệu không kết

• σ ∈ V là một ký hiệu phụ, gọi là tiền đề hay ký hiệu xuất phát hay ký hiệu khởi đầu

• P = {ϕ → ψ⎪ϕ∈(Σ ∪V)*\{ε}, ψ ∈(Σ ∪V)*, → ∉ (Σ ∪V)} gọi là tập quy tắc sinh hay tập quy tắc thế của văn phạm G. r = ϕ → ψ là một quy tắc sinh hay quy tắc thế của văn phạm G, ϕ, ψ theo thứ tự được gọi là vế trái và vế phải của quy tắc r.

6.1.2 Văn phạm phi ngữ cảnh

Theo cách phân loại của Chomsky, văn phạm được chia thành ba loại, gồm

Văn phạm cảm ngữ cảnh, hoặc văn phạm biến đổi. Độ dài của xâu α bên trái mỗi quy tắc phải nhỏ hơn hoặc bằng độ dài của xâu β bên vế phải của quy tắc đó. Nghĩa là mọi sản xuất đều có dạng λAρ → λαρ, trong đó λ và ρ là các xâu

71

bất kỳ (có thể rỗng). λ và ρ có thể coi như vế trái và vế phải của văn cảnh ở đó ký hiệu không kết A được viết lại thành xâu không rỗng α, chính vì vậy nên văn phạm loại này được gọi là cảm ngữ cảnh. Các quy tắc sinh cảm ngữ cảnh có thể dùng để chuyển một câu từ dạng chủ động sang dạng bị động tương ứng.

Văn phạm phi ngữ cảnh, hay văn phạm cấu trúc cụm. Mọi quy tắc đều có dạng A → α, trong đó A là ký hiệu không kết và α là xâu bất kỳ.

Văn phạm chính quy, hay văn phạm tuyến tính phải. Mọi quy tắc đều có một trong hai dạng sau: A → t hoặc A → tN, trong đó A và N là các ký hiệu không kết, t là ký hiệu kết. Các văn phạm chính quy không đủ mạnh để mô tả ngôn ngữ tự nhiên (thậm chí cả các ngôn ngữ lập trình). Chúng thường được dùng để mô tả các bộ phận của ngôn ngữ và có thế mạnh là tốc độ phân tích nhanh.

Hình 6-1. Phân loại văn phạm của Chomsky

Các quy tắc sinh của văn phạm phi ngữ cảnh G có thể được chuẩn hoá theo hai cách mà không làm thay đổi khả năng sinh của nó, gồm dạng chuẩn Chomsky và dạng chuẩn Greibach.

Trong dạng chuẩn Chomsky, các quy tắc có dạng A → BC hoặc A → a. Với dạng chuẩn Greibach, các qui tắc có dạng A → aα.

Cây dẫn xuất của văn phạm là một cây được đánh dấu bởi các ký hiệu kết thúc hoặc không kết thúc sao cho mỗi nút mẹ là vế trái của một qui tắc sinh mà vế trái của qui tắc đó lập nên bởi dãy các kí hiệu của các nút con.

Sau đây ta đi vào tìm hiểu việc vận dụng các văn phạm phi ngữ cảnh và các thuật toán phân tích để biểu diễn ngôn ngữ tự nhiên và xây dựng các trình phân tích cú pháp.

6.1.3 Biểu diễn cấu trúc câu

Văn phạm phi ngữ cảnh khi được sử dụng để biểu diễn cấu trúc cú pháp thì các ký hiệu kết thúc tương ứng với các từ trong ngôn ngữ, các ký hiệu không kết thúc tương ứng với các phân loại cú pháp (hay từ loại). Tiên đề biểu diễn phân loại "câu". Các quy tắc sinh biểu diễn các quy

72

tắc ngữ pháp. Ta có thể chia chúng thành các qui tắc từ vựng (chứa ít nhất một ký hiệu kết thúc) và các qui tắc ngữ đoạn (không chứa ký hiệu kết thúc nào). Với mỗi từ trong từ vựng có một tập các qui tắc sinh chứa từ này trong vế phải. Một cây dẫn xuất cũng được gọi là cây cú pháp cho một phân tích của một ngữ đoạn thành các thành phần kế tiếp.

Với lớp câu kể đơn giản nhất trong tiếng Anh, ta dùng bộ quy tắc sinh sau đây:

S → NP VP

VP → VERB NP

NP → NAME

NP → ART NOUN

Các ký hiệu không thể phân tách thêm được nữa như NOUN, ART, VERB trong văn phạm ví dụ trên là các ký hiệu kết. Các ký hiệu khác, gồm S, NP, VP là các ký hiệu không kết.

Mỗi ký hiệu kết biểu diễn một từ loại. Thông thường, một từ có nhiều kiểu từ loại khác nhau, ví dụ, từ can có thể là VERB hoặc NOUN.

Có hai phương pháp điển hình dùng để phân tích văn phạm phi ngữ cảnh, là phân tích từ trên xuốngphân tích từ dưới lên.

• Phân tích từ trên xuống: Xuất phát từ ký hiệu đầu S, áp dụng các suy dẫn tiến hành từ trái qua phải thử tạo ra câu cần phân tích

• Phân tích từ dưới lên: Xuất phát từ chính câu vào, áp dụng thu gọn các suy dẫn phải, tiến hành từ phải qua trái để đi tới ký hiệu đầu.

Ví dụ, xét câu "John ate the cat". Phân tích từ trên xuống như sau S → NP VP

→ NAME VP

→ John VP

→ John VERB NP

→ John ate NP

→ John ate ART NOUN

→ John ate the NOUN

→ John ate the cat Phân tích từ dưới lên thì ngược lại.

Một văn phạm rộng hơn dùng cho lớp câu kể của tiếng Anh là 1. S → NP VP

2. NP → ART NOUN 3. NP → NAME 4. PP → PREP NP

73

5. VP → VERB 6. VP → VERB NP 7. VP → VERB NP NP 8. VP → VERB PP

Trong đó, các ký hiệu và từ loại tương ứng được cho trong bảng sau:

Ký hiệu Từ loại tương ứng

S Câu

NP cụm danh từ VP cụm động từ PP cụm giới từ NOUN danh từ ART mạo từ VERB động từ NAME tên riêng Theo văn phạm này thì một số câu như

• John saw the cat by the pond

• The dog barked in the house

là chấp nhận được, nhưng nó cũng chấp nhận những câu không có nghĩa như

• The dog allows the house

• John barked the cat by the pond Với câu John ate the cat, ta có cây phân tích như Hình 6-2.

Hình 6-2. Cây biểu diễn câu John ate the cat

74

6.1.4 Đánh giá hai phương pháp phân tích trên

Phân tích từ dưới lên và phân tích từ trên xuống đều có những ưu nhược điểm riêng. Với phân tích từ trên xuống, ưu điểm là ta không cần quan tâm rằng trong câu đúng cú pháp không thể có những từ loại nằm sai vị trí. Nguyên nhân của ưu điểm này là do trình phân tích bắt đầu từ một từ loại và kiểm tra xem từ hiện tại có đúng là thuộc vào lớp từ loại đó hay không. Ví dụ, nếu sử dụng văn phạm

1. S → NP VP 5. NP → ART ADJ NOUN

2. S → NP AUX VERB 6. NP → ADJ NOUN

3. S → NP VERB 7. VP → AUX VERB NP

4. NP → ART NOUN 8. VP → VERB NP

Bảng 6-1. Một văn phạm phi ngữ cảnh đơn giản

thì trình phân tích từ trên xuống của câu The can fall sẽ cho rằng câu S bắt đầu bằng một NP, NP bắt đầu bằng ART, sau đó là ADJ hoặc NOUN. Vì can là NOUN, nên nó tìm thấy một NP và do đó các nghĩa AUX hoặc VERB của can không bao giờ được xét.

Nhưng phân tích từ trên xuống lại có thể tốn nhiều thời gian bởi những công việc tương tự nhau có khi phải lặp lại nhiều lần. Giả sử ta cần phân tích câu The bird sang cũng với văn phạm trên. Ban đầu, trình phân tích sử dụng quy tắc 1 tìm ra một NP the bird, sau đó sử dụng quy tắc 8 cho VP, nó tìm thấy VERB, nhưng sau đó phải là NP thì không thoả mãn. Do đó nó quay lại và thử tìm một phân tích khác của S. Trình phân tích thử dùng quy tắc 2 và NP the bird lại được phân tích lại, nhưng lần này không tìm thấy AUX, nó quay lại lần nữa để thử với quy tắc 3. Lần này thì thành công và như vậy việc phân tích NP the bird được thực hiện 3 lần.

Nhược điểm này được khắc phục trong phân tích từ dưới lên. Trong ví dụ trên, NP the bird chỉ được xây dựng một lần và đối với câu này, chỉ quy tắc 3 là phù hợp. Nhưng trình phân tích từ dưới lên lại phải xem xét tất cả các từ loại có thể có của một từ và xây dựng những cấu trúc có thể không hợp lệ.

6.1.5 Phương pháp phân tích tổng hợp

Ta sẽ thiết kế một trình phân tích vừa có những ưu điểm của hai kỹ thuật phân tích từ trên xuống và từ dưới lên lại không có những nhược điểm như trên. Phương pháp là vừa xây dựng một trình phân tích từ trên xuống vừa bổ sung từng thành phần vào biểu đồ. Trong quá trình phân tích, trước khi ta viết lại một ký hiệu để lấy ra những thành phần mới, ta kiểm tra xem thành phần đó đã nằm trong biểu đồ hay chưa. Nếu nó đã nằm trong biểu đồ thì ta dùng luôn mà không phải sử dụng các quy tắc của văn phạm để viết lại thành phần đó nữa.

Chi tiết xin tham khảo trong bản Khoá luận tốt nghiệp của Lê Hồng Phương, K43, Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội.

75

Một phần của tài liệu Nghiên cứu phát triển côngnghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng việt (Trang 71 - 76)

Tải bản đầy đủ (PDF)

(95 trang)