Mô hình 3: Trace và Wh-movement

Một khó khăn cho việc phân tích vị ngữ đối với bộ phân tích cú pháp đó là wh- movement (trong tiếng Anh, đây là thành phần nằm trong mệnh đề như which, whom v.v…, với tiếng việt đôi khi từ liên kết bị giảm đi ví dụ như câu “Nguyễn Văn A sinh viên trường công nghệ đã đoạt giải trong kỳ thi Sao Mai 2008 – Nguyen van A who is student in coltech, have just get price in Sao Mai 2008”). Ở đây, TRACE được dùng để dánh dấu các mệnh đề quan hệ như trong ví dụ sau:

Ví dụ 1: “Câu chuyên (SBAR mà TRACE mua Lotus) Ví dụ 2: “Câu chuyện (SBAR mà IBM mua TRACE)

Ví dụ 3: “Câu chuyện (SBAR mà IBM mua Lotus từ TRACE)

Ta có thể viết các luật cơ bản để nhận dạng ra trường hợp này trong cây cú pháp. Tuy nhiên, nhiệm vụ này nên được đưa vào trong bộ phân tích cú pháp bởi vì nó đủ phức tạp để nhân ra được sự thay đổi của xác suất và việc đưa vào bộ phân tích có thể nâng cao độ chính xác.

Nguyên nhân thứ hai để đưa tham số này vào bộ phân tích cú pháp là nhằm nâng cao các tham số cho mô hình. Thông thường, xác suất của các subcategorization không rõ ràng trong quá trình phân tích. Trong 3 ví dụ ở trên động từ “mua” là ngoại động từ nhưng nếu không có thông tin truy vết thì xác suất của “mua” sẽ làm cho nó trở thành nội động từ.

Như vậy, đối với mỗi một ký tự không kết thúc trong cây cú pháp ta đưa thêm vào đó một đặc trưng gap giống như GPSG (Gazadar et al. 95) và đưa thêm đặc trưng này vào cây cho đến khi không thể truy vết được nữa.

Chương 3. Tiếp cận trong xây dựng bộ phân tích cú pháp Tiếng Việt

Như trong chương trước, bộ phân tích cú pháp giống như bài toán trong học máy. Để xây dựng mô hình xác suất cho bộ phân tích chúng ta cần thông qua quá trình huấn luyện. Vậy dữ liệu để huấn luyện bộ phân tích cú pháp là gì? Hiện nay, trên thế giới đã có một số ngữ liệu cho Tiếng Anh (Penn Treebank), Tiếng Trung (Chinese Treebank) và kho ngữ liệu dành cho tiếng Việt (Việt Treebank) đang được xây dựng. Chương này sẽ tập trung miêu tả về kho ngữ liệu Penn Treebank và Việt Treebank.

3.1. Penn Treebank

Treebank là một kho ngữ liệu trong đó mỗi câu đều có cấu trúc cú pháp thường ở dạng cây. Treebank thường được xây dựng dựa vào tập ngữ liệu đã gán nhãn, đôi khi các thông tin về ngôn ngữ hoặc ngữ nghĩa cũng được đưa vào cấu trúc cú pháp nhằm tăng chất lượng của Treebank. Việc xây dựng Treebank có thể được thực hiện hoàn toàn thủ công hoặc bán tự động với bộ phân tích cú pháp, sau khi phân tích cú pháp, cây cú pháp cần được kiểm tra đôi khi phải hoàn chỉnh lại nó. Công việc này có thể kéo dài đến hàng năm. Penn treebank do đại học Pennsylvania phát triển, chứa khoảng 4.5 triệu câu Anh – Mỹ. Trong ba năm từ 1989 đến 1992, người ta thực hiện việc gán nhãn từ loại cho các câu. Ngữ liệu này có thể được tìm thấy trên website: http://www.ldc.upenn.edu/. Phần tiếp theo sẽ trình bày về một số nhãn từ loại trong Penn Treebank. Sau đó, chúng ta chuyển sang nhiệm vụ xếp các thành phần với nhau để đưa ra một cây cú pháp.

3.1.1. Gán nhãn từ loại

3.1.1.1. Miêu tả:

Ngữ liệu Brown được coi là tập ngữ liệu đầu tiên trên thế giới, sau nó xuất hiện thêm nhiều ngữ liệu khác. Trong tập ngữ liệu Brown có 87 nhãn từ loại cơ bản và cho phép thực hiện việc ghép những nhãn từ loại với nhau tạo ra một nhãn từ loại mới. Khối ngữ liệu này khá đồ sộ với 135 nhãn từ loại, một số ngữ liệu sau này cũng có số lượng nhãn từ loại tương đương. Tuy nhiên, khác hẳn với các ngữ liệu trước đây, tập nhãn từ loại của Penn Treebank ít hơn rất nhiều so với các khối ngữ liệu khác.

Mặc dù dựa trên tập nhãn cơ sở là các nhãn trong khối ngữ liệu Brown, nhưng nhóm xây dựng Penn Treebank sử dụng thông tin cú pháp và thông tin từ vựng trong việc làm giảm tập nhãn cú pháp. Ngoài ra, việc kích thước tập nhãn cú pháp cũng làm

tăng tính nhất quán trong ngữ liệu. Một ví dụ đơn giản ở đây đó là nếu hai cụm từ hay câu về cú pháp có một sự tương đồng nhưng được gán nhãn hoàn toàn khác nhau là điều không thích hợp. Trong Penn Treebank, nhóm xây dựng ngữ liệu đã đưa thêm thông tin liên quan đến ngữ cảnh vào để thực hiện việc gán nhãn, qua đó tăng độ chính xác của ngữ liệu. Một đặc điểm riêng nữa của Penn Treebank đó là tính đa dạng. Không như các ngữ liệu khác, việc gán nhãn không nhất thiết là một nhãn duy nhất mà nó còn có thể có nhiêu loại nhãn khác nhau.

3.1.1.2. Bảng nhãn từ loại

Nhãn từ loại trong Penn Treebank được biểu diễn bởi hình 3.. Nó chứa tất cả 36 nhãn từ loại và 12 loại nhãn khác (dành cho tiền tệ và dấu câu).

Bảng 2: Bảng nhãn từ loại trong Penn Treebank

3.1.1.3. Quá trình gán nhãn từ loại

Theo dự án Penn Treebank [15], quá trình gán nhãn từ loại bao gồm hai giai đoạn thực hiện việc gán nhãn tự động và chỉnh sửa thủ công.

- Quá trình tự động: trong dự án này, câu được gán nhãn bằng PART (Church 1988), thuật toán thống kê được phát triển bởi AT&T Bell Labs. PARTS sử dụng một mô hình chỉnh sửa của tập nhãn của Brown Corpus với sai số khoảng 3-5%. Đầu tiên,

đẩu ra của PARTS sẽ được tự động từ tố hóa, sau đó được gán dựa vào tập các nhãn từ loại của Penn Treebank. Sai số ở đây khoảng 7-9%.

- Quá trình chỉnh sửa thủ công: sau khi được gán nhãn tự động bởi PARTS, đầu ra bây giờ cần được chỉnh sửa lại cho đúng. Công việc này được thực hiện bởi con người – người chú giải. Anh ta sử dụng một trình soạn thảo văn bản (ở đây là GNU Emacs Lisp) để thao tác. Dưới đây là ví dụ trước và sau khi xử lý được lấy ra từ tài liệu của nhóm xây dựng Penn Treebank.

Hình 14: Dữ liệu đã gán nhãn trước khi xử lý thủ công

Hình 15: Dữ liệu đã gán nhãn sau khi xử lý thủ công

Hình 3. 1: Sau khi được xử lý

3.1.2. Bracketing

3.1.2.1. Phương pháp cơ bản

Phương pháp để gộp toàn bộ ngữ liệu là xử lý song song đối với việc gán nhãn và chỉnh sửa thủ công. Với bộ nhãn như trên, người ta sử dụng Fidditch, bộ phân tích tất định được phát triển bởi Donald Hindle. Một số thuộc tính cơ bản của bộ phân tích:

- Fidditch luôn đưa ra ít nhất một cây cú pháp đối với một đầu vào, nên không cần tìm kiếm trong nhiều kết quả.

- Fidditch không đính kèm bất kỳ thành phần nào có vai trò quá quá lớn. Fidditch tách đầu vào thành xâu các cây, đưa ra cấu trúc cho mỗi một câu.

- Fidditch có một độ phủ ngữ pháp tốt. Vì vậy, mà câu phân tích được khác chính xác.

3.1.2.2. Tập nhãn cú pháp.

Nhãn cú pháp là tập nhãn liên quan đến ngữ pháp, ví nhụ như ADJP là nhãn để đánh dấu cụm tính từ. Trong tập nhãn này có một số thành phần miêu tả cho các thành phần rỗng. Hình 3.3 được lấy ra từ tài liệu của nhóm xây dựng Penn Treebank miêu tả các nhãn cú pháp:

Bảng 3: Bảng nhãn cú pháp trong Penn Treebank

3.1.2.3. Ví dụ

Đây là một ví dụ về đầu ra của quá trình bracketing. Sau quá trình này ta có những cây cú pháp hoàn chỉnh:

Hình 16: Dữ liệu hoàn chỉnh 3.2. Viet Treebank

3.2.1. Mục tiêu

Cũng giống như Penn Treebank, Viet Treebank là kho ngữ liệu dành cho Tiếng Việt, bao gồm các câu được biểu diễn dưới dạng cấu trúc cú pháp (cây cú pháp). Viet Treebank được xây dựng nhằm đáp ứng những yêu cầu về dữ liệu đối với những nghiên cứu trong xử lý ngôn ngữ tự nhiên, ví dụ như việc sử dụng Viet Treebank làm dữ liệu để huấn luyện và kiểm chứng mô hình phân tích cú pháp sử dụng văn phạm phi ngữ cảnh xác suất từ vựng (LPCFG) trong luận văn này. Mục tiêu dự án là xây dựng 10000 câu tiếng việt dưới dạng cây cú pháp. Theo tài liệu của nhóm xây dựng của Viet Treebank [4], phương phướng tiếp cận để xây dựng cây cú pháp tương tự với phương pháp của nhóm xây dựng Penn Treebank (chia làm hai quá trình gán nhãn tự động và chỉnh sửa thủ công).

3.2.2. Danh sách từ loại và các nhãn cú pháp

Trong quá trình xây dựng cây cú pháp, nhóm xây dựng Viet Treebank tiếp cận theo quan điểm phân từ loại (quan điểm đối lập là không phân từ loại, phủ nhận sự tồn tại của từ loại – Lê Quang Trinh, Nguyễn Hiển Lê, Hồ Hữu Tùng). Thông qua nhãn từ loại ta có thể biết được một số thông tin như: từ loại (động từ, danh từ…), chức năng của ngữ pháp của từ (chủ ngữ, vị ngữ, …)

Bảng 4: Nhãn từ loại trong Viet Treebank

STT Tên Chú thích 1 N Danh từ 2 Np Danh từ riêng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ

33 6 A Tính từ 7 P Đại từ 8 L Định từ 9 M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ đơn lẻ 16 Y Từ viết tắt

17 X Các từ không phân loại được

Ngoài ra, đối với các từ nhãn từ viết tắt là nhãn kép, ví dụ như từ HIV có nhãn là Ny. Trong dữ liệu mới nhất của nhóm, có xuất hiện thêm nhãn Nb miêu tả các từ vay mượn.

Cũng giống như trong Penn Treebank hay bất kỳ một kho ngữ liệu khác, Viet Treebank có tập nhãn chức năng, cụm từ riêng biệt.

Bảng 5: Bảng nhãn cụm từ trong Penn Treebank

STT Tên Chú thích 1 NP Cụm danh từ 2 VP Cụm động từ 3 AP Cụm tính từ 4 RP Cụm phụ từ 5 PP Cụm giới từ 6 QP Cụm từ chỉ số lượng 7 MDP Cụm từ tình thái

8 UCP Cụm từ gồm hai hay nhiều thành phần không cùng loại được nối với nhau bằng liên từ đẳng lập

10 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì, v.v.) 11 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, v.v.) 12 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn, v.v. 13 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào, v.v.)

Bảng 6: Bảng nhãn mệnh đề trong Viet Treebank

STT Tên Chú thích

1 S Câu trần thuật (khẳng định hoặc phủ định)

2 SQ Câu hỏi

3 S-EXC Câu cảm thán

4 S-CMD Câu mệnh lệnh

5 SBAR Mệnh đề phụ kết (bổ nghĩa cho danh từ, động từ, và tính từ)

Mô hình một: Mô hình cơ sở

Các loại tham số và các đánh giá