Phõn tớch cỳ phỏp phụ thuộc

Một phần của tài liệu (LUẬN án TIẾN sĩ) cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc (Trang 99 - 104)

5 Ảnh hưởng của cõy cỳ phỏp phụ thuộc đến chất lượng dịch

5.2 Phõn tớch cỳ phỏp phụ thuộc

Phõn tớch cỳ phỏp cú vai trũ quan trọng trong lĩnh vực xử lý văn bản vỡ nú là bước trung gian của nhiều bài toỏn lớn như: túm tắt văn bản, dịch mỏy, hỏi đỏp tự động. Trong thời gian gần đõy, phõn tớch cỳ phỏp phụ thuộc thu hỳt được sự quan tõm của nhiều nhúm nghiờn cứu xử lý ngụn ngữ tự nhiờn trờn thế giới bởi quan hệ phụ thuộc giữa hai từ vựng cú thể cú ớch trong khử nhập nhằng và cỳ phỏp này cú khả năng mụ hỡnh húa cỏc ngụn ngữ cú trật tự từ tự do. Cỏc tiếp cận cho bài toỏn này đều dựa trờn học mỏy và đũi hỏi kho ngữ

liệu với nhiều thụng tin về từ loại và quan hệ phụ thuộc. Đó cú một số cụng bố nghiờn cứu về phõn tớch cỳ phỏp phụ thuộc tiếng Việt [77–80, 83].

5.2.1 Bài toỏn phõn tớch cỳ phỏp phụ thuộc

Bài toỏn tổng quỏt: Cho một cõu, phõn tớch cỳ phỏp đưa ra mụ tả về quan hệ và vai trũ ngữ phỏp của cỏc từ, cụm từ và hỡnh thỏi của cõu đú.

Hỡnh 5.1: Mụ hỡnh bài toỏn tổng quỏt về phõn tớch cỳ phỏp phụ thuộc

Đầu vào: Cõu đó được phõn tỏch từ và gỏn nhón từ loại trong đú, mỗi từ lại cú một đặc điểm hỡnh thỏi xỏc định. Quỏ trỡnh kiểm tra và phõn tớch, tổ hợp đầu vào dựa trờn cỏc luật cỳ phỏp để loại bỏ cỏc trường hợp bất quy tắc và từng bước xõy dựng nờn cấu trỳc cỳ phỏp.

Đầu ra: Kết quả cần đạt được là quan hệ phụ thuộc cỏc từ trong cõu đầu vào.

5.2.2 Định dạng dữ liệu theo chuẩn CoNLL

Cỏc ngụn ngữ trờn thế giới hiện tại khi sử dụng văn phạm phụ thuộc đều tuõn theo cỏch biểu diễn dựa trờn chuẩn CoNLL (ConNLL data format) [13,37]. Tựy thuộc vào đặc thự của từng ngụn ngữ mà người ta sẽ quyết định dựng những thuộc tớnh nào để biểu diễn cho phự hợp. Với tiếng Việt cũng cú những đặc thự riờng so với cỏc ngụn ngữ khỏc. Vớ dụ như tiếng Việt khụng cú dạng khỏc của từ (LEMMA) ở cỏc thời khỏc nhau như tiếng Anh. Dựa trờn cỏc yếu

98

Bảng 5.1: Cỏc trường dữ liệu theo định dạng của CoNLL cho ngụn ngữ tiếng Việt TT Tờn trường í nghĩa

1 ID Số thứ tự của token trong cõu, đỏnh tăng dần bắt đầu từ 1. 2 FORM Nội dung text của token.

3 LEMMA Khụng sử dụng

4 CPOSTAG Nhón từ loại thụ của token. Vớ dụ N - danh từ

5 POSTAG Nhón từ loại tinh của token. Vớ dụ Np- danh từ riờng 6 FEATS Khụng sử dụng

7 HEAD ID của phần tử mà token hiện tại phụ thuộc vào trong cõu.

Nếu token hiện là là nỳt gốc hoặc nú là dấu cõu thỡ head của nú là 0. 8 DEPREL Tờn của quan hệ giữa token hiện tại với token mà nú phụ thuộc

vào trong cõu. 9 PHEAD Khụng sử dụng 10 PDEPREL Khụng sử dụng

tố văn phạm đặc thự của tiếng Việt trong cỏc tài liệu ngữ phỏp [5], [99], [41]. Biểu diễn của văn phạm phụ thuộc của tiếng Việt trờn chuẩn CoNLL được mụ tả như sau:

• File dữ liệu chứa cỏc cõu được ngăn cỏch bởi 1 dũng trắng.

• Mỗi cõu bao gồm cỏc token, mỗi token được thể hiện trờn từng dũng liờn tiếp.

• Mỗi dũng biểu diễn token sử dụng 5/10 trường của định dạng CoNLL, được định nghĩa trong bảng 5.1. Cỏc trường cỏch nhau bởi một dấu tab. Trường khụng cú thụng tin được thể hiện bằng dấu gạch dưới.

• File dữ liệu mó húa theo định dạng UTF-8.

Vớ dụ về dữ liệu phụ thuộc theo định dạng CoNLL cho cõu đầu vào: "Họ mặc quõn phục, khụng nổ sỳng nhưng phẩm chất anh hựng vẫn lấp lỏnh." được

Bảng 5.2: Biểu diễn theo định dạng chuẩn CoNLL cho cõu đầu vào tiếng Việt. 1 Họ _ P _ _ 2 sub _ _ 2 mặc _ V _ _ 0 root _ _ 3 quõn_phục _ N _ _ 2 dob _ _ 4 , _ , _ _ 2 punct _ _ 5 khụng _ R _ _ 6 adv _ _ 6 nổ_sỳng _ V _ _ 2 vmod _ _ 7 nhưng _ C _ _ 2 dep _ _ 8 phẩm_chất _ N _ _ 11 sub _ _ 9 anh_hựng _ N _ _ 8 nmod _ _ 10 vẫn _ R _ _ 11 amod _ _ 11 lấp_lỏnh _ A _ _ 2 dep _ _ 12 . _ . _ _ 2 punct _ _ thể hiện trong bảng 5.2 5.2.3 Sử dụng tập nhón cho cỳ phỏp phụ thuộc

Để phõn tớch cỳ phỏp cú độ chớnh xỏc cao, chỳng ta phải đề cập tới hai vấn đề chớnh: tài nguyờn cho phõn tớch cỳ phỏp phụ thuộc và cụng cụ phõn tớch cỳ phỏp phụ thuộc. Tài nguyờn cỳ phỏp phụ thuộc chớnh là dữ liệu huấn luyện, dữ liệu kiểm tra tớnh chớnh xỏc và dữ liệu đầu vào của cụng cụ phõn tớch cỳ phỏp.

Kho ngữ liệu tiếng Việt (VietTreebank)

Trong cỏc phương phỏp giải cỏc bài toỏn cơ bản của phõn tớch ngụn ngữ thỡ phương phỏp thống kờ trờn một tập dữ liệu được cỏc nhà nghiờn cứu đặc biệt quan tõm hơn cả. Cỏc phương phỏp thống kờ trong phõn tớch cỳ phỏp sẽ cho kết quả ổn định và độ chớnh xỏc cao nếu cú tập dữ liệu mẫu đủ lớn. Tập dữ liệu mẫu này chớnh là kho ngữ liệu.

Kho ngữ liệu mà trong đú, mỗi cõu được chỳ giải cấu trỳc cỳ phỏp là nguồn

100

tài nguyờn rất hữu ớch trong lĩnh vực xử lý ngụn ngữ tự nhiờn. Kho ngữ liệu này được gọi là treebank. Treebank cú nhiều ứng dụng quan trọng như đỏnh giỏ, kiểm định cỏc cụng cụ xử lý ngụn ngữ tự động, cỏc phần mềm dịch mỏy, túm tắt văn bản, cỏc hệ thống hỏi đỏp. . . cỏc hệ thống treebank cho cỏc thứ tiếng được nghiờn cứu nhiều như Anh, Phỏp, Trung. . . đó được xõy dựng từ rất lõu. Với tiếng Việt, treebank được nghiờn cứu ứng dụng trong khuụn khổ VLSP và cú tờn là VietTreebank [42, 84]. Mục tiờu của VietTreebank là xõy dựng được lược đồ giải thớch cỳ phỏp với hơn 10000 cõu.

Kho ngữ liệu rất quan trọng trong việc tạo nờn tài nguyờn cho phõn tớch cỳ phỏp phụ thuộc cho tiếng Việt. Dựa vào kho ngữ liệu để xỏc định quan hệ và tờn quan hệ giữa cỏc từ trong cõu. Ngoài ra, kho ngữ liệu cũng được sử dụng trong chuyển tự động từ treebank sang định dạng dữ liệu của từng cụng cụ, phục vụ để giải quyết từng bài toỏn khỏc nhau.

Tập nhón đa ngụn ngữ

Tập nhón phụ thuộc đa ngụn ngữ được xõy dựng bởi nhúm nghiờn cứu của trường đại học Stanford. Đõy là một dự ỏn được phỏt triển dựa vào chỳ giải treebank cho đa ngụn ngữ, học chộo giữa cỏc ngụn ngữ, phõn tớch từ gúc độ loại hỡnh ngụn ngữ. Tập nhón phụ thuộc này được phỏt triển, cải tiến dựa vào tập nhón phụ thuộc cho tiếng Anh.

Mục tiờu chung của việc phỏt triển một bộ nhón phụ thuộc đa ngụn ngữ là để cú thể cung cấp một kho ngữ liệu chung về cỏc nhón, cỏc hướng dẫn tạo điều kiện thuận lợi cho việc xõy dựng cỏc cụng trỡnh tương tự đối với cỏc ngụn ngữ khỏc nhau, cho phộp mở rộng đối với một ngụn ngữ khi cần thiết. Cỏc đặc tớnh hỡnh thỏi của tập nhón phụ thuộc đa ngụn ngữ nhằm mục đớch cung cấp một tập cơ bản cỏc đặc trưng quan trọng để cú thể phõn tớch và những đặc trưng này phõn bố rộng rói trờn cỏc ngụn ngữ khỏc nhau. Cỏc phụ thuộc được mụ tả trong tập quan hệ phụ thuộc đa ngụn ngữ rỳt ra từ tập quan hệ phụ thuộc Stanford [26].

Tập nhón phụ thuộc Stanford đó được xõy dựng dựa vào những ý tưởng được mụ tả trong mối quan hệ ngữ phỏp chung cú thể thấy trong nhiều ngụn ngữ khỏc nhau. Tập nhón này được tổ chức theo cỏc nhúm về chủ đề, tõn ngữ, cỏc mệnh đề, từ hạn định của danh từ, hoặc cỏc từ bổ nghĩa cho danh từ . . . Stanford đưa ra gần 50 loại quan hệ phụ thuộc cho tiếng Anh dựa vào kho ngữ liệu Penn treebank [68]. Tất cả cỏc quan hệ phụ thuộc đú đều là quan hệ hai ngụi: giữa một từ trung tõm và từ phụ thuộc của nú. Cỏc quan hệ phụ thuộc trong tập nhón phụ thuộc Stanford được thiết kế một cỏch dễ hiểu và rừ ràng. Mỗi một quan hệ được đưa ra bởi ba thành phần: tờn quan hệ phụ thuộc, từ trung tõm và từ phụ thuộc.

Bộ nhón xõy dựng dành cho tiếng Việt được dựa trờn sự nghiờn cứu về quan hệ phụ thuộc đa ngụn ngữ và VietTreebank. Bộ nhón này cú sự trựng lặp với cỏc nhón phụ thuộc trong tập nhón phụ thuộc đa ngụn ngữ và một số nhón mới. So sỏnh tập nhón tiếng Việt và tập nhón tiếng Anh được thể hiện trong hỡnh 5.2. Theo nghiờn cứu [67, 83], bộ nhón dành cho tiếng Việt bao gồm khoảng 46 nhón. Trong nghiờn cứu [26], nhúm nhón tiếng Anh cú khoảng 50 nhón quan hệ ngữ phỏp. Một số nhón tiếng Việt trong tập nhón phụ thuộc đa ngụn ngữ khụng cú. Một số nhón quan hệ phụ thuộc cú trong tập nhón phụ thuộc đa ngụn ngữ nhưng tiếng Việt lại khụng cú.

Một phần của tài liệu (LUẬN án TIẾN sĩ) cải tiến chất lượng dịch máy thống kê anh việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc (Trang 99 - 104)

Tải bản đầy đủ (PDF)

(146 trang)