Dúng hàng văn bản song ngữ Phỏp-Việt

Một phần của tài liệu bckh_cong_nghe_nhan_dang_0493 (Trang 42 - 45)

2. Nội dung chớnh của bỏo cỏo

2.2 Những nội dung đó thực hiện

2.2.3.2 Dúng hàng văn bản song ngữ Phỏp-Việt

Cho đến nay cỏc hệ thống dúng hàng ở mức cõu đó được kết quả khỏ tốt, với độ chớnh xỏc xấp xỉ 95% mà chỉ sử dụng cỏc thụng tin thống kờ khỏ độc lập với ngụn ngữ, trừ trường hợp cỏc văn bản dịch khụng thật sự "song song" (chẳng hạn như dịch lược bớt nhiều). Trong khi đú cỏc hệ thống dúng hàng ở mức từ, ngữ đoạn thỡ kết quả kộm chớnh xỏc hơn và hiển nhiờn phụ thuộc vào từng cặp ngụn ngữ cụ thể. Trong khuụn khổ của dự ỏn này, chỳng tụi tập trung nghiờn cứu dúng hàng ở mức cõu và mức từ/ngữ cho cỏc văn bản song ngữ Phỏp - Việt. Đối với việc dúng hàng ở mức cõu, chỳng tụi ỏp dụng phương phỏp đó được nhúm triển khai ở giai đoạn

trước cho cỏc cặp ngụn ngữ Ấn - Âu cho cặp tiếng Phỏp - Việt và đỏnh giỏ kết quả nhằm điều chỉnh cỏc tham số của hệ thống một cỏch phự hợp nhất.

Đối với việc dúng hàng ở mức từ ngữ, nghiờn cứu tập trung vào việc cải tiến kĩ thuật dúng hàng ở mức từ sử dụng phương phỏp vectơ khoảng cỏch bằng cỏch kết hợp với kĩ thuật dúng hàng cú cấu trỳc. Việc dúng hàng văn bản song ngữ ở mức từ đũi hỏi bước tiền xử lớ là phõn tớch từ ngữ trong cỏc văn bản được xột. Điều này đũi hỏi cỏc cụng cụ phõn tớch văn bản trong từng ngụn ngữ, ở đõy là tiếng Phỏp và tiếng Việt. Trong khi cỏc cụng cụ và tài nguyờn ngụn ngữ cho phõn tớch cỏc ngụn ngữ Ấn Âu núi chung và tiếng Phỏp núi riờng được phỏt triển đa dạng từ nhiều năm nay thỡ cụng cụ và đặc biệt là tài nguyờn ngụn ngữ cho việc phõn tớch tiếng Việt cú thể núi là khụng cú gỡ. Khú khăn là chưa cú một sự hợp tỏc chặt chẽ giữa những nhà nghiờn cứu Việt ngữ và những người làm Tin học: cộng đồng ngụn ngữ học trong nước khỏ "thờ ơ" với lĩnh vực cụng nghệ ngụn ngữ và rất hiếm người nghiờn cứu ngụn ngữ hỡnh thức. Trong khi đú cỏc nhà ngụn ngữ cho đến nay vẫn khú thống nhất với nhau về những vấn đề nền tảng của phõn tớch ngụn ngữ như từ loại tiếng Việt, phõn tớch thành phần cõu. Vỡ những lớ do đú, cỏc nghiờn cứu trong khuụn khổ đề tài này đó tập trung đa phần thời gian và nhõn lực để xõy dựng và phỏt triển tài nguyờn ngụn ngữ và cụng cụ chuẩn mực cho việc phõn tớch văn bản tiếng Việt, bao gồm xõy dựng kho từ vựng chứa thụng tin ngữ phỏp, phõn tỏch và gỏn nhón từ loại cho cỏc đơn vị từ vựng trong văn bản bằng phương phỏp thống kờ, xõy dựng văn phạm phõn tớch ngữ phỏp tiếng Việt (theo hệ hỡnh thức TAG). Đõy là những ngữ liệu và cụng cụ cơ bản mà cỏc nghiờn cứu về xử lớ ngụn ngữ tự nhiờn đều cần đến. Cỏc kho ngữ liệu này được mó hoỏ theo cấu trỳc XML đang được xem xột đưa vào chuẩn quốc tể về biểu diễn và quản lớ tài nguyờn ngụn ngữ (ISO TC 37 SC4).

Nội dung nghiờn cứu lý thuyết

− Phương phỏp phõn tỏch từ tiếng Việt: sử dụng ụtụmat để nhận dạng chuỗi kớ tự tương ứng với đơn vị từ vựng trong từ điển.

− Xõy dựng bộ nhón từ loại tiếng Việt: tiến hành mụ tả từ vựng theo mụ hỡnh hai lớp, tương thớch với mụ hỡnh MULTEXT cho cỏc ngụn ngữ Tõy Âu và Đụng Âu. Chọn phương phỏp quỏ trỡnh ngẫu nhiờn để giải quyết bài toỏn gỏn nhón từ vựng.

− Xõy dựng văn phạm tiếng Việt theo hệ hỡnh thức TAG (Tree Adjoining Grammar)

− Dúng hàng song ngữ: Kết hợp phương phỏp dúng hàng sử dụng vectơ khoảng cỏch và phương phỏp dúng hàng dựa vào văn bản cú cấu trỳc.

Sản phẩm

− Dúng hàng:

• Cụng cụ phần mềm: hệ thống cú khả năng xỏc định cỏc tương đương dịch ở mức từ/ngữ đoạn trong cỏc văn bản song ngữ Phỏp - Việt, nhằm hỗ trợ cho việc dịch tự động hay dịch tay, cũng như phục vụ cho cỏc nghiờn cứu ngụn ngữ về từ vựng, thuật ngữ trong một hay nhiều ngụn ngữ hoặc cú thể hỗ trợ cho việc học tiếng.

• Kho ngữ liệu: kho văn bản song ngữ Phỏp - Việt và Anh - Việt được thu thập và mó hoỏ theo sơ đồ biểu diễn đang được xem xột đưa vào chuẩn quốc tế về biểu diễn và quản lớ tài nguyờn ngụn ngữ quốc tế.

− Sản phẩm kốm theo:

• Cụng cụ phần mềm: Bộ cụng cụ xử lớ tự động văn bản tiếng Việt như phần mềm tỏch từ (tokenizer), phần mềm gỏn nhón từ loại tự động (POS tagger), phần mềm đối chiếu từ loại (concordancer), phần mềm phõn tớch cỳ phỏp cõu tiếng Việt (parser).

• Kho ngữ liệu: Cơ sở ngữ liệu tiếng Việt gồm bộ từ vựng cú mụ tả cỏc thụng tin ngữ phỏp, từ vựng; kho văn bản tiếng Việt cú gỏn nhón từ loại, tập quy tắc ngữ phỏp. Cũng như kho ngữ liệu song ngữ ở trờn, kho ngữ liệu tiếng Việt này cũng được mó hoỏ theo sơ đồ biểu diễn đang được xem xột đưa vào chuẩn quốc tể về biểu diễn và quản lớ tài nguyờn ngụn ngữ.

Trả lời ý kiến nhận xột

− Trong quỏ trỡnh nghiờn cứu, nhúm nhận thức được tầm quan trọng của việc xõy dựng một kho ngữ liệu cú chỳ giải ngữ phỏp - khụng chỉ trong giới hạn của đề tài này mà phục vụ cho tất cả cỏc nghiờn cứu khỏc cần đến phõn tớch văn bản (tham khảo hội thảo về tài nguyờn ngụn ngữ LREC - http://www.lrec- conf.org/). Vỡ vậy bộ cụng cụ nhúm đó xõy dựng là nhằm đỏp ứng việc quản lớ, cập nhật dữ liệu lõu dài. Nhúm cũng quan tõm đến việc theo đuổi cỏc sơ đồ mó hoỏ chuẩn quốc tế (đang được nghiờn cứu, thảo luận trong dự ỏn ISO TC37 SC4), hướng tới mục tiờu trao đổi tri thức tiếng Việt trong cộng đồng nghiờn cứu ứng dụng đa ngữ.

− Phần mềm gỏn nhón sử dụng một kho văn bản gỏn nhón bằng tay làm dữ liệu huấn luyện. Việc gỏn nhón bằng tay đũi hỏi nhiều cụng sức, đặc biệt trong điều kiện vấn đề phõn loại từ tiếng Việt cú rất nhiều tranh cói trong giới ngụn ngữ học, chưa đi đến kết luận chuẩn mực. Cũng như cỏc hệ thống quản lớ kho văn bản cú chỳ ngữ phỏp khỏc trờn thế giới, hệ thống của chỳng tụi thực hiện gỏn nhón tự động với cơ sở tri thức “học được” từ kho văn bản gỏn nhón bằng tay với kớch thước nhỏ (100 nghỡn từ, so với cỏc hệ thống khỏc sử dụng hàng triệu từ); sau đú chỉnh sửa kết quả bằng tay để mở rộng khụng ngừng kho văn bản mẫu. Ngồi ra, bộ nhón đưa ra cũng cần được tiếp tục đỏnh giỏ và chỉnh sửa đề phản ỏnh tốt hơn quan hệ ngữ phỏp giữa cỏc từ. Về mặt phương phỏp luận, nhúm sử dụng phương phỏp đơn giản vỡ thực ra vấn đề quan trọng cần giải quyết trước là xõy dựng kho từ vựng và ngữ liệu mẫu. Cỏc phương phỏp đơn giản hay cải tiến theo đỏnh giỏ của cỏc hệ thống cho kết quả khỏc nhau dưới 2% phần trăm nếu cú một kho ngữ liệu mẫu đủ lớn.

− Túm lại, đõy là đề tài cần phải tiếp tục nghiờn cứu lõu dài và cú nhiều can thiệp hơn nữa của giới ngụn ngữ học. Nhúm hiện đang tiếp tục nghiờn cứu và sắp tới sẽ phổ biến phần mềm và triển khai cỏc hoạt động hợp tỏc nghiờn cứu với cỏc nhà ngụn ngữ.

− Về phần mềm dúng hàng, hiện tại nhúm đang đỏnh giỏ kết quả dúng hàng ở mức từ (kết quả dúng hàng ở mức cõu cho kết quả đạt yờu cầu - đạt 98 -> 99% đối với văn bản song ngữ cú chất lượng dịch tốt). Kho dữ liệu song ngữ thu

thập được cũng được mó hoỏ theo sơ đồ XML chuẩn được thiết kế cho cỏc kho ngữ liệu đơn và đa ngữ trong cộng đồng nghiờn cứu xử lớ ngụn ngữ tự nhiờn. − Kết luận: nhúm thực hiện mục tiờu xõy dựng một hệ thống nghiờn cứu mở và

hợp tỏc với cỏc nhúm nghiờn cứu khỏc - điều kiện cần thiết để thỳc đẩy việc nghiờn cứu xử lớ tự động tiếng Việt vốn chậm hơn cỏc nước tiờn tiến nhiều chục năm.

Một phần của tài liệu bckh_cong_nghe_nhan_dang_0493 (Trang 42 - 45)

Tải bản đầy đủ (PDF)

(121 trang)