1. Trang chủ
  2. » Luận Văn - Báo Cáo

BÁO CÁO THỰC HIỆN ĐỀ TÀI 1 TÊN ĐỀ TÀI NHÁNH: SP7 4 2 THỜI GIAN THỰC HIỆ N: 52007-102007 3 NGƯỜI PHỤ TRÁCH: HỒ BẢO QUỐ C ĐIỂM CAO

31 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Thực Hiện Đề Tài 1 Tên Đề Tài Nhánh: SP7
Tác giả Hồ Bảo Quốc, Đặng Bác Văn, Phạm Đào Minh Vũ, Lương Vỹ Minh, Nguyễn Trường Sơn
Thể loại báo cáo
Năm xuất bản 2007
Định dạng
Số trang 31
Dung lượng 386,34 KB

Cấu trúc

  • 0. Dẫn nhập (6)
  • I. Các định nghĩa cơ sở (6)
  • II. Một số kho ngữ liệu song ngữ (8)
  • III. Các tiêu chí xây dựng kho ngữ liệu song ngữ (9)
  • IV. Định dạng kho ngữ liệu song ngữ (10)
  • V. Các phương pháp xây dựng kho ngữ liệu song ngữ (11)
  • VI. Đánh giá kho ngữ liệu song ngữ song song (12)
  • VII. Tài liệu tham khảo (13)

Nội dung

Luận văn, báo cáo, luận án, đồ án, tiểu luận, đề tài khoa học, đề tài nghiên cứu, đề tài báo cáo - Báo cáo khoa học, luận văn tiến sĩ, luận văn thạc sĩ, nghiên cứu - Công nghệ thông tin BÁO CÁO THỰC HIỆN ĐỀ TÀI 1. Tên đề tài nhánh: SP7.4 2. Thời gian thực hiệ n: 52007-102007 3. Người phụ trách: Hồ Bảo Quố c 4. Kế hoạch của đề tài Kế hoạch thực hiện theo như phụ lục 3-2007 của hợp đồng nhánh như sau PHỤ LỤC 3 NỘI DUNG VÀ SẢN PHẨM CẦN ĐẠT CỦA NĂM 2007 Đơn vị : triệu đồng TT Sản phẩm phải đạt Yêu cầu chất lượng đối với sả n phẩ m Tiến độ hoàn thành 1 2 3 4 SP7.4: Hai kho ngữ liệu cõu Anh- Việt cú khụng cú chỳ giải - Nghiên cứu nội dung các kho ngữ liệu song ngữ. 1 báo cáo T122007 - Nghiên cứu tham khảo cấu trúc các kho ngữ liệu song ngữ. 1 báo cáo T122007 - Thiết kế nội dung kho ngữ liệu câu Anh- Việt. 1 báo cáo T122007 - Thiết kế cấu trúc cho kho ngữ liệu câu Anh- Việt. 1 báo cáo T122007 - Thiết kế xây dựng khuôn dạng dữ liệu cho hai kho ngữ liệ u câu Anh- Việ t. 1 báo cáo T122007 - Nghiên cứu tiêu chí chọn mẫu ngữ liệu song ngữ Anh-Việt. 1 báo cáo T122007 - Công cụ hỗ trợ lọc các cặp câu dịch tốt từ các văn bả n song ngữ. SP phần mềm. Đầu vào: Văn bản song ngữ. Đầ u ra: Tập câu song ngữ chất lượng tốt. Giao diện hỗ trợ duyệ t và lựa chọn các cặp câu song ngữ chất lượng dịch tố t. Thiết kế và phân tích Modul chươ ng trình T122007 - Thu thập ngữ liệu song ngữ Anh-Việt từ các nguồ n khác nhau theo tiêu chí đó định. SP: Kho ngữ liệu 20.000 cặ p câu trong lĩnh vự c CNTT. Kho ngữ liệu 20.000 cặp câu, trong đ ó 1 phần chuyên về CNTT T122007 5. Nội dung đã thực hiện 1. Nghiên cứu hiên trạng về nội dung, cấu trúc và phương pháp xây dựng kho ngữ liệu song ngữ Anh –Việ t (Xin xem báo cáo kỹ thuật đ ính kèm) 2. Thử nghiệm việc khai thác các site song ngữ 5.2.1 Xây dựng công cụ mining tự động các kho ngữ liệu song ngữ từ Internet 5.2.2 Gióng hàng các tài liệu song ngữ đến mứ c câu 3. Các công cụ và tài nguyên đã xây dựng đượ c 5.3.1 Công cụ - Công cụ phân đoạn từ ( Vietnamese Word Segmentation) - Công cụ khai thác dữ liệu song ngữ từ Internet - Công cụ gióng hàng tài liệu song ngữ đến mứ c câu 5.3.2 Tài nguyên - Kho ngữ liệu song ngữ Anh – Việt thô (chưa được Manual Revise) gồm khoảng: 50.000 cặ p câu 6. Người thực hiện đề tài 1. Hồ Bảo Quố c 2. Đặng Bác Vă n 3. Phạm Đào Minh Vũ 4. Lương Vỹ Minh 5. Nguyễn Trường Sơ n 7. Đánh giá kết quả Các kết quả đạt được chỉ ở mức khởi đầu và mang tính thử nghiệm các khả năng. Trong thời gian tới cần phải được nghiên cứ u sâu thêm về lý thuyết, ra các quyết định chọn lựa các tiêu chí cho kho ngữ liệu sẽ xây dựng, chọn và tập hợp các tài nguyên, thử nghiệm và hoàn thiện các chương trình để tạo công cụ cho việc đánh giá và thao tác (thêm, xóa sửa) kho ngữ liệu thủ công (do các người giỏi hai ngôn ngữ đảm trách) Kho ngữ liệ u song song (Parallel Corpus) Mục lục 0. Dẫn nhập ...................................................................................................................................... 6 I. Các định nghĩa cơ sở .............................................................................................................. 6 II. Một số kho ngữ liệu song ngữ : ............................................................................................... 8 III. Các tiêu chí xây dựng kho ngữ liệu song ngữ ................................................................. 9 IV. Định dạng kho ngữ liệu song ngữ .....................................................................................10 V. Các phương pháp xây dựng kho ngữ liệu song ngữ .......................................................11 VI. Đánh giá kho ngữ liệu song ngữ song song...................................................................12 VII. Tài liệu tham khả o ...............................................................................................................13 Phụ Lục A : CES DTD ......................................................................................................................14 0. Dẫn nhập Trong tính toán ngôn ngữ học (linguistic computing) một tài nguyên rất cần thiết đó là các kho ngữ liệu song ngữ song song (parallel corpus). Các kho ngữ liệu song ngữ song song này có thể được sữ dụng cho nhiều mụ c tiêu khác nhau như : nghiên cứu ngôn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, dịch máy .v.v. Kết quả củ a các bài toán trên phụ thuộc rất nhiều vào độ lớn và chất lượng của kho ngữ liệu song song được sử dụng. Trên thế giới đã có rất nhiều kho ngữ liệu song ngữ song song được xây dựng để phục vụ cho các mục tiêu như trên (xin xem chi tiết ở phần II). Hiện nay chưa có một kho ngữ liệu song song Anh - Việt được công bố chính thứ c và cho phép cộng đồng nghiên cứu liên quan đến có thể chia sẽ sử dụng cho các mục tiêu nghiên cứu. Do đó mụ c tiêu của đề tài nhánh này nhằm nghiên cứu các cách tiếp cận xây dựng kho ngữ liệu song ngữ song song, cấu trúc và định dạng lưu trữ của các kho ngữ liệu song ngữ song song và các tiêu chí và phương pháp đánh giá một kho ngữ liệu song ngữ song song Anh – Việt. Trong khuôn khổ cho phép của kinh phí đề tài, mục tiêu của đề tài nhánh là xây dựng được một kho ngữ liệu song ngữ Anh – Việt song song gióng hàng đến mứ c câu (Sentence Aligment) gồm 100.000 cặp câu song song Anh – Việt trong đó 80.000 cặp câu cho các lĩnh vực kinh tế - xã hộ i và 20.000 cặp câu cho lĩnh vực tin họ c. Trong các phần dưới đây chúng tôi xin được lần lượt trình bày : các định nghĩa cơ sở ở phần I, khảo sát một số kho ngữ liệu song ngữ song song trên thế giới ở phần II, phần III sẽ nêu các tiêu chí trong việc xây dựng mộ t kho ngữ liệu song ngữ song song, Phần IV là các định dạng được sử dụng để tổ chức lưu trữ các kho ngữ liệ u song ngữ song song và cuối cùng trong phần V là phương pháp đánh giá chất lượng của một kho ngữ liệu song song. I. Các định nghĩa cơ sở Định nghĩa 1 : Kho ngữ liệu (corpus) Theo EAGLES (Expert Advisory Group on Language Engineering Standards) kho ngữ liệu là một tập hợ p các mảnh ngôn ngữ (pieces of language) được chọn lựa và sắp xếp theo một số tiêu chí ngôn ngữ họ c rõ ràng để được sử dụng như một mẫu của ngôn ngữ Kho ngữ liệu số hóa (computer corpus) : là kho ngữ liệu được mã hóa theo một chuẩn nhất định và đồng nhất để có thể khai thác cho các ứng dụng khác nhau Định nghĩa 2 : Một tập các văn bản (tài liệu) được viết bằng nhiều ngôn ngữ thì gọi là kho ngữ liệu đa ngữ (multilingual corpora). Định nghĩa 3 : Một tập các văn bản (tài liệu) trong các ngôn ngữ khác nhau mà có cùng chủ đề chính thì đượ c gọi là kho ngữ liệu (có thể) so sánh (comparable corpus). Định nghĩa 4 : Kho ngữ liệu song song (Parallel Corpus) là một tập các văn bản (tài liệu) trong nhiề u ngôn ngữ khác nhau, trong đó có một ngôn ngữ nguồn và một (hoặc nhiều) ngôn ngữ đích (được dịch từ ngôn ngữ nguồn). Định nghĩa 5 : Sự gióng hàng (Alignment) của các tài liệu song ngữ trong kho ngữ liệu song ngữ có thể ở các múc như sau - Mức tài liệu (Document Alignment) : Các tài liệu trong kho ngữ liệu được gióng hàng đôi mộ t, tài liệu này là bản dịch của tài liệ u kia - Mức đoạn (Paragraph Alignment) : Các đoạn trong 2 tài liệu của 2 ngôn ngữ sẽ được gióng hàng, đoạn này sẽ là bản dịch của đoạ n kia - Mức câu (Sentence Alignment) : Các tài liệu song ngữ được gióng hàng ở mứ c câu : câu này là bản dịch củ a câu kia - Mức ngữ (Phrase Alignment) : Các ngữ trong cặp câu sẽ được gióng hàng từng đôi một : ngữ này lả bản dịch của ngữ kia - Mức Từ (Word Alignment) : các từ trong câu sẽ được gióng hàng từng cặp : từ này là từ dịch củ a từ kia Mục tiêu của đề tài là xây dựng một kho ngữ liệu song ngữ song song gióng hàng ở mức câu II. Một số kho ngữ liệu song ngữ : Trên thế giới hiện có rất nhiều kho ngữ liệu song ngữ song song được chia sẽ miễn phí cho cộng đồng nghiện cứ u. Dưới đây chúng ttoi xin phép được liệt kê sơ lược một vài kho ngữ liệu song ngữ song song tiêu biểu (theo đ ánh giá chủ quan củ a chúng tôi) 1. Kho ngữ liệu song ngữ song song được xây dựng từ sự hỗ trợ của dự án EuroMatrix (tham khảo tại địa chỉ http:www.euromatrix.net). Kho ngữ liệu này gồm các cặp ngôn ngữ khác nhau được lấy nguồn từ các kỷ yế u (proceeding) của Quốc hội Châu Âu (European Parliament) từ năm 1996 – 2006 10. Kho ngữ liệu song ngữ song song này gồm 9 cặp ngôn ngữ như được liệt kê dưới đây (số liệu theo 10). Kho ngữ liệu song ngữ song song này được chia sẽ miễn phí cho mục tiêu nghiên cứu tahi đại chỉ http:www.statmt.orgeuroparl Parallel Corpus (L1-L2) Sentences L1 Words L2 Words Danish-English 1,304,947 34,169,707 36,225,880 German-English 1,313,096 34,700,362 36,663,083 Greek-English 662,090 18,834,758 18,827,241 Spanish-English 1,304,116 37,870,751 36,429,274 Finnish-English 1,257,720 24,895,790 34,802,617 French-English 1,334,080 41,573,117 37,436,222 Italian-English 1,251,315 36,411,166 36,510,033 Dutch-English 1,326,412 36,784,168 36,690,392 Portuguese-English 1,287,757 37,342,426 36,355,907 Swedish-English 1,164,536 28,882,142 32,053,628 2. Kho ngữ liệu song ngữ song song Anh-Pháp, Canadian Hansard Corpus, của hiệp hội dữ liệu ngôn ngữ học (Linguistic Data Consortium- LDC) kho ngữ liệu này gồm 2.8 triệu cặp câu (theo http:www.ldc.upenn.eduCatalogCatalogEntry.jsp?catalogId=LDC95T20). Dữ liệu văn bản thuần chủ yếu được lấy từ trang web của Quốc hội Canada http:www.parl.gc.ca. 3. JENAAD Japanese – English Parallel Corpus do Masao Utiyama và Hitoshi Isahara xây dựng, bao gồm 45.000 cặp câu, trong đó có 15.000 câu được canh theo tỉ lệ 1:1 và 30.000 câu theo tỉ lệ 1:n. (2003). 4. Kho ngữ liệu song ngữ song song Hoa – Anh PKU 863 của đại học Bắc kinh gồm hơn 200.000 cặp câu thuộ c nhiều lĩnh vực kinh tế xă hội khác nhau (tham khảo http:www.ling.lancs.ac.ukcorplang863parallel ) III.Các tiêu chí xây dựng kho ngữ liệu song ngữ Kho ngữ liệu song ngữ song song có thể được xây dự ng theo các tiêu chí sau : 1. Lĩnh vực của kho ngữ liệu : tin tức, pháp luậ t, máy tính … 2. Biểu diễn được mô hình thực của ngôn ngữ (các câu trong văn bản thực tế sử dụng của ngôn ngữ ) 3. Thời gian của tài liệu (tài liệu cũ, mới, trong khoảng thờ i gian nào) 4. Mức độ gióng hàng (theo các mức được định nghĩa trong phầ n I) 5. Các mức độ chú giải ngôn ngữ học (linguistic annotation) : không chú giải, chú giải phân đoạn đoạn, ngữ , câu, từ, chú giải từ loại của từ 6. Máy tính đọc được (Bộ mã Encodage) Các tiêu chí xây dựng kho ngữ liệu nói chung và kho ngữ liệu song ngữ song song nói riêng có thể tham khả o tại http:www.ilc.cnr.itEAGLESbrowse.html IV. Định dạng kho ngữ liệu song ngữ Có rất nhiều định dạng được dùng để mã hóa kho ngữ liệu song ngữ song song sử dụng SGML, TEI hoặ c XML. Dưới đây chúng tôi liệt kê 2 định dạng thường được sử dụ ng 1. CES (Corpus Encoding Standard) : là một chuẩn dựa trên SGML, nhằm đưa ra các hướng dẫ n (guidelines) cho việc mă hóa các kho ngữ liệu. Một tài liệu dưới dạng CES gồm 3 phầ n : a. Phần dữ liệu nguyên thủ y (primary data) : i. Thông tin về văn bản : id, title, authors … : được gọi là phần đầ u Header ii. Thông tin về cấu trúc và nội dung: các phần (section), đoạn (paragraph), câu (sentence)… : được gọi phầ n Text Phần này được mô tả chi tiết trong cesDOC DTD được đính kèm trong phần I của phụ lụ c A b. Phần chú giải ngôn ngữ họ c (linguistic annotation) i. Ranh giới đoạn, câu, từ ii. Từ loại của từ (POS) iii. Gốc từ (lemma) Phần này được mô tả chi tiết trong cesAna DTD được đính kèm trong phần II của phụ lụ c A c. Thông tin về gióng hàng (alignment) Phần này được mô tả chi tiết trong cesAlign được đính kèm trong phần III của phụ lục A Thông tin chi tiết có thể tham khảo thêm tạ i http:www.cs.vassar.eduCES CES hiện nay cũng đã có phiên bản XML, tham khảo tạ i http:www.cs.vassar.eduXCES 2. Định dạng theo kho ngữ liệu song ngữ Anh – Nauy Kho ngữ liệu song ngữ song song này được lưu trữ theo chuẩn TEI (Text Encoding Initiative). Cấ u trúc cũng tương tự như chuẩn CES (được mô tả ở phầ n I). Thông tin chi tiết có thể tham khảo tạ i http:www.hf.uio.noilosforskningforskningsprosjekterenpcENPCmanual.html. V. Các phương pháp xây dựng kho ngữ liệu song ngữ Do mục tiêu của đề tài nhánh là xây dựng kho ngữ liệu song ngữ song song Anh – Việt gióng hàng ở mứ c câu và không có chú giải, nên chúng tôi chỉ tập trung vào các phương pháp để xây dựng kho ngữ liệu song ngữ thỏ a tiêu chí trên. Xây dựng kho dữ liệu song ngữ song song gồm có 2 bướ c chính 1. Xây dựng nguồn tài liệ u song song 2. Gióng hàng các tài liệ u song song 1. Xây dựng nguồn tài liệ u a. Chọn nguồn tài liệ u Chọn nguồn tài liệu phù hợp với lĩnh vực xác định trước hoặc bao phủ nhiều lĩnh vự c khác nhau. b. Thủ công : i. Nhập vào máy tính từ các tài liệu trên giấ y ii. Mua các kho ngữ liệu song song điện tử như : sách song ngữ, báo chí song ngữ … c. Bán tự động i. Khai thác dữ liệu song ngữ từ Internet ii. Tiến hành gióng hàng ở mức tài liệ u 2. Gióng hàng i. Phương pháp thống kê : sử dụng phương pháp thống kê để tính độ “tương đồng” củ a 2 câu trong hai ngôn ngữ thông qua các đơn vị (token) trong câu. Các đơn vị ở đây có thể là các uni-gram, bi-gram hoặ c là từ, cụm từ …Phương pháp này không cần phải có một từ điển song ngữ 5. ii. Phương pháp sử dụng từ điển song ngữ Trong phương pháp này sử dụng một từ điển song ngữ để xác định các điểm neo (anchor) là các từ đượ c biết là từ dịch của nhau nhờ vào từ điển từ đó chỉ một độ đo tương tự giữ a hai câu. iii. Các phương pháp máy họ c Học từ một kho ngữ liệu song ngữ song song gióng hàng ở mức câu cho trước từ đó sử dụng các tương ứng về từ có được sau giai đoạn học để gióng hàng cho một kho ngữ liệu song ngữ mới. VI. Đánh giá kho ngữ liệu song ngữ song song a. Đánh giá thủ công : nhờ chuyên gia ngôn ngữ đánh giá trên các mẩu được chọn ngẫu nhiên từ kho ngữ liệ u b. Đánh giá tự động : sử dụng kho ngữ liệu song ngữ song song cho dịch tự động bằng phươ ng pháp thông kê (SMT) v...

Dẫn nhập

Trong tính toán ngôn ngữ học (linguistic computing) một tài nguyên rất cần thiết đó là các kho ngữ liệu song ngữ song song (parallel corpus) Các kho ngữ liệu song ngữ song song này có thể được sữ dụng cho nhiều mục tiêu khác nhau như : nghiên cứu ngôn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, dịch máy v.v Kết quả của các bài toán trên phụ thuộc rất nhiều vào độ l ớ n và ch ấ t l ượ ng của kho ngữ liệu song song được sử dụng Trên thế giới đã có rất nhiều kho ngữ liệu song ngữ song song được xây dựng để phục vụ cho các mục tiêu như trên (xin xem chi tiết ở phần II) Hiện nay chưa có một kho ngữ liệu song song Anh - Việt được công bố chính thức và cho phép cộng đồng nghiên cứu liên quan đến có thể chia sẽ sử dụng cho các mục tiêu nghiên cứu Do đó mục tiêu của đề tài nhánh này nhằm nghiên cứu các cách tiếp cận xây dựng kho ngữ liệu song ngữ song song, cấu trúc và định dạng lưu trữ của các kho ngữ liệu song ngữ song song và các tiêu chí và phương pháp đánh giá một kho ngữ liệu song ngữ song song Anh – Việt Trong khuôn khổ cho phép của kinh phí đề tài, mục tiêu của đề tài nhánh là xây dựng được một kho ngữ liệu song ngữ Anh – Việt song song gióng hàng đến mức câu (Sentence Aligment) gồm 100.000 cặp câu song song Anh – Việt trong đó 80.000 cặp câu cho các lĩnh vực kinh tế - xã hội và 20.000 cặp câu cho lĩnh vực tin học

Trong các phần dưới đây chúng tôi xin được lần lượt trình bày : các định nghĩa cơ sở ở phần I, khảo sát một số kho ngữ liệu song ngữ song song trên thế giới ở phần II, phần III sẽ nêu các tiêu chí trong việc xây dựng một kho ngữ liệu song ngữ song song, Phần IV là các định dạng được sử dụng để tổ chức lưu trữ các kho ngữ liệu song ngữ song song và cuối cùng trong phần V là phương pháp đánh giá chất lượng của một kho ngữ liệu song song.

Các định nghĩa cơ sở

Định nghĩa 1 : Kho ng ữ li ệ u (corpus)

Theo EAGLES (Expert Advisory Group on Language Engineering Standards) kho ngữ liệu là một tập hợp các mảnh ngôn ngữ (pieces of language) đượ c ch ọ n l ự a và s ắ p x ế p theo m ộ t s ố tiêu chí ngôn ng ữ h ọ c rõ ràng để được sử dụng như một mẫu của ngôn ngữ

Kho ngữ liệu số hóa (computer corpus) : là kho ngữ liệu được mã hóa theo một chuẩn nhất định và đồng nhất để có thể khai thác cho các ứng dụng khác nhau Định nghĩa 2 : Một tập các văn bản (tài liệu) được viết bằng nhiều ngôn ngữ thì gọi là kho ng ữ li ệ u đ a ng ữ

(multilingual corpora) Định nghĩa 3 : Một tập các văn bản (tài liệu) trong các ngôn ngữ khác nhau mà có cùng chủ đề chính thì được gọi là kho ng ữ li ệ u (có th ể ) so sánh (comparable corpus) Định nghĩa 4 : Kho ng ữ li ệ u song song (Parallel Corpus) là một tập các văn bản (tài liệu) trong nhiều ngôn ngữ khác nhau, trong đó có một ngôn ngữ nguồn và một (hoặc nhiều) ngôn ngữ đích (được dịch từ ngôn ngữ nguồn) Định nghĩa 5 : Sự gióng hàng (Alignment) của các tài liệu song ngữ trong kho ngữ liệu song ngữ có thể ở các múc như sau

- Mức tài liệu (Document Alignment) : Các tài liệu trong kho ngữ liệu được gióng hàng đôi một, tài liệu này là bản dịch của tài liệu kia

- Mức đoạn (Paragraph Alignment) : Các đoạn trong 2 tài liệu của 2 ngôn ngữ sẽ được gióng hàng, đoạn này sẽ là bản dịch của đoạn kia

- Mức câu (Sentence Alignment) : Các tài liệu song ngữ được gióng hàng ở mức câu : câu này là bản dịch của câu kia

- Mức ngữ (Phrase Alignment) : Các ngữ trong cặp câu sẽ được gióng hàng từng đôi một : ngữ này lả bản dịch của ngữ kia

- Mức Từ (Word Alignment) : các từ trong câu sẽ được gióng hàng từng cặp : từ này là từ dịch của từ kia

Mục tiêu của đề tài là xây dựng một kho ng ữ li ệ u song ng ữ song song gióng hàng ở m ứ c câu

Một số kho ngữ liệu song ngữ

Trên thế giới hiện có rất nhiều kho ngữ liệu song ngữ song song được chia sẽ miễn phí cho cộng đồng nghiện cứu Dưới đây chúng ttoi xin phép được liệt kê sơ lược một vài kho ngữ liệu song ngữ song song tiêu biểu (theo đánh giá chủ quan của chúng tôi)

1 Kho ngữ liệu song ngữ song song được xây dựng từ sự hỗ trợ của dự án EuroMatrix (tham khảo tại địa chỉ http://www.euromatrix.net/) Kho ngữ liệu này gồm các cặp ngôn ngữ khác nhau được lấy nguồn từ các kỷ yếu (proceeding) của Quốc hội Châu Âu (European Parliament) từ năm 1996 – 2006 [10] Kho ngữ liệu song ngữ song song này gồm 9 cặp ngôn ngữ như được liệt kê dưới đây (số liệu theo [10]) Kho ngữ liệu song ngữ song song này được chia sẽ miễn phí cho mục tiêu nghiên cứu tahi đại chỉ http://www.statmt.org/europarl/

Parallel Corpus (L1-L2) Sentences L1 Words L2 Words

Danish-English 1,304,947 34,169,707 36,225,880 German-English 1,313,096 34,700,362 36,663,083 Greek-English 662,090 18,834,758 18,827,241 Spanish-English 1,304,116 37,870,751 36,429,274 Finnish-English 1,257,720 24,895,790 34,802,617 French-English 1,334,080 41,573,117 37,436,222 Italian-English 1,251,315 36,411,166 36,510,033 Dutch-English 1,326,412 36,784,168 36,690,392

2 Kho ngữ liệu song ngữ song song Anh-Pháp, Canadian Hansard Corpus, của hiệp hội dữ liệu ngôn ngữ học (Linguistic Data Consortium- LDC) kho ngữ liệu này gồm 2.8 tri ệ u c ặ p câu (theo http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC95T20) Dữ liệu văn bản thuần chủ yếu được lấy từ trang web của Quốc hội Canada http://www.parl.gc.ca

3 JENAAD Japanese – English Parallel Corpus do Masao Utiyama và Hitoshi Isahara xây dựng, bao gồm

45.000 c ặ p câu , trong đó có 15.000 câu được canh theo tỉ lệ 1:1 và 30.000 câu theo tỉ lệ 1:n (2003)

4 Kho ngữ liệu song ngữ song song Hoa – Anh PKU 863 của đại học Bắc kinh gồm hơn 200.000 c ặ p câu thuộc nhiều lĩnh vực kinh tế xă hội khác nhau (tham khảo http://www.ling.lancs.ac.uk/corplang/863parallel/ )

Các tiêu chí xây dựng kho ngữ liệu song ngữ

Kho ngữ liệu song ngữ song song có thể được xây dựng theo các tiêu chí sau :

1 Lĩnh vực của kho ngữ liệu : tin tức, pháp luật, máy tính …

2 Biểu diễn được mô hình thực của ngôn ngữ (các câu trong văn bản thực tế sử dụng của ngôn ngữ)

3 Thời gian của tài liệu (tài liệu cũ, mới, trong khoảng thời gian nào)

4 Mức độ gióng hàng (theo các mức được định nghĩa trong phần I)

5 Các mức độ chú giải ngôn ngữ học (linguistic annotation) : không chú giải, chú giải phân đoạn đoạn, ngữ, câu, từ, chú giải từ loại của từ

6 Máy tính đọc được (Bộ mã Encodage)

Các tiêu chí xây dựng kho ngữ liệu nói chung và kho ngữ liệu song ngữ song song nói riêng có thể tham khảo tại http://www.ilc.cnr.it/EAGLES/browse.html

Định dạng kho ngữ liệu song ngữ

Có rất nhiều định dạng được dùng để mã hóa kho ngữ liệu song ngữ song song sử dụng SGML, TEI hoặc XML Dưới đây chúng tôi liệt kê 2 định dạng thường được sử dụng

1 CES (Corpus Encoding Standard) : là một chuẩn dựa trên SGML, nhằm đưa ra các hướng dẫn (guidelines) cho việc mă hóa các kho ngữ liệu Một tài liệu dưới dạng CES gồm 3 phần : a Phần dữ liệu nguyên thủy (primary data) : i Thông tin về văn bản : id, title, authors … : được gọi là phần đầu Header ii Thông tin về cấu trúc và nội dung: các phần (section), đoạn (paragraph), câu (sentence)… : được gọi phần Text

Phần này được mô tả chi tiết trong cesDOC DTD được đính kèm trong phần I của phụ lục A b Phần chú giải ngôn ngữ học (linguistic annotation) i Ranh giới đoạn, câu, từ ii Từ loại của từ (POS) iii Gốc từ (lemma) Phần này được mô tả chi tiết trong cesAna DTD được đính kèm trong phần II của phụ lục A c Thông tin về gióng hàng (alignment) Phần này được mô tả chi tiết trong cesAlign được đính kèm trong phần III của phụ lục A

Thông tin chi tiết có thể tham khảo thêm tại http://www.cs.vassar.edu/CES/

CES hiện nay cũng đã có phiên bản XML, tham khảo tại http://www.cs.vassar.edu/XCES/

2 Định dạng theo kho ngữ liệu song ngữ Anh – Nauy

Kho ngữ liệu song ngữ song song này được lưu trữ theo chuẩn TEI (Text Encoding Initiative) Cấu trúc cũng tương tự như chuẩn CES (được mô tả ở phần I)

Thông tin chi tiết có thể tham khảo tại http://www.hf.uio.no/ilos/forskning/forskningsprosjekter/enpc/ENPCmanual.html.

Các phương pháp xây dựng kho ngữ liệu song ngữ

Do mục tiêu của đề tài nhánh là xây dựng kho ngữ liệu song ngữ song song Anh – Việt gióng hàng ở mức câu và không có chú giải, nên chúng tôi chỉ tập trung vào các phương pháp để xây dựng kho ngữ liệu song ngữ thỏa tiêu chí trên

Xây dựng kho dữ liệu song ngữ song song gồm có 2 bước chính

1 Xây dựng nguồn tài liệu song song

2 Gióng hàng các tài liệu song song

1 Xây dựng nguồn tài liệu a Chọn nguồn tài liệu Chọn nguồn tài liệu phù hợp với lĩnh vực xác định trước hoặc bao phủ nhiều lĩnh vực khác nhau b Thủ công : i Nhập vào máy tính từ các tài liệu trên giấy ii Mua các kho ngữ liệu song song điện tử như : sách song ngữ, báo chí song ngữ … c Bán t ự động i Khai thác dữ liệu song ngữ từ Internet ii Tiến hành gióng hàng ở mức tài liệu

2 Gióng hàng i Phương pháp thống kê : sử dụng phương pháp thống kê để tính độ “tương đồng” của 2 câu trong hai ngôn ngữ thông qua các đơn vị (token) trong câu Các đơn vị ở đây có thể là các uni-gram, bi-gram hoặc là từ, cụm từ …Phương pháp này không cần phải có một từ điển song ngữ [5] ii Phương pháp sử dụng từ điển song ngữ

Trong phương pháp này sử dụng một từ điển song ngữ để xác định các điểm neo (anchor) là các từ được biết là từ dịch của nhau nhờ vào từ điển từ đó chỉ một độ đo tương tự giữa hai câu.[ iii Các phương pháp máy học

Học từ một kho ngữ liệu song ngữ song song gióng hàng ở mức câu cho trước từ đó sử dụng các tương ứng về từ có được sau giai đoạn học để gióng hàng cho một kho ngữ liệu song ngữ mới.

Đánh giá kho ngữ liệu song ngữ song song

a Đánh giá thủ công : nhờ chuyên gia ngôn ngữ đánh giá trên các mẩu được chọn ngẫu nhiên từ kho ngữ liệu b Đánh giá tự động : sử dụng kho ngữ liệu song ngữ song song cho dịch tự động bằng phương pháp thông kê (SMT) và đánh giá độ đo bleu của chất lượng dịch.

Ngày đăng: 07/03/2024, 12:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w