1. Trang chủ
  2. » Luận Văn - Báo Cáo

BÁO CÁO THỰC HIỆN ĐỀ TÀI 1 TÊN ĐỀ TÀI NHÁNH: SP7 4 2 THỜI GIAN THỰC HIỆ N: 52007-102007 3 NGƯỜI PHỤ TRÁCH: HỒ BẢO QUỐ C ĐIỂM CAO

31 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 386,34 KB

Nội dung

Luận văn, báo cáo, luận án, đồ án, tiểu luận, đề tài khoa học, đề tài nghiên cứu, đề tài báo cáo - Báo cáo khoa học, luận văn tiến sĩ, luận văn thạc sĩ, nghiên cứu - Công nghệ thông tin BÁO CÁO THỰC HIỆN ĐỀ TÀI 1. Tên đề tài nhánh: SP7.4 2. Thời gian thực hiệ n: 52007-102007 3. Người phụ trách: Hồ Bảo Quố c 4. Kế hoạch của đề tài Kế hoạch thực hiện theo như phụ lục 3-2007 của hợp đồng nhánh như sau PHỤ LỤC 3 NỘI DUNG VÀ SẢN PHẨM CẦN ĐẠT CỦA NĂM 2007 Đơn vị : triệu đồng TT Sản phẩm phải đạt Yêu cầu chất lượng đối với sả n phẩ m Tiến độ hoàn thành 1 2 3 4 SP7.4: Hai kho ngữ liệu cõu Anh- Việt cú khụng cú chỳ giải - Nghiên cứu nội dung các kho ngữ liệu song ngữ. 1 báo cáo T122007 - Nghiên cứu tham khảo cấu trúc các kho ngữ liệu song ngữ. 1 báo cáo T122007 - Thiết kế nội dung kho ngữ liệu câu Anh- Việt. 1 báo cáo T122007 - Thiết kế cấu trúc cho kho ngữ liệu câu Anh- Việt. 1 báo cáo T122007 - Thiết kế xây dựng khuôn dạng dữ liệu cho hai kho ngữ liệ u câu Anh- Việ t. 1 báo cáo T122007 - Nghiên cứu tiêu chí chọn mẫu ngữ liệu song ngữ Anh-Việt. 1 báo cáo T122007 - Công cụ hỗ trợ lọc các cặp câu dịch tốt từ các văn bả n song ngữ. SP phần mềm. Đầu vào: Văn bản song ngữ. Đầ u ra: Tập câu song ngữ chất lượng tốt. Giao diện hỗ trợ duyệ t và lựa chọn các cặp câu song ngữ chất lượng dịch tố t. Thiết kế và phân tích Modul chươ ng trình T122007 - Thu thập ngữ liệu song ngữ Anh-Việt từ các nguồ n khác nhau theo tiêu chí đó định. SP: Kho ngữ liệu 20.000 cặ p câu trong lĩnh vự c CNTT. Kho ngữ liệu 20.000 cặp câu, trong đ ó 1 phần chuyên về CNTT T122007 5. Nội dung đã thực hiện 1. Nghiên cứu hiên trạng về nội dung, cấu trúc và phương pháp xây dựng kho ngữ liệu song ngữ Anh –Việ t (Xin xem báo cáo kỹ thuật đ ính kèm) 2. Thử nghiệm việc khai thác các site song ngữ 5.2.1 Xây dựng công cụ mining tự động các kho ngữ liệu song ngữ từ Internet 5.2.2 Gióng hàng các tài liệu song ngữ đến mứ c câu 3. Các công cụ và tài nguyên đã xây dựng đượ c 5.3.1 Công cụ - Công cụ phân đoạn từ ( Vietnamese Word Segmentation) - Công cụ khai thác dữ liệu song ngữ từ Internet - Công cụ gióng hàng tài liệu song ngữ đến mứ c câu 5.3.2 Tài nguyên - Kho ngữ liệu song ngữ Anh – Việt thô (chưa được Manual Revise) gồm khoảng: 50.000 cặ p câu 6. Người thực hiện đề tài 1. Hồ Bảo Quố c 2. Đặng Bác Vă n 3. Phạm Đào Minh Vũ 4. Lương Vỹ Minh 5. Nguyễn Trường Sơ n 7. Đánh giá kết quả Các kết quả đạt được chỉ ở mức khởi đầu và mang tính thử nghiệm các khả năng. Trong thời gian tới cần phải được nghiên cứ u sâu thêm về lý thuyết, ra các quyết định chọn lựa các tiêu chí cho kho ngữ liệu sẽ xây dựng, chọn và tập hợp các tài nguyên, thử nghiệm và hoàn thiện các chương trình để tạo công cụ cho việc đánh giá và thao tác (thêm, xóa sửa) kho ngữ liệu thủ công (do các người giỏi hai ngôn ngữ đảm trách) Kho ngữ liệ u song song (Parallel Corpus) Mục lục 0. Dẫn nhập ...................................................................................................................................... 6 I. Các định nghĩa cơ sở .............................................................................................................. 6 II. Một số kho ngữ liệu song ngữ : ............................................................................................... 8 III. Các tiêu chí xây dựng kho ngữ liệu song ngữ ................................................................. 9 IV. Định dạng kho ngữ liệu song ngữ .....................................................................................10 V. Các phương pháp xây dựng kho ngữ liệu song ngữ .......................................................11 VI. Đánh giá kho ngữ liệu song ngữ song song...................................................................12 VII. Tài liệu tham khả o ...............................................................................................................13 Phụ Lục A : CES DTD ......................................................................................................................14 0. Dẫn nhập Trong tính toán ngôn ngữ học (linguistic computing) một tài nguyên rất cần thiết đó là các kho ngữ liệu song ngữ song song (parallel corpus). Các kho ngữ liệu song ngữ song song này có thể được sữ dụng cho nhiều mụ c tiêu khác nhau như : nghiên cứu ngôn ngữ học so sánh, tìm kiếm thông tin xuyên ngữ, dịch máy .v.v. Kết quả củ a các bài toán trên phụ thuộc rất nhiều vào độ lớn và chất lượng của kho ngữ liệu song song được sử dụng. Trên thế giới đã có rất nhiều kho ngữ liệu song ngữ song song được xây dựng để phục vụ cho các mục tiêu như trên (xin xem chi tiết ở phần II). Hiện nay chưa có một kho ngữ liệu song song Anh - Việt được công bố chính thứ c và cho phép cộng đồng nghiên cứu liên quan đến có thể chia sẽ sử dụng cho các mục tiêu nghiên cứu. Do đó mụ c tiêu của đề tài nhánh này nhằm nghiên cứu các cách tiếp cận xây dựng kho ngữ liệu song ngữ song song, cấu trúc và định dạng lưu trữ của các kho ngữ liệu song ngữ song song và các tiêu chí và phương pháp đánh giá một kho ngữ liệu song ngữ song song Anh – Việt. Trong khuôn khổ cho phép của kinh phí đề tài, mục tiêu của đề tài nhánh là xây dựng được một kho ngữ liệu song ngữ Anh – Việt song song gióng hàng đến mứ c câu (Sentence Aligment) gồm 100.000 cặp câu song song Anh – Việt trong đó 80.000 cặp câu cho các lĩnh vực kinh tế - xã hộ i và 20.000 cặp câu cho lĩnh vực tin họ c. Trong các phần dưới đây chúng tôi xin được lần lượt trình bày : các định nghĩa cơ sở ở phần I, khảo sát một số kho ngữ liệu song ngữ song song trên thế giới ở phần II, phần III sẽ nêu các tiêu chí trong việc xây dựng mộ t kho ngữ liệu song ngữ song song, Phần IV là các định dạng được sử dụng để tổ chức lưu trữ các kho ngữ liệ u song ngữ song song và cuối cùng trong phần V là phương pháp đánh giá chất lượng của một kho ngữ liệu song song. I. Các định nghĩa cơ sở Định nghĩa 1 : Kho ngữ liệu (corpus) Theo EAGLES (Expert Advisory Group on Language Engineering Standards) kho ngữ liệu là một tập hợ p các mảnh ngôn ngữ (pieces of language) được chọn lựa và sắp xếp theo một số tiêu chí ngôn ngữ họ c rõ ràng để được sử dụng như một mẫu của ngôn ngữ Kho ngữ liệu số hóa (computer corpus) : là kho ngữ liệu được mã hóa theo một chuẩn nhất định và đồng nhất để có thể khai thác cho các ứng dụng khác nhau Định nghĩa 2 : Một tập các văn bản (tài liệu) được viết bằng nhiều ngôn ngữ thì gọi là kho ngữ liệu đa ngữ (multilingual corpora). Định nghĩa 3 : Một tập các văn bản (tài liệu) trong các ngôn ngữ khác nhau mà có cùng chủ đề chính thì đượ c gọi là kho ngữ liệu (có thể) so sánh (comparable corpus). Định nghĩa 4 : Kho ngữ liệu song song (Parallel Corpus) là một tập các văn bản (tài liệu) trong nhiề u ngôn ngữ khác nhau, trong đó có một ngôn ngữ nguồn và một (hoặc nhiều) ngôn ngữ đích (được dịch từ ngôn ngữ nguồn). Định nghĩa 5 : Sự gióng hàng (Alignment) của các tài liệu song ngữ trong kho ngữ liệu song ngữ có thể ở các múc như sau - Mức tài liệu (Document Alignment) : Các tài liệu trong kho ngữ liệu được gióng hàng đôi mộ t, tài liệu này là bản dịch của tài liệ u kia - Mức đoạn (Paragraph Alignment) : Các đoạn trong 2 tài liệu của 2 ngôn ngữ sẽ được gióng hàng, đoạn này sẽ là bản dịch của đoạ n kia - Mức câu (Sentence Alignment) : Các tài liệu song ngữ được gióng hàng ở mứ c câu : câu này là bản dịch củ a câu kia - Mức ngữ (Phrase Alignment) : Các ngữ trong cặp câu sẽ được gióng hàng từng đôi một : ngữ này lả bản dịch của ngữ kia - Mức Từ (Word Alignment) : các từ trong câu sẽ được gióng hàng từng cặp : từ này là từ dịch củ a từ kia Mục tiêu của đề tài là xây dựng một kho ngữ liệu song ngữ song song gióng hàng ở mức câu II. Một số kho ngữ liệu song ngữ : Trên thế giới hiện có rất nhiều kho ngữ liệu song ngữ song song được chia sẽ miễn phí cho cộng đồng nghiện cứ u. Dưới đây chúng ttoi xin phép được liệt kê sơ lược một vài kho ngữ liệu song ngữ song song tiêu biểu (theo đ ánh giá chủ quan củ a chúng tôi) 1. Kho ngữ liệu song ngữ song song được xây dựng từ sự hỗ trợ của dự án EuroMatrix (tham khảo tại địa chỉ http:www.euromatrix.net). Kho ngữ liệu này gồm các cặp ngôn ngữ khác nhau được lấy nguồn từ các kỷ yế u (proceeding) của Quốc hội Châu Âu (European Parliament) từ năm 1996 – 2006 10. Kho ngữ liệu song ngữ song song này gồm 9 cặp ngôn ngữ như được liệt kê dưới đây (số liệu theo 10). Kho ngữ liệu song ngữ song song này được chia sẽ miễn phí cho mục tiêu nghiên cứu tahi đại chỉ http:www.statmt.orgeuroparl Parallel Corpus (L1-L2) Sentences L1 Words L2 Words Danish-English 1,304,947 34,169,707 36,225,880 German-English 1,313,096 34,700,362 36,663,083 Greek-English 662,090 18,834,758 18,827,241 Spanish-English 1,304,116 37,870,751 36,429,274 Finnish-English 1,257,720 24,895,790 34,802,617 French-English 1,334,080 41,573,117 37,436,222 Italian-English 1,251,315 36,411,166 36,510,033 Dutch-English 1,326,412 36,784,168 36,690,392 Portuguese-English 1,287,757 37,342,426 36,355,907 Swedish-English 1,164,536 28,882,142 32,053,628 2. Kho ngữ liệu song ngữ song song Anh-Pháp, Canadian Hansard Corpus, của hiệp hội dữ liệu ngôn ngữ học (Linguistic Data Consortium- LDC) kho ngữ liệu này gồm 2.8 triệu cặp câu (theo http:www.ldc.upenn.eduCatalogCatalogEntry.jsp?catalogId=LDC95T20). Dữ liệu văn bản thuần chủ yếu được lấy từ trang web của Quốc hội Canada http:www.parl.gc.ca. 3. JENAAD Japanese – English Parallel Corpus do Masao Utiyama và Hitoshi Isahara xây dựng, bao gồm 45.000 cặp câu, trong đó có 15.000 câu được canh theo tỉ lệ 1:1 và 30.000 câu theo tỉ lệ 1:n. (2003). 4. Kho ngữ liệu song ngữ song song Hoa – Anh PKU 863 của đại học Bắc kinh gồm hơn 200.000 cặp câu thuộ c nhiều lĩnh vực kinh tế xă hội khác nhau (tham khảo http:www.ling.lancs.ac.ukcorplang863parallel ) III.Các tiêu chí xây dựng kho ngữ liệu song ngữ Kho ngữ liệu song ngữ song song có thể được xây dự ng theo các tiêu chí sau : 1. Lĩnh vực của kho ngữ liệu : tin tức, pháp luậ t, máy tính … 2. Biểu diễn được mô hình thực của ngôn ngữ (các câu trong văn bản thực tế sử dụng của ngôn ngữ ) 3. Thời gian của tài liệu (tài liệu cũ, mới, trong khoảng thờ i gian nào) 4. Mức độ gióng hàng (theo các mức được định nghĩa trong phầ n I) 5. Các mức độ chú giải ngôn ngữ học (linguistic annotation) : không chú giải, chú giải phân đoạn đoạn, ngữ , câu, từ, chú giải từ loại của từ 6. Máy tính đọc được (Bộ mã Encodage) Các tiêu chí xây dựng kho ngữ liệu nói chung và kho ngữ liệu song ngữ song song nói riêng có thể tham khả o tại http:www.ilc.cnr.itEAGLESbrowse.html IV. Định dạng kho ngữ liệu song ngữ Có rất nhiều định dạng được dùng để mã hóa kho ngữ liệu song ngữ song song sử dụng SGML, TEI hoặ c XML. Dưới đây chúng tôi liệt kê 2 định dạng thường được sử dụ ng 1. CES (Corpus Encoding Standard) : là một chuẩn dựa trên SGML, nhằm đưa ra các hướng dẫ n (guidelines) cho việc mă hóa các kho ngữ liệu. Một tài liệu dưới dạng CES gồm 3 phầ n : a. Phần dữ liệu nguyên thủ y (primary data) : i. Thông tin về văn bản : id, title, authors … : được gọi là phần đầ u Header ii. Thông tin về cấu trúc và nội dung: các phần (section), đoạn (paragraph), câu (sentence)… : được gọi phầ n Text Phần này được mô tả chi tiết trong cesDOC DTD được đính kèm trong phần I của phụ lụ c A b. Phần chú giải ngôn ngữ họ c (linguistic annotation) i. Ranh giới đoạn, câu, từ ii. Từ loại của từ (POS) iii. Gốc từ (lemma) Phần này được mô tả chi tiết trong cesAna DTD được đính kèm trong phần II của phụ lụ c A c. Thông tin về gióng hàng (alignment) Phần này được mô tả chi tiết trong cesAlign được đính kèm trong phần III của phụ lục A Thông tin chi tiết có thể tham khảo thêm tạ i http:www.cs.vassar.eduCES CES hiện nay cũng đã có phiên bản XML, tham khảo tạ i http:www.cs.vassar.eduXCES 2. Định dạng theo kho ngữ liệu song ngữ Anh – Nauy Kho ngữ liệu song ngữ song song này được lưu trữ theo chuẩn TEI (Text Encoding Initiative). Cấ u trúc cũng tương tự như chuẩn CES (được mô tả ở phầ n I). Thông tin chi tiết có thể tham khảo tạ i http:www.hf.uio.noilosforskningforskningsprosjekterenpcENPCmanual.html. V. Các phương pháp xây dựng kho ngữ liệu song ngữ Do mục tiêu của đề tài nhánh là xây dựng kho ngữ liệu song ngữ song song Anh – Việt gióng hàng ở mứ c câu và không có chú giải, nên chúng tôi chỉ tập trung vào các phương pháp để xây dựng kho ngữ liệu song ngữ thỏ a tiêu chí trên. Xây dựng kho dữ liệu song ngữ song song gồm có 2 bướ c chính 1. Xây dựng nguồn tài liệ u song song 2. Gióng hàng các tài liệ u song song 1. Xây dựng nguồn tài liệ u a. Chọn nguồn tài liệ u Chọn nguồn tài liệu phù hợp với lĩnh vực xác định trước hoặc bao phủ nhiều lĩnh vự c khác nhau. b. Thủ công : i. Nhập vào máy tính từ các tài liệu trên giấ y ii. Mua các kho ngữ liệu song song điện tử như : sách song ngữ, báo chí song ngữ … c. Bán tự động i. Khai thác dữ liệu song ngữ từ Internet ii. Tiến hành gióng hàng ở mức tài liệ u 2. Gióng hàng i. Phương pháp thống kê : sử dụng phương pháp thống kê để tính độ “tương đồng” củ a 2 câu trong hai ngôn ngữ thông qua các đơn vị (token) trong câu. Các đơn vị ở đây có thể là các uni-gram, bi-gram hoặ c là từ, cụm từ …Phương pháp này không cần phải có một từ điển song ngữ 5. ii. Phương pháp sử dụng từ điển song ngữ Trong phương pháp này sử dụng một từ điển song ngữ để xác định các điểm neo (anchor) là các từ đượ c biết là từ dịch của nhau nhờ vào từ điển từ đó chỉ một độ đo tương tự giữ a hai câu. iii. Các phương pháp máy họ c Học từ một kho ngữ liệu song ngữ song song gióng hàng ở mức câu cho trước từ đó sử dụng các tương ứng về từ có được sau giai đoạn học để gióng hàng cho một kho ngữ liệu song ngữ mới. VI. Đánh giá kho ngữ liệu song ngữ song song a. Đánh giá thủ công : nhờ chuyên gia ngôn ngữ đánh giá trên các mẩu được chọn ngẫu nhiên từ kho ngữ liệ u b. Đánh giá tự động : sử dụng kho ngữ liệu song ngữ song song cho dịch tự động bằng phươ ng pháp thông kê (SMT) v...

BÁO CÁO THỰC HIỆN ĐỀ TÀI Tên đề tài nhánh: SP7.4 Thời gian thực hiện: 5/2007-10/2007 Người phụ trách: Hồ Bảo Quốc Kế hoạch đề tài Kế hoạch thực theo phụ lục 3-2007 hợp đồng nhánh sau PHỤ LỤC Đơn vị: NỘI DUNG VÀ SẢN PHẨM CẦN ĐẠT CỦA NĂM 2007 Tiến độ triệu đồng hoàn thành TT Sản phẩm phải đạt Yêu cầu chất lượng sản phẩm T12/2007 T12/2007 T12/2007 SP7.4: Hai kho ngữ liệu cõu Anh- Việt cú & khụng cú chỳ báo cáo T12/2007 giải - Nghiên cứu nội dung kho ngữ liệu song ngữ - Nghiên cứu tham khảo cấu trúc kho ngữ liệu song ngữ báo cáo - Thiết kế nội dung kho ngữ liệu câu Anh- Việt báo cáo - Thiết kế cấu trúc cho kho ngữ liệu câu Anh- Việt báo cáo - Thiết kế xây dựng khuôn dạng liệu cho hai kho ngữ liệu báo cáo T12/2007 câu Anh- Việt báo cáo T12/2007 T12/2007 - Nghiên cứu tiêu chí chọn mẫu ngữ liệu song ngữ Anh-Việt T12/2007 - Công cụ hỗ trợ lọc cặp câu dịch tốt từ văn song Thiết kế phân tích Modul chương ngữ SP phần mềm Đầu vào: Văn song ngữ Đầu ra: trình Tập câu song ngữ chất lượng tốt Giao diện hỗ trợ duyệt lựa chọn cặp câu song ngữ chất lượng dịch tốt Kho ngữ liệu 20.000 cặp câu, phần chuyên CNTT - Thu thập ngữ liệu song ngữ Anh-Việt từ nguồn khác theo tiêu chí định SP: Kho ngữ liệu 20.000 cặp câu lĩnh vực CNTT Nội dung thực Nghiên cứu hiên trạng nội dung, cấu trúc phương pháp xây dựng kho ngữ liệu song ngữ Anh –Việt (Xin xem báo cáo kỹ thuật đính kèm) Thử nghiệm việc khai thác site song ngữ 5.2.1 Xây dựng công cụ mining tự động kho ngữ liệu song ngữ từ Internet 5.2.2 Gióng hàng tài liệu song ngữ đến mức câu Các công cụ tài nguyên xây dựng 5.3.1 Công cụ - Công cụ phân đoạn từ ( Vietnamese Word Segmentation) - Công cụ khai thác liệu song ngữ từ Internet - Cơng cụ gióng hàng tài liệu song ngữ đến mức câu 5.3.2 Tài nguyên - Kho ngữ liệu song ngữ Anh – Việt thô (chưa Manual Revise) gồm khoảng: 50.000 cặp câu Người thực đề tài Hồ Bảo Quốc Đặng Bác Văn Phạm Đào Minh Vũ Lương Vỹ Minh Nguyễn Trường Sơn Đánh giá kết Các kết đạt mức khởi đầu mang tính thử nghiệm khả Trong thời gian tới cần phải nghiên cứu sâu thêm lý thuyết, định chọn lựa tiêu chí cho kho ngữ liệu xây dựng, chọn tập hợp tài nguyên, thử nghiệm hoàn thiện chương trình để tạo cơng cụ cho việc đánh giá thao tác (thêm, xóa sửa) kho ngữ liệu thủ công (do người giỏi hai ngôn ngữ đảm trách) Kho ngữ liệu song song (Parallel Corpus) Mục lục Dẫn nhập I Các định nghĩa sở II Một số kho ngữ liệu song ngữ : III Các tiêu chí xây dựng kho ngữ liệu song ngữ IV Định dạng kho ngữ liệu song ngữ 10 V Các phương pháp xây dựng kho ngữ liệu song ngữ .11 VI Đánh giá kho ngữ liệu song ngữ song song 12 VII Tài liệu tham khảo .13 Phụ Lục A : CES DTD 14 Dẫn nhập Trong tính tốn ngơn ngữ học (linguistic computing) tài nguyên cần thiết kho ngữ liệu song ngữ song song (parallel corpus) Các kho ngữ liệu song ngữ song song sữ dụng cho nhiều mục tiêu khác : nghiên cứu ngôn ngữ học so sánh, tìm kiếm thơng tin xun ngữ, dịch máy v.v Kết toán phụ thuộc nhiều vào độ lớn chất lượng kho ngữ liệu song song sử dụng Trên giới có nhiều kho ngữ liệu song ngữ song song xây dựng để phục vụ cho mục tiêu (xin xem chi tiết phần II) Hiện chưa có kho ngữ liệu song song Anh - Việt cơng bố thức cho phép cộng đồng nghiên cứu liên quan đến chia sử dụng cho mục tiêu nghiên cứu Do mục tiêu đề tài nhánh nhằm nghiên cứu cách tiếp cận xây dựng kho ngữ liệu song ngữ song song, cấu trúc định dạng lưu trữ kho ngữ liệu song ngữ song song tiêu chí phương pháp đánh giá kho ngữ liệu song ngữ song song Anh – Việt Trong khuôn khổ cho phép kinh phí đề tài, mục tiêu đề tài nhánh xây dựng kho ngữ liệu song ngữ Anh – Việt song song gióng hàng đến mức câu (Sentence Aligment) gồm 100.000 cặp câu song song Anh – Việt 80.000 cặp câu cho lĩnh vực kinh tế - xã hội 20.000 cặp câu cho lĩnh vực tin học Trong phần xin trình bày : định nghĩa sở phần I, khảo sát số kho ngữ liệu song ngữ song song giới phần II, phần III nêu tiêu chí việc xây dựng kho ngữ liệu song ngữ song song, Phần IV định dạng sử dụng để tổ chức lưu trữ kho ngữ liệu song ngữ song song cuối phần V phương pháp đánh giá chất lượng kho ngữ liệu song song I Các định nghĩa sở Định nghĩa : Kho ngữ liệu (corpus) Theo EAGLES (Expert Advisory Group on Language Engineering Standards) kho ngữ liệu tập hợp mảnh ngôn ngữ (pieces of language) chọn lựa xếp theo số tiêu chí ngơn ngữ học rõ ràng để sử dụng mẫu ngơn ngữ Kho ngữ liệu số hóa (computer corpus) : kho ngữ liệu mã hóa theo chuẩn định đồng để khai thác cho ứng dụng khác Định nghĩa : Một tập văn (tài liệu) viết nhiều ngơn ngữ gọi kho ngữ liệu đa ngữ (multilingual corpora) Định nghĩa : Một tập văn (tài liệu) ngôn ngữ khác mà có chủ đề gọi kho ngữ liệu (có thể) so sánh (comparable corpus) Định nghĩa : Kho ngữ liệu song song (Parallel Corpus) tập văn (tài liệu) nhiều ngơn ngữ khác nhau, có ngôn ngữ nguồn (hoặc nhiều) ngôn ngữ đích (được dịch từ ngơn ngữ nguồn) Định nghĩa : Sự gióng hàng (Alignment) tài liệu song ngữ kho ngữ liệu song ngữ múc sau - Mức tài liệu (Document Alignment) : Các tài liệu kho ngữ liệu gióng hàng đơi một, tài liệu dịch tài liệu - Mức đoạn (Paragraph Alignment) : Các đoạn tài liệu ngơn ngữ gióng hàng, đoạn dịch đoạn - Mức câu (Sentence Alignment) : Các tài liệu song ngữ gióng hàng mức câu : câu dịch câu - Mức ngữ (Phrase Alignment) : Các ngữ cặp câu gióng hàng đôi : ngữ lả dịch ngữ - Mức Từ (Word Alignment) : từ câu gióng hàng cặp : từ từ dịch từ Mục tiêu đề tài xây dựng kho ngữ liệu song ngữ song song gióng hàng mức câu II Một số kho ngữ liệu song ngữ : Trên giới có nhiều kho ngữ liệu song ngữ song song chia miễn phí cho cộng đồng nghiện cứu Dưới chúng ttoi xin phép liệt kê sơ lược vài kho ngữ liệu song ngữ song song tiêu biểu (theo đánh giá chủ quan chúng tôi) Kho ngữ liệu song ngữ song song xây dựng từ hỗ trợ dự án EuroMatrix (tham khảo địa http://www.euromatrix.net/) Kho ngữ liệu gồm cặp ngôn ngữ khác lấy nguồn từ kỷ yếu (proceeding) Quốc hội Châu Âu (European Parliament) từ năm 1996 – 2006 [10] Kho ngữ liệu song ngữ song song gồm cặp ngôn ngữ liệt kê (số liệu theo [10]) Kho ngữ liệu song ngữ song song chia miễn phí cho mục tiêu nghiên cứu tahi đại http://www.statmt.org/europarl/ Parallel Corpus (L1-L2) Sentences L1 Words L2 Words Danish-English 1,304,947 34,169,707 36,225,880 German-English 1,313,096 34,700,362 36,663,083 Greek-English 662,090 18,834,758 18,827,241 Spanish-English 1,304,116 37,870,751 36,429,274 Finnish-English 1,257,720 24,895,790 34,802,617 French-English 1,334,080 41,573,117 37,436,222 Italian-English 1,251,315 36,411,166 36,510,033 Dutch-English 1,326,412 36,784,168 36,690,392 Portuguese-English 1,287,757 37,342,426 36,355,907 Swedish-English 1,164,536 28,882,142 32,053,628 Kho ngữ liệu song ngữ song song Anh-Pháp, Canadian Hansard Corpus, hiệp hội liệu ngôn ngữ học (Linguistic Data Consortium- LDC) kho ngữ liệu gồm 2.8 triệu cặp câu (theo http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC95T20) Dữ liệu văn chủ yếu lấy từ trang web Quốc hội Canada http://www.parl.gc.ca JENAAD Japanese – English Parallel Corpus Masao Utiyama Hitoshi Isahara xây dựng, bao gồm 45.000 cặp câu, có 15.000 câu canh theo tỉ lệ 1:1 30.000 câu theo tỉ lệ 1:n (2003) Kho ngữ liệu song ngữ song song Hoa – Anh PKU 863 đại học Bắc kinh gồm 200.000 cặp câu thuộc nhiều lĩnh vực kinh tế xă hội khác (tham khảo http://www.ling.lancs.ac.uk/corplang/863parallel/ ) III.Các tiêu chí xây dựng kho ngữ liệu song ngữ Kho ngữ liệu song ngữ song song xây dựng theo tiêu chí sau : Lĩnh vực kho ngữ liệu : tin tức, pháp luật, máy tính … Biểu diễn mơ hình thực ngơn ngữ (các câu văn thực tế sử dụng ngôn ngữ) Thời gian tài liệu (tài liệu cũ, mới, khoảng thời gian nào) Mức độ gióng hàng (theo mức định nghĩa phần I) Các mức độ giải ngôn ngữ học (linguistic annotation) : không giải, giải phân đoạn đoạn, ngữ, câu, từ, giải từ loại từ Máy tính đọc (Bộ mã Encodage) Các tiêu chí xây dựng kho ngữ liệu nói chung kho ngữ liệu song ngữ song song nói riêng tham khảo http://www.ilc.cnr.it/EAGLES/browse.html IV Định dạng kho ngữ liệu song ngữ Có nhiều định dạng dùng để mã hóa kho ngữ liệu song ngữ song song sử dụng SGML, TEI XML Dưới liệt kê định dạng thường sử dụng CES (Corpus Encoding Standard) : chuẩn dựa SGML, nhằm đưa hướng dẫn (guidelines) cho việc mă hóa kho ngữ liệu Một tài liệu dạng CES gồm phần : a Phần liệu nguyên thủy (primary data) : i Thông tin văn : id, title, authors … : gọi phần đầu Header ii Thông tin cấu trúc nội dung: phần (section), đoạn (paragraph), câu (sentence)… : gọi phần Text Phần mô tả chi tiết cesDOC DTD đính kèm phần I phụ lục A b Phần giải ngôn ngữ học (linguistic annotation) phần II phụ lục A i Ranh giới đoạn, câu, từ ii Từ loại từ (POS) iii Gốc từ (lemma) Phần mô tả chi tiết cesAna DTD đính kèm c Thơng tin gióng hàng (alignment) Phần mô tả chi tiết cesAlign đính kèm phần III phụ lục A type - - (dateline | keywords | %phrase.seq;)* > %a.text; > %a.text; > type %a.text; part CDATA #IMPLIED (y | n | u) part %a.text; entity - - (head?, p*, figDesc?, text?) > rows Tables > cols - - (head?, row+) > %a.text; NUMBER #IMPLIED NUMBER #IMPLIED > who type

Ngày đăng: 07/03/2024, 12:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w