1. Trang chủ
  2. » Cao đẳng - Đại học

Xây dựng từ điển mới bằng phương pháp ánh xạ trung gian

10 33 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết này trình bày phương pháp làm tăng số lượng entry trong từ điển sẵn có và xây dựng một từ điển mới Dict(A,C) bằng phương pháp ánh xạ trung gian từ 2 từ điển sẵn có Dict(A,B) và Dict(B,C) với B là một ngôn ngữ phổ biến. Sử dụng tiếng Anh như một ngôn ngữ trung gian để thực hiện việc ánh xạ ngữ nghĩa các từ vựng ở ngôn ngữ A sang ngôn ngữ C. Để loại bỏ các mục dịch không chính xác, chúng tôi sử dụng phương pháp tính trọng số. Nếu một mục dịch có trọng lượng lớn hơn một ngưỡng δ, nó được xem như là mục dịch tốt và sẽ được thêm vào từ điển mới Dict(A,C). Nghiên cứu này không chỉ giúp giảm đáng kể chi phí xây dựng các tự điển mới, mà nó còn góp phần hỗ trợ các cộng đồng sử dụng ngôn ngữ không có nhiều nguồn tài nguyên từ vựng.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.000105 XÂY DỰNG TỪ ĐIỂN MỚI BẰNG PHƯƠNG PHÁP ÁNH XẠ TRUNG GIAN Khang Nhứt Lâm Khoa Công nghệ thông tin Truyền thơng Trƣờng Đại học Cần Thơ lnkhang@cit.ctu.edu.vn TĨM TẮT— Để xây dựng từ điển từ ngôn ngữ nguồn A sang ngơn ngữ đích C, ký hiệu Dict(A,C), phương pháp cần nhiều nguồn tài nguyên có sẵn tự điển trung gian lượng lớn tài liệu văn ngôn ngữ A, C nhiều ngôn ngữ trung gian B Tuy nhiên, ngôn ngữ có nguồn tài nguyên sẵn có vậy, đặc biệt ngơn ngữ tài ngun ngôn ngữ “nguy cấp” UNESCO thống kê Bài báo trình bày phương pháp làm tăng số lượng entry từ điển sẵn có xây dựng từ điển Dict(A,C) phương pháp ánh xạ trung gian từ tự điển sẵn có Dict(A,B) Dict(B,C) với B ngôn ngữ phổ biến Cụ thể hơn, sử dụng tiếng Anh ngôn ngữ trung gian để thực việc ánh xạ ngữ nghĩa từ vựng ngôn ngữ A sang ngôn ngữ C Để loại bỏ mục dịch khơng xác, chúng tơi sử dụng phương pháp tính trọng số Nếu mục dịch có trọng lượng lớn ngưỡng δ, xem mục dịch tốt thêm vào tự điển Dict(A,C) Nghiên cứu không giúp giảm đáng kể chi phí xây dựng tự điển mới, mà cịn góp phần hỗ trợ cộng đồng sử dụng ngơn ngữ khơng có nhiều nguồn tài ngun từ vựng Từ khóa— Tự điển, ánh xạ trung gian, mục dịch, ngôn ngữ nguy cấp I GIỚI THIỆU Tổ chức Ethnologue thống kê có 7,106 ngơn ngữ tồn giới Phần lớn ngôn ngữ nhiều nguồn tài nguyên từ vựng nhƣ từ điển, thesauri, sở liệu từ vựng (Wordnet) tập văn (corpora) Các từ điển có đa phần ngơn ngữ phổ biến (ví dụ: từ điển ngơn ngữ nhƣ Anh, Tây Ban Nha Đức) ngôn ngữ phổ biến ngơn ngữ phổ biến (ví dụ: từ điển Anh-Việt, Pháp-Ả Rập Đức-Lào) Từ điển ngơn ngữ có nguồn tài ngun (resource poor languages) ngôn ngữ “nguy cấp” (endangered languages) chiếm số lƣợng hạn chế, chí khơng có Ví dụ, tìm thấy từ điển Assamese - Anh tự điển Anh - Việt, nhƣng tự điển Assamese - Việt chƣa tồn Assamese ngôn ngữ Indo-European Ấn Độ, đƣợc sử dụng khoảng 30 triệu ngƣời, nhƣng ngơn ngữ có tài ngun từ vựng Rất nhiều ngôn ngữ gần nhƣ phải may mắn tìm đƣợc từ điển ngôn ngữ phổ biến Trƣờng Đại học Chicago2 cung cấp tự điển song ngữ cho 29 ngôn ngữ quốc gia Đông Nam Châu Á, nhƣng nhiều ngơn ngữ số có từ điển Các từ điển có khác chất lƣợng số lƣợng từ từ điển Từ điển song ngữ không tài ngun từ vựng ngơn ngữ đó, mà cịn yếu tố sống cịn ngôn ngữ Để ngôn ngữ đƣợc tồn phát triển mãnh mẽ ngơn ngữ phải đƣợc sử dụng không giao tiếp hàng ngày mà cịn sử dụng khía cạnh khác sống nhƣ học thuật, nghiên cứu kinh doanh Để xây dựng từ điển có chất lƣợng cao cần nhiều tài nguyên khác hỗ trợ, chẳng hạn nhƣ từ điển trung gian, Wordnet corpora Mặt khác, để xây dựng đƣợc sở liệu Wordnet corpora có chất lƣợng cần phải có từ điển Có thể nói từ điển song ngữ tài nguyên từ vựng cần thiết để xây dựng tài nguyên từ vựng khác Xuất phát từ nhu cầu thực tiễn, chúng tơi tìm hiểu phƣơng pháp để xây dựng từ điển song ngữ Mục tiêu nghiên cứu từ từ điển sẵn có ngơn ngữ (i) chúng tơi làm tăng số lƣợng entry có từ điển sẵn có, (ii) xây dựng từ điển song ngữ cho ngơn ngữ với độ xác khơng q thấp độ xác từ điển sẵn có, (iii) phƣơng pháp chúng tơi giới thiệu phải có khả áp dụng đƣợc cho ngơn ngữ khơng có nhiều nguồn tài ngun Cụ thể, mục II trình bày cấu trúc từ điển Các tài liệu liên quan đƣợc đề cập mục III Mục IV giới thiệu ngôn ngữ từ điển song ngữ đƣợc sử dụng Phƣơng pháp làm tăng số lƣợng entry từ điển xây dựng từ điển đƣợc trình bày mục V Chúng tơi trình bày kết thực nghiệm thảo luận mục VI Cuối mục VII tổng kết nghiên cứu II CẤU TRÚC TỪ ĐIỂN Trƣớc giới thiệu phƣơng pháp xây dựng từ điển từ từ điển song ngữ sẵn có, giới thiệu cấu trúc từ điển Một từ điển song ngữ A-B chứa mục dịch hay gọi “entry” dịch từ cụm từ ngôn ngữ nguồn A sang từ cụm từ ngơn ngữ đích B Một từ điển song ngữ A-B, ký hiệu Dict(A,B), khác với tự điển song ngữ B-A, ký hiệu Dict(B,A) Cụ thể hơn, Dict(A,B) chứa entry (a,b), Dict(B,A) chứa entry (b,a) Một entry từ điển, cịn đƣợc gọi LexicalEntry có dạng Theo Landau [1], LexicalUnit từ cụm từ đƣợc định nghĩa Nói cách khác, từ điển danh sách LexicalEntry đƣợc xếp theo thứ tự dựa LexicalUnit Với LexicalUnit, phần Definition tƣơng ứng thƣờng bao gồm loại từ (Part-Of-Speech - POS), cách phát âm, nghĩa (sense), ví dụ minh https://www.ethnologue.com/ http://dsal.uchicago.edu/dictionaries/list.html XÂY DỰNG TỪ ĐIỂN MỚI BẰNG PHƢƠNG PHÁP ÁNH XẠ TRUNG GIAN 862 họa sử dụng từ ngôn ngữ nguồn ngôn ngữ đích, số thơng tin khác Một LexicalUnit có nhiều sense Do đó, entry tự điển có dạng III TÀI LIỆU LIÊN QUAN Giả sử tồn tự điển Dict(A,B) chứa entry (ai;bk) tự điển Dict(B,C) chứa entry (bk,cj) Các từ entry ngôn ngữ nguồn ai, ngôn ngữ trung gian bk ngơn ngữ đích cj từ đơn, từ ghép cụm từ Phƣơng pháp “ngây thơ” (naïve approach) xây dựng tự điển Dict(A,C) tiến hành nhƣ sau: từ ngơn ngữ A có nghĩa từ bk ngôn ngữ B từ bk có nghĩa cj ngơn ngữ C, phƣơng pháp “ngây thơ” đƣa kết luận từ ngơn ngữ A có nghĩa cj ngơn ngữ C Tuy nhiên, bk có nhiều nghĩa phƣơng pháp đƣa kết luận sai, đƣợc gọi nhập nhằng ngữ nghĩa (Word Sense Disambiguation - WSD) Nhiều phƣơng pháp đƣợc giới thiệu để loại bỏ vấn đề nhập nhằng ngữ nghĩa nhƣ sử dụng thông tin từ tự điển trung gian khác sẵn có [2], [3], [4] thơng tin rút trích đƣợc từ corpora hoặc/và Wordnet [5], [6], [7], [8], [9] Điểm giống nghiên cứu đa phần phƣơng pháp có khả xây dựng đƣợc tự điển có chất lƣợng cao (về số lƣợng entry độ xác chúng) cho ngơn ngữ có sẵn nhiều nguồn tài nguyên từ vựng, phải sử dụng thêm tài nguyên từ vựng nhiều ngôn ngữ trung gian Độ xác từ điển song ngữ đƣợc xây dựng từ từ điển sẵn có Wordnet thƣờng cao so với sử dụng tài nguyên từ vựng khác Tuy nhiên, tất ngơn ngữ từ điển có có Wordnet chi phí để xây dựng Wordnet khơng nhỏ IV NGÔN NGỮ VÀ CÁC TỪ ĐIỂN SONG NGỮ SẴN CĨ Phƣơng pháp chúng tơi giới thiệu để xây dựng từ điển song ngữ tổng quát áp dụng cho ngơn ngữ Tuy nhiên, để tiện cho việc chứng minh tính đắn phƣơng pháp, xây dựng từ điển cho ngơn ngữ mà chúng tơi có chun gia sẵn sàng hỗ trợ Cụ thể xây dựng từ điển song ngữ cho ngôn ngữ Ả Rập, Assamese, Hindi Việt Trong trình trình bày, luân phiên sử dụng tên ngôn ngữ mã code của ngôn ngữ Mã code ISO 693-3 ngôn ngữ Ả Rập, Assamese, Hindi Việt theo thứ tự arb, asm, hin vie Chúng tơi nghiên cứu từ điển song ngữ sẵn có từ nhiều nguồn khác nhận thấy từ điển đƣợc định dạng khác Việc rút trích làm thông tin từ từ điển sẵn có nhiều cơng sức thời gian Chúng sử dụng từ điển song ngữ Mỗi từ điển dịch từ vựng ngôn ngữ nguồn mà lựa chọn từ cụm từ ngôn ngữ trung gian giàu tài nguyên (trong trƣờng hợp tiếng Anh với mã code ISO 693-3 eng) Các từ điển sử dụng bao gồm: Từ điển Ả Rập-Anh, Dict(arb,eng), từ điển Anh-Hindi, Dict(eng,hin), tự điển Anh-Việt, Dict(eng,vie), đƣợc cung cấp Panlex3 Từ điển Assamese-Anh, Dict(asm,eng), đƣợc tích hợp từ hai từ điển cung cấp Xobdo4 Panlex Các tài nguyên từ điển sẵn có khác số lƣợng entry nhƣ trình bày Bảng Bảng Số entry từ điển song ngữ có Từ điển Dict(arb,eng) Dict(asm,eng) Số entry 53.194 76.634 Từ điển Dict(eng,hin) Dict(eng,vie) Số entry 33.234 231.665 V PHƢƠNG PHÁP Trong phần đề xuất phƣơng pháp xây dựng từ điển mới, Dict(A,C), từ từ điển song ngữ sẵn có, Dict(A,B) Dict(B,C), với ngôn ngữ chung B Cụ thể, từ từ điển song ngữ sẵn có Dict(arb,eng), Dict(asm,eng), Dict(eng,hin) Dict(eng,vie), xây dựng từ điển Dict(arb,hin), Dict(arb,vie), Dict(asm,hin) Dict(asm,vie) Số lƣợng entry từ điển sẵn có khác nhau, nhƣ trình bày Bảng Nếu số lƣợng entry từ điển sẵn có thấp dẫn đến số lƣợng entry từ điển khơng cao Do đó, trƣớc xây dựng từ điển song ngữ mới, làm tăng số lƣợng entry từ điển sẵn có cần thiết A Làm tăng số entry từ điển sẵn có Lam Kalita [5] giới thiệu phƣơng pháp xây dựng từ điển song ngữ có chiều dịch ngƣợc với từ điển song ngữ có đồng thời làm tăng số lƣợng entry từ điển Để làm tăng số entry từ điển, tác giả giới thiệu hai phƣơng pháp DRwD DRwS để tìm từ cụm từ có nghĩa tƣơng đƣơng Trong phƣơng pháp DRwD, hai từ cụm từ đƣợc xem có ngữ nghĩa tƣơng đƣơng khoảng cách chúng Princeton WordNet [10] nhỏ ngƣỡng α Khoảng cách hai từ Wordnet có giá trị từ 0,00 đến 1,00 Nếu hai từ http://panlex.org/ http://www.xobdo.org/ Khang Nhứt Lâm 863 cụm từ có khoảng cách 0,00 có khả cao hai từ có ngữ nghĩa giống nhau; ngƣợc lại, chúng có khoảng cách 1,00 hai từ có ngữ nghĩa khơng giống Phƣơng pháp DRwS cho phép tìm từ cụm từ có ngữ nghĩa giống cách tính giá trị simVal từ cụm từ Nếu simVal hai từ cụm từ lớn, khả chúng có ngữ nghĩa giống cao Giá trị simVal nằm khoảng từ 0,00 đến 1,00 SimVal hai cụm từ độ giống ExpansionSet từ cụm từ ExpansionSet từ tập giao “synset”, “synonym”, “hypernym” “hyponym” từ WordNet Lam Kalita kết luận phƣơng pháp DRwS phƣơng pháp tốt để tìm từ đồng nghĩa Tuy nhiên, trình thực nghiệm, chúng tơi phát phƣơng pháp DRwS cịn hạn chế có nguồn gốc từ Princeton Wordnet Ví dụ, simVal từ “mango” (nghĩa “trái xoài” tiếng Việt) “papaya” (nghĩa “trái đu đủ” tiếng Việt) 1,00 ExpansionSet hai từ hoàn toàn giống nên phƣơng pháp DRwS kết luận “mango” “papaya” có ngữ nghĩa Cụ thể hơn, từ hai entry ban đầu (mango, trái xoài) (papaya, trái đu đủ), phƣơng pháp DRwS tìm thêm entry (mango, trái đu đủ) (papaya, trái xoài) May mắn thay, khoảng cách “mango” “papaya” Princeton WordNet 0,0769, phƣơng pháp DRwD với ngƣỡng α 0,00 kết luận “mango” khác với “papaya” Chúng phát ExpansionSet số giống nên phƣơng pháp DRwS đƣa kết luận khơng xác nhƣ “sixteen” (“mƣời sáu”) “seventeen” (“mƣời bảy”) có ngữ nghĩa giống nhau; phƣơng pháp DRwD đƣa kết luận “sixteen” khác với “seventeen” khoảng cách chúng Wordnet 0,125 (nếu đặt ngƣỡng α 0,00) Để giải vấn đề lỗi phát sinh từ Princeton Wordnet, kết hợp phƣơng pháp DRwS DRwD hình thành phƣơng pháp CSD (Computing Similarity and Distance) để tìm từ đồng nghĩa từ điển sẵn có Một ví dụ khác minh họa ý tƣởng phƣơng pháp CSD đƣợc trình bày Hình Trong từ điển Assamese- Anh có entry (hostolipi, handwriting) (lipi, script) Từ từ điển Oxford English dictionary5, “handwriting” nghĩa “a particular form, style or method of writing by hand; the form or style of writing used by particular person” “script” có nghĩa “handwriting, the characters used in hand-writing (as distinguished from print)” Do đó, “handwriting” “script” có nghĩa giống Phƣơng pháp CSD đƣa kết luận “handwriting” “script” có nghĩa giống Nhƣ vậy, tạo đƣợc entry (হস্তলিলি, handwriting) (লিলি, script) thêm vào từ điển AssameseAnh Hình 1: Phƣơng pháp CSD Phƣơng pháp CSD đƣợc trình bày Giải thuật Xét LexicalEntry có thơng tin loại từ POS (Giải thuật 1, dòng 1-4), giá trị simVal LexicalEntryi LexicalEntryj lớn ngƣỡng β (Giải thuật 1, dòng 5) khoảng cách LexicalEntryi LexicalEntryj nhỏ ngƣỡng α (Giải thuật 1, dòng 6), phƣơng pháp CSD kết luận LexicalEntry có ngữ nghĩa giống thêm entry tìm vào từ điển (Giải thuật 1, dịng 7) Giải thuật 1: Phƣơng pháp CSD 1: for all LexicalEntryi 2: 3: 4: 5: 6: 7: 8: for all Senseu LexicalEntryi for all LexicalEntryj having the same POS with LexicalEntryi for all Sensev LexicalEntryj if simVal(LexicalEntryi,LexicalEntryj) ≥ β then if distance(LexicalEntryi,LexicalEntryj) ≤ α then add to Dictionary end if http://www.oed.com/ XÂY DỰNG TỪ ĐIỂN MỚI BẰNG PHƢƠNG PHÁP ÁNH XẠ TRUNG GIAN 864 9: end if 10: end for 11: end for 12: end for 13: end for B Phương pháp (baseline approach) để xây dựng từ điển Sau làm tăng số entry từ điển, bắt đầu xây dựng từ điển Đầu tiên giới thiệu phƣơng pháp để xây dựng từ điển từ từ điển sẵn có Ví dụ minh họa cho phƣơng pháp đƣợc trình bày Hình Cho từ điển song ngữ Assamese-Anh chứa entry (asmi, engk) tự điển AnhViệt chứa entry (engk,viej), xây dựng từ điển Assamese-Việt chứa entry (asmi, viej) asmi viej có mối quan hệ với engk Hình Phƣơng pháp để xây dựng từ điển song ngữ Phƣơng pháp để xây dựng từ điển từ từ điển sẵn có đƣợc trình bày Giải thuật Chúng ta xây dựng từ điển từ hai từ điển nguồn Dict(A,B) Dict(B,C) Với LexicalEntryi Dict(A,B) LexicalEntryj Dict(B,C) có thơng tin POS (Giải thuật 2, dịng 1-3), tồn LexicalEntryi.Sense giống LexicalEntryj.LexicalUnit (Giải thuật 2, dịng 4) ta thêm vào từ điển Dict(A,C) (Giải thuật 2, dòng 5) Giải thuật 2: Phƣơng pháp Input: Dict(A,B) Dict(B,C) Output: Dict(A,C) 1: Dict(A,C): =Ø 2: for all LexicalEntryi Dict(A,B) 3: for all LexicalEntryj Dict(B,C) having the same POS with LexicalEntryi 4: if LexicalEntryi.Sense = LexicalEntryj.LexicalUnit then 5: add to Dict(A,C) 6: end if 7: end for 8: end for C Phương pháp ánh xạ trung gian Phƣơng pháp có ƣu điểm xây dựng từ điển nhanh, chi phí thấp Tuy nhiên, từ ngơn ngữ trung gian có nhiều nghĩa hay đa nghĩa phƣơng pháp có khả đƣa kết luận sai Cụ thể hơn, bk có hai nghĩa đƣợc dịch sang ngôn ngữ C tƣơng ứng cj1 cj2, phƣơng pháp kết luận từ ngơn ngữ A có hai nghĩa ngơn ngữ C thêm hai entry (ai,cj1) (ai, cj2) vào từ điển Dict(A,C), điều chƣa Để giảm bớt entry khơng xác từ điển mới, chúng tơi sử dụng phƣơng pháp tính trọng số entry dựa vào tính phổ biến ngữ nghĩa từ ngôn ngữ trung gian Trong từ điển, sense ngơn ngữ đích thƣờng đƣợc xếp theo thứ tự dựa vào tính phổ biến nghĩa từ Với LexicalUnit, sense thƣờng có tính phổ biến ngơn ngữ đích, ngƣợc lại cho sense cuối Giả sử bk sense đƣợc sử dụng bk có nghĩa cj ngơn ngữ C, hầu hết phƣơng pháp kết luận đƣợc dịch sang cj Sự thật entry chất lƣợng mối quan hệ bk yếu Ví dụ minh họa đƣợc thể Hình Khang Nhứt Lâm 865 Hình Liên kết yếu (ai,bk) từ điển Để giảm bớt entry chất lƣợng mối quan hệ yếu bk và/hoặc bk cj, chúng tơi tính trọng lƣợng, cịn gọi weight, cho sense LexicalUnit dựa vào độ phổ biến chúng Sense có độ phổ biến cao có weight lớn ngƣợc lại Phƣơng pháp tính weight cho sense đƣợc trình bày Giải thuật Giải thuật 3: Phƣơng pháp tính weight cho sense LexicalUnit 1: t_tr  total translations of 2: temp := 3: for all translations bj of 4: temp += rankbj 5: end for 6: for all translations bj of 7: weight(ai,bj) = 8: end for Trong Dict(A,B), giả sử từ có bốn sense theo thứ tự b1, b2, b3 b4 Giá trị rank dựa độ phổ biến sense đƣợc trình bày Bảng Sense b1 có độ phổ biến nên rank b4 tƣơng ứng có rank Để dễ hiểu, tách sense từ hình thành entry với rank tƣơng ứng đƣợc trình bày Bảng Bảng Ví dụ LexicalUnit có sense Entry Rank Entry Rank (ai,b1) (ai,b3) (ai,b2) (ai,b4) Tổng số sense ngôn ngữ B, đƣợc gọi t_tr, (Giải thuật 3, dòng 1) Một giá trị tạm thời temp (Giải thuật 3, dòng 2) tổng số rank entry: temp = + + + = 10 Do đó, weight entry đƣợc tính nhƣ sau (Giải thuật 3, dịng 7): weight(ai,b1)=(4-1+1)/10=0.4 weight(ai,b2)=(4-2+1)/10=0.3 weight(ai,b3)=(4-3+1)/10=0.2 weight(ai,b4)=(4-4+1)/10=0.1 XÂY DỰNG TỪ ĐIỂN MỚI BẰNG PHƢƠNG PHÁP ÁNH XẠ TRUNG GIAN 866 Thực tƣơng tự để tính weight cho entry từ điển lại, Dict(B,C) Giả sử tồn entry (ai,bk) Dict(A,B) entry (bk,cj) Dict(B,C) có quan hệ với thông qua từ bk ngôn ngữ trung gian B Theo phƣơng pháp bản, có entry tiềm (ai,cj) từ điển Dict(A,C) Tiếp theo, chúng tơi tính giá trị score entry tiềm (ai,cj), hay gọi score(ai,cj) Nếu score(ai,cj) lớn ngƣỡng δ, kết luận entry tốt chèn vào Dict(A,C) Score(ai,cj) đƣợc tính tích weight(ai,bk) weight(bk,cj): VI KẾT QUẢ THỰC NGHIỆM A Chuẩn hóa liệu Trƣớc thực xây dựng từ điển mới, cần tiến hành chuẩn hóa liệu Đầu tiên, chúng tơi cần loại bỏ từ nằm danh sách “stop words 6” nhƣ “someone”, “to” “that” Sau đó, thực chuẩn hóa từ cụm từ từ gốc chúng (steam word) Chẳng hạn, chuẩn hóa từ “teaching” thành “teach” Phƣơng pháp tiếng để chuẩn hóa từ tiếng Anh phƣơng pháp Porter stemmer [11] Tuy nhiên, chúng tơi khơng thể sử dụng phƣơng pháp số trƣờng hợp từ sau chuẩn hóa khơng có nghĩa Ví dụ, Porter stemmer chuẩn hóa từ “imitate”, “language” “software” thành từ khơng có nghĩa “imit”, “languag” “softwar” Thêm vào đó, chúng tơi cần tìm ExpansionSet bao gồm synset, synonym, hypernym hyponym từ tiếng Anh từ Princeton Wordnet để tính toán độ giống mặt ngữ nghĩa từ từ điển Do đó, chúng tơi sử dụng hàm chuẩn hóa từ Rita.Wordnet7 cung cấp Mặc dù hàm chuẩn hóa Rita.Wordnet khơng xác hồn tồn, nhƣng Rita.Wordnet cung cấp hàm hỗ trợ tìm ExpansionSet cho từ Rita.Wordnet chuẩn hóa Vì vậy, việc chuẩn hóa từ Rita.Wordnet chấp nhận đƣợc Thông tin POS entry từ điển đóng vai trị quan trọng việc tìm từ cụm từ có nghĩa tƣơng đƣơng từ Wordnet xây dựng entry tiềm từ điển Tuy nhiên, entry từ điển chứa thông tin POS Cụ thể, 100% entry tự điển Ả Rập-Anh 6,63% entry từ điển Anh-Việt khơng chứa thơng tin POS Để tìm POS cho entry khơng có thơng tin POS, chúng tơi sử dụng thông tin POS phổ biến (the best POS) từ tiếng Anh entry Thông tin POS phổ biến từ đƣợc cung cấp Rita.Wordnet B Phương pháp đánh giá Phƣơng pháp tiêu chuẩn để đánh giá từ điển song ngữ máy xây dựng yêu cầu ngƣời dùng đánh giá toàn entry từ điển Một điểm cần lƣu ý ngƣời dùng phải sử dụng thành thạo ngơn ngữ nguồn ngơn ngữ đích từ điển họ tham gia đánh giá Tuy nhiên, để tìm ngƣời dùng thành thạo, nắm đƣợc ngữ nghĩa tất từ ngôn ngữ từ điển song ngữ chuyện đơn giản Thêm vào đó, mục tiêu xây dựng từ điển cho ngơn ngữ có tài ngun (Assamese), chúng tơi khơng thể tìm ngƣời dùng thành thạo ngơn ngữ từ điển: Assamese-Việt, Arabic-Việt, Arabic-Hindi Vì vậy, cho từ điển cần đánh giá, nhờ cặp ngƣời dùng đánh giá Trong cặp đánh giá, ngƣời dùng thành thạo ngôn ngữ từ điển ngôn ngữ trung gian Hai ngƣời dùng giao tiếp thông qua ngôn ngữ trung gian (tiếng Anh) để đánh giá entry từ điển Riêng từ điển Assamese-Hindi đƣợc đánh giá ngƣời dùng thành thạo hai ngôn ngữ Đánh giá toàn entry từ điển tốn nhiều thời gian Dựa vào qui luật “general rules of thumb” [12], chúng tơi chọn ngẫu nhiên 30 entry từ điển yêu cầu ngƣời dùng đánh giá Để đảm bảo độ xác cao có thể, chọn ngẫu nhiên 100 entry từ điển yêu cầu 4-5 ngƣời dùng (hoặc cặp ngƣời dùng) đánh giá sử dụng thang 5-điểm: 5: xác (Excellent), 4: tốt (Good), 3: trung bình (Average), 2: tạm chấp nhận (Fair) 1: sai (Bad) C Kết Để đánh giá đƣợc ảnh hƣởng chất lƣợng từ điển sẵn có đến chất lƣợng từ điển mới, tiến hành đánh giá từ điển mà sử dụng nhƣ tài nguyên đầu vào Bảng trình bày điểm trung bình entry từ điển sẵn có Mức độ đồng ý ngƣời đánh giá khoảng 70% Bảng Điểm trung bình entry từ điển sẵn có Từ điển Dict(arb,eng) Dict(asm,eng) http://www.world-english.org/english500.htm http://rednoise.org/rita/index.html Điểm 3,58 4,65 Từ điển Dict(eng,hin) Dict(eng,vie) Điểm 3,70 3,77 Khang Nhứt Lâm 867 Theo Lam Kalita [5], phƣơng pháp tốt để tìm entry từ điển sẵn có phƣơng pháp DRwS Để chứng minh cần phải kết hợp tìm độ giống ExpansionSet từ khoảng cách từ Wordnet, tiến hành thực nghiệm hai phƣơng pháp DRwS CSD tiến hành đánh giá, so sánh Điểm trung bình số lƣợng entry đƣợc tạo sử dụng phƣơng pháp DRwS CSD để tìm entry từ điển sẵn có đƣợc trình bày lần lƣợt Bảng Bảng Bảng Điểm trung bình số lƣợng entry đƣợc tạo phƣơng pháp DRwS Từ điển Dict(arb,eng) Dict(asm,eng) Dict(eng,hin) Dict (eng,vie) DRwS (β ≥ 0,90) Điểm Entry DRwS (β =1,00) Điểm Entry 1,62 2,67 3,30 2,01 1,70 4,01 3,60 3,14 19.547 11.548 7.125 58.446 15.621 8.581 3.120 28.532 Bảng Điểm trung bình số lƣợng entry đƣợc tạo phƣơng pháp CSD Từ điển CSD (β ≥ 0,90 & α = 0,00) Điểm Entry CSD (β =1,00 & α = 0,00) Điểm Entry Dict(arb,eng) 2,93 10.189 2,68 7.120 Dict(asm,eng) 4,20 1.120 4,31 530 Dict(eng,hin) 3,38 5.623 3.67 840 Dict (eng,vie) 3,51 36.124 3,58 10.123 Phƣơng pháp CSD tìm entry phƣơng pháp DRwS; nhiên, độ xác entry tạo phƣơng pháp CSD cao phƣơng pháp DRwS Chúng thêm entry xây dựng phƣơng pháp CSD với ngƣỡng β =1,00 α = 0,00 vào từ điển Sau làm tăng số entry từ điển sẵn có, chúng tơi tiến hành xây dựng từ điển phƣơng pháp phƣơng pháp ánh xạ trung gian Điểm trung bình số lƣợng entry từ điển đƣợc trình bày Bảng Phƣơng pháp ánh xạ trung gian kết hợp với tính score entry tiềm làm giảm số lƣợng entry chất lƣợng có từ điển so với phƣơng pháp Từ thực nghiệm, δ 0.40 giúp tạo từ điển có chất lƣợng tốt nhất, nhiên số lƣợng entry từ điển khơng cao Bảng Điểm trung bình số lƣợng entry từ điển xây dựng Phƣơng pháp Từ điển Điểm Entry Dict(arb,vie) 2,06 270.048 Dict(asm,vie) 3,00 308.129 Dict(arb, hin) 2,34 140.153 Dict (asm, hin) 2,50 102.138 Phƣơng pháp ánh xạ trung gian (δ ≥ 0.2) Từ điển Điểm Entry Dict(arb,vie) 3,23 28.965 Dict(asm,vie) 3,55 40.220 Dict(arb, hin) 3,45 15.864 Dict (asm, hin) 3,69 13.127 Phƣơng pháp ánh xạ trung gian (δ ≥ 0.1) Từ điển Điểm Entry Dict(arb,vie) 2,15 84.048 Dict(asm,vie) 3,40 108.129 Dict(arb, hin) 2,61 50.153 Dict (asm, hin) 3,50 42.138 Phƣơng pháp ánh xạ trung gian (δ ≥ 0.4) Từ điển Điểm Entry Dict(arb,vie) 3,60 12.129 Dict(asm,vie) 3,89 23.248 Dict(arb, hin) 3,68 9.196 Dict (asm, hin) 4,01 8.349 D Thảo luận Các phƣơng pháp làm tăng số lƣợng entry từ điển (DRwD, DRwS CSD), phƣơng pháp phƣơng pháp ánh xạ trung gian để xây dựng từ điển phải sử dụng thông tin POS entry Nếu từ điển sẵn có chứa đầy đủ thơng tin POS entry tạo có độ xác cao; ngƣợc lại Ví dụ, từ điển Ả RậpAnh hồn tồn khơng chứa thơng tin POS nên độ xác entry thấp so với entry tạo từ từ điển có chứa đầy đủ thơng tin POS nhƣ từ điển Assamese-Anh Thực tế số ngơn ngữ có từ điển số từ điển có từ cụm từ ngôn ngữ nguồn nghĩa tƣơng ứng ngơn ngữ đích, hồn tồn khơng chứa thơng tin khác nhƣ POS hay ví dụ minh họa cách sử dụng từ Nghiên cứu giải pháp để tìm thơng tin POS cho entry từ điển sẵn có đáng quan tâm Hiện chúng tơi gán thông tin POS phổ biến từ tiếng Anh cho entry khơng có POS cách làm có khả khơng xác Ví dụ, từ “book” danh từ “noun” động từ “verb” Do POS phổ biến “book” “noun”, nên tất XÂY DỰNG TỪ ĐIỂN MỚI BẰNG PHƢƠNG PHÁP ÁNH XẠ TRUNG GIAN 868 entry từ điển khơng có POS mà có nghĩa “book” đƣợc gán POS “noun” Kết nhiều entry “book” có POS “verb” có độ xác khơng cao Sau tìm đƣợc entry việc xếp nghĩa theo mức độ phổ biến chúng thực tế quan trọng Cụ thể, phƣơng pháp ánh xạ trung gian mà giới thiệu cần thông tin độ phổ biến ngữ nghĩa để loại bỏ bớt entry chất lƣợng Ví dụ , trong Assamese từ “ আৰক্ষণ কৰ্ ” có POS “verb” nghĩa “book” Sau áp dung phƣơng pháp CSD tìm thêm từ đồng nghĩa “আৰক্ষণ কৰ্ ” với POS “verb” có nghĩa “book” “reserve” Vậy “book” “reserve”, từ có mức độ phổ biến thực tế? Hiện chúng tơi tìm đƣợc entry mới, việc xếp entry theo mức độ phổ biến cần phải có nhiều tài nguyên hơn, chẳng hạn nhƣ tài liệu văn ngơn ngữ nguồn, ngơn ngữ đích tài liệu song ngữ Chúng tơi tìm hiểu phƣơng pháp xây dựng từ điển Dict(A,C) từ Dict(A,B) Dict(B,C) Nếu thay đổi chiều từ điển sẵn có để xây dựng từ điển kết có ảnh hƣởng nhƣ nào? Ví dụ, sử dụng Dict(A,B) Dict(C,B) để xây dựng từ điển Dict(A,C) Dict(C,A) kết có tối ƣu hay không? Hoặc sử dụng Dict(B,A) Dict(B,C) để xây dựng Dict(A,C) Dict(C,A) kết có khác biệt? Chiều từ điển song ngữ ảnh hƣởng đến số lƣợng entry độ xác entry câu hỏi cần nghiên cứu sâu Trong từ điển có có chứa nhiều từ có nghĩa đƣợc sử dụng chứa từ cổ Chúng nhận thấy ngƣời đánh giá thƣờng cho điểm thấp cho từ nằm dạng sử dụng từ cổ Bên cạnh đó, thân từ điển sẵn có chứa đựng entry mà ngƣời dùng khơng biết Thêm vào đó, chắn độ xác entry tìm phụ thuộc lớn độ xác entry từ điển sẵn có Nếu từ điển sẵn có chứa entry khơng xác entry tìm đƣợc có độ xác khơng cao Bảng trình bày số entry từ điển sẵn có mà ngƣời dùng đánh giá điểm thấp Bảng trình bày số entry khơng xác từ điển sẵn có Bảng Một số từ cụm từ ngƣời dùng Arabic word Evaluation Note ‫إيكيلون‬ Bad Do not know arb word ‫خطآ‬ Bad Do not know arb word ‫خواص غروانية‬ Bad Do not know arb word Assamese word Evaluation Note অত্তচে;িাই Bad Do not know asm word অপ্ৰভু ি Bad Do not know asm word ইন্দ্ৰবলস্ত bad Do not know asm word Vietnamese word Evaluation Note báo cừu Bad Do not know vie word bì xì Bad Do not know vie word diện địa Bad Do not know vie word Bảng Một số entry khơng xác tự điển sẵn có Arabic word POS English word Evaluation Note ‫زوج‬ NULL manacles Bad The correct meaning of the arb word is “couple” ‫جاي‬ NULL gay Bad Using arb language to write the eng word ‫صح‬ NULL health Bad The correct meaning of the arb word is “true” Khang Nhứt Lâm 869 Assamese word POS English word Evaluation Note নেওো n curse Bad The correct meaning of the asm word is “ignore” কলিঞ্জি n skylark Bad The correct meaning of the asm word is “sky” অলভেয় n cast Good The correct meaning of the asm word is “acting” লিলিখা n haritaki Bad Do not know “haritaki” কুলবয়া n strike Fair Not good spelling in asm word Vietnamese word POS English word Evaluation Note NULL sempre Bad The vie word should combine with other vie words to create a real compound word The eng word is not known La n tuberculosis Average The vie word should combine with another word such as “bệnh” or “bịnh” to create “bệnh lao” or “bịnh lao” having the meaning of “tuberculosis” kỹ thuật NULL techie Fair The correct meaning of the vie word is “technology” the eng word VII KẾT LUẬN Mục đích nghiên cứu xây dựng từ điển cho ngôn ngữ nhiều nguồn tài ngun từ vựng Chúng tơi làm tăng số lƣợng entry từ điển, xác định loại bỏ đƣợc entry entry có chất lƣợng khơng tốt từ điển Bƣớc kế tiếp, cải tiến giải thuật để xây dựng từ điển có chất lƣợng tốt số entry nhiều Bên cạnh đó, chúng tơi sử dụng nguồn tài ngun sẵn có ngơn ngữ trung gian khác để làm tăng số entry từ điển chẳng hạn nhƣ sử dụng Wordnet làm tài nguyên trung gian [13] VIII LỜI CẢM ƠN Chúng xin chân thành cảm ơn hỗ trợ bạn dự án Panlex Xobdo cung cấp từ điển song ngữ cho nghiên cứu Chúng cám ơn giúp đỡ nhiệt tình Jugal Kalita, Dubari Borah, Tri Doan, Abhijit Bendale, Lalit Prithviraj Jain, Svati Dhamija, Hoang Nguyen, Cuong Nguyen, Bai Le, Feras Al Tarouti Faris Kateb việc hỗ trợ đánh giá từ điển TÀI LIỆU THAM KHẢO [1] S I Landau, Dictionaries: The art and craft of lexicography, Macmillan Reference USA, 1984 [2] Kumiko Tanaka and Kyoji Umemura, "Construction of a bilingual dictionary intermediated," in Proceedings of the 15th Conference on Computational Linguistics (COLING), volume 1, Kyoto, Japan, 1994 [3] Tim Gollins and Mark Sanderson, "Improving cross language information retrieval with triangulated translation," in Proceedings of the 24th Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval, New York, USA, 2001 [4] Kisuh Ahn and Matthew Frampton, "Automatic generation of translation dictionaries," in Proceedings of the International Workshop on CrossLanguage Knowledge Induction, Trento, Italy, 2006 [5] Khang Nhut Lam and Jugal Kalita, "Creating reverse bilingual dictionaries," in The Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Atlanta, Georgia, USA, 2013 [6] R D Brown, "Automated dictionary extraction for "Knowledge-free" example-based translation," in Proceedings of the 7th International Conference on Theoretical and Methodological Issues in Machine Translation, Santa Fe, USA, 1997 [7] Chooi-Ling Goh, Masayuki Asahara, and Yuji Matsumoto, "Building a Japanese-Chinese dictionary using Kanji/Hanzi conversion," in Proceedings of the 2nd International Joint Conference on Natural Language Processing (IJCNLP), Jeju Island, Korea, 2005 870 XÂY DỰNG TỪ ĐIỂN MỚI BẰNG PHƢƠNG PHÁP ÁNH XẠ TRUNG GIAN [8] Nikola Ljube and Darja Fiser, "Bootstrapping bilingual lexicons from comparable corpora for closely related languages," in Proceedings of the 14th International Conference on Text, Speech and Dialogue (TSD), Plzen, Czech Republic, 2011 [9] Pablo G Otero and Jose R.P Campos, "Automatic generation of bilingual dictionaries using intermediate languages and comparable corpora," in 2010, Romania, in Proceedings of the 11th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing) [10] G Miller, "Wordnet: a lexical database for English," Communications of the ACM, vol 38, no 11, pp 39-41, 1995 [11] M F Porter, "An algorithm for suffix stripping," Program: Electronic library and information system, vol 3, no 40, pp 211218, 2006 [12] S M Ross, Introductory statistics, 2010: Academic Press [13] Khang Nhut Lam, Feras Al Tarouti, and Jugal K Kalita, "Automatically Creating a Large Number of New Bilingual Dictionaries," in AAAI, Texas, USA, 2015 [14] G G Koch, Intraclass correlation coefficient Encyclopedia of statistical sciences, John Wiley & Sons, 1982 CONSTRUCTING BILINGUAL DICTIONARIES USING TRANSITIVITY Khang Nhut Lam ABSTRACT— To construct a bilingual dictionary from a source language A to a target language C, the so-called Dict(A,C), existing approaches need many existing lexical resources such as intermediate dictionaries or corpora in A, C and other intermediate languages However, not all of languages have these resources, specially resource poor and endangered languages reported by UNESCO This paper presents approaches to increase the number of entries in an existing dictionary and to create new bilingual dictionaries from existing bilingual dictionaries Dict(A,C) from Dict(A,B) and Dict(B,C) using transitivity To handle ambiguity, we introduce a weighting scheme method such that if an entry has a weighting score greater than a threshold δ, we accept it as a correct translation and add it to the new dictionary Our research helps not only reduce the cost to construct new bilingual dictionaries but also support communities using resource poor languages ... entry từ điển sẵn có, chúng tơi tiến hành xây dựng từ điển phƣơng pháp phƣơng pháp ánh xạ trung gian Điểm trung bình số lƣợng entry từ điển đƣợc trình bày Bảng Phƣơng pháp ánh xạ trung gian kết... tăng số entry từ điển, bắt đầu xây dựng từ điển Đầu tiên giới thiệu phƣơng pháp để xây dựng từ điển từ từ điển sẵn có Ví dụ minh họa cho phƣơng pháp đƣợc trình bày Hình Cho từ điển song ngữ Assamese-Anh... http://www.oed.com/ XÂY DỰNG TỪ ĐIỂN MỚI BẰNG PHƢƠNG PHÁP ÁNH XẠ TRUNG GIAN 864 9: end if 10: end for 11: end for 12: end for 13: end for B Phương pháp (baseline approach) để xây dựng từ điển Sau làm

Ngày đăng: 26/11/2020, 00:09

TỪ KHÓA LIÊN QUAN

w