1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xử lý nhập nhằng ngữ nghĩa trong hệ dịch anh việt

49 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Trong bất kỳ ngôn ngữ nào thì một từ thường có khá nhiều nghĩa khác nhau (hay còn gọi là từ nhiều nghĩa) chính vì vậy khi ta muốn chuyển từ một ngôn ngữ này sang một ngôn ngữ khác sẽ mắc phải vấn đề làm thế nào để chọn đúng nghĩa của từ đó trong mỗi ngữ cảnh khác nhau.

Báo cáo: Xử lý nhập nhằng ngữ nghĩa hệ dịch Anh – Việt Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt Mục Lục CHƯƠNG I GIỚI THIỆU ĐỀ TÀI 1.1 Nhập nhằng : 1.2 Lịch sử : 1.3 Các khó khăn xử lý nhập nhằng : 1.3.1 Sự khác biệt từ điển: 1.3.2 Gán nhãn ngữ liệu (Part of speech tagging): 1.3.3 Kiến thức đời thường ( common sense ): 1.3.4 Nghĩa trừu tượng/nghĩa bóng : 1.4 Ứng dụng : CHƯƠNG CÁC PHƯƠNG PHÁP XỬ LÝ NHẬP NHẰNG 2.1 Xử lý nhập nhằng dựa định nghĩa : 2.1.1 Từ điển : 2.1.2 Thuật toán Lesk (1986) : 10 2.1.3 Lesk phiên đơn giản: 11 2.1.4 Chọn tham chiếu : 13 2.1.5 Các thuật toán heuristic : 15 2.2 Xử lý nhập nhằng có giám sát: 17 2.2.1 Có giám sát ? 17 2.2.2 Phương pháp phân loại Bayes : 20 2.2.3 Cây định ( Decision Tree) : 23 2.3 Xử lý nhập nhằng không giám sát : 27 2.3.1 Không giám sát ? 27 2.3.2 Type-based : 28 2.3.3 Token-based : 30 2|Page Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt 2.4 Xử lý nhập nhằng bán giám sát (giám sát cách tối thiểu) : 31 2.4.1 Bán giám sát ( giám sát cách tối thiểu) ? 31 2.4.2 Tự huấn luyện (self-training) : 32 2.4.3 Cùng huấn luyện (co-training): 34 2.4.4 Thuật toán Yarowsky : 35 CHƯƠNG 39 MƠ HÌNH VÀ GIẢI THUẬT 39 3.1 Mơ hình : 39 3.2 Giải thuật : 40 CHƯƠNG 42 CHƯƠNG TRÌNH THỰC NGHIỆM 42 4.1 Giao diện : 42 4.2 Cơ cấu hoạt động : 43 4.3 Khó khăn hạn chế : 47 CHƯƠNG 48 KẾT QUẢ VÀ HƯỚNG PHÁT TRIỄN 48 5.1 Công việc kết : 48 5.2 Hướng phát triễn : 48 TÀI LIỆU THAM KHẢO 49 3|Page Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt CÁC TỪ VIẾT TẮT POS XLNNTN WSD AI PAC Part of Speech Xử Lý Ngôn Ngữ Tự Nhiên Word Sense disambiguation Artificial Intelligence Probably Approximately Correct 4|Page Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt CHƯƠNG I GIỚI THIỆU ĐỀ TÀI 1.1 Nhập nhằng : Trong ngơn ngữ từ thường có nhiều nghĩa khác (hay gọi từ nhiều nghĩa) ta muốn chuyển từ ngơn ngữ sang ngôn ngữ khác mắc phải vấn đề làm để chọn nghĩa từ ngữ cảnh khác Ví dụ: từ bank tiếng anh có nghĩa dịch sang tiếng Việt:  Ngân hàng  Bờ (sông, hồ) Hai nghĩa mang ý nghĩa hoàn toàn khác sử dụng câu khác sau :  He is fishing at the bank – Anh câu cá bờ sông  There are some robbers at the bank – Có vài tên cướp tại ngân hàng Việc khử nhập nhằn (disambiguation) xác định đâu nghĩa xác từ ngữ cảnh định Nó địi hỏi thứ thiếu :  Từ điển (dictionary): để xác định nghĩa từ  Ngữ liệu (corpus of language) Xử lý nhập nhằng công việc thiết yếu dịch máy, khơng phải vấn đề riêng dịch máy mà gần có liên quan hầu hết công việc xử lý ngôn ngữ tự nhiên Có thể nói bậc thềm xử lý ngôn ngữ tự nhiên 5|Page Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt 1.2 Lịch sử : Xử lý nhập nhằng xác định công việc quan trọng dịch máy vào năm đầu 1940, vấn đề xa xưa ngơn ngữ học ngữ liệu Sự hình thành phát triễn tóm gọn sau :  1949 : Warren Weaver đưa nhập nhằng ngữ nghĩa từ thành vấn đề riêng biệt không gắn chung vào dịch máy  1960 : Bar-Hillel sử dụng ví dụ sau : o Little John was looking for his toy box Finally, he found it The box was in the pen John was very happy o “Pen” mang ý nghĩa ? Một dụng cụ để viết hàng rào nơi trẻ em tụ tập để vui chơi o Ông cho vấn đề giải rời bỏ dịch máy  1970: phương thức để xử lý nhập nhằng đời phương pháp sử dụng luật dựa ngữ liệu xây dựng tay  1980 : đánh dấu bước ngoặc lớn xử lý nhập nhằng với đời từ ngữ liệu “Oxford Advanced Learner’s Dictionary of Current English” (OALD) dẫn đến hình thành phương pháp Lesk (1986)  1990 : có ba bước phát triển lớn : o Sự đời WordNet o Áp dụng giám sát vào xử lý nhập nhằng o Senseval ( đánh giá nhận định kết đạt tất chương trình xử lý nhập nhằng từ thời điểm khởi đầu đến năm 1998) diễn  2000 : phương pháp lai tạo dựa xử lý nhập nhằng có giám sát tạo nên đời : o Xử lý nhập nhằng không giám sát o Xử lý nhập nhằng bán giám sát o Các phiên kết hợp phương pháp o Tuy nhiên xử lý nhập nhằng có giám sát cho kết tốt 6|Page Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt 1.3 Các khó khăn xử lý nhập nhằng : 1.3.1 Sự khác biệt từ điển: Như nói bên nhập nhằng phụ thuộc lớn vào từ điển, từ điển trở thành vấn đề lớn cần phải xử lý Trong trường hợp từ “bank” đề cập ta thấy nghĩa hồn tồn khác xa nên xử lý dễ dàng đối với từ tối nghĩa có nghĩa gần tương tự ví dụ “watch” vừa có nghĩa “xem” vừa có nghĩa “quan sát/theo dõi” trường hợp việc chọn lựa xác nghĩa từ trở nên vơ khó khăn Các từ điển khác đưa nghĩa kết khác Một cách giải mà nhiều nhà nghiên cứu sử dụng cho vấn đề sử dụng từ điển đặc thù (WordNet sử dụng hầu hết nhà nghiên cứu WSD tiếng anh) 1.3.2 Gán nhãn ngữ liệu (Part of speech tagging): Gán nhãn ngữ liệu nói đơn giản phân loại từ (danh từ - Noun , động từ - verb , tính từ - adjective , …) có nhiều điểm tương đồng với gán nghĩa từ Ví dụ: “watch” vừa là:  Danh từ : đồng hồ  Động từ : xem, nhìn, quan sát v.v 1.3.3 Kiến thức đời thường ( common sense ): Là kiến thức thông thường sống cần thiết đối với người, để làm cho máy tính thơng minh giống người địi hỏi máy tính phải có kiến thức Ví dụ :  Jill and Mary are sisters – Jill Mary chị em với  Jill and Mary are mothers – Jill Mary người mẹ Vậy để máy học kiến thức ? Câu hỏi đến chưa giải trở thành khó khăn lớn cho AI (Artificial Intelligence) nói chung xử lý nhập nhằng nói riêng 1.3.4 Nghĩa trừu tượng/nghĩa bóng : Một từ ngồi nghĩa thơng thường ngồi cịn mang nghĩa bóng gió Nhưng từ khơng phân loại nghĩa nghĩa phụ nên gây nhiều khó khăn cho xử lý nhập nhằng 7|Page Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt 1.4 Ứng dụng : Xử lý nhập nhằng từ lâu phần quan trọng XLNNTN hầu hết phần mềm liên quan đến XLNNTN có sử dụng xử lý nhập nhằng Đáng ý phần mềm sau : -Dịch máy : xử lý nhập nhằng cần cho việc xác định xác nghĩa từ chuyển từ ngôn ngữ sang ngơn ngữ khác  Ví dụ : từ tiếng anh look dịch sang tiếng việt vẻ bề ngồi nhìn -Rút trích thơng tin : sử dụng từ khóa để tiếm kiếm, việc loại trừ nghĩa khơng tương thích với ngữ cảnh giảm thiểu nhiều thời gian tăng xác suất chương trình  Ví dụ : tìm trang web “cricket” “Cricket” lồi trùng hay mơn thể thao ? -Phân tích văn phạm : xử lý nhập nhằng cần thiết việc xử lý văn phạm, sử dụng để gán nhãn ngữ liệu hay kiểm tra lỗi văn phạm 8|Page Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt CHƯƠNG CÁC PHƯƠNG PHÁP XỬ LÝ NHẬP NHẰNG 2.1 Xử lý nhập nhằng dựa định nghĩa : 2.1.1 Từ điển : Từ điển phần thiếu nêu muốn xử lý nhập nhằng dựa theo phương pháp sử dụng định nghĩa Vào năm gần đây, có nhiều từ điển đời để phục vụ cho phương pháp Từ điển chia làm loại : -Từ điển túy : từ điển đáp ứng nhu cầu sau : từ có danh sách nghĩa., nghĩa xác định giải thích rõ ràng, ứng với nghĩa có số ví dụ minh họa cụ thể Một số từ điển túy phổ biến :  Oxford English Dictionary  Collins  Longman Dictionary of Ordinary Contemporary English (LDOCE) Ví dụ : với từ plant ta có định nghĩa sau buildings for carrying on industrial labor; “they built a large plant to manufacture automobiles“ a living organism lacking the power of locomotion something planted secretly for discovery by another; “the police used a plant to trick the thieves”; “he claimed that the evidence against him was a plant” an actor situated in the audience whose acting is rehearsed but seems spontaneous to the audience -Bộ toàn thư (từ điển từ đồng nghĩa) : chứa từ có ý nghĩa tương tự Sử dụng phổ biến toàn thư Roget Ví dụ : từ đồng nghĩa với từ plant toàn thư Roget : plant, works, industrial plant plant, flora, plant life 9|Page Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt -Từ điển mạng ngữ nghĩa : chứa mạng ngữ nghĩa Hypernymy/hyponymy (IS-A), meronymy/holonymy (PART-OF), antonymy, entailnment v.v Ví dụ : WordNet “plant life” có từ nghĩa liên quan sau : {plant, flora, plant life}     hypernym: hypomym: meronym: holonym: {organism, being} {house plant}, {fungus}, … {plant tissue}, {plant part} {Plantae, kingdom Plantae, plant kingdom} 2.1.2 Thuật toán Lesk (1986) : Thuật toán Lesk (1986) thuật toán đời xử lý nhập nhằng ngữ nghĩa từ,chỉ cần tới từ điển chứa đầy đủ thông tin nghĩa với ví dụ rõ ràng nghĩa Thuật tốn giải thích đơn giản sau :  Lấy từ điển tất nghĩa có từ cần xử lý nhập nhằng  Xác định trùng lặp tất khả có kết hợp cặp nghĩa với  Chọn nghĩa có trùng lặp cao Mã giả : for each sense i of W1 for each sense j of W2 compute Overlap(i,j), the number of word in common between the definitions of sense i and sense j find i and j for which Overlap(i,j) maximized assign sense i for W1 and sense j for W2 10 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt Blum Milchell nói với giả thiết độc lập điều kiện cho trước phân phối D, lớp đích học từ nhiều phân lớp ngẫu nhiên theo mơ hình PAC (Probably Approximately Correct) chuẩn, dự đốn yếu ban đầu nâng lên độ xác cao tuỳ ý mà sử dụng mẫu chưa gán nhãn thuật tốn huấn luyện Thuật tốn mơ tả sau : Cho trước :  L tập mẫu huấn luyện gán nhãn  U tập mẫu chưa gán nhãn Tạo tập U’ gồm u mẫu chọn ngẫu nhiên từ U Vòng lặp k : o o o o o o Sử dụng L huấn luyện phân lớp h1 phần x1 x Sử dụng L huấn luyện phân lớp h2 phần x2 x Cho h1 gán nhãn p mẫu dương n mẫu âm từ tập U’ Cho h2 gán nhãn p mẫu dương n mẫu âm từ tập U’ Thêm mẫu tự gán nhãn vào tập L Chọn ngẫu nhiên 2p + 2n mẫu từ tập U bổ sung vào tập U’ 2.4.4 Thuật toán Yarowsky : Dựa thuật toán huấn luyện đưa năm 1995, Yarowsky đưa ý tưởng sử dụng hai thuật toán heuristic danh sách định Hai thuật toán heuristic hai thuật tốn “một nghĩa diễn thuyết” “một nghĩa tập hợp” nêu danh sách định dùng để phân định ngữ cảnh từ cần xử lý nhập nhằng Ví dụ với “the loss of animal and plant species through extinction …” ta có bảng phân lớp sau : 35 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt Điểm Nhóm từ Nhãn … … … 9.31 flower (within +/- k words)  A (living) 9.24 job (within +/- k words)  B (factory) 9.03 fruit (within +/- k words)  A (living) 9.02 plant species  A (living) … Nhãn dự đoán k* độ tin cậy vượt qua giá trị n mà ta đặt Tuy nhiên từ gán nhãn bi gỡ bỏ nhãn bắt đầu huấn luyện lai Do dựa thuật toán huấn luyện nên liệu chia làm hai phân lớp Mỗi phân lớp chứa số lượng nhỏ ngữ liệu huấn luyện gắn nhãn với từ xác định Sau hình minh họa : Hình 2.4.4.1 : hình minh họa thuật tốn Yarowsky lúc bắt đầu 36 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt Khi bắt đầu huấn luyện ta : Hình 2.4.4.2 : thuật tốn Yarowsky lúc chạy Q trình kết thúc có phân định rõ ràng : Hình 2.4.4.3 : thuật tốn Yarowsky sau chạy xong 37 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt Thuật toán bao gồm hai phần cở :  Thủ tục lặp : o Huấn luyện danh sách định ngữ liệu huấn luyện gán nhãn o Phân lớp ngữ liệu thô chưa gán nhãn với danh sách định o Tạo nhãn ngữ liệu mới ( k* có độ tin cậy ngưỡng n đặt ra) o Huấn luyện lại phân lớp dựa nhãn ngữ liệu mới  Chọn ngữ liệu huấn luyện : o Ngữ liệu huấn luyện ban đầu phải phân biệt cách xác nghĩa xuất o Phương pháp :  Chọn nhãn cho nghĩa  Chọn từ lấy từ tử điển  Tự làm tay cụm nhóm có nghĩa thường sử dụng Năm 2004, Abney đưa phiên sửa đổi thuật tốn Yarowsky :  Chọn nhãn ngữ liệu mới k* độ tin cậy nhãn 1/k (thay n ta tự đặt ra) với k số nhãn ngữ liệu mới  Khi từ gán nhãn phải ln gán nhãn nhãn thay đổi (ở thuật tốn Yarowsky từ gán nhãn trở thành không gán nhãn) 38 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt CHƯƠNG MÔ HÌNH VÀ GIẢI THUẬT 3.1 Mơ hình : Xây dựng ngữ liệu dựa Wordnet Bao gồm :  Adj.txt/Adv.txt/Noun.txt/Verb.txt : chứa tính từ/trạng từ/danh từ/động từ, mã từ, mã từ mang nghĩa cha (nếu có), nghĩa từ ví dụ(nếu có)  Adj.exc/Adv.exc/Noun.exc/Verb.exc : trường hợp đặc biệt tính từ/trạng từ/danh từ/động từ  Sense.txt : chứa mã từ, loại từ, số thứ tự nghĩa độ thông dụng từ Sau liệu vào xử lý theo mơ hình sau : DỮ LIỆU ĐẦU VÀO NLPARSER STANFORD PARSER POS DỮ LIỆU ĐẦU RA Hình 3.1.1 : Sơ đồ minh họa bước thuật toán 39 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt 3.2 Giải thuật : Các bước thực :  Thực POS cách chạy online trang Stanford Parser chạy offline theo phương pháp NLParser để gán nhãn từ loại  Giải từ theo thứ tự đầu vào  Kiếm tra từ đưa vào có phải nguyên mẫu chưa, có thuộc từ đặc biệt Adj/Adv/Noun/Verb.ecx hay khơng, có đưa ngun mẫu  Ta chọn nghĩa thường gặp gán cho từ đó, dựa vào số độ thơng dụng từ  Nếu từ có nghĩa ta lấy thẳng nghĩa  Nếu từ có nhiều nghĩa, ta bắt đầu lấy từ lân cận câu, tìm định nghĩa, ví dụ nghĩa xem có từ lân cận khơng  Mỗi lần tìm thấy ta tăng cho nghĩa point  Sau áp dụng thêm mạng ngữ nghĩa cha/con WordNet để xét thêm mức độ bên dưới từ nhằm tăng point cho nghĩa Việc sử dụng mạng ngữ nghĩa ví dụ minh họa sau  Cuối ta bắt đầu so sánh point nghĩa khác nghĩa phổ biến gắn lúc đầu o Point lớn : gán nghĩa mới cho từ o Point nhỏ : giữ nguyên nghĩa lúc đầu Ví dụ áp dụng mạng ngữ nghĩa với câu : “ I am fishing in the river bank” cần xác định nghĩa chữ bank Trong Wordnet từ bank noun có mười nghĩa : bank#1,bank#2,bank#3,…bank#10 với hai nghĩa phổ biến :  Bank#1: a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home"  Bank#2: sloping land (especially the slope beside a body of water); "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents") Khi ta có : 40 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt  Từ : I, am, fishing, in, the, river, bank  Từ cần xử lý nhập nhằng : bank  Nghĩa : bank#1, bank#2,bank#3, …, bank#10 Với nghĩa ta có : bank#1 : a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home" => financial_institution : an institution (public or private) that collects funds (from the public or other institutions) and invests them in financial assets => institution: an organization founded and united for a specific purpose => organization: a group of people who work together => social_group: people sharing some social relation => group: any number of entities (members) considered as a unit Point : bank#2: sloping land (especially the slope beside a body of water); "they pulled the canoe up on the bank"; "he sat on the bank of the river and watched the currents") =>slope: an elevated geological formation; "he climbed the steep slope"; "the house was built on the side of a mountain" =>geological_formation:(geology) the geological features of the earth =>object: a tangible and visible entity; an entity that can cast a shadow; "it was full of rackets, balls and other objects" => physical_entity: an entity that has physical existence Point : Áp dụng tương tự với nghĩa cịn lại Để tính điểm cho tất nghĩa từ cần xử lý nhập nhằng 41 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt CHƯƠNG CHƯƠNG TRÌNH THỰC NGHIỆM 4.1 Giao diện : Hình 4.1 : Giao diện chương trình Chương trình xây dựng ngôn ngữ C# Visual Studio 2008 Gồm phần Part-of-speech tagging Meaning  Part-of-speech tagging : hiển thị POS từ lấy từ StanFord POS chạy offline theo phương pháp NLParser  Meaning : hiển thị loại từ, nghĩa từ, số điểm đạt nghĩa đó, cho biết nghĩa thứ từ sau xử lý nhập nhằng (nghĩa xếp theo thứ tự độ phổ biến giảm dần) 42 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt 4.2 Cơ cấu hoạt động : Khi nhập câu vào textbox: Nếu bấm nút Start Online, chương trình :  Connect lên trang Stanford POS để phân tích câu lấy tag từ ( đòi hỏi phải online )  Áp dụng thuật toán Simple Lesk xử lý nhập nhằng để đưa nghĩa từ Hình 4.2 : Kết chạy online với Stanford Parser Sau chạy Stanford Parser online áp dụng thuật toán Simple Lesk ta nhận kết cuối hình 4.2 Nghĩa catch fish/câu cá từ fishing có point = 1, nên chọn thay nghĩa seek indirectly nghĩa có độ thơng dụng cao Tương tự, nghĩa sloping land/bờ sơng từ bank có point = 1, nên chọn thay nghĩa ngân hàng, nghĩa có độ thơng dụng cao Các từ am, near, river khơng có point nên chương trình lấy nghĩa có độ phổ biến cao 43 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt Hình 4.3 : Từ fishing bank có nghĩa khơng phải nghĩa phổ biến Có thể thấy động từ to be/am có nghĩa tiếng Anh chưa xác động từ fish có nghĩa tiếng Việt chưa đúng, ta chỉnh sửa lại Hình 4.4 : Chỉnh lại nghĩa tiếng Anh động từ to be/am 44 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt Hình 4.5 : Chỉnh lại nghĩa tiếng Việt động từ fish Người dùng click chuột vào phần nghĩa tiếng Anh nghĩa tiếng Việt từ, chương trình đưa list nghĩa từ để người dùng chọn nghĩa khác Sau chọn nghĩa thích hợp, chương trình tự động lưu lại nghĩa mà người dùng chọn để làm ngữ liệu tham khảo cho lần chạy sau, giúp lần chạy sau xác Nếu bấm nút Start Offline, chương trình sẽ:  Chạy thuật tốn NLParser để phân tích câu lấy tag từ  Sau áp dụng thuật tốn Simple Lesk xử lí nhập nhằng đưa nghĩa từ Kết chạy với NLParser offline tương đồng với kết chạy Stanford Parser online, điểm khác biệt nghĩa tiếng Việt động từ fish xác sửa lại sau lần chạy chương trình lưu lại để tham khảo cho lần chạy sau 45 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt Hình 4.6 : Kết chạy offline với NLParser Hình 4.7 : Kết chạy NLParser tương tự kết chạy dùng Stanford Parser 46 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt 4.3 Khó khăn hạn chế :  Thuật tốn cịn nhiều bất cập cần phải cải tiến nhiều để đưa kết cao  Việc xây dựng WordNet tiếng việt cịn khó khăn chưa tìm thuật tốn tốt để ánh xạ từ anh sang việt có độ xác cao 47 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt CHƯƠNG KẾT QUẢ VÀ HƯỚNG PHÁT TRIỄN 5.1 Công việc kết :  Xây dựng ngữ liệu dựa WordNet làm tảng cho việc xử lý nhập nhằng  Xây dựng chương trình demo xử lý nhập nhằng dựa ngữ liệu cho tiếng Anh  Đưa chương trình NLParser vào chương trình để chạy chương trình offline, khắc phục nhược điểm lúc trước phải online mới chạy  Cài đặt thuật toán Lesk để xử lý nhập nhằng  Đã hồn thành chương trình thực nghiệm xử lý nhập nhằng cho tiếng Anh với độ xác tương đối  Cơ hoàn thành việc ánh xạ từ điển tiếng Anh sang từ điển tiếng Việt 5.2 Hướng phát triễn :  Tiếp tục cải tiến thuật tốn để nâng cao tính xác lên  Tiếp tục cải tiến thuật toán ánh xạ từ điển Anh sang Việt để có kết xác 48 | P a g e Xử lý nhập nhằng ngữ nghĩa từ hệ dịch Anh - Việt TÀI LIỆU THAM KHẢO [1] Nancy Ide - Jean Véronis (1998) ,Word Sense Disambiguation: The State of the Art [2] Rada Mihalcea -Ted Pedersen (2005) , Advances in Word Sense Disambiguation [3] Eneko Agirre and Philip Edmonds (1998), Word Sense Disambiguation Algorithms and Applications [4] Blum –Mitchell (1998), Combining Labeled and Unlabed data with Co-training [5]Gholamreza Haffari (2007) , Analysis of Semi-supervised Learning with the Yarowsky Algorithm 49 | P a g e

Ngày đăng: 29/12/2023, 07:26

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN