1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xử lý nhập nhằng ngữ nghĩa trong hệ dịch anh việt

49 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xử Lý Nhập Nhằng Ngữ Nghĩa Trong Hệ Dịch Anh – Việt
Thể loại Báo Cáo
Định dạng
Số trang 49
Dung lượng 1,54 MB
File đính kèm Xử lý nhập nhằng ngữ nghĩa trong hệ dịch Anh Việt.rar (1 MB)

Cấu trúc

  • CHƯƠNG I (5)
    • 1.1 Nhập nhằng (5)
    • 1.2 Lịch sử (6)
    • 1.3 Các khó khăn trong xử lý nhập nhằng (7)
      • 1.3.1 Sự khác biệt giữa các từ điển (7)
      • 1.3.2 Gán nhãn ngữ liệu (Part of speech tagging) (7)
      • 1.3.3 Kiến thức đời thường ( common sense ) (7)
      • 1.3.4 Nghĩa trừu tượng/nghĩa bóng (7)
    • 1.4 Ứng dụng (8)
    • CHƯƠNG 2 (9)
      • 2.1 Xử lý nhập nhằng dựa trên định nghĩa (9)
        • 2.1.1 Từ điển (9)
        • 2.1.2 Thuật toán Lesk (1986) (10)
        • 2.1.3 Lesk phiên bản đơn giản (11)
        • 2.1.4 Chọn tham chiếu (13)
        • 2.1.5 Các thuật toán heuristic (15)
      • 2.2 Xử lý nhập nhằng có giám sát (17)
        • 2.2.1 Có giám sát là gì ? (17)
        • 2.2.2 Phương pháp phân loại Bayes (20)
        • 2.2.3 Cây quyết định ( Decision Tree) (23)
      • 2.3 Xử lý nhập nhằng không giám sát (27)
        • 2.3.1 Không giám sát là gì ? (27)
        • 2.3.2 Type-based (28)
        • 2.3.3 Token-based (30)
      • 2.4 Xử lý nhập nhằng bán giám sát (giám sát một cách tối thiểu) (31)
        • 2.4.1 Bán giám sát ( giám sát một cách tối thiểu) ? (31)
        • 2.4.2 Tự huấn luyện (self-training) (32)
        • 2.4.3 Cùng huấn luyện (co-training) (34)
        • 2.4.4 Thuật toán Yarowsky (35)
    • CHƯƠNG 3 (39)
      • 3.1 Mô hình (39)
      • 3.2 Giải thuật (40)
    • CHƯƠNG 4 (42)
      • 4.1 Giao diện (42)
      • 4.2 Cơ cấu hoạt động (43)
      • 4.3 Khó khăn và hạn chế (47)
    • CHƯƠNG 5 (48)
      • 5.1 Công việc và kết quả (48)
      • 5.2 Hướng phát triễn (0)
  • TÀI LIỆU THAM KHẢO (49)

Nội dung

Trong bất kỳ ngôn ngữ nào thì một từ thường có khá nhiều nghĩa khác nhau (hay còn gọi là từ nhiều nghĩa) chính vì vậy khi ta muốn chuyển từ một ngôn ngữ này sang một ngôn ngữ khác sẽ mắc phải vấn đề làm thế nào để chọn đúng nghĩa của từ đó trong mỗi ngữ cảnh khác nhau.

Nhập nhằng

Trong bất kỳ ngôn ngữ nào, từ nhiều nghĩa là điều phổ biến, dẫn đến việc khi dịch từ ngôn ngữ này sang ngôn ngữ khác, chúng ta phải cẩn thận chọn đúng nghĩa phù hợp với từng ngữ cảnh.

Ví dụ: từ bank trong tiếng anh có 2 nghĩa chính khi dịch sang tiếng Việt:

Hai nghĩa này mang ý nghĩa hoàn toàn khác nhau và được sử dụng trong 2 câu khác nhau như sau :

 He is fishing at the bank – Anh ấy đang câu cá ở bờ sông

 There are some robbers at the bank – Có vài tên cướp tại ngân hàng.

Khử nhập nhằn (disambiguation) là quá trình xác định nghĩa chính xác của từ trong một ngữ cảnh cụ thể Quá trình này yêu cầu hai yếu tố thiết yếu không thể thiếu.

 Từ điển (dictionary): để xác định các nghĩa của từ

 Ngữ liệu (corpus of language)

Xử lý nhập nhằng là một nhiệm vụ quan trọng trong dịch máy, nhưng không chỉ giới hạn trong lĩnh vực này mà còn liên quan đến hầu hết các công việc trong xử lý ngôn ngữ tự nhiên Đây có thể được coi là một trong những bước cơ bản trong lĩnh vực xử lý ngôn ngữ tự nhiên.

Lịch sử

Xử lý nhập nhằng đã được công nhận là một trong những nhiệm vụ quan trọng của dịch máy từ những năm 1940, và nó cũng là một trong những thách thức lâu đời nhất trong lĩnh vực ngôn ngữ học ngữ liệu.

Sự hình thành và phát triễn có thể tóm gọn như sau :

 1949 : Warren Weaver đưa nhập nhằng ngữ nghĩa của từ ra thành một vấn đề riêng biệt chứ không gắn chung vào dịch máy nữa

In 1960, Bar-Hillel presented an example involving Little John searching for his toy box, which he ultimately found in the "pen." This term raised the question of whether it referred to a writing instrument or an enclosed area for children's play Bar-Hillel concluded that this ambiguity could not be resolved, leading him to abandon machine translation.

 1970: phương thức đầu tiên để xử lý nhập nhằng ra đời đó là phương pháp sử dụng luật dựa trên bộ ngữ liệu được xây dựng bằng tay

Năm 1980 đánh dấu một bước ngoặt quan trọng trong việc xử lý ngữ nghĩa với sự ra đời của từ điển "Oxford Advanced Learner’s Dictionary of Current English" (OALD), điều này đã dẫn đến sự phát triển của phương pháp Lesk vào năm 1986.

Năm 1990 đánh dấu ba bước phát triển quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên: sự ra đời của WordNet, ứng dụng giám sát trong xử lý nhập nhằng, và sự kiện Senseval diễn ra, nhằm đánh giá hiệu quả của các chương trình xử lý nhập nhằng từ khi khởi đầu cho đến năm 1998.

Năm 2000, các phương pháp lai tạo dựa trên xử lý nhập nhằng có giám sát đã dẫn đến sự phát triển của nhiều hình thức mới, bao gồm xử lý nhập nhằng không giám sát, xử lý nhập nhằng bán giám sát và các phiên bản kết hợp các phương pháp Tuy nhiên, xử lý nhập nhằng có giám sát vẫn chứng tỏ là phương pháp mang lại kết quả tốt nhất.

Các khó khăn trong xử lý nhập nhằng

1.3.1 Sự khác biệt giữa các từ điển:

Việc xử lý sự nhập nhằng trong ngữ nghĩa từ vựng phụ thuộc lớn vào từ điển, do đó, từ điển trở thành vấn đề quan trọng cần giải quyết Chẳng hạn, từ “bank” có hai nghĩa hoàn toàn khác nhau, dễ dàng phân biệt Tuy nhiên, với những từ tối nghĩa như “watch”, có nghĩa là “xem” và “quan sát/theo dõi”, việc chọn lựa nghĩa chính xác trở nên khó khăn Các từ điển khác nhau có thể cung cấp các định nghĩa và kết quả khác nhau Một giải pháp mà nhiều nhà nghiên cứu áp dụng là sử dụng một từ điển chuyên biệt, như WordNet, được ưa chuộng trong nghiên cứu WSD tiếng Anh.

1.3.2 Gán nhãn ngữ liệu (Part of speech tagging):

Gán nhãn ngữ liệu là quá trình phân loại từ, bao gồm danh từ, động từ, và tính từ, tương tự như gán nghĩa từ Ví dụ, từ "watch" có thể mang nhiều nghĩa khác nhau trong ngữ cảnh sử dụng.

 Động từ : xem, nhìn, quan sát v.v

1.3.3 Kiến thức đời thường ( common sense ):

Để máy tính trở nên thông minh và giống con người hơn, việc trang bị những kiến thức căn bản trong cuộc sống là rất cần thiết Những kiến thức này giúp máy tính hiểu và xử lý thông tin một cách hiệu quả hơn.

 Jill and Mary are sisters – Jill và Mary là chị em với nhau

 Jill and Mary are mothers – Jill và Mary là những người mẹ

Để máy học được những kiến thức cơ bản, câu hỏi này vẫn chưa có lời giải, tạo ra nhiều khó khăn cho trí tuệ nhân tạo (AI) và việc xử lý thông tin nhập nhằng.

1.3.4 Nghĩa trừu tượng/nghĩa bóng :

Một từ có thể mang nhiều nghĩa, không chỉ giới hạn ở nghĩa thông thường mà còn có thể chứa đựng những nghĩa bóng Tuy nhiên, trong trường hợp này, từ không được phân loại rõ ràng giữa nghĩa chính và nghĩa phụ, điều này gây ra khó khăn trong việc xử lý và hiểu đúng ngữ cảnh.

Ứng dụng

Xử lý nhập nhằng là một yếu tố quan trọng trong xử lý ngôn ngữ tự nhiên (XLNNTN), vì vậy hầu hết các phần mềm liên quan đến XLNNTN đều tích hợp tính năng này Các phần mềm nổi bật trong lĩnh vực này bao gồm:

-Dịch máy : xử lý nhập nhằng cần cho việc xác định chính xác nghĩa của từ khi chuyển từ một ngôn ngữ này sang ngôn ngữ khác

 Ví dụ : từ tiếng anh look có thể dịch sang tiếng việt là vẻ bề ngoài hoặc cái nhìn

Khi sử dụng từ khóa để tìm kiếm, việc loại trừ các nghĩa không tương thích với ngữ cảnh có thể giúp tiết kiệm thời gian và tăng độ chính xác của chương trình.

 Ví dụ : tìm các trang web về “cricket” “Cricket” ở đây là một loài côn trùng hay một môn thể thao ?

Xử lý nhập nhằng là một yếu tố quan trọng trong phân tích văn phạm, giúp gán nhãn ngữ liệu và kiểm tra lỗi văn phạm hiệu quả.

2.1 Xử lý nhập nhằng dựa trên định nghĩa :

Từ điển đóng vai trò quan trọng trong việc xử lý các khái niệm phức tạp thông qua việc sử dụng định nghĩa Trong những năm gần đây, nhiều bộ từ điển mới đã được phát triển để hỗ trợ cho phương pháp này Từ điển có thể được phân loại thành ba loại khác nhau.

Từ điển thuần túy là loại từ điển đáp ứng nhu cầu cung cấp danh sách nghĩa cho mỗi từ, với mỗi nghĩa được xác định và giải thích rõ ràng Đặc biệt, mỗi nghĩa sẽ đi kèm với các ví dụ minh họa cụ thể Một số từ điển thuần túy phổ biến hiện nay bao gồm

 Longman Dictionary of Ordinary Contemporary English (LDOCE)

Ví dụ : với từ plant ta sẽ có các định nghĩa sau

1 buildings for carrying on industrial labor; “they built a large plant to manufacture automobiles“

2 a living organism lacking the power of locomotion

3 something planted secretly for discovery by another; “the police used a plant to trick the thieves”; “he claimed that the evidence against him was a plant”

4 an actor situated in the audience whose acting is rehearsed but seems spontaneous to the audience

-Bộ toàn thư (từ điển các từ đồng nghĩa) : chứa các từ có ý nghĩa tương tự nhau Sử dụng phổ biến nhất hiện nay là bộ toàn thư Roget

Ví dụ : các từ đồng nghĩa với từ plant là trong bộ toàn thư Roget là :

-Từ điển mạng ngữ nghĩa : chứa các mạng ngữ nghĩa như Hypernymy/hyponymy (IS-A), meronymy/holonymy (PART-OF), antonymy, entailnment v.v

Ví dụ : trong WordNet “plant life” có các từ và nghĩa liên quan như sau :

 meronym: {plant tissue}, {plant part}

 holonym: {Plantae, kingdom Plantae, plant kingdom}

Thuật toán Lesk, ra đời vào năm 1986, là một trong những thuật toán tiên phong trong lĩnh vực xử lý sự nhập nhằng ngữ nghĩa của từ Thuật toán này yêu cầu một bộ từ điển đầy đủ thông tin về nghĩa của từ, kèm theo những ví dụ minh họa rõ ràng Cách hoạt động của thuật toán có thể được mô tả một cách đơn giản như sau:

 Lấy trong từ điển tất cả các nghĩa có thể có của các từ cần xử lý nhập nhằng

 Xác định sự trùng lặp giữa tất cả các khả năng có thể có khi kết hợp từng cặp nghĩa với nhau

 Chọn các nghĩa có sự trùng lặp cao nhất

To compute the optimal sense pairing between two words, W1 and W2, iterate through each sense i of W1 and each sense j of W2 Calculate the Overlap(i,j), which represents the number of common words in the definitions of sense i and sense j Identify the pair (i,j) that maximizes Overlap(i,j) and assign sense i to W1 and sense j to W2.

Ví dụ thường sử dụng cho thuật toán Lesk là hai từ “PINE” và “CONE”

-“PINE” mang các nghĩa sau :

1 kinds of evergreen tree with needle-shaped leaves - cây thông

2 waste away through sorrow or illness - tiều tụy

-“CONE” mang các nghĩa sau :

1 solid body which narrows to a point – vật hình nón

2 a shape whose base is a circle and whose sides taper up to a point - có hình nón

3 fruit of certain evergreen trees – một loại trái

-Lúc này áp dụng thuật toán Lesk kết hợp tất cả các trường hợp ta có :

-Theo kết quả của thuật toán thì ta chọn nghĩa Pine thứ nhất và nghĩa Cone thứ ba Vậy

“PINE CONE” ở đây nghĩa là “trái cây thông”

2.1.3 Lesk phiên bản đơn giản:

Năm 2000, Kilgarriff và Rosensweig đã phát triển một phiên bản đơn giản hơn của thuật toán Lesk, giúp rút gọn và tối ưu hóa đáng kể thời gian tìm kiếm của thuật toán này.

Thuật toán Lesk ban đầu đo lường độ trùng lặp về nghĩa giữa các từ trong đoạn văn Nó kết hợp tất cả các nghĩa lại với nhau để xác định trường hợp có mức độ trùng lặp cao nhất.

Phiên bản đơn giản của thuật toán Lesk đo lường độ trùng lặp của một từ trong văn bản bằng cách so sánh với định nghĩa và ví dụ của nó trong từ điển Sau đó, thuật toán sẽ xác định nghĩa có mức độ trùng lặp cao nhất.

Comment : Given: context c For all senses sk of w do

Score(sk) = overlap (Dk , Uvj inc Evj ) End

Ví dụ ta có hai định nghĩa của từ ash như sau:

 A tree of the olive family - Một loại cây thuộc họ ôliu

 The solid residue left when combustible material is burned - Lượng chất rắn còn lại khi một vật dễ cháy bị đốt hết

Nếu từ "tree" xuất hiện trong cùng đoạn văn với "ash", khả năng cao "ash" sẽ được hiểu theo định nghĩa 1 Tương tự, nếu "burn" xuất hiện bên cạnh "ash", thì "ash" có thể thuộc về định nghĩa thứ 2.

Giả sử D1, D2,…, Dk là các định nghĩa từ điển tương ứng với nghĩa s1, s2,…, sk của từ nhập nhằng w, đại diện cho nhóm từ cần định nghĩa Định nghĩa từ điển của từ vj trong văn bản chứa từ w được ký hiệu là Evj Nếu sj1,…,sji là các nghĩa của vj, thì Evj được tính bằng cách lấy hợp (Uji) các định nghĩa Dji Dựa trên đó, chúng ta có thể xây dựng một thuật toán để xử lý các định nghĩa này một cách hiệu quả.

Với công thức overlap, chúng ta sẽ đếm số lượng từ thông dụng thường đi kèm với từng nghĩa trong mỗi định nghĩa của từ nhập nhằng cần xem xét Ví dụ, với từ "ash", chúng ta sẽ có bảng thống kê để phân tích.

0 1 This cigar burns slowly and creates a stiff ash

1 0 The ash is one of the last trees to come into leaf

Thuật toán Lesk được sử dụng để khử nhập nhằng cho từ "ash" bằng cách xác định nghĩa dựa trên số lượng từ thông dụng đi kèm với từng định nghĩa Trong câu đầu tiên, từ khử nhập nhằng là "burn", liên quan đến định nghĩa thứ hai của "ash", và không có từ nào liên quan đến định nghĩa thứ nhất, dẫn đến kết quả cuối cùng là "Cặn rắn còn lại khi vật liệu dễ cháy được đốt" Tương tự, trong câu thứ hai, từ "tree" giúp xác định nghĩa là "Một loại cây thuộc họ ô liu".

Thông tin chỉ dựa trên một cuốn từ điển thường không đủ để khử nhập nhằng từ đạt kết quả tốt Thuật toán Lesk có độ chính xác từ 50% đến 70% khi áp dụng cho một số ví dụ về từ nhập nhằng Lesk đề xuất các phương án tối ưu hóa để cải thiện kết quả, như chạy thuật toán nhiều lần trên cùng một văn bản Thay vì sử dụng tất cả các từ xuất hiện trong định nghĩa, nên chỉ sử dụng các từ trong định nghĩa của nghĩa thích hợp với văn bản Việc lặp lại thuật toán nhiều lần có thể mang lại nghĩa chính xác cho từng từ nhập nhằng trong văn bản.

Một trong những thuật toán đầu tiên trong xử lý ngữ nghĩa là thuật toán chọn tham chiếu, giúp giới hạn nghĩa của từ bằng cách thu thập thông tin về các mối quan hệ giữa các lớp từ.

Ví dụ : “wash a dish” và “cook a dish” sẽ có các tham chiếu như sau :

Phương pháp Cook – food sử dụng thông tin liên quan giữa các từ trong mạng ngữ nghĩa, với wash object và cook food là những kiến thức cơ bản của xã hội loài người Mặc dù những kiến thức này có vẻ đơn giản với con người, nhưng lại rất khó khăn khi máy móc xử lý Vấn đề chính là sự xoay vòng giữa chọn tham chiếu và xử lý nhập nhằng Việc chọn tham chiếu cần có xử lý nhập nhằng, và ngược lại, áp dụng chọn tham chiếu có thể tăng xác suất chính xác của xử lý nhập nhằng Một trong những giải pháp hiệu quả để khắc phục sự xoay vòng này là dựa vào

 Đo đạt các thông tin giả thuyết

 Các mối quan hệ giữa các lớp

Cách tính mối quan hệ giữa từ với từ : o Tính độ phổ biến của hai từ : o Khả năng xuất hiện của từ :

Cách tính các quan hệ giữa từ và lớp dựa vào tất cả các thông tin có được từ lớp đó

Một số cách khác có thể kể đến là áp dụng Bayesian (Ciaramita and Johnson,2000) hoặc mô hình phân nhánh cây (Li and Abe, 1998)

Thuật toán chọn tham chiếu cho xử lý nhập nhằng có thể được mô tả như sau :

-Mỗi tham chiếu sẽ có một giá trị R biểu thị mối quan hệ giữa chúng với nhau

-Cho một cặp từ W1 và W2 liên kết bởi giá trị R

-Tìm tất cả các tham chiếu W1 – C ( từ - lớp) hoặc C1 – C2 ( lớp – lớp) có liên quan -Chọn nghĩa của W1 và W2 dựa trên các lớp ngữ nghĩa

Ví dụ : khi xác định nghĩa của từ “coffee” trong “drink coffee” ta có các nghĩa sau

1 (đồ uống) một loại thức uống

 Chọn “ drink + (đồ uống) ” : coffee#1

Khi chọn nghĩa thông dụng nhất của từ, sẽ luôn có một nghĩa được sử dụng nhiều hơn các nghĩa còn lại, và phương pháp này sẽ gán nghĩa đó cho từ một cách mặc định Tuy nhiên, thuật toán thường thiếu chính xác Năm 2004, McCarthy đã đề xuất một số sửa đổi dựa trên sự tương đồng trong phân bố.

1 Given a word w, find the top k distributionally similar words

Nw = {n1, n2, …, nk}, with associated similarity scores {dss(w,n1), dss(w,n2), … dss(w,nk)}

2 For each sense wsi of w, identify the similarity with the words nj, using the sense of nj that maximizes this score

3 Rank senses wsi of w based on the total similarity score

N n w senses ws j i j i j i wnss ws n n ws n wnss w dss ws

( i x n senses j ns i n wnss ws ns ws wnss j x 

Ví dụ từ “pipe” có các nghĩa : o pipe #1 = tobacco pipe o pipe #2 = tube of metal or plastic

Các từ giống nhau trong phân bố là : o N = {tube, cable, wire, tank, hole, cylinder, fitting, tap, …}

Với mỗi từ trong N tìm các từ tương tự nghĩa pipe#i ( sử dụng nghĩa tương tự nhau nhất ) : o pipe#1 – tube (#3) = 0.3 o pipe#2 – tube (#1) = 0.6

Tính điểm cho mỗi nghĩa của pipe#i : o score (pipe#1) = 0.25 o score (pipe#2) = 0.73

Kết quả sẽ phụ thuộc rất lớn vào ngữ liệu để tìm từ giống nhau trong phân bố

MÔ HÌNH VÀ GIẢI THUẬT

Xây dựng bộ ngữ liệu dựa trên Wordnet Bao gồm :

Tệp Adj.txt, Adv.txt, Noun.txt và Verb.txt chứa các loại từ như tính từ, trạng từ, danh từ và động từ, cùng với mã từ, mã nghĩa cha (nếu có), định nghĩa từ và ví dụ minh họa (nếu có).

 Adj.exc/Adv.exc/Noun.exc/Verb.exc : các trường hợp đặc biệt của tính từ/trạng từ/danh từ/động từ

 Sense.txt : chứa mã từ, loại từ, số thứ tự của nghĩa và độ thông dụng của từ

Sau khi dữ liệu vào sẽ được xử lý theo mô hình sau :

Hình 3.1.1 : Sơ đồ minh họa các bước của thuật toán

 Thực hiện POS bằng cách chạy online trên trang Stanford Parser hoặc chạy offline theo phương pháp NLParser để gán nhãn từ loại

 Giải quyết từng từ theo thứ tự đầu vào

Kiểm tra xem từ được đưa vào có phải là nguyên mẫu hay không, đồng thời xác định xem nó có thuộc các từ đặc biệt trong danh mục Adj/Adv/Noun/Verb.ecx hay không Nếu có, hãy chuyển đổi từ đó về nguyên mẫu để đảm bảo tính chính xác và phù hợp.

 Ta sẽ chọn nghĩa thường gặp nhất gán cho từ đó, dựa vào chỉ số độ thông dụng của từ

 Nếu từ đó có một nghĩa ta lấy thẳng nghĩa đó

Khi một từ có nhiều nghĩa, chúng ta nên xem xét các từ lân cận trong câu để tìm hiểu định nghĩa và ví dụ cho từng nghĩa, nhằm xác định sự liên quan của các từ này.

 Mỗi lần tìm thấy ta tăng cho nghĩa đó 1 point

Sau đó, chúng ta sẽ áp dụng mạng ngữ nghĩa cha/con của WordNet để xem xét các mức độ bên dưới của từ, nhằm nâng cao điểm số cho nghĩa của nó Việc sử dụng mạng ngữ nghĩa này sẽ được minh họa qua ví dụ sau.

Cuối cùng, chúng ta tiến hành so sánh các điểm giữa những nghĩa khác nhau và nghĩa phổ biến nhất đã được xác định ban đầu Nếu điểm lớn hơn 1, điều này có nghĩa là từ sẽ được gán một nghĩa mới Ngược lại, nếu điểm nhỏ hơn 1, nghĩa gốc của từ sẽ được giữ nguyên.

Ví dụ về việc áp dụng mạng ngữ nghĩa có thể thấy qua câu "Tôi đang câu cá ở bờ sông," trong đó cần xác định nghĩa của từ "bank." Theo Wordnet, từ "bank" được phân loại là danh từ với mười nghĩa khác nhau: bank#1, bank#2, bank#3,… đến bank#10 Hai nghĩa phổ biến nhất của từ này là bờ sông và ngân hàng.

 Bank#1: a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home"

The term "bank" refers to sloping land, particularly the incline adjacent to a body of water For instance, one might pull a canoe up onto the bank or sit by the riverbank to observe the flowing currents.

 Từ : I, am, fishing, in, the, river, bank

 Từ cần xử lý nhập nhằng : bank

 Nghĩa : bank#1, bank#2,bank#3, …, bank#10

A bank is a financial institution that accepts deposits and facilitates lending activities, allowing customers to cash checks and manage their finances For example, individuals can rely on their bank to hold mortgages and provide essential financial services.

=> financial_institution : an institution (public or private) that collects funds (from the public or other institutions) and invests them in financial assets

=> institution: an organization founded and united for a specific purpose

=> organization: a group of people who work together

=> social_group: people sharing some social relation

=> group: any number of entities (members) considered as a unit

A bank refers to sloping land, particularly the incline adjacent to a body of water For instance, one might pull a canoe up onto the bank or sit by the riverbank to observe the flowing currents.

=>slope: an elevated geological formation; "he climbed the steep slope"; "the house was built on the side of a mountain"

=>geological_formation:(geology) the geological features of the earth

=>object: a tangible and visible entity; an entity that can cast a shadow; "it was full of rackets, balls and other objects"

=> physical_entity: an entity that has physical existence

Point : 1 Áp dụng tương tự với các nghĩa còn lại Để tính điểm cho tất cả các nghĩa của từ cần xử lý nhập nhằng

Hình 4.1 : Giao diện chương trình

Chương trình được xây dựng bằng ngôn ngữ C# trên nền Visual Studio 2008 Gồm 2 phần cơ bản là Part-of-speech tagging và Meaning

 Part-of-speech tagging : hiển thị POS của từng từ lấy từ StanFord POS hoặc chạy offline theo phương pháp NLParser

Hiển thị loại từ, nghĩa của từ, số điểm đạt được cho nghĩa đó và xác định thứ tự của nghĩa sau khi xử lý nhập nhằng Các nghĩa được sắp xếp theo độ phổ biến giảm dần.

Khi nhập một câu bất kỳ vào textbox:

Nếu bấm nút Start Online, chương trình sẽ :

 Connect lên trang Stanford POS để phân tích câu và lấy tag của từng từ ( đòi hỏi phải online )

 Áp dụng thuật toán Simple Lesk xử lý nhập nhằng để đưa ra nghĩa của từ

Hình 4.2 : Kết quả chạy online với Stanford Parser

Sau khi chạy Stanford Parser online và áp dụng thuật toán Simple Lesk ta nhận được kết quả cuối cùng như hình 4.2

Từ "fishing" có nghĩa là câu cá, với điểm số 1, do đó được chọn thay cho nghĩa "seek" gián tiếp, vì đây là nghĩa thông dụng nhất Tương tự, từ "bank" mang nghĩa bờ sông, cũng với điểm số 1, nên được ưu tiên thay cho nghĩa ngân hàng, vì đây là nghĩa phổ biến nhất.

Các từ am, near, river đều không có point nào nên chương trình sẽ lấy nghĩa có độ phổ biến cao nhất

Hình 4.3 : Từ fishing và bank có nghĩa không phải nghĩa phổ biến nhất

Động từ "to be" trong tiếng Anh thường không được hiểu đúng, và động từ "fish" cũng không được dịch chính xác sang tiếng Việt Cần có sự điều chỉnh để phản ánh đúng nghĩa của chúng trong ngữ cảnh sử dụng.

Hình 4.4 : Chỉnh lại nghĩa tiếng Anh của động từ to be/am

Hình 4.5 : Chỉnh lại nghĩa tiếng Việt của động từ fish

Người dùng có thể nhấp chuột vào phần nghĩa tiếng Anh hoặc tiếng Việt của từ để xem danh sách các nghĩa khác nhau, từ đó lựa chọn nghĩa phù hợp hơn Sau khi chọn nghĩa thích hợp, chương trình sẽ tự động lưu lại lựa chọn của người dùng, giúp cải thiện độ chính xác cho những lần sử dụng sau.

Nếu bấm nút Start Offline, chương trình sẽ:

 Chạy thuật toán NLParser để phân tích câu và lấy tag của từng từ

 Sau đó áp dụng thuật toán Simple Lesk xử lí nhập nhằng và đưa ra nghĩa của từ

Kết quả từ việc sử dụng NLParser offline tương đồng với kết quả từ Stanford Parser online Điểm khác biệt duy nhất là nghĩa tiếng Việt của động từ "fish" đã được điều chỉnh chính xác sau lần chạy trước đó và được lưu lại để tham khảo cho các lần chạy sau.

Hình 4.6 : Kết quả chạy offline với NLParser

Hình 4.7 : Kết quả chạy NLParser tương tự kết quả chạy dùng Stanford Parser

4.3 Khó khăn và hạn chế :

 Thuật toán còn nhiều bất cập cần phải cải tiến khá nhiều để đưa ra kết quả cao

 Việc xây dựng WordNet tiếng việt vẫn còn khó khăn do chưa tìm được thuật toán tốt để ánh xạ từ anh sang việt có độ chính xác cao

5.1 Công việc và kết quả :

 Xây dựng bộ ngữ liệu dựa trên WordNet làm nền tảng cho việc xử lý nhập nhằng

 Xây dựng chương trình demo xử lý nhập nhằng dựa trên bộ ngữ liệu cho tiếng Anh

 Đưa được chương trình NLParser vào chương trình để có thể chạy chương trình offline, khắc phục được nhược điểm lúc trước là phải online mới chạy được

 Cài đặt thuật toán Lesk để xử lý nhập nhằng

 Đã cơ bản hoàn thành chương trình thực nghiệm xử lý nhập nhằng cho tiếng Anh với độ chính xác tương đối

 Cơ bản hoàn thành việc ánh xạ từ điển tiếng Anh sang từ điển tiếng Việt

 Tiếp tục cải tiến thuật toán để nâng cao tính chính xác lên

 Tiếp tục cải tiến thuật toán ánh xạ từ điển Anh sang Việt để có được kết quả chính xác hơn

Ngày đăng: 29/12/2023, 07:26

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN