Từ điển từ vựng (Lexicon)

Một phần của tài liệu Học mối quan hệ trong trích rút thông tin tiếng việt (Trang 34 - 36)

Các bộ từ vựng, đặc biệt là bộ từ vựng với hệ thống phân cấp ngữ nghĩa, cĩ thể cung cấp thơng tin lớp ngữ nghĩa. Trong mơ hình RAPIER bộ từ vựng khơng phụ thuộc lĩnh vực được sử dụng là WordNet (Miller, Beckwith, Fellbaum, Gross, & Miller, 1993; Fellbaum, 1998), một cơ sở dữ liệu từ vựng do Đại học Princeton phát triển. WordNet đã tạo ra một tập hợp từ vựng đồ sộ, theo đĩ các từ được sắp xếp trong dãy của những tập hợp đồng nghĩa, giúp cho việc xác định nghĩa của từ và để phân biệt được nghĩa đang xét với các nghĩa khác. Nguyên lí tổ chức chung của WordNet là mạng lưới quan hệ ngữ nghĩa. Đĩ là quan hệ đồng nghĩa (synonym): dog – domestic dog; quan hệ trái nghĩa (antonym): rich – poor; quan hệ cấp bậc (hyponym): maple – tree, parent – father; quan hệ bộ phận và tồn thể (meronym): body – limb; quan hệ kéo theo (entailment): snore – sleep (cho động từ); v.v

Mỗi mục riêng lẻ trong WordNet là các tập đồng nghĩa (synset) tương ứng với một nghĩa đơn. Một từ bất kỳ cĩ thể cĩ nhiều nghĩa (word meaning) và khi đĩ mỗi nghĩa của nĩ sẽ thuộc vào những tập đồng nghĩa khác nhau. Ngược lại, mỗi tập đồng nghĩa lại cĩ thể chứa một hoặc hơn một từ khác nhau.

Ví dụ, trong WordNet danh từletter cĩ 4 nghĩa thuộc vào 4 tập đồng nghĩa:

i) Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tương ứng là “lá thư”, “thư tín”.

ii) Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic character

với nghĩa tiếng Việt tương ứng “ký tự”, “chữ” hay “chữ cái”.

iii) Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”, “nghĩa mặt chữ”.

iv) Tập cuối cùng gồm hai từ: letter, varsity letter với nghĩa tiếng Việt tương ứng là “huy hiệu”, “danh hiệu” tặng cho những sinh viên cĩ thành tích thể thao đặc biệt ở trường.

Các loại quan hệ trong WordNet:

Trong WordNet các từđược sắp xếp vào thành các tập đồng nghĩa. Và giữa các tập đồng nghĩa này cĩ thể mang các mối quan hệ ngữ nghĩa với nhau. Các quan hệ chính được xây dựng bên trong WordNet bao gồm:

- Quan hệ đồng nghĩa (synonym): Các tập đồng nghĩa được gọi là cĩ quan hệ đồng nghĩa với nhau khi chúng cĩ thể thay thế cho nhau trong một số ngữ cảnh nào đĩ. Vì thế WordNet đã được chia thành nhĩm danh từ (noun), động từ (verb), tính từ (adjective), và trạng từ (adverb). Và những mối quan hệ đồng nghĩa chỉ tồn tại giữa các tập đồng nghĩa ở cùng dạng từ loại. Điều này cũng thật dễ hiểu, bởi vì các danh từ sẽ diễn tả những khái niệm thuộc về danh từ, động từ thì diễn tả những khái niệm chỉ hành động, cịn tính từ và trạng từ thì giúp ta cĩ thể diễn tả mức độ của những khái niệm trên.

- Quan hệ trái nghĩa (antonym): Một từ trái nghĩa của từ x thơng thường sẽ là not-x, nhưng khơng phải lúc nào cũng đúng như vậy. Chẳng hạn, ta cĩ từ rich (giàu) và poor (nghèo) là hai từ trái nghĩa, nhưng ta khơng thể nĩi rằng một người khơng giàu là một người nghèo. Quan hệ trái nghĩa là một quan hệ giữa các từ với nhau chứ khơng phải là quan hệ giữa các nghĩa của từ với nhau.

- Quan hệ cấp bậc (hyponym): Ngược với quan hệđồng nghĩa và trái nghĩa là các quan hệ giữa các từ với nhau, quan hệ cấp bậc là quan hệ giữa các nghĩa của từ. Cĩ thể hiểu hyponym/hypernym (nghĩa con/nghĩa cha) là một loại

quan hệ theo kiểu IS_A (là một). Một ý niệm tương ứng với synset {x, x, ...} được gọi là một hyponym của ý niệm tương ứng với synset {y, y, ...} khi chúng ta cĩ thể nĩi x là một (một dạng của) y - an x is (a kind of) y. Một nghĩa con nghĩa con (hyponym) kế thừa tất cả những tính chất của nghĩa cha đồng thời bổ sung thêm những thuộc tính mới phân biệt với những nghĩa con khác.

- Quan hệ bộ phận và tồn thể (meronym): Một loại quan hệ ngữ nghĩa khác được định nghĩa trong WordNet đĩ là quan hệ bộ phận và tồn thể (part- whole relation) cịn gọi là meronym/holonym. Một ý niệm tương ứng với synset {x, x, ...} được gọi là một meronym của ý niệm tương ứng với synset {y, y, ...} khi chúng ta cĩ thể nĩi “một y cĩ một x” (a y has an x) hoặc “một x là một phần của y” (an x is a part of a y).

Cĩ thể nĩi WordNet là một từ điển ngữ nghĩa hồn chỉnh nhất hiện nay. Hệ thống WordNet biểu diễn đầy đủ các quan hệ ngữ nghĩa, đã được xây dựng rất tốt cho tiếng Anh, là cơ sở để xây dựng WordNet tiếng Việt. Tuy nhiên, cho đến nay vẫn chưa cĩ một cơng trình nghiên cứu nào hồn thiện được cơng bố về việc xây dựng WordNet tiếng Việt để cĩ thểđưa vào sử dụng trong các bài tốn xử lý ngơn ngữ tự nhiên.

Để cĩ một WordNet tiếng Việt đểđưa vào mơ hình trích rút thơng tin trong nghiên cứu này, người viết tự xây dựng một mơ hình đơn giản dựa trên cây phân cấp ngữ nghĩa của Trung tâm từ điển học (Vietlex) và một từđiển tiếng Việt được cung cấp từ nghiên cứu [10].

Một phần của tài liệu Học mối quan hệ trong trích rút thông tin tiếng việt (Trang 34 - 36)

Tải bản đầy đủ (PDF)

(117 trang)