Phương pháp tính độ tương đồng câu dựa vào mạng Wikipedia

Một phần của tài liệu (LUẬN văn THẠC sĩ) tóm tắt văn bản dựa vào trích xuất câu (Trang 32 - 35)

Wikipedia là một bách khoa toàn thư nội dung mở bằng nhiều ngôn ngữ trên Internet. Wikipedia được viết và xây dựng do rất nhiều người dùng cùng cộng tác với nhau. Kể từ khi được tạo ra vào năm năm 2001, Wikipedia đã phát triển nhanh chóng thanh một trong nững trang web tham khảo lớn nhấn. Có khoảng 71.000 người làm việc tích cực trên hơn 47.000.000 bài viết bằng 229 ngôn ngữ. Tính đến nay, có hơn 5.615.641 bài báo bằng tiếng Anh. Mỗi ngày có hàng chục nghìn người từ khắp nơi trên thế giới cùng nhau thực hiện hàng chục nghìn chỉnh sửa và tạo ra hàng nghìn bài báo mới tăng cường kiến thức trên Wikipedia5.

Các trang thông tin của Wikipedia được lưu trữ trong một cấu trúc mạng. Các từ (hoặc các khái niệm) liên quan với nhau về mặt ngữ nghĩa và các mục

chủ đề (category) được tổ chức trong một cấu trúc phân cấp (taxonomy) được gọi là đồ thị chủ đề Wikipedia (Wikipedia Category Graph - WCG) [21].

Đồ thị bài viết (Article graph): Giữa các bài viết của Wikipedia có các siêu liên kết với nhau, các siêu liên kết này được tạo ra do quá trình chỉnh sửa bài viết của người sử dụng. Nếu ta coi mỗi bài viết như là một nút và các liên kết từ một bài viết đến các bài viết khác là các cạnh có hướng chạy từ một nút đến các nút khác thì ta sẽ có một đồ thị có hướng liên kết các bài viết trên Wikipedia (Xem minh họa phía bên phải của hình 2.2).

Đồ thị chủ đề (Category graph): Các chủ đề của Wikipedia được tổ chức giống như cấu trúc của một taxonomy (phía bên trái của hình 2.2). Mỗi một chủ đề có thể có một số lượng tùy ý các chủ đề con, mỗi một chủ đề con này thường được xác định bằng mối quan hệ thượng hạ vị (Hyponymy) hay mối quan hệ bộ phận tổng thể (Meronymy).

Hình 2.2. Mối quan hệ giữa đồ thị bài viết và đồ thị chủ đề Wikipedia

Ví dụ: Chủ đề “máy tính” có các chủ đề con là “số”, “logic”, “khoa học

Do đó, đồ thị chủ đề (WCG) giống như là một mạng ngữ nghĩa giữa các từ nên có thể xây dựng các độ đo sự đồng nghĩa giữa các từ tương tự như Wordnet. Phương pháp tính độ tương đồng giữa các từ trong mạng ngữ nghĩa Wikipedia tập trung vào việc áp dụng và cải tiến một số độ đo phổ biến về tính độ tương đồng từ trên tập ngữ liệu Wordnet cho việc tính độ tương đồng giữa các từ trên mạng ngữ nghĩa Wikipedia [18], [20], [21], [22],…

Do các giá trị của các độ đo tương đồng giữa các từ (hoặc các khái niệm) trên Wikipedia đều không bị ràng buộc trong đoạn [0, 1], nên vào năm 2006, Li và cộng sự đã đưa ra hai công thức cải tiến việc đo độ tương đồng từ mà không làm mất tính đơn điệu [24].

Đối với độ đo PL (độ đo Path Length), f là một hàm đơn điệu giảm, nên:

f1 = el (2.6)

l là hàm xác định khoảng cách ngắn nhất giữa hai từ trên đồ thị. Đối với các độ đo khác, f là một hàm đơn điệu tăng, vì vậy:

2( ) h h h h e e f h e e     − − − = + (2.7)

h là hàm xác định độ đo của hai từ trên đồ thị.

Trong hai hàm số trên, αβ là hai tham số được chọn là α = 0.2 và β = 0.45. Sau khi tính được độ tương tự từ, ta đưa ra được vector ngữ nghĩa cho mỗi câu [24]. Sự giống nhau về ngữ nghĩa giữa 2 câu được đo bởi độ đo Cosine:

1 2 2 1 1 ( , ) ( ) ( ) k i j t t S i j t k k i j t t t t s s Sim S S s s = = = =    (2.8)

Trong đó s sti, tjlà những thành phần của các vector S Si, j. Mỗi thành phần được tính theo một trong hai

Một phần của tài liệu (LUẬN văn THẠC sĩ) tóm tắt văn bản dựa vào trích xuất câu (Trang 32 - 35)

Tải bản đầy đủ (PDF)

(57 trang)