Kmeans_Centroid_EMDS
5.2.1. Giới thiệu mụ hỡnh
Cỏc nghiờn cứu về túm tắt đa văn bản hướng trớch rỳt thường nhúm cỏc cõu tương tự nhau từ tập đa văn bản đầu vào thành cỏc cụm và chọn cỏc cõu trung tõm của mỗi cụm để đưa vào phần túm tắt [136,137]. Độ tương tự cosine thường được sử dụng để tớnh toỏn độ tương tự giữa một cặp cõu (cỏc cõu được biểu diễn dưới dạng vộc tơ cú trọng số TF-IDF). Cõu cú tần suất xuất hiện nhiều nhất được coi là trung tõm của cụm. Tuy nhiờn, phương phỏp này khụng xem xột ngữ nghĩa của mỗi từ trong văn bản nờn bản túm tắt sinh ra cú thể khụng tốt về mặt ngữ nghĩa. Một vấn đề khỏc với cỏch tiếp cận này là một số cụm cú thể chứa thụng tin khụng quan trọng từ cỏc văn bản đầu vào.
96
Một số nghiờn cứu đó ỏp dụng phương phỏp dựa trờn trung tõm để sinh ra văn bản túm tắt như [138,139]. Cỏch tiếp cận này sinh ra cỏc trung tõm cụm chứa cỏc từ là trung tõm của tất cả cỏc văn bản đầu vào. Bản túm tắt được sinh ra bằng cỏch thu thập cỏc cõu cú chứa cỏc từ trung tõm. Nhược điểm của cỏch tiếp cận này là khụng ngăn chặn được sự dư thừa thụng tin trong bản túm tắt. Để giải quyết vấn đề này, Carbonell và Goldstein [116] đó đề xuất phương phỏp MMR để sinh ra cỏc bản túm tắt. Tuy nhiờn, cỏch tiếp cận này khụng loại bỏ được cỏc cõu khụng quan trọng trong bản túm tắt. Cú thể núi, việc tạo ra một bản túm tắt mụ tả tốt nhất cỏc văn bản đầu vào và chứa thụng tin dư thừa ớt nhất là một thỏch thức lớn trong bài toỏn túm tắt đa văn bản. Để giải quyết cỏc vấn đề này, luận ỏn nghiờn cứu đề xuất phương phỏp tiếp cận túm tắt đa văn bản hướng trớch rỳt sử dụng thuật toỏn phõn cụm K- means để phõn cụm cỏc cõu của cỏc văn bản đầu vào. Để giải quyết vấn đề chọn cỏc cõu đại diện cho cỏc cụm khụng quan trọng, phương phỏp dựa trờn trung tõm được sử dụng để tỡm cỏc cõu trung tõm nhất và loại bỏ cỏc cụm chứa ớt thụng tin. Ngoài ra, phương phỏp MMR được ỏp dụng để loại bỏ thụng tin trựng lặp giữa cỏc cõu trong bản túm tắt. Bản túm tắt được sinh ra với một trỡnh tự thời gian hợp lý dựa trờn đặc trưng vị trớ cõu trong văn bản được thờm vào mụ hỡnh. Phương phỏp được mụ tả cụ thể như sau: Trước tiờn, tập đa văn bản đầu vào
1 2
( , ,..., ,...., )
mul i G
D D D D D được xử lý ghộp thành 1 đơn văn bản lớn duy nhất gồm
N cõu được biểu diễn là: D( , ,..., ,....,s s1 2 si sN); với N bằng tổng số cõu của tất cả cỏc văn bản thuộc tập Dmul. Tiếp theo, ỏp dụng kỹ thuật phõn cụm đối với văn bản D để được K cụm biểu diễn là C(C C1, 2,...,Ci,....,CK) với: i1,K ; trong đú: cụm
1 2
( , ,..., )
i i i i i n
C s s s gồm ni cõu cú tõm cụm tương ứng là ci được xỏc định theo thuật toỏn. Phương phỏp dựa trờn trung tõm được sử dụng để tỡm cỏc cõu trung tõm nhất và loại bỏ cỏc cụm chứa ớt thụng tin. Cõu *
i
s cú độ tương đồng lớn nhất với tõm cụm ci được chọn để đại diện cho cụm và được tập S*gồm K cõu tương ứng với K
cụm là * * * *
1 2
( , ,..., )
K
S s s s . Cuối cựng, ỏp dụng phương phỏp MMR dựa trờn độ tương đồng và đặc trưng vị trớ cõu để chọn cõu từ tập *
S đưa vào bản túm tắt S.