Chương 2 CÁC KIẾN THỨC NỀN TẢNG
5.2. Mụ hỡnh túm tắt đa văn bản hướng trớch rỳt
5.2.3. Mụ hỡnh túm tắt đa văn bản đề xuất
5.2.3.1. Xõy dựng cỏc mụ hỡnh túm tắt
Xuất phỏt từ mụ hỡnh ban đầu sử dụng thuật toỏn phõn cụm K-means, cỏc mụ hỡnh được phỏt triển bằng việc kết hợp mụ hỡnh ban đầu với cỏc phương phỏp khỏc và đặc trưng vị trớ cõu trong văn bản. Mỗi mụ hỡnh đều được phõn tớch, thử nghiệm và đỏnh giỏ kết quả để chọn mụ hỡnh túm tắt hiệu qủa nhất.
Mụ hỡnh 1: Thuật toỏn phõn cụm K-means kết hợp vị trớ tương đối của cõu.
Hỡnh 5.1. Mụ hỡnh sử dụng thuật toỏn phõn cụm K-means kết hợp vị trớ tương đối của cõu
Mụ hỡnh túm tắt đa văn bản cú đầu vào là tập cỏc cõu được biểu diễn dưới dạng cỏc vộc tơ. Tập cỏc cõu này sẽ cú cỏc cõu tương đồng với nhau nờn ta cú thể phõn chia cỏc cõu này thành cỏc cụm (mỗi cụm gồm cỏc cõu tương tự với nhau).
Từ ý tưởng này, trước hết mụ hỡnhg ỏp dụng thuật toỏn phõn cụm K-means để phõn cụm cỏc cõu đầu vào. Mỗi cõu đầu vào được tỏch thành cỏc từ, mỗi từ được vộc tơ húa bằng phương phỏp word2vec sử dụng mụ hỡnh CBoW. Mụ hỡnh này được huấn luyện với tập cỏc từ được lấy từ cỏc cõu đầu vào, vộc tơ đầu ra của một từ cú số chiều là 256. Do đầu ra của mụ hỡnh word2vec là một vộc tơ biểu diễn cho từng từ nờn để vộc tơ húa cõu sử dụng word2vec, mụ hỡnh thực hiện tớnh tổng cỏc vộc tơ từ trong cõu để được một vộc tơ cõu cú số chiều là 256.
Sau khi ỏp dụng thuật toỏn K-means, cỏc cõu đó được phõn chia vào cỏc cụm. Để lựa chọn cỏc cõu từ một cụm, dựa vào khoảng cỏch của cõu đú đến tõm của cụm, khoảng cỏch càng gần thỡ khả năng chọn cõu đú vào bản túm tắt càng cao. Bờn cạnh đú, mỗi cụm mang một ý nghĩa riờng nờn ta chỉ cần chọn một cõu duy nhất đại diện cho cụm để đưa vào bản túm tắt. Do đú, số cụm ban đầu được lấy bằng số lượng cõu mong muốn trong bản túm tắt.
Đối với cỏc cõu trong bản túm tắt, thực hiện đỏnh số “vị trớ tương đối” cho từng cõu, sắp xếp cỏc cõu theo thứ tự nhất định và cõu nào cú vị trớ tương đối nhỏ hơn sẽ được đưa vào bản túm tắt trước. Vị trớ tương đối của cõu được tớnh bằng vị trớ trung bỡnh của cụm chớnh là trung bỡnh cộng của vị trớ cỏc cõu trong cụm.
Mụ hỡnh 1 được biểu diễn như trong Hỡnh 5.1 ở trờn.
Mụ hỡnh 2: Thuật toỏn phõn cụm K-means kết hợp vị trớ cõu
Hỡnh 5.2. Mụ hỡnh sử dụng thuật toỏn phõn cụm K-means kết hợp vị trớ cõu
cụm khụng phản ỏnh đỳng vị trớ của cõu đú trong văn bản. Do đú, mụ hỡnh kết hợp thuật toỏn phõn cụm K-means với đặc trưng vị trớ cõu trong văn bản để khắc phục hạn chế này. Cỏc cõu cú vị trớ cõu thấp hơn sẽ được đỏnh trọng số cao hơn và cỏc cõu cú vị trớ cõu thấp hơn trong văn bản sẽ được đưa vào bản túm tắt trước.
Mụ hỡnh 2 được biểu diễn như trong Hỡnh 5.2 ở trờn.
Mụ hỡnh 3: Thuật toỏn phõn cụm K-means kết hợp MMR và vị trớ cõu
Hỡnh 5.3. Mụ hỡnh sử dụng thuật toỏn phõn cụm K-means kết hợp MMR và vị trớ cõu
Việc lựa chọn số cụm bằng số cõu của bản túm tắt trong mụ hỡnh sử dụng thuật toỏn phõn cụm K-means cú thể làm giảm chất lượng của bản túm tắt khi số cụm được chọn nhỏ. Khi số cụm tăng lờn thỡ chất lượng của bản túm tắt sẽ tăng lờn nờn ta cú thể lựa chọn số cụm lớn hơn số cõu mong muốn của bản túm tắt nhưng khi đú vấn đề đặt ra là chọn cõu từ cụm nào và loại bỏ cõu từ cụm nào. Để giải quyết vấn đề này, ta cú thể loại bỏ cỏc cõu cú thụng tin dư thừa nhất so với cỏc cõu đó được chọn vào bản túm tắt hiện thời. Phương phỏp MMR cú thể loại bỏ cỏc cõu dư thừa trong tập cỏc cõu ứng cử viờn, do đú phương phỏp MMR được kết hợp vào mụ hỡnh để loại bỏ cỏc cõu dư thừa trước khi kết hợp với đặc trưng vị trớ cõu.
Tập cỏc cõu kết quả từ phương phỏp MMR được đưa vào bản túm tắt theo trỡnh tự dựa trờn đặc trưng vị trớ cõu. Như vậy, bản túm tắt đầu ra vừa khắc phục được hạn chế khi lựa chọn số cụm nhỏ, vừa giảm được cỏc cõu dư thừa trong bản túm tắt.
Mụ hỡnh 3 được biểu diễn như trong Hỡnh 5.3 ở trờn.
Mụ hỡnh 4: Thuật toỏn phõn cụm K-means kết hợp phương phỏp dựa trờn trung tõm (Centroid-based), MMR và vị trớ cõu
Trong cỏc cụm được tớnh toỏn bởi thuật toỏn phõn cụm K-means, cú những cụm chỉ gồm những cõu chứa ớt thụng tin (thậm chớ khụng chứa thụng tin) nờn khụng cần
đưa cỏc cõu này vào bản túm tắt. Do đú, mụ hỡnh kết hợp thuật toỏn phõn cụm K- means với độ trung tõm (Centroid-based) của cõu trước khi kết hợp với phương phỏp MMR và vị trớ cõu để loại bỏ cỏc cõu chứa ớt thụng tin hoặc khụng chứa thụng tin. Mụ hỡnh 4 được biểu diễn như trong Hỡnh 5.4 dưới đõy.
Hỡnh 5.4. Mụ hỡnh sử dụng thuật toỏn phõn cụm K-means kết hợp Centroid-based, MMR và vị trớ cõu
Cỏc mụ hỡnh này đều được triển khai thử nghiệm (kết quả thử nghiệm được trỡnh bày chi tiết trong phần 5.2.4) dưới đõy. Cỏc kết quả thử nghiệm cho thấy mụ hỡnh 4 cho kết quả tốt nhất nờn mụ hỡnh 4 được chọn làm mụ hỡnh túm tắt đa văn bản hướng trớch rỳt đề xuất (mụ hỡnh Kmeans_Centroid_EMDS).
5.2.3.2. Mụ hỡnh túm tắt đa văn bản hướng trớch rỳt đề xuất Kmeans_Centroid_EMDS
Mụ hỡnh túm tắt đa văn bản hướng trớch rỳt đề xuất Kmeans_Centroid_EMDS được biểu diễn như trong Hỡnh 5.5, bao gồm hai mụ đun chớnh:
Trớch chọn đặc trưng: Mụ đun này thực hiện kết hợp cỏc văn bản đầu vào thành
một văn bản duy nhất, tiền xử lý dữ liệu tập văn bản đầu vào để loại bỏ cỏc ký tự đặc biệt, lấy gốc từ,... tiếp theo tập văn bản được tỏch thành tập cỏc cõu trước khi được biểu diễn dưới dạng vộc tơ, sau đú tập cỏc cõu này được vộc tơ húa làm đầu vào cho mụ hỡnh túm tắt văn bản ở giai đoạn tiếp theo.
Mụ hỡnh túm tắt văn bản: Mụ đun này nhận cỏc vộc tơ cõu đầu vào và sinh ra
MMR và vị trớ cõu trong văn bản nguồn được xõy dựng dựa trờn cỏc mụ hỡnh đó xõy dựng (mỗi mụ hỡnh đều được thử nghiệm, phõn tớch và đỏnh giỏ kết quả để tỡm ra mụ hỡnh hiệu quả nhất).
Trong mụ hỡnh túm tắt đề xuất Kmeans_Centroid_EMDS, mụ hỡnh BoW sử
dụng trọng số TF-IDF được sự dụng để vộc tơ húa văn bản đầu vào cho phương phỏp Centroid-based. Một từ được coi là từ trung tõm nếu trọng số TF-IDF của từ lớn hơn giỏ trị ngưỡng cho trước, một cõu được coi là trung tõm (cú trọng số cao) được tạo thành bởi nhiều từ trung tõm. Từ ý tưởng này, hệ thống dựa vào độ trung tõm của cỏc cõu để xỏc định cõu chứa nhiều thụng tin và cõu chứa ớt thụng tin. Tập cỏc cõu được chọn từ phương phỏp Centroid-based được loại bỏ thụng tin dư thừa sử dụng phương phỏp MMR. Như vậy, bản túm tắt thu được vừa giảm được thụng tin dư thừa giữa cỏc cõu, vừa loại bỏ được cỏc cõu chứa ớt thụng tin hoặc khụng chứa thụng tin. Tập cỏc cõu nhận được từ phương phỏp MMR được đưa vào bản túm tắt theo trỡnh tự dựa trờn đặc trưng vị trớ cõu.
Hỡnh 5.5. Mụ hỡnh túm tắt đa văn bản hướng trớch rỳt đề xuất Kmeans_Centroid_EMDS