Mơ hình tóm tắt đa văn bản đề xuất

Một phần của tài liệu LATS-TuanLM (Trang 114 - 119)

Chương 2 CÁC KIẾN THỨC NỀN TẢNG

5.2. Mơ hình tóm tắt đa văn bản hướng trích rút

5.2.3. Mơ hình tóm tắt đa văn bản đề xuất

5.2.3.1. Xây dựng các mơ hình tóm tắt

Xuất phát từ mơ hình ban đầu sử dụng thuật tốn phân cụm K-means, các mơ hình được phát triển bằng việc kết hợp mơ hình ban đầu với các phương pháp khác và đặc trưng vị trí câu trong văn bản. Mỗi mơ hình đều được phân tích, thử nghiệm và đánh giá kết quả để chọn mơ hình tóm tắt hiệu qủa nhất.

Hình 5.1. Mơ hình sử dụng thuật tốn phân cụm K-means kết hợp vị trí tương đối của câu

Mơ hình tóm tắt đa văn bản có đầu vào là tập các câu được biểu diễn dưới dạng các véc tơ. Tập các câu này sẽ có các câu tương đồng với nhau nên ta có thể phân chia các câu này thành các cụm (mỗi cụm gồm các câu tương tự với nhau).

Từ ý tưởng này, trước hết mơ hìnhg áp dụng thuật tốn phân cụm K-means để phân cụm các câu đầu vào. Mỗi câu đầu vào được tách thành các từ, mỗi từ được véc tơ hóa bằng phương pháp word2vec sử dụng mơ hình CBoW. Mơ hình này được huấn luyện với tập các từ được lấy từ các câu đầu vào, véc tơ đầu ra của một từ có số chiều là 256. Do đầu ra của mơ hình word2vec là một véc tơ biểu diễn cho từng từ nên để véc tơ hóa câu sử dụng word2vec, mơ hình thực hiện tính tổng các véc tơ từ trong câu để được một véc tơ câu có số chiều là 256.

Sau khi áp dụng thuật tốn K-means, các câu đã được phân chia vào các cụm. Để lựa chọn các câu từ một cụm, dựa vào khoảng cách của câu đó đến tâm của cụm, khoảng cách càng gần thì khả năng chọn câu đó vào bản tóm tắt càng cao. Bên cạnh đó, mỗi cụm mang một ý nghĩa riêng nên ta chỉ cần chọn một câu duy nhất đại diện cho cụm để đưa vào bản tóm tắt. Do đó, số cụm ban đầu được lấy bằng số lượng câu mong muốn trong bản tóm tắt.

Đối với các câu trong bản tóm tắt, thực hiện đánh số “vị trí tương đối” cho từng câu, sắp xếp các câu theo thứ tự nhất định và câu nào có vị trí tương đối nhỏ hơn sẽ được đưa vào bản tóm tắt trước. Vị trí tương đối của câu được tính bằng vị trí trung bình của cụm chính là trung bình cộng của vị trí các câu trong cụm.

Mơ hình 1 được biểu diễn như trong Hình 5.1 ở trên.

Hình 5.2. Mơ hình sử dụng thuật tốn phân cụm K-means kết hợp vị trí câu

Phương pháp lựa chọn các câu đưa vào bản tóm tắt trong mơ hình 1 có những hạn chế nhất định vì vị trí tương đối của câu hay giá trị trung bình vị trí các câu của cụm khơng phản ánh đúng vị trí của câu đó trong văn bản. Do đó, mơ hình kết hợp thuật tốn phân cụm K-means với đặc trưng vị trí câu trong văn bản để khắc phục hạn chế này. Các câu có vị trí câu thấp hơn sẽ được đánh trọng số cao hơn và các câu có vị trí câu thấp hơn trong văn bản sẽ được đưa vào bản tóm tắt trước.

Mơ hình 2 được biểu diễn như trong Hình 5.2 ở trên.

Hình 5.3. Mơ hình sử dụng thuật tốn phân cụm K-means kết hợp MMR và vị trí câu

Việc lựa chọn số cụm bằng số câu của bản tóm tắt trong mơ hình sử dụng thuật tốn phân cụm K-means có thể làm giảm chất lượng của bản tóm tắt khi số cụm được chọn nhỏ. Khi số cụm tăng lên thì chất lượng của bản tóm tắt sẽ tăng lên nên ta có thể lựa chọn số cụm lớn hơn số câu mong muốn của bản tóm tắt nhưng khi đó vấn đề đặt ra là chọn câu từ cụm nào và loại bỏ câu từ cụm nào. Để giải quyết vấn đề này, ta có thể loại bỏ các câu có thơng tin dư thừa nhất so với các câu đã được chọn vào bản tóm tắt hiện thời. Phương pháp MMR có thể loại bỏ các câu dư thừa trong tập các câu ứng cử viên, do đó phương pháp MMR được kết hợp vào mơ hình để loại bỏ các câu dư thừa trước khi kết hợp với đặc trưng vị trí câu.

Tập các câu kết quả từ phương pháp MMR được đưa vào bản tóm tắt theo trình tự dựa trên đặc trưng vị trí câu. Như vậy, bản tóm tắt đầu ra vừa khắc phục được hạn chế khi lựa chọn số cụm nhỏ, vừa giảm được các câu dư thừa trong bản tóm tắt.

Mơ hình 3 được biểu diễn như trong Hình 5.3 ở trên.

Mơ hình 4: Thuật toán phân cụm K-means kết hợp phương pháp dựa trên trung tâm (Centroid-based), MMR và vị trí câu

Trong các cụm được tính tốn bởi thuật tốn phân cụm K-means, có những cụm chỉ gồm những câu chứa ít thơng tin (thậm chí khơng chứa thơng tin) nên khơng cần đưa các câu này vào bản tóm tắt. Do đó, mơ hình kết hợp thuật toán phân cụm K- means với độ trung tâm (Centroid-based) của câu trước khi kết hợp với phương pháp MMR và vị trí câu để loại bỏ các câu chứa ít thơng tin hoặc khơng chứa thơng tin. Mơ hình 4 được biểu diễn như trong Hình 5.4 dưới đây.

Hình 5.4. Mơ hình sử dụng thuật tốn phân cụm K-means kết hợp Centroid-based, MMR và vị trí câu

Các mơ hình này đều được triển khai thử nghiệm (kết quả thử nghiệm được trình bày chi tiết trong phần 5.2.4) dưới đây. Các kết quả thử nghiệm cho thấy mơ hình 4 cho kết quả tốt nhất nên mơ hình 4 được chọn làm mơ hình tóm tắt đa văn bản hướng trích rút đề xuất (mơ hình Kmeans_Centroid_EMDS).

5.2.3.2. Mơ hình tóm tắt đa văn bản hướng trích rút đề xuất Kmeans_Centroid_EMDS

Mơ hình tóm tắt đa văn bản hướng trích rút đề xuất Kmeans_Centroid_EMDS được biểu diễn như trong Hình 5.5, bao gồm hai mơ đun chính:

Trích chọn đặc trưng: Mơ đun này thực hiện kết hợp các văn bản đầu vào thành

một văn bản duy nhất, tiền xử lý dữ liệu tập văn bản đầu vào để loại bỏ các ký tự đặc biệt, lấy gốc từ,... tiếp theo tập văn bản được tách thành tập các câu trước khi được biểu diễn dưới dạng véc tơ, sau đó tập các câu này được véc tơ hóa làm đầu vào cho mơ hình tóm tắt văn bản ở giai đoạn tiếp theo.

Mơ hình tóm tắt văn bản: Mô đun này nhận các véc tơ câu đầu vào và sinh ra

một bản tóm tắt bằng cách trích rút các câu có nhiều thơng tin nhất. Mơ hình đề xuất sử dụng thuật toán phân cụm K-means kết hợp với phương pháp dựa trên trung tâm, MMR và vị trí câu trong văn bản nguồn được xây dựng dựa trên các mơ hình đã xây dựng (mỗi mơ hình đều được thử nghiệm, phân tích và đánh giá kết quả để tìm ra mơ hình hiệu quả nhất).

Trong mơ hình tóm tắt đề xuất Kmeans_Centroid_EMDS, mơ hình BoW sử

dụng trọng số TF-IDF được sự dụng để véc tơ hóa văn bản đầu vào cho phương pháp Centroid-based. Một từ được coi là từ trung tâm nếu trọng số TF-IDF của từ lớn hơn giá trị ngưỡng cho trước, một câu được coi là trung tâm (có trọng số cao) được tạo thành bởi nhiều từ trung tâm. Từ ý tưởng này, hệ thống dựa vào độ trung tâm của các câu để xác định câu chứa nhiều thơng tin và câu chứa ít thơng tin. Tập các câu được chọn từ phương pháp Centroid-based được loại bỏ thông tin dư thừa sử dụng phương pháp MMR. Như vậy, bản tóm tắt thu được vừa giảm được thơng tin dư thừa giữa các câu, vừa loại bỏ được các câu chứa ít thơng tin hoặc khơng chứa thơng tin. Tập các câu nhận được từ phương pháp MMR được đưa vào bản tóm tắt theo trình tự dựa trên đặc trưng vị trí câu.

Hình 5.5. Mơ hình tóm tắt đa văn bản hướng trích rút đề xuất Kmeans_Centroid_EMDS

Một phần của tài liệu LATS-TuanLM (Trang 114 - 119)

Tải bản đầy đủ (DOCX)

(194 trang)
w