5 Kết luận và hướng phát triển
3.6 Mô hình tóm tắt đa trích rút sử dụng K-means kết hợp MMR và Position[19]
Để có thể sử dụng được phương pháp MMR cho bài toán tóm tắt văn bản thay vì bài toán trích rút thông tin thì ta cần định nghĩa lại một chút về cách tính trọng số trong việc xếp hạng các câu. Công thức MMR sửa đổi được tính toán như sau:
M M Rdef= Arg max
Di∈C\{S,Q} λ Sim1(Di, Q)−(1−λ) max Dj∈SSim2(Di, Dj) Trong đó:
• C : tập các câu ứng viên.
• Q: câu tốt nhất lấy từ tập C.
• S : các câu đã được đưa vào bản tóm tắt.
• Sim1, Sim2 : công thức tính toán độ tương đồng giữa hai câu, với:
Sim1(u, v) =Sim2(u, v) = P w∈vtfw,utfw,v(idfw)2 √ P w∈u(tfw,uidfw)2
Với: + u, v là hai câu cần tính độ tương đồng. + tfw,u là tần suất xuất hiện của từ w. + idfw là độ quan trong của từw.
• λ :tham số.
Bài toán tóm tắt sử dụng MMR:
• Bước một: lựa chọn câu có Positionnhỏ nhất để đưa vào bản tóm tắt và loại bỏ câu này khỏi tập ứng viên.
• Bước hai: tính trọng số sử dụng công thức MMR sửa đổi cho mỗi câu còn lại.
• Bước ba: xếp hạng câu dựa vào trọng số MMR đã tính được từ bước hai, câu tốt nhất sẽ được đưa vào bản tóm tắt và đồng thời loại bỏ câu đó trong tập ứng viên.
• Bước bốn: lặp lại bước hai và bước ba cho tới khi hội tụ.
Các câu sau đó được sắp xếp lại dựa trên đặc trưng Positionnhư đã trình bày trong mục 3.2.3. Như vây, bản tóm tắt hiện tại đã được cải thiện sau khi khắc phục được hạn chế với số lượng cụm nhỏ khi khởi tạo thuật toán K-means.
3.2.5 K-means kết hợp Centroid-based, MMR và Position
Nhận thấy rằng trong đa phần các tài liệu thì luôn bao gồm các câu mang ít hoặc thậm chí là không mang thông tin quan trọng như các câu dẫn dắt, câu mở đầu,... Do đó, đối với bài toán tóm tắt văn bản ta nên tránh chọn những câu từ những cụm như thế. Vây nên em đề xuất việc kết hợp thêm độ trung tâm của câu vào mô hình tóm tắt văn bản nhằm khắc phục hạn chế này. Trong phạm vi luận văn này, em sử dụng phương pháp Centroid-based (đã được trình bày trong mục 2.3.4) để loại bỏ đi những câu mà chứa ít thông tin. Hình 3.7 thể hiện mô hình tóm tắt văn bản trích rút khi kếp hợp thêm phương pháp tận dụng độ trung tâm.
Trong phạm vi luận văn này, em áp dụng mô hình BoW với lược đồ trọng số tf-idf để véc tơ hóa dữ liệu làm đầu vào cho phương pháp Centroid-based. Như em đã trình bày trong mục 2.3.4, một từ được coi là trung tâm nếu trọng số tf-idf của nó cao hơn một ngưỡng nhất định cho trước. Như vậy, một câu được coi là trung tâm (hay có trọng số cao) sẽ được cấu thành bởi nhiều từ trung tâm. Từ ý tưởng này, em nhận thấy rằng có thể dựa vào độ trung tâm của các câu để xác định xem rằng câu nào mang nhiều, câu nào mang ít thông tin mà ta muốn đưa vào bản tóm tắt.
Bằng cách sử dụng trong số MMR và đặc trưng Position cho tập các câu được lựa chọn từ phương pháp tận dụng độ chúng tâm ta thu được bản tóm tắt cuối cùng.
Bằng cách kết hợp các phương pháp lại với nhau, bản tóm tắt đa trích rút đầu ra đã tránh được sự chống chéo thông tin, loại bỏ được những câu mang ít thông tin và được sắp xếp theo trình tự thời gian. Đây là mô hình cuối cùng mà em đề xuất cho bài toán tóm tắt đa văn bản trích rút trong phạm vi luận văn này.
Hình 3.7: Mô hình tóm tắt sử dụng K-means kết hợp Centroid-based, MMR và Position[19]
3.3 Mô hình tóm tắt đơn văn bản theo hướng tómlược lược
Những năm gần đây, với sự phát triển mạnh mẽ của các mô hình học sâu, bài toán tóm tắt đơn văn bản tóm lược đã có những cải thiện đáng kể về chất lượng bản tóm tắt đầu ra.
3.3.1 Hướng tiếp cận cho mô hình tóm tắt đơn văn bản tómlược lược
Trong những năm gần đây, một nền tảng chung cho việc giải quyết các vấn đề liên quan đến bài toán tóm tắt văn bản sử dụng các mạng nơ ron sâu mà bao gồm hai thành phần: một bộ encoder có nhiệm vụ đọc vào chuỗi dữ liệu đầu vào; một bộ decoder sử dụng đầu ra được sinh ra từ bộ encoder để tạo ra chuỗi đầu ra cuối cùng. Các nền tảng này được biết đến với tên gọi là Seq2seq (đã được trình bày trong chương 2).
Từ cơ sở lý thuyết đã được trình bày trong chương 2, bài toán tóm tắt đơn văn bản tóm lược có thể được hiểu như sau (hình 3.8 dựa theo hình vẽ trong công bố của nhóm tác giả Yaser Keneshloo[18]): văn bản đầu vào được chia nhỏ thành các token xi, từng token được đưa vào bộ encoder, tạo ra một chuỗi các trạng thái ẩn he
bộ decoder nhận vào word embedding của từ trước đó (trong quá trình huấn luyện, đó là từ trước đó của bản tóm tắt tham chiếu; tại thời điểm thử nghiệm, đó là từ trước đó được sinh ra từ bộ decoder).