5 Kết luận và hướng phát triển
3.4 Biểu diễn véc tơ câu sử dụng Word2Vec[17]
Nhờ vào khoảng cách của các câu đến trung tâm của mỗi cụm chứa câu đó ta dễ dàng có thể xếp hạng được độ quan trọng của các câu trong cùng một cụm. Cùng với đó, trong
mỗi cụm đã bao gồm các câu tương tự với nhau, nên việc lựa chọn một câu đại diện duy nhất là quan trọng để tránh sự chồng chéo thông tin. Với lập luận này ta có thể xác định được số cụm được khởi tạo ban đầu cho thuật toán K-means nên bằng số lượng câu có trong bản tóm tắt.
Nhiệm vụ tiếp theo ta cần xử lý là việc sắp xếp lại các câu được chọn từ các cụm để đưa vào bản tóm tắt cuối cùng. Cách phổ biến hay được sử dụng là cách tận dụngvị trí tương đối để xếp hạng các câu trước khi đưa vào bản tóm tắt. Như vậy, với những câu được xếp hạng cao hơn thì sẽ được đưa vào bản tóm tắt trước.
Mặt khác, để xếp hạng thứ tự ưu tiên khi thêm các câu này vào bản tóm tắt, ở đây em sử dụngvị trí tương đối. Trong đó, thứ tự ưu tiên của tập các câu được sắp xếp theo độ tăng dần vị trí tương đối. Vị trí tương đối của câu được tính bằng vị trí trung bình của cụm chứa câu đó.
Xét ví dụ: các câu có vị trí tương đối trong tập các câu ban đầu là 3, 8 và 10 cùng thuộc vào một cụm. Khi đó, vị trí trung bình của cụm được tính như sau: 3+8+103 = 7. 3.2.3 K-means kết hợp vị trí câu trong tài liệu
Có một hạn chế trong cách tiếp cận sử dụng phân cụm K-means và vị trí tương đối
đã trình bày trong mục 3.2.2. Hạn chế này thể hiện qua việcvị trí tương đối đã sử dụng không thể hiện đúng vị trí của câu đó trong đúng tài liệu chứa nó. Như một cách khắc phục triệt để vấn đề này là sử dụng đúng vị trí của câu trong tài liệu chứa nó (Position). Mô hình mới được thể hiện trong hình 3.5.