Giải thuật cho bài tốn phân nhĩm

Một phần của tài liệu Các phương án giải quyết bài toán tóm tắt văn bản (Trang 26 - 27)

Cĩ rất nhiều các giải thuật khác nhau áp dụng cho bài tốn Phân nhĩm văn bản. Độ phức tạp của giải thuật tỷ lệ với độ lớn dữ liệu đầu vào mà nĩ cĩ thể giải quyết. Ở đây chỉ xin giới thiệu hai giải thuật đơn giản nhưng cho độ chính xác cao bởi vì ứng dụng cho bài tốn phân nhĩm đoạn văn trong một văn bản là bài tốn cĩ điều kiện dữ liệu đầu vào nhỏ.

 Thuật tốn K-Means

Đây là một trong những thuật tốn kinh điển của Phân nhĩm văn bản. Thuật tốn này thực hiện phân hoạch tập các văn bản ban đầu thành các K nhĩm khơng giao nhau, cĩ nghĩa mỗi văn bản chỉ thuộc vào một nhĩm duy nhất.

Bước 1: Chọn K điểm trọng tâm của các nhĩm một cách ngẫu nhiên

Bước 2: Gắn tất cả các điểm dữ liệu tới trọng tâm gần nhất (cĩ độ tương tự cao nhất). Lúc này đã hình thành k nhĩm

Bước 3: Gắn lại trọng tâm cho mỗi nhĩm

Bước 4: Lặp lại bước 2 và bước 3 cho đến khi các trọng tâm khơng cịn thay đổi hoặc sau một số bước lặp nhất định

Hình 7: Thuật tốn K-Means

Trong thuật tốn K-means, để biểu diễn văn bản và tính độ tương tự giữa các văn bản với nhau, mơ hình véc tơ thưa được ưa chuộng sử dụng nhất (sẽ trình bày cụ thể mơ hình VSP trong chương sau).

 Thuật tốn lập nhĩm theo cây phân cấp (Hierachical Clustering - HC)

Thuật tốn lập nhĩm theo cây phân cấp tạo ra các phân hoạch với các nhĩm lồng nhau, nhĩm ở mức dưới là một tập con của nhĩm ở mức trên. Cĩ hai giải thuật phân cấp phục vụ cho phân nhĩm văn bản:

Bước 1: Ban đầu mỗi văn bản được coi như một nhĩm

Bước 2: Tính độ tương tự giữa tất cả các nhĩm với nhau

Bước 3: Chọn ra 2 nhĩm cĩ độ tương tự cao nhất, kết hợp chúng lại thành một nhĩm mới đồng thời loại bỏ 2 nhĩm đĩ

Bước 4: Lặp lại bước 2 và bước 3 cho đến khi chỉ cịn 1 nhĩm duy nhất chứa tồn bộ các văn bản

Xây dựng hệ thống Tĩm tắt văn bản tiếng Việt sử dụng các kỹ thuật lượng giá, thống kê Thuật tốn cây phân cấp trên xuống cũng tương tự như thuật tốn cây phân cấp dưới lên, nhưng bước ban đầu quy tập tất cả các văn bản vào một nhĩm, sau đĩ mỗi bước chọn một nhĩm trong các nhĩm để phân chia thành hai nhĩm con theo một điều kiện nào đĩ. Quá trình kết thúc khi mỗi văn bản đã thuộc một nhĩm khác nhau.

Một phần của tài liệu Các phương án giải quyết bài toán tóm tắt văn bản (Trang 26 - 27)

Tải bản đầy đủ (DOC)

(91 trang)
w