MỤC LỤC
DANH MỤC CHỮ VIẾT TẮT
DANH MỤC HÌNH VẼ, BẢNG BIỂU
MỞ ĐẦU
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN
PHÂN CỤM TÀI LIỆU WEB
1.1 Khai phá dữ liệu
1.1.1 Khai phá dữ liệu là gì?
1.1.2 Các hướng tiếp cận và các kỹ thuật trong khai phá dữ liệu
1.1.3 Ứng dụng của khai phá dữ liệu
1.2 Dữ liệu Fulltext và Hypertext
1.2.1 Fulltext
1.2.2 Hypertext
1.3 Khai phá dữ liệu Web
1.3.1 Nhu cầu
1.3.2 Đặc điểm
1.3.3 Các hướng tiếp cận
1.4 Bài toán phân cụm tài liệu Web
1.4.1 Giới thiệu bài toán
1.4.2 Tại sao đặt ra bài toán phân cụm tài liệu Web
1.4.3 Đặc điểm của bài toán phân cụm tài liệu Web
1.4.4 Các yêu cầu đối vơi bài toán phân cụm tài liệu Web
1.4.5 Một số đại lượng đo độ chính xác cho bài toán
1.5 Những khó khăn trong Phân cụm tiếng Việt
1.5.1 Vấn đề tách từ tiếng Việt
1.5.2 Vấn đề bảng mã tiếng Việt
1.5.3 Các khó khăn khác
1.6 Kết luận chương 1
CHƯƠNG 2: CÁC PHƯƠNG PHÁP BIỂU DIỄN TÀI LIỆU
2.1 Mô hình không gian vector
2.1.1 Một số khái niệm
2.1.2 Mô hình tần số
2.1.3 Mô hình Boolean
2.1.4 Tính chất của vector
2.2 Tách từ trong tiếng Việt
2.2.1 Một số đặc điểm chính về từ tiếng Việt
2.2.2 Tách từ tự động tiếng Việt
2.2.3 Các phương pháp tách từ tiếng Việt
1. Mô tả
2. Áp dụng tách từ tiếng Việt
2.3.1 Đo độ tương tự
2.4 Tổng kết chương 2
CHƯƠNG 3: CÁC THUẬT TOÁN PHÂN CỤM TÀI LIỆU
3.1 Giới thiệu
3.2 Phân hoạch Top-down
3.2.1 Thuật toán K-means với gán “cứng”
3.2.2 Thuật toán K-means với gán “mềm”
3.2.3 Độ phức tạp tính toán
3.3 Phân cụm dựa trên tính mới của tài liệu
3.3.1 Mô tả
3.3.2 Độ đo tương tự
3.3.3 Thuật toán phân cụm dựa trên thuật toán K-Means mở rộng
3.3.4 Đánh giá
3.4 Phân hoạch Bottom-up
3.4.1 Thuật toán phân cụm tích tụ (AHC)
3.4.2 Độ phức tạp tính toán
3.5 Kết hợp giữa bottom-up và top-down
3.5.1 Mô tả
3.5.2 Thuật toán buckshot
3.7 Tổng kết chương 3
CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VỚI PHÂN CỤM TIẾNG VIỆT
4.1 Môi trường thực nghiệm
4.2 Dữ liệu
4.3 Kết quả thực nghiệm
4.3.1 So sánh các thuật toán phân cụm
4.3.2 Phân cụm sử dụng tách từ tiếng Việt
4.4 Kết luận chương 4
CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN
5.1 Tổng kết
5.2 Hướng phát triển
TÀI LIỆU THAM KHÁO