MỤC LỤC
DANH MỤC CHỮ VIẾT TẮT
DANH MỤC HÌNH VẼ, BẢNG BIỂU
MỞ ĐẦU
CHƯƠNG 1 - KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU WEB
1.1. Khai phá dữ liệu Web
1.1.1. Giới thiệu về Khai phá dữ liệu
1.1.2. Dữ liệu Web và nhu cầu khai thác thông tin
1.1.3. Đặc điểm của dữ liệu Web
1.1.4. Các hướng tiếp cận khai phá dữ liệu Web
1.1.5. Nhu cầu phân cụm tài liệu Web
1.2. Mô hình tìm kiếm thông tin
1.2.1. Giới thiệu
1.2.2. Quy trình tìm kiếm thông tin trong hệ thống
1.2.3. Ứng dụng phân cụm vào hệ thống tìm kiếm
1.3. Kết luận chương 1
CHƯƠNG 2 - THUẬT TOÁN PHÂN CỤM WEB
2.1. Khái quát về các thuật toán phân cụm tài liệu
2.2. Tiêu chuẩn đánh giá thuật toán phân cụm
2.3. Các đặc tính của các thuật toán phân cụm web
2.3.1. Mô hình dữ liệu
2.3.2. Độ đo về sự tương tự
2.3.3. Mô hình phân cụm
2.4. Một số kỹ thuật Phân cụm Web điển hình
2.4.1. Phân cụm theo thứ bậc
2.4.2. Phân cụm bằng cách phân mảnh
2.5. Các yêu cầu đối với các thuật toán phân cụm Web
2.5.1. Tách các thông tin đặc trưng
2.5.2. Phân cụm chồng lặp
2.5.3. Hiệu suất
2.5.4. Khả năng khử nhiễu
2.5.5. Tính tăng
2.5.6. Việc biểu diễn kết quả
2.6. Bài toán tách từ tự động tiếng Việt
2.6.1. Một số khó khăn trong phân cụm trang Web tiếng Việt
2.6.2. Tiếng và Từ trong tiếng Việt
2.6.3. Phương pháp tách từ tự động tiếng Việt fnTBL
2.6.4. Phương pháp Longest Matching
2.6.5. Kết hợp giữa fnTBL và Longest Matching
2.7. Kết luận chương 2
CHƯƠNG 3 - THUẬT TOÁN PHÂN CỤM CÂY
HẬU TỐ VÀ THUẬT TOÁN CÂY PHÂN CỤM
TÀI LIỆU
3.1. Giới thiệu về thuật toán phân cụm trang Web có tính tăng
3.2. Thuật toán phân cụm cây hậu tố
3.2.1. Mô tả
3.2.2. Thuật toán STC
3.3. Thuật toán phân cụm sử dụng cây phân cụm tài liệu
3.3.1. Giới thiệu
3.3.2. Trích chọn đặc trưng và phân cụm tài liệu
3.3.3. Cây phân cụm tài liệu –DC Tree
3.4. Kết luận chương 3
CHƯƠNG 4 - PHẦN MỀM THỬ NGHIỆM VÀ KẾT QUẢ
THỰC NGHIỆM
4.1. Giới thiệu
4.2. Thiết kế cơ sở dữ liệu
4.3. Chương trình thử nghiệm
4.4. Kết luận chương 4
KẾT LUẬN
TÀI LIỆU THAM KHÁO