MỤC LỤC
Danh sách các hình
Danh sách bảng
Danh sách từ viết tắt
Bảng thuật ngữ Anh-Việt
MỞ ĐẦU
1. Cơ sở khoa học và tính thực tiễn của đề tài.
2. Phạm vi và mục đính nghiên cứu của để tài
3. Bố cục và cấu trúc của luận văn
CHƢƠNG 1 - TỔNG QUAN VỀ BÀI TOÁN PHÂN
LOẠI VĂN BẢN
1.1. Tổng quan
1.2. Các bƣớc chính trong bài toán phân loại văn bản
CHƢƠNG 2 - BIỂU DIỄN VĂN BẢN TRONG PHÂN
LOẠI VĂN BẢN
2.1. Các vector thuộc tính
2.2. Việc lựa chọn thuộc tính
2.2.1. Loại bỏ các từ dừng
2.2.2. Xác định gốc của từ
2.2.3. Lựa chọn thuộc tính
2.3. Một số phƣơng pháp lựa chọn thuộc tính trong phân loại văn
bản
2.3.1. Ngƣỡng tần xuất văn bản (DF)
2.3.2. Lợi ích thông tin (IG)
2.3.3. Thông tin tƣơng hỗ (MI)
2.3.4. Thống kê Chi bình phƣơng
2.3.5. Cƣờng độ của từ (TS)
2.3.6. Một số phƣơng pháp khác
2.4. Tổng kết chƣơng
CHƢƠNG 3 - CÁC PHƢƠNG PHÁP PHÂN LOẠI VĂN
BẢN TRUYỀN THỐNG
3.1. Phƣơng pháp Rocchio
3.2. Phƣơng pháp k- Nearest Neighbour
3.3. Phƣơng pháp Naïve Bayes (NB)
3.4. Phƣơng pháp Linear Least Square Fit- LLSF
3.5. Phƣơng pháp Centroid- based vector
3.6. Phƣơng pháp SVM- Support Vector Machine
3.7. Một số phƣơng pháp khác
3.8. Phƣơng pháp đánh giá
3.9. Tổng kết chƣơng
CHƢƠNG 4 - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
4.1. Tiếng Việt và một số đặc điểm của tiếng Việt
4.1.1. Cấu trúc từ trong tiếng Việt
4.1.2. So sánh tiếng Việt và tiếng Anh
4.2. Bài toán phân loại văn bản tiếng Việt
4.3. Vấn đề tách từ trong văn bản tiếng Việt
4.3.1. Tách từ trong văn bản tiếng Việt dựa trên từ
4.3.2. Tách từ trong văn bản tiếng Việt dựa trên ký tự
4.3.3. Một số phƣơng pháp tách từ trong văn bản tiếng Việt
Phƣơng pháp khớp tối đa ( Maximum Matching)
4.4. Thực nghiệm và kết quả
4.5. Tổng kết chƣơng
CHƢƠNG 5 - ỨNG DỤNG PHÂN CỤM TRONG CẢI
TIẾN PHÂN LOẠI VĂN BẢN
5.1. Giới thiệu
5.2. Phân cụm dữ liệu
5.3. Một số phƣơng pháp phân loại văn bản sử dụng phân cụm
5.3.1. Phƣơng pháp 1
5.3.2. Phƣơng pháp 2
5.3.3. Phƣơng pháp 3
5.4. Nhận xét
5.5. Thực nghiệm và kết quả thực nghiệm
5.6.Tổng kết chƣơng
CHƢƠNG 6 - CẢI TIẾN GIẢI THUẬT CHIẾT XUẤT
THUỘC TÍNH NHÓM XÂU CON CHÍNH VÀ ÁP
DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
6.1. Giới thiệu
6.2. Cây hậu tố
6.3. Thuộc tính nhóm xâu con chính
6.3.1. Các nhóm xâu con
6.3.2. Các nhóm xâu con chính
6.4. Thuật toán
6.5. Nhận xét và đề xuất cải tiến thuật toán và chƣơng trình
6.6. Thực nghiệm và kết quả
6.7. Tổng kết chƣơng
CHƢƠNG 7 - CÁC CỘNG CỤ HỖ TRỢ VÀ CÁC
CHƢƠNG TRÌNH
7.1. Công cụ chiết xuất nội dung từ các web-site báo điện tử
7.2. Chƣơng trình phân đoạn từ tiếng Việt và tạo các ma trận thuộc
tính
7.3. Công cụ chiết xuất thuộc tính KSG và đƣa ra ma trân thuộc tính
7.4. Công cụ mở rộng tập dữ liệu kết hợp phân cụm
7.5. Phân lọai văn bản sử dụng thƣ viện LibSVM
7.6. Công cụ phân loại theo phƣơng pháp kNN và Centroid based
vector
KẾT LUẬN
1. Nhận xét chung
2. Hƣớng phát triển
Tài liệu tham khảo
PHỤ LỤC A: Phân tích thiết kế chƣơng trình phân loại
văn bản tự động sử dụng thuộc tính nhóm xâu con chính.
1. Yêu cầu của chƣơng trình
2. Phân tích
2.1. Mô hình ca sử dụng.
2.2. Biểu đồ tuần tự hệ thống và mô hình khái niệm
3. Thiết kế
3.1. Thao tác trên tập ngữ liệu
3.2. Xử lý thuộc tính xâu con chính.
3.3. Phân loại văn bản bằng phƣơng pháp SVM
4. Cài đặt chƣơng trình
PHỤ LỤC B: Cấu trúc đĩa CD đi kèm
PHỤ LỤC C: Chia sẽ dữ liệu, các công cụ và chƣơng
trình liên quan
1. Corpus và thống kê nguồn gốc corpus
2. Các công cụ và chƣơng trình
Chỉ mục từ