Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 3.10: Giao diện chương trình chính
Hình 3.11: Thực hiện phân tách từng văn bản định dạng txt thành tệp chứa các từ tiếng Việt
Hình 3.12: Quá trình loại bỏ các stop word có trong từng văn bản và lưu thành tệp prps
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 3.13:Thực hiện học phân lớp thể thao và pháp luật
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Hình 3.15: Thực hiện biểu diễn các văn bản trong từng phân lớp theo đặc trưng được trích chọn dựa trên giaỉ thuật di truyền và biểu diễn dưới dạng vecto thưa
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
KẾT LUẬN
Luận văn tập trung nghiên cứu về khai phá dữ liệu, giải thuật di truyền và ứng dụng giải thuật di truyền vào trích chọn từ khóa để phân loại tài liệu dạng văn bản.
* Những kết quả đã đạt đƣợc
Để đạt đƣợc các mục tiêu đề ra, luận văn đã từng bƣớc nghiên cứu các nội dung chính sau:
Tổng quan về khai phá dữ liệu: Nghiên cứu các khái niệm cơ bản về khám phá tri thức và khai phá dữ liệu. Tìm hiểu các kỹ thuật cơ bản của quá trình khai phá dữ liệu, tập trung vào hai kỹ thuật thƣờng dùng là phân cụm và phân lớp.
Tìm hiểu thuật giải di truyền: Các khái niệm chung của giải thuật di truyền nhƣ: nhiễm sắc thể, cá thể, quẩn thể, phƣơng pháp mã hóa, hàm thích nghi, các toán tử lai ghép, đột biến, tái sinh, chọn lọc, sơ đồ thuật giải di truyền và các tham số của thuật giải.
Ứng dụng giải thuật di truyền trong khai phá dữ liệu để trích chọn từ khóa trong phân loại văn bản: nghiên cứu khái quát về phân loại văn bản, các mô hình biểu diễn văn bản, một số thuật toán phân loại và mô hình phân loại văn bản(đã cài đặt đƣợc ứng dụng để minh họa).
* Hƣớng phát triển
Mục tiêu lâu dài của luận văn là áp dụng và đánh giá các phƣơng pháp phân loại văn bản hiệu quả và đƣợc nghiên cứu sâu để tìm ra phƣơng pháp hiệu quả và phù hợp nhất cho việc phân loại tài liệu dạng văn bản.
Nghiên cứu cải tiến khâu tiền xử lý văn bản, xây dựng các mẫu huấn luyện tiêu chuẩn cũng nhƣ điều chỉnh giải thuật SVM để có thể nâng cao độ chính xác phân loại hơn nữa.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
TÀI LIỆU THAM KHẢO Tiếng Việt
1.Bùi Thế Tâm, Trần Vũ Thiệu, Các phương pháp tối ưu hóa, Nxb Giao thông vận tải Hà Nội (1998).
2. Hoàng Kiếm, Lê Hoàng Thái, Giải thuật di truyền – Cách giải các bài toán tự nhiên trên máy tính, Nxb Giáo dục (2001).
3. Nguyễn Đình Thúc, Trí tuệ nhân tạo - Lập trình tiến hóa, Nxb Giáo dục (2001). 4. Đỗ Phúc, Bài giảng Tổng quan về khai phá dữ liệu, Trƣờng Đại học CNTT, ĐHQG Tp Hồ Chí Minh (2007).
5.Đỗ Bích Diệp, “Phân loại văn bản dựa trên mô hình đồ thị”, Luận văn cao học. Trƣờng Đại học Tổng hợp New South Wales - Australia. 2004.
6. Huỳnh Quyết Thắng, Đinh Thị Phƣơng Thu, “Tiếp cận phương pháp học không giám sát trong học có giám sát với bài toán phân lớp văn bản tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản trong mô hình vector”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005.
Tiếng Anh
7. Zbigniew Michalewicz, Genetic Algorithm + Data Structure = Evolution Program (1992)
8. T. JOACHIMS, “Text categorization with Support Vector Machines: Learning with many relevant features”, Technical Report 23, LS VIII, University of Dortmund, 1997.
9. E. OSUNA, R. FREUND, F. GIROSI, An improved training algorithm for Support Vector Machines, Neural Networks for Signal Processing VII –Proceedings of the 1997 IEEE Workshop, pp 276-285, New York, IEEE, 1997.
10. J. PLATT, Sequential minimal optimization: A fast algorithm for training Support Vector Machines, Technical Report MSR-TR-98-14, Microsoft Research, 1998.