Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
1,09 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Thương Huyền PHÂN LỚP THƯ ĐIỆN TỬ SỬ DỤNG MÁY VECTOR HỖ TRỢ LUẬN VĂN THẠC SĨ HÀ NỘI – 2007 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Thương Huyền MỤC LỤC PHÂN LỚP THƯ ĐIỆN TỬ SỬ DỤNG MÁY VECTOR HỖ TRỢ Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: PGS TS Hà Quang Thụy HÀ NỘI – 2007 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC Lời cảm ơn ii Danh mục hình vẽ iv Danh mục bảng biểu vi MỞ ĐẦU Chương KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Một số kiến thức khai phá liệu 1.1.1 Khái niệm khai phá liệu 1.1.2 Các hướng tiếp cận dạng liệu khai phá liệu 1.2 Các toán khai phá liệu văn 1.2.1 Tìm kiếm văn 1.2.2 Phân lớp văn 1.2.3 Một số toán khác 11 1.3 Khai phá liệu Web 11 1.3.1 Nhu cầu 11 1.3.2 Đặc điểm 13 1.3.3 Các hướng tiếp cận 15 Chương PHÂN LỚP VĂN BẢN 17 2.1 Bài toán phân lớp 17 2.1.1 Nhu cầu, ý tưởng 17 2.1.2 Quá trình phân lớp 18 2.2 Các giải pháp phân lớp điển hình 20 2.2.1 Thuật toán phân lớp Bayes 20 2.2.2 Thuật toán k-người láng giềng gần 22 2.2.3 Phân lớp dựa vào định 23 2.2.4 Chiết lọc thông tin theo mơ hình Markov ẩn 26 Chương BỘ PHÂN LỚP SỬ DỤNG MÁY VECTOR HỖ TRỢ 30 ii TIEU LUAN MOI download : skknchat@gmail.com 3.1 Biểu diễn văn dựa mơ hình khơng quan vector 30 3.1.1 Giới thiệu 30 3.1.2 Mô hình Boolean 32 3.1.3 Mơ hình tần số 33 3.2 Bộ phân lớp sử dụng vector hỗ trợ 34 3.2.1 Vector hỗ trợ 34 3.2.2 Thuật toán tạo siêu phẳng phân cách 35 Chương ỨNG DỤNG VÀ THỰC NGHIỆM 42 4.1 Giới thiệu toán thực nghiệm 44 4.2 Dữ liệu chương trình 44 4.3 Môi trường thực nghiệm 50 4.4 Kết thực nghiệm đánh giá 51 4.4.1 Độ xác phân lớp thử nghiệm với tập kiểm tra 51 4.4.2 Độ xác phân lớp tăng dần tập liệu học 56 KẾT LUẬN 59 TÀI LIỆU THAM KHẢO 57 iii TIEU LUAN MOI download : skknchat@gmail.com Danh mục hình vẽ Hình Lượng liệu tích lũy tăng mạnh theo thời gian Hình Các bước trình khám phá tri thức Hình Các nội dung khai phá Web Hình Mơ hình tốn phân lớp Hình Mơ hình học- phân tích tập liệu huấn luyện Hình Mơ hình phân lớp-đánh giá độ xác mơ hình Hình Mối quan hệ siêu phẳng phân cách Hình Biên giới siêu phẳng phân cách Hình Mơ điểm liệu nhiễu Hình 10 Minh họa cho trường hợp tập liệu phân tách tuyến tính Hình 11 Một minh họa khác ảnh ánh xạ sang khơng gian ta phân tách tuyến tính tập liệu Hình 12 Thực nghiệm với kiểu hàm nhân tuyến tính người dùng Beck-s Hình 13 Đồ thị biểu diễn độ xác phân lớp SVM áp dụng hàm nhân khác Hình 14 Sử dụng svm-train để huấn luyện tập liệu huấn luyện train_scale.tr Hình 15 Độ xác thử nghiệm tập kiểm tra người dùng Becks Hình 16 Độ xác thử nghiệm tập kiểm tra người dùng William-w3 Hình 17 Đồ thị biểu diễn độ xác phân lớp SVM thử nghiệm với tập kiểm tra Hình 18 Quá trình học sử dụng svm-train Hình 19 Kết thực nghiệm tỉ lệ liệu 2:1 người dùng Farmer iv TIEU LUAN MOI download : skknchat@gmail.com Hình 20 Kết thực nghiệm tỉ lệ liệu 3:1 người dùng Farmer Hình 21 Kết thực nghiệm tỉ lệ liệu 4:1 người dùng Farmer Hình 22 Đồ thị biểu diễn độ xác phân lớp SVM với tỉ lệ liệu Học/Kiểm tra tăng dần v TIEU LUAN MOI download : skknchat@gmail.com Danh mục bảng biểu Bảng Thống kê tập liệu sử dụng Bảng Thống kê tập liệu thử nghiệm Bảng Cấu hình máy tính Bảng Độ xác phân lớp ứng với hàm nhân Bảng Độ xác phân lớp thử nghiệm tập kiểm tra Bảng Thống kê tập liệu theo tỉ lệ phân chia liệu học/dữ liệu kiểm tra Bảng Độ xác phân lớp ứng với tỉ lệ phân chia liệu vi TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Ngày với phát triển vũ bão ngành khoa học kỹ thuật, đặc biệt phát triển nhanh chóng mạng máy tính tồn cầu, khối lượng liệu khổng lồ hàng ngày cập nhật liên tục, thường xuyên, nhằm đáp ứng nhu cầu thiếu người, thơng tin Và sống xã hội bùng nổ thông tin, ứng dụng công nghệ thông tin vào tới lĩnh vực đời sống xã hội Trong Internet ngày khẳng định sức mạnh vượt trội đóng vai trị quan trọng đời sống xã hội, kinh tế, trị, văn hoá, giáo dục… người Cùng với phát triển khơng ngừng đó, Internet trở thành kho thông tin khổng lồ số lượng biến đổi nhanh chóng nó, theo ước đốn sau hai năm lượng thơng tin lại tăng thêm gấp đôi Thư điện tử dịch vụ phổ biến Internet, giúp cho người sử dụng máy tính kết nối Internet trao đổi thơng tin với Ngày nay, mà Internet có mặt khắp nơi việc sử dụng dịch vụ thư điện tử việc hàng ngày nhiều người khắp giới Ta biết mạng Internet đời, người sử dụng chuyên gia máy tính, họ gửi nhiều email đến nhóm người dùng khác nhau, sau có tình trạng khơng thể kiểm sốt email gửi đến Vì cần phải có chương trình phân lớp email theo thư mục người dùng lọc hay ngăn chặn email mà người dùng không muốn nhận nhằm tăng chất lượng sử dụng Trong lĩnh vực thư điện tử cá nhân, kỹ thuật phân lớp văn áp dụng rộng rãi vào toán lọc thư rác Một số vấn đề khác liên TIEU LUAN MOI download : skknchat@gmail.com quan đến thư điện tử lọc luồng thư điện tử, tự động tạo thư mục nghiên cứu giải Hiện nay, toán phân lớp thư điện tử vào thư mục nhiều nhà nghiên cứu quan tâm Trong luận văn này, ứng dụng phân lớp văn vào lĩnh vực thư điện tử nhằm giải toán phân lớp tự động thư điện tử vào lớp người dùng định nghĩa Lựa chọn thuật toán máy vector hỗ trợ (SVMs) với ưu điểm hiệu chứng minh qua nhiều thực nghiệm phân lớp văn bản, chúng tơi hy vọng SVMs giải khó khăn tốn phân lớp email đem lại kết khả quan Luận văn tổ chức thành chương sau: Chương trình bày khái quát khai phá liệu, kỹ thuật hướng tiếp cận khai phá liệu phân loại hệ thống khai phá theo nhiều tiêu chí khác Chương giới thiệu toán khai phá liệu văn khai phá liệu Web Chương trình bày tốn q trình phân lớp văn bản, đồng thời giới thiệu số giải pháp phân lớp điển hình Chương giới thiệu phương pháp biểu diễn văn dựa mơ hình khơng quan vector tập trung nghiên cứu, khảo sát phương pháp máy vector hỗ trợ, tiền đề để thực việc thực nghiệm cho luận văn Chương trình bày mơ hình phân lớp thư điện tử áp dụng liệu công bố Từ kết thực nghiệm, đưa đánh giá hệ thống phân lớp nói TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Một số kiến thức khai phá liệu 1.1.1 Khái niệm khai phá liệu Trong thập kỷ gần đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta ước đốn rằng, lượng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lượng kích cỡ sở liệu tăng lên cách nhanh chóng [5] Hình - Lượng liệu tích lũy tăng mạnh theo thời gian Chúng ta thực sở hữu khối lượng liệu khổng lồ, lại cảm thấy thiếu thông tin hữu ích Lượng liệu khổng lồ thực nguồn “tài nguyên” giá trị thông tin yếu tố then chốt hoạt động trước định Khai phá liệu – khai thác thơng tin tiềm ẩn có tính dự đoán từ sở liệu lớn – hướng tiếp cận với khả giúp cơng ty trọng vào thơng tin có nhiều ý nghĩa từ tập liệu lớn (databases, data warehouses, data repositories) mang tính lịch sử Những cơng cụ khai phá liệu dự đốn xu hướng tương lai cho phép doanh nghiệp định kịp thời định hướng tri thức mà khai phá liệu TIEU LUAN MOI download : skknchat@gmail.com tính làm việc giải tốn khó khăn Theo nghiên cứu phương pháp biểu diễn văn khác nhau, đặc biệt so sánh ảnh hưởng hiệu khơng có cách biểu diễn văn tốt cách biểu diễn tập từ riêng biệt lấy từ văn gốc Do đó, chúng tơi tách thư điện tử thành tập từ đơn Trước đánh trọng số cho từ khoá, cần tiến hành loại bỏ từ dừng Từ dừng từ xuất thường xun lại khơng có ích đánh mục sử dụng máy tìm kiếm mục tìm kiếm khác [23] Thông thường, trạng từ, giới từ, liên từ từ dừng Trong tiếng Anh, người ta liệt kê danh sách từ dừng Bởi SVMs giải tốt với tốn có số chiều lớn nên thực nghiệm khơng làm trích chọn thuộc tính lựa chọn tất từ mục Mỗi văn biểu diễn dòng dạng vector sau: : : .: Trong đó: : số ngun biểu diễn chủ đề văn Trong thực nghiệm này, giả sử với người dùng Beck-s, có giá trị từ đến 58 (vì người dùng có 58 thư mục); Người dùng Farmer, có giá trị từ đến 22 : số nguyên dương, tham chiếu đến tập thuộc tính lựa chọn trình tiền xử lý liệu : biểu diễn độ quan trọng thuộc tính tập liệu học Mỗi cặp thuộc tính/giá trị phân cách khoảng trắng Cặp thuộc tính/giá trị phải xếp theo thứ tự tăng dần thuộc tính Các thuộc tính có giá trị bỏ qua 48 TIEU LUAN MOI download : skknchat@gmail.com Xét ví dụ đơn giản, tập liệu gồm ví dụ thuộc tính: 03001 41000 05920 60053 Trong đó, hai ví dụ đầu thuộc lớp 1, hai ví dụ sau thuộc lớp Chúng biểu diễn dạng vector sau: 2:3 5:1 1:4 2:1 2:5 3:9 4:2 1:6 4:5 5:3 Giá trị thuộc tính tính tốn nhiều cách khác Cách đơn giản gán trọng số giá trị nhị phân từ mục có mặt hay khơng có mặt văn Phương pháp khác tính số lần xuất từ mục tài liệu gọi tần suất từ mục Trong thực nghiệm này, sử dụng độ đo TFIDF (xem 3.1.3) để tính giá trị thuộc tính Phân lớp văn coi khơng mang tính khách quan theo nghĩa dù người hay phân lớp tự động thực việc phân lớp xảy sai sót Tính đa nghĩa ngơn ngữ tự nhiên, phức tạp tốn phân lớp coi nguyên nhân điển hình sai sót phân lớp Hiệu phân lớp thường đánh giá qua so sánh định phân lớp với định người tiến hành tập kiểm thử văn gán nhãn lớp trước Trong thực nghiệm này, chúng tơi sử dụng độ xác để đánh giá lực phân lớp SVM Độ xác tính đơn giản số ví dụ phân lớp dự đoán tổng số ví dụ kiểm tra 49 TIEU LUAN MOI download : skknchat@gmail.com Quá trình tiền xử lý, đưa email ban đầu thành vector thuộc tính, tơi khai thác bổ sung mã nguồn học viên Nguyễn Thị Hương Thảo [2] Để thực phân lớp thư điện tử phương pháp SVM, khai thác mã nguồn thư viện LIBSVM phiên 2.84, đưa vào tháng 42007 địa http://www.csie.ntu.edu.tw/~cjlin/libsvm/ LIBSVM thư viện xây dựng cho phân lớp máy vector hỗ trợ hai tác giả Đài Loan Chih-Chung Chang Chih-Jen Lin[6] LIBSVM thực phân lớp đa lớp theo kiểu “một-đấu-một” (one-agains-one), tức với hai lớp huấn luyện phân lớp Và vậy, có tổng cộng k(k-1)/2 phân lớp, với k số lớp Để phân lớp tài liệu X chưa biết, thuật toán thực sau: Đối với hai lớp thứ i thứ j, X phân lớp phân lớp Cij huấn hai lớp Nếu X thuộc lớp i điểm số cho lớp i tăng lên 1, ngược lại X thuộc lớp j điểm số cho lớp j tăng lên X nằm lớp có điểm số cao Trong trường hợp có hai lớp có điểm số nhau, ta đơn giản chọn lớp có số thứ tự nhỏ Vì LIBSVM xử lý giá trị thuộc tính khoảng [-1,1] nên sau đưa tài liệu dạng vector với giá trị thuộc tính tần số TFIDF, chúng tơi sử dụng chương trình svm-scale LIBSVM hỗ trợ để đưa giá trị TFIDF theo tỉ lệ [-1,1] 4.3 Môi trƣờng thực nghiệm Thực nghiệm tiến hành cấu hình máy liệt kê Bảng Bảng 3: Cấu hình máy tính Thành phần Chỉ số CPU PIV, 2.00GHz RAM 256 MB OS Windows XP 50 TIEU LUAN MOI download : skknchat@gmail.com 4.4 Kết thực nghiệm đánh giá 4.4.1 Độ xác phân lớp thử nghiệm với tập kiểm tra Lựa chọn tham số cho mơ hình LIBSVM cho phép lựa chọn hàm nhân q trình học phân lớp Có hàm nhân tích hợp LIBSVM: Hàm tuyến tính, hàm đa thức, hàm xuyên tâm sở (radial basis function) hàm xích ma Để lựa chọn hàm nhân phù hợp, sử dụng kỹ thuật kiểm tra chéo tập liệu học; nghĩa chia tập liệu huấn luyện thành n phần nhau, phần kiểm tra phân lớp huấn luyện n-1 phần lại Trong thực nghiệm chọn n = 10 Dưới số hình ảnh trình thực nghiệm: 51 TIEU LUAN MOI download : skknchat@gmail.com Hình 12 Thực nghiệm với kiểu hàm nhân tuyến tính người dùng Becks Kết thu ứng với hàm nhân người dùng thống kê Bảng Bảng 4: Độ xác phân lớp ứng với hàm nhân Hàm tuyến tính Hàm đa thức Hàm xuyên tâm sở Hàm xích ma Beck-s 47.75% 9.43% 9.43% 9.43% Farmer-d 75.04% 32.58% 32.58% 32.58% Lokay-m 74.67% 46.62% 46.62% 46.62% Sanders-r 64.74% 36.70% 36.70% 36.70% William-w3 95.25% 50.93% 50.93% 50.93% Từ bảng kết này, chúng tơi nhận đồ thị biểu diễn độ xác phân lớp SVM áp dụng hàm nhân khác sau: 52 TIEU LUAN MOI download : skknchat@gmail.com 120.00% 100.00% Độ xác 80.00% Beck-s Farmer-d 60.00% Lokay-m Sanders-r William-w3 40.00% 20.00% 0.00% Hàm tuyến tính Hàm đa thức Hàm xuyên tâm sở Hàm xích ma Kiểu hàm nhân Hình 13 - Đồ thị biểu diễn độ xác phân lớp SVM áp dụng hàm nhân khác Từ biểu đồ ta thấy với người dùng, sử dụng hàm nhân tuyến tính cho độ xác cao so với hàm nhân cịn lại Do đó, chúng tơi lựa chọn hàm nhân tuyến tính cho thực nghiệm Với tỉ lệ phân chia tập liệu học/dữ liệu kiểm tra 2:1, thực nghiệm tập liệu kiểm tra, áp dụng hàm nhân tuyến tính Đầu tiên, sử dụng svm-train để huấn luyện liệu tập liệu huấn luyện train_scale.tr, tham số mơ hình ghi vào model Q trình biểu diễn hình dưới: 53 TIEU LUAN MOI download : skknchat@gmail.com Hình 14 Sử dụng svm-train để huấn luyện tập liệu huấn luyện train_scale.tr Sau huấn luyện, sử dụng svm-predict để kiểm tra tập test_scale.t, kết dự đoán ghi vào file output: Hình 15 Độ xác thử nghiệm tập kiểm tra người dùng Becks Hình 16 Độ xác thử nghiệm tập kiểm tra người dùng William-w3 54 TIEU LUAN MOI download : skknchat@gmail.com Kết thu sau thử nghiệm tập kiểm tra người dùng biểu diễn Bảng Bảng Độ xác phân lớp thử nghiệm tập kiểm tra Beck-s Farmer-d Sander-r Lokay-m William-w3 51.70% 75.56% 70.81% 78.67% 95.82% Từ kết này, ta có đồ thị biểu diễn độ xác phân lớp người dùng là: 120.00% 100.00% 95.82% Đ? xác 80.00% 78.67% 75.56% 70.81% 60.00% 40.00% 51.70% 20.00% 0.00% Beck-s Farmer-d Sander-r Lokay-m William-w3 Ngư?i dùng Hình 17 Đồ thị biểu diễn độ xác phân lớp SVM thử nghiệm với tập kiểm tra Từ biểu đồ ta thấy độ xác thu người dùng không cao Người dùng William-w3 đạt độ xác cao 95.82%, Beck-s đạt 51.70% Kết thu theo tơi tập liệu học chưa đủ lớn để huấn luyện mơ hình, số lớp lại nhiều Beck-s có 58 thư mục, tức ta phải gán email vào 58 lớp Trong đó, tổng số email huấn luyện 58 lớp 1.177 email, số email lớp lại không đồng nên kết thu tương đối thấp 55 TIEU LUAN MOI download : skknchat@gmail.com 4.4.2 Độ xác phân lớp tăng dần tập liệu học Từ kết thực nghiệm trên, tiến hành tăng dần tập liệu huấn luyện khảo sát độ xác phân lớp Chúng tơi phân chia tập liệu ban đầu thành tập liệu học liệu kiểm tra theo tỉ lệ 2:1, 3:1 4:1 Thống kê số lượng email tập liệu liệt kê bảng sau: Bảng 6: Thống kê tập liệu theo tỉ lệ phân chia liệu học/dữ liệu kiểm tra Tỉ lệ 2:1 Tỉ lệ 3:1 Tỉ lệ 4:1 Tập học Tập KTra Tập học Tập KTra Tập học Tập KTra Beck-s 1177 559 1326 410 1408 328 Farmer-d 2440 1211 2746 905 2930 721 Lokay-m 1658 825 1868 615 1990 493 Sanders-r 763 370 857 276 913 220 William-w3 1830 910 2060 680 2196 544 Áp dụng LIBSVM với lựa chọn hàm nhân tuyến tính, kết phân lớp người dùng Farmer-d ba trường hợp biểu diễn hình đây: Hình 18 Quá trình học sử dụng svm-train 56 TIEU LUAN MOI download : skknchat@gmail.com Hình 19 Kết thực nghiệm tỉ lệ liệu 2:1 người dùng Farmer Hình 20 Kết thực nghiệm tỉ lệ liệu 3:1 người dùng Farmer Hình 21 Kết thực nghiệm tỉ lệ liệu 4:1 người dùng Farmer Sau thực nghiệm độ xác với tỉ lệ khác người dùng, kết liệt kê Bảng Bảng 7: Độ xác phân lớp ứng với tỉ lệ phân chia liệu Tỉ lệ Beck-s Farmer-d Sander-r Lokay-m William-w3 2:1 51.70% 75.56% 70.81% 78.67% 95.82% 3:1 55.85% 76.35% 69.57% 77.89% 97.06% 4:1 56.71% 78.79% 72.27% 79.31% 97.53% Từ bảng kết quả, ta biểu diễn đồ thị độ xác phân lớp theo tỉ lệ phân chia liệu hình vẽ 57 TIEU LUAN MOI download : skknchat@gmail.com 120.00% Độ xác 100.00% 80.00% 2:1 60.00% 3:1 4:1 40.00% 20.00% 0.00% Beck-s Farmer-d Sander-r Lokay-m William-w3 Người dùng Hình 22 Đồ thị biểu diễn độ xác phân lớp SVM với tỉ lệ liệu Học/Kiểm tra tăng dần Từ bảng kết đồ thị ta thấy rằng, tăng tập ví dụ học kết phân lớp tăng lên Mặc dù kết tăng lên không nhiều chứng tỏ rằng, liệu huấn luyện đủ lớn kết thu khả quan 58 TIEU LUAN MOI download : skknchat@gmail.com KẾT LUẬN Qua trình tìm hiểu, khảo sát nội dung nghiên cứu toán phân lớp thư điện tử, luận văn thu số kết sau: - Trình bày khái quát khai phá liệu (kỹ thuật, tiếp cận, phân loại) khai phá liệu web - Trình bày có phân tích sơ số thuật tốn phân lớp văn điển phân lớp Bayes, phân lớp định Tập trung nghiên cứu, khảo sát phương pháp máy hỗ trợ vector để ứng dụng toán phân lớp thư điện tử - Từ phần mềm mã nguồn mở, tích hợp thành phân lớp thư điện tử áp dụng liệu công bố Đã tiến hành thực nghiệm đánh giá hệ thống phân lớp với kết khả thi Do hạn chế lực khó khăn thời gian nghiên cứu, luận văn mức độ nghiên cứu, khảo sát, phân tích trình bày cách có hệ thống tốn liên quan mà chưa có đề xuất nghiên cứu thực nghiệm công phu Đây hạn chế luận văn Trong thời gian tới, tiếp tục triển khai thực nghiệm để đưa kết tập liệu thư điện tử tiếng Việt 59 TIEU LUAN MOI download : skknchat@gmail.com TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đoàn Sơn (2002), Một số giải pháp cho tốn tìm kiếm sở liệu Hypertext Luận văn thạc sỹ Công nghệ thông tin 2002 Khoa Công Nghệ - Đại Học Quốc Gia Hà Nội [2] Nguyễn Thị Thùy Linh, Nguyễn Thu Trang, Nguyễn Thị Hương Thảo, Hà Quang Thụy (2007), Một giải pháp học bán giám sát SVM phân lớp trang web tiếng Việt Báo cáo Hội thảo FAIR'07, Nha Trang, 8-2007 [3] Phan Xuân Hiếu (2003), Khai phá song song luật kết hợp mờ Luận văn thạc sỹ Công nghệ thông tin 2003 - Khoa Công Nghệ - Đại Học Quốc Gia Hà Nội [4] Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thùy Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh (2007) Nghiên cứu, phân tích đánh giá thuật toán lọc văn theo nội dung Báo cáo chuyên đề Đề tài cấp Nhà nước KC.01.02/06-10, 10-2007 Tiếng Anh [5] Alan Rea (1996) Data Mining – An Introduction http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHPfinal_1.html [6] C.C Chang and C.J Lin (2007) LIBSVM: a library for support vector machines http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003, ISBN: 0-470-84906-1 [8] Enron dataset: http://www.cs.cmu.edu/~enron/ 57 TIEU LUAN MOI download : skknchat@gmail.com [9] Greg Kochanski (2005), Markov Models, Hidden and Otherwise http://www.kochanski.org/gpk 2005/02/28 [10] Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques University of Illinois, Morgan Kaufmann Publishers 2001 [11] J.D.Brutlag, C.Meek (2000) Challenges of the Email Domain for Text Classification ICML 2000 : 103-110 [12] Manoel Mendonca (2000), Mining Software Engineering Data: A Survey University of Maryland, Department of Computer Science, A V Williams Building #3225 College Park, MD 20742 2000 [13] Nancy R Zhang (2001), Hidden Markov Models for Information Extraction June, 2001 [14] P.S.Keila, D.B.Skillicorn (2005) Structure in the enron email dataset Proceeding of SIAM international conference on data mining, 2005 [15] R Agrawal, M Mehta, J Shafer, R Srikant, A Arning, T Bollinger (1996) The Quest Data Mining System Proceedings of 1996 International Conference on Data Mining and Knowledge Discovery (KDD’96), Portland, Oregon, August 1996 [16] Ron Bekkerman, Andrew McCallum, Gary Huang (2004) Automatic Categorization of Email into Folders : Benchmark Experiments on enron and SRI corpora Technical report IR-418 2004 [17] Soumen Chakrabaki (2003), Mining the Web: Discovering Knowledge from Hypertext Data Morgan Kaufmann Publishers, 2003 [18] Steve Martin, Anil Sewani, Blaine Nelson, Karl Chen, Anthony D.Joseph (2005) Analyzing behaviorial features for email classification Second conference on email and antispam (CEAS 2005) 58 TIEU LUAN MOI download : skknchat@gmail.com [19] Svetlana Kiritchenko, Stan Matwin (2001) Email classification with cotraining Proceedings of the 2001 conference of the centre of advanced studies on collaborative research [20] U M Fayyad, G Piatetsky-Shapio, P Smyth, and R Uthurusamy (eds.) (1996), Advances in Knowledge Discovery and Data Mining AAAI/MIT Press, 1996 [21] Sen Slattery (2002) Hypertext Classification Doctoral dissertation (CMU-CS-02-142) School of Computer Science Carnegie Mellon University, 2002 [22] Y Yang and J.O Pedersen (1997), A Comparative Study on Feature Selection in Text Categorization Proceeding of the 14th International Conference on Machine Learning (ICML’97) [23] http://en.wikipedia.org/wiki/ 59 TIEU LUAN MOI download : skknchat@gmail.com ... phân lớp nhị phân, tức có hai lớp Spam/NonSpam Phân lớp lớp thư điện tử vào lớp chủ đề khác toán tự động phân lớp thư điện tử người dùng vào thư mục khác người dùng tạo Có thể coi toán phân lớp. .. đa lớp, với số lớp số thư mục mà người dùng tạo Trong luận văn tiến hành ứng dụng thuật toán máy vector hỗ trợ toán phân lớp thư điện tử 4.2 Dữ liệu chƣơng trình Hệ thống phân lớp thư điện tử. .. lớp văn áp dụng rộng rãi vào toán lọc thư rác Một số vấn đề khác liên quan đến thư điện tử lọc luồng thư điện tử, tự động tạo thư mục nghiên cứu giải Hiện nay, toán phân lớp thư điện tử vào thư