1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Output file

69 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Lớp Thư Điện Tử Sử Dụng Máy Vector Hỗ Trợ
Tác giả Ngô Thương Huyền
Người hướng dẫn PGS. TS Hà Quang Thụy
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2007
Thành phố Hà Nội
Định dạng
Số trang 69
Dung lượng 1,09 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Thương Huyền PHÂN LỚP THƯ ĐIỆN TỬ SỬ DỤNG MÁY VECTOR HỖ TRỢ LUẬN VĂN THẠC SĨ HÀ NỘI – 2007 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ngô Thương Huyền MỤC LỤC PHÂN LỚP THƯ ĐIỆN TỬ SỬ DỤNG MÁY VECTOR HỖ TRỢ Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học: PGS TS Hà Quang Thụy HÀ NỘI – 2007 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC Lời cảm ơn ii Danh mục hình vẽ iv Danh mục bảng biểu vi MỞ ĐẦU Chương KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Một số kiến thức khai phá liệu 1.1.1 Khái niệm khai phá liệu 1.1.2 Các hướng tiếp cận dạng liệu khai phá liệu 1.2 Các toán khai phá liệu văn 1.2.1 Tìm kiếm văn 1.2.2 Phân lớp văn 1.2.3 Một số toán khác 11 1.3 Khai phá liệu Web 11 1.3.1 Nhu cầu 11 1.3.2 Đặc điểm 13 1.3.3 Các hướng tiếp cận 15 Chương PHÂN LỚP VĂN BẢN 17 2.1 Bài toán phân lớp 17 2.1.1 Nhu cầu, ý tưởng 17 2.1.2 Quá trình phân lớp 18 2.2 Các giải pháp phân lớp điển hình 20 2.2.1 Thuật toán phân lớp Bayes 20 2.2.2 Thuật toán k-người láng giềng gần 22 2.2.3 Phân lớp dựa vào định 23 2.2.4 Chiết lọc thông tin theo mơ hình Markov ẩn 26 Chương BỘ PHÂN LỚP SỬ DỤNG MÁY VECTOR HỖ TRỢ 30 ii TIEU LUAN MOI download : skknchat@gmail.com 3.1 Biểu diễn văn dựa mơ hình khơng quan vector 30 3.1.1 Giới thiệu 30 3.1.2 Mô hình Boolean 32 3.1.3 Mơ hình tần số 33 3.2 Bộ phân lớp sử dụng vector hỗ trợ 34 3.2.1 Vector hỗ trợ 34 3.2.2 Thuật toán tạo siêu phẳng phân cách 35 Chương ỨNG DỤNG VÀ THỰC NGHIỆM 42 4.1 Giới thiệu toán thực nghiệm 44 4.2 Dữ liệu chương trình 44 4.3 Môi trường thực nghiệm 50 4.4 Kết thực nghiệm đánh giá 51 4.4.1 Độ xác phân lớp thử nghiệm với tập kiểm tra 51 4.4.2 Độ xác phân lớp tăng dần tập liệu học 56 KẾT LUẬN 59 TÀI LIỆU THAM KHẢO 57 iii TIEU LUAN MOI download : skknchat@gmail.com Danh mục hình vẽ Hình Lượng liệu tích lũy tăng mạnh theo thời gian Hình Các bước trình khám phá tri thức Hình Các nội dung khai phá Web Hình Mơ hình tốn phân lớp Hình Mơ hình học- phân tích tập liệu huấn luyện Hình Mơ hình phân lớp-đánh giá độ xác mơ hình Hình Mối quan hệ siêu phẳng phân cách Hình Biên giới siêu phẳng phân cách Hình Mơ điểm liệu nhiễu Hình 10 Minh họa cho trường hợp tập liệu phân tách tuyến tính Hình 11 Một minh họa khác ảnh ánh xạ sang khơng gian ta phân tách tuyến tính tập liệu Hình 12 Thực nghiệm với kiểu hàm nhân tuyến tính người dùng Beck-s Hình 13 Đồ thị biểu diễn độ xác phân lớp SVM áp dụng hàm nhân khác Hình 14 Sử dụng svm-train để huấn luyện tập liệu huấn luyện train_scale.tr Hình 15 Độ xác thử nghiệm tập kiểm tra người dùng Becks Hình 16 Độ xác thử nghiệm tập kiểm tra người dùng William-w3 Hình 17 Đồ thị biểu diễn độ xác phân lớp SVM thử nghiệm với tập kiểm tra Hình 18 Quá trình học sử dụng svm-train Hình 19 Kết thực nghiệm tỉ lệ liệu 2:1 người dùng Farmer iv TIEU LUAN MOI download : skknchat@gmail.com Hình 20 Kết thực nghiệm tỉ lệ liệu 3:1 người dùng Farmer Hình 21 Kết thực nghiệm tỉ lệ liệu 4:1 người dùng Farmer Hình 22 Đồ thị biểu diễn độ xác phân lớp SVM với tỉ lệ liệu Học/Kiểm tra tăng dần v TIEU LUAN MOI download : skknchat@gmail.com Danh mục bảng biểu Bảng Thống kê tập liệu sử dụng Bảng Thống kê tập liệu thử nghiệm Bảng Cấu hình máy tính Bảng Độ xác phân lớp ứng với hàm nhân Bảng Độ xác phân lớp thử nghiệm tập kiểm tra Bảng Thống kê tập liệu theo tỉ lệ phân chia liệu học/dữ liệu kiểm tra Bảng Độ xác phân lớp ứng với tỉ lệ phân chia liệu vi TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Ngày với phát triển vũ bão ngành khoa học kỹ thuật, đặc biệt phát triển nhanh chóng mạng máy tính tồn cầu, khối lượng liệu khổng lồ hàng ngày cập nhật liên tục, thường xuyên, nhằm đáp ứng nhu cầu thiếu người, thơng tin Và sống xã hội bùng nổ thông tin, ứng dụng công nghệ thông tin vào tới lĩnh vực đời sống xã hội Trong Internet ngày khẳng định sức mạnh vượt trội đóng vai trị quan trọng đời sống xã hội, kinh tế, trị, văn hoá, giáo dục… người Cùng với phát triển khơng ngừng đó, Internet trở thành kho thông tin khổng lồ số lượng biến đổi nhanh chóng nó, theo ước đốn sau hai năm lượng thơng tin lại tăng thêm gấp đôi Thư điện tử dịch vụ phổ biến Internet, giúp cho người sử dụng máy tính kết nối Internet trao đổi thơng tin với Ngày nay, mà Internet có mặt khắp nơi việc sử dụng dịch vụ thư điện tử việc hàng ngày nhiều người khắp giới Ta biết mạng Internet đời, người sử dụng chuyên gia máy tính, họ gửi nhiều email đến nhóm người dùng khác nhau, sau có tình trạng khơng thể kiểm sốt email gửi đến Vì cần phải có chương trình phân lớp email theo thư mục người dùng lọc hay ngăn chặn email mà người dùng không muốn nhận nhằm tăng chất lượng sử dụng Trong lĩnh vực thư điện tử cá nhân, kỹ thuật phân lớp văn áp dụng rộng rãi vào toán lọc thư rác Một số vấn đề khác liên TIEU LUAN MOI download : skknchat@gmail.com quan đến thư điện tử lọc luồng thư điện tử, tự động tạo thư mục nghiên cứu giải Hiện nay, toán phân lớp thư điện tử vào thư mục nhiều nhà nghiên cứu quan tâm Trong luận văn này, ứng dụng phân lớp văn vào lĩnh vực thư điện tử nhằm giải toán phân lớp tự động thư điện tử vào lớp người dùng định nghĩa Lựa chọn thuật toán máy vector hỗ trợ (SVMs) với ưu điểm hiệu chứng minh qua nhiều thực nghiệm phân lớp văn bản, chúng tơi hy vọng SVMs giải khó khăn tốn phân lớp email đem lại kết khả quan Luận văn tổ chức thành chương sau: Chương trình bày khái quát khai phá liệu, kỹ thuật hướng tiếp cận khai phá liệu phân loại hệ thống khai phá theo nhiều tiêu chí khác Chương giới thiệu toán khai phá liệu văn khai phá liệu Web Chương trình bày tốn q trình phân lớp văn bản, đồng thời giới thiệu số giải pháp phân lớp điển hình Chương giới thiệu phương pháp biểu diễn văn dựa mơ hình khơng quan vector tập trung nghiên cứu, khảo sát phương pháp máy vector hỗ trợ, tiền đề để thực việc thực nghiệm cho luận văn Chương trình bày mơ hình phân lớp thư điện tử áp dụng liệu công bố Từ kết thực nghiệm, đưa đánh giá hệ thống phân lớp nói TIEU LUAN MOI download : skknchat@gmail.com CHƢƠNG KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VĂN BẢN 1.1 Một số kiến thức khai phá liệu 1.1.1 Khái niệm khai phá liệu Trong thập kỷ gần đây, lượng thông tin lưu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Người ta ước đốn rằng, lượng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lượng kích cỡ sở liệu tăng lên cách nhanh chóng [5] Hình - Lượng liệu tích lũy tăng mạnh theo thời gian Chúng ta thực sở hữu khối lượng liệu khổng lồ, lại cảm thấy thiếu thông tin hữu ích Lượng liệu khổng lồ thực nguồn “tài nguyên” giá trị thông tin yếu tố then chốt hoạt động trước định Khai phá liệu – khai thác thơng tin tiềm ẩn có tính dự đoán từ sở liệu lớn – hướng tiếp cận với khả giúp cơng ty trọng vào thơng tin có nhiều ý nghĩa từ tập liệu lớn (databases, data warehouses, data repositories) mang tính lịch sử Những cơng cụ khai phá liệu dự đốn xu hướng tương lai cho phép doanh nghiệp định kịp thời định hướng tri thức mà khai phá liệu TIEU LUAN MOI download : skknchat@gmail.com tính làm việc giải tốn khó khăn Theo nghiên cứu phương pháp biểu diễn văn khác nhau, đặc biệt so sánh ảnh hưởng hiệu khơng có cách biểu diễn văn tốt cách biểu diễn tập từ riêng biệt lấy từ văn gốc Do đó, chúng tơi tách thư điện tử thành tập từ đơn Trước đánh trọng số cho từ khoá, cần tiến hành loại bỏ từ dừng Từ dừng từ xuất thường xun lại khơng có ích đánh mục sử dụng máy tìm kiếm mục tìm kiếm khác [23] Thông thường, trạng từ, giới từ, liên từ từ dừng Trong tiếng Anh, người ta liệt kê danh sách từ dừng Bởi SVMs giải tốt với tốn có số chiều lớn nên thực nghiệm khơng làm trích chọn thuộc tính lựa chọn tất từ mục Mỗi văn biểu diễn dòng dạng vector sau: : : .: Trong đó:  : số ngun biểu diễn chủ đề văn Trong thực nghiệm này, giả sử với người dùng Beck-s, có giá trị từ đến 58 (vì người dùng có 58 thư mục); Người dùng Farmer, có giá trị từ đến 22  : số nguyên dương, tham chiếu đến tập thuộc tính lựa chọn trình tiền xử lý liệu  : biểu diễn độ quan trọng thuộc tính tập liệu học Mỗi cặp thuộc tính/giá trị phân cách khoảng trắng Cặp thuộc tính/giá trị phải xếp theo thứ tự tăng dần thuộc tính Các thuộc tính có giá trị bỏ qua 48 TIEU LUAN MOI download : skknchat@gmail.com Xét ví dụ đơn giản, tập liệu gồm ví dụ thuộc tính: 03001 41000 05920 60053 Trong đó, hai ví dụ đầu thuộc lớp 1, hai ví dụ sau thuộc lớp Chúng biểu diễn dạng vector sau: 2:3 5:1 1:4 2:1 2:5 3:9 4:2 1:6 4:5 5:3 Giá trị thuộc tính tính tốn nhiều cách khác Cách đơn giản gán trọng số giá trị nhị phân từ mục có mặt hay khơng có mặt văn Phương pháp khác tính số lần xuất từ mục tài liệu gọi tần suất từ mục Trong thực nghiệm này, sử dụng độ đo TFIDF (xem 3.1.3) để tính giá trị thuộc tính Phân lớp văn coi khơng mang tính khách quan theo nghĩa dù người hay phân lớp tự động thực việc phân lớp xảy sai sót Tính đa nghĩa ngơn ngữ tự nhiên, phức tạp tốn phân lớp coi nguyên nhân điển hình sai sót phân lớp Hiệu phân lớp thường đánh giá qua so sánh định phân lớp với định người tiến hành tập kiểm thử văn gán nhãn lớp trước Trong thực nghiệm này, chúng tơi sử dụng độ xác để đánh giá lực phân lớp SVM Độ xác tính đơn giản số ví dụ phân lớp dự đoán tổng số ví dụ kiểm tra 49 TIEU LUAN MOI download : skknchat@gmail.com Quá trình tiền xử lý, đưa email ban đầu thành vector thuộc tính, tơi khai thác bổ sung mã nguồn học viên Nguyễn Thị Hương Thảo [2] Để thực phân lớp thư điện tử phương pháp SVM, khai thác mã nguồn thư viện LIBSVM phiên 2.84, đưa vào tháng 42007 địa http://www.csie.ntu.edu.tw/~cjlin/libsvm/ LIBSVM thư viện xây dựng cho phân lớp máy vector hỗ trợ hai tác giả Đài Loan Chih-Chung Chang Chih-Jen Lin[6] LIBSVM thực phân lớp đa lớp theo kiểu “một-đấu-một” (one-agains-one), tức với hai lớp huấn luyện phân lớp Và vậy, có tổng cộng k(k-1)/2 phân lớp, với k số lớp Để phân lớp tài liệu X chưa biết, thuật toán thực sau: Đối với hai lớp thứ i thứ j, X phân lớp phân lớp Cij huấn hai lớp Nếu X thuộc lớp i điểm số cho lớp i tăng lên 1, ngược lại X thuộc lớp j điểm số cho lớp j tăng lên X nằm lớp có điểm số cao Trong trường hợp có hai lớp có điểm số nhau, ta đơn giản chọn lớp có số thứ tự nhỏ Vì LIBSVM xử lý giá trị thuộc tính khoảng [-1,1] nên sau đưa tài liệu dạng vector với giá trị thuộc tính tần số TFIDF, chúng tơi sử dụng chương trình svm-scale LIBSVM hỗ trợ để đưa giá trị TFIDF theo tỉ lệ [-1,1] 4.3 Môi trƣờng thực nghiệm Thực nghiệm tiến hành cấu hình máy liệt kê Bảng Bảng 3: Cấu hình máy tính Thành phần Chỉ số CPU PIV, 2.00GHz RAM 256 MB OS Windows XP 50 TIEU LUAN MOI download : skknchat@gmail.com 4.4 Kết thực nghiệm đánh giá 4.4.1 Độ xác phân lớp thử nghiệm với tập kiểm tra Lựa chọn tham số cho mơ hình LIBSVM cho phép lựa chọn hàm nhân q trình học phân lớp Có hàm nhân tích hợp LIBSVM: Hàm tuyến tính, hàm đa thức, hàm xuyên tâm sở (radial basis function) hàm xích ma Để lựa chọn hàm nhân phù hợp, sử dụng kỹ thuật kiểm tra chéo tập liệu học; nghĩa chia tập liệu huấn luyện thành n phần nhau, phần kiểm tra phân lớp huấn luyện n-1 phần lại Trong thực nghiệm chọn n = 10 Dưới số hình ảnh trình thực nghiệm: 51 TIEU LUAN MOI download : skknchat@gmail.com Hình 12 Thực nghiệm với kiểu hàm nhân tuyến tính người dùng Becks Kết thu ứng với hàm nhân người dùng thống kê Bảng Bảng 4: Độ xác phân lớp ứng với hàm nhân Hàm tuyến tính Hàm đa thức Hàm xuyên tâm sở Hàm xích ma Beck-s 47.75% 9.43% 9.43% 9.43% Farmer-d 75.04% 32.58% 32.58% 32.58% Lokay-m 74.67% 46.62% 46.62% 46.62% Sanders-r 64.74% 36.70% 36.70% 36.70% William-w3 95.25% 50.93% 50.93% 50.93% Từ bảng kết này, chúng tơi nhận đồ thị biểu diễn độ xác phân lớp SVM áp dụng hàm nhân khác sau: 52 TIEU LUAN MOI download : skknchat@gmail.com 120.00% 100.00% Độ xác 80.00% Beck-s Farmer-d 60.00% Lokay-m Sanders-r William-w3 40.00% 20.00% 0.00% Hàm tuyến tính Hàm đa thức Hàm xuyên tâm sở Hàm xích ma Kiểu hàm nhân Hình 13 - Đồ thị biểu diễn độ xác phân lớp SVM áp dụng hàm nhân khác Từ biểu đồ ta thấy với người dùng, sử dụng hàm nhân tuyến tính cho độ xác cao so với hàm nhân cịn lại Do đó, chúng tơi lựa chọn hàm nhân tuyến tính cho thực nghiệm Với tỉ lệ phân chia tập liệu học/dữ liệu kiểm tra 2:1, thực nghiệm tập liệu kiểm tra, áp dụng hàm nhân tuyến tính Đầu tiên, sử dụng svm-train để huấn luyện liệu tập liệu huấn luyện train_scale.tr, tham số mơ hình ghi vào model Q trình biểu diễn hình dưới: 53 TIEU LUAN MOI download : skknchat@gmail.com Hình 14 Sử dụng svm-train để huấn luyện tập liệu huấn luyện train_scale.tr Sau huấn luyện, sử dụng svm-predict để kiểm tra tập test_scale.t, kết dự đoán ghi vào file output: Hình 15 Độ xác thử nghiệm tập kiểm tra người dùng Becks Hình 16 Độ xác thử nghiệm tập kiểm tra người dùng William-w3 54 TIEU LUAN MOI download : skknchat@gmail.com Kết thu sau thử nghiệm tập kiểm tra người dùng biểu diễn Bảng Bảng Độ xác phân lớp thử nghiệm tập kiểm tra Beck-s Farmer-d Sander-r Lokay-m William-w3 51.70% 75.56% 70.81% 78.67% 95.82% Từ kết này, ta có đồ thị biểu diễn độ xác phân lớp người dùng là: 120.00% 100.00% 95.82% Đ? xác 80.00% 78.67% 75.56% 70.81% 60.00% 40.00% 51.70% 20.00% 0.00% Beck-s Farmer-d Sander-r Lokay-m William-w3 Ngư?i dùng Hình 17 Đồ thị biểu diễn độ xác phân lớp SVM thử nghiệm với tập kiểm tra Từ biểu đồ ta thấy độ xác thu người dùng không cao Người dùng William-w3 đạt độ xác cao 95.82%, Beck-s đạt 51.70% Kết thu theo tơi tập liệu học chưa đủ lớn để huấn luyện mơ hình, số lớp lại nhiều Beck-s có 58 thư mục, tức ta phải gán email vào 58 lớp Trong đó, tổng số email huấn luyện 58 lớp 1.177 email, số email lớp lại không đồng nên kết thu tương đối thấp 55 TIEU LUAN MOI download : skknchat@gmail.com 4.4.2 Độ xác phân lớp tăng dần tập liệu học Từ kết thực nghiệm trên, tiến hành tăng dần tập liệu huấn luyện khảo sát độ xác phân lớp Chúng tơi phân chia tập liệu ban đầu thành tập liệu học liệu kiểm tra theo tỉ lệ 2:1, 3:1 4:1 Thống kê số lượng email tập liệu liệt kê bảng sau: Bảng 6: Thống kê tập liệu theo tỉ lệ phân chia liệu học/dữ liệu kiểm tra Tỉ lệ 2:1 Tỉ lệ 3:1 Tỉ lệ 4:1 Tập học Tập KTra Tập học Tập KTra Tập học Tập KTra Beck-s 1177 559 1326 410 1408 328 Farmer-d 2440 1211 2746 905 2930 721 Lokay-m 1658 825 1868 615 1990 493 Sanders-r 763 370 857 276 913 220 William-w3 1830 910 2060 680 2196 544 Áp dụng LIBSVM với lựa chọn hàm nhân tuyến tính, kết phân lớp người dùng Farmer-d ba trường hợp biểu diễn hình đây: Hình 18 Quá trình học sử dụng svm-train 56 TIEU LUAN MOI download : skknchat@gmail.com Hình 19 Kết thực nghiệm tỉ lệ liệu 2:1 người dùng Farmer Hình 20 Kết thực nghiệm tỉ lệ liệu 3:1 người dùng Farmer Hình 21 Kết thực nghiệm tỉ lệ liệu 4:1 người dùng Farmer Sau thực nghiệm độ xác với tỉ lệ khác người dùng, kết liệt kê Bảng Bảng 7: Độ xác phân lớp ứng với tỉ lệ phân chia liệu Tỉ lệ Beck-s Farmer-d Sander-r Lokay-m William-w3 2:1 51.70% 75.56% 70.81% 78.67% 95.82% 3:1 55.85% 76.35% 69.57% 77.89% 97.06% 4:1 56.71% 78.79% 72.27% 79.31% 97.53% Từ bảng kết quả, ta biểu diễn đồ thị độ xác phân lớp theo tỉ lệ phân chia liệu hình vẽ 57 TIEU LUAN MOI download : skknchat@gmail.com 120.00% Độ xác 100.00% 80.00% 2:1 60.00% 3:1 4:1 40.00% 20.00% 0.00% Beck-s Farmer-d Sander-r Lokay-m William-w3 Người dùng Hình 22 Đồ thị biểu diễn độ xác phân lớp SVM với tỉ lệ liệu Học/Kiểm tra tăng dần Từ bảng kết đồ thị ta thấy rằng, tăng tập ví dụ học kết phân lớp tăng lên Mặc dù kết tăng lên không nhiều chứng tỏ rằng, liệu huấn luyện đủ lớn kết thu khả quan 58 TIEU LUAN MOI download : skknchat@gmail.com KẾT LUẬN Qua trình tìm hiểu, khảo sát nội dung nghiên cứu toán phân lớp thư điện tử, luận văn thu số kết sau: - Trình bày khái quát khai phá liệu (kỹ thuật, tiếp cận, phân loại) khai phá liệu web - Trình bày có phân tích sơ số thuật tốn phân lớp văn điển phân lớp Bayes, phân lớp định Tập trung nghiên cứu, khảo sát phương pháp máy hỗ trợ vector để ứng dụng toán phân lớp thư điện tử - Từ phần mềm mã nguồn mở, tích hợp thành phân lớp thư điện tử áp dụng liệu công bố Đã tiến hành thực nghiệm đánh giá hệ thống phân lớp với kết khả thi Do hạn chế lực khó khăn thời gian nghiên cứu, luận văn mức độ nghiên cứu, khảo sát, phân tích trình bày cách có hệ thống tốn liên quan mà chưa có đề xuất nghiên cứu thực nghiệm công phu Đây hạn chế luận văn Trong thời gian tới, tiếp tục triển khai thực nghiệm để đưa kết tập liệu thư điện tử tiếng Việt 59 TIEU LUAN MOI download : skknchat@gmail.com TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đoàn Sơn (2002), Một số giải pháp cho tốn tìm kiếm sở liệu Hypertext Luận văn thạc sỹ Công nghệ thông tin 2002 Khoa Công Nghệ - Đại Học Quốc Gia Hà Nội [2] Nguyễn Thị Thùy Linh, Nguyễn Thu Trang, Nguyễn Thị Hương Thảo, Hà Quang Thụy (2007), Một giải pháp học bán giám sát SVM phân lớp trang web tiếng Việt Báo cáo Hội thảo FAIR'07, Nha Trang, 8-2007 [3] Phan Xuân Hiếu (2003), Khai phá song song luật kết hợp mờ Luận văn thạc sỹ Công nghệ thông tin 2003 - Khoa Công Nghệ - Đại Học Quốc Gia Hà Nội [4] Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thùy Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh (2007) Nghiên cứu, phân tích đánh giá thuật toán lọc văn theo nội dung Báo cáo chuyên đề Đề tài cấp Nhà nước KC.01.02/06-10, 10-2007 Tiếng Anh [5] Alan Rea (1996) Data Mining – An Introduction http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHPfinal_1.html [6] C.C Chang and C.J Lin (2007) LIBSVM: a library for support vector machines http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [7] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003, ISBN: 0-470-84906-1 [8] Enron dataset: http://www.cs.cmu.edu/~enron/ 57 TIEU LUAN MOI download : skknchat@gmail.com [9] Greg Kochanski (2005), Markov Models, Hidden and Otherwise http://www.kochanski.org/gpk 2005/02/28 [10] Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques University of Illinois, Morgan Kaufmann Publishers 2001 [11] J.D.Brutlag, C.Meek (2000) Challenges of the Email Domain for Text Classification ICML 2000 : 103-110 [12] Manoel Mendonca (2000), Mining Software Engineering Data: A Survey University of Maryland, Department of Computer Science, A V Williams Building #3225 College Park, MD 20742 2000 [13] Nancy R Zhang (2001), Hidden Markov Models for Information Extraction June, 2001 [14] P.S.Keila, D.B.Skillicorn (2005) Structure in the enron email dataset Proceeding of SIAM international conference on data mining, 2005 [15] R Agrawal, M Mehta, J Shafer, R Srikant, A Arning, T Bollinger (1996) The Quest Data Mining System Proceedings of 1996 International Conference on Data Mining and Knowledge Discovery (KDD’96), Portland, Oregon, August 1996 [16] Ron Bekkerman, Andrew McCallum, Gary Huang (2004) Automatic Categorization of Email into Folders : Benchmark Experiments on enron and SRI corpora Technical report IR-418 2004 [17] Soumen Chakrabaki (2003), Mining the Web: Discovering Knowledge from Hypertext Data Morgan Kaufmann Publishers, 2003 [18] Steve Martin, Anil Sewani, Blaine Nelson, Karl Chen, Anthony D.Joseph (2005) Analyzing behaviorial features for email classification Second conference on email and antispam (CEAS 2005) 58 TIEU LUAN MOI download : skknchat@gmail.com [19] Svetlana Kiritchenko, Stan Matwin (2001) Email classification with cotraining Proceedings of the 2001 conference of the centre of advanced studies on collaborative research [20] U M Fayyad, G Piatetsky-Shapio, P Smyth, and R Uthurusamy (eds.) (1996), Advances in Knowledge Discovery and Data Mining AAAI/MIT Press, 1996 [21] Sen Slattery (2002) Hypertext Classification Doctoral dissertation (CMU-CS-02-142) School of Computer Science Carnegie Mellon University, 2002 [22] Y Yang and J.O Pedersen (1997), A Comparative Study on Feature Selection in Text Categorization Proceeding of the 14th International Conference on Machine Learning (ICML’97) [23] http://en.wikipedia.org/wiki/ 59 TIEU LUAN MOI download : skknchat@gmail.com ... phân lớp nhị phân, tức có hai lớp Spam/NonSpam Phân lớp lớp thư điện tử vào lớp chủ đề khác toán tự động phân lớp thư điện tử người dùng vào thư mục khác người dùng tạo Có thể coi toán phân lớp. .. đa lớp, với số lớp số thư mục mà người dùng tạo Trong luận văn tiến hành ứng dụng thuật toán máy vector hỗ trợ toán phân lớp thư điện tử 4.2 Dữ liệu chƣơng trình Hệ thống phân lớp thư điện tử. .. lớp văn áp dụng rộng rãi vào toán lọc thư rác Một số vấn đề khác liên quan đến thư điện tử lọc luồng thư điện tử, tự động tạo thư mục nghiên cứu giải Hiện nay, toán phân lớp thư điện tử vào thư

Ngày đăng: 27/06/2022, 09:12

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Đoàn Sơn (2002), Một số giải pháp cho bài toán tìm kiếm trong cơ sở dữ liệu Hypertext. Luận văn thạc sỹ Công nghệ thông tin 2002 Khoa Công Nghệ - Đại Học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Một số giải pháp cho bài toán tìm kiếm trong cơ sở dữ liệu Hypertext
Tác giả: Đoàn Sơn
Năm: 2002
[2]. Nguyễn Thị Thùy Linh, Nguyễn Thu Trang, Nguyễn Thị Hương Thảo, Hà Quang Thụy (2007), Một giải pháp học bán giám sát SVM phân lớp trang web tiếng Việt. Báo cáo tại Hội thảo FAIR'07, Nha Trang, 8-2007 Sách, tạp chí
Tiêu đề: Một giải pháp học bán giám sát SVM phân lớp trang web tiếng Việt
Tác giả: Nguyễn Thị Thùy Linh, Nguyễn Thu Trang, Nguyễn Thị Hương Thảo, Hà Quang Thụy
Năm: 2007
[3]. Phan Xuân Hiếu (2003), Khai phá song song luật kết hợp mờ. Luận văn thạc sỹ Công nghệ thông tin 2003 - Khoa Công Nghệ - Đại Học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Khai phá song song luật kết hợp mờ
Tác giả: Phan Xuân Hiếu
Năm: 2003
[4]. Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thùy Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh (2007). Nghiên cứu, phân tích và đánh giá các thuật toán lọc văn bản theo nội dung. Báo cáo chuyên đề Đề tài cấp Nhà nước KC.01.02/06-10, 10-2007.Tiếng Anh Sách, tạp chí
Tiêu đề: Nghiên cứu, phân tích và đánh giá các thuật toán lọc văn bản theo nội dung
Tác giả: Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn Thu Trang, Nguyễn Thị Thùy Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh
Năm: 2007
[5]. Alan Rea (1996). Data Mining – An Introduction. http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_1.html Sách, tạp chí
Tiêu đề: Data Mining – An Introduction
Tác giả: Alan Rea
Năm: 1996
[7]. Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003). Modeling the Internet and the Web: Probabilistic Methods and Algorithms. Wiley, 2003, ISBN: 0-470-84906-1 Sách, tạp chí
Tiêu đề: Modeling the Internet and the Web: Probabilistic Methods and Algorithms
Tác giả: Pierre Baldi, Paolo Frasconi, Padhraic Smyth
Năm: 2003
[9]. Greg Kochanski (2005), Markov Models, Hidden and Otherwise. http://www.kochanski.org/gpk 2005/02/28 Sách, tạp chí
Tiêu đề: Markov Models, Hidden and Otherwise
Tác giả: Greg Kochanski
Năm: 2005
[10]. Jiawei Han and Micheline Kamber (2001), Data Mining: Concepts and Techniques. University of Illinois, Morgan Kaufmann Publishers 2001 Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
Tác giả: Jiawei Han and Micheline Kamber
Năm: 2001
[11]. J.D.Brutlag, C.Meek (2000). Challenges of the Email Domain for Text Classification ICML 2000 : 103-110 Sách, tạp chí
Tiêu đề: Challenges of the Email Domain for Text Classification
Tác giả: J.D.Brutlag, C.Meek
Năm: 2000
[12]. Manoel Mendonca (2000), Mining Software Engineering Data: A Survey. University of Maryland, Department of Computer Science, A. V.Williams Building #3225 College Park, MD 20742. 2000 Sách, tạp chí
Tiêu đề: Mining Software Engineering Data: A Survey
Tác giả: Manoel Mendonca
Năm: 2000
[13]. Nancy R. Zhang (2001), Hidden Markov Models for Information Extraction. June, 2001 Sách, tạp chí
Tiêu đề: Hidden Markov Models for Information Extraction
Tác giả: Nancy R. Zhang
Năm: 2001
[14] P.S.Keila, D.B.Skillicorn (2005). Structure in the enron email dataset Proceeding of SIAM international conference on data mining, 2005 Sách, tạp chí
Tiêu đề: Structure in the enron email dataset
Tác giả: P.S.Keila, D.B.Skillicorn
Năm: 2005
[15]. R. Agrawal, M. Mehta, J. Shafer, R. Srikant, A. Arning, T. Bollinger (1996). The Quest Data Mining System. Proceedings of 1996 International Conference on Data Mining and Knowledge Discovery (KDD’96), Portland, Oregon, August 1996 Sách, tạp chí
Tiêu đề: The Quest Data Mining System
Tác giả: R. Agrawal, M. Mehta, J. Shafer, R. Srikant, A. Arning, T. Bollinger
Năm: 1996
[16]. Ron Bekkerman, Andrew McCallum, Gary Huang (2004). Automatic Categorization of Email into Folders : Benchmark Experiments on enron and SRI corpora Technical report IR-418 2004 Sách, tạp chí
Tiêu đề: Automatic Categorization of Email into Folders : Benchmark Experiments on enron and SRI corpora
Tác giả: Ron Bekkerman, Andrew McCallum, Gary Huang
Năm: 2004
[17]. Soumen Chakrabaki (2003), Mining the Web: Discovering Knowledge from Hypertext Data. Morgan Kaufmann Publishers, 2003 Sách, tạp chí
Tiêu đề: Mining the Web: Discovering Knowledge from Hypertext Data
Tác giả: Soumen Chakrabaki
Năm: 2003
[18] Steve Martin, Anil Sewani, Blaine Nelson, Karl Chen, Anthony D.Joseph (2005). Analyzing behaviorial features for email classification Second conference on email and antispam (CEAS 2005) Sách, tạp chí
Tiêu đề: Analyzing behaviorial features for email classification
Tác giả: Steve Martin, Anil Sewani, Blaine Nelson, Karl Chen, Anthony D.Joseph
Năm: 2005
[19] Svetlana Kiritchenko, Stan Matwin (2001). Email classification with co- training Proceedings of the 2001 conference of the centre of advanced studies on collaborative research Sách, tạp chí
Tiêu đề: Email classification with co-training
Tác giả: Svetlana Kiritchenko, Stan Matwin
Năm: 2001
[20]. U. M. Fayyad, G. Piatetsky-Shapio, P. Smyth, and R. Uthurusamy (eds.) (1996), Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996 Sách, tạp chí
Tiêu đề: Advances in Knowledge Discovery and Data Mining
Tác giả: U. M. Fayyad, G. Piatetsky-Shapio, P. Smyth, and R. Uthurusamy (eds.)
Năm: 1996
[21]. Sen Slattery (2002). Hypertext Classification. Doctoral dissertation (CMU-CS-02-142). School of Computer Science. Carnegie Mellon University, 2002 Sách, tạp chí
Tiêu đề: Hypertext Classification
Tác giả: Sen Slattery
Năm: 2002
[6]. C.C. Chang and C.J. Lin (2007). LIBSVM: a library for support vector machines. http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Link

HÌNH ẢNH LIÊN QUAN

Hình 1- Lượng dữ liệu được tích lũy tăng mạnh theo thời gian - Output file
Hình 1 Lượng dữ liệu được tích lũy tăng mạnh theo thời gian (Trang 10)
Hình 2- Các bước trong quá trình khám phá tri thức (KDD) - Output file
Hình 2 Các bước trong quá trình khám phá tri thức (KDD) (Trang 13)
Hình 3. Các nội dung trong khai phá Web - Output file
Hình 3. Các nội dung trong khai phá Web (Trang 23)
Thông thường các mô hình học được biểu diễn dưới dạng các quy tắc phân lớp, các cây quyết định hay các công thức toán học - Output file
h ông thường các mô hình học được biểu diễn dưới dạng các quy tắc phân lớp, các cây quyết định hay các công thức toán học (Trang 25)
Trong bước thứ hai (Hình 6), một mô hình được sử dụng cho việc phân lớp. Đầu tiên, sự chính xác dự đoán của mô hình được đánh giá bằng việc sử  dụng một tập các dữ liệu kiểm thử (test)  - Output file
rong bước thứ hai (Hình 6), một mô hình được sử dụng cho việc phân lớp. Đầu tiên, sự chính xác dự đoán của mô hình được đánh giá bằng việc sử dụng một tập các dữ liệu kiểm thử (test) (Trang 26)
Nhược điểm của mô hình này là cần giả thiết các thuộc tính được sử dụng  để  phân  lớp  là  độc  lập  với  nhau - Output file
h ược điểm của mô hình này là cần giả thiết các thuộc tính được sử dụng để phân lớp là độc lập với nhau (Trang 29)
3.1.2 Mô hình Boolean - Output file
3.1.2 Mô hình Boolean (Trang 39)
3.1.3 Mô hình tần số - Output file
3.1.3 Mô hình tần số (Trang 40)
Giai đoạn học của mô hình này bao gồm việc ước lượng các tham số - Output file
iai đoạn học của mô hình này bao gồm việc ước lượng các tham số (Trang 42)
Trong hình 7, giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều tuân theo luật phân bố chuẩn  Gaussian  với cùng một ma trận tương quan,  và được tạo ra với cùng một xác suất - Output file
rong hình 7, giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều tuân theo luật phân bố chuẩn Gaussian với cùng một ma trận tương quan, và được tạo ra với cùng một xác suất (Trang 43)
Hình 8. Biên giới của siêu phẳng phân cách - Output file
Hình 8. Biên giới của siêu phẳng phân cách (Trang 44)
Hình 9. Mô phỏng một điểm dữ liệu nhiễu - Output file
Hình 9. Mô phỏng một điểm dữ liệu nhiễu (Trang 46)
Hình 10. Minh họa cho trường hợp tập dữ liệu không thể phân tách tuyến tính được  - Output file
Hình 10. Minh họa cho trường hợp tập dữ liệu không thể phân tách tuyến tính được (Trang 47)
Hình 11- Một minh họa khác bằng ảnh khi ánh xạ sang không gian mới ta có thể phân tách tuyến tính tập dữ liệu  - Output file
Hình 11 Một minh họa khác bằng ảnh khi ánh xạ sang không gian mới ta có thể phân tách tuyến tính tập dữ liệu (Trang 48)
Bảng 1: Thống kê tập dữ liệu sử dụng - Output file
Bảng 1 Thống kê tập dữ liệu sử dụng (Trang 53)
Từ bảng thống kê trên có thể thấy rằng tập dữ liệu này được phân phối không  đều  nhau - Output file
b ảng thống kê trên có thể thấy rằng tập dữ liệu này được phân phối không đều nhau (Trang 53)
Thực nghiệm được tiến hành trên cấu hình máy liệt kê ở Bảng 3.   Bảng 3: Cấu hình máy tính  - Output file
h ực nghiệm được tiến hành trên cấu hình máy liệt kê ở Bảng 3. Bảng 3: Cấu hình máy tính (Trang 57)
Lựa chọn tham số cho mô hình. - Output file
a chọn tham số cho mô hình (Trang 58)
4.4. Kết quả thực nghiệm và đánh giá - Output file
4.4. Kết quả thực nghiệm và đánh giá (Trang 58)
Hình 12. Thực nghiệm với kiểu hàm nhân tuyến tính đối với người dùng Becks - Output file
Hình 12. Thực nghiệm với kiểu hàm nhân tuyến tính đối với người dùng Becks (Trang 59)
Bảng 4: Độ chính xác của bộ phân lớp ứng với từng hàm nhân - Output file
Bảng 4 Độ chính xác của bộ phân lớp ứng với từng hàm nhân (Trang 59)
Hình 1 3- Đồ thị biểu diễn độ chính xác của bộ phân lớp SVM khi áp dụng các hàm nhân khác nhau  - Output file
Hình 1 3- Đồ thị biểu diễn độ chính xác của bộ phân lớp SVM khi áp dụng các hàm nhân khác nhau (Trang 60)
Hình 14. Sử dụng svm-train để huấn luyện trên tập  dữ liệu huấn luyện train_scale.tr  - Output file
Hình 14. Sử dụng svm-train để huấn luyện trên tập dữ liệu huấn luyện train_scale.tr (Trang 61)
Bảng 5. Độ chính xác của bộ phân lớp khi thử nghiệm trên tập kiểm tra - Output file
Bảng 5. Độ chính xác của bộ phân lớp khi thử nghiệm trên tập kiểm tra (Trang 62)
4.4.2. Độ chính xác của bộ phân lớp khi tăng dần tập dữ liệu học - Output file
4.4.2. Độ chính xác của bộ phân lớp khi tăng dần tập dữ liệu học (Trang 63)
Bảng 6: Thống kê tập dữ liệu theo tỉ lệ phân chia dữ liệu học/dữ liệu kiểm tra - Output file
Bảng 6 Thống kê tập dữ liệu theo tỉ lệ phân chia dữ liệu học/dữ liệu kiểm tra (Trang 63)
Hình 19. Kết quả thực nghiệm khi tỉ lệ dữ liệu là 2:1 của người dùng Farmer - Output file
Hình 19. Kết quả thực nghiệm khi tỉ lệ dữ liệu là 2:1 của người dùng Farmer (Trang 64)
Hình 20. Kết quả thực nghiệm khi tỉ lệ dữ liệu là 3:1 của người dùng Farmer - Output file
Hình 20. Kết quả thực nghiệm khi tỉ lệ dữ liệu là 3:1 của người dùng Farmer (Trang 64)
Từ bảng kết quả và đồ thị ta thấy rằng, khi tăng tập ví dụ học thì kết quả bộ phân lớp tăng lên - Output file
b ảng kết quả và đồ thị ta thấy rằng, khi tăng tập ví dụ học thì kết quả bộ phân lớp tăng lên (Trang 65)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN