(LUẬN VĂN THẠC SĨ) Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest

75 3 0
(LUẬN VĂN THẠC SĨ) Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CƯƠNG NGHIÊN CỨU, XÂY DỰNG PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN GIẢI THUẬT PHÂN LỚP RANDOM FOREST LUẬN VĂN THẠC SĨ Hà Nội - 2010 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN CƯƠNG NGHIÊN CỨU, XÂY DỰNG PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN GIẢI THUẬT PHÂN LỚP RANDOM FOREST Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Hà Nam Hà Nội - 2010 TIEU LUAN MOI download : skknchat@gmail.com Mục lục LỜI MỞ ĐẦU Error! Bookmark not defined Tóm tắt luận văn Mục lục Danh mục từ viết tắt Danh mục biểu Danh mục bảng Chương 1: Tổng quan 10 1.1 Phát tri thức khai phá liệu 10 1.2 Chọn lựa thuộc tính (CLTT) vai trị CLTT KDD 13 1.3 Chọn lựa thuộc tính tốn phân lớp 15 Chương 2: Trích chọn thuộc tính 17 2.1 Chiến lược tìm kiếm 17 2.1.1 Hướng tìm kiếm 18 2.1.2 Các chiến lược tìm kiếm 19 2.2 Tiêu chuẩn chọn lựa 20 2.2.1 Đo lường thông tin 21 2.2.2 Đo lường khoảng cách 21 2.2.3 Đo lường phụ thuộc 22 2.2.4 Đo lường độ đồng 22 2.2.4 Đo lường xác 23 2.3 Mơ hình Filter Wrapper 23 2.3.1 Mơ hình Wrapper 24 2.3.2 Mơ hình Filter 25 Chương 3: Một số giải thuật trích chọn thuộc tính 27 3.1 Tìm kiếm tồn 28 3.1.1 Phương pháp Focus 28 Trang TIEU LUAN MOI download : skknchat@gmail.com 3.1.2 Phương pháp ABB 28 3.2 Tìm kiếm theo kinh nghiệm 30 3.3 Tìm kiếm xác suất 32 3.3.1 Phương pháp LVF 32 3.3.2 Phương pháp LVW 33 3.4 Phương pháp trọng số thuộc tính 35 3.5 Phương pháp lai 36 3.6 Phương pháp lớn dần 37 Chương 4: Giải thuật random forest 40 4.1 Bootstrap Bagging 40 4.1 Bootstrap 40 4.1 Bagging 41 4.2 Random Forest 42 4.3 Một số điểm cần ý giải thuật Random Forest 44 4.3.1 OOB 44 4.3.2 Thuộc tính quan trọng 45 Chương 5: Phương pháp học máy đề xuất 48 5.1 Một số kỹ thuật sử dụng phương pháp đề xuất 48 5.1.1 Kiểm chứng chéo (cross-validation) 48 5.1.2 Lý thuyết Bayes 49 5.1.3 Phân lớp Native Bayes 50 5.2 Sơ đồ khối mơ hình phương pháp học máy đề xuất 51 5.3 Mô tả phương pháp học máy đề xuất 52 Chương 6: Kết thực nghiệm 58 6.1 Dữ liệu Madelon 58 6.1.1 Mô tả liệu Madelon 58 6.1.2 Kết thực nghiệm với liệu Madelon 58 6.1.3 Nhận xét 63 Trang TIEU LUAN MOI download : skknchat@gmail.com 6.2 Bộ liệu Colon Turmo 64 6.2.1 Mô tả liệu Colon Turmo 64 6.2.2 Kết thực nghiệm với liệu Colon Turmo 64 6.2.3 Nhận xét 68 KẾT LUẬN 70 DANH MỤC TÀI LIỆU THAM KHẢO 72 Tài liệu Tiếng Việt 72 Tài liệu Tiếng Anh 72 Trang TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Danh mục từ viết tắt TỪ VIẾT TẮT Phát tri thức khai phá dữ liệu KDD Random Forest RF Khai phá liệu DM Out – Of – Bag OOB Sequential forward generation SFG Sequential backward generation SBG Birectional generation BG Random generation RG Dynamic Feature Elimination baase on Random Forest DFE-RF (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Danh mục biểu Hình 1: Mơ hình chu trình phát tri thức khai phá liệu 12 Hình 2: Sự phát triển khai phá liệu năm gần 13 Hình 1: Ba thành phần chọn lựa thuộc tính: Chiến lược tìm kiếm, Đánh giá, Chọn lựa mơ hình 17 Hình 2: Mối quan hệ kiểu đo lường 23 Hình 3: Mơ hình chọn lựa thuộc tính Wrapper 25 Hình 4: Mơ hình chọn lựa thuộc tính Filter 26 Hình 1: Kết hợp chiến lược tìm kiếm hướng tìm kiếm chọn lựa thuộc tính 28 Hình 1: Random Forest 40 Hình 2: Ví dụ sử dụng phương pháp bootstrap 41 Hình 3: Các bước random forest 44 Hình 4: Sử dụng OBB ước lượng lỗi 45 Hình 1: Mơ hình phương pháp học máy đề xuất 51 Hình 2: Sơ đồ khối phương pháp học máy đề xuất 52 Hình 1: So sánh kết thực nghiệm RF RF_CT liệu học (trái) liệu kiểm chứng ( phải) qua 50lần chạy thử với số RF=100 59 Hình 2: So sánh kết thực nghiệm RF RF_CT liệu học (trái) liệu kiểm chứng ( phải) qua 50lần chạy thử với số RF=150 60 Hình 3: So sánh kết thực nghiệm RF RF_CT liệu học (trái) liệu kiểm chứng ( phải) qua 50lần chạy thử với số RF=200 61 Hình 4: So sánh kết thực nghiệm RF RF_CT liệu học (trái) liệu kiểm chứng ( phải) qua 50 lần chạy thử với số RF=250 62 Hình 5: So sánh kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=800 65 Hình 6: So sánh kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1100 66 (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Hình 7: So sánh kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1400 67 Hình 8: So sánh kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1700 68 (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Danh mục bảng Bảng 1: Mô tả liệu Madelon 58 Bảng 2: Kết thực nghiệm RF RF_CT liệu học liệu kiêm chứng qua 50lần chạy thử với số RF=100 59 Bảng 3: Mức tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Madelon qua 50 lần chạy thử với số RF=100 59 Bảng 4: Kết thực nghiệm RF RF_CT liệu học liệu kiêm chứng qua 50lần chạy thử với số RF=150 60 Bảng 5: Mức tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Madelon qua 50 lần chạy thử với số RF=150 60 Bảng 6: Kết thực nghiệm RF RF_CT liệu học liệu kiêm chứng qua 50lần chạy thử với số RF=200 61 Bảng 7: Mức tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Madelon qua 50 lần chạy thử với số RF=200 61 Bảng 8: Kết thực nghiệm RF RF_CT liệu học liệu kiêm chứng qua 50lần chạy thử với số RF=250 62 Bảng 9: Mức tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Madelon qua 50 lần chạy thử với số RF=250 62 Bảng 10: So sánh số kết dự đoán sử dụng số liệu Colon Turmo 63 Bảng 11: Kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=800 64 Bảng 12: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thử với số RF=800 65 Bảng 13: Kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1100 65 Bảng 14: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thử với số RF=1100 66 Bảng 15: Kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1400 66 (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Bảng 16: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thử với số RF=1400 67 Bảng 17: Kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1700 67 Bảng 18: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thử với số RF=1700 68 Bảng 19: So sánh số kết dự đoán sử dụng số liệu Colon Turmo 69 (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest  Số RF=150 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn RF_Training 0.68614 0.011303 0.663 0.709 RF_Validate 0.722567 0.012933 0.696667 0.758333 RF_CT_Training 0.85831 0.004418 0.8495 0.8675 RF_CT_Validate 0.874733 0.00501 0.863333 0.883333 Bảng 4: Kết thực nghiệm RF RF_CT liệu học liệu kiêm chứng qua 50lần chạy thử với số RF=150 Hình 2: So sánh kết thực nghiệm RF RF_CT liệu học (trái) liệu kiểm chứng ( phải) qua 50lần chạy thử với số RF=150 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn Thời gian (phút) 0.70 0.30 0.53 2.44 Bảng 5: Mức tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Madelon qua 50 lần chạy thử với số RF=150 Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 60 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest  Số RF=200 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn RF_Training 0.693 0.008517 0.676 0.7135 RF_Validate 0.724967 0.013229 0.686667 0.748333 RF_CT_Training 0.86082 0.004473 0.8465 0.8685 RF_CT_Validate 0.877 0.006154 0.861667 0.89 Bảng 6: Kết thực nghiệm RF RF_CT liệu học liệu kiêm chứng qua 50lần chạy thử với số RF=200 Hình 3: So sánh kết thực nghiệm RF RF_CT liệu học (trái) liệu kiểm chứng ( phải) qua 50lần chạy thử với số RF=200 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn Thời gian (phút) 6.595563 0.867319 6.162167 10.52317 Bảng 7: Mức tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Madelon qua 50 lần chạy thử với số RF=200 Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 61 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest  Số RF=250 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn RF_Training 0.69666 0.008241 0.6775 0.713 RF_Validate 0.731067 0.012785 0.703333 0.758333 RF_CT_Training 0.86286 0.00361 0.8535 0.87 RF_CT_Validate 0.875533 0.006084 0.86 0.888333 Bảng 8: Kết thực nghiệm RF RF_CT liệu học liệu kiêm chứng qua 50lần chạy thử với số RF=250 Hình 4: So sánh kết thực nghiệm RF RF_CT liệu học (trái) liệu kiểm chứng ( phải) qua 50 lần chạy thử với số RF=250 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn Thời gian (phút) 1.20 0.93 0.80 6.19 Bảng 9: Mức tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Madelon qua 50 lần chạy thử với số RF=250 Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 62 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest 6.1.3 Nhận xét Từ kết thực nghiệm liệu Madelone có nhận xét phương pháp học máy đề xuất cho kết tương đối ấn tượng Phương pháp cho kết tỷ lệ dự đốn xác cao hẳn so với phương pháp RF ban đầu, liệu học liệu kiểm chứng Đối với liệu Madelon trên, trung bình sau 50 lần thử nghiệm tỷ lệ dự đốn xác trung bình phương pháp RF_CT cao độ xác RF sấp sỉ khoảng 13% (trên liệu học liệu kiểm chứng) Với số lượng RF đủ lớn phương pháp thể tính ổn định tốt RF, độ lệch chuẩn giảm sấp sỉ 3% so với RF điều có nghĩa biên độ dao động phương pháp đề xuất nhỏ RF có nghĩa tính ổn định phương pháp tốt RF So sánh kết dự đoán RF_CT với số phương pháp phân lớp khác cho kết tốt Dưới đây, bảng 6.10, thể so sánh kết dự đoán CT_RF so với số phương pháp khác [16] Phương pháp Tỷ lệ dự đốn xác Độ lệch chuẩn Nạve Bayes 58,3 1,5 C45 69,8 4,7 GOV 71,2 2,9 DOG 71,4 2,6 RF_CT 87,70 0,6 Bảng 10: So sánh số kết dự đoán sử dụng số liệu Madelone Về chi phí thời gian RF_CT so với RF thực nghiệm liệu Madelone Ta thấy chi phí thời gian khơng phải vấn đề đáng lưu tâm trường hợp này, thực nghiệm trường hợp xấu gặp phải, ta phải trả thêm khoảng 10,5 phút (trường hợp NT=200) Trung bình thời gian phải trả thêm thực RF_CT so với RF thực nghiệm trên, trường hợp xấu nhập gặp phải nhiều khoảng 6,6 phút Theo tôi, kết tương đối khả quan Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 63 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest 6.2 Bộ liệu Colon Turmo 6.2.1 Mô tả liệu Colon Turmo Colon Turmo liệu sử dụng tương đối phổ biến thực nghiệm liên quan đến trích chọn thuộc tính Bộ liệu gồm 2000 genes chọn lựa từ 6500 genes, thu thập từ 62 bệnh nhân ung thư (2000 x 62) Trong số 62 mẫu liệu Colon Turmo có 40 mẫu lấy từ khối u bệnh nhân ung thư, 22 mẫu lấy từ phần “khỏe mạnh” khác bệnh nhân Giá trị thuộc tính (genes) liệu thể dạng số thực Tương tự liệu Madelon, liệu Colon Turmo chia thành hai tập: (1) tập huấn luyện (2) tập kiểm chứng, sau áp dụng phương pháp học máy tập liệu học, sau kiểm chứng hiệu phương pháp học máy đề xuất tập liệu kiểm chứng 6.2.2 Kết thực nghiệm với liệu Colon Turmo Cách thực liệu Colon Turmo tương tự liệu Madelon Dưới đây, trình bày kết thực nghiệm liệu Colon Turmo qua 20 lần chạy thử, với tham số số (number of trees) giải thuật RF 800, 1100, 1400 1700  Số RF=800 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn RF_Training 0,75625 0,086982 0,59375 0,9375 RF_Validate 0,761667 0,070317 0,566667 0,9 RF_CT_Training 0,84375 0,04967 0,71875 0,90625 RF_CT_Validate 0,871667 0,05437 0,766667 0,966667 Bảng 11: Kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=800 Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 64 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Hình 5: So sánh kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=800 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn Thời gian (phút) 125.55 53.10 81.41 298.85 Bảng 12: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thử với số RF=800  Số RF=1100 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn RF_Training 0.726563 0.09771 0.59375 0.90625 RF_Validate 0.786667 0.057634 0.633333 0.866667 RF_CT_Training 0.842188 0.068371 0.75 0.96875 RF_CT_Validate 0.871667 0.049883 0.766667 0.933333 Bảng 13: Kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1100 Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 65 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Hình 6: So sánh kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1100 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn Thời gian (phút) 129.49 61.23 74.53 296.51 Bảng 14: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thử với số RF=1100  Số RF=1400 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn RF_Training 0.746875 0.096665 0.625 0.9375 RF_Validate 0.763333 0.082999 0.566667 0.866667 RF_CT_Training 0.84375 0.057354 0.75 0.96875 RF_CT_Validate 0.868333 0.045209 0.8 0.933333 Bảng 15: Kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1400 Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 66 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Hình 7: So sánh kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1400 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn Thời gian (phút) 203.63 447.20 76.93 2099.83 Bảng 16: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thử với số RF=1400  Số RF=1700 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn RF_Training 0.746875 0.072335 0.59375 0.875 RF_Validate 0.781667 0.067082 0.666667 0.933333 RF_CT_Training 0.85625 0.038474 0.78125 0.9375 RF_CT_Validate 0.881667 0.038198 0.8 0.933333 Bảng 17: Kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1700 Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 67 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Hình 8: So sánh kết thực nghiệm RF RF_CT liệu Colon Turmo qua 20 lần chạy thử với số RF=1700 Trung bình Độ lệch chuẩn Giá trị nhỏ Giá trị lớn Thời gian (phút) 123.76 103.83 76.40 553.43 Bảng 18: Độ tiêu tốn thời gian nhiều để thực thuật toán RF_CT so với RF liệu Colon Turmo qua 20 lần chạy thử với số RF=1700 6.2.3 Nhận xét Kết thực nghiệm phương pháp học máy đề xuất thể liệu Colon Turmo cho kết tốt so với phương pháp RF ngun Độ xác trung bình dự đốn phương pháp học máy đề xuất cao độ xác trung bình dự đốn RF khoảng 10%, tính ổn định phương pháp RF_CT tốt hẳn RF ban đầu (độ lệch chuẩn RF_CT nhỏ độ lệch chuẩn RF) So sánh kết dự đoán phương pháp đề xuất với phương pháp ban đầu, số phương pháp phân lớp khác liệu Colon Turmo, cho thấy phương pháp đề xuất cho kết tương đối tốt Bảng 6.19 kết dự đoán số phương pháp phân lớp liệu Colon Turmo [13]: Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 68 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Phương pháp GA\SMV Tỷ lệ dự đốn xác Độ lệch chuẩn 84,7 Bootstrapped GA\SVM 9,1 80 Combined Kernel for SVM 75,33 7,0 DFE-RF 85,5 4,5 RF_CT 88,17 3,82 Bảng 19: So sánh số kết dự đoán sử dụng số liệu Colon Turmo Ta nhận thấy rằng, mức độ tiêu tốn thời gian RF_CT so với RF lớn nhiều Tuy nhiên, cần phải lý giải thêm thời gian thực thuật toán phụ thuộc nhiều vào phần cứng máy tính, việc xác lập tham số phù hợp giải thuật Trong trường hợp luận văn, liệu xử lý máy Laptop với xử lý Intel Core2 2.0 Ghz, RAM 2GB Tuy nhiên, máy không thường xuyên sử dụng 100% hiệu suất cho việc giải tốn nói mà đơi phải xử lý đồng thời với số nhiệm vụ khác Chương 6: Kết thực nghiệm (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 69 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest KẾT LUẬN Trong khn khổ luận văn tơi tìm hiểu sở lý thuyết số thuật toán áp dụng giải tốn trích chọn thuộc tính phù hợp cách giảm chiều liệu Tôi trọng tìm hiểu kỹ thuật tốn rừng ngẫu nhiên (RF), phương pháp phân lớp RF_DEF Từ tìm hiểu này, đề xuất phương pháp phân lớp (RF_CT) cải tiến từ phương pháp RF_DEF nhằm tăng hiệu phân lớp, đặc biệt lớp mà số lượng đối tượng lớp không cân Từ kết thực nghiệm hai liệu Madelon Colon Turmo thấy phương pháp RF_CT thể độ xác tính ổn định tốt phương pháp RF, phương pháp DFE-RF Tuy nhiên, bên cạnh ưu điểm phương pháp tồn số hạn chế sau:  Chi phí thời gian cho phương pháp RF_CT lớn so với RF DFERF RF phương pháp phân lớp tốt nhiệm vụ phân lớp thuộc tính với số lượng tính lớn Tuy nhiên, để chọn lựa RF_CT hay RF hay DFE-RF thực nhiệm vụ phân lớp thuộc tính, nên cân nhắc ưu tiên độ xác dự đốn giải thuật hay ưu tiên cho thời gian thực nhiệm vụ  RF_CT xây dựng dựa phương pháp RF nguyên cải tiến từ phương pháp DFE-RF, nên phương pháp không tránh nhược điểm phương pháp RF ngun bản: khơng “nhạy” thuộc tính khơng liên quan (irrelevant), tốc độ tính tốn chậm, sử dụng nhiều nhớ việc phải lưu trữ cây, …  Phương pháp chưa kiểm nghiệm liệu lớn, đa lớp phức tạp, chưa thấy hạn chế xuất phương pháp kiểm nghiệm liệu  Kết dự đoán giải thuật chưa thực ấn tượng Để giải mặt hạn chế phương pháp RF_CT đề xuất thời gian tới tơi trọng tìm hiểu, cải tiến nhằm tăng tốc độ phân lớp giải thuật Đồng thời, tiến hành thử nghiệm phương pháp nhiều liệu khác nhằm đánh giá độ “nhạy” phương pháp loại liệu cụ Kết luận (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 70 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest thể Qua đó, đóng góp thêm chọn lựa cho nhà phát triển ứng dụng phát triển ứng dụng liên quan đến phân lớp liệu Với đóng góp luận văn này, tơi hi vọng góp phần giải phần nhỏ liên quan đến toán khai phá liệu nói chung tốn phân lớp liệu nói riêng Tơi hi vọng từ đóng góp xây dựng lên hệ thống đánh giá dự đoán áp dụng cách thiết thực vào đời sống xã hội Kết luận (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 71 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt [1] Nam, N H (2009) "Tối ưu hóa KPCA GA để chọn thuộc tính đặc trưng nhằm tăng hiệu phân lớp thuật tốn Random Forest." Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên Công nghệ 25(2009): tr 84-93 [2] Tuấn, N V, Phân tích số liệu tạo biểu đồ R-Hướng dẫn thực hành, NXB KHKT, 2007 Tài liệu Tiếng Anh [1] L NikhilR.Pal, Advanced Techniques in Knowledge Discovery and DataMining: Springer, 2005 [2] X F Lipo Wang, Data Mining with Computational Intelligence: Springer, 2005 [3] H M Huan Lui, Feature Selection for Knowledge Discovery and Data mining: Kluwer Acadamic Publishers, 2007 [4] S IsabelleGuyon, MasoudNikraveshandLoftiA.Zadeh, Feature Selection: Springer, 2006 [5] E F Ian H.Witten, Data Mining: Practical Machine Learning Tools and Techniques, Second Edition ed.: Morgan KauFmann Publishers, 2005 [6] The Top Ten Algorithms in Data Mining: Chapman & Hall/CRC, 2009 [7] L Breiman, "Random Forests," Machine Learning Journal Paper, vol 45, 2001 [8] A C Leo Breiman Random Forests Available: http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm [9] H Liu and H Motoda, Computational Method of Feature Selection: Chapman & Hall/CRC, 2008 [10] P I.Good, Resampling Methods: A Practical Guide to Data Analysis, Third Edition ed.: Birkhauser, 2006 [11] B Efron, The Jackknife, the Bootstrap and Other Resampling Plans 6ed.: Capital City Press, 1994 Tài liệu tham khảo (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 72 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest [12] M K Jiawei Han, Data Mining:Concepts and Techniques, Second Edition ed.: Diane Cerra, 2006 [13] T.-N V Ha-Nam Nguyen1, Syng-Yup Ohn1,Young-Mee Park2, Mi Young Han3, and Chul Woo Kim4 (2006) Feature Elimination Approach Based on Randon Forest for Cancer Diagnosis MICAI 2006: Advances in Artificial Intelligence [14] N J Marina Sokolova1, and Stan Szpakowicz3, "Beyond Accuracy, F-score and ROC: a Family of Discriminant Measures for Performance Evaluation," Australian Artificial Intelligence, 2006 [15] (2003, Dataset for Seventeenth Annual Conference on Neural Information Processing Systems Available: http://www.nipsfsc.ecs.soton.ac.uk/datasets/ [16] L Rokach (2008 )Genetic Algorithm-based Feature Set Partitioning for Classification Problems Pattern Recognition 1693-1717 http://portal.acm.org/citation.cfm?id=1340831 Available: [17] M W a X C Heping Zhang* (2009) Software Willows: a memory efficient tree and forest construction package BMC Bioinformatics Available: http://www.biomedcentral.com/content/pdf/1471-2105-10-130.pdf [18] P Spector, Data Manipulation with R: Springer, 2008 [19] M T Pascal Poncelet, Florent Masseglia, Data Mining Patterns: New Methods and Applications: InformatIon science reference, 2008 [20] T H Jerome Friedman, Robert Tibshirani, The Elements of Statistical Learning: Data Mining, Inference and Prediction: Spinger, 2008 [21] C V Giovanni Felici, Mathematical Methods for Knowledge Discovery and Data Mining: Information science reference, 2008 [22] W M a S Kally, "An Optimum Random Forest Model for Prediction of Genetic Susceptibility to Complex Diseases," in Advances in Knowledge Discovery and Data Mining vol Volume 4426/2007, ed: Springer Berlin / Heidelberg, 2007, pp 193-204 [23] D Larose, Data mining methods and models: Willey-Interscience 2006 [24] F Livingston, "Implementation of Breiman's Random Forest Machine Learning Algorithm " Machine Learning Journal Paper, 2005 [25] M G Dan Steinberg, N Scott Cardell, A Brief Overview to RandomForests: Salford Systems, 2004 Tài liệu tham khảo (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest Trang 73 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest (LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest(LUAN.VAN.THAC.SI).Nghien.cuu xay.dung.phuong.phap.trich.chon.dac.trung.dua.tren.giai.thuat.phan.lop.Random.Forest

Ngày đăng: 17/12/2023, 01:59

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan