Bài báo đề xuất một phương pháp học máy cho giải thuật phân lớp này nhằm tăng hiệu quả phân lớp của thuật toán. Cách tiếp cận này về cơ bản đã làm tăng khả năng phân lớp của giải thuật RF, phương pháp đề xuất còn cho thấy khả năng phân lớp tốt hơn một số phương pháp trích chọn đã được công bố. Như vậy, hướng cải tiến mà bài báo đề xuất là có khả thi và thu được kết quả tương đối cao. Mời các bạn cùng tham khảo!
Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thơng Tin (ECIT 2015) Một phương pháp trích trọn thuộc tính hiệu cho liệu có số chiều lớn Hà Văn Sang1, Đồng Thị Ngọc Lan1 Ngô Thị Thu Trang2 Khoa Hệ thống thông tin Kinh tế, Học Viện Tài Viễn thơng, Học viện Cơng nghệ Bưu Viễn thơng Email: sanghv@hvtc.edu.vn, landn0101@gmail.com, trangntt1@gmail.com Khoa Abstract— Phân lớp toán khai phá tri thức liệu Một thách thức toán phân lớp số lượng thuộc tính thường lớn, việc phân lớp cho xác hiệu nghiên cứu thú vị cho nhà khoa học lĩnh vực khoa học máy tính Bài báo sâu vào nghiên cứu giải thuật phân lớp thuộc tính random forest (RF) Đây giải thuật nhiều nghiên cứu chứng minh hiệu phân lớp thuộc tính liệu có số lượng thuộc tính lớn Trên sở báo đề xuất phương pháp học máy cho giải thuật phân lớp nhằm tăng hiệu phân lớp thuật toán Cách tiếp cận làm tăng khả phân lớp giải thuật RF, phương pháp đề xuất cho thấy khả phân lớp tốt số phương pháp trích chọn công bố Như vậy, hướng cải tiến mà báo đề xuất có khả thi thu kết tương đối cao pháp có ảnh hưởng đến ứng dụng tăng tốc độ thuật toán khai phá liệu, cải thiệu chất lượng liệu tăng hiệu suất khai phá liệu, kiểm soát kết thuật tốn Trong báo chúng tơi trình bày đề xuất để dựa vào xây dựng mơ hình trích chọn đặc trưng tối ưu giúp giảm kích cỡ liệu theo hướng giữ lại thuộc tính đặc trưng, loại bỏ thuộc tính khơng liên quan thuộc tính nhiễu nhằm tăng tốc độ thuật toán phân lớp cải thiện chất lượng liệu tăng hiệu suất việc khai phá liệu Cụ thể, phương pháp đề xuất chọn thuộc tính tốt để làm tăng suất thuật toán phân lớp Random Forest II Keywords- randomforest, trích chọn thuộc tính, phân lớp liệu, khai phá liệu I A Trích chọn thuộc tính Trích chọn thuộc tính bước việc tiền xử lý liệu, làm giảm bớt số chiều mẫu Lựa chọn thuộc tính phần vốn có trích chọn thuộc tính ví dụ phương pháp phân tích thành phần chí thiết kế xử lý thuật tốn ví dụ thiết kế định Tuy nhiên, lựa chọn thuộc tính thường bước lập riêng biệt chuỗi xử lý [7] GIỚI THIỆU Trong xu hướng hội nhập quốc tế, thời đại thông tin bùng nổ, “ngập lụt” liệu lại “đói” tri thức, vấn đề cấp thiết phân tích xử lý khối lượng thơng tin khổng lồ liên tục cập nhật để đáp ứng yêu cầu phát triển mặt văn hoá, kinh tế, trị, xã hội đất nước Hiện phần lớn thuật toán phân lớp phát triển giải lượng số liệu giới hạn độ phức tạp liệu biết trước Trong nhờ phát triển mạnh mẽ khoa học kỹ thuật, khối lượng liệu mà thu thập ngày phong phú đa dạng Hơn nữa, tuỳ thuộc vào loại liệu ứng dụng cụ thể mà thuật tốn có độ tốt xấu khơng giống Các nghiên cứu cho thấy có nhiều hướng cải tiến thuật toán phân lớp áp dụng thuật toán lai ghép (ensemble method), thuật toán dựa vào phương pháp nhân (kernel-based method), áp dụng phương pháp trích chọn đặc trưng (feature extraction/ selection method) Với phương pháp kể phương pháp trích chọn đặc trưng trở nên trội có số ưu điểm phù hợp việc xử lý liệu có số lượng thuộc tính lớn (vài nghìn đến vài trăm nghìn thuộc tính) đồng thời có số lượng nhỏ mẫu phân tích (vài chục vài trăm) Trong khai phá liệu phương pháp trích chọn đóng vai trị quan trọng để trích chọn chuẩn bị liệu Hướng tiếp cận làm tăng hiệu thu nhận tri thức ngành tin sinh, xử lý liệu web, xử lý tiếng nói, hình ảnh, Phương ISBN: 978-604-67-0635-9 CƠ SỞ LÝ THUYẾT Có thể định nghĩa lựa chọn thuộc tính q trình tìm M thuộc tính từ tập N thuộc tính ban đầu, phải xác định tiêu chuẩn lựa chọn thuộc tính [8] Theo cách này, kích cỡ khơng gian đặc trưng rút ngắn tối đa theo tiêu chuẩn định lượng định Khi kích cỡ lĩnh vực mở rộng, số phần tử tập N tăng lên, việc tìm tập đại diện tốt thường gặp khó khăn có nhiều vấn đề liên quan đến tập chọn Nhìn chung, thuật tốn trích chọn gồm bước bản: Sinh tập con, lượng giá tập con, điều kiện dừng xác nhận kết Quá trình sinh tập thủ tục tìm kiếm, sinh tập dùng cho việc lượng giá Gọi N số đại diện (đặc trưng) tập liệu gốc ban đầu, tổng số tập sinh n, 2n tập liệt kê toàn tập không gian Mỗi tập sinh thuật toán cần lượng giá trị tiêu chuẩn lượng giá trị định so sánh với tập tốt tìm trước Nếu khơng có điều kiện dừng phù hợp, thuật tốn chạy khơng dừng Điều kiện dừng trình sinh phải rơi vào số trường hợp sau: 82 82 HộiHội Thảo Quốc Gia 2015 vàCông CôngNghệ Nghệ Thông (ECIT 2015) Thảo Quốc Gia 2015về vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông Thơng TinTin (ECIT 2015) - Tồn phần tử tập hợp chọn - Các phần tử chưa chọn bị lặp lại tập nói Đối với thứ k tập cây, véc tơ ngẫu nhiên Θk tạo ra, véc tơ độc lập với véc tơ tạo trước Θ1, Θ2, …, Θk-1 phân bố véc tơ tương tự Một phát triển dựa vào tập huấn luyện véc tơ Θk kết phân lớp h(x, Θk) x véc tơ đầu vào Sau số lượng lớn tạo “bỏ phiếu” cho lớp phổ biến Sinh thêm tập không cho kết tốt - Đã chọn đủ số tập thoả mãn điều kiện tiêu chuẩn Tập tốt chọn phải lượng giá trường hợp khác với tập gốc phải biểu diễn với liệu thực tế Lựa chọn thuộc tính tiến hành theo hai cách: cách thứ xếp loại thuộc tính theo tiêu chuẩn lấy k thuộc tính đầu tiên, cách dựa vào ngưỡng để chọn thuộc tính Cách thứ hai chọn tập nhỏ mà không làm giảm trình học, cách tự động xác định số lượng thuộc tính Random forest định nghĩa sau [8]: Một random forest phân lớp bao gồm tập phân lớp có cấu trúc {h(x, Θk), k=1,… {Θk} véc tơ độc lập, tương tự phân bố cách ngẫu nhiên bỏ phiếu bầu cho lớp phổ biến véc tơ đầu vào x Lựa chọn thuộc tính dựa vào mơ hình, chiến lược tìm kiếm, thước đo chất lượng thuộc tính ước lượng Có ba loại mơ Filter, Wrapper, Embedded Các chiến lược tìm kiếm bao gồm: forward, backward, floating, branch and bound, randomized • Ở lần phân chia tập ngẫu nhiên m thuộc tính lấy m thuộc tính tham gia vào việc phân chia Ý tưởng giải thuật random forest: • Đối với phát triển dựa mẫu boostrap, tỷ lệ lỗi phần tử không thuộc vào bootstrap kiểm soát Tỷ lệ lỗi gọi tỷ lệ lỗi “out-of-bag” (OOB) Ước lượng việc chọn lựa thuộc tính bao gồm hai nhiệm vụ: so sánh hai giai đoạn: trước sau lựa chọn thuộc tính Hai so sánh hai thuật tốn lựa chọn thuộc tính [1] Tóm lại lựa chọn thuộc tính xem tổng hợp ba thành phần chính: tìm kiếm, đánh giá, chọn lựa mơ hình Về phân loại phương pháp lựa chọn thuộc tính gồm có Filter, Wrapper Embedded Qua tìm hiểu giải thuật RF ta có nhận xét RF phương pháp phân lớp tốt do: (1) Trong RF sai số (variance) giảm thiểu kết RF tổng hợp thông qua nhiều học (learner), (2) Việc chọn ngẫu nhiên bước RF làm giảm mối tương quan (correlation) người học việc tổng hợp kết Ngoài ra, thấy lỗi chung rừng phân lớp phụ thuộc vào lỗi riêng rừng tương quan Hướng tiếp cận Filter (Các thuộc tính chọn độc lập với thuật toán khai phá liệu)[13] Hướng tiếp cận Wrapper (Các thuộc tính chọn phụ thuộc theo nghĩa với thuật tốn khai phá liệu)[13] Để thực thuật tốn trích chọn phải thực số công việc sau: III Phương pháp để sinh tập thuộc tính đặc trưng(tương ứng với chiến lược tìm kiếm) MƠ HÌNH ĐỀ XUẤT Bài báo sử dụng mơ hình Wrapper với hàm mục tiêu để đánh giá thuật tốn tốn Random Forest biểu diễn hình 3.1 Định nghĩa hàm đánh giá (Đưa tiêu chí để xác định thuộc tính hay nhóm thuộc tính tốt hay xấu) Ước lượng hàm đánh giá (Kiểm chứng hàm đánh giá có thực phù hợp hiệu với liệu không) B Thuật toán Random Forest Random Forest (rừng ngẫu nhiên) [14, 15, 16] phương phân lớp thuộc tính phát triển Leo Breiman đại học California, Berkeley Về chất RF sử dụng kỹ thuật có tên gọi bagging Kỹ thuật cho phép lựa chọn nhóm nhỏ thuộc tính nút phân lớp để phân chia thành mức Do đó, RF có khả phân chia khơng gian tìm kiếm lớn thành khơng gian tìm kiếm nhỏ hơn, nhờ thuật tốn thực việc phân loại cách nhanh chóng dễ dàng Trong random forest, phát triển tập hợp làm cải thiện cách đáng kể độ xác phân lớp, tập hợp “bỏ phiếu” cho lớp phổ biến Để phát triển tập hợp thông thường véc tơ ngẫu nhiên tạo ra, véc tơ chi phối phát triển mối Hình 3.1: Mơ hình đề xuất Kiến trúc hệ thống gồm hai phần chính: 83 83 Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Phần sử dụng để tìm thuộc tính tốt Một cách tổng quát hệ thống sinh thuộc tính con, sau sử dụng thuật toán học máy RF để đánh giá thuộc tính Q trình lặp lặp lại tới thỏa mãn điều kiện dừng hệ thống thu thuộc tính tối ưu 2.69 GHz, RAM 4GB Phương pháp học máy thực ngôn ngữ R, ngôn ngữ chuyên dùng xác suất thống kê, tải từ địa www.r-project.org, gói random forest tải từ địa này, mô đun khác hồn tồn tự xây dựng, khơng sử dụng hay kế thừa lại nguồn Phần để kiểm chứng lại xem mơ hình đưa có phù hợp khơng 4.2 Q trình thực nghiệm kết Thuật tốn đề xuất Chúng tơi sử dụng liệu có thực tế để kiểm nghiệm hệ thống liệu mô tả bệnh ung thư dày Kết thực nghiệm trình bày Chúng tơi đề xuất thuật tốn để đánh giá tìm tập thuộc tính tốt từ tập thuộc tính ban đầu sau: Bộ liệu ung thư dày (Stomach) Bước 1: Tạo m thuộc tính từ tập n thuộc tích ban đầu Bộ liệu Stomach Cancer gồm 137 mẫu bao gồm thông tin gen bệnh nhân bị bệnh khơng bị bệnh Trong có 67 mẫu bệnh nhân bình thường 70 mẫu người bị bệnh Bộ liệu cung cấp Trung tâm nghiên cứu bệnh ung thư Đại học Quốc gia Seoul Seoul, Hàn Quốc [17] Mỗi chứa 2*n/m thuộc tính Gồm: n/m thuộc tính n/m thuộc tính ngẫu nhiên Bước 2: Tính thang điểm ước lượng cho thuộc tính Bộ liệu bảng hai chiều 137 x 119, gồm 137 ghi, ghi có 119 thuộc tính Các ghi liệu phân thành hai lớp ký hiệu normal (bệnh nhân bình thường) cancer (bệnh nhân bị ung thư) - Dùng RF tính thang điểm ước lượng cho thuộc tính = > Được tập giá trị ước lượng f(i) (i=1, ,m) Bước 3: Tính ranking theo trọng số thuộc tính thức: Kết phân tích thực nghiệm liệu Stomach Trọng số thuộc tính i tính theo cơng Phần 1: Thực thi thuật toán RF liệu Stomach gốc 20 lần, lần chạy lại thực kiểm chứng chéo lần với số 100,300,500,800,1000 ta kết sau : (1) Bảng 4.1 Giá trị trung bình, độ lệch chuẩn chạy RF 20 lần liệu Stomach với số 100,300,500,800,1000 kij = thuộc tính thứ i khơng chọn thuộc tính thứ j kij = thuộc tính thứ i chọn thuộc tính thứ j Bước 4: Xây dựng tập gồm p% thuộc tính tốt Quay lại B1 Điều kiện dừng: a) Số thuộc tính < ngưỡng cho phép, thuộc tính có độ thích hợp khơng lớn thuộc tính vừa xác định trước b) Số vịng lặp xác định Số Giá trị trung bình Giá trị Độ lệch nhỏ chuẩn Giá trị lớn 100 0.7765 0.02539685 0.73 0.82 300 0.781 0.0148324 0.76 0.81 500 0.7875 0.01996708 0.76 0.83 800 0.795 0.01538968 0.77 0.81 0.0146539 0.76 0.82 1000 0.796 Trên hướng đề xuất để tìm thuộc tính tối ưu nhỏ nhất, cách làm mục đích để hạn chế số lượng thuộc tính đầu Các thuộc tính ban đầu phân chia để đảm bảo tất thuộc tính chọn, kết hợp với cách phân chia thuộc tính ngẫu nhiên để tạo thuộc tính Sau dùng thuật tốn học máy RF tính độ phù hợp thuộc tính Dựa giá trị độ phù hợp vừa tính tìm thuộc tính có số lượng thuộc tính mà đảm bảo mục tiêu toán Ta thấy số tăng lên độ xác phân lớp RF tăng lên, độ lệch chuẩn nhỏ dần, điều rõ ràng với tư tưởng thuật tốn, RF thực phân lớp phương pháp xây dựng cây, bỏ phiếu cho phân lớp, số lượng lớn số phiều bầu cho phân lớp nhiều, độ độ xác phân lớp cao Từ kết độ lệch chuẩn tính chứng tỏ RF chạy tương đối ổn định IV KẾT QUẢ 4.1 Môi trường thực nghiệm Tất thực nghiệm thực máy Laptop với xử lý Intel (R) Core (TM) i7 -2620 M CPU @ 2.70 GHz 84 84 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Bảng 4.2 Thời gian (phút) trung bình,nhỏ nhất, lớn huấn luyện kiểm tra RF 20 lần Stomach với số 100,300,500,800,1000 Số Thời gian huấn luyện trung bình Thời gian huấn luyện nhỏ Thời gian huấn luyện lớn Thời gian kiểm tra trung bình Thời gian kiểm tra nhỏ Thời gian kiểm tra lớn 100 0.379 0.366 0.402 0.0294 0.018 300 0.9621 0.946 0.986 0.0339 500 1.5574 1.502 1.846 800 2.4123 2.366 1000 3.0899 3.01 Bảng 4.4 Thời gian trung bình,nhỏ nhất, lớn huấn luyện kiểm tra RF 20 lần Stomach tối ưu với số 100,300,500,800,1000 Số Thời gian huấn luyện trung bình Thời gian huấn luyện nhỏ Thời gian huấn luyện lớn Thời gian kiểm tra trung bình Thời gian kiểm tra nhỏ Thời gian kiểm tra lớn 0.04 100 0.1235 0.11 0.16 0.011 0.02 0.024 0.046 300 0.319 0.29 0.39 0.0165 0.03 0.0386 0.03 0.046 500 0.5445 0.51 0.61 0.0205 0.01 0.05 2.482 0.0361 0.03 0.042 800 0.8555 0.81 0.92 0.0275 0.01 0.05 3.146 0.0391 0.032 0.048 1000 1.031 0.99 1.08 0.03 0.01 0.06 4.3 Nhận xét So sánh bảng 4.1 với bảng 4.3 ta thấy tỉ lện đoán nhận RF với thuộc tính tăng lên rõ ràng, ước tính tăng khoảng 5%, thuật tốn RF cho kết đốn nhận trung bình 78% liệu ban đầu, RF chạy liệu sau lựa chọn thuộc tính thuật tốn đề xuất cho kết đốn nhận trung bình 83% Từ bảng 4.2 4.4 ta thấy thời gian huấn luyện thời gian kiểm tra giảm đáng kể Tỉ lệ đốn nhận thuộc tính tăng lên cho thấy thuộc tính loại bỏ số thuộc tính nhiễu, thuộc tính dư thừa Cịn thời gian giảm số lượng thuộc tính giảm xuống tương đối nhiều, cụ thể từ 119 thuộc tính ban đầu, sau lựa chọn thuộc tính cịn 36 thuộc tính, số thuộc tính giảm khoảng 69% số thuộc tính ban đầu Điều chứng tỏ phương pháp thực nghiệm mà báo đưa cho hiệu tương đối tốt Tuy nhiên, để tìm thuộc tính tiêu tốn khoảng thời gian tương đối lớn Với liệu Stomach khoảng 20 phút để tìm thuộc tính tối ưu hơn, với liệu lớn thời gian lại tăng lên, thời gian lần tìm thuộc tính tối ưu Sau đó, tất toán sử dụng liệu thực thi thuộc tính giảm thời gian tính tốn tất lần chạy Và từ đó, thời gian làm việc giảm đáng kể Số lượng lớn thời gian huấn luyện kiểm tra tăng số lớn số phép tốn thực nhiều nên thời gian thực tăng theo Phần 2: Tiến hành lựa chọn liệu tối ưu từ liệu Stomach ban đầu phương pháp đề xuất Với tập thuộc tính ban đầu, thực chia thành m thuộc tính cách sử dụng hàm sample( , ,replace=True) cho chứa n/m thuộc tính phân phối n/m thuộc tính ngẫu nhiên, với n tổng số thuộc tính, m tham số phân chia(cụ thể thực nghiệm chọn m=10) Mất khoảng 20 phút để lựa chọn thuộc tính có độ xác đốn nhận gần 84% Cụ thể, file kết BestDPos cho biết thuộc tính gồm 36 thuộc tính có vị trí tương ứng số 119 thuộc tính ban đầu : 45 69 101 50 71 102 15 16 53 57 77 80 82 103 107 109 19 58 90 110 26 59 61 93 116 27 28 34 64 66 68 95 118 119 Với thuộc tính tìm ta lại thực lại phần trình bày kết đoán nhận RF chạy 20 lần thuộc tính biểu diễn bảng 4.3 Bảng 4.3 Giá trị trung bình, độ lệch chuẩn chạy RF 20 lần Stomach tối ưu với số 100,300,500,800,1000 Số Giá trị trung bình Độ lệch Giá trị Giá trị chuẩn nhỏ lớn 100 0.825288 0.009637 0.803843 0.846115 300 0.822774 0.007596 0.806182 0.836424 500 0.826391 0.008341 0.803342 0.842774 800 0.832055 0.007423 0.821053 0.846784 1000 0.833693 0.00556 0.824561 0.840769 Bộ thuộc tính tìm theo phương pháp đề xuất, đáp ứng mong muốn nâng cao hiệu suất phân lớp giảm thời gian học thời gian kiểm thử Đặc biệt, bảng 4.1, 4.3 ta thấy độ lệch chuẩn chạy RF thuộc tính 1/4 đến 1/3 độ lệch chuẩn chạy RF liệu ban đầu, chứng tỏ chạy RF liệu ổn định liệu ban đầu Những điều vừa nhận xét minh họa rõ nét hình 4.1-4.2 sau Các hình vẽ phản ánh cho thấy chạy RF liệu cho kết cao ổn định chạy nhanh chạy RF liệu Stomach ban đầu 85 85 HộiHội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) việc thay đổi số tham số cịn làm thuật tốn tiêu tốn thời gian Để giải hạn chế phương pháp học máy đề xuất thời gian tới chúng tơi trọng tìm hiểu, cải tiến nhằm tăng tốc độ phân lớp giải thuật Đồng thời, tiến hành thử nghiệm phương pháp nhiều liệu khác nhằm đánh giá độ xác ổn định phương pháp loại liệu cụ thể Chúng tơi tìm hiểu số phương pháp phân lớp khác định phương pháp véc tơ hỗ trợ (SVM), để thay thuật toán Random Forest đánh giá kết dự đoán Rồi tiến hành so sánh phương pháp với Qua đó, chúng tơi hy vọng đóng góp thêm chọn lựa cho nhà phát triển ứng dụng phát triển ứng dụng liên quan đến phân lớp liệu Hình 4.1 Biểu đồ so sánh kết chạy RF 20 lần liệu liệu ban đầu với số 100,300,500,800,1000 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] Hình 4.2 Biểu đồ so sánh thời gian chạy trung bình 20 lần chạy RF liệu liệu ban đầu với số 100,300,500,800,1000 V [7] [8] KẾT LUẬN [9] Trong báo chúng tơi tập trung nghiên cứu, tìm hiểu thuật toán di truyền Random Forest với số phương pháp tiền xử lý liệu khác Từ tìm hiểu này, báo đề xuất hướng cải tiến hiệu phân lớp thuật toán RF theo phương pháp tìm thuộc tính tối ưu nhỏ từ thuộc tính lớn liệu ban đầu Bài báo trình bày chi tiết bước nội dung thuật toán đề xuất, sau tiến hành thực nghiệm để chứng minh tính đắn thuật toán Thực nghiệm sử dụng liệu lấy từ cơng trình nghiên cứu trước liệu gen bệnh nhân bị ung thư dày (Stomach) Trong trình thực nghiệm tiến hành chạy nhiều lần, sau đánh giá kết nhận chương trình RF nguyên phương pháp đề xuất, có phân tích vẽ biểu đồ so sánh Từ đó, thấy kết thực nghiệm hai liệu phản ánh phương pháp đề xuất làm cho thuật toán phân lớp RF chạy nhanh hơn, ổn định có khả đốn nhận xác Tuy nhiên, phương pháp đề xuất có nhược điểm phải tiêu tốn khoảng thời gian chạy để tìm thuộc tính tối ưu tương đối lớn Nhưng lại giảm thời gian huấn luyện kiểm thử cho tất lần sử dụng liệu sau Nếu muốn kết dự đốn xác [10] [11] [12] [13] [14] Nguễn Hà Nam, tối ưu hóa KPCA GA để chọn thuộc tính đặc trưng nhằm tăng hiệu phân lớp thuật toán Random Forest, Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên Cơng nghệ 25 (2009) 84-93 Nguyễn Đình Thúc, Lập trình tiến hóa, Nhà xuất giáo dục, 2001 Huan Liu and Hiroshi Motoda, Co mputational Methods of Feature Selection, Chapman & Hall/CRC, 2008 YongSeog Kim and Filipppo Meczenc, Feature Selection in Data Mining, 2005 Jacek Jarmu lak and Susan Craw, Genetic Algorith ms for Featu re Selection and Weighting, IJCAI 99 workshop, 1999 Jihoon Yang and Vasant Honavar, Feature Subset Selection Using a Genetic Algorithm, Artifical Intelligence Research Group Krzysztof J.Cios, Witold Deddrycz, Ro man W.Swin iarski, Lu kasz A.Kurgan, Data M ining A Knowledge Discovery Approach, Springer, 2007 Lu is Carlos Molina et at, Feature Selection for A lgorith ms: A Survey and Experimental Evaluation, 2000 Ron Kohavi and George H John, Wrapper for Feature Subset Selection, AIJ special issuse on relevance, 1996 Sancho Salcedo –Sanz etc, Feature Select ion via Genetic Optimization, 2000 Ha Nam Nguyen, Syng Yup Ohn, A Learning Algorith m based for Searching Optimal Co mb ined Kernal Function in Support Vector Machine, 2005 Translation of M icroarray Data into Clin ically Relevant Cancer Diagnostic Tests Using Gege Exp ression Ratios in Lung Cancer And Mesothelioma, Cancer Research, 2002 R Kohavi, G.H John, Wrappers for FeatureSubset Selection, Artificial Intelligence Vol 97(1997) 273 L Breiman (2002), Manual On Setting Up, Using, And Understanding Random Forests V3.1, Available: http://oz.berkeley.edu/users/breiman/Using_random_forests_V3.1.pdf [15] L Breiman (2001), "Random Forests", Machine Learn ing Journal Paper, vol 45 [16] A C Leo Breiman, Random Forests, Available: http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm [17] Ha Nam Nguyen, Syng Yup Ohn (2005), A Learning A lgorith m based for Search ing Optimal Co mbined Kernal Function in Support Vector Machine 86 86 ... lựa chọn thuộc tính cịn 36 thuộc tính, số thuộc tính giảm khoảng 69% số thuộc tính ban đầu Điều chứng tỏ phương pháp thực nghiệm mà báo đưa cho hiệu tương đối tốt Tuy nhiên, để tìm thuộc tính tiêu... đoán nhận thuộc tính tăng lên cho thấy thuộc tính loại bỏ số thuộc tính nhiễu, thuộc tính dư thừa Cịn thời gian giảm số lượng thuộc tính giảm xuống tương đối nhiều, cụ thể từ 119 thuộc tính ban... dừng: a) Số thuộc tính < ngưỡng cho phép, thuộc tính có độ thích hợp khơng lớn thuộc tính vừa xác định trước b) Số vịng lặp xác định Số Giá trị trung bình Giá trị Độ lệch nhỏ chuẩn Giá trị lớn 100