Rừng ngẫu nhiên cải tiến cho lựa chọn thuộc tính và phân loại dữ liệu gien

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ VĂN LUÂN RỪNG NGẪU NHIÊN CẢI TIẾN CHO LỰA CHỌN THUỘC TÍNH VÀ PHÂN LOẠI DỮ LIỆU GEN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ VĂN LUÂN RỪNG NGẪU NHIÊN CẢI TIẾN CHO LỰA CHỌN THUỘC TÍNH VÀ PHÂN LOẠI DỮ LIỆU GEN Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật phần mềm Mã số : 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thanh Tùng HÀ NỘI, 2017 i LỜI CAM ĐOAN Tơi xin cam đoan kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày theo cách hiểu thân hướng dẫn trực tiếp của Tiến sĩ Nguyễn Thanh Tùng Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Mọi chép không hợp lệ, vi phạm quy chế đào tạo tơi xin chịu hồn tồn trách nhiệm TÁC GIẢ LUẬN VĂN Vũ Văn Luân ii LỜI CẢM ƠN Để hoàn thành luận văn thạc sỹ này, trước hết xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Thanh Tùng Thầy cung cấp cho kiến thức, tài liệu, phương pháp nghiên cứu vấn đề mang tính khoa học Thầy thường xun đưa giúp tơi có ý tưởng làm luận văn Tôi xin chân thành cảm ơn thầy hỗ trợ chân thành nhiệt tình suốt thời gian qua Tơi xin cảm ơn PGS TS Hoàng Xuân Huấn, với giúp đỡ Thầy qua lần thảo luận giúp tơi hồn thành luận văn hạn Tơi xin chân thành cảm ơn thầy, cô giáo Bộ môn Công nghệ phần mềm, Khoa Công nghệ thông tin – Phòng Đào tạo sau đại học – Nghiên cứu Khoa học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp tạo điều kiện cho suốt thời gian học tập rèn luyện trường Đại học Công nghệ - Đại học Quốc gia Hà Nội TÁC GIẢ LUẬN VĂN Vũ Văn Luân MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG MỞ ĐẦU CHƯƠNG GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU VÀ LỰA CHỌN THUỘC TÍNH 1.1 Khai phá liệu 1.1.1 Tổng quan khai phá liệu 1.1.2 Nhiệm vụ khai phá liệu 1.1.3 Quá trình khai phá liệu 10 1.2 Một số kỹ thuật khai phá liệu 11 1.2.1 Phân nhóm liệu 12 1.2.2 Phân loại liệu 14 1.3 Lựa chọn thuộc tính 15 1.3.1 Vai trị lựa chọn thuộc tính khai phá liệu 15 1.3.2 Chọn lựa thuộc tính toán phân loại 16 CHƯƠNG CÂY QUYẾT ĐỊNH VÀ RỪNG NGẪU NHIÊN 17 2.1 Khái niệm chung 17 Phân loại dự đoán 17 Cây định 18 2.2 Các thuật toán học định 19 2.2.1 Thuật toán CLS 19 2.2.2 Thuật toán ID3 20 2.2.3 Thuật toán C4.5 25 2.2.4 Kết luận 28 2.3 Thuật toán Rừng ngẫu nhiên (Random Forest) 28 2.3.1 Khái niệm 28 2.3.2 Thuật toán Rừng ngẫu nhiên 34 CHƯƠNG RỪNG NGẪU NHIÊN CẢI TIẾN CHO BÀI TỐN LỰA CHỌN THUỘC TÍNH TRONG DỮ LIỆU CĨ SỐ CHIỀU CAO 39 3.1 Rừng ngẫu nhiên kiểm sốt có điều hướng 39 3.1.1 Rừng ngẫu nhiên có kiểm sốt 39 3.1.2 Rừng ngẫu nhiên kiểm sốt có điều hướng 40 3.2 Cải tiến trọng số thuộc tính cho GRRF 42 CHƯƠNG THỰC NGHIỆM TRÊN MÔI TRƯỜNG R VÀ ĐÁNH GIÁ KẾT QUẢ 46 4.1 Dữ liệu thực nghiệm 46 4.2 Kết thực nghiệm 47 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 52 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Tiếng Anh Nghĩa Tiếng Việt RF Random Forest Rừng ngẫu nghiên RRF Regularized Random Forest Rừng ngẫu nhiên có kiểm sốt GRRF Guided Regularized Random Forests Rừng ngẫu nhiên điều hướng SNP Single Nucleotide Polymorphism GWAS Genome-wide association studies KDD Knowledge Discovery and Data Mining SVM Support Vector Machine Phát tri thức khai phá liệu DANH MỤC CÁC HÌNH VẼ Hình 1.1.1: Q trình phát tri thức Hình 1.1.2: Quá trình khai phá liệu 11 Hình 1.2.1: Mẫu kết nhiệm vụ phân nhóm liệu 12 Hình 1.2.2: Mẫu kết nhiệm vụ hồi quy 13 Hình 1.2.3: Ví dụ định 15 Hình 2.3.1: Mơ hình hoạt động Bagging 29 Hình 2.3.2: Sơ đồ kết hợp phân loại nhờ bỏ phiếu 32 Hình 2.3.3: Sơ đồ học tập thể học 33 Hình 2.3.4: Thuật tốn Random Forest 35 Hình 4.2.1: Biểu đồ so sánh độ xác thuật tốn 50 Hình 4.2.2: So sánh số lượng thuộc tính lựa chọn mơ hình 51 DANH MỤC CÁC BẢNG Bảng 2.2.1: Mô tả thuật toán CLS 20 Bảng 2.2.2: Mơ tả thuật tốn ID3 23 Bảng 3.2.1: Ma trận mơ tả độ quan trọng thuộc tính tất gen thật gen rác 43 Bảng 4.1.1: Mô tả tập liệu thực nghiệm 47 Bảng 4.2.1: So sánh phương pháp với số lượng K thay đổi Các giá trị có font đậm kết tốt mơ hình 48 Bảng 4.2.2: So sánh mơ hình với tham số cố định tối ưu mTry= 𝑀, K=500 49 MỞ ĐẦU Hiện nay, kỹ thuật phân loại liệu sử dụng rông rãi hầu hết lĩnh vực khác trí tuệ nhân tạo phân loại văn bản, phân loại chữ viết tay, phân loại hình ảnh, phân loại gen,… Mỗi gen đảm nhận chức có mối liên hệ với gen khác Việc phân loại gen xác định vị trí tương đối chúng với gen khác Bài tốn phân loại liệu gen có nhiệm vụ xác định chức gen Thông thường, gen mã hóa protein tương ứng Các protein đảm nhiệm vai trò hay chức khác thể sinh vật Các chức gen/protein đa dạng, từ đóng vai trị phản ứng sinh hóa tế bào, tới tương tác điều hòa hoạt động gen khác Việc xác định chức gen sản phẩm gen nhiệm vụ quan trọng sinh học phân tử tin sinh học Trong thực tế có nhiều phương pháp phân loại liệu, phương pháp lại có đặc điểm riêng phù hợp với đối tượng liệu cần phân loại Luận văn trình bày phương pháp rừng ngẫu nhiên để giải toán phân loại liệu gen Mục đích nghiên cứu Mục tiêu nghiên cứu luận văn tìm hiểu thuật tốn lựa chọn thuộc tính tốn phân loại rừng ngẫu nhiên, rừng ngẫu nhiên có kiểm sốt, rừng ngẫu nhiên điều hướng Từ đề xuất phương pháp cải tiến để nâng cao hiệu thuật toán rừng ngẫu nhiên điều hướng Đối tượng phạm vi nghiên cứu Đối tương nghiên cứu đề tài liệu gen đó, số lượng cá thể gồm 50% bệnh nhân mắc bệnh 50% không mắc bệnh, dùng để đối chứng Phạm vi nghiên cứu luận văn tập trung vào mơ hình rừng ngẫu nhiên dùng để phân loại liệu gen cho Từ đề xuất cải tiến để nâng cao hiệu mơ hình rừng ngẫu nhiên việc phân loại liệu gen Phương pháp nghiên cứu 40 so sánh với tất thuộc tính chọn rừng Điều dẫn đến RRF chọn phải thuộc tính khơng tốt để dựng Năm 2013, Deng Runger [11] thiết lập giới hạn cho số giá trị Gini phân biệt tốn phân loại nhị phân có N mẫu N(N+2)/4-1 Vì vậy, N nhỏ dẫn đến số giá trị Gini phân biệt nhỏ Với tốn chiều cao, có nhiều giá trị Gini(Xj,t) giống nhau, nên khó để phân biệt thuộc tính quan trọng Ví dụ, tốn phân hoạch nhị phân, nút có 10 mẫu có khoảng 29 giá trị Gini phân biệt Trong tập liệu huấn luyện, có 10000 thuộc tính có khoảng 1000 - 29 = 971 thuộc tính đạt giá trị Gini giống Nếu số Gini giống giá trị Ginimin RRF chọn ngẫu nhiên số thuộc tính có số Gini đạt để tách nút t Như vậy, RRF chọn phải thuộc tính khơng liên quan đến biến đích để phân hoạch liệu Vì vậy, tập liệu có dung lượng mẫu nhỏ, số chiều cao (cao nhiều so với dung lượng mẫu) cách trích chọn thuộc tính RRF cho hiệu không cao 3.1.2 Rừng ngẫu nhiên kiểm sốt có điều hướng Trong phương pháp rừng ngẫu nhiên có kiểm sốt, Deng [12] thay đổi cách tính độ đo quan trọng thuộc tính RRF làm giảm độ lệch (bias) so với RF nguyên Tuy nhiên số đo độ quan trọng thuộc tính đánh giá dựa phần liệu huấn luyện nút so với tất thuộc tính chọn để xây dựng rừng Mặt khác tập liệu có số mẫu nhỏ, số chiều lớn có nhiều thuộc tính có độ đo Với N mẫu số lượng tối đa thuộc tính có số Gini khác toán phân loại nhị phân (N(N+ 2)/4)-1 [12] Ví dụ ta có 30 mẫu có số chiều 3.000, có lớn 239 thuộc tính có độ đo khác 3.000239 = 2.761 thuộc tính độ đo Chính RRF phải chọn ngẫu nhiên thuộc tính để tách nút Các thuộc tính thuộc tính khơng tốt (khơng có liên quan đến biến đích) dẫn đến khả dự đốn rừng RRF khơng cao Xuất phát từ lý trên, Deng [12] đề xuất phương pháp rừng ngẫu nhiều kiểm sốt có điều hướng (Guided Regularized Random Forests, GRRF) để khắc phục nhược điểm RRF Ở phương pháp GRRF tác giả tính độ quan trọng thuộc tính dựa độ quan trọng thuộc tính tạo RF gốc toàn 41 tập liệu ban đầu (dựa theo độ quan trọng nút tách xây dựng cây) Do số Gini thuộc tính có độ quan trọng khác có giá trị khác Khi với tốn có số mẫu nhỏ, số chiều lớn liệu gen, GRRF chọn thuộc tính tách nút tốt kết phân loại tốt [12] Nếu RRF gán hệ số phạt cho tất thuộc tính GRRF sử dụng thuộc tính có độ quan trọng lớn từ RF truyền thống để “điều hướng” q trình lựa chọn thuộc tính phân tách nút q trình dựng Thuộc tính có độ quan trọng cao (importance score) gán giá trị λ cao, ngược lại thuộc tính có độ đo quan trọng thấp gán giá trị λ thấp Tiếp cận sử dụng độ quan trọng thuộc tính tạo RF nguyên toàn tập liệu ban đầu làm trọng số cho thuộc tính nên cải thiện chất lượng số Gini, thuộc tính có độ quan trọng khác có giá trị Gini khác Điều giúp GRRF chọn thuộc tính phân tách tốt tốn phân tích liệu mẫu nhỏ, số chiều cao, nhiều nhiễu Thực nghiệm tập liệu gen, Deng Runger cho thấy GRRF mang lại hiệu phân loại tốt so sánh với RF, RRF, varSelRF C4.5 [11] Nếu RRF gán hệ số phạt 𝜆 cho tất thuộc tính mới, GRRF độ quan trọng thuộc tính dựa RF ngun (tính theo cơng thức (5) từ liệu out of bag) để gán hệ số phạt 𝜆𝑗 khác thuộc tính khác Thuộc tính có độ quan trọng cao gán giá trị 𝜆 cao (phạt ít), ngược lại gán giá trị 𝜆 thấp (phạt nhiều) Cơng thức tính độ quan trọng cho thuộc tính nút t GRRF sau: 𝐺𝑎𝑖𝑛𝑅 (𝑋𝑗 , 𝑡) = { 𝜆𝑗 𝐺𝑎𝑖𝑛 (𝑋𝑗 , 𝑡) 𝑣ớ𝑖 𝑋𝑗 𝐹 𝐺𝑎𝑖𝑛(𝑋𝑗 , 𝑡) 𝑣ớ𝑖 𝑋𝑗 𝜖𝐹 (3.1.2) 𝜆𝑗 𝜖(0,1] hệ số phạt gán cho Xj (j=1,2, ,M) Giá trị 𝜆𝑗 dựa vào độ quan trọng Xj RF: 𝜆𝑗 = (1 − )𝜆0 +  𝑉𝐼𝑋𝑗 (3.1.3) 42 Trong đó, 𝜆0 𝜖(0,1] hệ số điều khiển mức độ điều hướng,  𝜖[0,1] điều chỉnh độ quan trọng thuộc tính chuẩn hóa gọi hệ số quan trọng Khi  = GRRF trở thành RRF Để giảm tham số cho GRRF, Deng George Runger chọn 𝜆0 = 1, ta có: 𝜆𝑗 = (1 − ) +  𝑉𝐼𝑋𝑗 = − (1 − 𝑉𝐼𝑋𝑗 ) (3.1.4) Như vậy, GRRF kế thừa ưu điểm RRF khắc phục phần hạn chế RRF q trình lựa chọn thuộc tính phân loại nút có dung lượng mẫu nhỏ 3.2 Cải tiến trọng số thuộc tính cho GRRF Trong mục này, phương pháp tính độ quan trọng thuộc tính trình bày [16] áp dụng để tính trọng số gen cho GRRF lựa chọn dựng Từ tập liệu có M gen ban đầu, ta bổ sung thêm M gen “rác” cách hoán vị giá trị gen nhằm mục đích phá hủy quan hệ biến so với biến đích Ý tưởng phương pháp sau Ta muốn kiểm tra độ quan trọng gen M gen ban đầu, ta dùng RF tính độ quan trọng gen với gen “rác”, việc thực với số lần hữu hạn lặp lại sau kiểm thử độ quan trọng gen thật với gen rác kiểm định thống kê, chẳng hạn t-test Giá trị p thu sau kiểm định dấu hiệu cho thấy độ quan trọng gen xét so với gen rác, giá trị p nhỏ chứng tỏ độ quan trọng gen lớn Áp dụng để tính độ quan trọng gen để điều hướng cho GRRF, ta thực RF với số lần lặp hữu hạn R để tính độ quan trọng 2M gen, sau ta thực phương pháp kiểm định thống kê độ quan trọng gen so với độ quan trọng gen bổ sung Với gen có độ quan trọng ngang gen “rác”, ta gán với trọng số 0, ngược lại ta lấy giá trị p từ kết kiểm định thống kê để làm trọng số cho GRRF Những trọng số sử dụng để điều hướng cho GRRF trình lựa chọn gen xây dựng phân loại GRRF Cho tập huấn luyện D, tập liệu gen biểu diễn 𝑆𝑥 = {𝑋𝑗 ; 𝑗 = 1,2, 𝑀 } Gen rác tạo từ gen 𝑋𝑗 𝑆𝑥 cách hoán đổi ngẫu 43 nhiên tất giá trị 𝑋𝑗 để gen rác 𝐴𝑗 tương ứng Cho 𝑆𝐴 = { 𝐴𝑗 }1𝑀 liệu gen mở rộng, tập liệu huấn luyện ký hiệu 𝑆𝑋,𝐴 = {𝑆𝑋 , 𝑆𝐴 } Chạy R lần mơ hình rừng ngẫu nhiên RF thực tập liệu 𝑆𝑋,𝐴 với số lượng gen gấp hai lần liệu ban đầu Với lần chạy r (r = 1÷R), tính độ quan trọng 𝑉𝐼𝑋𝑟 𝑉𝐼𝐴𝑟 cho gen đặt chúng vào dịng thứ r ma trận VRx2M ta có ma trận gồm R hàng 2M cột chứa giá trị độ quan trọng gen (bảng 3.2.2) TT 𝑽𝑰𝑿𝟏 𝑽𝑰𝑿𝟐 … 𝑽𝑰𝑿𝑴 𝑽𝑰𝒙𝟏,𝟏 𝑽𝑰𝒙𝟏,𝟐 … 𝑽𝑰𝒙𝟐,𝟏 𝑽𝑰𝒙𝟐,𝟐 … R 𝑽𝑰𝒙𝑹,𝟏 𝑽𝑰𝒙𝑹,𝟐 … … 𝑽𝑰𝑨𝟐𝑴 𝑽𝑰𝒙𝟏,𝑴 𝑽𝑰𝒂𝟏,(𝑴+𝟏) 𝑽𝑰𝒂𝟏,(𝑴+𝟐) … 𝑽𝑰𝒂𝟏,𝟐𝑴 𝑽𝑰𝒙𝟐,𝑴 𝑽𝑰𝒂𝟐,(𝑴+𝟏) 𝑽𝑰𝒂𝟐,(𝑴+𝟐) … 𝑽𝑰𝒂𝟐,𝟐𝑴 𝑽𝑰𝒙𝑹,𝑴 𝑽𝑰𝑨𝑴+𝟏 𝑽𝑰𝒂𝑹,𝑴+𝟏 𝑽𝑰𝑨𝑴+𝟐 𝑽𝑰𝒂𝑹,𝑴+𝟐 … 𝑽𝑰𝒂𝑹,𝟐𝑴 Bảng 3.2.1: Ma trận mô tả độ quan trọng thuộc tính tất gen thật gen rác 𝑟 Ký hiệu độ quan trọng gen tập 𝑆𝐴 lần lặp thứ r 𝑉𝐼𝑋,𝐴 = 𝑟 𝑟 𝑟 𝑟 {𝑉𝐼𝑋 , 𝑉𝐼𝐴 } 𝑉𝐼𝑋 𝑉𝐼𝐴 độ quan trọng gen 𝑆𝑋 𝑆𝐴 lần lặp thứ r Tiếp tục lặp lại trình R lần (r=1 R) để tính R hàng cho ma trận 𝑉𝐼𝑋𝑗 = { 𝑉𝐼𝑋𝑡 𝑗 }1R 𝑉𝐼𝐴𝑗= { 𝑉𝐼𝐴𝑡𝑗 }1R Nửa bên phải ma trận bảng 3.2.1 lưu trữ độ quan trọng gen rác, xét cột từ M+1 đến 2M với hàng r tương ứng, ta lấy giá trị lớn để có dãy 𝑉𝐼𝐴𝑚𝑎𝑥 Tiến hành kiểm định t-test cột 𝑉𝐼𝐴𝑗 (j=1 M) đo độ quan trọng gen ban đầu so sánh với dãy 𝑉𝐼𝐴𝑚𝑎𝑥 Đối với gen 𝑋𝑗 , tiến hành tính t-test sau: 𝑡𝑗 = 𝑚𝑎𝑥 ̅̅̅̅̅̅̅̅ ̅̅̅̅̅ 𝑉𝐼 𝑋𝑗 − 𝑉𝐼𝐴 2 √𝑠1 ⁄𝑛 + 𝑠2 ⁄𝑛 (3.3.1) 44 Trong 𝑠12 𝑠22 ước lượng không chệch phương sai hai mẫu , 𝑛1 = 𝑛2 = 𝑅 Để kiểm tra ý nghĩa thống kê, phân bố 𝑡𝑗 (3.3.1) tính gần phân phối Student thơng thường với bậc tự df tính sau : 𝑠12 𝑠22 (𝑠12 ⁄𝑛1 )2 (𝑠22 ⁄𝑛2 )2 𝑑𝑓 = [ + ] ⁄[ + ] (3.3.2) 𝑛1 𝑛2 𝑛1 − 𝑛2 − Tính t-test df, tính tốn giá trị p (p-value) cho gen 𝑚𝑎𝑥 ̅̅̅̅̅̅̅̅ thực kiểm nghiệm giả thuyết ̅̅̅̅̅ 𝑉𝐼𝑋 > 𝑉𝐼 Ta xác định 𝑗 𝐴 gen quan trọng từ kiểm định t-test dựa giá trị p nhận Giá trị p gen thu từ kiểm định t-test cho thấy tầm quan trọng gen dự đốn biến đích Giá trị p gen nhỏ mức độ quan trọng gen tương ứng cao, đóng góp lớn dự đốn biến đích Tính tất giá trị p cho tất gen, sau ta đặt ngưỡng để phân loại độ quan trọng gen mức, quan trọng không quan trọng, chẳng hạn đặt ngưỡng η, ví dụ η = 0.05 Bất kỳ gen có giá trị p lớn η coi gen có mức độ quan trọng kém, trọng số gán Ngược lại, trọng số tính cơng thức sau: 𝑅 𝜃𝑗 = ∑ 𝑉𝐼𝑋𝑅𝑗 𝑅 (3.3.3) 𝑟=1 Trọng số {𝜃1, 𝜃2 , … , 𝜃𝑀 } sử dụng cho GRRF điều hướng lựa chọn gen xây dựng rừng Để GRRF lựa chọn gen có độ quan trọng cao dựng cây, trọng số tính cơng thức (3.3.3) sử dụng thay cho độ quan trọng thuộc tính từ RF nguyên với gen 𝑋𝑗 (𝑗 = … 𝑀) Trong GRRF, hệ số phạt 𝜆 sử dụng để điều hướng cho việc lựa chọn gen dựng Với trọng số thu trình bày trên, cơng thức áp dụng GRRF sử dụng trọng số 𝜃𝑗 với gen 𝑋𝑗 nút t tính sau: 45 Δ𝑅(𝑋𝑗 , 𝑡) = { 𝜆 R (𝑋𝑗 , 𝑡) 𝑣ớ𝑖 𝑋𝑗 𝐹 𝑅(𝑋𝑗 , 𝑡) 𝑣ớ𝑖 𝑋𝑗 𝜖𝐹 (3.3.4) Trong F tập hợp gen đầu vào sử dụng rừng ngẫu nhiên 𝜆 ∈ [0,1] Giá trị λ không giống cho tất gen đầu vào khởi tạo dựa trọng số 𝜃𝑗 công thức (3.3.3) 46 CHƯƠNG THỰC NGHIỆM TRÊN MÔI TRƯỜNG R VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 Dữ liệu thực nghiệm Bảng 4.1.1 gồm 10 liệu gen dùng thực nghiệm để đánh giá hiệu phương pháp GRRF có cải tiến cách tính trọng số, ký hiệu eGRRF, kết thực nghiệm tiến hành eGRRF so sánh với phương pháp RF, GRRF, SVM Thông tin 10 liệu gen mơ tả Bảng 4.1.1 Trong đó, số lượng cá thể gán nhãn gồm 50% bệnh nhân mắc bệnh 50% không mắc bệnh, dùng để đối chứng Phương pháp kiểm tra chéo 5-fold sử dụng để đánh giá hiệu mô hình Tập liệu ban đầu chia làm phần kích thước Tiến hành lặp lần : lần lấy phần dùng làm liệu thử nghiệm phần lại dùng làm liệu huấn luyện TT Tập liệu Số lượng gen Số lượng cá thể Brain_Tumor1 5,921 90 Brain_Tumor2 10,386 50 DLBCL 5,470 77 Prostate_Tumor 10,510 102 Tumors.11 12,543 174 Tumors.14 15,010 308 EMBRYONAL_TUMOURS_C 7,130 60 Leukemia1 5,328 72 Leukemia2 11,226 72 10 Lung_Cancer 12,601 203 47 Bảng 4.1.1: Mô tả tập liệu thực nghiệm 4.2 Kết thực nghiệm Các thực nghiệm tiến hành 10 liệu gen Trong phần thực nghiệm, mơ hình tiến hành so sánh kết để đánh giá độ xác mơ hình cải tiến eGRRF, mơ hình so sánh là: mơ hìnhRF ngun Breiman [10], mơ hình rừng ngẫu nhiên kiểm sốt có điều hướng (GRRF) Deng Ranger [12], mơ hình máy véc-tơ hỗ trợ (SVM) với nhân tuyến tính Phương pháp kiểm tra chéo 5-fold sử dụng để đánh giá hiệu mơ hình eGRRF mơ hình đối chứng tập liệu gen Bài tốn phân loại liệu Gen mơ tả sau: 𝑀 Input: Tập liệu huấn luyện Gen 𝑆𝑋 = {{𝑋𝑗 }𝑗=1 , 𝑌 } có N mẫu liệu M thuộc tính (Gen) Có loại bệnh không bệnh tương ứng với hai nhãn {0, 1} Output: Tìm/học hàm cho thuộc tính bệnh (hàm phân loại) giá trị gen khác Độ đo đánh giá hiệu mơ hình tính dựa tổng gen dự đốn chúng chia cho tổng số gen có tập kiểm thử (testing data), giá trị gần nghĩa mơ hình có hiệu tốt, ngược lại giá trị gần hiệu dự đốn mơ hình khơng tốt Trong phần thực nghiệm độ đo độ xác thuật tốn tính theo cơng thức sau: Nt Acc = ∑ I(Q(xi ,yi ) − maxj≠yj Q(xi ,j) >0) Nt i=1 Trong I(.) hàm dấu hiệu Q(xi ,yi ) = ∑K K=1 I(hK (xi )=j) số lượng định lựa chon xi thuộc vào lớp j , Nt số mẫu 𝐷𝑡 Đầu tiên để đánh giá hiệu mơ hình eGRRF mơ hình rừng ngẫu nhiên khác số lượng rừng biến thiên, kích thước khơng gian thuộc tính đặt cố định mtry = √𝑀 thay đổi số lượng K={20, 50, 100, 200, 500, 1000} Với lần kiểm tra chéo thực với K 48 khác nhau, sau lấy kết trung bình lần chạy để đánh giá độ xác mơ hình, kết liệt kê sau: STT Tập liệu Brain_Tumor1 Brain_Tumor2 DLBCL Prostate_Tumor Tumors.11 Tumors.14 EMBRYONAL_ TUMOURS_C Leukemia1 Leukemia2 10 Lung_Cancer K Phương pháp eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF 20 0.83 0.85 0.85 0.88 0.74 0.72 50 0.89 0.83 0.81 0.8 0.73 0.72 100 0.9 0.88 0.87 0.86 0.82 0.76 200 0.88 0.86 0.82 0.86 0.76 0.76 500 0.87 0.82 0.83 0.84 0.78 0.74 1000 0.87 0.88 0.83 0.86 0.81 0.79 0.92 0.86 0.90 0.94 0.88 0.91 0.86 0.84 0.87 0.48 0.56 0.63 0.70 0.58 0.58 0.94 0.95 0.93 0.94 0.92 0.91 0.88 0.93 0.88 0.88 0.91 0.89 0.88 0.53 0.63 0.62 0.76 0.68 0.63 0.99 0.93 0.93 0.96 0.93 0.93 0.86 0.94 0.93 0.92 0.93 0.89 0.87 0.53 0.67 0.64 0.75 0.58 0.62 0.97 0.97 0.96 0.96 0.92 0.91 0.89 0.92 0.91 0.90 0.93 0.89 0.87 0.55 0.64 0.60 0.78 0.67 0.65 0.97 0.97 0.93 0.95 0.92 0.88 0.88 0.92 0.92 0.90 0.92 0.89 0.88 0.58 0.66 0.66 0.74 0.61 0.60 0.96 0.96 0.96 0.96 0.94 0.91 0.90 0.92 0.92 0.91 0.91 0.86 0.87 0.58 0.66 0.65 0.78 0.63 0.68 0.97 0.94 0.94 0.95 0.90 0.93 0.94 0.91 0.91 0.94 0.94 0.94 0.94 0.93 0.93 0.96 0.94 0.94 0.91 0.91 0.92 0.95 0.93 0.92 0.96 0.97 0.95 0.93 0.91 0.97 0.97 0.95 0.92 0.92 Bảng 4.2.1: So sánh phương pháp với số lượng K thay đổi Các giá trị có font đậm kết tốt mơ hình 49 Trong bảng 4.2.1 so sánh phương pháp RF, GRRF, eGRRF ta thấy với số lượng thay đổi hầu hết trường hợp mơ hình eGRRF cho độ xác cao so với phương pháp khác, chẳng hạn với liệu Leukemia2 số lượng thay đổi độ xác thuật tốn đạt độ xác từ 95-96%, với liệu Lung_Cancer đạt từ 94-95% tương ứng Bảng 4.2.2 liệt kê kết phân loại gen mơ hình với tham số đầu vào cố định (tối ưu cho mơ hình), cột cuối bảng trình bày số lượng gen trung bình chọn eGRRF GRRF Các gen chọn xem gen có độ quan trọng cao gen lại tham gia xây dựng mơ hình rừng ngẫu nhiên Các gen chọn kết quan trọng cho toán lựa chọn gen, mơ hình chọn số lượng gen có độ xác phân loại gen cao mơ hình tốt Trong phần thực nghiệm này, tham số tối ưu 𝑚𝑇𝑟𝑦 = √𝑀 số rừng K=500 dặt giá trị cố định thực mơ hình rừng ngẫu nhiên (eGRRF, GRRF, RF), giá trị 𝐶 = 2−5 đặt cố định cho mơ hình SVM tuyến tính Tương tự, phương pháp kiểm tra chéo thực lần lấy kết trung bình để đánh giá độ xác mơ hình STT 10 Tập liệu Brain_Tumor1 Brain_Tumor2 DLBCL Prostate_Tumor Tumors.11 Tumors.14 EMBRYONAL_ TUMOURS_C Leukemia1 Leukemia2 Lung_Cancer eGRRF 0.87 0.88 0.94 0.92 0.90 0.56 0.71 0.96 0.96 0.95 Phương pháp Số lượng thuộc tính lựa chọn GRRF RF SVM FS.eGRRF FS.GRRF 0.86 0.85 0.74 1084.6 2393.8 0.82 0.78 0.74 896.6 1782 0.91 0.90 0.91 520.8 1243 0.91 0.89 729.6 2077.2 0.92 0.87 0.86 0.78 2819.8 6431 0.54 2886.6 9620.6 0.64 0.64 0.60 0.96 0.96 0.94 0.60 0.92 0.97 0.93 0.68 0.83 0.92 0.90 532.6 437.4 524.4 1446 1673.8 1482.8 1670.4 3327.8 Bảng 4.2.2: So sánh mơ hình với tham số cố định tối ưu mTry= √𝑀, K=500 50 Độ xác thuật tốn 100% 80% 60% 40% 20% 0% Phương pháp eGRRF Phương pháp GRRF Phương pháp RF Phương pháp SVM Hình 4.2.1: Biểu đồ so sánh độ xác thuật tốn Trong bảng 4.2.2 hình 4.2.1 ta thấy với tham số tối ưu cho mơ hình với mơ hình eGRRF cho giá trị dự đốn xác cao so với phương pháp RF, GRRF SVM Như với liệu Leukemia1 Leukemia2 với mơ hình eGRRF kết dự đốn xác đến 96% Điều cho thấy eGRRF sử dụng thuộc tính có độ quan trọng lớn từ RF truyền thống để “hướng dẫn” q trình lựa chọn thuộc tính phân tách nút làm giảm số chiều cho tập gen dẫn đến làm tăng hiệu phân loại 10 liệu gen Cột FS.eGRRF liệt kê số lượng gen chọn để xây dựng mơ hình eGRRF cột FS.GRRF thống kê số lượng gen GRRF chọn sau lần chạy theo phương pháp 5-fold Ta thấy, số lượng gen mà eGRRF chọn nhiều so với GRRF tất 10 liệu kết phân loại có độ xác cao hơn, kết minh họa rõ hình 4.2.2 Mơ hình eGRRF đạt kết phân loại tốt chứng tỏ phương pháp tạo trọng số cho gen trình bày cải thiện rõ rệt cho toán phân loại lựa chọn gen, đặc biệt kiểu liệu ln gây khó khăn lớn cho mơ hình máy học số chiều lớn cỡ mẫu nhỏ 51 Số lượng thuộc tính lựa chọn mơ hình 12000 10000 8000 6000 4000 2000 Số lượng thuộc tính lựa chọn mơ hình eGRRF Số lượng thuộc tính lựa chọn mơ hình GRRF Hình 4.2.2: So sánh số lượng thuộc tính lựa chọn mơ hình Như vậy, với kết thực nghiệm ta thấy mơ hình eGRRF cho kết dự đốn có độ xác cao khả trích chọn gen hiệu hẳn RF, GRRF, SVM Những kết lần chứng minh thực nghiệm, mơ hình eGRRF cải thiện đáng kể độ xác phân loại so với mơ hình khác RF, SVM GRRF Mơ hình rừng ngẫu nhiên eGRRF có cải tiến cách tạo trọng số xem mơ hình hữu hiệu dùng cho phân tích liệu gen nói chung 52 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong khuôn khổ luận văn, sở lý thuyết học máy số thuật toán áp dụng giải lựa chọn thuộc tính tìm hiểu Chúng tơi tập trung nghiên cứu thuật toán Random Forest biến thể cải tiến Random Forest rừng ngẫu nhiên có kiểm sốt RRF, rừng ngẫu nhiên kiểm sốt có điều hướng GRRF Từ tìm hiểu này đề xuất hướng cải tiến cách đánh trọng số cho GRRF nhằm tăng hiệu thuật toán phân loại đặc biệt với liệu có số chiều cao Để chứng minh tính hiệu mơ hình cải tiến, thực nghiệm tiến hành 10 liệu gen Từ kết thực nghiệm đạt 10 liệu gen thấy độ xác mơ hình cải tiến eGRRF tương đối ổn định đạt hiệu cao so với phương pháp RF, RRF, phương pháp GRRF Qua đó, đóng góp thêm chọn lựa cho nhà phát triển ứng dụng phát triển ứng dụng liên quan đến phân loại liệu Với đóng góp luận văn này, chúng tơi hi vọng góp phần giải phần nhỏ liên quan đến toán khai phá liệu nói chung tốn phân loại liệu nói riêng Tơi hi vọng từ đóng góp xây dựng lên hệ thống đánh giá dự đoán áp dụng cách thiết thực vào đời sống xã hội 53 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hoàng Xuân Huấn, “Giáo trình học máy”, Trường Đại học Cơng nghệ - Đại học Quốc gia Hà Nội, 2015 [2] Hoàng Thị Hà , Nguyễn Thanh Tùng, “Cải tiến phương pháp rừng ngẫu nhiên có điều hướng để áp dụng cho liệu SNP”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 Tài liệu tiếng Anh [3] M Stratton, "Genome-wide association study of 14 000 cases of seven common diseases and 3000 shared," The Journal of Nature, vol 447, no 7145, p 661–678, 2007 [4] L NikhilR.Pal, "Advanced Techniques in Knowledge Discovery and DataMining," Springer, 2005 [5] H J a K M., Data Mining: Concepts and Techniques, Morgan Kaufman, Academic Press, 2001 [6] H T Bao, Knowledge Discovery and Data Mining Techniques and, http://www.jaist.ac.jp/~bao/ [7] U P.E, Article: Incremental induction of Decision Trees, Univerity of Massacuhsetts, 1989 [8] B P Hofer J., Distributed Decision Tree Induction within the Grid Data Mining Framework GridMiner-Core, Institute for Software Science,AUT, March 2004 [9] Q J.R, Machine Learning 1, Boston - Manufactured in The Netherlands: Kluwer Academic Publishers, 1986 [10] L Breiman, "Random Forests," Machine Learning Journal Paper, vol 45, 2001 54 [11] H Deng and G Runger, "Feature selection via regularized trees," in International Joint Conference on Neural Networks(IJCNN), 2012 [12] H Deng and G Runger, "Gene selection with guided regularized random forest," Journal of Pattern Recognition, vol 46, pp 34833489, 2013 [13] M K e a Halushka, "Patterns of single-nucleotide polymorphisms in candidate genes for blood-pressure," Nature Genet., vol 22, p 239–247, 1999 [14] Y Y Y L a M K N Q Wu, "Snp selection and classification of genome-wide snpdata using stratified," The Journal of IEEE Transactions on NanoBioscience, vol 11, no 3, p 216–227, 2012 [15] Leo Breiman, Jerome Friedman, Charles J Stone, R.A Olshen, Classification and Regression Trees, Taylor & Francis, 1984 [16] Nguyen, Thanh-Tung, Joshua Z Huang, and Thuy Thi Nguyen "Two-level quantile regression forests for bias correction in range prediction." Machine Learning 101.1-3 (2015): 325-343 [17] Bradley Efron, Bootstrap Methods: Another Look at the Jackknife, The Annals of Statistics, 1979 [18] Thanh-Tung Nguyen, Huong Nguyen, “Classifying gene data with regularized,” 2005 [19] Quinlan, J R C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, 1993 [20] Han Jiawei, Micheline Kamber, Data Mining: Concepts and Techniques, 2000 ... (2.3.5) dùng để lựa chọn thuộc tính mơ hình cải tiến đề cập chương 39 CHƯƠNG RỪNG NGẪU NHIÊN CẢI TIẾN CHO BÀI TOÁN LỰA CHỌN THUỘC TÍNH TRONG DỮ LIỆU CĨ SỐ CHIỀU CAO 3.1 Rừng ngẫu nhiên kiểm sốt... 14 1.3 Lựa chọn thuộc tính 15 1.3.1 Vai trị lựa chọn thuộc tính khai phá liệu 15 1.3.2 Chọn lựa thuộc tính toán phân loại 16 CHƯƠNG CÂY QUYẾT ĐỊNH VÀ RỪNG NGẪU NHIÊN 17 2.1... giải toán phân loại liệu gen Mục đích nghiên cứu Mục tiêu nghiên cứu luận văn tìm hiểu thuật tốn lựa chọn thuộc tính tốn phân loại rừng ngẫu nhiên, rừng ngẫu nhiên có kiểm sốt, rừng ngẫu nhiên điều

Định dạng
Số trang	58
Dung lượng	1,55 MB