Rừng ngẫu nhiên cải tiến cho lựa chọn thuộc tính và phân loại dữ liệu gen

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ VĂN LUÂN RỪNG NGẪU NHIÊN CẢI TIẾN CHO LỰA CHỌN THUỘC TÍNH VÀ PHÂN LOẠI DỮ LIỆU GEN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ VĂN LUÂN RỪNG NGẪU NHIÊN CẢI TIẾN CHO LỰA CHỌN THUỘC TÍNH VÀ PHÂN LOẠI DỮ LIỆU GEN Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật phần mềm Mã số : 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Thanh Tùng HÀ NỘI, 2017 i LỜI CAM ĐOAN Tơi xin cam đoan kiến thức trình bày luận văn tơi tìm hiểu, nghiên cứu trình bày theo cách hiểu thân hướng dẫn trực tiếp của Tiến sĩ Nguyễn Thanh Tùng Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Mọi chép không hợp lệ, vi phạm quy chế đào tạo tơi xin chịu hồn tồn trách nhiệm TÁC GIẢ LUẬN VĂN Vũ Văn Luân ii LỜI CẢM ƠN Để hoàn thành luận văn thạc sỹ này, trước hết xin gửi lời cảm ơn sâu sắc đến TS Nguyễn Thanh Tùng Thầy cung cấp cho kiến thức, tài liệu, phương pháp nghiên cứu vấn đề mang tính khoa học Thầy thường xun đưa giúp tơi có ý tưởng làm luận văn Tôi xin chân thành cảm ơn thầy hỗ trợ chân thành nhiệt tình suốt thời gian qua Tơi xin cảm ơn PGS TS Hoàng Xuân Huấn, với giúp đỡ Thầy qua lần thảo luận giúp tơi hồn thành luận văn hạn Tơi xin chân thành cảm ơn thầy, cô giáo Bộ môn Công nghệ phần mềm, Khoa Công nghệ thông tin – Phòng Đào tạo sau đại học – Nghiên cứu Khoa học, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp tạo điều kiện cho suốt thời gian học tập rèn luyện trường Đại học Công nghệ - Đại học Quốc gia Hà Nội TÁC GIẢ LUẬN VĂN Vũ Văn Luân MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG MỞ ĐẦU CHƯƠNG GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU VÀ LỰA CHỌN THUỘC TÍNH 1.1 Khai phá liệu 1.1.1 Tổng quan khai phá liệu 1.1.2 Nhiệm vụ khai phá liệu 1.1.3 Quá trình khai phá liệu 10 1.2 Một số kỹ thuật khai phá liệu 11 1.2.1 Phân nhóm liệu 12 1.2.2 Phân loại liệu 14 1.3 Lựa chọn thuộc tính 15 1.3.1 Vai trị lựa chọn thuộc tính khai phá liệu 15 1.3.2 Chọn lựa thuộc tính toán phân loại 16 CHƯƠNG CÂY QUYẾT ĐỊNH VÀ RỪNG NGẪU NHIÊN 17 2.1 Khái niệm chung 17 2.1.1 Phân loại dự đoán 17 2.1.2 Cây định 18 2.2 Các thuật toán học định 19 2.2.1 Thuật toán CLS 19 2.2.2 Thuật toán ID3 20 2.2.3 Thuật toán C4.5 25 2.2.4 Kết luận 28 2.3 Thuật toán Rừng ngẫu nhiên (Random Forest) 29 2.3.1 Khái niệm 29 2.3.2 Thuật toán Rừng ngẫu nhiên 34 CHƯƠNG RỪNG NGẪU NHIÊN CẢI TIẾN CHO BÀI TỐN LỰA CHỌN THUỘC TÍNH TRONG DỮ LIỆU CÓ SỐ CHIỀU CAO 40 3.1 Rừng ngẫu nhiên kiểm sốt có điều hướng 40 3.1.1 Rừng ngẫu nhiên có kiểm sốt 40 3.1.2 Rừng ngẫu nhiên kiểm sốt có điều hướng 41 3.2 Cải tiến trọng số thuộc tính cho GRRF 43 CHƯƠNG THỰC NGHIỆM TRÊN MÔI TRƯỜNG R VÀ ĐÁNH GIÁ KẾT QUẢ 47 4.1 Dữ liệu thực nghiệm 47 4.2 Kết thực nghiệm 48 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Tiếng Anh Nghĩa Tiếng Việt RF Random Forest Rừng ngẫu nghiên RRF Regularized Random Forest Rừng ngẫu nhiên có kiểm sốt GRRF Guided Regularized Random Forests Rừng ngẫu nhiên điều hướng SNP Single Nucleotide Polymorphism GWAS Genome-wide association studies KDD Knowledge Discovery and Data Mining SVM Support Vector Machine Phát tri thức khai phá liệu DANH MỤC CÁC HÌNH VẼ Hình 1.1.1: Quá trình phát tri thức Hình 1.1.2: Quá trình khai phá liệu 11 Hình 1.2.1: Mẫu kết nhiệm vụ phân nhóm liệu 12 Hình 1.2.2: Mẫu kết nhiệm vụ hồi quy 13 Hình 1.2.3: Ví dụ định 15 Hình 2.3.1: Mơ hình hoạt động Bagging 30 Hình 2.3.2: Sơ đồ kết hợp phân loại nhờ bỏ phiếu 32 Hình 2.3.3: Sơ đồ học tập thể học 33 Hình 2.3.4: Thuật tốn Random Forest 35 Hình 4.2.1: Biểu đồ so sánh độ xác thuật tốn 51 Hình 4.2.2: So sánh số lượng thuộc tính lựa chọn mơ hình 52 DANH MỤC CÁC BẢNG Bảng 2.2.1: Mơ tả thuật toán CLS 20 Bảng 2.2.2: Mơ tả thuật tốn ID3 23 Bảng 3.2.1: Ma trận mơ tả độ quan trọng thuộc tính tất gen thật gen rác 44 Bảng 4.1.1: Mô tả tập liệu thực nghiệm 48 Bảng 4.2.1: So sánh phương pháp với số lượng K thay đổi Các giá trị có font đậm kết tốt mơ hình 49 Bảng 4.2.2: So sánh mơ hình với tham số cố định tối ưu mTry= 𝑀, K=500 50 MỞ ĐẦU Hiện nay, kỹ thuật phân loại liệu sử dụng rông rãi hầu hết lĩnh vực khác trí tuệ nhân tạo phân loại văn bản, phân loại chữ viết tay, phân loại hình ảnh, phân loại gen,… Mỗi gen đảm nhận chức có mối liên hệ với gen khác Việc phân loại gen xác định vị trí tương đối chúng với gen khác Bài toán phân loại liệu gen có nhiệm vụ xác định chức gen Thơng thường, gen mã hóa protein tương ứng Các protein đảm nhiệm vai trò hay chức khác thể sinh vật Các chức gen/protein đa dạng, từ đóng vai trị phản ứng sinh hóa tế bào, tới tương tác điều hòa hoạt động gen khác Việc xác định chức gen sản phẩm gen nhiệm vụ quan trọng sinh học phân tử tin sinh học Trong thực tế có nhiều phương pháp phân loại liệu, phương pháp lại có đặc điểm riêng phù hợp với đối tượng liệu cần phân loại Luận văn trình bày phương pháp rừng ngẫu nhiên để giải toán phân loại liệu gen Mục đích nghiên cứu Mục tiêu nghiên cứu luận văn tìm hiểu thuật tốn lựa chọn thuộc tính tốn phân loại rừng ngẫu nhiên, rừng ngẫu nhiên có kiểm sốt, rừng ngẫu nhiên điều hướng Từ đề xuất phương pháp cải tiến để nâng cao hiệu thuật toán rừng ngẫu nhiên điều hướng Đối tượng phạm vi nghiên cứu Đối tương nghiên cứu đề tài liệu gen đó, số lượng cá thể gồm 50% bệnh nhân mắc bệnh 50% không mắc bệnh, dùng để đối chứng Phạm vi nghiên cứu luận văn tập trung vào mô hình rừng ngẫu nhiên dùng để phân loại liệu gen cho Từ đề xuất cải tiến để nâng cao hiệu mơ hình rừng ngẫu nhiên việc phân loại liệu gen Phương pháp nghiên cứu 49 50, 100, 200, 500, 1000} Với lần kiểm tra chéo thực với K khác nhau, sau lấy kết trung bình lần chạy để đánh giá độ xác mơ hình, kết liệt kê sau: STT Tập liệu Brain_Tumor1 Brain_Tumor2 DLBCL Prostate_Tumor Tumors.11 Tumors.14 EMBRYONAL_ TUMOURS_C Leukemia1 Leukemia2 10 Lung_Cancer K Phương pháp eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF eGRRF GRRF RF 20 0.83 0.85 0.85 0.88 0.74 0.72 50 0.89 0.83 0.81 0.8 0.73 0.72 100 0.9 0.88 0.87 0.86 0.82 0.76 200 0.88 0.86 0.82 0.86 0.76 0.76 500 0.87 0.82 0.83 0.84 0.78 0.74 1000 0.87 0.88 0.83 0.86 0.81 0.79 0.92 0.86 0.90 0.94 0.88 0.91 0.86 0.84 0.87 0.48 0.56 0.63 0.70 0.58 0.58 0.94 0.95 0.93 0.94 0.92 0.91 0.88 0.93 0.88 0.88 0.91 0.89 0.88 0.53 0.63 0.62 0.76 0.68 0.63 0.99 0.93 0.93 0.96 0.93 0.93 0.86 0.94 0.93 0.92 0.93 0.89 0.87 0.53 0.67 0.64 0.75 0.58 0.62 0.97 0.97 0.96 0.96 0.92 0.91 0.89 0.92 0.91 0.90 0.93 0.89 0.87 0.55 0.64 0.60 0.78 0.67 0.65 0.97 0.97 0.93 0.95 0.92 0.88 0.88 0.92 0.92 0.90 0.92 0.89 0.88 0.58 0.66 0.66 0.74 0.61 0.60 0.96 0.96 0.96 0.96 0.94 0.91 0.90 0.92 0.92 0.91 0.91 0.86 0.87 0.58 0.66 0.65 0.78 0.63 0.68 0.97 0.94 0.94 0.95 0.90 0.93 0.94 0.91 0.91 0.94 0.94 0.94 0.94 0.93 0.93 0.96 0.94 0.94 0.91 0.91 0.92 0.95 0.93 0.92 0.96 0.97 0.95 0.93 0.91 0.97 0.97 0.95 0.92 0.92 Bảng 4.2.1: So sánh phương pháp với số lượng K thay đổi Các giá trị có font đậm kết tốt mơ hình 50 Trong bảng 4.2.1 so sánh phương pháp RF, GRRF, eGRRF ta thấy với số lượng thay đổi hầu hết trường hợp mơ hình eGRRF cho độ xác cao so với phương pháp khác, chẳng hạn với liệu Leukemia2 số lượng thay đổi độ xác thuật tốn đạt độ xác từ 95-96%, với liệu Lung_Cancer đạt từ 9495% tương ứng Bảng 4.2.2 liệt kê kết phân loại gen mơ hình với tham số đầu vào cố định (tối ưu cho mơ hình), cột cuối bảng trình bày số lượng gen trung bình chọn eGRRF GRRF Các gen chọn xem gen có độ quan trọng cao gen lại tham gia xây dựng mơ hình rừng ngẫu nhiên Các gen chọn kết quan trọng cho toán lựa chọn gen, mơ hình chọn số lượng gen có độ xác phân loại gen cao mơ hình tốt Trong phần thực nghiệm này, tham số tối ưu 𝑚𝑇𝑟𝑦 = √𝑀 số rừng K=500 dặt giá trị cố định thực mơ hình rừng ngẫu nhiên (eGRRF, GRRF, RF), giá trị 𝐶 = 2−5 đặt cố định cho mơ hình SVM tuyến tính Tương tự, phương pháp kiểm tra chéo thực lần lấy kết trung bình để đánh giá độ xác mơ hình STT 10 Tập liệu Brain_Tumor1 Brain_Tumor2 DLBCL Prostate_Tumor Tumors.11 Tumors.14 EMBRYONAL_ TUMOURS_C Leukemia1 Leukemia2 Lung_Cancer eGRRF 0.87 0.88 0.94 0.92 0.90 0.56 0.71 0.96 0.96 0.95 Phương pháp Số lượng thuộc tính lựa chọn GRRF RF SVM FS.eGRRF FS.GRRF 0.86 0.85 0.74 1084.6 2393.8 0.82 0.78 0.74 896.6 1782 0.91 0.90 0.91 520.8 1243 0.89 729.6 2077.2 0.92 0.91 0.87 0.86 0.78 2819.8 6431 0.54 2886.6 9620.6 0.64 0.64 0.60 0.96 0.96 0.94 0.60 0.92 0.97 0.93 0.68 0.83 0.92 0.90 532.6 437.4 524.4 1446 1673.8 1482.8 1670.4 3327.8 Bảng 4.2.2: So sánh mơ hình với tham số cố định tối ưu mTry= √𝑀, K=500 51 Độ xác thuật tốn 100% 80% 60% 40% 20% 0% Phương pháp Phương pháp Phương pháp Phương pháp Hình 4.2.1: Biểu đồ so sánh độ xác thuật tốn Trong bảng 4.2.2 hình 4.2.1 ta thấy với tham số tối ưu cho mơ hình với mơ hình eGRRF cho giá trị dự đốn xác cao so với phương pháp RF, GRRF SVM Như với liệu Leukemia1 Leukemia2 với mơ hình eGRRF kết dự đốn xác đến 96% Điều cho thấy eGRRF sử dụng thuộc tính có độ quan trọng lớn từ RF truyền thống để “hướng dẫn” trình lựa chọn thuộc tính phân tách nút làm giảm số chiều cho tập gen dẫn đến làm tăng hiệu phân loại 10 liệu gen Cột FS.eGRRF liệt kê số lượng gen chọn để xây dựng mơ hình eGRRF cột FS.GRRF thống kê số lượng gen GRRF chọn sau lần chạy theo phương pháp 5-fold Ta thấy, số lượng gen mà eGRRF chọn nhiều so với GRRF tất 10 liệu kết phân loại có độ xác cao hơn, kết minh họa rõ hình 4.2.2 Mơ hình eGRRF đạt kết phân loại tốt chứng tỏ phương pháp tạo trọng số cho gen trình bày cải thiện rõ rệt cho toán phân loại lựa chọn gen, đặc biệt kiểu liệu ln gây khó khăn lớn cho mơ hình máy học số chiều lớn cỡ mẫu nhỏ 52 Số lượng thuộc tính lựa chọn mơ hình 12000 10000 8000 6000 4000 2000 Số lượng thuộc tính lựa chọn mơ hình Số lượng thuộc tính lựa chọn mơ hình Hình 4.2.2: So sánh số lượng thuộc tính lựa chọn mơ hình Như vậy, với kết thực nghiệm ta thấy mơ hình eGRRF cho kết dự đốn có độ xác cao khả trích chọn gen hiệu hẳn RF, GRRF, SVM Những kết lần chứng minh thực nghiệm, mô hình eGRRF cải thiện đáng kể độ xác phân loại so với mơ hình khác RF, SVM GRRF Mơ hình rừng ngẫu nhiên eGRRF có cải tiến cách tạo trọng số xem mơ hình hữu hiệu dùng cho phân tích liệu gen nói chung 53 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong khuôn khổ luận văn, sở lý thuyết học máy số thuật toán áp dụng giải lựa chọn thuộc tính tìm hiểu Chúng tơi tập trung nghiên cứu thuật toán Random Forest biến thể cải tiến Random Forest rừng ngẫu nhiên có kiểm sốt RRF, rừng ngẫu nhiên kiểm sốt có điều hướng GRRF Từ tìm hiểu này chúng tơi đề xuất hướng cải tiến cách đánh trọng số cho GRRF nhằm tăng hiệu thuật toán phân loại đặc biệt với liệu có số chiều cao Để chứng minh tính hiệu mơ hình cải tiến, thực nghiệm tiến hành 10 liệu gen Từ kết thực nghiệm đạt 10 liệu gen thấy độ xác mơ hình cải tiến eGRRF tương đối ổn định đạt hiệu cao so với phương pháp RF, RRF, phương pháp GRRF Qua đó, đóng góp thêm chọn lựa cho nhà phát triển ứng dụng phát triển ứng dụng liên quan đến phân loại liệu Với đóng góp luận văn này, chúng tơi hi vọng góp phần giải phần nhỏ liên quan đến tốn khai phá liệu nói chung tốn phân loại liệu nói riêng Tơi hi vọng từ đóng góp xây dựng lên hệ thống đánh giá dự đoán áp dụng cách thiết thực vào đời sống xã hội 54 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Hồng Xn Huấn, “Giáo trình học máy”, Trường Đại học Công nghệ - Đại 1] học Quốc gia Hà Nội, 2015 Hoàng Thị Hà , Nguyễn Thanh Tùng, “Cải tiến phương pháp rừng ngẫu 2] nhiên có điều hướng để áp dụng cho liệu SNP”, Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công Nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 Tài liệu tiếng Anh [3] M Stratton, "Genome-wide association study of 14 000 cases of seven common diseases and 3000 shared," The Journal of Nature, vol 447, no 7145, p 661–678, 2007 [4] L NikhilR.Pal, "Advanced Techniques in Knowledge Discovery and DataMining," Springer, 2005 [5] H J a K M., Data Mining: Concepts and Techniques, Morgan Kaufman, Academic Press, 2001 [6] H T Bao, Knowledge Discovery and Data Mining Techniques and, http://www.jaist.ac.jp/~bao/ [7] U P.E, Article: Incremental induction of Decision Trees, Univerity of Massacuhsetts, 1989 [8] B P Hofer J., Distributed Decision Tree Induction within the Grid Data Mining Framework GridMiner-Core, Institute for Software Science,AUT, March 2004 [9] Q J.R, Machine Learning 1, Boston - Manufactured in The Netherlands: Kluwer Academic Publishers, 1986 [10] L Breiman, "Random Forests," Machine Learning Journal Paper, vol 45, 2001 55 [11] H Deng and G Runger, "Feature selection via regularized trees," in International Joint Conference on Neural Networks(IJCNN), 2012 [12] H Deng and G Runger, "Gene selection with guided regularized random forest," Journal of Pattern Recognition, vol 46, pp 34833489, 2013 [13] M K e a Halushka, "Patterns of single-nucleotide polymorphisms in candidate genes for blood-pressure," Nature Genet., vol 22, p 239–247, 1999 [14] Y Y Y L a M K N Q Wu, "Snp selection and classification of genome-wide snpdata using stratified," The Journal of IEEE Transactions on NanoBioscience, vol 11, no 3, p 216–227, 2012 [15] Leo Breiman, Jerome Friedman, Charles J Stone, R.A Olshen, Classification and Regression Trees, Taylor & Francis, 1984 [16] Nguyen, Thanh-Tung, Joshua Z Huang, and Thuy Thi Nguyen "Two-level quantile regression forests for bias correction in range prediction." Machine Learning 101.1-3 (2015): 325-343 [17] Bradley Efron, Bootstrap Methods: Another Look at the Jackknife, The Annals of Statistics, 1979 [18] Thanh-Tung Nguyen, Huong Nguyen, “Classifying gene data with regularized,” 2005 [19] Quinlan, J R C4.5: Programs for Machine Learning Morgan Kaufmann Publishers, 1993 [20] Han Jiawei, Micheline Kamber, Data Mining: Concepts and Techniques, 2000 DAI HQC QUOC GIA HA NQI C

Định dạng
Số trang	67
Dung lượng	4,86 MB