(LUẬN văn THẠC sĩ) tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HỒNG VĂN TRÌU TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TÍNH TỐI ƯU NHẰM TĂNG HIỆU QUẢ PHÂN TÍCH TRONG PHÂN TÍCH DỮ LIỆU LỚN LUẬN VĂN THẠC SỸ - NGÀNH CÔNG NGHỆ THÔNG TIN TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ HỒNG VĂN TRÌU TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TÍNH TỐI ƯU NHẰM TĂNG HIỆU QUẢ PHÂN TÍCH TRONG PHÂN TÍCH DỮ LIỆU LỚN Ngành: Cơng nghệ thơng tin Chuyên ngành: Kỹ thuật phần mềm Mã Số: 60480103 LUẬN VĂN THẠC SỸ - NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM HÀ NỘI - 2015 TIEU LUAN MOI download : skknchat@gmail.com Lời cam đoan Tơi xin cam đoan luận văn “ Tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu phân tích phân tích liệu lớn ” cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn hồn tồn trung thực Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan Ngoại trừ tài liệu tham khảo này, luận văn hồn tồn cơng việc riêng tơi Luận văn hồn thành thời gian tơi học viên Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, ngày 31 tháng 08 năm 2015 Học viên Hoàng Văn Trìu TIEU LUAN MOI download : skknchat@gmail.com Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam tận tình hướng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tơi chân thành cảm ơn anh nghiên cứu sinh Hà Văn Sang anh nghiên cứu sinh Lữ Đăng Nhạc tận tình bảo trình thực luận văn Tơi cảm ơn người bạn nhóm nghiên cứu PGS.TS Nguyễn Hà Nam bên chia sẻ kinh nghiệm học tập sống Tôi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại học Công Nghệ Tôi xin gửi lời cảm ơn tới bạn lớp cao học K19 ủng hộ, khuyến khích tơi suốt q trình học tập trường Tôi xin chân thành cảm ơn! Hà Nội, ngày 31 tháng 08 năm 2015 Học viên Hồng Văn Trìu TIEU LUAN MOI download : skknchat@gmail.com Mục lục Giới thiệu Chương Giới thiệu Khai phá liệu 1.1 Tổng quan Khai phá liệu 1.2 Tổng quan trích chọn thuộc tính 2.3 Kết luận Chương Họ thuật toán k-Láng giềng gần Thuật toán Di truyền 2.1 Họ thuật toán k-Láng giềng gần 2.1.1 Khái niệm 2.1.2 Thuật toán Láng giềng gần (NN) 2.1.3 Thuật toán k-Láng giềng gần (kNN) 2.1.4 Thuật toán Đánh trọng số k-Láng giềng gần (WkNN) 10 2.1.5 Thuật toán Hàm nhân k-Láng giềng gần (Kernel k-NN) 15 2.2 Thuật toán Di truyền (GA) 18 2.2.1 Giới thiệu 18 2.2.2 Thuật toán Di truyền (GA) 19 2.3 Kết luận 24 Chương Mơ hình GA_Kernel k-NN kết thực nghiệm 26 3.1 Giới thiệu 26 3.2 Mơ hình GA_Kernel k-NN 26 3.2.1 Kiến trúc GA_Kernel k-NN 26 3.2.2 Môi trường thực nghiệm 29 3.2.3 Mơ tả chương trình 29 3.3 Kết thực nghiệm 32 3.3.1 Dữ liệu sử dụng 32 3.3.2 Kết chạy liệu Arcene 33 3.3.3 Kết chạy liệu DLBCL (Diffuse large B-cell lymphoma) 37 3.4 Kết luận 41 Kết luận 42 Tài liệu tham khảo 43 TIEU LUAN MOI download : skknchat@gmail.com Danh mục hình vẽ Hình 1.1: Quá trình phát tri thức sở liệu Hình 1.2 : Hướng tiếp cận Filter Hình 1.3 : Hướng tiếp cận Wrapper Hình 2.1: Ví dụ thuật tốn kNN 10 Hình 2.2: Ví dụ thuật tốn WkNN 14 Hình 2.3 : Các thành phần thuật toán GA 20 Hình 2.4 : Các tốn tử thuật toán GA 24 Hình 3.1:Mơ hình thuật tốn GA_Kernel k-NN 28 Hình 3.2: Độ xác GA_RF GA_Kernel k-NN liệu Arcene 34 Hình 3.3: Thuộc tính chọn GA_RF GA_Kernel k-NN liệu Arcene 35 Hình 3.4: Độ xác GA_Kernel k-NN công bố khác Arcene 37 Hình 3.5: Độ xác GA_RF GA_Kernel k-NN liệu DLBCL 38 Hình 3.6: Thuộc tính chọn GA_RF GA_Kernel k-NN liệu DLBCL 39 Hình 3.7: Độ xác GA_Kernel k-NN cơng bố khác DLBCL 41 TIEU LUAN MOI download : skknchat@gmail.com Danh mục bảng Bảng 2.1: Các hàm trọng số tiêu biểu 11 Bảng 2.2: Một số hàm nhân hay dùng 16 Bảng 3.1: Danh sách tên hàm cài đặt thuật toán GA_Kernel k-NN 32 Bảng 3.2: Tổng quan liệu sử dụng 33 Bảng 3.3: Tóm tắt độ xác GA_Kernel k-NN GA_RF Arcene 34 Bảng 3.4: Số thuộc tính trích trọn GA_Kernel k-NN GA_RF Arcene 35 Bảng 3.5: Độ xác GA_Kernel k-NN cơng bố Arcene 36 Bảng 3.6: Tóm tắt độ xác GA_Kernel k-NN GA_RF DLBCL 38 Bảng 3.7: Số thuộc tính trích chọn GA_Kernel k-NN GA_RF DLBCL 39 Bảng 3.8: Độ xác GA_Kernel k-NN công bố DLBCL 40 TIEU LUAN MOI download : skknchat@gmail.com Danh mục viết tắt STT Thuật ngữ Từ viết tắt Nearest Neighbors NN Genetic Algorithms GA Genetic Algorithms_Kernel k-Nearest Neighbors GA_Kernel k-NN Genetic Alorithms_Random Forest GA_RF Weighted k-Nearest Neighbors WkNN k-Nearest Neighbors kNN Kernel k-Nearest Neighbor Kernel k-NN Random Forest RF Proximity Measure - Support Vector Machine Rfprox-SVM TIEU LUAN MOI download : skknchat@gmail.com Giới thiệu Khoa học kỹ thuật phát triển, với phát triển khơng ngừng liệu kích thước chủng loại Nhiệm vụ khai phá liệu nói chung nghiên cứu thuật tốn phân lớp nói riêng trở nên ngày thiết đóng vai trị trung tâm việc giải toán cụ thể Thực tế cho thấy, tìm số thuật tốn phù hợp với số loại liệu cụ thể bị giới hạn kích thước liệu Kết thuật toán phụ thuộc nhiều vào việc xử lý liệu thô Trong khai phá liệu, phương pháp trích chọn đóng vai trị quan trọng tiền xử lý số liệu, đặc biệt ngành tin sinh học, xử lý liệu âm thanh, hình ảnh, liệu mạng xã hội Đặc điểm chung lĩnh vực kích thước lớn (hàng trăm, hàng trăm nghìn thuộc tính) số thuộc tính có giá trị dùng để phân tích Trích chọn thuộc tính giúp tìm thuộc tính có ích, loại bỏ thuộc tính dư thừa Phương pháp tác động trực tiếp đến kết thuật toán tăng tốc độ xử lý, cải thiện liệu, tăng hiệu xuất khai phá Thuật toán k-Láng giềng gần (kNN) [10] kỹ thuật bản, đơn giản trực giác lĩnh vực phân tích thống kê Bộ phân lớp dựa thuật toán kNN học lười (lazy learner), khơng cần thực q trình học cho mơ hình Nó cần sử dụng tất đối tượng liệu tập tham chiếu để định gán nhãn lớp cho quan sát Thực nghiệm cho thấy, thuật toán kNN đơn giản, thường cho kết tốt Tuy nhiên hiệu thuật toán hạn chế tảng xây dựng dựa liệu tuyến tính Để áp dụng thuật tốn vào liệu phi tuyến, có nhiều nghiên cứu ứng dụng kỹ thuật khác để biến đổi liệu tuyến tính thành liệu phi tuyến Hướng tiếp cận luận văn sử dụng phép biến đổi từ không gian ban đầu sang khơng gian sau áp dụng thuật tốn kNN Việc tính tốn khơng gian phi tuyến cơng việc thuật tốn Hàm nhân – k Láng giềng gần (Kernel - k Nearest Neighbor) [12] Thuật toán Di truyền (GA) [1] kỹ thuật tìm kiếm tối ưu ngẫu nhiên theo trình thích nghi tiến hóa quần thể sinh vật Tư tưởng thuật tốn GA mơ phát triển tự nhiên, kế thừa đấu tranh sinh tồn TIEU LUAN MOI download : skknchat@gmail.com sinh vật Thực tế có sinh vật liên tục tiến hóa để thích nghi với hồn cảnh tồn phát triển GA xét đến toàn lời giải cách, trước tiên chọn tập lời giải sau loại bỏ lời giải khơng thích hợp chọn lời giải thích hợp để tiến hành lai ghép đột biến nhằm mục đích tạo nhiều lời giải có độ thích nghi ngày cao GA giúp tìm lời giải tối ưu hay tốt điều kiện thời gian không gian cho phép Trong luận văn đưa cách tiếp cận mới, kết hợp thuật toán GA Kernel k-NN theo mơ hình Wrapper GA giúp tìm tập thuộc tính Kernel k-NN trả kết hàm mục tiêu GA Hay nói cách khác, GA chọn tập thuộc tính coi tốt quần thể thuộc tính, tập thuộc tính tốt hiểu ngữ cảnh thuộc tính trích chọn giúp phân lớp tốt dựa kết hàm tính khoảng cách thuật tốn Kernel k-NN GA giúp tăng độ xác phân lớp nhờ việc tối ưu liệu đầu vào cho thuật toán Kernel k-NN Nội dung luận văn chia thành chương sau: Chương 1: Giới thiệu Khai phá liệu Chương 2: Cơ sở lý thuyết Chương 3: Mô hình GA_Kernel k-NN kết thực nghiệm Kết luận: Tóm lược kết đạt luận văn TIEU LUAN MOI download : skknchat@gmail.com 30 - Hoạt động thuật toán GA_Kernel k-NN Bước 1: Dữ liệu ban đầu giảm chiều (giảm nhiễu) thông qua lọc nearZeroVar, findCorrelation, filterVarImp predict Bước : Chia ngẫu nhiên tập liệu thành hai tập: liệu huấn luyện liệu kiểm chứng Kích thước hai tập theo tỉ lệ 70/30 Bước : Tập huấn luyện ma trận kích cỡ m x n, với n số cột thuộc tính m số dòng (Gen) Tiến hành khởi tạo quần thể ban đầu, thuật toán GA tạo chuỗi Gen hệ Bước : Từ giá trị bít (trong chuỗi Gen) xác định số thuộc tính chọn Xây dựng ma trận tham số đầu vào hàm mục tiêu GA Trong thuật tốn Kernel k-NN chia thuộc tính thành hai tập liệu huấn luyện và tập liệu kiểm chứng, theo tỉ lệ 70/30 Bước : Từ công thức ánh xạ phi tuyến 2.6 Dựa liệu huấn luyện tập liệu kiểm chứng, Tính ma trận chuyển đổi dựa hàm nhân Radial Basis ( , ) = exp − ‖ ‖ (2.9) Bước : Tính khoảng cách chuẩn khơng gian đối tượng quan sát tập liệu kiểm chứng với đối tượng quan sát tập liệu huấn luyện Sử dụng công thức: ( ), ( ) = ‖ ( ) − ( )‖ = 〈 ( ), ( )〉 − 2〈 ( ), ( )〉 + 〈 ( ), ( )〉 (2.8) = ( , )−2 ( , )+ ( , ) Bước : Với quan sát tập kiểm chứng, ta chọn k+1 láng giềng gần tập huấn luyện Bước : Thực chuẩn hóa k khoảng cách đối tượng quan sát tập kiểm chứng (ứng với k láng giềng gần nhất) sử dụng láng giếng gần thứ k+1 Ta có: ∈ [0,1), ( = 1, , = 1, ) Với m kích thước tập kiểm chứng Bước 9: Phân lớp cho quan sát tập kiểm chứng Tính tỉ lệ lỗi: TIEU LUAN MOI download : skknchat@gmail.com 31 = với ≤ ổ ố ố á ị ℎâ ậ ể ℎứ (2.10) ≤ Tính độ xác = Bước 10 : Ghi nhớ tập thuộc tính và độ xác phân lớp tương ứng Bước 11 : Sử dụng thủ tục lại tạo, chọn lọc, đột biến để xây dựng chuỗi Gen (bộ thuộc tính) Thế hệ tiếp theo, thực bước Bước 12 : Kết thúc, dựa vào danh sách ghi nhớ bước 10, xác định tập thuộc tính có độ xác phân lớp cao chuỗi Gen tốt Tóm lại : thuật tốn GA giúp tìm thuộc tính tối ưu (giảm chiều liệu) để tăng hiệu phân tích (phân lớp) thuật tốn Kernel k-NN - Cài đặt thuật toán Tên hàm Diễn giải gafs(x, y, iters = 3, popSize = 150 Hàm chính, nhận tham số ma trận liệu, vector lớp tương ứng, số lần ) khởi tạo quần thể, số lần chuỗi Gen tạo createFolds ( ), lapply ( ) Một số hàm sử dụng từ thư viện R, thư viện Caret, chọn liệu ngẫu nhiên theo tập liêu huấn luyện tập liệu kiểm chứng ga_select (x, y, iters = 3, popSize Hàm xây dựng chuỗi Gen thông qua phương thức chọn lọc, lai tạo đột = 150 ) biến thuật toán GA ga_wrapper (ind, x, y, funcs ) Sử dụng thuật toán Kernel k-NN làm hàm mục tiêu thuật tốn GA print.gafs (x ) Hiển thị thơng tin đối tượng thuật toán GA TIEU LUAN MOI download : skknchat@gmail.com 32 kernelKNN.cv (xtr, ytr, cv.fold=5, kvalue, sigma=0.066, isweight) Từ tập thuộc tính : - Phân chia ngẫu nhiên thành hai tập huấn luyện kiểm chứng - Xây dựng ma trận chuyển đổi (dùng công thức 2.6), sử dụng tham số sigma ( ) tính giá trị cơng thức Radial Basis – Thuật tốn Kernel k-NN phân lớp trả độ xác phân lớp kernelKNN.predict (kxtrtr, kxtrte, kxtete, y, kvalue=5, ytr, isweight=TRUE) Từ ma trận chuyển đổi: - Sử dụng công thức 2.8, tính khoảng cách đối tượng quan sát tập liệu kiểm chứng với đối tượng quan sát tập liệu huấn luyện - Chuẩn hóa k khoảng cách (kvalue) đối tượng quan sát tập kiểm chứng (ứng với k láng giềng gần nhất) sử dụng láng giếng gần thứ k+1 Bảng 3.1: Danh sách tên hàm cài đặt thuật toán GA_Kernel k-NN 3.3 Kết thực nghiệm 3.3.1 Dữ liệu sử dụng Trong luận văn sử dụng hai liệu Gen thông dụng Đặc điểm chung hai số thuộc tính lớn số mẫu tương đôi nhỏ Dữ liệu DLBCL (Diffuse large B-cell lymphoma) liệu mở nghiên cứu bệnh nhân ung thư [4] Dữ liệu Arcene lấy từ UCI Machine Learning Reposotory (https://archive.ics.uci.edu/ml) Hai liệu phân làm hai lớp tương ứng với Gen (có bệnh / bình thường) Bảng 3.2 mơ tả tổng quan liệu sử dụng bao gồm tên, số thuộc tính, số mẫu (số lượng Gen), số lớp TIEU LUAN MOI download : skknchat@gmail.com 33 Dữ liệu Số thuộc tính Số mẫu Số lớp Arcene 10000 100 DLBCL 5469 77 Bảng 3.2: Tổng quan liệu sử dụng Đầu tiên thực việc thu gọn liệu thông qua lọc (trình bày chi tiết mục 3.2.1) Tổng số thuộc tính rút gọn sau : - Bộ liệu Arcene từ 10000 thuộc tính ban đầu giảm cịn 451 thuộc tính - Bơ liệu DLBCL từ 5469 thuộc tính ban đầu giảm cịn 2773 thuộc tính Các liệu liệu đầu thuật toán GA_Kernel k-NN thuật toán GA_RF Thuật toán Rừng ngẫu nhiên (RF) thuật toán điển hình, cho kết phân tích liệu cao Kết hợp giải thuật Di truyền RF giúp nâng cao kết phân tích liệu Việc lấy kết thuật toán GA_RF để đối chiếu, chứng tỏ tính hiệu cao từ thuật tốn tơi để xuất Tơi sử dụng tổng số thuộc tính trích chọn độ xác phân lớp tiêu trí để so sánh Hai thuật tốn chạy 50 lần để kiểm tra độ ổn định 3.3.2 Kết chạy liệu Arcene - Bộ liệu Arcene : Bộ liệu Arcene gồm 10000 thuộc tính 100 mẫu Gen liên quan bệnh ung thư, bao gồm mẫu Gen bị bệnh mẫu Gen bình thường Giá trị thuộc tính thu từ việc đo độ tập trung phổ Kiểu liệu thuộc tính kiểu số thực Bộ liệu Arcene luận văn sử dụng, năm liệu tổ chức NIPS (Neural Information Processing Systems) cung cấp Phân tích liệu Arcene, cụ thể việc phân lớp mẫu Gen thách thức NIPS đưa năm 2003 Bộ liệu Arcene đối tượng nghiên cứu điển hình nhiều nhà phân tích liệu - Độ xác phân lớp GA_Kernel k-NN GA_RF Đầu tiên thực việc chuẩn hóa liệu thơng qua lọc nearZeroVar, findCorrelation, filterVarImp predict Bộ liệu Arcene từ 10000 thuộc tính giảm xuống cịn 451 thuộc tính Các lọc loại bỏ nhiều thuộc tính dư thừa số mẫu thuộc tính phân lớp không đổi TIEU LUAN MOI download : skknchat@gmail.com 34 Đối với thuật toán GA_Kernel k-NN xác định tham số đầu vào sau :  GA : số lần khởi tạo quần thể 3, số lần chuỗi Gen tạo 150  Kernel k-NN : tham số k=7, sigma = 0.066, isweightvalue = true Hình 3.2: Độ xác GA_RF GA_Kernel k-NN liệu Arcene Trong Hình 3.2, đường nét đậm thể kết thuật tốn GA_Kernel k-NN tơi Đường nét đứt thể kết thuật toán GA_RF sau chạy 50 lần Độ xác phân lớp (Accuracy) Thuật tốn Thấp Trung bình Cao GA_Kernel k-NN 85.98 % 90.50 % 96.02 % GA_RF 83.04 % 88.12 % 92.01 % Bảng 3.3: Tóm tắt độ xác GA_Kernel k-NN GA_RF Arcene Bảng 3.3 minh họa kết tóm tắt 50 lần thực nghiệm, độ xác phân lớp trung bình sử dụng thuật toán GA_Kernel k-NN cao 2.38 % so với GA_RF Nếu lấy độ xác phân lớp thấp nhất, GA_Kernel k-NN so với GA_RF cao 2.94 % Và lấy độ xác phân lớp cao nhất, GA_Kernel k-NN cao 4.01 % Phương sai độ xác phân lớp chạy thuật tốn GA_Kernel k-NN 2.03 % thuật toán GA_RF 2.12 % - Kết tổng số thuộc tính trích chọn GA_Kernel k-NN GA_RF TIEU LUAN MOI download : skknchat@gmail.com 35 Hình 3.3: Thuộc tính chọn GA_RF GA_Kernel k-NN liệu Arcene Trong Hình 3.3, đường nét đậm thể kết tơi, cịn đường nét đứt thể kết thuật toán GA_RF Số thuộc tính trích chọn Thuật tốn Thấp Trung bình Cao GA_Kernel k-NN 112 213.5 257 GA_RF 87 265.5 409 Bảng 3.4: Số thuộc tính trích trọn GA_Kernel k-NN GA_RF Arcene Với tổng số 450 thuộc tính liệu Arcene, sau thực thuật toán GA_Kernel k-NN, số thuộc tính trung bình giảm cịn 213.5 thuộc tính, trung bình giảm cịn 47.44 % Phương sai 34.97 thuộc tính Đối với thuật tốn GA_RF, số thuộc tính giảm trung bình cịn 265.5 thuộc tính, trung bình giảm cịn 59.00 % Phương sai 75.51 thuộc tính Từ biểu đồ số liệu thống kê cho thấy số lượng thuộc tính trích trọn thuật tốn GA_Kernel k-NN đồng thuận tốn GA_RF - Độ xác phân lớp GA_Kernel k-NN số cơng bố khác Tơi lấy độ xác trung bình sau 50 lần thực nghiệm thuật tốn GA_Kernel k-NN so sánh với số cơng bố Tài liệu [15] cơng bố thuật tốn SBFC (Selective Bayesian Forest Classifier) với độ xác phân lớp 72.20 %, TIEU LUAN MOI download : skknchat@gmail.com 36 phương sai 4.00 %, kết số thuật toán phân lớp điển hình khác Tài liệu [8] cơng bố thuật toán Rfprox-SVM (Proximity Measure and Support Vector Machine) sử dụng hai tham số Jaccard index Kuncheva index với độ xác phân lớp 64.00% 78.00 % Phương pháp Độ xác phân lớp GA_Kernel k-NN 90.05 % +/- 2.03 Rfprox-SVM (Jaccard index) [8] 64.00 % Rfprox-SVM (Kuncheva index) [8] 78.00 % Selective Bayesian Forest Classifier (SBFC) [15] 72.20 % +/- 4.00 Bayesian Additive Regression Trees (BART) 71.60 % +/- 5.00 Random Forest (RF) 73.60 % +/- 9.00 Na’ıve Bayes (NB) 69.00 % +/- Classification and Regression Trees (CART) 63.00 % +/- C5.0 66.00 % +/- Logistic Regression (LR) 52.00 % +/- Support Vector Machines (SVM) 72.00 % +/- Lasso 65.60 % +/- 5.00 Bảng 3.5: Độ xác GA_Kernel k-NN công bố Arcene TIEU LUAN MOI download : skknchat@gmail.com 37 Hình 3.4: Độ xác GA_Kernel k-NN cơng bố khác Arcene Hình 3.4 minh họa cho số liệu Bảng 3.5, Cột vị trí thể cho độ xác phân lớp trung bình thuật tốn GA_Kernel k-NN sau 50 lần thực nghiệm Với độ xác 90.05 % phương sai 2.03 %, việc áp dụng thuật tốn tơi cho kết cao ổn định Đối với liệu Arcene, việc sử dụng số lọc để chuẩn hóa liệu làm số lượng thuộc tính giảm nhiều từ 10000 cịn 451, giúp cải thiện nhiều thời gian thực thi thuật toán đề xuất, cho kết phân lớp cao, phương sai nhỏ, số thuộc tính trích chọn tương đối đồng lần thực nghiệm Vì vậy, việc lựa chọn số lọc áp dụng thuật tốn tơi đề xuất liệu hiệu 3.3.3 Kết chạy liệu DLBCL (Diffuse large B-cell lymphoma) - Mô tả liệu : Bộ liệu DLBCL (Diffuse large B-cell lymphoma) chứa mẫu Gen bệnh ung thư ác tính u lym phơ phổ biến người lớn, mẫu Gen liệu xuất khoảng 50% bệnh nhân Bộ liệu bao gồm 5649 thuộc tính 77 mẫu phân thành hai lớp bị bệnh không bị bệnh, kiểu liệu thuộc tính kiểu số thực - Độ xác phân lớp GA_Kernel k-NN GA_RF TIEU LUAN MOI download : skknchat@gmail.com 38 Việc chuẩn hóa liệu thơng qua lọc nearZeroVar, findCorrelation, filterVarImp predict thực Bộ liệu DLBCL từ 5649 thuộc tính giảm xuống cịn 2773 thuộc tính Các lọc loại bỏ thuộc tính nhiễu số mẫu thuộc tính phân lớp khơng đổi Đối với thuật toán GA_Kernel k-NN xác định tham số đầu vào sau :  GA : số lần khởi tạo quần thể 3, số lần chuỗi Gen tạo 150  Kernel k-NN : tham số k=7, sigma = 0.066, isweightvalue = true Hình 3.5: Độ xác GA_RF GA_Kernel k-NN liệu DLBCL Trong Hình 3.5, đường nét đậm thể kết thuật tốn GA_Kernel k-NN, cịn đường nét đứt thể kết thuật tốn GA_RF Độ xác phân lớp (Accuracy) Thuật tốn Thấp Trung bình Cao GA_Kernel k-NN 85.63 % 89.63 % 93.54 % GA_RF 80.40 % 89.59 % 92.26 % Bảng 3.6: Tóm tắt độ xác GA_Kernel k-NN GA_RF DLBCL Bảng 3.6 tóm tắt kết 50 lần thực nghiệm, tơi thấy độ xác phân lớp sử dụng GA_Kernel k-NN so với GA_RF cao 0.04 % Nếu xét độ xác phân lớp thấp nhất, GA_Kernel k-NN cao 5.23% so với GA_RF.Và xét độ xác phân lớp cao nhất, GA_Kernel k-NN so với GA_RF cao TIEU LUAN MOI download : skknchat@gmail.com 39 1.28 % Phương sai độ xác phân lớp chạy thuật tốn GA_Kernel kNN 1.98 % đó, thuật toán GA_RF 2.15 % Từ số liệu thống kê trên, thuật tốn tơi đề xuất cho kết phân lớp cao ổn định so thuật tốn GA_RF - Kết số thuộc tính trích chọn GA_Kernel k-NN GA_RF Hình 3.6: Thuộc tính chọn GA_RF GA_Kernel k-NN liệu DLBCL Trong hình 3.6, đường nét đậm thể kết tơi, cịn đường nét đứt thể kết chạy thuật tốn GA_RF Số thuộc tính trích chọn Thuật tốn Thấp Trung bình Cao GA_Kernel k-NN 249 546.0 842 GA_RF 258 1093.5 2444 Bảng 3.7: Số thuộc tính trích chọn GA_Kernel k-NN GA_RF DLBCL Với tổng số 2773 thuộc tính liệu DLBCL, sau thực thuật toán GA_Kernel k-NN, số thuộc tính trung bình giảm cịn 546.0 thuộc tính, trung bình giảm cịn 19.69 % Phương sai 162.40 thuộc tính Đối với thuật tốn GA_RF, số thuộc tính giảm trung bình cịn 1093.0 thuộc tính, trung bình giảm cịn 39.42 % Phương sai 549.72 thuộc tính Từ biểu đồ số liệu thống kê cho thấy số lượng thuộc tính trích trọn thuật tốn GA_Kernel k-NN đồng nhiều so thuận toán GA_RF TIEU LUAN MOI download : skknchat@gmail.com 40 - Độ xác phân lớp GA_Kernel k-NN số cơng bố khác Tài liệu [5] đề xuất thuật toán tối ưu hóa phận quần thể PSO (Particle Swarm Optimisation) Thuật tốn kết hợp việc tìm kiếm cục (PSO-LS) sử dụng chế thiết lập tham số gbest (PSO-RG), mơ hình Wrapper sử dụng để trích chọn thuộc tính Việc kết hợp đặt tên thành PSO – LSRG, thuật tốn cho độ xác 98.66 % Tài liệu [8] đề xuất thuật toán Rfprox-SVM (Proximity Measure and Support Vector Machine) tương ứng hai tham số Jaccard index Kuncheva index với độ xác phân lớp 82.00% 90.00 % Tài liệu [9] đề xuất thuật toán kết hợp phi tuyến tảng lựa chọn thuộc tính khơng giám sát (Nonlinear Mixture Models) với độ xác phân lớp 96.25 % Do tài liệu [8, 9] không công bố phương sai phương pháp họ đề xuất, nên lấy độ xác phân lớp cao 50 thực nghiệm chạy thuật toán GA_Kernel k-NN 93.54% để đối chiếu Nếu so tài liệu [9] thuật toán tơi đề xuất cho độ xác phân lớp thấp 2.71%, so tài liệu [5] thuật toán cho độ xác phân lớp thấp 5.12% Nhưng so kết với tài liệu [8], thuật toán GA_Kernel k-NN có độ xác phân lớp cao 11.54 % 3.54% Phương pháp Độ xác phân lớp GA_Kernel k-NN 93.54 % Nonlinear Mixture Models [9] 96.25 % PSO – LSRG [5] 98.66 % Rfprox-SVM (Jaccard index) [8] 82.00 % Rfprox-SVM (Kuncheva index) [8] 90.00 % Bảng 3.8: Độ xác GA_Kernel k-NN cơng bố DLBCL Hình 3.7 minh họa số liệu bảng 3.8 Cột vị trí minh họa cho độ xác phân lớp cao 50 lần thực nghiệm thuật toán GA_Kernel k-NN liệu DLBCL Khi đối chiếu, thuật tốn tơi đề xuất cho kết khả quan TIEU LUAN MOI download : skknchat@gmail.com 41 Hình 3.7: Độ xác GA_Kernel k-NN cơng bố khác DLBCL Đối với liệu DLBCL, việc áp dụng số lọc để chuẩn hóa liệu giúp giảm liệu dư thừa qua giảm thời gian thực thi thuật toán, kết phân lớp khơng thay đổi nhiều, số thuộc tính trích chọn đồng Dữ liệu DLBCL có đặc điểm số thuộc tính lớn, việc mở rộng khơng gian tìm kiếm thuật tốn GA, hội mang lại cho thuật tốn GA_Kernel kNN tìm được tập thuộc tính tốt có kích thước đủ nhỏ giúp nâng cao độ xác phân lớp Nhưng đổi lại thời gian thực thuật toán tăng lên, chi phí tài nguyên dành cho hệ thống tăng lên 3.4 Kết luận Độ xác phân lớp liên quan mật thiết với số thuộc tính trích chọn, số thuộc tính trích chọn gây mát thông tin lớn thường dẫn đến kết phân lớp không cao Từ kết thực ngiệm trên, việc kết hợp hai thuật toán GA Kernel k-NN mang lại kết khả quan GA giúp tối ưu liệu đầu vào, từ nâng cao độ xác phân lớp thuật toán Kernel k-NN Thuật toán GA_Kernel k-NN chứng tỏ việc trích chọn thuộc tính tốt mang lại kết phân lớp cao Các kết thực nghiệm minh chứng phương pháp tơi đề xuất có tiềm ứng dụng rộng rãi toán phân lớp thực tế TIEU LUAN MOI download : skknchat@gmail.com 42 Kết luận Trong luận văn giới thiệu phương pháp kết hợp thuật toán GA thuật toán Kernel k-NN Về thuật toán GA thuật toán Kernel k-NN thuật toán tốt sử dụng phân tích thống kê, áp dụng liệu có số chiều tương đối lớn (hàng trăm, hàng trăm nghìn thuộc tính) Việc kết hợp hai thuật tốn, giúp kế thừa ưu điểm đồng thời khắc phục phần nhược hai thuật toán Cụ thể, thuật toán Kernel kNN giúp giải việc tính tốn khoảng cách không gian liệu phi tuyến, thuật tốn GA ln cho kết phân tích tốt tập n kết tìm với kích thước xác định, số lần lặp giới hạn biết trước Theo mơ hình Wrapper, GA dùng để tìm tập thuộc tính coi tốt nhất, Kernel k-NN trả kết hàm mục tiêu GA Cách tiếp cận tơi giúp tăng độ xác thuật tốn Kernel k-NN Khơng tăng độ xác phân lớp so với thuật tốn Kernel k-NN thuật tốn GA_RF, thuật tốn GA_Kernel k-NN cịn cho thấy khả phân lớp tốt so sánh với số phương pháp phân lớp khác chạy liệu [8] [15] Cụ thể, với liệu Arcene phương pháp đề xuất cho kết phân lớp cao 90.05%, phương sai 2.03% Tuy nhiên, việc xác định giá trị k, xác định tham số đầu vào hàm nhân, ảnh hưởng đến kết thuật toán Kernel kNN Đối với thuật tốn GA, kích cỡ khơng gian khảo sát ảnh hưởng đến chất lượng kết tìm kiếm Về mặt lý thuyết, quẩn thể lớn có nhiều hội tìm nhiều thuộc tính tốt hơn, tìm cự tiểu tồn cục khơng gian rộng Tuy nhiên, kích cỡ quần thể ? để tránh tượng “q” khơng gian khảo sát dẫn đến lãng phí tài nguyên hệ thống, thời gian thực thi độ ổn định Vì ngồi việc tối ưu liệu, thuật tốn tơi đề xuất tiếp tục nâng cao hiệu tối ưu thêm tham số đầu vào hai thuật toán GA Kernel k-NN Đây hướng nghiên cứu mở rộng sau luận văn TIEU LUAN MOI download : skknchat@gmail.com 43 Tài liệu tham khảo  Tiếng Việt [1] Bùi Văn Bình – CNCK, Giới thiệu Giải Thuật di truyền (GA) http://www.epu.edu.vn/cnck/Default.aspx?BT=14258 [2] Nguyễn Hà Nam (2009), "Tối ưu hóa KPCA GA để chọn thuộc tính đặc trưng nhằm tăng hiệu phân lớp thuật tốn Random Forest", Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên Công nghệ, số 25, tr 84-93  Tiếng Anh [3] A.L Blum, P Langley, “Selection of Relevant Features and Examples in Machine Learning”, Artificial Intelligence Vol 97 (1997) 245 [4] Alexander Statnikov, Constantin F Aliferis, Ioannis Tsamardinos, Douglas Hardin, Shawn Levy, “A comprehensive evaluation of multicategory classification methods for microarray gene expression cancer diagnosis, Bioinformatics”, 21(5), 2005, 631-643 [5] Binh Tran, Bing Xue, and Mengjie Zhang, “Improved PSO for Feature Selection on High-Dimensional Datasets”, page 503, Simulated Evolution and Learning 10th International Conference, SEAL 2014 [6] Dong-Sheng Cao, Jian-Hua Huang, Jun Yan, Liang-Xiao Zhang, Qian-Nan Hu, Qing-Song Xu, Yi-Zeng Liang (2012), “Kernel k-nearest neighbor algorithm as a flexible SAR modeling tool”, Chemometrics and Intelligent Laboratory Systems 114 (2012) 19–23 [7] Hechenbichler Klaus, Schliep Klaus (2004), “Weighted k-Nearest-Neighbor Techniques and Ordinal Classification”, Discussion Paper 399, SFB 386, Ludwig-Maximilians University Munich [8] Huazhen Wang, Cheng Wang∗ , Bing Lv, Xiaoming Pan (2015), “Improved Variable Importance Measure of Random Forest via Combining of Proximity Measure and Support Vector Machine for Stable Feature Selection” Journal of Information & Computational Science 12:8 (2015) 3241–3252 TIEU LUAN MOI download : skknchat@gmail.com 44 [9] Ivica Kopriva, “A Nonlinear Mixture Model based Unsupervised Variable Selection in Genomics and Proteomics”, BIOINFORMATICS 2015 – International Conference on Bioinformatics Models, Method and Algorithms [10] Leif E.Peterson (2009), “K-Nearest Neighbor”, Scholarpedia, (2) [11] Krzysztof J.Cios, Witold Deddrycz, Roman W.Swiniarski, Lukasz A.Kurgan, “Data Mining A Knowledge Discovery Approach”, Springer, (2007) [12] Kai Yu, Liang Ji, Xuegong Zhang (2002), “Kernel Nearest-Neighbor Algorithm”, Neural Processing Letters, 15 (2), pp.147-156 [13] R Kohavi, G.H John, “Wrappers for Feature Subset Selection”, Artificial Intelligence Vol 97 (1997) 273 [14] Rutgers University, Chapter :Genetic Algorithm http://www.cs.rutgers.edu/~mlittman/courses/ml04/ch9.pdf [15] Viktoriya Krakovna, Jiong Du, Jun S Liu (2015), “ Selection Bayesian Forest Classifier : Simultaneous Variable Selection and Classification” arXiv:1506.02371v1 [start.ML] Jun 2015 TIEU LUAN MOI download : skknchat@gmail.com ... HỒNG VĂN TRÌU TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TÍNH TỐI ƯU NHẰM TĂNG HIỆU QUẢ PHÂN TÍCH TRONG PHÂN TÍCH DỮ LIỆU LỚN Ngành: Cơng nghệ thơng tin Chuyên ngành: Kỹ thuật phần mềm Mã Số: 60480103 LUẬN VĂN... đoan luận văn “ Tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu phân tích phân tích liệu lớn ” cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn hồn tồn trung thực Tơi... dùng để phân tích Trích chọn thuộc tính giúp tìm thuộc tính có ích, loại bỏ thuộc tính dư thừa Phương pháp tác động trực tiếp đến kết thuật toán tăng tốc độ xử lý, cải thiện liệu, tăng hiệu xuất

(LUẬN văn THẠC sĩ) tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn

Các toán tử của thuật toán GA

Tổng quan các bộ dữ liệu sử dụng