Tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn : Luận văn ThS. Công nghệ thông tin: 60 48 01 03

52 22 0
Tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn : Luận văn ThS. Công nghệ thông tin: 60 48 01 03

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HỒNG VĂN TRÌU TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TÍNH TỐI ƯU NHẰM TĂNG HIỆU QUẢ PHÂN TÍCH TRONG PHÂN TÍCH DỮ LIỆU LỚN LUẬN VĂN THẠC SỸ - NGÀNH CÔNG NGHỆ THÔNG TIN ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ HỒNG VĂN TRÌU TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TÍNH TỐI ƯU NHẰM TĂNG HIỆU QUẢ PHÂN TÍCH TRONG PHÂN TÍCH DỮ LIỆU LỚN Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã Số: 60480103 LUẬN VĂN THẠC SỸ - NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM HÀ NỘI - 2015 Lời cam đoan Tơi xin cam đoan luận văn “ Tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu phân tích phân tích liệu lớn ” cơng trình nghiên cứu riêng tơi Các số liệu, kết trình bày luận văn hồn tồn trung thực Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan Ngoại trừ tài liệu tham khảo này, luận văn hồn tồn cơng việc riêng tơi Luận văn hồn thành thời gian tơi học viên Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, ngày 31 tháng 08 năm 2015 Học viên Hồng Văn Trìu Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam tận tình hướng dẫn tơi suốt trình thực luận văn tốt nghiệp Tôi chân thành cảm ơn anh nghiên cứu sinh Hà Văn Sang anh nghiên cứu sinh Lữ Đăng Nhạc tận tình bảo trình thực luận văn Tơi cảm ơn người bạn nhóm nghiên cứu PGS.TS Nguyễn Hà Nam bên chia sẻ kinh nghiệm học tập sống Tôi chân thành cảm ơn thầy, cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường Đại học Công Nghệ Tôi xin gửi lời cảm ơn tới bạn lớp cao học K19 ủng hộ, khuyến khích tơi suốt q trình học tập trường Tôi xin chân thành cảm ơn! Hà Nội, ngày 31 tháng 08 năm 2015 Học viên Hoàng Văn Trìu Mục lục Giới thiệu Chương Giới thiệu Khai phá liệu 1.1 Tổng quan Khai phá liệu 1.2 Tổng quan trích chọn thuộc tính 2.3 Kết luận Chương Họ thuật toán k-Láng giềng gần Thuật toán Di truyền 2.1 Họ thuật toán k-Láng giềng gần 2.1.1 Khái niệm 2.1.2 Thuật toán Láng giềng gần (NN) 2.1.3 Thuật toán k-Láng giềng gần (kNN) 2.1.4 Thuật toán Đánh trọng số k-Láng giềng gần (WkNN) 10 2.1.5 Thuật toán Hàm nhân k-Láng giềng gần (Kernel k-NN) 15 2.2 Thuật toán Di truyền (GA) 18 2.2.1 Giới thiệu 18 2.2.2 Thuật toán Di truyền (GA) 19 2.3 Kết luận 24 Chương Mơ hình GA_Kernel k-NN kết thực nghiệm 26 3.1 Giới thiệu 26 3.2 Mơ hình GA_Kernel k-NN 26 3.2.1 Kiến trúc GA_Kernel k-NN 26 3.2.2 Môi trường thực nghiệm 29 3.2.3 Mô tả chương trình 29 3.3 Kết thực nghiệm 32 3.3.1 Dữ liệu sử dụng 32 3.3.2 Kết chạy liệu Arcene 33 3.3.3 Kết chạy liệu DLBCL (Diffuse large B-cell lymphoma) 37 3.4 Kết luận 41 Kết luận 42 Tài liệu tham khảo 43 Danh mục hình vẽ Hình 1.1: Quá trình phát tri thức sở liệu Hình 1.2 : Hướng tiếp cận Filter Hình 1.3 : Hướng tiếp cận Wrapper Hình 2.1: Ví dụ thuật tốn kNN 10 Hình 2.2: Ví dụ thuật tốn WkNN 14 Hình 2.3 : Các thành phần thuật toán GA 20 Hình 2.4 : Các tốn tử thuật toán GA 24 Hình 3.1:Mơ hình thuật tốn GA_Kernel k-NN 28 Hình 3.2: Độ xác GA_RF GA_Kernel k-NN liệu Arcene 34 Hình 3.3: Thuộc tính chọn GA_RF GA_Kernel k-NN liệu Arcene 35 Hình 3.4: Độ xác GA_Kernel k-NN công bố khác Arcene 37 Hình 3.5: Độ xác GA_RF GA_Kernel k-NN liệu DLBCL 38 Hình 3.6: Thuộc tính chọn GA_RF GA_Kernel k-NN liệu DLBCL 39 Hình 3.7: Độ xác GA_Kernel k-NN cơng bố khác DLBCL 41 Danh mục bảng Bảng 2.1: Các hàm trọng số tiêu biểu 11 Bảng 2.2: Một số hàm nhân hay dùng 16 Bảng 3.1: Danh sách tên hàm cài đặt thuật toán GA_Kernel k-NN 32 Bảng 3.2: Tổng quan liệu sử dụng 33 Bảng 3.3: Tóm tắt độ xác GA_Kernel k-NN GA_RF Arcene 34 Bảng 3.4: Số thuộc tính trích trọn GA_Kernel k-NN GA_RF Arcene 35 Bảng 3.5: Độ xác GA_Kernel k-NN công bố Arcene 36 Bảng 3.6: Tóm tắt độ xác GA_Kernel k-NN GA_RF DLBCL 38 Bảng 3.7: Số thuộc tính trích chọn GA_Kernel k-NN GA_RF DLBCL 39 Bảng 3.8: Độ xác GA_Kernel k-NN công bố DLBCL 40 Danh mục viết tắt STT Thuật ngữ Từ viết tắt Nearest Neighbors NN Genetic Algorithms GA Genetic Algorithms_Kernel k-Nearest Neighbors GA_Kernel k-NN Genetic Alorithms_Random Forest GA_RF Weighted k-Nearest Neighbors WkNN k-Nearest Neighbors kNN Kernel k-Nearest Neighbor Kernel k-NN Random Forest RF Proximity Measure - Support Vector Machine Rfprox-SVM Giới thiệu Khoa học kỹ thuật phát triển, với phát triển khơng ngừng liệu kích thước chủng loại Nhiệm vụ khai phá liệu nói chung nghiên cứu thuật tốn phân lớp nói riêng trở nên ngày thiết đóng vai trị trung tâm việc giải toán cụ thể Thực tế cho thấy, tìm số thuật toán phù hợp với số loại liệu cụ thể bị giới hạn kích thước liệu Kết thuật toán phụ thuộc nhiều vào việc xử lý liệu thô Trong khai phá liệu, phương pháp trích chọn đóng vai trị quan trọng tiền xử lý số liệu, đặc biệt ngành tin sinh học, xử lý liệu âm thanh, hình ảnh, liệu mạng xã hội Đặc điểm chung lĩnh vực kích thước lớn (hàng trăm, hàng trăm nghìn thuộc tính) số thuộc tính có giá trị dùng để phân tích Trích chọn thuộc tính giúp tìm thuộc tính có ích, loại bỏ thuộc tính dư thừa Phương pháp tác động trực tiếp đến kết thuật toán tăng tốc độ xử lý, cải thiện liệu, tăng hiệu xuất khai phá Thuật toán k-Láng giềng gần (kNN) [10] kỹ thuật bản, đơn giản trực giác lĩnh vực phân tích thống kê Bộ phân lớp dựa thuật toán kNN học lười (lazy learner), khơng cần thực q trình học cho mơ hình Nó cần sử dụng tất đối tượng liệu tập tham chiếu để định gán nhãn lớp cho quan sát Thực nghiệm cho thấy, thuật toán kNN đơn giản, thường cho kết tốt Tuy nhiên hiệu thuật toán hạn chế tảng xây dựng dựa liệu tuyến tính Để áp dụng thuật tốn vào liệu phi tuyến, có nhiều nghiên cứu ứng dụng kỹ thuật khác để biến đổi liệu tuyến tính thành liệu phi tuyến Hướng tiếp cận luận văn sử dụng phép biến đổi từ không gian ban đầu sang khơng gian sau áp dụng thuật tốn kNN Việc tính tốn khơng gian phi tuyến cơng việc thuật tốn Hàm nhân – k Láng giềng gần (Kernel - k Nearest Neighbor) [12] Thuật toán Di truyền (GA) [1] kỹ thuật tìm kiếm tối ưu ngẫu nhiên theo q trình thích nghi tiến hóa quần thể sinh vật Tư tưởng thuật tốn GA mơ phát triển tự nhiên, kế thừa đấu tranh sinh tồn sinh vật Thực tế có sinh vật liên tục tiến hóa để thích nghi với hoàn cảnh tồn phát triển GA xét đến toàn lời giải cách, trước tiên chọn tập lời giải sau loại bỏ lời giải khơng thích hợp chọn lời giải thích hợp để tiến hành lai ghép đột biến nhằm mục đích tạo nhiều lời giải có độ thích nghi ngày cao GA giúp tìm lời giải tối ưu hay tốt điều kiện thời gian không gian cho phép Trong luận văn đưa cách tiếp cận mới, kết hợp thuật toán GA Kernel k-NN theo mơ hình Wrapper GA giúp tìm tập thuộc tính Kernel k-NN trả kết hàm mục tiêu GA Hay nói cách khác, GA chọn tập thuộc tính coi tốt quần thể thuộc tính, tập thuộc tính tốt hiểu ngữ cảnh thuộc tính trích chọn giúp phân lớp tốt dựa kết hàm tính khoảng cách thuật toán Kernel k-NN GA giúp tăng độ xác phân lớp nhờ việc tối ưu liệu đầu vào cho thuật toán Kernel k-NN Nội dung luận văn chia thành chương sau: Chương 1: Giới thiệu Khai phá liệu Chương 2: Cơ sở lý thuyết Chương 3: Mơ hình GA_Kernel k-NN kết thực nghiệm Kết luận: Tóm lược kết đạt luận văn ... CÔNG NGHỆ HỒNG VĂN TRÌU TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TÍNH TỐI ƯU NHẰM TĂNG HIỆU QUẢ PHÂN TÍCH TRONG PHÂN TÍCH DỮ LIỆU LỚN Ngành: Cơng nghệ thơng tin Chuyên ngành: Kỹ thuật phần mềm Mã S? ?: 604 8010 3... 604 8010 3 LUẬN VĂN THẠC SỸ - NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM HÀ NỘI - 2015 Lời cam đoan Tôi xin cam đoan luận văn “ Tìm hiểu phương pháp tìm thuộc tính tối. .. phá liệu Dữ liệu huấn luyện Tìm kiếm thuộc tính Tập thuộc tính lựa chọn Đánh giá kết Dữ liệu huấn Tập thuộc Thuật toán phấn lớp (Kiểm chứng) tính Đánh giá thuộc tính Tập thuộc tính lựa chọn Tính

Ngày đăng: 23/09/2020, 21:09

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan