Tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG VĂN TRÌU TÌM HIỂU PHƢƠNG PHÁP TÌM THUỘC TÍNH TỐI ƢU NHẰM TĂNG HIỆU QUẢ PHÂN TÍCH TRONG PHÂN TÍCH DỮ LIỆU LỚN LUẬN VĂN THẠC SỸ - NGÀNH CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG VĂN TRÌU TÌM HIỂU PHƢƠNG PHÁP TÌM THUỘC TÍNH TỐI ƢU NHẰM TĂNG HIỆU QUẢ PHÂN TÍCH TRONG PHÂN TÍCH DỮ LIỆU LỚN Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã Số: 60480103 LUẬN VĂN THẠC SỸ - NGÀNH CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM HÀ NỘI - 2015 Mục lục Giới thiệu Chương Giới thiệu Khai phá liệu 1.1 Tổng quan Khai phá liệu 1.2 Tổng quan trích chọn thuộc tính 2.3 Kết luận Chương Họ thuật toán k-Láng giềng gần Thuật toán Di truyềnError! Bookmark 2.1 Họ thuật toán k-Láng giềng gần Error! Bookmark not defined 2.1.1 Khái niệm Error! Bookmark not defined 2.1.2 Thuật toán Láng giềng gần (NN) Error! Bookmark not defined 2.1.3 Thuật toán k-Láng giềng gần (kNN) Error! Bookmark not defined 2.1.4 Thuật toán Đánh trọng số k-Láng giềng gần (WkNN) Error! Bookmark not defined 2.1.5 Thuật toán Hàm nhân k-Láng giềng gần (Kernel k-NN) Error! Bookmark not defined 2.2 Thuật toán Di truyền (GA) Error! Bookmark not defined 2.2.1 Giới thiệu Error! Bookmark not defined 2.2.2 Thuật toán Di truyền (GA) Error! Bookmark not defined 2.3 Kết luận Error! Bookmark not defined Chương Mô hình GA_Kernel k-NN kết thực nghiệmError! Bookmark not defin 3.1 Giới thiệu Error! Bookmark not defined 3.2 Mô hình GA_Kernel k-NN Error! Bookmark not defined 3.2.1 Kiến trúc GA_Kernel k-NN Error! Bookmark not defined 3.2.2 Môi trường thực nghiệm Error! Bookmark not defined 3.2.3 Mô tả chương trình Error! Bookmark not defined 3.3 Kết thực nghiệm Error! Bookmark not defined 3.3.1 Dữ liệu sử dụng Error! Bookmark not defined 3.3.2 Kết chạy liệu Arcene Error! Bookmark not defined 3.3.3 Kết chạy liệu DLBCL (Diffuse large B-cell lymphoma) Error! Bookmark not defined 3.4 Kết luận Error! Bookmark not defined 1 Kết luận Error! Bookmark not defined Tài liệu tham khảo Giới thiệu Khoa học kỹ thuật phát triển, với phát triển không ngừng liệu kích thước chủng loại Nhiệm vụ khai phá liệu nói chung nghiên cứu thuật toán phân lớp nói riêng trở nên ngày thiết đóng vai trò trung tâm việc giải toán cụ thể Thực tế cho thấy, tìm số thuật toán phù hợp với số loại liệu cụ thể bị giới hạn kích thước liệu Kết thuật toán phụ thuộc nhiều vào việc xử lý liệu thô Trong khai phá liệu, phương pháp trích chọn đóng vai trò quan trọng tiền xử lý số liệu, đặc biệt ngành tin sinh học, xử lý liệu âm thanh, hình ảnh, liệu mạng xã hội Đặc điểm chung lĩnh vực kích thước lớn (hàng trăm, hàng trăm nghìn thuộc tính) số thuộc tính có giá trị dùng để phân tích Trích chọn thuộc tính giúp tìm thuộc tính có ích, loại bỏ thuộc tính dư thừa Phương pháp tác động trực tiếp đến kết thuật toán tăng tốc độ xử lý, cải thiện liệu, tăng hiệu xuất khai phá Thuật toán k-Láng giềng gần (kNN) [10] kỹ thuật bản, đơn giản trực giác lĩnh vực phân tích thống kê Bộ phân lớp dựa thuật toán kNN học lười (lazy learner), không cần thực trình học cho mô hình Nó cần sử dụng tất đối tượng liệu tập tham chiếu để định gán nhãn lớp cho quan sát Thực nghiệm cho thấy, thuật toán kNN đơn giản, thường cho kết tốt Tuy nhiên hiệu thuật toán hạn chế tảng xây dựng dựa liệu tuyến tính Để áp dụng thuật toán vào liệu phi tuyến, có nhiều nghiên cứu ứng dụng kỹ thuật khác để biến đổi liệu tuyến tính thành liệu phi tuyến Hướng tiếp cận luận văn sử dụng phép biến đổi từ không gian ban đầu sang không gian sau áp dụng thuật toán kNN Việc tính toán không gian phi tuyến công việc thuật toán Hàm nhân – k Láng giềng gần (Kernel - k Nearest Neighbor) [12] Thuật toán Di truyền (GA) [1] kỹ thuật tìm kiếm tối ưu ngẫu nhiên theo trình thích nghi tiến hóa quần thể sinh vật Tư tưởng thuật toán GA mô phát triển tự nhiên, kế thừa đấu tranh sinh tồn sinh vật Thực tế có sinh vật liên tục tiến hóa để thích nghi với hoàn cảnh tồn phát triển GA xét đến toàn lời giải cách, trước tiên chọn tập lời giải sau loại bỏ lời giải không thích hợp chọn lời giải thích hợp để tiến hành lai ghép đột biến nhằm mục đích tạo nhiều lời giải có độ thích nghi ngày cao GA giúp tìm lời giải tối ưu hay tốt điều kiện thời gian không gian cho phép Trong luận văn đưa cách tiếp cận mới, kết hợp thuật toán GA Kernel k-NN theo mô hình Wrapper GA giúp tìm tập thuộc tính Kernel k-NN trả kết hàm mục tiêu GA Hay nói cách khác, GA chọn tập thuộc tính coi tốt quần thể thuộc tính, tập thuộc tính tốt hiểu ngữ cảnh thuộc tính trích chọn giúp phân lớp tốt dựa kết hàm tính khoảng cách thuật toán Kernel k-NN GA giúp tăng độ xác phân lớp nhờ việc tối ưu liệu đầu vào cho thuật toán Kernel k-NN Nội dung luận văn chia thành chương sau: Chƣơng 1: Giới thiệu Khai phá liệu Chƣơng 2: Cơ sở lý thuyết Chƣơng 3: Mô hình GA_Kernel k-NN kết thực nghiệm Kết luận: Tóm lược kết đạt luận văn 3 Chƣơng Giới thiệu Khai phá liệu 1.1 Tổng quan Khai phá liệu Khai phá liệu khái niệm đời cuối năm 80 kỷ trước Nó bao hàm loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn liệu lớn.Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Năm 1989, Fayyad, Piatestsky-Shapiro Smyth dùng khái niệm phát tri thức sở liệu (Knowledge Discovery in Database – KDD) để toàn trình phát tri thức có ích từ tập liệu lớn [11] Trong đó, khai phá liệu bước đặc biệt toàn trình, sử dụng giải thuật đặc biệt để chiết xuất mẫu hay mô hình từ liệu Ở góc độ đó, khái niệm khai phá liệu khai phá tri thức nhiều coi Tuy nhiên, xét kỹ khai phá liệu khâu quan trọng khai phá tri thức Một trình phát tri thức sở liệu bao gồm giai đoạn sau : (1) Làm liệu (Data Cleaning): Khử nhiễu liệu mâu thuẫn (2) Tích hợp liệu (Data Integration): Kết hợp nhiều nguồn liệu khác (3) Lựa chọn liệu (Data Selection): Chắt lọc lấy liệu liên quan đến nhiệm vụ phân tích sau (4) Biến đổi liệu (Data Transformation): Biến đổi liệu thu dạng thích hợp cho trình khai phá (5) Khai phá liệu (Data Mining): Sử dụng phương pháp thông minh để khai thác liệu nhằm thu mẫu mong muốn (6) Đánh giá kết (Pattern Evaluation): Sử dụng độ đo để đánh giá kết thu (7) Biểu diễn tri thức (Knowledge Presentation): Sử dụng công cụ biểu diễn trực quan để biểu diễn tri thức khai phá cho người dùng 4 Quá trình lặp lại nhiều lần, hay nhiều giai đoạn trước lặp lại dựa phản hồi từ kết giai đoạn sau Đánh giá trình diễn Tri thức Dữ liệu khái phá Lựa chọn chuyển dạng Làm tích hợp Kho liệu Mẫu Dữ liệu chuyển dạng Dữ liệu Hình 1.1: Quá trình phát tri thức sở liệu Một số phương pháp khai phá liệu tiêu biểu:  Phân lớp (Classification) : Khai thác hàm huấn luyện trước để phân loại đối tượng liệu vào lớp định nghĩa trước  Hồi qui (Regression) : Khai thác hàm huấn luyện trước để ánh xạ đối tượng liệu thành giá trị thực kết dự báo  Phân cụm (Clustering) : Giải vấn đề tìm kiếm, phát số lượng hữu hạn cụm mô tả tập hợp liệu ban đầu nhãn Đó trình tìm cách nhóm đối tượng cho vào cụm, cho đối tượng cụm tương tự (similar), đối tượng khác cụm không tương tự (dissimilar) 5  Tổng hợp (Summarization) : Quá trình bao gồm phương pháp để tìm mô tả xúc tích cho tập (hoặc tập con) liệu  Mô hình hóa ràng buộc (Dependency Modeling) : Tìm mô hình cục mô tả ràng buộc quan trọng biến giá trị đặc trưng tập liệu phần tập liệu  Phát biến đổi độ lệch (Change and Deviation Detection): Khai phá biến đổi quan trọng tập liệu Trong giai đoạn tiền xử lý số liệu, việc trích chọn thuộc tính đóng vai trò quan trọng 1.2 Tổng quan trích chọn thuộc tính Về việc trích chọn thuộc tính có ích bao gồm hai công đoạn gồm công đoạn xây dựng liệu công đoạn trích chọn thuộc tính Xây dựng liệu tạo thuộc tính, công việc quan trọng việc phân tích số liệu Yêu cầu đặt phải đảm bảo không để nhiều thông tin có ích đồng thời không tốn chi phí tài nguyên thời gian Công đoạn trích chọn nhằm tìm thuộc tính đại diện phù hợp yêu cầu phân tích, loại bỏ thuộc tính dư thừa, thuộc tính nhiễu, tăng hiệu suất kết khai phá liệu Có nhiều phương pháp hướng tiếp cận khác nhau, tựu chung lại hướng đến mục tiêu :  Tăng tốc độ thuật toán  Giảm không gian lưu trữ liệu  Tăng kết phân lớp, đoán nhận  Giúp biểu diễn, minh họa liệu dễ dàng Để đánh giá độ tốt tập đặc trưng phụ thuộc vào yêu cầu cụ thể phân tích liệu, công việc toàn trình hướng mục tiêu đạt yêu cầu cụ thể Về phân loại phương pháp trích chọn theo hai cách tiếp cận khác Filter Wrapper trình bày tài liệu [3, 13] Lược đồ thực [2] giản hóa hai hình vẽ 6 Dữ liệu Thuật toán phân lớp Trích lọc tập danh sách thuộc tính Hình 1.2 : Hướng tiếp cận Filter Theo mô hình Filter, thuộc tính chọn độc lập với thuật toán khai phá liệu Ngược lại, mô hình Wrapper thuộc tính chọn phụ thuộc theo nghĩa với thuật toán khai phá liệu Dữ liệu huấn luyện Tìm kiếm thuộc tính Tập thuộc tính lựa chọn Đánh giá kết Dữ liệu huấn luyện Tập thuộc Thuật toán phấn lớp (Kiểm chứng) tính Đánh giá thuộc tính Tập thuộc tính lựa chọn Dữ liệu kiểm tra Tính toán giả thiết Thuộc tính phân lớp Thuật toán phân lớp (Dự đoán) Đánh giá kết Hình 1.3 : Hướng tiếp cận Wrapper Mô hình Filter đánh giá cá thể vài tiêu chuẩn hay độ đo đó, chọn tập thuộc tính đánh giá cao Nhìn chung, Filter coi tiến trình trích chọn thuộc tính tiến trình thực thi trước, sau sử dụng thuật toán để phân lớp Mô hình Wrapper sử dụng thuật toán tìm kiếm để đánh giá tập thuộc tính coi nhóm cá thể riêng lẻ Cốt lõi mô hình Wrapper thuật toán máy học cụ thể Nó đánh giá độ tốt tập đặc trưng tùy theo độ xác học tập con, điều xác định thông qua tiêu chí Những thuật toán tìm kiếm sử dụng hàm đánh giá kinh nghiệm (heuristics) để hướng dẫn việc tìm kiếm tập trung vào đối tượng có triển vọng Công việc cần thực thuật toán trích chọn bao gồm : - Phương pháp để sinh tập thuộc tính đặc trưng : (Có thể hiểu tương ứng với chiến lược tìm kiếm) Đầu sinh xác định thuật toán trích chọn đặc trưng Có hai chiến lược để sinh tập :  Đầy đủ (Complete) : Áp dụng chiến lược tìm kiếm vét cạn để sinh tập Đối với hầu hết hệ thông máy thực, chiến lược không phù hợp đỏi hỏi tài nguyên lớn  Kinh nghiệm (Heuristically) : Để giảm bớt không gian tìm kiếm, kết thu mức chấp nhận được, chiến lược sinh tập đặc trưng dựa vào kinh nghiệm đó, có ba kỹ thuật điển hình lựa chọn tiến (Forward Selection), lược bỏ lùi (Backward Elimination) lựa chọn hai hướng (Bi – direction Selection) - Định nghĩa hàm đánh giá : (đưa tiêu chí để xác định thuộc tính hay nhóm thuộc tính tốt hay không tốt) Bộ đánh giá mô hình thuật toán khác khác Bộ đánh giá mô hình Filter thường hàm đánh giá, mô hình Wrapper độ học xác đạt trình thực thi thuật toán học máy điều khiển hệ thống học  Hàm đánh giá : hàm đánh giá thường dùng xấp xỉ chất lượng (Approxination Quality), độ quan trọng (Feature Importance), trọng số thuộc tính (Feature Weight)  Học xác : mô hình Wrapper, liệu chia ngẫu nhiên thành hai tập, tập huấn luyện tập kiểm tra Độ xác đạt trường hợp giá trị ngẫu nhiên Để tăng cường độ ổn định mô hình Wrapper thường sử dụng kỹ thuật kiểm tra chéo (Cross Validation) - Ước lượng hàm đánh giá : kiểm chứng lại xem hàm đánh giá có thực phù hợp hiệu với liệu không 2.3 Kết luận Trích chọn thuộc tính giúp tìm đặc trưng tốt nhất, đồng thời loại bỏ nhiễu, giảm bớt chiều liệu Hai mô hình phổ biến phương pháp trích chọn thuộc tính đặc trưng Filter Wrapper Mỗi mô hình có ưu điểm nhược điểm riêng Tùy yêu cầu trường hợp cụ thể mà ta áp dụng hai mô hình Tài liệu tham khảo  Tiếng Việt [1] Bùi Văn Bình – CNCK, Giới thiệu Giải Thuật di truyền (GA) http://www.epu.edu.vn/cnck/Default.aspx?BT=14258 [2] Nguyễn Hà Nam (2009), "Tối ưu hóa KPCA GA để chọn thuộc tính đặc trưng nhằm tăng hiệu phân lớp thuật toán Random Forest", Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên Công nghệ, số 25, tr 84-93  Tiếng Anh [3] A.L Blum, P Langley, “Selection of Relevant Features and Examples in Machine Learning”, Artificial Intelligence Vol 97 (1997) 245 [4] Alexander Statnikov, Constantin F Aliferis, Ioannis Tsamardinos, Douglas Hardin, Shawn Levy, “A comprehensive evaluation of multicategory classification methods for microarray gene expression cancer diagnosis, Bioinformatics”, 21(5), 2005, 631-643 [5] Binh Tran, Bing Xue, and Mengjie Zhang, “Improved PSO for Feature Selection on High-Dimensional Datasets”, page 503, Simulated Evolution and Learning 10th International Conference, SEAL 2014 [6] Dong-Sheng Cao, Jian-Hua Huang, Jun Yan, Liang-Xiao Zhang, Qian-Nan Hu, Qing-Song Xu, Yi-Zeng Liang (2012), “Kernel k-nearest neighbor algorithm as a flexible SAR modeling tool”, Chemometrics and Intelligent Laboratory Systems 114 (2012) 19–23 [7] Hechenbichler Klaus, Schliep Klaus (2004), “Weighted k-Nearest-Neighbor Techniques and Ordinal Classification”, Discussion Paper 399, SFB 386, Ludwig-Maximilians University Munich [8] Huazhen Wang, Cheng Wang∗ , Bing Lv, Xiaoming Pan (2015), “Improved Variable Importance Measure of Random Forest via Combining of Proximity Measure and Support Vector Machine for Stable Feature Selection” Journal of Information & Computational Science 12:8 (2015) 3241–3252 [9] Ivica Kopriva, “A Nonlinear Mixture Model based Unsupervised Variable Selection in Genomics and Proteomics”, BIOINFORMATICS 2015 – International Conference on Bioinformatics Models, Method and Algorithms [10] Leif E.Peterson (2009), “K-Nearest Neighbor”, Scholarpedia, (2) [11] Krzysztof J.Cios, Witold Deddrycz, Roman W.Swiniarski, Lukasz A.Kurgan, “Data Mining A Knowledge Discovery Approach”, Springer, (2007) [12] Kai Yu, Liang Ji, Xuegong Zhang (2002), “Kernel Nearest-Neighbor Algorithm”, Neural Processing Letters, 15 (2), pp.147-156 [13] R Kohavi, G.H John, “Wrappers for Feature Subset Selection”, Artificial Intelligence Vol 97 (1997) 273 [14] Rutgers University, Chapter :Genetic Algorithm http://www.cs.rutgers.edu/~mlittman/courses/ml04/ch9.pdf [15] Viktoriya Krakovna, Jiong Du, Jun S Liu (2015), “ Selection Bayesian Forest Classifier : Simultaneous Variable Selection and Classification” arXiv:1506.02371v1 [start.ML] Jun 2015 [...]...8 Tài liệu tham khảo  Tiếng Việt [1] Bùi Văn Bình – CNCK, Giới thiệu về Giải Thuật di truyền (GA) http://www.epu.edu.vn/cnck/Default.aspx?BT=14258 [2] Nguyễn Hà Nam (2009), "Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest", Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên

Định dạng
Số trang	12
Dung lượng	410,45 KB