Nghiên cứu ảnh hưởng của kỹ thuật tiền xử lý lên hiệu năng trong các phương pháp phân loại dữ liệu

ðại Học Quốc Gia TP Hồ Chí Minh TRƯỜNG ðẠI HỌC BÁCH KHOA -o0o TRẦN ðĂNG QUANG NGHIÊN CỨU ẢNH HƯỞNG CỦA KỸ THUẬT TIỀN XỬ LÝ LÊN HIỆU NĂNG TRONG CÁC PHƯƠNG PHÁP PHÂN LOẠI DỮ LIỆU Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ TP Hồ Chí Minh, Tháng 12 – 2008 CƠNG TRÌNH ðƯỢC HỒN THÀNH TẠI TRƯỜNG ðẠI HỌC BÁCH KHOA ðẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : TS NGUYỄN ðỨC CƯỜNG Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ ñược bảo vệ HỘI ðỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ðẠI HỌC BÁCH KHOA, ngày tháng năm 200 LỜI CAM ðOAN Tôi cam ñoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn chúng tơi thực chưa có phần nội dung luận văn ñược nộp ñể lấy cấp trường trường khác Ngày 30 tháng 11 năm 2008 Trần ðăng Quang LỜI CẢM ƠN Tơi xin gửi lời cảm ơn đến gia đình, người ln sát cánh, động viên, tạo điều kiện tốt để tơi học tập hồn tất luận văn tốt nghiệp Xin chân thành cảm ơn thầy TS Nguyễn ðức Cường, nhiệt tình hướng dẫn tơi hồn thành tốt luận văn Xin chân thành biết ơn tận tình dạy dỗ giúp đỡ tất q thầy trường ðại học Bách khoa, đặc biệt thầy cô khoa Khoa học Kỹ thuật Máy tính TĨM TẮT Hiện trữ lượng thơng tin gia tăng cách nhanh chóng ñược lưu trữ thành khối liệu lớn Quá trình phân loại liệu (Data Classification) tập liệu lớn tốn nhiều thời gian ñể cho kết ðể giải vấn ñề cần phải tổng hợp hay tóm tắt liệu (Data Summarization), biến liệu lớn thành liệu nhỏ Luận văn khảo sát ñề xuất phương pháp lựa chọn liệu kết hợp với giải thuật gom nhóm (Data Clustering) nhằm tìm phương pháp Data Summarization hiệu ñể nâng cao hiệu suất cho tác vụ Data Classification Các phương pháp lựa chọn ñược thực luận văn là: lựa chọn ngẫu nhiên (Random), lựa chọn theo tỷ lệ giá trị thuộc tính lớp (Rate of class attribute values), lựa chọn theo thuộc tính có độ lợi cao (Gain of attributes), lựa chọn phần tử gần khu vực tâm nhóm khoảng cách Euclidean (Euclidean Distance) Các phương pháp ñược ño ñạc, khảo sát với tập liệu thự tế: splice, mushroom, kr-vs-kp, anneal, hypothyroid 1, hypothyroid 2, kropt, census-income, covtype ABSTRACT Nowaday information expands very fast and become really huge datasets Data Classification process on those ones will take a long runtime It’s actual issue There is one method to resolve that problem, that is Data Summarization It reduces big data to the smaller one and then the reduced data will be classified This thesis proposes and surveys four selection method associate with Data Clustering algorithms to find out the positive Data Summarization to improve the efficiency of Data Classification operations They are Random select, Rate of class attribute values, Gain of attributes, Euclidean Distance methods The survey is practical with nine real datasets: splice, mushroom, kr-vs-kp, anneal, hypothyroid 1, hypothyroid 2, kropt, census-income, covtype MỤC LỤC DANH MỤC HÌNH v DANH MỤC BẢNG vii CHƯƠNG GIỚI THIỆU 1.1 Sơ lược ñề tài 1.2 Phạm vi đề tài cơng việc cần làm 1.3 Nội dung thực CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN 2.1 ðiều khiển hiệu thành phần dư thừa liệu nhiều chiều 2.2 Lấy mẫu có định hướng cách phân mảnh liệu 2.2.1 Dựa vào thơng tin lớp để phân mảnh liệu tiến hành lấy mẫu (Stratified Sampling) 2.2.2 Dựa vào giá trị entropy ñể phân mảnh tiến hành lấy mẫu 2.2.3 Dựa vào khác biệt thuộc tính để phân mảnh 2.3 Kỹ thuật xử lý liệu nhiều chiều 2.3.1 Kiểm tra ñường biên vật lý 2.3.2 Lọc giá trị trung bình 10 2.3.3 Khử giá trị nhiễu 10 2.3.4 Xóa bỏ thành phần bên ngồi đường biên dựa vào giá trị α-Stable Distribution 11 CHƯƠNG CƠ SỞ LÝ THUYẾT 13 3.1 Những phương pháp, giải thuật 13 ii 3.1.1 Phương pháp thống kê 13 3.1.2 Mất hay thiếu liệu 15 3.1.3 Thuộc tính mang giá trị số (giá trị liên tục) 15 3.1.4 Phương pháp chia ñể trị 17 3.1.4.1 Xây dựng ñịnh dựa vào ñộ lợi thông tin 17 3.1.4.2 Xây dựng ñịnh dựa vào tỷ lệ ñộ lợi thông tin 19 3.1.5 Phương pháp dùng giải thuật bao phủ 20 3.1.6 Mơ hình tuyến tính 21 3.1.7 Phương pháp ño khoảng cách 22 3.2 Các cách ñánh giá, ño lường ñáng tin cậy 23 3.2.1 Kiểm tra chéo 23 3.2.2 Leave-one-out 23 3.2.3 Bootstrap 24 3.3 Gom nhóm liệu 25 3.3.1 Gom nhóm theo cấp bậc 26 3.3.2 Gom nhóm theo phạm vi bao phủ 28 3.3.3 Gom nhóm cách phân mảnh 30 3.3.4 Sơ lược giải thuật gom nhóm khác 32 CHƯƠNG ðỀ XUẤT CÁC PHƯƠNG PHÁP THU GỌN DỮ LIỆU 34 4.1 Chọn ngẫu nhiên theo tỷ lệ thuộc tính lớp 34 4.2 Chọn theo độ lợi thơng tin với thông số tỷ lệ phần trăm giá trị thuộc tính 34 4.3 Chọn theo tỷ lệ độ lợi thông tin với thông số tỷ lệ phần trăm giá trị thuộc tính 36 iii 4.4 Chọn theo phân mảnh thuộc tính – Ưu tiên thuộc tính bị phân mảnh36 4.5 Chọn theo phân mảnh cặp thuộc tính – Ưu tiên thuộc tính bị phân mảnh 37 4.6 Phân mảnh liệu theo giá trị thuộc tính tiến hành thu gọn 38 4.7 Chia liệu thành nhiều mảnh nhỏ theo nhiều cấp – Ưu tiên chọn giá trị gần với giá trị tâm mảnh 39 4.8 Chọn theo tỷ lệ độ lợi thơng tin giá trị trung bình thuộc tính 40 4.9 Tiêu chí đánh giá phương pháp khảo sát 40 CHƯƠNG HIỆN THỰC 41 5.1 Giải thích số đối tượng sử dụng thư viện Weka 41 5.1.1 Gói weka.classifiers 41 5.1.2 Gói weka.clusters 42 5.2 Hiện thực 42 5.2.1 Cách gom nhóm 42 5.2.2 Cách lựa chọn phần tử ñể thu gọn tập liệu 43 5.2.2.1 Chọn ngẫu nhiên 43 5.2.2.2 Chọn dựa vào tỷ lệ xuất giá trị thuộc tính lớp 43 5.2.2.3 Chọn dựa vào thuộc tính có độ lợi cao 43 5.2.2.4 Chọn dựa vào khoảng cách Eclidean 43 5.2.3 Giao diện chương trình 44 5.3 ðánh giá kết thực nghiệm 46 5.3.1 Các tập liệu ñược khảo sát 47 5.3.2 Biểu ñồ độ xác trung bình phương pháp lựa chọn 47 iv 5.3.3 Biểu ñồ thời gian thực thi trung bình trình phân loại liệu cách làm trực tiếp cách làm liệu ñã ñược thu gọn 51 CHƯƠNG KẾT LUẬN 58 6.1 Kết ñề tài 58 6.1.1 Về mặt độ xác 58 6.1.2 Về mặt thời gian thực thi 58 6.2 Kết luận hướng phát triển 59 TÀI LIỆU THAM KHẢO 60 47 • phương pháp lựa chọn thực: Random (lựa chọn ngẫu nhiên), Rate of class attribute (lựa chọn dựa vào tỷ lệ giá trị thuộc tính lớp), Gain of attributes (phụ thuộc độ lợi thuộc tính, chọn dựa vào thuộc tính có độ lợi cao nhất), Euclidean Distance (dựa vào khoảng cách Euclidean ñể chọn phần tử gần trung tâm) 5.3.1 Các tập liệu ñược khảo sát Việc khảo sát ñược tiến hành tập liệu thực tế ñược lấy từ ñịa [12] [13] [14] Các tập liệu ñược miêu tả bảng 5.1 Tập liệu Số thuộc Số phần tử Số phần tính rời rạc Số thuộc tính liên tục tính Splice 3190 Mushroom 6797 Kr-vr-kp 3196 Hypothyroid1 30 3772 24 Hypothyroid2 2644 Census-income 65535 Covtype 65535 Anneal 39 898 33 Bảng 5.1 Các tập liệu ñược dùng ñể khảo sát 5.3.2 Biểu đồ độ xác trung bình phương pháp lựa chọn Hình 5.3 biểu đồ hiển thị độ xác trung bình phương pháp lựa chọn tổng tất lần chạy Cột ñầu tiên biểu diễn cho cách làm thông thường (Ordinary method), cột lại tương ứng với phương pháp lựa chọn phần tử: Random, Rate of class attribute values, Gain of attributes, Euclidean Distance 48 Hình 5.3 Biểu đồ độ xác trung bình phương pháp lựa chọn Nhận xét: Cách làm thơng thường có độ xác cao (71.040%), tiếp đến Rate of class attribute values (69.780%), Random (69.744%), Gain of attributes (69.671%), thấp Euclidean Distance (66.409%) Các phương pháp Rate of class attribute values, Random ,Gain of attributes cách làm thơng thường từ 1-2% nhóm có ñộ xác xấp xỉ tốt phương pháp Rate of class attribute values Phương pháp lựa chọn ngẫu nhiên Random sau ñã tiến hành gom nhóm có tỷ lệ xác cao so với cách làm thơng thường Phương pháp Euclidean Distance có ñộ xác thấp tập trung phần tử gần tâm nhóm nên liệu phân bố đồng cách làm khơng hiệu làm chất liệu Với phương pháp phân loại ta có biểu đồ hiển thị độ xác trung bình phương pháp lựa chọn hình 5.4 49 Hình 5.4 Biểu đồ độ xác trung bình phương pháp lựa chọn ứng với phương pháp phân loại Nhận xét: độ xác phương pháp: Random, Rate of class attribute values, Gain of attribute có thay đổi phương pháp phân loại, nhiên chênh lệch nhỏ Phương pháp Euclidean Distance có độ xác nhỏ Cách làm thơng thường có độ xác cao hầu hết tất phương pháp phân loại, nhiên phương pháp phân loại DecisionTable cách làm thơng thường có độ xác thấp so với Random, Rate of class attribute values, Gain of attributes Với phương pháp gom nhóm ta lại có biểu đồ hiển thị độ xác trung bình phương pháp lựa chọn hình 5.5 50 Hình 5.5 Biểu đồ độ xác trung bình phương pháp lựa chọn ứng với phương pháp gom nhóm Biểu đồ 5.5 khơng xét đến ba phương pháp gom nhóm XMeans, XMeans 1-phase, XMeans 2-phase ba phương pháp địi hỏi tập liệu phải có thuộc tính mang giá trị liên tục, ñó chạy ñược với số tập liệu ñã chọn Ba phương pháp ñược tách riêng biểu ñồ 5.6 Nhận xét: phương pháp lựa chọn ứng với phương pháp gom nhóm SimpleKMeans 1-phase có độ xác cao so với phương pháp gom nhóm cịn lại 51 Hình 5.6 Biểu đồ độ xác trung bình phương pháp lựa chọn ứng với phương pháp gom nhóm XMeans, XMeans 1-phase, XMeans 2-phase 5.3.3 Biểu ñồ thời gian thực thi trung bình trình phân loại liệu cách làm trực tiếp cách làm liệu ñã ñược thu gọn Gọi T0 thời gian thực thi trung bình cách làm trực tiếp tập liệu gốc, T1 thời gian thực thi trung bình phương pháp chọn lựa ngẫu nhiên Random, T2 phương pháp Rate of class attribute values, T3 phương pháp Gain of attributes, T4 Enclidean Distance Thời gian thực thi trung bình tính tốn theo cách sau: • T0 = trung bình cộng khoảng thời gian từ lúc bắt ñầu ñến lúc kết thúc trình phân loại tập liệu nguồn • T1 = trung bình cộng khoảng thời gian từ lúc bắt ñầu ñến lúc kết thúc trình sau: gom nhóm tập liệu nguồn lựa chọn phần tử nhóm theo tỷ lệ thu gọn k phương pháp Random tiến hành trình phân loại liệu phần tử lựa chọn 52 • T2 tương tự T1 việc lựa chọn phần tử phương pháp Rate of class attribute values • T3 tương tự T1 việc lựa chọn phần tử phương pháp Gain of attributes • T4 tương tự T1 việc lựa chọn phần tử phương pháp Enclidean Distance Hình 5.4 biểu ñồ hiển thị thời gian thực thi trung bình trình phân loại liệu cách làm trực tiếp liệu gốc cách làm liệu ñã ñược thu gọn phương pháp gom nhóm, lựa chọn để giản lược số phần tử Cột ñầu tiên mang giá trị T0, cột mang giá trị T1, T2, T3, T4 Hình 5.7 Biểu đồ thời gian thực thi trung bình phương pháp lựa chọn Nhận xét: Cách làm thơng thường có thời gian thực thi cao chạy trực tiếp tập liệu gốc có nhiều phần tử Các phương pháp Random, Rate of class attribute values, Gain of attributes có thời gian chạy xấp xỉ Phương pháp Euclidean Distance có thời gian chạy cao phương pháp lựa chọn việc tính khoảng 53 cách Euclidean phần tử tốn thời gian Thời gian thực thi việc phân loại liệu ñã ñược thu gọn khoảng 31-34% so với cách làm liệu gốc (T1, T2, T3, T4 ≈ 31%-34%T0) Tỷ lệ phụ thuộc vào việc thiết ñặt giá trị thu gọn k, số nhóm N, giá trị chia nhỏ D để chia nhỏ tập liệu nguồn thành D phần trước tiến hành việc gom nhóm (được dùng với phương pháp gom nhóm 1-phase) Cụ thể thơng số thiết ñặt dựa vào số lượng phần tử n tập liệu theo bảng 5.2 n > 60000 k = 30, N = 50, D = 25 60000 ≥ n > 30000 k = 20, N = 30, D = 15 30000 ≥ n > 10000 k = 15, N = 20, D = 10 10000 ≥ n > 3000 k = 10, N = 15, D = 3000 ≥ n > 1000 k = 7, N = 10, D = 1000 ≥ n > 300 k = 5, N = 5, D = 300 ≥ n k = 3, N = 3, D = Bảng 5.2 Việc thiết đặt thơng số k, N, D theo số lượng phần tử n tập nguồn Theo hình 5.5 phương pháp lựa chọn ứng với phương pháp gom nhóm SimpleKMeans 1-phase có độ xác cao Do ta tiến hành đo đạc thời gian thực thi trung bình liên quan đến phương pháp này, kết hiển thị hình 5.8 54 Hình 5.8 Biểu đồ thời gian thực thi trung bình phương pháp lựa chọn tiến hành với phương pháp gom nhóm SimpleKMeans 1-phase Nhận xét: tiến hành gom nhóm phương pháp SimpleKMeans 1-phase phương pháp lựa chọn Random, Rate of class attributes values, Gain of attributes, Euclidean Distance có thời gian thực thi thấp nhiều lần so với cách làm thông thường (T0 >> T1, T2, T3, T4) Hơn nữa, độ xác chúng cao không khác biệt nhiều so với cách làm thông thường Nếu xét riêng rẽ phương pháp phân loại liệu, ta có biểu ñồ thời gian thực thi trung bình hình 5.9 5.10 55 Hình 5.9 Biểu đồ thời gian thực thi trung bình phương pháp lựa chọn với q trình phân loại liệu tiến hành giải thuật đơn giản Hình 5.10 Biểu đồ thời gian thực thi trung bình phương pháp lựa chọn với q trình phân loại liệu tiến hành giải thuật phức tạp 56 Nhận xét: với giải thuật phân loại liệu ñơn giản không phức tạp như: KStar, IB1, IBk, NaiveBayes, BayesNet, J48, DecisionTable T0 > T1, T2, T3, T4 Như giải thuật phân loại liệu phức tạp đạt hiệu xuất cao mặt thời gian thực thi Nếu xét ñến lần chạy với giải thuật gom nhóm có độ xác cao SimpleKMeans 1-phase giải thuật phân loại từ phức tạp ñến phức tạp: RBFNetwork, Logistic, NBTree, MultilayerPerceptron ta có biểu đồ thời gian thực thi hình 5.11, 5.12 Hình 5.11 Biểu đồ thời gian thực thi trung bình phương pháp lựa chọn với phương pháp gom nhóm SimpleKMeans 1-phase giải thuật phân loại: RBFNetwork, Logistic, NBTree 57 Hình 5.12 Biểu ñồ thời gian thực thi trung bình phương pháp lựa chọn với phương pháp gom nhóm SimpleKMeans 1-phase giải thuật phân loại: MultilayerPerceptron Nhận xét: biểu ñồ 5.11, 5.12 có T0 >> T1, T2, T3, T4 ñó phương pháp lựa chọn Random, Rate of class attribute values, Gain of attributes, Euclidean Distance có hiệu suất cao mặt thời gian thực thi kết hợp với phương pháp gom nhóm SimpleKMeans 1-phase việc phân loại liệu ñược tiến hành giải thuật từ phức tạp ñến phức tạp: RBFNetwork, Logistic, NBTree, MultilayerPerceptron 58 CHƯƠNG KẾT LUẬN 6.1 Kết đề tài 6.1.1 Về mặt độ xác Trong phương pháp lựa chọn: Random, Rate of class attribute values, Gain of attributes, Euclidean Distance phương pháp đầu có độ xác cao xấp xỉ so với giải thuật phân loại trực tiếp tập liệu gốc phương pháp có nén làm giảm 1-2% độ xác Phương pháp Rate of class attribute values có độ xác cao có khảo sát đến tỷ lệ phân bố phần tử tập liệu thông qua tỷ lệ phân bố giá trị thuộc tính lớp Thấp phương pháp Euclidean Distance việc lựa chọn phần tử gần tâm phù hợp với tập liệu có phần tử tập trung số vị trí định, với liệu có phần tử phân bố đồng phương pháp lựa chọn làm ñi chất liệu có kết khơng xác Các phương pháp lựa chọn có độ xác cao kết hợp với q trình gom nhóm phương pháp SimpleKMeans 1-phase 6.1.2 Về mặt thời gian thực thi Các phương pháp lựa chọn phần tử ñược thực không hiệu mặt thời gian thực thi q trình phân loại liệu tiến hành giải thuật đơn giản khơng phức tạp như: KStar, IB1, IBk, NaiveBayes, BayesNet, J48, DecisionTable Với giải thuật phân loại phức tạp có thời gian chạy lâu như: RBFNetwork, Logistic, NBTree, MultilayerPerceptron phương pháp lựa chọn phần tử từ nhóm đạt ñược hiệu cao mặt thời gian kết hợp với phương pháp gom nhóm phù hợp Giải thuật phân loại liệu phức tạp ñạt ñược hiệu suất cao mặt thời gian làm giảm độ xác 59 6.2 Kết luận hướng phát triển Các phương pháp lựa chọn thực: Random, Rate of class attribute values, Gain of attributes có kết tốt độ xác, thể ñược chất liệu gốc Riêng phương pháp Euclidean Distance có độ xác thấp phù hợp với liệu tập trung Việc phân loại liệu liệu thu gọn cách gom nhóm sau lựa chọn phần tử theo tỷ lệ thu gọn hiệu mặt thời gian thực thi trình phân loại sử dụng giải thuật phân loại từ phức tạp đến phức tạp việc gom nhóm tập liệu tốn nhiều thời gian làm cho thời gian chạy tăng lên ñáng kể Với giải thuật phân loại liệu ñơn giản khơng q phức tạp cần phải có hướng tiếp cận khác ñể thu gọn liệu cho khơng tốn nhiều mặt thời gian kết hợp với phương pháp gom nhóm không hiệu 60 TÀI LIỆU THAM KHẢO [1] Duc-Cuong Nguyen Flexible Information Management Strategies in Machine Learning and Data Mining 2004 [2] Jiawei Han and Micheline Kamber Data Mining: Concepts and Techniques 2006 [3] Ian H Witten and Eibe Frank Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations 2000 [4] Graham J Williams Simeon J Simoff (Eds.) Data Mining: Theory, Methodology, Techiques, and Applications 2006 [5] Wesley Chu and Tsau Young Lin Foundations and Advances in Data Mining 2005 [6] Michael W Berry Survey of Text Mining - Clustering, Classification, and Retrieval 2004 [7] Chris Mueller Data Clustering Overview 2005 http://www.osl.iu.edu/~chemuell/projects/presentations/data-clusteringoverview.pdf [8] Lei Yu and Huan Liu Efficiently Handling Feature Redundancy in HighDimensional Data In The Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-03), p.685-690, 2003 [9] Huan Liu, Hiroshi Motoda, and Lei Yu A Selective Sampling Approach to Active Feature Selection In Artificial Intelligence, 159(1-2), 49-74, 2004 [10] Huan Liu, Hongjun Lu, and Lei Yu Active Sampling: An Effective Approach to Feature Selection In The Third SIAM International Conference on Data Mining, p.244-248, 2003 61 [11] Anthony Quinn and Ludvık Tesar A Survey of Techniques for Preprocessing in High Dimensional Data Clustering 2000 http://www.cs.up.ac.za/download.php/KVM781/Articles/clustering/ludvik.pdf [12] Weka website http://www.cs.waikato.ac.nz/ml/weka/ [13] UCI KDD Archive website http://kdd.ics.uci.edu/ [14] UCI Machine Learning Repository website http://kdd.ics.uci.edu/ ... logN) [9] 2.3 Kỹ thuật xử lý liệu nhiều chiều Tiêu biểu nghiên cứu Anthony Quinn Ludvik Tesar [11] với phương pháp ñề xuất sau: 2.3.1 Kiểm tra ñường biên vật lý Dữ liệu nhiều chiều liệu có nhiều... j=0  n 3.1.7 Phương pháp ño khoảng cách Phương pháp dùng ñể phân biệt phần tử tập liệu cách ño khoảng cách hay khác biệt chúng Phương pháp đo khoảng cách tỏ hữu ích việc gom nhóm liệu Nếu phần... cách phân mảnh liệu Huan Liu, Hongjun Lu, Hiroshi Motoda Lei Yu [9] [10] ñã ñề xuất phương pháp sau: 2.2.1 Dựa vào thông tin lớp ñể phân mảnh liệu tiến hành lấy mẫu (Stratified Sampling) Dữ liệu

Định dạng
Số trang	74
Dung lượng	749,02 KB