Xử lý giá trị thiếu trong khai phá dữ liệu

1 ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  - ĐOÀN XUÂN NGỌC XỬ LÝ GIÁ TRỊ THIẾU TRONG KHAI PHÁ DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hƣớng dẫn khoa học: TS NGUYỄN THANH TÙNG THÁI NGUYÊN 2010 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Luận văn đƣợc hoàn thành dƣới hƣớng dẫn, bảo tận tình, chu đáo TS Nguyễn Thanh Tùng Qua đây, xin gửi lời cảm ơn sâu sắc đến Thầy giúp đỡ nhiệt tình Thầy suốt q trình tơi thực luận văn Tôi xin cảm ơn Thầy, Cô giáo Cán Viện Công Nghệ Thông Tin - Viện Khoa Học Công Nghệ Việt Nam, Khoa Công Nghệ Thông Tin - Đại học Thái Nguyên truyền thụ kiến thức, kinh nghiệm học tập, nghiên cứu khoa học cho tơi suốt q trình học tập trƣờng Tôi xin gửi lời cảm ơn tới Cục thuế tỉnh Thái Nguyên đồng nghiệp tạo điều kiện công việc giúp thực tốt kế hoạch học tập Cuối cùng, tơi xin bày tỏ lịng biết ơn tới gia đình tơi bên cạnh động viên, ủng hộ tạo điều kiện tốt cho tơi học tập hồn thành luận văn Học viên thực ĐOÀN XUÂN NGỌC Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC DANH SÁCH CÁC HÌNH VẼ DANH SÁCH CÁC BẢNG MỞ ĐẦU CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ VẤN ĐỀ DỮ LIỆU THIẾU 1.1 Khai phá liệu 1.2 Vấn đề liệu thiếu sở liệu cần khai phá 14 1.3 Kết luận chƣơng 19 CHƢƠNG 2: CÁC PHƢƠNG PHÁP CƠ BẢN XỬ LÝ GIÁ TRỊ THIẾU 21 2.1 Các phƣơng pháp thống kê 21 2.1.1 Phƣơng pháp Trung bình-Mốt (Mean-Mode - MM) 21 2.1.2 Phƣơng pháp Trung bình-Mốt dựa vào cụm tự nhiên (Natural Cluster Based Mean-Mode - NCBMM) 23 2.1.3 Thay giá trị thiếu giá trị cho độ lệch chuẩn (Replacement Under Same Standard Deviation - RUSSD) 24 2.1.4 Hồi quy tuyến tính (Linear regression – LR) 24 2.2 Các phƣơng pháp học máy 25 2.2.1 Phƣơng pháp Trung bình-Mốt dựa vào cụm sinh thuộc tính gần (Attribute Rank Cluster Based Mean-Mode algorithm - RCBMM) 25 2.2.2 Phƣơng pháp Trung bình – Mốt dựa vào phân cụm k-Means (K-means clustering based Mean - Mode - KMCMM) 27 2.3 Các phƣơng pháp nhúng 32 2.3.1 Loại bỏ liệu có chứa giá trị thiếu (discarding data tuples with missing values) 32 2.3.2 Phƣơng pháp C4.5 33 2.3.3 Phƣơng pháp CART 36 2.4 Đánh giá 36 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.4.1 Đánh giá lý thuyết 37 2.4.2 Đánh giá thực nghiệm 38 2.5 Kết luận chƣơng 45 CHƢƠNG 3: PHƢƠNG PHÁP XỬ LÝ GIÁ TRỊ THIẾU PHỐI HỢP KHAI PHÁ LUẬT KẾT HỢP VỚI PHƢƠNG PHÁP K-LÁNG GIỀNG GẦN NHẤT 47 3.1 Mở đầu 47 3.2 Khai phá luật kết hợp 48 3.3 Thuật toán RAR khai phá luật kết hợp sở liệu không đầy đủ 53 3.4 Phƣơng pháp xử lý giá trị thiếu HMiT 55 3.5 Tính tốn thực nghiệm 57 3.6 Kết luận chƣơng 63 TÀI LIỆU THAM KHẢO 64 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH SÁCH CÁC HÌNH VẼ Hình 1.1 Các bƣớc thực trình khai phá liệu 11 Hình 1.2 Phân bố giá trị thiếu trƣờng hợp 16 Hình 1.3 Phân bố giá trị thiếu trƣờng hợp 16 Hình 1.4 Phân bố giá trị thiếu trƣờng hợp 16 Hình 1.5 Kết quản mô tả phân bố giá trị thiếu tập liệu edu.data UCI 17 Hình 2.1 Thuật toán MM 22 Hình 2.1 Thuật tốn NCBMM 23 Hình 2.3 Thuật tốn RUSD 24 Hình 2.4 Thuật tốn RCBMM 26 Hình 2.5 Thuật tốn KMCMM 28 Hình 2.6 Thuật tốn phân cụm k-means 29 Hình 2.7 Thuật tốn kNN 30 Hình 2.8 Tỷ lệ lỗi phƣơng pháp tập liệu định lƣợng 43 Hình 2.9 Tỷ lệ lỗi phƣơng pháp tập liệu định tính 44 Hình 2.10 Tỷ lệ lỗi phƣơng pháp tập liệu hỗn hợp 45 Hình 3.1 Sơ đồ khối thuật tốn gán giá trị thiếu HMiT 56 Hình 3.2 Sự phụ thuộc độ xác vào số lƣợng giá trị thiếu CSDL 59 Hình 3.3 Sự phụ thuộc độ xác vào độ tin cậy sử dụng HMVI 60 Hình 3.4 Sự phụ thuộc độ xác vào độ hỗ trợ sử dụng HMVI 61 Hình 3.5 Thời gian xử lý giá trị thiếu HMVI K-NNI 62 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH SÁCH CÁC BẢNG Bảng 2.8 Đánh giá mặt lý thuyết 10 phƣơng pháp xử lý giá trị thiếu 38 Bảng 2.9 Các tập liệu có chứa giá trị thiếu thuộc tính định lƣợng 39 Bảng 2.10 Các tập liệu có chứa giá trị thiếu thuộc tính định tính 39 Bảng 2.11 Các tập liệu có giá trị thiếu thuộc tính định lƣợng định tính 40 Bảng 2.12 Thời gian thực thi việc thay tập liệu định lƣợng (phút:giây) 41 Bảng 2.13 hời gian thực thi việc thay tập liệu định tính (phút:giây) 41 Bảng 2.14 Thời gian thực thi việc thay tập liệu hỗn hợp (phút:giây) 42 Bảng 2.15 Tỷ lệ lỗi phân lớp tập liệu định lƣợng (%) 42 Bảng 2.16 Tỷ lệ lỗi tập liệu định tính (%) 43 Bảng 2.17 Tỷ lệ lỗi tập liệu hỗn hợp (%) 44 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Trong năm gần đây, với phát triển vƣợt bậc công nghệ thông tin, truyền thông, khả thu thập lƣu trữ thông tin hệ thống thông tin không ngừng đƣợc nâng cao Với lƣợng liệu tăng nhanh khổng lồ nhƣ vậy, rõ ràng phƣơng pháp phân tích liệu truyền thống khơng cịn hiệu quả, gây tốn dễ dẫn đến kết sai lệch Để khai phá hiệu sở liệu (CSDL) lớn lĩnh vực khoa học đời: Khám phá tri thức CSDL (Knowledge Discovery in Databases – KDD) Khai phá liệu (Data Mining) công đoạn trình KDD đƣợc định nghĩa nhƣ sau [6]: Khai phá liệu trình tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn Trong năm gần đây, nhiều kỹ thuật khai phá liệu đƣợc nghiên cứu ứng dụng thành công nhiều lĩnh vực Tuy nhiên, việc nghiên cứu ứng dụng kỹ thuật khai phá liệu gặp phải khó khăn, thách thức lớn, có vấn đề giá trị thiếu Trong thực hành, CSDL cần khai phá thƣờng khơng đầy đủ, tức có giá trị thuộc tính bị thiếu Có nhiều ngun nhân khác dẫn tới tƣợng này: thiết bị thu thập liệu bị hỏng, thay đổi thiết kế thí nghiệm, từ chối cung cấp liệu nhằm bảo vệ tính riêng tƣ, sơ xuất nhập liệu, cố xảy trình truyền liệu, … Dữ liệu thiếu gây khó khăn cho việc khai phá, ảnh hƣởng trực tiếp đến chất lƣợng tri thức khám phá đƣợc Làm để xử lý các giá trị thiếu, nhiệm vụ quan trọng hàng đầu trình khám phá tri thức từ sở liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Cho đến nay, nhiều phƣơng pháp xử lý giá trị thiếu đƣợc đề xuất áp dụng [5, 10, 12] Các phƣơng pháp cho phép xử lý trực tiếp giá trị thiếu, nhiên chúng mang nhiễu vào tập liệu Việc xử lý giá trị thiếu cần phải đƣợc cân nhắc thực cách thận trọng, không làm cho tri thức khai phá bị sai lệch [5] Trong năm gần đây, xử lý giá trị thiếu CSDL khai phá đề tài thu hút quan tâm nhiều nhà nghiên cứu ứng dụng Tại nhiều trung tâm nghiên cứu giới có phận chuyên nghiên cứu phƣơng pháp xây dựng phần mềm xử lý giá trị thiếu CSDL Hầu hết phần mềm phân tích liệu thống kê, khai phá liệu học máy có nội dung liên quan đến xử lý giá trị thiếu Luận văn trình bày nghiên cứu học viên vấn đề xử lý giá trị thiếu CSDL lớn phục vụ khai phá liệu, khám phá tri thức Nội dung luân văn gồm ba chƣơng Chƣơng 1: Trình bày khái quát khai phá liệu vấn đề giá trị thiếu Chƣơng 2: Trình bày số phƣơng pháp bản, thƣờng đƣợc sử dụng xử lý giá trị thiếu Chƣơng 3: Trình bày phƣơng pháp mới, xử lý hiệu giá trị thiếu, phƣơng pháp sử dụng phối hợp kỹ thuật khai phá luật kết hợp CSDL không đầy đủ với phƣơng pháp k-láng giềng gần Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ VẤN ĐỀ DỮ LIỆU THIẾU 1.1 Khai phá liệu Trong năm gần đây, với phát triển vƣợt bậc công nghệ thông tin, truyền thông, khả thu thập lƣu trữ thông tin hệ thống thông tin không ngừng đƣợc nâng cao Theo đó, lƣợng thơng tin đƣợc lƣu trữ thiết bị nhớ tăng nhanh ngày Thống kê sơ cho thấy, lƣợng thông tin hệ thống thông tin sau 20 tháng lại tăng lên gấp đôi [6, 17] Với lƣợng liệu tăng nhanh khổng lồ nhƣ vậy, rõ ràng phƣơng pháp phân tích liệu truyền thống khơng cịn hiệu quả, gây tốn dễ dẫn đến kết sai lệch Để khai phá hiệu sở liệu (CSDL) lớn cần phải có kỹ thuật mới: kỹ thuật khai phá liệu (Data Mining) Khai phá liệu lĩnh vực khoa học xuất hiện, nhằm tự động hóa khai thác thơng tin, tri thức hữu ích, tiềm ẩn CSDL lớn cho tổ chức, doanh nghiệp, từ thúc đẩy khả sản xuất, kinh doanh, cạnh tranh tổ chức, doanh nghiệp Các kết nghiên cứu với ứng dụng thành công khám phá tri thức cho thấy khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ƣu hẳn so với cơng cụ phân tích liệu truyền thống Tuy đời khoảng 20 năm, nhƣng khai phá liệu lĩnh vực khoa học phát triển vơ nhanh chóng Do phát triển nhanh chóng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 phạm vi áp dụng lẫn phƣơng pháp tìm kiếm tri thức, có nhiều quan điểm khác khai phá liệu Tuy nhiên, mức độ trừu tƣợng định, định nghĩa khai phá liệu nhƣ sau [6]: Khai phá liệu trình tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn Khám phá tri thức CSDL (Knowledge Discovery in Databases – KDD) mục tiêu khai phá liệu, hai khái niệm khai phá liệu KDD đƣợc nhà khoa học xem tƣơng đƣơng Thế nhƣng, phân chia cách chi tiết khai phá liệu bƣớc q trình KDD Khám phá tri thức CSDL lĩnh vực liên quan đến nhiều ngành nhƣ: Tổ chức liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật tốn, trí tuệ nhân tạo, tính tốn song song hiệu cao, Các kỹ thuật áp dụng khám phá tri thức phần lớn đƣợc thừa kế từ ngành Quá trình khám phá tri thức phân thành cơng đoạn sau [6]:  Lựa chọn liệu: Là bƣớc tuyển chọn tập liệu cần đƣợc khai phá từ tập liệu lớn (databases, data warehouses, data repositories) ban đầu theo số tiêu chí định  Tiền xử lý liệu: Là bƣớc làm liệu (xử lý liệu thiếu, liệu nhiễu, liệu không quán, ), tổng hợp liệu, rời rạc hóa liệu, Biến đổi liệu Đây đƣợc xem bƣớc quan trọng tiêu tốn thời gian tồn q trình KDD Sau bƣớc tiền sử lý này, liệu quán, đầy đủ, đƣợc rút gọn rời rạc hóa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 52 Phương pháp: (1) Tìm tập 1-tập mục thƣờng xuyên, nhận đƣợc L1 ; (2) For (k=2; Lk-1≠; k++) begin (3) Ck = apriori_gen(Lk-1, minsup); // Sinh tập ứng cử từ Lk-1 (4) For (each t D) begin Ct = subset(Ck,t) ; // Các tập mục ứng cử chứa t (5) For (each c Ct) (6) c.count++ ; // tăng số đếm c lên đơn vị (7) (8) end ; (9) Lk = { c Ck / c.count ≥ minsup} ; (10) end (11) L   k Lk ; Hàm tạo tập mục ứng viên Apriori: hàm Apriori_gen(): Đầu vào: Tập (k-1) itemset thƣờng xuyên Lk-1 Đầu ra: Tập k- itemset ứng cử Ck Phương thức: // Bƣớc kết nối (1) For (each (k-1) itemset l1  Lk-1) (2) (3) For (each (k-1) itemset l2  Lk-1) if (l1[1] = l2[1]) and (l1[2] = l2[2]) and … and (l1[k-2] = l2[k-2]) and (l1[k-1] < l2[k-1]) then Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 53 Ck { l1[1], l1[2], … l1[k-2],I1[k-1] l2[k-1]}; (4) // Bƣớc cắt tỉa (5) For (each ciCk) (6) For (each subsets s  ci) (7) if (sLk-1) then (8) delete ci from Ck; (9) Return Ck; 3.3 Thuật toán RAR khai phá luật kết hợp sở liệu không đầy đủ Một CSDL thƣờng có nhiều thuộc tính Để áp dụng thuật toán truyền thống khai phá luật kết hợp CSDL có chứa thuộc tính định lƣợng liên tục, trƣớc hết cần rời rạc hóa thuộc tính loại này, sau coi giá trị rời rạc mục Cho I  P1 , P2 , , Pn  tập mục khác CSDL, mục Pi đôi  ATi , vi  ATi thuộc tính, vi giá trị liên kết Để cho tiện, mục  ATi , vi  đƣợc viết gọn AT vii Ví dụ, ký hiệu AT 25 đƣợc hiểu mục với thuộc tính AT giá trị Trong CSDL có giá trị thuộc tính thiếu, phát luật kết hợp, loại bỏ tất liệu có chứa giá trị thiếu số luật hữu ích khai phá đƣợc Để giảm bớt ảnh hƣởng giá trị thiếu khai phá luật kết hợp, [21] Ragel Cremilleux đề xuất thuật tốn RAR (Robust Association Rules) Thay loại bỏ khỏi CSDL tất liệu có giá trị thiếu, RAR vơ hiệu hóa tạm thời phần chúng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 thời điểm khác thông qua việc định nghĩa lại khái niệm độ hỗ trợ độ tin cậy luật Cho sở liệu quan hệ DB, Ti liệu DB R: X  Y luật kết hợp Định nghĩa 2.1 (Bộ liệu vô hiệu – disabled data tuple) Xét tập mục X Bộ liệu Ti vô hiệu DB X, Ti có giá trị thiếu mục thuộc X Ký hiệu Dis  X  tập tất Ti DB vô hiệu X Định nghĩa 2.2 (Cơ sở liệu hữu hiệu - valid database) Đặt vDBX  DB  Dis  X  vDBX đƣợc gọi CSDL hữu hiệu X DB Từ định nghĩa Bộ liệu vô hiệu định nghĩa Cơ sở liệu hữu hiệu nhƣ trên, Ragel Cremilleux định nghĩa lại khái niệm Độ hỗ trợ Độ tin cậy luật kết hợp R: X  Y nhƣ sau Định nghĩa 2.3 (Độ hỗ trợ Độ tin cậy) Độ hỗ trợ sup ( R ) Độ tin cậy conf ( R ) luật kết hợp R: X  Y CSDL DB đại lƣợng xác định nhƣ sau: sup ( R )  dbX Y dbX Y , conf ( R)  , vDBX Y dbX  Dis (Y )  dbX lực lƣợng tập hợp Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn (1) 55 Định nghĩa 2.4 (Độ đại diện) Độ đại diện tập mục X DB, ký hiệu Rep  X  , tỷ số Rep  X   vDBX DB (2) Những luật kết hợp khai phá đƣợc CSDL nhỏ thƣờng không thật hấp dẫn Để tránh khai phá luật CSDL nhỏ, ngƣời sử dụng quy định giá trị tối thiểu minRep cho độ đại diện 3.4 Phƣơng pháp xử lý giá trị thiếu HMiT Mục trình bày phƣơng pháp xử lý giá trị thiếu HMiT, sử dụng phối hợp kỹ thuật khai phá luật kết hợp CSDL không đầy đủ, theo [7] Đầu tiên, HMiT thực việc chuyển CSDL ban đầu thành CSDL giao tác Sau tiến hành khai phá luật kết hợp mạnh từ CSDL giao tác Sau có tập luật kết hợp mạnh, HMiT lựa chọn tập F bao gồm luật thích hợp cho việc gán trị cho giá trị thiếu nhƣ sau: với liệu X có giá trị thuộc tính thiếu, HMiT so sánh giá trị thuộc tính biết X với tiền tố luật kết hợp Nếu giá trị biết X tạo thành tập tiền tố luật kết hợp R nhập R vào tập F Khi tất luật đƣợc kiểm tra, so sánh với liệu X, thuật toán thu đƣợc tập F gồm luật mạnh có tiền tố chứa giá trị biết X Các luật thuộc F đƣợc sử dụng để gán trị cho giá trị bị thiếu Nếu tập F không rỗng, giá trị thiếu X đƣợc thay giá trị trung bình (khi thuộc tính định lƣợng) hay mod (khi thuộc tính định tính) giá trị kết luận luật tƣơng thích thuộc tập F Trƣờng hợp F tập rỗng, giá trị thiếu X đƣợc ƣớc lƣợng phƣơng pháp k-láng giềng gần Hình 3.1 dƣới mơ tả bƣớc thực HMiT Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 Hình 3.6 Sơ đồ khối thuật toán gán giá trị thiếu HMiT Tựa code HMiT nhƣ sau: HMIT (Độ hỗ trợ Minsupp, Độ tin cậy Minconfidence) Chuyển đổi CSDL ban đầu thành CSDL giao tác Khai phá tập mục thƣờng xuyên (FI) với độ hỗ trợ Minsupp Khai phá luật kết hợp (AR) với độ tin cậy Minconfidence Với giao tác X, có giá trị thuộc tính thiếu Với luật R tập luật kết hợp (AR) So sánh tiền tố R với giá trị biết X Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 Nếu tiền tố R thuộc X (tập giá trị biết X) bổ sung R vào tập F Nếu F   Nếu giá trị thiếu X giá trị rời rạc thay Mod giá trị kết luận luật thuộc F 10 Nếu giá trị thiếu X giá trị liên tục thay trung bình giá trị kết luận luật thuộc F 11 Trƣờng hợp ngƣợc lại 12 Gán trị cho giá trị thiếu X thuật tốn k-láng giềng gần 3.5 Tính tốn thực nghiệm Để đánh giá hiệu HMiT, thực tính tốn thực nghiệm hai CSDL chuẩn lấy từ kho liệu UCI [16], Vote Credit Card Vote có 435 ghi, 17 thuộc tính; Credit Card bao gồm 690 ghi 15 thuộc tính Cả hai CSDL khơng có giá trị thiếu Các tính tốn thực nghiệm nhƣ sau Đầu tiên, thực chèn liệu thiếu vào thuộc tính CSDL cách xóa cách ngẫu nhiên số giá trị Tỷ lệ giá trị xóa thay đổi từ 10% đến 70% với gia số 10% Với CSDL bị làm cho thiếu giá trị thuộc tính, thực xử lý giá trị thiếu phƣơng pháp HMiT phƣơng pháp k-láng giềng gần nhất, sau so sánh CSDL thu đƣợc với CSDL ban đầu Để khai phá khai phá luật kết hợp sử dụng thuật toán FP-tree với ngƣỡng minsupp =0.3 minconfidence = 0.60 Đối với phƣơng pháp k-láng giềng gần nhất, số láng giềng đƣợc chọn 10 phƣơng pháp HMiT đƣợc lập trình Visual C++ 6.0 thực máy 2.53 GHz với nhớ 0.99 GB môi trƣờng Window XP 2005 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 Dựa kết tính tốn, chúng tơi thu đƣợc các nhận xét nhƣ sau Về phụ thuộc độ xác vào số lượng giá trị thiếu CSDL: Đối với hai phƣơng pháp HMiT k-NN, độ xác giá trị thiếu ƣớc lƣợng giảm dần số lƣợng giá trị thiếu tăng dần, (Hình 3.2) Tuy nhiên, độ xác HMiT cao nhiều so với độ xác k-NN Về phụ thuộc độ xác vào độ tin cậy sử dụng HMiT: Độ xác giá trị thiếu ƣớc lƣợng đƣợc cao độ tin cậy tối thiểu quy định minconfidence cao (Hình 3.3) Điều hợp lý, độ tin cậy quy định cao, luật khai phá đƣợc mạnh, khả dự đốn xác giá trị thiếu chúng lớn Về phụ thuộc độ xác vào độ hỗ trợ sử dụng HMiT: Độ xác giá trị thiếu ƣớc lƣợng đƣợc không phụ thuộc vào minsupp quy định (Hình 3.4) Chỉ có số luật khai phá đƣợc tăng lên minsupp giảm (một điều dễ hiểu) So sánh thời gian xử lý giá trị thiếu HMiT k-NN: HMiT hiệu k-NN thời gian xử lý giá trị thiếu, (Hình 3.5) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 Hình 3.2 Sự phụ thuộc độ xác vào số lƣợng giá trị thiếu CSDL Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 CSDL VOTE CSDL CREDIT CARD K-NNI HMVI Hình 3.3 Sự phụ thuộc độ xác vào độ tin cậy sử dụng HMVI Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 CSDL VOTE Giá trị thiếu = 20 % Minconfidence = 60 % CSDL CREDIT CARD Giá trị thiếu = 20 % Minconfidence = 60 % K-NNI HMVI Hình 3.4 Sự phụ thuộc độ xác vào độ hỗ trợ sử dụng HMVI Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 CSDL VOTE Minsupp = 0.3 % Minconfidence = 60 % CSDL CREDIT CARD Minsupp = 0.3 % Minconfidence = 60 % K-NNI HMVI Hình 3.5 Thời gian xử lý giá trị thiếu HMVI K-NNI Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 3.6 Kết luận chƣơng Chƣơng trình bày phƣơng pháp hiệu xử lý giá trị thiếu, đƣợc đề xuất thời gian gần đây: phƣơng pháp HMiT Phƣơng pháp sử dụng phối hợp kỹ thuật khai phá luật kết hợp CSDL không đầy đủ Ragel Cremilleux đề xuất với phƣơng pháp k-láng giềng gần Để kiểm tra, đánh giá độ hiệu kỹ thuật này, tiến hành tính tốn thử nghiệm sở liệu thực tế Kết thử nghiệm cho thấy, phƣơng pháp HMiT cho độ xác cao mà cịn có thời gian xử lý giá trị thiếu so với phƣơng pháp k-láng giềng gần Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 TÀI LIỆU THAM KHẢO [1] R Agrawal, H Mannila, R Srikant, H Toivonen, A.I Verkamo, Fast discovery of association rules, Advances in Knowledge Discovery and Data Mining, MIT Press, Cambridge, MA, 1996 pp 307–328 [2] R Agrawal, T Imielinski, A Swami, Mining association rules between sets of items in large databases, in: Proceedings of the ACM SIGMOD Conference on Management of Data, Washington, DC, USA, 1993, pp 207–216 [3] G Batista and M Monard, “K-Nearest Neighbour as Imputation Method: Experimental Results”, Tech Report 186 ICMC-USP, 2002 [4] P Ciaccia, M Patella, and P Zezula M-tree: An Efficient Access Method for Similarity Search in Metric Spaces In VLDB’97, pages 426–435, 1997 [5] J W Grzymala-Busse and M Hu, A comparison of several approaches to missing attribute values in data mining Proceedings of the Second International Conference on Rough Sets and Current Trends in Computing RSCTC'2000, October 16–19, 2000, Canada, 340–347 [6] J Han, & M Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2001 [7] H Hu and J Li, Using Association Rules to Make Rule-based Classifiers Robust, Proc of 16th Australasian Database Conference (ADC), 2005 [8] R Kohavi, D Sommerfield, and J Dougherty Data Mining using MLC++: A Machine Learning Library in C++ Tools with Artificial Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Intelligence, pages 234–245, 1996 [9] K Lakshminarayan, S.A Harp, R Goldman, T Samad, Imputation of missing data using machine learning techniques, Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), Portland, USA, MIT Press, Cambridge, MA, 1996 pp 140–146 [10] K Lakshminarayan, S A Harp, and T Samad Imputation of Missing Data in Industrial Databases Applied Intelligence, 11:259–275, 1999 [11] R J Little and D B Rubin Statistical Analysis with Missing Data John Wiley and Sons, New York, 1987 [12] W.Z Liu, A.P.White, S.G Thompson, M.A Bramer, Techniques for dealing with missing values in classification, in: Second International Symposium on Intelligent Data Analysis, London, UK, 1997 [13] R J Little and D B Rubin Statistical Analysis with Missing Data John Wiley and Sons, New York, 1987 [15] K.C Lee, , J.S Park, Y.S Kim, and Y.T Byun, Missing Value Estimation Based on Dynamic Attribute Selection In proceedings of the PAKDD 2000, pp 134-137, 2000 [16] C J Merz and P M Murphy UCI Repository of Machine Learning Datasets, 1998 http://www.ics.uci.edu/ mlearn/MLRepository.html [17] H Mannila, Data mining: machine learning, statistics, and databases Eight International Conference on Scientific and Statistical Database Management, Stockholm June 18-20, 1996, p 1-8, 1996 [18] R L Mantaras, A Distance-Based Attribute Selection Measure for Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 Decision Tree Induction Machine Learning, Vol 6, 81-92, 1991 [19] D Pyle, Data Preparation for Data Mining Morgan Kaufmann Publishers, Inc, 1999 [20] J.R Quinlan, Induction of decision trees Machine Learning, 1, 81106, 1986 [21] A Ragel, B Crémilleux, Treatment of missing values for association rules, Proceedings of The Second Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD-98), Melbourne, Australia, Lecture Notes in Artificial Intelligence 1394, Springer, Berlin, 1998 pp 258–270 [22] A.P White, Probabilistic induction by dynamic path generation in virtual trees In Research and Development in Expert Systems III, edited by M.A Bramer, pp 35-46 Cambridge: Cambridge University Press, 1987 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... tích liệu thống kê, khai phá liệu học máy có nội dung liên quan đến xử lý giá trị thiếu Một nhiệm vụ vô quan trọng xây dựng phƣơng pháp xử lý giá trị thiếu phải hiểu đƣợc chế sinh giá trị thiếu. .. nhiều phƣơng pháp xử lý giá trị thiếu đƣợc đề xuất áp dụng [5, 10, 12] Các phƣơng pháp cho phép xử lý trực tiếp giá trị thiếu, nhiên chúng mang nhiễu vào tập liệu Việc xử lý giá trị thiếu cần phải... liệu, phƣơng pháp nhúng xử lý giá trị thiếu thực khai phá liệu Phần lớn kỹ thuật khai phá liệu khơng có phƣơng pháp xử lý giá trị thiếu nhúng chúng, ngoại trừ vài phƣơng pháp phân loại, nhƣ thuật