Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
329,02 KB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN - ĐOÀN XUÂN NGỌC XỬLÝGIÁTRỊTHIẾUTRONGKHAIPHÁDỮLIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hƣớng dẫn khoa học: TS NGUYỄN THANH TÙNG THÁI NGUYÊN 2010 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Luận văn đƣợc hoàn thành dƣới hƣớng dẫn, bảo tận tình, chu đáo TS Nguyễn Thanh Tùng Qua đây, xin gửi lời cảm ơn sâu sắc đến Thầy giúp đỡ nhiệt tình Thầy suốt trình thực luận văn Tôi xin cảm ơn Thầy, Cô giáo Cán Viện Công Nghệ Thông Tin - Viện Khoa Học Công Nghệ Việt Nam, Khoa Công Nghệ Thông Tin - Đại học Thái Nguyên truyền thụ kiến thức, kinh nghiệm học tập, nghiên cứu khoa học cho suốt trình học tập trƣờng Tôi xin gửi lời cảm ơn tới Cục thuế tỉnh Thái Nguyên đồng nghiệp tạo điều kiện công việc giúp thực tốt kế hoạch học tập Cuối cùng, xin bày tỏ lòng biết ơn tới gia đình bên cạnh động viên, ủng hộ tạo điều kiện tốt cho học tập hoàn thành luận văn Học viên thực ĐOÀN XUÂN NGỌC Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC DANH SÁCH CÁC HÌNH VẼ DANH SÁCH CÁC BẢNG MỞ ĐẦU CHƢƠNG 1: KHÁI QUÁT VỀ KHAIPHÁDỮLIỆU VÀ VẤN ĐỀ DỮLIỆUTHIẾU 1.1 Khaipháliệu 1.2 Vấn đề liệuthiếu sở liệu cần khaiphá 14 1.3 Kết luận chƣơng 19 CHƢƠNG 2: CÁC PHƢƠNG PHÁP CƠ BẢN XỬLÝGIÁTRỊTHIẾU 21 2.1 Các phƣơng pháp thống kê 21 2.1.1 Phƣơng pháp Trung bình-Mốt (Mean-Mode - MM) 21 2.1.2 Phƣơng pháp Trung bình-Mốt dựa vào cụm tự nhiên (Natural Cluster Based Mean-Mode - NCBMM) 23 2.1.3 Thay giátrịthiếugiátrị cho độ lệch chuẩn (Replacement Under Same Standard Deviation - RUSSD) 24 2.1.4 Hồi quy tuyến tính (Linear regression – LR) 24 2.2 Các phƣơng pháp học máy 25 2.2.1 Phƣơng pháp Trung bình-Mốt dựa vào cụm sinh thuộc tính gần (Attribute Rank Cluster Based Mean-Mode algorithm - RCBMM) 25 2.2.2 Phƣơng pháp Trung bình – Mốt dựa vào phân cụm k-Means (K-means clustering based Mean - Mode - KMCMM) 27 2.3 Các phƣơng pháp nhúng 32 2.3.1 Loại bỏ liệu có chứa giátrịthiếu (discarding data tuples with missing values) 32 2.3.2 Phƣơng pháp C4.5 33 2.3.3 Phƣơng pháp CART 36 2.4 Đánh giá 36 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.4.1 Đánh giálý thuyết 37 2.4.2 Đánh giá thực nghiệm 38 2.5 Kết luận chƣơng 45 CHƢƠNG 3: PHƢƠNG PHÁP XỬLÝGIÁTRỊTHIẾU PHỐI HỢP KHAIPHÁ LUẬT KẾT HỢP VỚI PHƢƠNG PHÁP K-LÁNG GIỀNG GẦN NHẤT 47 3.1 Mở đầu 47 3.2 Khaiphá luật kết hợp 48 3.3 Thuật toán RAR khaiphá luật kết hợp sở liệu không đầy đủ 53 3.4 Phƣơng pháp xửlýgiátrịthiếu HMiT 55 3.5 Tính toán thực nghiệm 57 3.6 Kết luận chƣơng 63 TÀI LIỆU THAM KHẢO 64 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH SÁCH CÁC HÌNH VẼ Hình 1.1 Các bƣớc thực trình khaipháliệu 11 Hình 1.2 Phân bố giátrịthiếu trƣờng hợp 16 Hình 1.3 Phân bố giátrịthiếu trƣờng hợp 16 Hình 1.4 Phân bố giátrịthiếu trƣờng hợp 16 Hình 1.5 Kết quản mô tả phân bố giátrịthiếu tập liệu edu.data UCI 17 Hình 2.1 Thuật toán MM 22 Hình 2.1 Thuật toán NCBMM 23 Hình 2.3 Thuật toán RUSD 24 Hình 2.4 Thuật toán RCBMM 26 Hình 2.5 Thuật toán KMCMM 28 Hình 2.6 Thuật toán phân cụm k-means 29 Hình 2.7 Thuật toán kNN 30 Hình 2.8 Tỷ lệ lỗi phƣơng pháp tập liệu định lƣợng 43 Hình 2.9 Tỷ lệ lỗi phƣơng pháp tập liệu định tính 44 Hình 2.10 Tỷ lệ lỗi phƣơng pháp tập liệu hỗn hợp 45 Hình 3.1 Sơ đồ khối thuật toán gán giátrịthiếu HMiT 56 Hình 3.2 Sự phụ thuộc độ xác vào số lƣợng giátrịthiếu CSDL 59 Hình 3.3 Sự phụ thuộc độ xác vào độ tin cậy sử dụng HMVI 60 Hình 3.4 Sự phụ thuộc độ xác vào độ hỗ trợ sử dụng HMVI 61 Hình 3.5 Thời gian xửlýgiátrịthiếu HMVI K-NNI 62 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH SÁCH CÁC BẢNG Bảng 2.8 Đánh giá mặt lý thuyết 10 phƣơng pháp xửlýgiátrịthiếu 38 Bảng 2.9 Các tập liệu có chứa giátrịthiếu thuộc tính định lƣợng 39 Bảng 2.10 Các tập liệu có chứa giátrịthiếu thuộc tính định tính 39 Bảng 2.11 Các tập liệu có giátrịthiếu thuộc tính định lƣợng định tính 40 Bảng 2.12 Thời gian thực thi việc thay tập liệu định lƣợng (phút:giây) 41 Bảng 2.13 hời gian thực thi việc thay tập liệu định tính (phút:giây) 41 Bảng 2.14 Thời gian thực thi việc thay tập liệu hỗn hợp (phút:giây) 42 Bảng 2.15 Tỷ lệ lỗi phân lớp tập liệu định lƣợng (%) 42 Bảng 2.16 Tỷ lệ lỗi tập liệu định tính (%) 43 Bảng 2.17 Tỷ lệ lỗi tập liệu hỗn hợp (%) 44 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Trong năm gần đây, với phát triển vƣợt bậc công nghệ thông tin, truyền thông, khả thu thập lƣu trữ thông tin hệ thống thông tin không ngừng đƣợc nâng cao Với lƣợng liệu tăng nhanh khổng lồ nhƣ vậy, rõ ràng phƣơng pháp phân tích liệu truyền thống không hiệu quả, gây tốn dễ dẫn đến kết sai lệch Để khaiphá hiệu sở liệu (CSDL) lớn lĩnh vực khoa học đời: Khám phátri thức CSDL (Knowledge Discovery in Databases – KDD) Khaipháliệu (Data Mining) công đoạn trình KDD đƣợc định nghĩa nhƣ sau [6]: Khaipháliệu trình tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn Trong năm gần đây, nhiều kỹ thuật khaipháliệu đƣợc nghiên cứu ứng dụng thành công nhiều lĩnh vực Tuy nhiên, việc nghiên cứu ứng dụng kỹ thuật khaipháliệu gặp phải khó khăn, thách thức lớn, có vấn đề giátrịthiếuTrong thực hành, CSDL cần khaiphá thƣờng không đầy đủ, tức có giátrị thuộc tính bị thiếu Có nhiều nguyên nhân khác dẫn tới tƣợng này: thiết bị thu thập liệu bị hỏng, thay đổi thiết kế thí nghiệm, từ chối cung cấp liệu nhằm bảo vệ tính riêng tƣ, sơ xuất nhập liệu, cố xảy trình truyền liệu, … Dữliệuthiếu gây khó khăn cho việc khai phá, ảnh hƣởng trực tiếp đến chất lƣợng tri thức khám phá đƣợc Làm để xửlý các giátrị thiếu, nhiệm vụ quan trọng hàng đầu trình khám phátri thức từ sở liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Cho đến nay, nhiều phƣơng pháp xửlýgiátrịthiếu đƣợc đề xuất áp dụng [5, 10, 12] Các phƣơng pháp cho phép xửlý trực tiếp giátrị thiếu, nhiên chúng mang nhiễu vào tập liệu Việc xửlýgiátrịthiếu cần phải đƣợc cân nhắc thực cách thận trọng, không làm cho tri thức khaiphá bị sai lệch [5] Trong năm gần đây, xửlýgiátrịthiếu CSDL khaiphá đề tài thu hút quan tâm nhiều nhà nghiên cứu ứng dụng Tại nhiều trung tâm nghiên cứu giới có phận chuyên nghiên cứu phƣơng pháp xây dựng phần mềm xửlýgiátrịthiếu CSDL Hầu hết phần mềm phân tích liệu thống kê, khaipháliệu học máy có nội dung liên quan đến xửlýgiátrịthiếu Luận văn trình bày nghiên cứu học viên vấn đề xửlýgiátrịthiếu CSDL lớn phục vụ khaiphá liệu, khám phátri thức Nội dung luân văn gồm ba chƣơng Chƣơng 1: Trình bày khái quát khaipháliệu vấn đề giátrịthiếu Chƣơng 2: Trình bày số phƣơng pháp bản, thƣờng đƣợc sử dụng xửlýgiátrịthiếu Chƣơng 3: Trình bày phƣơng pháp mới, xửlý hiệu giátrị thiếu, phƣơng pháp sử dụng phối hợp kỹ thuật khaiphá luật kết hợp CSDL không đầy đủ với phƣơng pháp k-láng giềng gần Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG KHÁI QUÁT VỀ KHAIPHÁDỮLIỆU VÀ VẤN ĐỀ DỮLIỆUTHIẾU 1.1 KhaipháliệuTrong năm gần đây, với phát triển vƣợt bậc công nghệ thông tin, truyền thông, khả thu thập lƣu trữ thông tin hệ thống thông tin không ngừng đƣợc nâng cao Theo đó, lƣợng thông tin đƣợc lƣu trữ thiết bị nhớ tăng nhanh ngày Thống kê sơ cho thấy, lƣợng thông tin hệ thống thông tin sau 20 tháng lại tăng lên gấp đôi [6, 17] Với lƣợng liệu tăng nhanh khổng lồ nhƣ vậy, rõ ràng phƣơng pháp phân tích liệu truyền thống không hiệu quả, gây tốn dễ dẫn đến kết sai lệch Để khaiphá hiệu sở liệu (CSDL) lớn cần phải có kỹ thuật mới: kỹ thuật khaipháliệu (Data Mining) Khaipháliệu lĩnh vực khoa học xuất hiện, nhằm tự động hóa khai thác thông tin, tri thức hữu ích, tiềm ẩn CSDL lớn cho tổ chức, doanh nghiệp, từ thúc đẩy khả sản xuất, kinh doanh, cạnh tranh tổ chức, doanh nghiệp Các kết nghiên cứu với ứng dụng thành công khám phátri thức cho thấy khaipháliệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ƣu hẳn so với công cụ phân tích liệu truyền thống Tuy đời khoảng 20 năm, nhƣng khaipháliệu lĩnh vực khoa học phát triển vô nhanh chóng Do phát triển nhanh chóng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 phạm vi áp dụng lẫn phƣơng pháp tìm kiếm tri thức, có nhiều quan điểm khác khaipháliệu Tuy nhiên, mức độ trừu tƣợng định, định nghĩa khaipháliệu nhƣ sau [6]: Khaipháliệu trình tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn Khám phátri thức CSDL (Knowledge Discovery in Databases – KDD) mục tiêu khaiphá liệu, hai khái niệm khaipháliệu KDD đƣợc nhà khoa học xem tƣơng đƣơng Thế nhƣng, phân chia cách chi tiết khaipháliệu bƣớc trình KDD Khám phátri thức CSDL lĩnh vực liên quan đến nhiều ngành nhƣ: Tổ chức liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ nhân tạo, tính toán song song hiệu cao, Các kỹ thuật áp dụng khám phátri thức phần lớn đƣợc thừa kế từ ngành Quá trình khám phátri thức phân thành công đoạn sau [6]: Lựa chọn liệu: Là bƣớc tuyển chọn tập liệu cần đƣợc khaiphá từ tập liệu lớn (databases, data warehouses, data repositories) ban đầu theo số tiêu chí định Tiền xửlý liệu: Là bƣớc làm liệu (xử lýliệu thiếu, liệu nhiễu, liệu không quán, ), tổng hợp liệu, rời rạc hóa liệu, Biến đổi liệu Đây đƣợc xem bƣớc quan trọng tiêu tốn thời gian toàn trình KDD Sau bƣớc tiền sử lý này, liệu quán, đầy đủ, đƣợc rút gọn rời rạc hóa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... nhiều phƣơng pháp xử lý giá trị thiếu đƣợc đề xuất áp dụng [5, 10, 12] Các phƣơng pháp cho phép xử lý trực tiếp giá trị thiếu, nhiên chúng mang nhiễu vào tập liệu Việc xử lý giá trị thiếu cần phải... ĐỀ DỮ LIỆU THIẾU 1.1 Khai phá liệu 1.2 Vấn đề liệu thiếu sở liệu cần khai phá 14 1.3 Kết luận chƣơng 19 CHƢƠNG 2: CÁC PHƢƠNG PHÁP CƠ BẢN XỬ LÝ GIÁ TRỊ... chuyên nghiên cứu phƣơng pháp xây dựng phần mềm xử lý giá trị thiếu CSDL Hầu hết phần mềm phân tích liệu thống kê, khai phá liệu học máy có nội dung liên quan đến xử lý giá trị thiếu Luận văn trình