1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Xử lý giá trị thiếu trong khai phá dữ liệu

27 340 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 329,02 KB

Nội dung

1 ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  - ĐOÀN XUÂN NGỌC XỬ GIÁ TRỊ THIẾU TRONG KHAI PHÁ DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hƣớng dẫn khoa học: TS NGUYỄN THANH TÙNG THÁI NGUYÊN 2010 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Luận văn đƣợc hoàn thành dƣới hƣớng dẫn, bảo tận tình, chu đáo TS Nguyễn Thanh Tùng Qua đây, xin gửi lời cảm ơn sâu sắc đến Thầy giúp đỡ nhiệt tình Thầy suốt trình thực luận văn Tôi xin cảm ơn Thầy, Cô giáo Cán Viện Công Nghệ Thông Tin - Viện Khoa Học Công Nghệ Việt Nam, Khoa Công Nghệ Thông Tin - Đại học Thái Nguyên truyền thụ kiến thức, kinh nghiệm học tập, nghiên cứu khoa học cho suốt trình học tập trƣờng Tôi xin gửi lời cảm ơn tới Cục thuế tỉnh Thái Nguyên đồng nghiệp tạo điều kiện công việc giúp thực tốt kế hoạch học tập Cuối cùng, xin bày tỏ lòng biết ơn tới gia đình bên cạnh động viên, ủng hộ tạo điều kiện tốt cho học tập hoàn thành luận văn Học viên thực ĐOÀN XUÂN NGỌC Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC DANH SÁCH CÁC HÌNH VẼ DANH SÁCH CÁC BẢNG MỞ ĐẦU CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ VẤN ĐỀ DỮ LIỆU THIẾU 1.1 Khai phá liệu 1.2 Vấn đề liệu thiếu sở liệu cần khai phá 14 1.3 Kết luận chƣơng 19 CHƢƠNG 2: CÁC PHƢƠNG PHÁP CƠ BẢN XỬ GIÁ TRỊ THIẾU 21 2.1 Các phƣơng pháp thống kê 21 2.1.1 Phƣơng pháp Trung bình-Mốt (Mean-Mode - MM) 21 2.1.2 Phƣơng pháp Trung bình-Mốt dựa vào cụm tự nhiên (Natural Cluster Based Mean-Mode - NCBMM) 23 2.1.3 Thay giá trị thiếu giá trị cho độ lệch chuẩn (Replacement Under Same Standard Deviation - RUSSD) 24 2.1.4 Hồi quy tuyến tính (Linear regression – LR) 24 2.2 Các phƣơng pháp học máy 25 2.2.1 Phƣơng pháp Trung bình-Mốt dựa vào cụm sinh thuộc tính gần (Attribute Rank Cluster Based Mean-Mode algorithm - RCBMM) 25 2.2.2 Phƣơng pháp Trung bình – Mốt dựa vào phân cụm k-Means (K-means clustering based Mean - Mode - KMCMM) 27 2.3 Các phƣơng pháp nhúng 32 2.3.1 Loại bỏ liệu có chứa giá trị thiếu (discarding data tuples with missing values) 32 2.3.2 Phƣơng pháp C4.5 33 2.3.3 Phƣơng pháp CART 36 2.4 Đánh giá 36 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.4.1 Đánh giá thuyết 37 2.4.2 Đánh giá thực nghiệm 38 2.5 Kết luận chƣơng 45 CHƢƠNG 3: PHƢƠNG PHÁP XỬ GIÁ TRỊ THIẾU PHỐI HỢP KHAI PHÁ LUẬT KẾT HỢP VỚI PHƢƠNG PHÁP K-LÁNG GIỀNG GẦN NHẤT 47 3.1 Mở đầu 47 3.2 Khai phá luật kết hợp 48 3.3 Thuật toán RAR khai phá luật kết hợp sở liệu không đầy đủ 53 3.4 Phƣơng pháp xử giá trị thiếu HMiT 55 3.5 Tính toán thực nghiệm 57 3.6 Kết luận chƣơng 63 TÀI LIỆU THAM KHẢO 64 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH SÁCH CÁC HÌNH VẼ Hình 1.1 Các bƣớc thực trình khai phá liệu 11 Hình 1.2 Phân bố giá trị thiếu trƣờng hợp 16 Hình 1.3 Phân bố giá trị thiếu trƣờng hợp 16 Hình 1.4 Phân bố giá trị thiếu trƣờng hợp 16 Hình 1.5 Kết quản mô tả phân bố giá trị thiếu tập liệu edu.data UCI 17 Hình 2.1 Thuật toán MM 22 Hình 2.1 Thuật toán NCBMM 23 Hình 2.3 Thuật toán RUSD 24 Hình 2.4 Thuật toán RCBMM 26 Hình 2.5 Thuật toán KMCMM 28 Hình 2.6 Thuật toán phân cụm k-means 29 Hình 2.7 Thuật toán kNN 30 Hình 2.8 Tỷ lệ lỗi phƣơng pháp tập liệu định lƣợng 43 Hình 2.9 Tỷ lệ lỗi phƣơng pháp tập liệu định tính 44 Hình 2.10 Tỷ lệ lỗi phƣơng pháp tập liệu hỗn hợp 45 Hình 3.1 Sơ đồ khối thuật toán gán giá trị thiếu HMiT 56 Hình 3.2 Sự phụ thuộc độ xác vào số lƣợng giá trị thiếu CSDL 59 Hình 3.3 Sự phụ thuộc độ xác vào độ tin cậy sử dụng HMVI 60 Hình 3.4 Sự phụ thuộc độ xác vào độ hỗ trợ sử dụng HMVI 61 Hình 3.5 Thời gian xử giá trị thiếu HMVI K-NNI 62 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH SÁCH CÁC BẢNG Bảng 2.8 Đánh giá mặt thuyết 10 phƣơng pháp xử giá trị thiếu 38 Bảng 2.9 Các tập liệu có chứa giá trị thiếu thuộc tính định lƣợng 39 Bảng 2.10 Các tập liệu có chứa giá trị thiếu thuộc tính định tính 39 Bảng 2.11 Các tập liệugiá trị thiếu thuộc tính định lƣợng định tính 40 Bảng 2.12 Thời gian thực thi việc thay tập liệu định lƣợng (phút:giây) 41 Bảng 2.13 hời gian thực thi việc thay tập liệu định tính (phút:giây) 41 Bảng 2.14 Thời gian thực thi việc thay tập liệu hỗn hợp (phút:giây) 42 Bảng 2.15 Tỷ lệ lỗi phân lớp tập liệu định lƣợng (%) 42 Bảng 2.16 Tỷ lệ lỗi tập liệu định tính (%) 43 Bảng 2.17 Tỷ lệ lỗi tập liệu hỗn hợp (%) 44 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Trong năm gần đây, với phát triển vƣợt bậc công nghệ thông tin, truyền thông, khả thu thập lƣu trữ thông tin hệ thống thông tin không ngừng đƣợc nâng cao Với lƣợng liệu tăng nhanh khổng lồ nhƣ vậy, rõ ràng phƣơng pháp phân tích liệu truyền thống không hiệu quả, gây tốn dễ dẫn đến kết sai lệch Để khai phá hiệu sở liệu (CSDL) lớn lĩnh vực khoa học đời: Khám phá tri thức CSDL (Knowledge Discovery in Databases – KDD) Khai phá liệu (Data Mining) công đoạn trình KDD đƣợc định nghĩa nhƣ sau [6]: Khai phá liệu trình tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn Trong năm gần đây, nhiều kỹ thuật khai phá liệu đƣợc nghiên cứu ứng dụng thành công nhiều lĩnh vực Tuy nhiên, việc nghiên cứu ứng dụng kỹ thuật khai phá liệu gặp phải khó khăn, thách thức lớn, có vấn đề giá trị thiếu Trong thực hành, CSDL cần khai phá thƣờng không đầy đủ, tức có giá trị thuộc tính bị thiếu Có nhiều nguyên nhân khác dẫn tới tƣợng này: thiết bị thu thập liệu bị hỏng, thay đổi thiết kế thí nghiệm, từ chối cung cấp liệu nhằm bảo vệ tính riêng tƣ, sơ xuất nhập liệu, cố xảy trình truyền liệu, … Dữ liệu thiếu gây khó khăn cho việc khai phá, ảnh hƣởng trực tiếp đến chất lƣợng tri thức khám phá đƣợc Làm để xử các giá trị thiếu, nhiệm vụ quan trọng hàng đầu trình khám phá tri thức từ sở liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Cho đến nay, nhiều phƣơng pháp xử giá trị thiếu đƣợc đề xuất áp dụng [5, 10, 12] Các phƣơng pháp cho phép xử trực tiếp giá trị thiếu, nhiên chúng mang nhiễu vào tập liệu Việc xử giá trị thiếu cần phải đƣợc cân nhắc thực cách thận trọng, không làm cho tri thức khai phá bị sai lệch [5] Trong năm gần đây, xử giá trị thiếu CSDL khai phá đề tài thu hút quan tâm nhiều nhà nghiên cứu ứng dụng Tại nhiều trung tâm nghiên cứu giới có phận chuyên nghiên cứu phƣơng pháp xây dựng phần mềm xử giá trị thiếu CSDL Hầu hết phần mềm phân tích liệu thống kê, khai phá liệu học máy có nội dung liên quan đến xử giá trị thiếu Luận văn trình bày nghiên cứu học viên vấn đề xử giá trị thiếu CSDL lớn phục vụ khai phá liệu, khám phá tri thức Nội dung luân văn gồm ba chƣơng Chƣơng 1: Trình bày khái quát khai phá liệu vấn đề giá trị thiếu Chƣơng 2: Trình bày số phƣơng pháp bản, thƣờng đƣợc sử dụng xử giá trị thiếu Chƣơng 3: Trình bày phƣơng pháp mới, xử hiệu giá trị thiếu, phƣơng pháp sử dụng phối hợp kỹ thuật khai phá luật kết hợp CSDL không đầy đủ với phƣơng pháp k-láng giềng gần Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ VẤN ĐỀ DỮ LIỆU THIẾU 1.1 Khai phá liệu Trong năm gần đây, với phát triển vƣợt bậc công nghệ thông tin, truyền thông, khả thu thập lƣu trữ thông tin hệ thống thông tin không ngừng đƣợc nâng cao Theo đó, lƣợng thông tin đƣợc lƣu trữ thiết bị nhớ tăng nhanh ngày Thống kê sơ cho thấy, lƣợng thông tin hệ thống thông tin sau 20 tháng lại tăng lên gấp đôi [6, 17] Với lƣợng liệu tăng nhanh khổng lồ nhƣ vậy, rõ ràng phƣơng pháp phân tích liệu truyền thống không hiệu quả, gây tốn dễ dẫn đến kết sai lệch Để khai phá hiệu sở liệu (CSDL) lớn cần phải có kỹ thuật mới: kỹ thuật khai phá liệu (Data Mining) Khai phá liệu lĩnh vực khoa học xuất hiện, nhằm tự động hóa khai thác thông tin, tri thức hữu ích, tiềm ẩn CSDL lớn cho tổ chức, doanh nghiệp, từ thúc đẩy khả sản xuất, kinh doanh, cạnh tranh tổ chức, doanh nghiệp Các kết nghiên cứu với ứng dụng thành công khám phá tri thức cho thấy khai phá liệu lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ƣu hẳn so với công cụ phân tích liệu truyền thống Tuy đời khoảng 20 năm, nhƣng khai phá liệu lĩnh vực khoa học phát triển vô nhanh chóng Do phát triển nhanh chóng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 phạm vi áp dụng lẫn phƣơng pháp tìm kiếm tri thức, có nhiều quan điểm khác khai phá liệu Tuy nhiên, mức độ trừu tƣợng định, định nghĩa khai phá liệu nhƣ sau [6]: Khai phá liệu trình tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn Khám phá tri thức CSDL (Knowledge Discovery in Databases – KDD) mục tiêu khai phá liệu, hai khái niệm khai phá liệu KDD đƣợc nhà khoa học xem tƣơng đƣơng Thế nhƣng, phân chia cách chi tiết khai phá liệu bƣớc trình KDD Khám phá tri thức CSDL lĩnh vực liên quan đến nhiều ngành nhƣ: Tổ chức liệu, xác suất, thống kê, thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ nhân tạo, tính toán song song hiệu cao, Các kỹ thuật áp dụng khám phá tri thức phần lớn đƣợc thừa kế từ ngành Quá trình khám phá tri thức phân thành công đoạn sau [6]:  Lựa chọn liệu: Là bƣớc tuyển chọn tập liệu cần đƣợc khai phá từ tập liệu lớn (databases, data warehouses, data repositories) ban đầu theo số tiêu chí định  Tiền xử liệu: Là bƣớc làm liệu (xử liệu thiếu, liệu nhiễu, liệu không quán, ), tổng hợp liệu, rời rạc hóa liệu, Biến đổi liệu Đây đƣợc xem bƣớc quan trọng tiêu tốn thời gian toàn trình KDD Sau bƣớc tiền sử này, liệu quán, đầy đủ, đƣợc rút gọn rời rạc hóa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... nhiều phƣơng pháp xử lý giá trị thiếu đƣợc đề xuất áp dụng [5, 10, 12] Các phƣơng pháp cho phép xử lý trực tiếp giá trị thiếu, nhiên chúng mang nhiễu vào tập liệu Việc xử lý giá trị thiếu cần phải... ĐỀ DỮ LIỆU THIẾU 1.1 Khai phá liệu 1.2 Vấn đề liệu thiếu sở liệu cần khai phá 14 1.3 Kết luận chƣơng 19 CHƢƠNG 2: CÁC PHƢƠNG PHÁP CƠ BẢN XỬ LÝ GIÁ TRỊ... chuyên nghiên cứu phƣơng pháp xây dựng phần mềm xử lý giá trị thiếu CSDL Hầu hết phần mềm phân tích liệu thống kê, khai phá liệu học máy có nội dung liên quan đến xử lý giá trị thiếu Luận văn trình

Ngày đăng: 15/04/2017, 10:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN