Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
3,1 MB
Nội dung
MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC BẢNG MỞ ĐẦU CHƯƠNG TRÌNH BÀY KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ VẤN ĐỀ XỬ LÝ GIÁ TRỊ THIẾU TRONG KHAI PHÁ DỮ LIỆU 1.1 Khái quát khai phá liệu 1.1.1 Khai phá liệu 1.1.2 Một số kỹ thuật khai phá liệu 1.2 Giá trị thiếu 1.3 Phân loại giá trị thiếu 1.3.1 Giá trị thiếu hoàn toàn ngẫu nhiên 10 1.3.2 Giá trị thiếu ngẫu nhiên 10 1.3.3 Giá trị thiếu không ngẫu nhiên 11 1.4 Nguyên tắc xử lý giá trị thiếu 11 1.5 Kết luận chương 12 CHƯƠNG CÁC PHƯƠNG PHÁP CƠ BẢN, HIỆU QUẢ XỬ LÝ GIÁ TRỊ THIẾU 14 2.1 Mở đầu 14 2.2 Thuật toán xử lý giá trị thiếu 15 2.2.1 Thuật toán thay giá trị thiếu ký hiệu tượng trưng 16 2.2.2 Thuật toán thay giá trị thiếu với giá trị trung bình 17 2.2.3 Thuật tốn xóa tất liệu có giá trị thiếu 22 2.2.4 Phương pháp láng giềng gần (Nearest Neighbor – NN) 23 2.3 Kết luận chương 27 CHƯƠNG TRÌNH BÀY KẾT QUẢ CÀI ĐẶT VÀ TÍNH TỐN THỰC NGHIỆM MỘT SỐ THUẬT TOÁN XỬ LÝ GIÁ TRỊ THIẾU TRONG KHAI PHÁ DỮ LIỆU 28 3.1 Thu thập số liệu 28 3.2 Cài đặt 29 3.2.1 Môi trường cơng cụ lập trình 29 3.2.2 Demo chương trình 31 3.3 Kiểm thử 35 3.4 Kết luận chương 36 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 37 TÀI LIỆU THAM KHẢO 26 Bảng 2.9 CSDL thu từ Bảng 2.1 sau áp dụng phương pháp NN Đối tượng Thuộc tính điều kiện Quyết định Thân nhiệt Đau đầu Buồn nôn Cúm 100.2 yes no yes 102.6 yes yes yes 100.2 no no no 99.6 yes yes yes 99.8 yes yes no 96.4 yes no no 96.6 no yes no 102.6 yes yes yes Đối tượng có giá trị thuộc tính Đau đầu bị thiếu Khoảng cách từ đối tượng đến đối tượng khác CSDL là: d(1,2) d(1,3) d(1,4) d(1,5) d(1,6) d(1,7) d(1,8) 2.39 2.0 2.10 2.06 1.61 2.58 3.00 Láng giềng gần đối tượng đối tượng Vậy, giá trị Đau đầu bị thiếu của đối tượng thay giá trị Đau đầu đối tượng yes Các giá trị thuộc tính thiếu đối tượng khác lấp đầy theo cách tương tự Ưu điểm phương pháp láng giềng gần là: - Có thể gán giá trị thiếu cho thuộc tính định lượng lẫn thuộc tính định tính với độ xác cao - Chỉ sử dụng liệu cho Do đó, thuật tốn láng giềng gần dễ dàng áp dụng cho việc dự đốn giá trị thiếu thuộc tính nào, 27 cần lựa chọn độ đo khoảng cách thích hợp để tính tốn khoảng cách đối tượng Phương pháp láng giềng gần cho phép xử lý giá trị thiếu trường hợp có nhiều giá trị thiếu đối tượng Hạn chế lớn phương pháp láng giềng gần để xác định đối tượng gần nhất, thuật toán phải tìm kiếm tồn CSDL Việc trở thành khơng khả thi CSDL có kích thước lớn, tình thường gặp phải khai phá liệu 2.3 Kết luận chương Trong ứng dụng khai phá liệu, CSDL cần khai phá thường khơng đầy đủ, tức có giá trị thuộc tính bị thiếu Để khai phá CSDL khơng đầy đủ, thu tri thức hữu ích, cần phải xử lý giá trị thiếu Cho đến nay, nhiều phương pháp xử lý giá trị thiếu đề xuất áp dụng, theo tài liệu nghiên cứu, khơng có phương pháp tốt trường hợp liệu cho tất nhiệm vụ khai phá Trong trường hợp liệu nhiệm vụ khai phá cụ thể , việc xử lý giá trị thiếu cần phải cân nhắc thực cách thận trọng, không làm cho tri thức khai phá bị sai lệch Chương luận văn trình bày số thuật toán xử lý giá trị thiếu thường dùng Tuy khơng có phương pháp xử lý giá trị thiếu tối ưu trường hợp, phân tích lý thuyết tính tốn thực nghiệm cho thấy, nói chung phương pháp thống kê có độ phức tạp tính tốn thấp so với phương pháp học máy Chương luận văn trình bầy kết cài đặt tính tốn thực nghiệm số thuật tốn xử lý giá trị thiếu khai phá liệu 28 CHƯƠNG TRÌNH BÀY KẾT QUẢ CÀI ĐẶT VÀ TÍNH TỐN THỰC NGHIỆM MỘT SỐ THUẬT TỐN XỬ LÝ GIÁ TRỊ THIẾU TRONG KHAI PHÁ DỮ LIỆU Trên sở lý thuyết chương thuật toán xử lý liệu thiếu chương 2, luận văn tiến hành cài đặt xây dựng hệ thống demo xử lý giá trị thiếu thuật toán bản: Xóa liệu có giá trị thiếu, thay số Missing, thay giá trị thiếu trung bình thuộc tính 3.1 Thu thập số liệu Thu thập số liệu để thực bước cài đặt kiểm thử giai đoạn quan trọng để xây dựng hoàn thiện hệ thống xử lý giá trị thiếu Luận văn tiến hành tìm kiếm tải liệu giao dịch vietstock trang website http://data.vietstock.vn/ket-qua-giao-dich với 253 liệu đầy đủ giá trị gồm thuộc tính sau: - Date - AAM - ABT - ACC - ACL - AGM Luận văn tiến hành xóa bỏ số giá trị thực liệu gốc để ứng dụng cho hệ thông demo xử lý giá trị thiếu ghi nhận kết sau xử lý so với liệu gốc 29 Hình 3.1 Dữ liệu sử dụng hệ thống demo 3.2 Cài đặt 3.2.1 Môi trường cơng cụ lập trình Luận văn tiến hành xây dựng cài đặt cho hệ thống xử lý giá trị thiếu với giao diện thân thiện, dễ sử dụng Hệ thống chương trình viết ngơn ngữ lập trình: C# chạy Visual Studio 2010 với liệu đọc vào từ file Microsoft Excel kết sau xử lý xong hệ thống xuất file Excel * Môi trường Visual Studio Visual Studio mơi trường phát triển tích hợp (IDE) từ Microsoft Visual Studio sử dụng để phát triển chương trình máy tính cho Microsoft Windows trang web, ứng dụng web dịch vụ Web Visual Studio sử dụng tảng phát triển phần mềm Microsoft Windows API, Windows Forms, Windows Presentation Foundation, 30 Windows Store Microsoft Silverlight Nó tạo hai ngơn ngữ máy mã số quản lý Visual Studio bao gồm trình soạn thảo mã hỗ trợ IntelliSense cải tiến mã nguồn Trình gỡ lỗi tích hợp hoạt động trình gỡ lỗi mức độ mã nguồn gỡ lỗi mức độ máy Cơng cụ tích hợp khác bao gồm mẫu thiết kế hình thức xây dựng giao diện ứng dụng, thiết kế web, thiết kế lớp thiết kế giản đồ sở liệu Nó chấp nhận plug-in nâng cao chức hầu hết cấp bao gồm thêm hỗ trợ cho hệ thống quản lý phiên bổ sung thêm công cụ biên tập thiết kế trực quan cho miền ngôn ngữ cụ thể cơng cụ dành cho khía cạnh khác quy trình phát triển phần mềm Visual Studio 2010 hỗ trợ nhiều ngơn ngữ lập trình khác cho phép trình biên tập mã gỡ lỗi để hỗ trợ ngơn ngữ lập trình Các ngơn ngữ tích hợp gồm có C, C++ C++/CLI , VB.NET , C# F# Hỗ trợ cho ngôn ngữ khác J++/J#, Python Ruby thông qua dịch vụ cài đặt riêng rẽ Nó hỗ trợ XML/XSLT, HTML/XHTML, JavaScript CSS * Cơng cụ lập trình C# C# ngơn ngữ lập trình hướng đối tượng phát triển Microsoft Microsoft phát triển C# dựa C++ Java C# miêu tả ngơn ngữ có cân C++, Visual Basic, Delphi Java Theo hướng đó, C# ngơn ngữ lập trình phản ánh trực tiếp đến NET Framework mà tất chương trình.NET chạy phụ thuộc mạnh mẽ vào Framework Mọi liệu sở đối tượng, cấp phát hủy bỏ trình dọn rác Garbage-Collector nhiều kiểu trừu tượng khác chẳng hạn class, delegate, interface, exception, … 31 3.2.2 Demo chương trình Giao diện chương trình đơn giản dễ sử dụng với chức gắn liền với nhu cầu sử dụng, cụ thể chức sau: - Chức Browe: Cho phép người sử dụng lựa chọn file liệu muốn xử lý - Chức Sử dụng số: Hệ thống xử lý giá trị thiếu từ file liệu chọn phương pháp sử dụng ký hiệu “missing” để thay - Chức Sử dụng AVG: Hệ thống xử lý giá trị thiếu từ file liệu chọn phương pháp trung bình để thay - Chức Xóa có giá trị thiếu: Hệ thống xử lý giá trị thiếu từ file liệu chọn phương pháp xóa liệu có giá trị thiếu - Chức xuất file Excel: Hệ thống sau xử lý xong giá trị thiếu xuất file Excel để người dùng lưu trữ Hình 3.2 Giao diện hệ thống xử lý giá trị thiếu * Giao diện chức - Chức Browe: Người sử dụng lựa chọn file liệu *.xls *.xlsx muốn xử lý 32 Hình 3.3: Dữ liệu đầu vào từ file excel - Chức Sử dụng số: Hệ thống tìm kiếm liệu có giá trị thiếu, sau thay chúng số “missing” Hình 3.4: Kết sử dụng phương pháp số 33 - Chức Sử dụng AVG: Hệ thống tìm kiếm liệu có giá trị thiếu, sau thay chúng giá trị trung bình thuộc tính có giá trị thiếu Hình 3.5: Kết sử dụng phương pháp giá trị trung bình(AVG) - Chức Xóa giá trị thiếu: Hệ thống xử lý giá trị thiếu từ file liệu chọn phương pháp xóa liệu có giá trị thiếu Hình 3.6: Kết sử dụng phương pháp xóa giá trị thiếu 34 - Chức xuất file Excel: Hệ thống sau xử lý xong giá trị thiếu xuất file Excel để người dùng lưu trữ Hình 3.7: Kết xuất liệu file Excel 35 3.3 Kiểm thử Luận văn tiến hành cài đặt thử nghiệm với chức Hệ thống demo cho kết tương đối gần với giá trị thực Bộ liệu hệ thống sử dụng liệu giao dịch Vietstock trang website http://data.vietstock.vn/ket-qua-giao-dich với 253 liệu đầy đủ giá trị gồm thuộc tính sau: Date, AAM, ABT, ACC, ACL, AGM Luận văn tiến hành xóa bỏ số giá trị thực liệu gốc để ứng dụng cho hệ thông demo xử lý giá trị thiếu ghi nhận kết sau xử lý so với liệu gốc, cụ thể sau: - Thuộc tính “AAM”: xóa bỏ 17 giá trị - Thuộc tính “ABT”: xóa bỏ giá trị - Thuộc tính “ACC”: xóa bỏ giá trị - Thuộc tính “ACL”: xóa bỏ giá trị - Thuộc tính “AGM”: xóa bỏ giá trị Kết kiểm thử trường hợp cụ thể sau: * Thuật toán thay số Missing Bảng 3.1: Kết kiểm thử thuật tốn thay số Missing Thuộc tính AAM ABT ACC ACL AGM Gía trị thay Misssing Misssing Misssing Misssing Missing Số lượng giá trị 17 thay 36 * Thuật toán thay giá trị trung bình thuộc tính Bảng 3.2: Kết kiểm thử thuật toán thay giá trị trung bình thuộc tính Thuộc tính AAM ABT ACC ACL AGM Gía trị thay 10.676 47.415 28.27 9.062 10.936 Số lượng giá trị 17 thay * Thuật tốn xóa liệu có giá trị thiếu Bảng 3.3: Kết kiểm thử thuật tốn xóa liệu có giá trị thiếu Thuộc tính AAM ABT ACC ACL AGM Số lượng liệu 17 xóa Tập liệu ban đầu gồm 253 liệu sau hệ thống xử lý xóa giá trị thiếu, tập liệu lại 222 3.4 Kết luận chương Chương chạy thử nghiệm số thuật toán xử lý giá trị thiếu đưa kết kiểm thử số thuật toán Tuy nhiên, q trình xây dựng hệ thống, thơng tin liệu thu thập có số lượng khơng nhiều nên kết thống kê chưa thực xác 37 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Trong thực tế, nhiều nguyên nhân, CSDL cần khai phá thường không đầy đủ (dữ liệu bị thiếu), liệu nhiễu, liệu dư thừa Dữ liệu thiếu gây khó khăn cho việc khai phá, ảnh hưởng trực tiếp đến chất lượng tri thức khám phá Xử lý giá trị thiếu CSDL không đầy đủ, nhiệm vụ quan trọng hàng đầu trình khám phá tri thức từ sở liệu Cho tới nay, nhiều phương pháp xử lý giá trị thiếu đề xuât Các phương pháp cho phép xử lý trực tiếp giá trị thiếu, nhiên chúng mang nhiễu vào tập liệu Việc xử lý giá trị thiếu cần phải cân nhắc thực cách thận trọng, khơng làm có liệu bị sai lệch Với đề tài “Xử lý giá trị thiếu khai phá liệu” nội dung luận văn bao gồm kết nghiên cứu lý thuyết thực nghiệm: Khái quát trình khai phá liệu, khám phá tri thức, kỹ thuật, ứng dụng thách thức; vấn đề giá trị thiếu CSDL khai phá, chế sinh giá trị thiếu, phân loại giá trị thiếu, nguyên tắc xử lý giá trị thiếu phương pháp xử lý giá trị thiếu Luận văn trình bầy số thuật toán thường xử dụng để xử lý giá trị thiếu: phương pháp tổng quát, thuật toán thay giá trị thiếu số, thuật toán thay giá trị thiếu với giá trị trung bình (thuộc tính, phân nhóm), thuật tốn xóa giá trị thiếu thuật toán láng giềng gần Tiến hành tính tốn thực nghiệm đưa kết số phương pháp xử lý giá trị thiếu Hướng phát triển Nghiên cứu mơ hình dự đốn giá trị thiếu dựa vào lý thuyết tập mờ, tập thô 38 Nghiên cứu ứng dụng mạng noron sử dụng dự đoán giá trị thiếu Nghiên cứu gán phương pháp gán trị đồng thời cho tất thành phần bị thiếu liệu Nghiên cứu xử lý giá trị thiếu cho CSDL chứa liệu lớn Oracle, SqlServer… 345657839 9
3 !"#$%%&'()(*$+,$(-%./+")!& /012!(%+()3445 36,,"%)7%)!8)9(-:;,%$)!+>"(-% 7!%&,#$"%%&C)/%($%)+)0$JC"L)>K3:MMM/+,%$+ 00($%$- (>++%0%!((/!(@G#B9+7)/+28"(")!!%+I MJ!%VP/>:;,+++%0%($%)C>/+$!%& , #$ "%%& J**>%($%)+1*!%&!NL !>&B !>%N %,>!&5EMN5KT344K 4P/+$?);JIJB$%+$,"!%C!)>%")!,JJ>@+%+)0 2)/!"%++%$F!$ $" $-),+0)!1/*!?%+,7!%&J**>%, J!$%0%(%>G$>>%&( S:DN5