Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
0,95 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN HỒNG HẢI PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH Thái Nguyên - 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN HỒNG HẢI PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU DẠNG ĐÓNG VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH HƯỚNG DẪN KHOA HỌC PGS.TS NGÔ QUỐC TẠO Thái Nguyên - 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Tôi xin cam đoan Luận văn “ Phƣơng pháp khai phá liệu dạng đóng ứng dụng” cơng trình nghiên cứu riêng dƣới sƣ̣ hƣớng dẫn của PGS.TS Ngơ Quốc Tạo Tồn bợ phần mềm chính tơi lập trình kiểm thƣ̉ Tơi xin chị u trách nhiệm về lời cam đoan của mì nh Các số liệu thông tin sử dụng luận văn trung thực Tác giả Nguyễn Hồng Hải Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT iv DANH MỤC CÁC BẢNG v DANH MỤC HÌNH VẼ vi MỞ ĐẦU Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.2 Khai phá liệu 1.2 Ứng dụng việc khai phá liệu 1.3 Qui trình khai phá tri thức 1.3.1 Qui trình khai phá tri thức 1.3.2 Kiến trúc hệ thống khai phá liệu 1.4 Các nhiệm vụ chính khai phá tri thức 1.4.1 Dự đoán (predictive) 1.4.2 Mô tả (discriptive) 1.5 Ý tƣởng kĩ thuật khai phá tri thức 1.6 Các thách thức khai phá tri thức 1.7 Qui trình chuẩn bị liệu 1.7.1 Tại cần chuẩn bị liệu 1.7.2 Làm liệu 1.7.3 Chọn lọc liệu 1.7.4 Rút gọn liệu 1.7.5 Mã hóa liệu 11 1.8 Tập phổ biến 11 1.8.1 Giới thiệu tập phổ biến 11 1.8.2 Các khái niệm 12 1.8.2.1 Cho sở liệu giao dịch 12 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 1.8.2.2 Độ phổ biến tập phổ biến 13 1.8.2.3 Tính chất tập phổ biến 14 1.8.2.4 Tập phổ biến tối đại 14 1.8.2.5 Tập phổ biến đóng 14 1.8.2.6 Luật kết hợp 15 1.8.2.7 Mô tả toán luật kết hợp 15 1.9 Phân lớp liệu 16 1.9.1 Định nghĩa thông qua ví dụ 16 1.9.2 Quy trình phân lớp 16 1.10 Phân cụm liệu 17 1.10.1 Phân cụm gì? 17 1.10.2 Phân biệt phân lớp phân cụm 17 1.10.3 Ứng dụng phân cụm 18 1.10.4 Ví dụ 19 Chƣơng 2: KHAI PHÁ TẬP PHỔ BIẾN ĐĨNG TRONG KHƠNG GIAN CHIỀU VÀ KHAI PHÁ KHỐI ĐĨNG TRONG KHƠNG GIAN CHIỀU 20 2.1 Tổng quan khai phá tập phổ biến đóng FCP khơng gian chiều20 2.2 Mở đầu khai phá tập phổ biến đóng FCP khơng gian chiều 20 2.3 Tiến hành khai phá tập phổ biến đóng FCP 22 2.3.1 Sơ lƣợc trình khai phá tập phổ biến đóng 22 2.3.2 Thuật tốn C-Miner 23 2.3.2.1 Thuật toán phân cụm (thuật toán increamental k-mean) 23 2.3.2.2 Q trình chia khơng gian khai phá 25 2.3.2.3 Khai phá không gian để tìm tập phổ biến đóng FCPs 29 2.4 Tổng quan khai phá khối phổ biến đóng FCC không gian chiều 32 2.5 Mở đầu khai phá khối phổ biến đóng FCC khơng gian chiều 33 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii 2.6 Khai phá lát cắt đại diện 36 2.6.1 Tạo dàn đại diện 38 2.6.2 Tạo tập phổ biến đóng FCP 39 2.6.3 3D FCC generation by post-pruning (Chiến lƣợc lƣợc bỏ khối đƣợc sinh không thỏa mãn) 39 2.6.4 Tính đắn 41 Chƣơng 3: CÀI ĐẶT THUẬT TOÁN VÀ ỨNG DỤNG 43 3.1 Cài đặt thuật tốn khơng gian chiều 43 3.2 Cài đặt ứng dụng không gian chiều 46 3.2.1 Cơ sở liệu 47 3.2.2 Các bƣớc thực 47 3.3 Cài đặt thuật tốn khơng gian chiều 50 3.4 Cài đặt ứng dụng không gian chiều 55 3.4.1 Cơ sở liệu 55 3.4.2 Các bƣớc thực 55 KẾT LUẬN 59 TÀI LIỆU THAM KHẢO 61 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Các từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt EnumerateSubset Liệt kê tập Slice Mặt cắt Dàn tƣơng đƣơng với tập Slices mặt cắt kết hợp với CP Closed pattern Tập đóng Khơng gian đặc (trong CS Compact subspace tốn xét: khơng gian mà tất có giá trị “1” FCC Frequent closed cube Khổi phổ biến đóng FCP Frequent closed pattern Tập phổ biến đóng Là ngƣỡng giá trị Pattern length mà pattern phải Minlen thỏa mãn Là ngƣỡng giá trị support mà pattern phải thỏa Minsup mãn RS Representative slices Dàn đại diện RSM Representative slice Mining Khai phá lát cắt đại diện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC BẢNG Bảng 2.1 Bảng sở liệu 21 Bảng 2.2 Ma trận rút gọn O‟ 26 Bảng 2.3 Lát cắt 27 Bảng 2.4 Kết không gian rút gọn không gian 27 (minsup=3, minlen=2) 27 Bảng 2.5 FCP (minsup=3, minle=2) 32 Bảng 2.6 Ma trận O không gian chiều 34 Bảng 2.7 Khai thác FCC (minH=minR=minC=2) 38 Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn vi DANH MỤC HÌNH VẼ Hình 1.1 Các bƣớc khai phá tri thức Hình 1.2 Kiến trúc hệ thống khai phá liệu Hình 1.3 Minh họa phân cụm liệu 18 Hình 1.4 Phân cụm điểm không gian 19 Hình 1.5 Phân cụm ngơi nhà dựa vào khoảng cách địa lý 19 Hình 2.1 Khung khai phá 22 Hình 2.2 Cây phân chia sử dụng lát cắt 28 Hình 2.3 Sai sót dƣ thừa 29 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Ngày nay, cuộc cách mạng kỹ thuật số cho phép số hóa thông tin dễ dàng chi phí lƣu trữ thấp.Với phát triển phần mềm, phần cứng trang bị nhanh hệ thống máy tính kinh doanh Số lƣợng liệu khổng lồ đƣợc tập trung lƣu trữ sở liệu thiết bị điện tử nhƣ: đĩa cứng, băng từ, đĩa quang, CD-ROM,… Tốc đợ tăng liệu q lớn Từ dẫn đến kết pha trộn kỹ thuật thống kê vào công cụ quản trị liệu phân tích đầy đủ liệu rộng lớn đƣợc Dữ liệu sau phục vụ cho một mục đích đƣợc lƣu lại kho liệu theo ngày tháng khối lƣợng liệu đƣợc lƣu trữ ngày lớn Trong khối lƣợng liệu to lớn có nhiều thơng tin có ích mang tính tổng qt, thơng tin có tính quy luật tiềm ẩn mà chƣa biết Từ khối lƣợng liệu lớn cần có công cụ tự động rút thông tin kiến thức có ích Mợt hƣớng tiếp cận có khả giúp cơng ty khai thác thơng tin có nhiều ý nghĩa từ tập liệu lớn khai phá liệu (Data Mining) Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học nhƣ hoạt đợng thực tế, khai phá liệu một lĩnh vực mang lại hiệu thiết thực cho ngƣời Khai phá liệu giúp ngƣời sử dụng thu đƣợc tri thức hữu ích từ cớ sở liệu kho liệu khổng lồ khác Luận văn đề cập đến khái niệm vấn đề Khai phá tri thức Khai phá liệu, ngồi luận văn cịn đề cập đến phƣơng pháp khai phá liệu dạng đóng đƣợc áp dụng nhiều lĩnh vực thực tiễn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 47 3.2.1 Cơ sở liệu Bảng Item: lƣu lại ăn nhà hàng Order: lƣu lại đơn hàng Order_Item: lƣu lại ăn đƣợc gọi theo đơn hàng 3.2.2 Các bước thực Bƣớc 1: Đƣa sở liệu thực dạng ma trận nhị phân O(n x m) Với hàng tƣơng ứng ăn, cợt hóa đơn tƣơng ứng Nếu hóa đơn j chứa ăn i Oi,j = Kết có đƣợc sau thực bƣớc 1: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 48 Giá trị hàng cột tƣơng ứng: Bƣớc 2: Dùng thuật tốn C-Miner để tìm tập phổ biến đóng Kết quả: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 49 Bƣớc 3: Từ tập đóng, ta biến đổi để lấy thơng tin hữu ích cho ngƣời dùng Ta so sánh giá trị hàng cột tập phổ biến đóng (ở bƣớc 3) với giá trị tƣơng ứng mảng item[] mảng order[] (mảng lƣu lại giá trị ăn, hóa đơn tƣơng ứng với hàng cợt) để tìm kết trả cho ngƣời dùng Từ kết nhà hàng có định hƣớng tốt kinh doanh, ví dụ ghi thực đơn, gợi ý cho khách mua hàng, xếp quầy giới thiệu sản phẩm mặt hàng hay mua xếp gần Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 50 3.3 Cài đặt thuật tốn khơng gian chiều Cài đặt thuật tốn khơng gian chiều gồm phần: 1, Chia không gian gốc thành lát cắt (lấy chiều làm chiều sở để chia, liệt kê tất tập phần tử chiều sở xảy ra, tạo lát cắt đại diện cho tập con) 2, Dùng thuật toán C-Miner để khai phá tập phổ biến đóng FCPs không gian chiều (lát cắt) 3, Kết hợp FCP tập phần tử chiều sở tƣơng ứng ta đƣợc khối FCC Dùng bƣớc loại bỏ cuối (Post-pruning) để tìm khối thỏa mãn khối phổ biến đóng Ví dụ: cho sở liệu nhƣ sau Chúng ta xem class chƣơng trình cài đặt cho kết nhƣ nào? Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 51 Bƣớc 1: Ta chọn chiều cao làm chiều sở để liệt kê tập Class sub_Set có nhiệm vụ liệt tập xảy thỏa mãn minH, để phục vụ cho việc tạo dàn Kết sau lớp sub_Set thực hiện: Bƣớc 2: Kết bƣớc thu đƣợc tập con, suy ta tạo mặt cắt tƣơng ứng (class Representative_slice_generation.java thực hiện) mặt cắt lần lƣợt đƣợc tạo ra; dàn lần lƣợt đƣợc áp dụng thuật toán CMiner để khai phá tập đóng FCPs Kết FCPs đƣợc lƣu tổng hợp lại, chờ đến bƣớc loại bỏ cuối (post-pruning) Kết sau dùng thuật toán C-Miner khai phá: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 52 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 53 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 Bƣớc 3: Sau dùng thuật toán C-Miner khai phá tập phổ biến đóng từ mặt cắt, có đƣợc FCPs Tại lớp Post_pruning đƣợc thực để loại bỏ khối khối đóng Ta thu đƣợc khối FCCs thỏa mãn minH, minR, minC Kết cuối thu đƣợc: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 3.4 Cài đặt ứng dụng khơng gian chiều Mơ tốn: Có chuỗi cửa hàng bán lẻ, giám đốc cần xác định mặt hàng đƣợc bán cửa hàng, theo mùa để đầu tƣ cho phù hợp Thuật tốn tìm khối đóng khơng gian chiều giúp tìm lời giải cho toán 3.4.1 Cơ sở liệu Item: bảng lƣu sản phẩm Address: bảng lƣu địa cửa hàng Season: bảng lƣu mùa năm Address_Item_Season: lƣu sản phẩm đƣợc bán hóa đơn theo mùa 3.4.2 Các bước thực Bƣớc 1: Chúng ta phải mã hóa liệu để phù hợp với đầu vào thuật toán khai phá tập đóng khơng gian chiều RSM Đấy chính bƣớc tích hợp liệu, làm liệu, chuyển đổi liệu cho phù hợp với bộ máy khai phá Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 Kết sau mã hóa sở liệu: Ma trận sau mã hóa sở liệu: Chúng ta lấy chiều cao H chính chiều mùa làm chiều sở để liệt kê tập để tạo lát cắt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 Trong sở liệu thử nghiệm có 11 lát cắt, nhƣng có lát cắt subSet chứa h0 h1 (mùa xuân mùa hè) tìm đƣợc tập phổ biến đóng Sau dùng lƣợc bỏ khối khơng thỏa mãn khối đóng (bằng class post-pruning) ta thu đƣợc khối đóng FCC thỏa mãn minH, minR, minC Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 Từ khối khối phổ biến đóng thu đƣợc từ thuật toán khai thác khối phổ biến đóng khơng gian chiều, ta mã hóa ngƣợc trở lại để trả kết hiểu đƣợc cho ngƣời dùng: Từ kết thu đƣợc, nhà quản lý có kế hoạch, chiến lƣợc để tác đợng lại q trình kinh doanh Ví dụ: biết đƣợc thị hiếu khách hàng, nhà kinh doanh có hƣớng đầu tƣ tốt cho kế hoạch kinh doanh mình, ngồi nhà kinh doanh cịn xếp hàng hóa theo thứ tự đó, nhằm mục đích gợi ý khéo cho khách hàng mà khơng cần phải nói lời Vấn đề ứng dụng tốt siêu thị Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 KẾT LUẬN Luận văn giới thiệu tổng quát khai phá tri thức khai phá liệu, hƣớng tiếp cận chính khai phá tri thức Ngồi luận văn cịn đề cập đến mợt số phƣơng pháp khai phá liệu dạng đóng đƣợc ứng dụng nhiều lĩnh vực thực tế Cụ thể thuật tốn C-Miner khai phá bợ liệu chiều, Representative Slice Mining (RSM) khai phá bộ liệu chiều Kết thực nghiệm cho thấy thuật toán mang lại kết chính xác tối ƣu đƣợc độ phức tạp thời gian so với thuật toán khai phá tập phổ biến đóng khác * Vấn đề khó khăn q trình nghiên cứu: +Tài liệu nghiên cứu mẫu gene đồng thể y học nên địi hỏi đợ chính xác cao, cần có máy móc đo đợ chính xác, đợ tin cậy, hiệu thuật tốn +Tài liệu liên quan đến vấn đề đƣợc đề cập đến luận văn không nhiều, đa số tài liệu địi hỏi phải mua quyền +Có mợt số kĩ thuật tác giả có sử dụng để làm modul thuật tốn, nhƣng khơng đƣợc miêu tả luận văn, ví dụ phần mềm giúp cho việc phân cụm liệu: CLUTO2 software Làm cho việc nghiên cứu tài liệu gặp khó khăn +Trong cài đặt thuật tốn thời, cài đặt kiểu mảng nên gây tình trạng dƣ thừa nhiều liệu, lãng phí bộ nhớ * Vấn đề giải đƣợc: + Đã hiểu đƣợc cách thức khai phá liệu + Hiểu đƣợc nội dung luận văn tiến sĩ Ji Liping, cài đặt đƣợc thuật toán sử dụng luận văn (thuật tốn khai phá tập phổ biến đóng FCPs, khai phá khối phổ biến đóng FCCs) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 +Dùng thuật toán k-mean để thay phần mềm CLUTO2 software +Cải tiến thuật toán tác giả để ứng dụng kinh doanh (đã cài đặt đƣợc ứng dụng để minh họa) * Vấn đề cần khắc phục, đề xuất: +Trong cấu trúc liệu cài đặt thuật toán cần chuyển đổi kiểu mảng sang kiểu danh sách +Cần có sở liệu thực tế đủ lớn để xác thực tính hiệu thuật toán Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 TÀI LIỆU THAM KHẢO Tiếng Việt Hoàng Kiếm, Lƣơng Hán Cơ (2004), "Các vấn đề liên quan tốn tìm tập phổ biến đóng", Hội Thảo Quốc Gian lần Thứ VII: Một số vấn đề chọn lọc Công Nghệ Thông Tin Truyền Thông, Đà Nẵng Hoàng Kiếm, Lƣơng Hán Cơ (2004), "Sử dụng tập phổ biến đóng tốn tìm luật kết hợp", Hội nghị Khoa học trường Đại học Khoa học Tự nhiên TP Hồ Chí Minh lần thứ Nguyễn Xuân Huy, Đoàn Văn Ban, Nguyễn Hữu Trọng, (2007) "Phát triển thuật toán khai phá liệu dựa bao đóng tập tḥc tính", Tạp chí Tin học Điều khiển học, Viện Khoa học Công Nghệ Việt Nam, Số 2, tập 23 Ngô Quốc Tạo (2009), “Bài giảng môn Data Mining” , Lớp CHK8-ĐH Thái Ngun Nguyễn Hồng Tú, “Giáo trình khai phá liệu ứng dụng” Tiếng Anh Ji liping - a dissertation submitted for the degree of doctor of philosophy, “Mining localized co-expressed gene patterns from microarray data” Jiawei Han and Michelin Kamber, “Data Mining concepts and techniques”, Morgan Kaufmann Publishers Rakesh, Johannes Gehrke , “Automatic subspace clustering of high demensional data for data mining application”, IBM Almaden research Center Doug Burdick, Manuel Calimlim, Johannes Gehrke , “A maximal frequent Itemset Algorithm for Transactional Databases” Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.2 Khai phá liệu 1.2 Ứng dụng việc khai phá liệu 1.3 Qui trình khai phá tri thức 1.3.1 Qui trình khai phá tri thức ... trình khai phá tri thức, quy trình chuẩn bị liệu, một vài phƣơng pháp khai phá liệu nhƣ: phƣơng pháp phân lớp, phƣơng pháp phân cụm, thuật toán k-mean Chƣơng 2: Trong chƣơng nghiên cứu phƣơng pháp. .. đóng góp ý kiến để đề tài đƣợc hồn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng 1: TÌM HIỂU PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.1 Khai phá liệu Khai phá liệu