Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
275,64 KB
Nội dung
0 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LUẬN VĂN THẠC SỸ PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG Học viên: Nguyễn Thị Thanh Huyền Người hướng dẫn khoa học: Ts Đỗ Văn Thành 4/2006 MỤC LỤC Bảng từ viết tắt Danh mục bảng biểu Danh mục hình vẽ MỞ ĐẦU Chương TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU 10 1.1 Tại phải xây dựng kho liệu? 10 1.2 Khái niệm kho liệu – Data Warehouse 11 1.3 Mục đích kho liệu 13 1.4 Đặc điểm kho liệu 14 1.5 Mô hình Kho liệu (DW) 18 1.5.1 Các khái niệm 18 1.5.2.Mô hình liệu nhiều chiều 20 1.5.3 Sơ đồ sở liệu nhiều chiều 22 1.6 Kho liệu chủ đề 25 1.7 Phân bậc khái niệm 27 Kết luận 29 Chương PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU 30 2.1 Mô hình hình thức phát luật kết hợp 30 2.2 Phát luật kết hợp nhiều chiều 33 2.2.1 Các khái niệm 33 2.2.2 Biểu thức luật mẫu 42 2.3 Các thuật toán phát luật kết hợp nhiều chiều 50 2.3.1 Chuyển đổi mẫu 50 2.3.2 Giai đoạn tìm tập ứng cử viên 54 2.3.3 Giai đoạn tìm tập mục liệu chuẩn phổ biến 63 Kết luận 73 Chương PHÁT HIỆN LUẬT KẾT NHIỀU CHIỀU MỜ 74 3.1 Giới thiệu 74 3.2 Phân loại CSDL nhiều chiều 78 3.3 Phát luật kết hợp từ CSDL nhiều chiều loại 81 3.3.1 Các khái niệm 81 3.3.2 Phát luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 86 3.4 Phát luật kết hợp từ CSDL tác vụ nhiều chiều loại 90 3.4.1 Chuyển CSDL nhiều chiều loại CSDL nhiều chiều 90 3.4.2 Các khái niệm 95 3.4.3 Phát luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 97 Kết luận 97 KẾT LUẬN 100 TÀI LIỆU THAM KHẢO 102 Bảng từ viết tắt Từ cụm từ Viết tắt Tiếng anh Cơ sở liệu CSDL Database Kho liệu DW Data Warehouse Xử lý phân tích trực tuyến OLAP OnLine Analystical Processing Xử lý giao dịch trực tuyến OLTP Hệ thống ứng dụng tác nghiệp OAS Online Transaction Processing Operational Application System Danh mục bảng biểu Bảng 1: Dữ liệu bán hàng Công ty Điện tử theo chiều thoi_gian mat_hang chi nhánh bán hàng thuộc thành phố Hà nội Các tiêu chuẩn đánh giá tong_so_ban (đơn vị triệu VNĐ) 20 Bảng 2: Dữ liệu bán hàng Công ty Điện tử nhìn theo chiều (3-D) chiều thoi_gian, mat_hang vi_tri Tiêu chuẩn đánh giá Tong_so_ban (đơn vị triệu VNĐ) 21 Bảng 3: CSDL tác vụ cửa hàng 31 Bảng 4: Cơ sở liệu tác vụ biểu diển dạng bảng 31 Bảng 5:CSDL tác vụ siêu thị 34 Bảng 6:CSDL tác vụ mở rộng siêu thị sau chuyển đổi 36 Bảng 7: Tập ứng viên đếm kế hoạch phát phân biệt 56 Bảng 8: Ví dụ kết nối U V 58 Bảng 9: Các tập ứng viên đếm kế hoạch phát kết nối 59 Bảng 10: Thủ tục lập kế hoạch kết nối 61 Bảng 11: Thủ tục phát phân biệt 64 Bảng 12: CSDL công ty máy tính 67 Bảng 13: Kế hoạch phát phân biệt kết hợp cho mẫu: ∆ (∗), ∆1 (∗) → ∆ (∗) 67 Bảng 14: Thuật toán phát kết hợp 70 Bảng 15: sử dụng phương pháp rời rạc thuộc tính định lượng có số giá trị nhỏ 74 Bảng 16: sử dụng phương pháp rời rạc thuộc tính định lượng có giá trị số 75 Bảng 17: CSDL định lượng 77 Bảng 18: CSDL mờ 78 Bảng 19: CSDL nhiều chiều loại 79 Bảng 20: CSDL nhiều chiều loại 80 Bảng 21: CSDL nhiều chiều loại 80 Bảng 22: CSDL nhiều chiều mờ loại 83 Bảng 23:CSDL nhiều chiều mờ loại mở rộng 84 Bảng 24:Bảng kí hiệu sử dụng thuật toán phát luật kết hợp nhiều chiều mờ 86 Bảng 25: tập mục liệu mờ mở rộng phổ biến có độ dài 88 Bảng 26: tập mục liệu mở rộng mờ phổ biến có độ dài 89 Bảng 27: CSDL tác vụ nhiều chiều mờ loại 94 Danh mục hình vẽ Hình 1: Luồng liệu tổ chức 12 Hình 2: Tích hợp liệu 15 Hình 3: Tích hợp liệu 15 Hình 4: Tính thời gian liệu 17 Hình 5: Khối liệu 3-D thể cho liệu bảng 21 Hình 6: Sơ đồ hình DW bán hàng Công ty Điện tử 23 Hình 7: Sơ đồ hình tuyết DW bán hàng Công ty Điện tử 24 Hình 8: Sơ đồ hình chòm kiện DW bán hàng Công ty Điện tử 25 Hình 9: Phân bậc khái niệm chiều vi_tri 27 Hình 10: Cấu trúc dàn thuộc tính chiều vi_tri DW Bán hàng 28 Hình 11: Đồ thị CSDL bảng 34 Hình 12: Đồ thị hàm thành viên tập mờ: “Đường_tăng_thấp”, “Đường_tăng_TB”, “Đường_tăng_cao” 82 Hình 13: Đồ thị hàm thành viên tập mờ: “Sữa_tăng_thấp”, “Sữa_tăng_TB”, “Sữa_tăng_cao” 83 Hình 14: Khung lưới dựa việc phân hoạch thuộc tính chiều 90 Hình 15: Ví dụ phân hoạch mờ 91 Hình 16: Định nghĩa hàm thành viên cho khoảng mờ 93 MỞ ĐẦU Vấn đề phát luật kết hợp quan tâm phát triển mạnh, trở thành khuynh hướng nghiên cứu ứng dụng quan trọng khai phá liệu (data mining) Việc phát luật kết hợp nhằm tìm mối quan hệ thuộc tính liệu sở liệu Phát luật kết hợp ứng dụng hiệu nhiều ngành kinh tế, khoa học, xã hội Thương mại, Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi trường, Để phát luật kết hợp từ sở liệu (CSDL), trước hết người ta xây dựng phương pháp nhằm phát luật kết hợp từ CSDL nhị phân sau phát triển thành phương pháp phát luật kết hợp từ CSDL định lượng cách sử dụng kỹ thuật chia khoảng giá trị thuộc tính CSDL định lượng đưa CSDL nhị phân ứng dụng thuật toán phát luật kết hợp từ CSDL nhị phân biết sử dụng lý thuyết tập mờ để chuyển CSDL định lượng thành CSDL mờ cải tiến phát triển thuật toán phát luật kết hợp nhị phân cho phù hợp Cách tiếp cận sau quan tâm nhiều khắc phục nhược điểm “thiếu tự nhiên” “quá cồng kềnh” cách tiếp cận chia khoảng giá trị thuộc tính CSDL định lượng Luật kết hợp phát gọi luật kết hợp mờ Tương tự để phát luật kết hợp từ CSDL nhiều chiều (hay Kho liệu – Dataware house) trước hết người ta xây dựng phương pháp nhằm phát luật kết hợp từ sở liệu nhiều chiều nhị phân gọi luật kết hợp nhiều chiều Đến vấn đề phát luật kết hợp nhiều chiều giải quyết, kết nghiên cứu đề xuất phương pháp phát luật kết hợp từ sở liệu nhiều chiều định lượng hạn chế Luận văn liên quan đến vấn đề phát luật kết hợp từ CSDL nhiều chiều định lượng theo cách tiếp cận quan tâm sử dụng nhằm phát luật kết hợp mờ từ sở liệu định lượng Cụ thể mục đích luận văn là: Về mặt lý thuyết: luận văn trình bày cách tổng quan số vấn đề kho liệu, phát luật kết hợp từ CSDL nhị phân, phát luật kết hợp nhiều chiều từ CSDL định lượng đề xuất kỹ thuật phát luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều định lượng cách mờ hoá chiều CSDL Về mặt ứng dụng: Cung cấp cách hệ thống số khái niệm kỹ thuật để phát luật kết hợp từ CSDL nhiều chiều nhiều chiều định lượng Kỹ thuật đề xuất luận văn góp phần để xây dựng chương trình ứng dụng nhằm phát luật kết hợp nhiều chiều mờ từ CSDL định lượng Luận văn bao gồm phần mở đầu, chương nội dung phần kết luận Chương - Tổng quan sở liệu nhiều chiều: Chương bao gồm trang từ 10 đến 29, trình bày kiến thức kho liệu: khái niệm, mục đích việc xây dựng kho liệu, đặc điểm, loại kho liệu, mô hình kho liệu, phân bậc khái niệm chiều CSDL nhiều chiều Mục đích chương cung cấp kiến thức kho liệu (hay CSDL nhiều chiều) để làm sở cho chương Chương - Tổng quan luật kết hợp tác vụ nhiều chiều: Từ trang 30 đến trang 73, trình bày phương pháp phát luật kết hợp nhiều chiều từ CSDL tác vụ nhiều chiều nhị phân Chương giới thiệu thuật toán phát luật kết hợp tác vụ nhiều chiều: phân biệt kết hợp Chương - Phát luật kết hợp nhiều chiều mờ từ CSDL định lượng Chương gồm trang từ trang 74 đến trang 99, trình bày phương pháp phát luật kết hợp nhiều chiều mờ Trong chương trình bày khái niệm: CSDL tác vụ nhiều chiều mờ, mục liệu mờ mở rộng, cách tính độ hỗ trợ cho tập mục liệu mờ mở rộng,… đề xuất thuật toán phát luật kết hợp tác vụ nhiều chiều mờ thuật toán phát luật kết hợp nhiều chiều mờ thu gọn Phần kết luận: nêu lên kết chủ yếu luận văn hạn chế việc giải đề tài luận văn với hướng phát triển Tôi xin bày tỏ lòng kính trọng biết ơn sâu sắc tới thầy Đỗ Văn Thành - Trung tâm Thông Tin Dự báo KT-XH Quốc Gia tận tình hướng dẫn giúp đỡ hoàn thành luận văn Tôi xin cảm ơn thầy cô khoa Công nghệ Thông tin, Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội giúp hoàn thành khoá học 102 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Văn Thành (2005), Phát luật kết hợp mờ từ CSDL định lượng có độ hỗ trợ cực tiểu không giống nhau, nhận đăng “Tạp chí tin học” [2] Đỗ Văn Thành (2004), Phát luật kết hợp với độ hỗ trợ không giống nhau, Tạp chí Khoa học Công nghệ, N1 [3] Đoàn Văn Ban (1997), Phương pháp thiết kế khai thác kho liệu, báo cáo đề tài TT96/97-04, Viện Công Nghệ Thông Tin [4] Tài liệu “Data Warehouse” Viện Công Nghệ Thông Tin, 1997 Tiếng Anh [5] Agrawal,R T.Imielinski, and A.Swami, “Mining association rules between sets of items in large databases” Proceedings of the ACM SIGMOD Int’l Conference on Management of Data, page 207-216, may 1993 [6] Agrawal R, Srikant R, “Fast algorithm for mining association rules in large databases” In:Bocca JB, Jarke M, Zaniolo C, editors Proc 20th VLDB Conf San Francisco, CA: MorganKaufmann; 1994 pp 487– 499 [7] Attila Gyenesei, Jukka Teuhola, “Multidimensional Fuzzy Partitioning of Attribute Ranges for Mining Quantitative Data” INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, VOL 19, 1111–1126 (2004) [8] Attila Gyenesei, “A Fuzzy Aproach for Mining Quantitative Association Rules” Turku Centre for Computer Sciences, TUCS Technical Report, No 336, 2000 [9] Baralis E, Psaila G (1997), “Designing templates for mining association rules” J Intell Inf Syst (1):7–32 [10] Chun Hing Cai, “Mining Association Rules with Weighted Items”, Thesis, Chinese University of HongKong, 8/1998 103 [11] Fayyad U.M, Platstsky-Shapiro G, Smyth P., and Uthurusamy,” From Data Mining to Knowledge Discovery” Advances in Knowledge discovery and DataMining, , edited by the same authors, AAAI Press/The MIT Press,1996, pp 1-34 [12] Fukuda T, Morimoto Y, Morishita S, Tokuyama T (1996), “Data mining using two-dimensional optimized association rules: schema, algorithms, and visualization”, In: Proc.ACMSIGMOD International Conference on Management of Data, pp 13–23,Montreal, Canada [13] Han J., Kamber M, “Data mining: Concepts and Techniques”, Morgan Kaufman Publishers, 2001, 550 pages [14] Ke Wang, Yu He, Jiwei Han, “Mining Frequent Itemset Using Support Constraints” Proceedings of the 26th VLDB Conference,Cairo,Egypt, 2000 [15] Ke Wang, Yu He, Jiwei Han, “Pushing support constraints into frequent itemset mining” School of Computing, National Univer Of Singapore, 2000 [16] Kuok CM, Fu A, Wong MH, “Fuzzy association rules in databases”, ACM SIGMOD Rec1998;27:41– 46 [17] Kuod M, Ada P, “Mining Fuzzy Association Rules”, In SIGMOD Record, 27(1), 1998 [18] Ling Feng, Jeffrey Xu Yu, Hongjun Lu, Jiawei Han, “A template model for multidimensional inter-transactional association rules”,2002 [19] Miller RJ,YangY(1997), “Association rules over interval data”, In: Proc.ACMSIGMOD International Conference on Management of Data, pp 452–461, Tucson, Ariz., USA [20] Srikant R, Agrawal R,”Mining quantitative association rules in large relation tables” In:Widom J, editor Proc ACM SIGMOD New York: ACM Press; 1996 pp 1–12 [21] Zadeh LA, “Fuzzy sets”, Inform Control 1965;8:338–353 [...]...102 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Văn Thành (2005), Phát hiện luật kết hợp mờ từ CSDL định lượng có độ hỗ trợ cực tiểu không giống nhau, nhận đăng trong “Tạp chí tin học” [2] Đỗ Văn Thành (2004), Phát hiện luật kết hợp với độ hỗ trợ không giống nhau, Tạp chí Khoa học và Công nghệ, N1 [3] Đoàn Văn Ban (1997), Phương pháp thiết kế và khai thác kho dữ liệu, báo cáo đề tài TT96/97-04,... hợp với độ hỗ trợ không giống nhau, Tạp chí Khoa học và Công nghệ, N1 [3] Đoàn Văn Ban (1997), Phương pháp thiết kế và khai thác kho dữ liệu, báo cáo đề tài TT96/97-04, Viện Công Nghệ Thông Tin [4] Tài liệu về “Data Warehouse” của Viện Công Nghệ Thông Tin, 1997 Tiếng Anh [5] Agrawal,R T.Imielinski, and A.Swami, “Mining association rules between sets of items in large databases” Proceedings of the ACM