Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 104 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
104
Dung lượng
1,7 MB
Nội dung
0 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LUẬN VĂN THẠC SỸ PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG Học viên: Nguyễn Thị Thanh Huyền Người hướng dẫn khoa học: Ts Đỗ Văn Thành 4/2006 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC Bảng từ viết tắt Danh mục bảng biểu Danh mục hình vẽ MỞ ĐẦU Chương TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU 10 1.1 Tại phải xây dựng kho liệu? 10 1.2 Khái niệm kho liệu – Data Warehouse 11 1.3 Mục đích kho liệu 13 1.4 Đặc điểm kho liệu 14 1.5 Mơ hình Kho liệu (DW) 18 1.5.1 Các khái niệm 18 1.5.2.Mơ hình liệu nhiều chiều 20 1.5.3 Sơ đồ sở liệu nhiều chiều 22 1.6 Kho liệu chủ đề 25 1.7 Phân bậc khái niệm 27 Kết luận 29 Chương PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU 30 2.1 Mơ hình hình thức phát luật kết hợp 30 2.2 Phát luật kết hợp nhiều chiều 33 2.2.1 Các khái niệm 33 2.2.2 Biểu thức luật mẫu 42 2.3 Các thuật toán phát luật kết hợp nhiều chiều 50 2.3.1 Chuyển đổi mẫu 50 2.3.2 Giai đoạn tìm tập ứng cử viên 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.3.3 Giai đoạn tìm tập mục liệu chuẩn phổ biến 63 Kết luận 73 Chương PHÁT HIỆN LUẬT KẾT NHIỀU CHIỀU MỜ 74 3.1 Giới thiệu 74 3.2 Phân loại CSDL nhiều chiều 78 3.3 Phát luật kết hợp từ CSDL nhiều chiều loại 81 3.3.1 Các khái niệm 81 3.3.2 Phát luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 86 3.4 Phát luật kết hợp từ CSDL tác vụ nhiều chiều loại 90 3.4.1 Chuyển CSDL nhiều chiều loại CSDL nhiều chiều 90 3.4.2 Các khái niệm 95 3.4.3 Phát luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 97 Kết luận 97 KẾT LUẬN 100 TÀI LIỆU THAM KHẢO 102 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng từ viết tắt Từ cụm từ Viết tắt Tiếng anh Cơ sở liệu CSDL Database Kho liệu DW Data Warehouse Xử lý phân tích trực tuyến OLAP OnLine Analystical Processing Xử lý giao dịch trực tuyến OLTP Hệ thống ứng dụng tác nghiệp OAS Online Transaction Processing Operational Application System LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục bảng biểu Bảng 1: Dữ liệu bán hàng Công ty Điện tử theo chiều thoi_gian mat_hang chi nhánh bán hàng thuộc thành phố Hà nội Các tiêu chuẩn đánh giá tong_so_ban (đơn vị triệu VNĐ) 20 Bảng 2: Dữ liệu bán hàng Công ty Điện tử nhìn theo chiều (3-D) chiều thoi_gian, mat_hang vi_tri Tiêu chuẩn đánh giá Tong_so_ban (đơn vị triệu VNĐ) 21 Bảng 3: CSDL tác vụ cửa hàng 31 Bảng 4: Cơ sở liệu tác vụ biểu diển dạng bảng 31 Bảng 5:CSDL tác vụ siêu thị 34 Bảng 6:CSDL tác vụ mở rộng siêu thị sau chuyển đổi 36 Bảng 7: Tập ứng viên đếm kế hoạch phát phân biệt 56 Bảng 8: Ví dụ kết nối U V 58 Bảng 9: Các tập ứng viên đếm kế hoạch phát kết nối 59 Bảng 10: Thủ tục lập kế hoạch kết nối 61 Bảng 11: Thủ tục phát phân biệt 64 Bảng 12: CSDL công ty máy tính 67 Bảng 13: Kế hoạch phát phân biệt kết hợp cho mẫu: ∆ (∗), ∆1 (∗) → ∆ (∗) 67 Bảng 14: Thuật toán phát kết hợp 70 Bảng 15: sử dụng phương pháp rời rạc thuộc tính định lượng có số giá trị nhỏ 74 Bảng 16: sử dụng phương pháp rời rạc thuộc tính định lượng có giá trị số 75 Bảng 17: CSDL định lượng 77 Bảng 18: CSDL mờ 78 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng 19: CSDL nhiều chiều loại 79 Bảng 20: CSDL nhiều chiều loại 80 Bảng 21: CSDL nhiều chiều loại 80 Bảng 22: CSDL nhiều chiều mờ loại 83 Bảng 23:CSDL nhiều chiều mờ loại mở rộng 84 Bảng 24:Bảng kí hiệu sử dụng thuật tốn phát luật kết hợp nhiều chiều mờ 86 Bảng 25: tập mục liệu mờ mở rộng phổ biến có độ dài 88 Bảng 26: tập mục liệu mở rộng mờ phổ biến có độ dài 89 Bảng 27: CSDL tác vụ nhiều chiều mờ loại 94 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục hình vẽ Hình 1: Luồng liệu tổ chức 12 Hình 2: Tích hợp liệu 15 Hình 3: Tích hợp liệu 15 Hình 4: Tính thời gian liệu 17 Hình 5: Khối liệu 3-D thể cho liệu bảng 21 Hình 6: Sơ đồ hình DW bán hàng Cơng ty Điện tử 23 Hình 7: Sơ đồ hình bơng tuyết DW bán hàng Cơng ty Điện tử 24 Hình 8: Sơ đồ hình chịm kiện DW bán hàng Công ty Điện tử 25 Hình 9: Phân bậc khái niệm chiều vi_tri 27 Hình 10: Cấu trúc dàn thuộc tính chiều vi_tri DW Bán hàng 28 Hình 11: Đồ thị CSDL bảng 34 Hình 12: Đồ thị hàm thành viên tập mờ: “Đường_tăng_thấp”, “Đường_tăng_TB”, “Đường_tăng_cao” 82 Hình 13: Đồ thị hàm thành viên tập mờ: “Sữa_tăng_thấp”, “Sữa_tăng_TB”, “Sữa_tăng_cao” 83 Hình 14: Khung lưới dựa việc phân hoạch thuộc tính chiều 90 Hình 15: Ví dụ phân hoạch mờ 91 Hình 16: Định nghĩa hàm thành viên cho khoảng mờ 93 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Vấn đề phát luật kết hợp quan tâm phát triển mạnh, trở thành khuynh hướng nghiên cứu ứng dụng quan trọng khai phá liệu (data mining) Việc phát luật kết hợp nhằm tìm mối quan hệ thuộc tính liệu sở liệu Phát luật kết hợp ứng dụng hiệu nhiều ngành kinh tế, khoa học, xã hội Thương mại, Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi trường, Để phát luật kết hợp từ sở liệu (CSDL), trước hết người ta xây dựng phương pháp nhằm phát luật kết hợp từ CSDL nhị phân sau phát triển thành phương pháp phát luật kết hợp từ CSDL định lượng cách sử dụng kỹ thuật chia khoảng giá trị thuộc tính CSDL định lượng đưa CSDL nhị phân ứng dụng thuật toán phát luật kết hợp từ CSDL nhị phân biết sử dụng lý thuyết tập mờ để chuyển CSDL định lượng thành CSDL mờ cải tiến phát triển thuật toán phát luật kết hợp nhị phân cho phù hợp Cách tiếp cận sau quan tâm nhiều khắc phục nhược điểm “thiếu tự nhiên” “quá cồng kềnh” cách tiếp cận chia khoảng giá trị thuộc tính CSDL định lượng Luật kết hợp phát gọi luật kết hợp mờ Tương tự để phát luật kết hợp từ CSDL nhiều chiều (hay Kho liệu – Dataware house) trước hết người ta xây dựng phương pháp nhằm phát luật kết hợp từ sở liệu nhiều chiều nhị phân gọi luật kết hợp nhiều chiều Đến vấn đề phát luật kết hợp nhiều chiều giải quyết, kết nghiên cứu đề LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com xuất phương pháp phát luật kết hợp từ sở liệu nhiều chiều định lượng hạn chế Luận văn liên quan đến vấn đề phát luật kết hợp từ CSDL nhiều chiều định lượng theo cách tiếp cận quan tâm sử dụng nhằm phát luật kết hợp mờ từ sở liệu định lượng Cụ thể mục đích luận văn là: Về mặt lý thuyết: luận văn trình bày cách tổng quan số vấn đề kho liệu, phát luật kết hợp từ CSDL nhị phân, phát luật kết hợp nhiều chiều từ CSDL định lượng đề xuất kỹ thuật phát luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều định lượng cách mờ hoá chiều CSDL Về mặt ứng dụng: Cung cấp cách hệ thống số khái niệm kỹ thuật để phát luật kết hợp từ CSDL nhiều chiều nhiều chiều định lượng Kỹ thuật đề xuất luận văn góp phần để xây dựng chương trình ứng dụng nhằm phát luật kết hợp nhiều chiều mờ từ CSDL định lượng Luận văn bao gồm phần mở đầu, chương nội dung phần kết luận Chương - Tổng quan sở liệu nhiều chiều: Chương bao gồm trang từ 10 đến 29, trình bày kiến thức kho liệu: khái niệm, mục đích việc xây dựng kho liệu, đặc điểm, loại kho liệu, mơ hình kho liệu, phân bậc khái niệm chiều CSDL nhiều chiều Mục đích chương cung cấp kiến thức kho liệu (hay CSDL nhiều chiều) để làm sở cho chương Chương - Tổng quan luật kết hợp tác vụ nhiều chiều: Từ trang 30 đến trang 73, trình bày phương pháp phát luật kết hợp nhiều chiều LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com từ CSDL tác vụ nhiều chiều nhị phân Chương giới thiệu thuật toán phát luật kết hợp tác vụ nhiều chiều: phân biệt kết hợp Chương - Phát luật kết hợp nhiều chiều mờ từ CSDL định lượng Chương gồm trang từ trang 74 đến trang 99, trình bày phương pháp phát luật kết hợp nhiều chiều mờ Trong chương trình bày khái niệm: CSDL tác vụ nhiều chiều mờ, mục liệu mờ mở rộng, cách tính độ hỗ trợ cho tập mục liệu mờ mở rộng,… đề xuất thuật toán phát luật kết hợp tác vụ nhiều chiều mờ thuật toán phát luật kết hợp nhiều chiều mờ thu gọn Phần kết luận: nêu lên kết chủ yếu luận văn hạn chế việc giải đề tài luận văn với hướng phát triển Tôi xin bày tỏ lịng kính trọng biết ơn sâu sắc tới thầy Đỗ Văn Thành - Trung tâm Thông Tin Dự báo KT-XH Quốc Gia tận tình hướng dẫn giúp đỡ tơi hồn thành luận văn Tôi xin cảm ơn thầy cô khoa Công nghệ Thông tin, Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội giúp tơi hồn thành khoá học LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 89 Ví dụ, sau thực chương trình CSDL bảng 24 có C2={{∆(0)(b),∆(1)(b}, {∆(0)(b),∆(1)(e)}, {∆(0)(e),∆(1)(b)}, {∆(0)(e),∆(1)(e)}} - Chương trình Lk=Checking(Ck, DF, fminsupp): duyệt CSDL DSF để cập nhật độ hỗ trợ cho thuộc tính Ck Sau duyệt xong, Checking chọn tập phổ biến để đưa vào Lk Ví dụ, với C2 trên, sau thực Checking, ta được: L2={∆(0)(b), ∆(1)(e)} Vì : Là tập mục liệu mờ phổ biến Tập mục liệu mờ Độ hỗ trợ {∆(0)(b),∆(1)(b)} 10% khơng {∆(0)(b),∆(1)(e)} 40,1% có {∆(0)(e),∆(1)(b)} 34,8% khơng {∆(0)(e),∆(1)(e)} 31,3% không với fminsupp=40%? Bảng 26: tập mục liệu mở rộng mờ phổ biến có độ dài Việc sinh luật thực sau: Với độ tin cậy fminconf=35% luật mờ chấp nhận “∆(0)(b)Ỉ∆(1)(e)” với độ hỗ trợ 40,1% với độ tin cậy 64,3 % tức “∆(0)(Đường_tăng_TB)Ỉ∆(1)(Sữa_tăng_TB)” Luật có nghĩa: ”Hơm mặt hàng “Đường” tăng trung bình ngày mai mặt hàng “Sữa” tăng trung bình” Nhận xét: Có thể dễ dàng kiểm tra thuật toán trường hợp CSDL nhiều chiều loại có mục liệu nhận giá trị nhị phân khái niệm thuật tốn trở thành khái niệm thuật toán phát luật kết hợp nhiều chiều loại chương LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 90 3.4 Phát luật kết hợp từ CSDL tác vụ nhiều chiều loại CSDL nhiều chiều loại có: thuộc tính chiều CSDL nhận giá trị số, cịn mục liệu nhận giá trị nhị phân hay số (phân loại) với tập giá trị nhỏ Để phát luật kết hợp từ CSDL nhiều chiều loại 3, cần phân hoạch khoảng giá trị thuộc tính chiều thành khoảng mờ 3.4.1 Chuyển CSDL nhiều chiều loại CSDL nhiều chiều a Cơ sở lý thuyết Sử dụng lý thuyết tập mờ để chuyển thuộc tính chiều thành khoảng mờ thể qua hàm thành viên xây dựng, nghiên cứu gần tác giả Jukka Teuhola [7] Trước khi, tìm hiểu kỹ thuật chuyển ta quay trở lại kỹ thuật rời rạc, sau khái quát thành trường hợp mờ Ví dụ, bảng 20 - CSDL nhiều chiều loại có thuộc tính chiều tuổi [0…100], chiều_cao[50…250], số_giày[5 15] Có thể tìm khoảng sau: Tuổi: [1,6], (6,18], (18,30], (30,60], (60,100] Chiều cao: [50,100], (100,180], (180,250] Số giày: [5,7], (7,9], (9,11], (11,15] Hình 12 minh hoạ chiều biểu diễn không gian nhiều chiều chiều cao số giày Tuổi Hình 14: Khung lưới dựa việc phân hoạch thuộc tính chiều LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 91 Tham số chồng lấp p định nghĩa để cân xứng khoảng mà hàm thành viên có giá trị nằm 0.5 Trong khoảng lân cận, khoảng cân xứng [0,0.5] p/2 khoảng liên quan phần nhỏ lớn Các khoảng mờ có loại ranh giới tương ứng với giá trị 0, 0.5, Nó thể hình 13: Giá trị Min d1+ (thấp) s1 d 2− − d 2+ s d3 (trung bình) Giá trị max (cao) Hình 15: Ví dụ phân hoạch mờ Định nghĩa 1: điểm ranh giới mà giá trị hàm thành viên giảm dần từ cho khoảng mờ i - kí hiệu d i+ tính sau: d i+ = s i − 0.5( si − si −1 ) p / 100 Với p tham số chồng lấp (tính theo phần trăm) người dùng đưa vào si-1 (si) điểm phân chia bên trái (hoặc bên phải) khoảng mờ i (i={1,…, m}); d i+ điểm ranh giới mà giá trị hàm thành viên tăng dần từ cho khoảng mờ i+1 Định nghĩa 2: điểm ranh giới mà giá trị hàm thành viên tăng dần đến cho khoảng mờ j- kí hiệu d −j tính sau: d −j = s j −1 + 0.5( s j − s j −1) p / 100 Với p tham số chồng lấp (tính theo phần trăm) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 92 sj-1 (sj) điểm chia bên trái (hoặc bên phải) khoảng mờ j (j={2, 3,…, m+1}); d −j điểm ranh giới mà giá trị hàm thành viên giảm dần đến khoảng mờ j-1 Sử dụng định nghĩa để xây dựng hàm thành viên cho khoảng mờ.[7] với i=2…m ⎧ neu x ≤ d i -1 ⎪ + ⎪ x − d i −1 neu d i -1 < x ≤ s i-1 ⎪ + ⎪ 2( si −1 − d i −1 ) ⎪ x − si −1 ⎪ 2(d − s ) + neu s i-1 < x ≤ d i ⎪ i i −1 + ⎪ neu d i < x ≤ d i f ( x) = ⎨ ⎪ si − x neu d i ≤ x ≤ s i + ⎪ + ⎪ 2( si − d i ) ⎪ d i−+1 − x ⎪ neu s i < x ≤ d i +1 ⎪ 2(d − s ) i +1 i ⎪ ⎪ neu x > d i +1 ⎩ với i=1 ⎧ ⎪ s1 − x ⎪ + ⎪⎪ ( s − d + ) 1 f (x) = ⎨ − ⎪ d2 − x ⎪ 2(d − s ) ⎪ ⎪⎩ neu neu neu neu x ≤ - d1 + d < x ≤ s1 s1 < x ≤ d x > d − − LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 93 với i= m+1 + ⎧ neu x ≤ d m ⎪ x − d m+ ⎪ − neu d m < x ≤ sm ⎪⎪ + 2(sm − d m ) f (x) = ⎨ x − sm ⎪ neu s m < x ≤ d m + + ⎪ 2(d − ) s − m +1 ⎪ − neu x > d m +1 ⎪⎩ Hình 16: Định nghĩa hàm thành viên cho khoảng mờ b Ví dụ áp dụng Trước hết, xây dựng hàm thành viên cho thuộc tính chiều cho CSDL nhiều chiều loại bảng 20 là: Chiều cao, Số giày, Tuổi, - Thuộc tính chiều “Chiều cao” có điểm ranh giới sau (tham số chồng lấp 40%): d1+ =90; d 2+ = 164; d 2− =116; d 3− =194; Như vậy, ta có hàm thành viên cho thuộc tính chiều cao thể sau: 50 90 100 116 (thấp) 164 180 194 (trung bình) 250 (cao) Thuộc tính chiều “Số giày” có ranh giới sau (tham số chồng lấp 40%): d1+ = 6.6; d 2+ = 8.6; d 3+ = 10.6; d 2− =7.4; d 3− = 79.4; d 4− = 11.8 nhỏ 6.6 7.4 8.6 9.4 10.6 11 11.8 TB trung bình 15 lớn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 94 Thuộc tính chiều “Tuổi” có điểm phân chia ranh giới đường biên sau (tham số chồng lấp 40%): d1+ =5; d 2+ = 15.6; d3+ = 27.6; d 4+ = 54; d 2− =7; d3− = 20.4; d4− = 36; d5− = 68 1 15.6 18 20.4 27.6 30 trẻ nhỏ thiếu niên niên 36 54 60 68 100 trung niên già Khi bảng 20 chuyển thành bảng đây, gọi CSDL nhiều chiều mờ loại Chiều cao a (cm) b c Cỡ giày d e f g Tuổi h k l m n 150 10 0 23 0 0 0 180 5 14 0 38 0 0 1 145 0 16 92 0 1 167 91 09 5 34 0 83 17 1 200 0 15 0 42 0 1 158 10 0 29 0 0 1 171 78 22 13 0 50 0 1 120 0 5 13 0 1 138 0 0 15 0 1 178 56 44 5 29 0 1 0 71 29 71 29 Giày Quần Áo bò phông thể thao Bảng 27: CSDL tác vụ nhiều chiều mờ loại LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 95 kí hiệu ý nghĩa kí hiệu ý nghĩa a Chiều cao_thấp g Cỡ giày_lớn b Chiều cao_trungbình h Tuổi_trẻ nhỏ c Chiều cao_cao k Tuổi_thiếu niên d Cỡ giày_nhỏ l Tuổi_thanh niên e Cỡ giày_dướiTB m Tuổi_trung niên f Cỡ giày_trungbình n Tuổi_già 3.4.2 Các khái niệm a CSDL tác vụ nhiều chiều mờ Giả sử CSDL loại có: Ι = {i1, i , , i n } tập hợp mục liệu D = {D1 , D , , D h} tập hợp thuộc tính chiều q Kí hiệu F D i = {χ Di , χ Di , , χ Dii } khái niệm mờ tương ứng với thuộc tính chiều Di hàm thành viên xây dựng lý thuyết mục 3.4.1.a Khi đó, CSDL nhiều chiều mờ loại tập tác vụ T={t1, t2,…, tn}, với tác vụ T có dạng: ( f χ1D , f χ2D , , f χqD1 , f χ1D , f χ2D , , f χqD2 , , f χ1D , f χ2D , , f χqDh , A) 1 2 h h h với f χi D (i=1, ,qj; j=1, ,h) giá trị hàm thành viên xây j dựng từ khái niệm mờ FDi thuộc tính chiều Di b Ngữ cảnh nhiều chiều mờ tác vụ Tác vụ xảy ngữ cảnh nhiều chiều mờ q F D i = {χ 1D , χ D2 , , χ Di } , ngữ cảnh gọi ngữ cảnh nhiều chiều i i i mờ tác vụ kí hiệu : LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 96 ∆( f χ1D , f χ2D , , f χqD1 , f χ1D , f χ2D , , f χqD2 , , f χ1D , f χ2D , , f χqDh ) 1 2 h h h với f χi D (i=1, ,qj; j=1, ,h) j Ví dụ, bảng 27- ngữ cảnh mờ tác vụ thứ t1 (0,1,0,0,0,1,0,0,0,1,0,0) kí hiệu: ∆(0,1,0,0,0,1,0,0,0,1,0,0) c Tác vụ nhiều chiều mờ mở rộng Tác vụ xảy ngữ cảnh nhiều chiều mờ loại gọi tác vụ nhiều chiều mờ mở rộng, kí hiệu là: ∆( f χ1D , f χ2D , , f χqD1 , f χ1D , f χ2D , , f χqD2 , , f χ1D , f χ2D , , f χqDh )(t) 1 2 h h h Ví dụ, CSDL nhiều chiều mờ loại bảng 27- kí hiệu ∆(0,1,0,0,0,1,0,0,0,1,0,0)(t1) tác vụ nhiều chiều mờ mở rộng tác vụ thứ t1 d Luật kết hợp nhiều chiều mờ CSDL nhiều chiều mờ loại Các khái niệm mục liệu mở rộng, tập mục liệu mở rộng, tập tác vụ mở rộng chuẩn, tập mục liệu mở rộng chuẩn giữ nguyên định nghĩa khái niệm mục 2.2.1.d, 2.2.2.e, 2.2.1.h, 2.2.1.i chương Một luật kết hợp nhiều chiều mờ có dạng: X → Y với X∩Y = ∅; X,Y⊂ IE, X∪Y⊂INe Khác với luật kết hợp CSDL loại 1, luật kết hợp nhiều chiều mờ CSDL nhiều chiều mờ loại cung cấp ngữ cảnh mờ cho tập mục liệu xuất tác vụ e Độ hỗ trợ q Cho CSDL tác vụ nhiều chiều F D i = {χ D i , χ D i , , χ Dii } có N tác vụ nhiều chiều mờ mở rộng, suppX độ hỗ trợ tập mục liệu X xuất ngữ cảnh nhiều chiều mờ tác vụ: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 97 supp(X) = |TX|/N supp((X → Y)= |TXY|/N với TX, TXY tập tác vụ nhiều chiều mờ mở rộng chứa X hay chứa X∪Y f Độ tin cậy Độ tin cậy luật kết hợp tác vụ nhiều chiều mờ X ->Y là: conf(X → Y)=supp((X → Y)/supp(X) 3.4.3 Phát luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại Thuật toán phát luật kết hợp tác vụ nhiều chiều mờ chia làm giai đoạn: Giai đoạn 1: Chuyển đổi mẫu Giai đoạn 2: Chuyển đổi CSDL tác vụ nhiều chiều định lượng thành CSDL tác vụ nhiều chiều mờ Giai đoạn 3: Tìm ứng cử viên Giai đoạn 4: Tìm tập phổ biến: tìm tất tập mục liệu chuẩn phổ biến có độ hỗ trợ lớn độ hỗ trợ cực tiểu người dùng nhập vào: supp(X)≥minsupp Giai đoạn 5: Sinh luật thoả mãn Việc phát luật kết hợp tác vụ nhiều chiều mờ giống với phát luật kết hợp tác vụ nhiều chiều nhị phân giải chương Kết luận Mục đích chương trình bày số kết nghiên cứu ban đầu liên quan đến vấn đề phát luật kết hợp từ CSDL nhiều chiều định lượng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 98 Nguyên tắc thực là: áp dụng lý thuyết tập mờ để chuyển CSDL nhiều chiều định lượng CSDL nhiều chiều mờ xây dựng thuật toán phát luật kết hợp từ CSDL nhiều chiều mờ sở cải tiến thuật tốn cơng bố gần đây- phát luật kết hợp từ CSDL tác vụ nhiều chiều nhị phân (các thuộc tính chiều nhận giá trị nhị phân số với tập giá trị có số lượng nhỏ; mục liệu nhận giá trị nhị phân) Vấn đề phát luật kết hợp từ CSDL tác vụ nhiều chiều nhị phân phức tạp Vì chắn việc phát luật kết hợp từ CSDL nhiều chiều định lượng phức tạp nhiều Để giải vấn đề đặt ra, chương phân loại CSDL nhiều chiều, cụ thể đề xuất loại: Loại 1: CSDL nhiều chiều có thuộc tính chiều nhận giá trị số (hay phân loại) tập giá trị có số lượng nhỏ; mục liệu nhận giá trị nhị phân Loại 2: CSDL nhiều chiều có thuộc tính chiều nhận giá trị nhị phân số (hay phân loại) tập giá trị có số lượng nhỏ; mục liệu nhận giá trị số (hay phân loại) Loại 3: CSDL nhiều chiều có thuộc tính chiều nhận giá trị số (hay phân loại) với tập giá trị có số lượng lớn; mục liệu nhận giá trị nhị phân Loại 4: CSDL nhiều chiều có thuộc tính chiều nhận giá trị số (hay phân loại) với tập giá trị có số lượng lớn; mục liệu nhận giá trị số (hay phân loại) Vấn đề phát luật kết hợp từ CSDL nhiều chiều loại 1(CSDL tác vụ nhiều chiều nhị phân) trình bày chương [18] Trong chương đề xuất kỹ thuật chuyển CSDL nhiều chiều loại 2, CSDL mờ loại Cụ thể: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 99 Việc chuyển CSDL nhiều chiều loại CSDL nhiều chiều mờ áp dụng kỹ thuật đề xuất báo [1,8,16], áp dụng mục liệu Việc chuyển CSDL nhiều chiều loại CSDL nhiều chiều mờ áp dụng kỹ thuật công bố gần báo[7], áp dụng thuộc tính chiều Trong chương đề xuất khái niệm liên quan: CSDL nhiều chiều mờ loại 2, CSDL nhiều chiều mờ loại 3, mục liệu mờ mở rộng, tác vụ mờ mở rộng, ngữ cảnh nhiều chiều mờ sở phát triển khái niệm loại chương Các khái niệm độ đo: độ tin cậy, độ hỗ trợ đề xuất trường hợp Thuật toán phát luật kết hợp mờ từ CSDL định lượng loại đề xuất cuối chương Để phát luật kết hợp mờ gồm giai đoạn: chuyển đổi mẫu, chuyển đổi CSDL cũ thành CSDL mới, tìm tập ứng viên, tìm tập mục liệu phổ biến tìm luật thoả mãn yêu cầu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 100 KẾT LUẬN Phát luật kết hợp lĩnh vực phát triển mạnh mẽ năm gần giới Ở nước ta, lĩnh vực nhiều người quan tâm nghiên cứu, ứng dụng phát triển mạnh mẽ vài năm gần Chương luận văn trình bày khái niệm kho liệu (DW), đặc điểm liệu kho liệu mơ hình Mơ hình kho liệu chủ yếu CSDL nhiều chiều Trong chương trình bày số kiến thức luật kết hợp như: khái niệm luật kết hợp, độ đo độ hỗ trợ, độ tin cậy luật Chương tập trung chủ yếu vào trình bày vấn đề phát luật kết hợp tác vụ nhiều chiều nhị phân Cụ thể, khái niệm CSDL tác vụ nhiều chiều nhị phân: mục liệu mở rộng, tác vụ mở rộng, tập mục liệu mở rộng chuẩn Thuật toán gồm giai đoạn: chuyển đổi mẫu, tìm tập ứng cử viên, tìm tập mục liệu phổ biến, sinh luật kết hợp thoả mãn Chương chương chủ yếu trình bày số đề xuất nghiên cứu vấn đề phát luật kết hợp từ CSDL nhiều chiều loại loại Vấn đề phát CSDL nhiều chiều loại (CSDL nhiều chiều có thuộc tính chiều nhận giá trị số (hay phân loại) với tập giá trị có số lượng lớn; mục liệu nhận giá trị số (hay phân loại)) tác giả nghiên cứu hoàn toàn khả thi giải trọn vẹn vấn đề với CSDL loại Cài đặt chương trình cụ thể để mơ thuật tốn máy tính chưa đề xuất, mà nguyên nhân chủ yếu điều kiện thời gian phức tạp vấn đề Nếu có chương trình cài đặt tốt máy tính thuật tốn áp dụng để dự báo số LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 101 vấn đề cách hiệu từ CSDL nhiều chiều sẵn có Nhưng hồn tồn tin cậy vào thuật tốn đề xuất phát triển thuật tốn kiểm nghiệm hồn tồn chứng minh đắn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 102 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Văn Thành (2005), Phát luật kết hợp mờ từ CSDL định lượng có độ hỗ trợ cực tiểu không giống nhau, nhận đăng “Tạp chí tin học” [2] Đỗ Văn Thành (2004), Phát luật kết hợp với độ hỗ trợ khơng giống nhau, Tạp chí Khoa học Cơng nghệ, N1 [3] Đoàn Văn Ban (1997), Phương pháp thiết kế khai thác kho liệu, báo cáo đề tài TT96/97-04, Viện Công Nghệ Thông Tin [4] Tài liệu “Data Warehouse” Viện Công Nghệ Thông Tin, 1997 Tiếng Anh [5] Agrawal,R T.Imielinski, and A.Swami, “Mining association rules between sets of items in large databases” Proceedings of the ACM SIGMOD Int’l Conference on Management of Data, page 207-216, may 1993 [6] Agrawal R, Srikant R, “Fast algorithm for mining association rules in large databases” In:Bocca JB, Jarke M, Zaniolo C, editors Proc 20th VLDB Conf San Francisco, CA: MorganKaufmann; 1994 pp 487– 499 [7] Attila Gyenesei, Jukka Teuhola, “Multidimensional Fuzzy Partitioning of Attribute Ranges for Mining Quantitative Data” INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, VOL 19, 1111–1126 (2004) [8] Attila Gyenesei, “A Fuzzy Aproach for Mining Quantitative Association Rules” Turku Centre for Computer Sciences, TUCS Technical Report, No 336, 2000 [9] Baralis E, Psaila G (1997), “Designing templates for mining association rules” J Intell Inf Syst (1):7–32 [10] Chun Hing Cai, “Mining Association Rules with Weighted Items”, Thesis, Chinese University of HongKong, 8/1998 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 103 [11] Fayyad U.M, Platstsky-Shapiro G, Smyth P., and Uthurusamy,” From Data Mining to Knowledge Discovery” Advances in Knowledge discovery and DataMining, , edited by the same authors, AAAI Press/The MIT Press,1996, pp 1-34 [12] Fukuda T, Morimoto Y, Morishita S, Tokuyama T (1996), “Data mining using two-dimensional optimized association rules: schema, algorithms, and visualization”, In: Proc.ACMSIGMOD International Conference on Management of Data, pp 13–23,Montreal, Canada [13] Han J., Kamber M, “Data mining: Concepts and Techniques”, Morgan Kaufman Publishers, 2001, 550 pages [14] Ke Wang, Yu He, Jiwei Han, “Mining Frequent Itemset Using Support Constraints” Proceedings of the 26th VLDB Conference,Cairo,Egypt, 2000 [15] Ke Wang, Yu He, Jiwei Han, “Pushing support constraints into frequent itemset mining” School of Computing, National Univer Of Singapore, 2000 [16] Kuok CM, Fu A, Wong MH, “Fuzzy association rules in databases”, ACM SIGMOD Rec1998;27:41– 46 [17] Kuod M, Ada P, “Mining Fuzzy Association Rules”, In SIGMOD Record, 27(1), 1998 [18] Ling Feng, Jeffrey Xu Yu, Hongjun Lu, Jiawei Han, “A template model for multidimensional inter-transactional association rules”,2002 [19] Miller RJ,YangY(1997), “Association rules over interval data”, In: Proc.ACMSIGMOD International Conference on Management of Data, pp 452–461, Tucson, Ariz., USA [20] Srikant R, Agrawal R,”Mining quantitative association rules in large relation tables” In:Widom J, editor Proc ACM SIGMOD New York: ACM Press; 1996 pp 1–12 [21] Zadeh LA, “Fuzzy sets”, Inform Control 1965;8:338–353 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... từ sở liệu nhiều chiều định lượng hạn chế Luận văn liên quan đến vấn đề phát luật kết hợp từ CSDL nhiều chiều định lượng theo cách tiếp cận quan tâm sử dụng nhằm phát luật kết hợp mờ từ sở liệu. .. phát gọi luật kết hợp mờ Tương tự để phát luật kết hợp từ CSDL nhiều chiều (hay Kho liệu – Dataware house) trước hết người ta xây dựng phương pháp nhằm phát luật kết hợp từ sở liệu nhiều chiều nhị... kết hợp từ CSDL nhiều chiều nhiều chiều định lượng Kỹ thuật đề xuất luận văn góp phần để xây dựng chương trình ứng dụng nhằm phát luật kết hợp nhiều chiều mờ từ CSDL định lượng Luận văn bao gồm