Một số tính chất của luật kết hợp trong cơ sở dữ liệu phân tán ngang (tt)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN XUÂN KHUÊ MỘT SỐ TÍNH CHẤT CỦA LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN NGANG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI - NĂM 2013 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: ……………………………………………………… (Ghi rõ học hàm, học vị) Phản biện 1: ……………………………………………………………………… Phản biện 2: ……………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Hiện nay, lượng thông tin lưu trữ thiết bị điện tử không ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Nói cách hình ảnh “ngập” liệu lại “đói” tri thức Câu hỏi đặt liệu khai thác từ “núi” liệu không? Data Mining đời hướng giải hữu hiệu cho câu hỏi vừa đặt Khá nhiều định nghĩa Data Mining, nhiên tạm hiểu Data Mining công nghệ tri thức giúp khai thác thông tin hữu ích từ kho liệu tích trữ suốt q trình hoạt động cơng ty, tổ chức Khai phá liệu bao hàm nhiều hướng tiếp cận Các kỹ thuật áp dụng lĩnh vực phần lớn thừa kế từ lĩnh vực sở liệu, machine learning, trí tuệ nhân tạo, lý thuyết thơng tin, xác suất thống kê, tính tốn hiệu cao Các toán chủ yếu khai phá liệu phân lớp/dự đoán (classification/prediction), phân cụm (clustering), khai phá luật kết hợp (association rules mining), khai phá chuỗi (sequence mining), v.v… Trong khai phá luật kết hợp, việc tìm hiểu mối liên hệ, ràng buộc tập phổ biến, luật kết hợp các hệ hệ thống tập trung đóng vai trị quan trọng Nếu ràng buộc mối liên hệ tập phổ biến, luật kết hợp hệ thống tập trung hệ thống thay cho việc tìm tập phổ biến tồn hệ thống ta tìm hệ thống việc tìm kiếm diễn nhanh gấp nhiều lần so với tìm kiếm tập trung hệ thống lớn Ý thức lĩnh vực nghiên cứu có nhiều triển vọng, tơi chọn hướng nghiên cứu khai phá luật kết hợp cho đề tài luận văn Luận văn xây dựng dựa nghiên cứu có lĩnh vực khai phá luật kết hợp, đồng thời tơi mạnh dạn trình bày vài đề xuất riêng “nêu lên số tính chất luật kết hợp sở liệu phân tán ngang” Xuất phát từ nhu cầu chọn đề tài: “MỘT SỐ TÍNH CHẤT CỦA LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN NGANG” Mục đích nghiên cứu đề tài luận văn nghiên cứu tổng quan khai phá liệu, khai phá luật kết hợp môi trường phân tán Trong luận văn tác giả đặc biệt quan tâm xét số tính chất luật kết hợp sở liệu phân tán ngang Bản chất mà luận văn muốn đề cập tính chất t luật kết hợp thỏa mãn bảng R phân tán ngang R thành bảng R1, R2, …, Rk, tính chất t có thỏa mãn Ri khơng? Bố cục luận văn gồm chương: Chương Nghiên cứu tổng quan - Nghiên cứu tổng quan khai phá liệu - Giới thiệu chung khai phá liệu - Quy trình kỹ thuật khai phá liệu - Các ứng dụng khai phá liệu - Nghiên cứu sở liệu phân tán - Chương Khai phá luật kết hợp Các luật khai phá tri thức Khai phá luật kết hợp Một số dạng luật kết hợp Một số thuật toán khai phá luật kết hợp Chương 3: Một số tính chất luật kết hợp - Giới thiệu - Các định nghĩa - Giới thiệu số tính chất luật kết hợp sở liệu phân tán ngang Chương - NGHIÊN CỨU TỔNG QUAN 1.1 Tổng quan khai phá liệu 1.1.1 Các khái niệm Khai phá liệu dùng để mơ tả q trình phát tri thức CSDL Định nghĩa Ferruzza: “Khai phá liệu tập hợp phương pháp dùng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chưa biết bên liệu” Định nghĩa Fayyad: “Khai phá tri thức q trình khơng tầm thường nhận mẫu liệu có giá trị, mới, hữu ích, tiềm hiểu được” Khai phá liệu (Data mining): Là bước quy trình khám phá tri thức, nhằm:  Rút trích thơng tin hữu ích, chưa biết, tiềm ẩn khối liệu lớn  Phân tích liệu bán tự động  Giải thích liệu tập liệu lớn 1.1.2 Quá trình khai phá liệu Quá trình phát tri thức từ sở liệu trình sử dụng nhiều phương pháp cơng cụ tin học người đóng vai trị trung tâm q trình Hình 1.1 – Quy trình phát tri thức 1.1.3 Các kỹ thuật khai phá liệu Phân lớp liệu [2] Khái niệm phân lớp liệu Han Kamber đưa năm 2000 Phân lớp liệu xây dựng mơ hình mà phân đối tượng thành lớp để dự đoán giá trị bị số thuộc tính liệu hay tiên đoán giá trị liệu xuất tương lai Phân nhóm liệu [2, 3] Phân nhóm kỹ thuật khai phá liệu tương tự phân lớp liệu Tuy nhiên, phân nhóm liệu q trình học khơng giám sát, q trình nhóm đối tượng vào lớp tương đương Trong phân lớp liệu, ghi thuộc lớp phải xác định trước, phân nhóm khơng xác định trước Trong phân nhóm, đối tượng nhóm lại dựa vào giống chúng Hồi quy (Regression): Là việc xét hàm ánh xạ từ tập liệu thành biến dự đốn có giá trị thực Nhiệm vụ hồi qui tương tự phân lớp, điểm khác chỗ thuộc tính để dự báo liên tục không rời rạc [3, 4] Tổng hợp (summarization): Là công việc liên quan đến phương pháp tìm kiếm mơ tả đọng cho tập liệu [2, 4] Các kỹ thuật tổng hợp thường áp dụng việc phân tích liệu có tính thăm dị báo cáo tự động Phát thay đổi độ lệch (change and deviation dectection): Nhiệm vụ tập trung vào khám phá thay đổi có ý nghĩa liệu dựa vào giá trị chuẩn hay độ đo biết trước, phát độ lệch đáng kể nội dung tập liệu nội dung mong đợi [2, 3] 1.1.4 Các tốn thơng dụng khai phá liệu Trong khai phá liệu (KPDL), tốn phân thành bốn loại [5]: Phân lớp (Classification): Là tốn thơng dụng KPDL Với tập liệu huấn luyện cho trước huấn luyện người, giải thuật phân loại học phân loại (classifier) dùng để phân liệu vào lớp (còn gọi loại) xác định trước Dự đốn (Prediction): Với mơ hình học tương tự toán Phân lớp, lớp toán Dự đoán học dự đoán Khi có liệu đến, dự đốn dựa thơng tin có để đưa giá trị số học cho hàm cần dự đoán Bài tốn tiêu biểu nhóm dự đốn giá sản phẩm để lập kế hoạch kinh doanh Luật kết hợp (Association Rule): Các giải thuật Tìm luật kết hợp tìm kiếm mối liên kết phần tử liệu, ví dụ nhóm hàng thường mua kèm với siêu thị Phân cụm (Clustering): Các kỹ thuật Phân cụm nhóm đối tượng liệu có tính chất giống vào nhóm Có nhiều cách tiếp cận với mục tiêu khác phân loại 1.1.5 Các sở liệu phục vụ khai phá liệu Dựa vào kiểu liệu mà kỹ thuật khai phá áp dụng, chia liệu thành loại khác Cơ sở liệu quan hệ Cơ sở liệu quan hệ nguồn tài nguyên lớn chứa đối tượng mà cần khai phá Cơ sở liệu quan hệ có cấu trúc cao, liệu mô tả tập thuộc tính lưu bảng Cơ sở liệu giao tác Cơ sở liệu giao tác tập hợp ghi giao dịch, đa số trường hợp chúng ghi liệu hoạt động doanh nghiệp, tổ chức Cơ sở liệu không gian Cơ sở liệu không gian bao gồm hai phần: Phần thứ liệu quan hệ hay giao tác, phần thứ hai thông tin định vị thông tin địa lý Cơ sở liệu có yếu tố thời gian Giống sở liệu khơng gian, sở liệu có yếu tố thời gian bao gồm hai phần: Phần thứ liệu quan hệ hay giao tác, phần thứ hai thông tin thời gian xuất liệu phần thứ Cơ sở liệu đa phương tiện Số lượng trang web bùng nổ giới, web có mặt khắp nơi, duyệt web nhu cầu tầng lớp xã hội Thông tin web phát triển với tốc độ cao, khai phá thông tin web (web mining) trở thành lĩnh vực nghiên cứu khai phá liệu, nhà nghiên cứu đặc biệt quan tâm 1.1.6 Các ứng dụng khai phá liệu - Phân tích liệu hỗ trợ định (Analysis & decision support) - Điều trị y học (Medical): mối liên hệ triệu chứng, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẫu thuật) - Phân lớp văn bản, tóm tắt văn phân lớp trang Web (Text mining & Web mining) - Tin sinh học (Bio-informatics): Tìm kiếm, đối sánh hệ gen thông tin di truyền, mối liên hệ số hệ gen số bệnh di truyền - Nhận dạng - Tài thị trường chứng khốn (Finance & stock market): Phân tích tình hình tài dự đốn giá cổ phiếu - Bảo hiểm (Insurance) - Giáo dục (Education) 1.1.7 Khai phá liệu lĩnh vực liên quan Phát tri thức khai phá liệu coi trung tâm nhiều ngành khoa học, liên quan đến nhiều ngành, nhiều lĩnh vực khác tài chính, ngân hàng, thương mại, y tế, giáo dục, thống kê, máy móc, trí tuệ nhân tạo, sở liệu, thuật tốn học, tính tốn song song, thu nhận tri thức hệ chuyên gia, quan sát liệu Đặc trưng hệ thống khai phá liệu nhờ vào phương pháp thuật toán kỹ thuật từ lĩnh vực khác nhau, nhằm mục đích cuối trích tri thức từ liệu CSDL khổng lồ 1.1.8 Các thách thức khai phá liệu - Cơ sở liệu lớn - Số chiều thuộc tính lớn - Thay đổi liệu tri thức làm cho mẫu phát khơng cịn phù hợp - Dữ liệu bị thiếu bị nhiễu - Quan hệ trường phức tạp - Giao tiếp với người sử dụng kết hợp với tri thức có - Tích hợp với hệ thống khác 1.2 Nghiên cứu sở liệu phân tán 1.2.1 Các khái niệm Thiết kế hệ thống máy tính phân tán bao gồm: - Phân rã liệu; - Chọn vị trí đặt liệu; - Các chương trình ứng dụng mạng máy tính đó; - Thiết kế tổ chức khai thác hệ thống mạng 1.2.2 Cơ sở liệu phân tán gì? Định nghĩa 1.1 Phân rã hay phân mảnh CSDL Phân rã (hay phân mảnh) CSDL chia CSDL thành nhiều phần không chồng lặp lên nhau, phần gọi mảnh hay CSDL Định nghĩa 1.2 Cơ sở liệu phân tán Cơ sở liệu phân tán tập sở liệu có quan hệ với mặt logic phân bố mạng máy tính 1.2.3 Tại phải phân tán CSDL? Trong thực tế cần phân tán CSDL vì: - Chia để trị, chia CSDL thành CSDL để tiện giải quản trị chúng - Do tầm hoạt động, tầm địa lý CSDL rộng, lớn nên bắt buộc phải phân tán CSDL theo khu vực - Do yêu cầu bảo mật liệu nên phải phân tán liệu thành phần để dễ bảo vệ liệu - Một lý quan trọng bắt buộc phải phân tán (phân rã) sở liệu để đảm bảo tính quán, ổn định, không dư thừa liệu thao tác truy xuất CSDL 1.2.4 Phân rã dọc Định nghĩa 1.3 Phân rã dọc Phép phân rã dọc quan hệ R tập thuộc tính A = {A1, A2, , An} thành quan hệ R1, R2, , Rk tương ứng tập thuộc tính U1, U2, , Uk tách R thành k quan hệ thỏa mãn yêu cầu sau: (i) A = U1  U2   Uk (ii) R = R1*R2* *Rk Trong * phép nối tự nhiên 1.2.5 Phân rã ngang Định nghĩa 1.4 Phân rã ngang R Phân rã ngang R tập thuộc tính A = {A1, A2, , An} chia ngang quan hệ R thành R1, R2, …, Rk Với Ri quan hệ A; (1) Ri  Rj =  i  j; k (2) R =  Ri i 1 10 Độ tin cậy (confidence) tỷ lệ phần trăm số lượng giao dịch chứa X Y ( X  Y ) với số giao dịch có chứa X Đơn vị tính % confidence  Tong so luong giao dich ho tro X  Y So luong giao dich ho tro X Ý nghĩa độ hỗ trợ độ tin cậy:  Độ hỗ trợ luật biểu diễn "sức mạnh" luật Luật có ảnh hưởng toàn hệ thống  Độ tin cậy biểu diễn mức độ "đúng" quy tắc X  Y Việc khai phá luật kết hợp từ sở liệu việc tìm tất luật có độ hỗ trợ độ tin cậy lớn ngưỡng độ hỗ trợ độ tin cậy người sử dụng xác định trước Các ngưỡng độ hỗ trợ độ tin cậy ký hiệu minsupp minconf Định nghĩa 2.5: Cho tập mục X  I ngưỡng hỗ trợ tối thiểu minsupp (được cho người sử dụng) Tập mục X gọi tập mục phổ biến (Frequent Itemset hay Large Itemset) với độ hỗ trợ tối thiểu minsupp support(X)>=minsupp 2.1.3 Một số dạng luật kết hợp 2.1.3.1 Luật kết hợp định lượng Boolean: Luật liên quan đến mối kết hợp có xuất khơng xuất phần tử (ví dụ “có mua A" “khơng có mua A") Định lượng: Luật liên quan đến mối kết hợp phần tử hay thuộc tính định lượng tuổi=30 39, thu nhập=42 48K  mua=PC [1%, 75%] 2.1.3.2 Luật kết hợp nhiều chiều Một cấp: Mối kết hợp phần tử hay thuộc tính cấp khái niệm (ví dụ cấp hệ thống phân cấp) Bia, Khoai tây chiên  Bánh mì [0.4%, 52%] Nhiều cấp: Mối kết hợp phần tử hay thuộc tính nhiều cấp khái niệm khác (ví dụ nhiều cấp hệ thống phân cấp) Bia:Karjala, Khoai tây chiên:Estrella:Barbeque  Bánh mì [0.1%, 74%] 11 2.1.4 Tối ưu luật 2.2 Một số thuật toán khai phá luật kết hợp 2.2.1 Thuật toán khai phá luật kết hợp 2.2.1.1 Thuật toán Apriori Apriori thuật toán khai phá luật kết hợp RaKesh Agrawal, Tomasz Imielinski, Anin Sawami đưa vào năm 1993, tảng cho việc phát triển thuật toán sau Thuật toán sinh tập mục ứng cử từ tập mục phổ biến bước trước, sử dụng kĩ thuật “tỉa” để bỏ tập mục ứng cử khơng thỏa mãn ngưỡng hỗ trợ cho trước Thuật tốn trình bày chi tiết [7] 2.2.1.2 Thuật tốn Apriori - TID Tương tự thuật toán Apriori, thuật toán Apriori-TID sử dụng tập phổ biến (k-1) phần tử để tạo tập mục ứng cử k phần tử trước bắt đầu giai đoạn Điểm khác chủ yếu thuật toán so với thuật tốn Apriori là: khơng sử dụng sở liệu để tính độ hỗ trợ giai đoạn k > Thay vào sử dụng mã khóa tập mục ứng cử sử dụng giai đoạn trước [7] 2.2.1.3 Thuật toán Apriori - Hybrid Thuật tốn dựa vào ý tưởng “khơng cần thiết phải sử dụng thuật toán cho tất giai đoạn lên liệu” Như đề cập trên, thuật toán Apriori thực thi hiệu giai đoạn đầu, thuật toán Apriori-TID thực thi hiệu giai đoạn sau Phương pháp thuật toán Apriori-Hybrid sử dụng thuật toán Apriori giai đoạn đầu chuyển sang sử dụng thuật tốn Apriori-TID giai đoạn sau, trình bày chi tiết [7] 2.2.1.4 Thuật toán FP-Growth Thuật tốn trình bày chi tiết [8] Ý tưởng: Dùng đệ quy để gia tăng độ dài mẫu phổ biến dựa FP-Tree mẫu phân hoạch Phương pháp thực hiện: 12 o Với phần tử phổ biến Header Table, xây dựng sở điều kiện điều kiện o Lặp lại tiến trình với điều kiện tạo o Cho tới điều kiện tạo rỗng bao gồm đường đơn ngừng Mỗi tổ hợp phần tử đường đơn tạo tập phổ biến Với phương pháp này, việc xây dựng FP-Tree cần hai lần duyệt sở liệu phương pháp đánh giá phương pháp nhanh, hiệu 2.2.2 Thuật toán khai phá luật kết hợp song song 2.2.2.1 Thuật toán Count Distribution (CD) Thuật toán sử dụng kiến trúc khơng chia sẻ, xử lý có xử lý nhớ phụ riêng Các xử lý kết nối với mạng truyền thơng truyền thơng tin cho việc truyền thông điệp Dựa mơ hình song song liệu, liệu phân hoạch cho xử lý, xử lý thực thi cơng việc giống thuật tốn Apriori thông tin xử lý phân hoạch liệu 2.2.2.2 Thuật tốn Data Distribution (DD) Trong thuật toán DD, sở liệu D phân hoạch thành {D1, D2,…, Dp} nên xử lý làm việc với tập liệu khơng đầy đủ, việc trao đổi liệu xử lý cần thiết Ngoài ra, tập mục ứng cử phân hoạch phân bố cho tất xử lý, xử lý làm việc với tập mục ứng cử khác 2.2.2.3 Thuật toán Candidate Distribution Thuật toán Candidate Distribution thực phân hoạch liệu lẫn tập mục ứng cử Theo cách này, xử lý xử lý độc lập Trong giai đoạn m (m giá trị heuristic), thuật toán chia tập mục phổ biến Lm-1 cho xử lý cho xử lý Pi sinh Cpi (p > m) độc lập với xử lý khác (Cpi  Cpj = Ø, i≠j) 13 Trong thời điểm, liệu phân chia lại cho xử lý sinh tập mục ứng cử Cpi cách độc lập với tất xử lý khác Tùy vào tính tối ưu việc phân chia tập mục, số phần sở liệu có số xử lý 2.2.2.4 Thuật toán song song FP-Growth Dựa vào thuật tốn Fp-Tree trình bày [8] Thuật toán này, ta xây dựng số Fp-Tree cục môi trường nhớ phân tán sử dụng mơ hình “Chủ Tớ” Dựa chiến lược lập lịch làm việc động giai đoạn hợp mẫu điều kiện sở giai đoạn khai phá để cân khối lượng công việc trình thực thi Quá trình khai phá tập mục phổ biến song song gồm hai bước chính:  Xây dựng song song FP-Tree  Khai phá song song sinh tập mục phổ biến 2.2.3 Thuật toán khai phá luật kết hợp phân tán 2.2.3.1 Thuật toán khai phá luật kết hợp phân tán nhanh (FDM) Thuật tốn trình bày chi tiết [9] Cho sở liệu DB chứa D giao dịch, giả sử có hệ thống phân tán gồm n điểm S1, S2,…,Sn DB phân mảnh vào n điểm {DB1, DB2 ,…, DBn}, DBi có Di giao dịch Cho ngưỡng hỗ trợ tối thiểu s, nhiệm vụ thuật tốn tìm tất tập phổ biến tồn cục L, Lk tập phổ biến tồn cục k phần tử 2.2.3.2 Thuật tốn khai phá luật kết hợp phân tán DMAR Thuật toán DMAR trình bày chi tiết [10] Thuật tốn DMAR cho việc khai phá luật kết hợp phân tán sử dụng kỹ thuật metalearning Đó khai phá tập phổ biến cục mà chúng sử dụng siêu tri thức điểm hệ thống phân tán tạo tập ứng cử phổ biến tồn cục từ siêu tri thức này, sau quét sở liệu giao dịch lần để thu tập phổ biến tồn cục Thuật tốn có hiệu khai phá cao yêu cầu số lượng giao tiếp thơng điệp 14 Chương – MỘT SỐ TÍNH CHẤT CỦA LUẬT KẾT HỢP 3.1 Các khái niệm hệ khai thác liệu 3.1.1 Hệ tin Định nghĩa 3.1 Hệ tin Hệ tin bốn thành phần S = (U, A, V, f) Trong đó: - U = {o1, o2, om}, m  1, gọi tập đối tượng, hay vũ trụ (Universe) - A = {A1, A2, An}, n  tập thuộc tính, thuộc tính a  A có miền trị (Domain(a)) Va ; - V =  Va miền trị thuộc tính; - Hàm f : U  A  V thoả mãn điều kiện f (o, a)  Va gọi hàm thông tin Lưu ý: Đơi tiện ta viết hệ tin S = (U, A) Với V, f coi xác định Trong nhiều tài liệu tác giả thường viết a(o) = v thay cho f(o, a) = v 3.1.2 Hệ khai thác liệu Định nghĩa 3.1 Hệ khai thác liệu hệ tin S = (O, I, V, f) Trong đó: Tập O = {o1, o 2, , om} gọi tập hóa đơn Tập I = {i1, i2, , in} gọi tập mục (ItemSet) Tập V = {0, 1} Giá trị f (oj, ik) =1 cho ta biết hóa đơn oj chứa mặt hàng ik f (o j, ik) = hóa đơn oj khơng chứa mặt hàng ik 3.1.3 Độ phổ biến (hay độ hỗ trợ) tập mục X 3.1.3.1 Độ phổ biến Cho hệ S = (O, I, V, f); X  I Định nghĩa 3.2 15 Độ phổ biến(hay độ hộ trợ) tập hàng X, ký hiệu support (X) tỷ số số hóa đơn chứa X số tất hóa đơn Gọi d(X) tập hóa đơn chứa X, |O| số hóa đơn ta có Support(X) = d(X ) |O| Trong khai thác liệu họ {X  I : support(X)   } gọi tập phổ biến với ngưỡng  , gọi tắt tập phổ biến Đặt FS(  ) họ tập X mà support (X)   Hay FS(  ) = {X  I : support(X)   } 3.1.3.2 Thuật tốn tìm tập phổ biến Cho hệ khai thác liệu S = (O, I, V, f) Thuật tốn Apriori tìm hết tập phổ biến với ngưỡng minsupp FS(minsupp) = {X  I : support(X)  minsupp} Thuật toán Input S = (O, I, V, f); minsupp Output FS(minsupp) = {X  I: support(X)  minsupp} Algorithm Thuật toán tiến hành qua hai pha: - Pha 1: tìm tập phổ biến phần tử F1: F1 = {X  I: X = & support(X)  minsupp} - Pha 2: Tìm Fk có k phần tử tổ hợp từ phần tử Fk-1: Fk = {X  I: X = k & X = Y  Z Y, Z  Fk-1 & support(X)  minsupp} Với k = 2, 3, Thuật toán dừng Fk = rỗng Tập tất tập phổ biến FS(minsupp) = F1  F2   Fk-1 3.1.4 Luật kết hợp 3.1.4.1 Luật kết hợp Cho hệ S = (O, I, V, f); X, Y  I 16 Định nghĩa 3.3 Luật kết hợp X Y ký hiệu X  Y luật khả xuất Y X xuất 3.1.4.2 Định nghĩa độ tin cậy luật kết hợp Cho hệ S = (O, I, V, f); X, Y  I Định nghĩa 3.4 Độ tin cậy luật X  Y hệ S, ký hiệu CFS(X  Y) đại lượng khả xuất Y X xuất Độ tin cậy tính theo cơng thức: CFS(X  Y) = support (X  Y) support (X) 3.1.4.3 Luật quan trọng Cho hệ S = (O, I, V, f), minconf  (0,1], X, Y  I Định nghĩa 3.5 Luật X  Y goi luật quan trọng (hay luật tin cậy) S với ngưỡng minconf CFS(X  Y)  minconf 3.1.4.4 Thuật tốn tìm luật quan trọng Luật kết hợp tin cậy hay luật quan trọng: Một luật xem tin cậy độ tin cậy confidence lớn ngưỡng minconf  (0,1] người dùng xác định Ngưỡng minconf phản ánh mức độ xuất Y cho trước X Thuật tốn tìm luật quan trọng Input: S = (O, I, V, f) hệ toàn cục; minsup, minconf  (0,1] Output: Các luật quan trọng (X  Y) mà CFS(X  Y)  minconf Algorithm Tìm tập phổ biến với ngưỡng minsupp X, Y  I: supS(X) ≥ minsupp, supS(Y) ≥ minsupp Tìm luật quan trọng (X  Y) mà CFS(X  Y)  minconf Hầu hết thuật toán khai phá luật kết hợp thường chia thành hai pha: 17 - Pha 1: Tìm tất tập mục phổ biến từ sở liệu tức tìm tất tập mục X thỏa mãn support(X) ≥ minsupp - Pha 2: Sinh luật tin cậy từ tập phổ biến tìm thấy pha Nếu X tập mục phổ biến nhiều phần tử luật kết hợp sinh từ X có dạng: X’  X \ X’; đó: X’ tập khác rỗng X X\X’ hiệu hai tập hợp X X’ conf(X’  X\X’) ≥ minconf 3.2 Một số tính chất tập phổ biến hệ S = (O, I, V, f) Tính chất 3.1: Nếu A  B, A, B tập mục support(A) ≥ support(B) Tính chất 3.2: Một tập mục A tập phổ biến với ngưỡng tối thiểu minsupp nghĩa support(A) < minsupp tập cha B A khơng phải tập mục phổ biến Tính chất 3.3: Nếu tập mục B tập mục phổ biến, nghĩa support(B) ≥ minsupp tập A B tập phổ biến Tính chất 3.4: (Khơng hợp luật kết hợp) Nếu luật X  Z Y  Z luật quan trọng S không thiết luật X  Y  Z luật quan trọng S Tính chất 3.5: (Khơng tách luật) Nếu luật X  Y  Z luật quan trọng S X  Z Y  Z chưa xảy Tính chất 3.6: (Các luật kết hợp khơng có tính bắc cầu) Nếu X  Y Y  Z, suy X  Z Tính chất 3.7: Nếu luật X  (L - X) không thỏa mãn độ tin cậy tối thiểu khơng có luật luật Y  (L – Y) có độ tin cậy tối thiểu, Y  X; X,Y  L 18 3.3 Một số tính chất tập phổ biến luật kết hợp hệ phân tán ngang 3.3.1 Hệ phân tán ngang Giả sử ta có hệ khai thác liệu S = (O, I, V, f) S tách ngang thành m hệ thống S1, S2, …, Sm Với Sj = (Oj, I, V, fj) ; O =  Oj; Oi  Oj =  với i ≠ j fj co f Oj×I, hay fj: Oj x I  V cho fj(o, i) = f(o, i) Sau ta viết f thay cho fj Vậy S = (O, I, V, f) với O = {o 1, o2, , oM}, I = {i1, , in}, V = {0, 1}, hàm f: O x I  V; f(o, ik) =1 hóa đơn o có chứa ik ngược lại f(o, ik) = Hệ S = (O, I, V, f) ta gọi hệ tập trung toàn cục Mỗi Sj = (Oj, I, V, fj) hệ hay trạm Thí dụ 3.3: Xét S = (O, I, V, f) với O = {o1, o 2, o3, o4, o5, o6, o 7, o8}; I = {i1, i2, i3, i4, i5, i6}; V = {1, 0} f cho bảng sau: Bảng 3.10 – Bảng biểu diễn tập hóa đơn tồn hệ thống S i1 i2 i3 i4 i5 i6 o1 1 1 1 o2 1 0 1 o3 1 1 o4 1 0 o5 1 1 o6 0 0 o7 1 0 0 o8 1 0 0 Ta tách ngang S thành S1, S2, S3 sau: S1 = ({o1, o2}, I, V, f) = (O1, I, V, f) với f: O1×I  V 19 Bảng 3.11 – Bảng biểu diễn tập hóa đơn trạm S1 i1 i2 i3 i4 i5 i6 o1 1 1 1 o2 1 0 1 S2 = ({o3, o4, o 5}, I, V, f) = (O2, I, V, f) với f: O2×I  V Bảng 3.12 – Bảng biểu diễn tập hóa đơn trạm S2 i1 i2 i3 i4 i5 i6 o3 1 1 o4 1 0 o5 1 1 S3 = ({o6, o7, o 8}, I, V, f) = (O3, I, V, f) với f: O3×I  V Bảng 3.13 – Bảng biểu diễn tập hóa đơn trạm S3 i1 i2 i3 i4 i5 i6 o6 0 0 o7 1 0 0 o8 1 0 0 3.3.2 Một số kết Cho S = (O, I, V, f) hệ tập trung toàn cục; |O| = M Ta tách ngang S thành m trạm Sj = (Oj, I, V, f); j = 1, 2, , m trạm có số hóa đơn |Oj| =Mj Các trạm Sj = (Oj, I, V, f) với j = 1, 2, , m Tính chất 3.8 Nếu X tập phổ biến hệ S = (O, I, V, f) tồn trạm Sj mà Sj, X tập phổ biến Tính chất 3.9 20 Nếu X khơng tập phổ biến trạm Sj = (Oj, I, V, f) với ngưỡng minsupp =  X không tập phổ biến S= (O, I, V, f) tồn cục với ngưỡng minsupp Tính chất 3.10 Cho hệ S = (O, I, V, f) Với tập mục X  I ta ln có bất đẳng thức: m supS(X) <  sup Sj (X) j1 Tính chất 3.11 Cho hệ S = (O, I, V, f) Với cặp X, Y  I ta ln có bất đẳng thức: m CFS(X  Y) <  CF Sj ( X  Y) j 1 Tính chất 3.12 Cho S = (O, I, V, f) hệ toàn cục, X, Y  I Nếu X  Y luật quan trọng S với ngưỡng minconf tồn trạm Sj = (Oj, I, V, f) để Sj luật X  Y luật quan trọng với ngưỡng minconf Tính chất 3.13 Cho S = (O, I, V, f) hệ toàn cục; X, Y  I Nếu X  Y không luật quan trọng với ngưỡng minconf trạm Sj luật X  Y khơng luật quan trọng với ngưỡng minconf S 3.3.3 Đánh giá Bộ liệu kiểm thử sở liệu ngân hàng với 11 thuộc tính số lượng giao dịch 600 Qua kiểm thử ta thấy phần lớn luật xuất hệ tập trung xuất trạm nhiên xảy trường hợp độ hỗ trợ độ tin cậy không đảm bảo đồng thời xuất trạm Sj 21 KẾT LUẬN Sau thời gian tìm hiểu, nghiên cứu đến luận văn “MỘT SỐ TÍNH CHẤT CỦA LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN NGANG” hoàn thành Về luận văn đáp ứng nội dung đăng ký đề cương Cụ thể luận văn đạt số kết sau:  Tìm hiểu khái qt số thuật toán khai phá luật kết hợp  Phát biểu toán hệ khai thác liệu thực chất hệ tin  Đúc kết tính chất tập phổ biến hệ tập trung  Đề xuất phát hiện, chứng minh số tính chất tập phổ biến, luật kết hợp sở liệu tập trung phân tán ngang Do thời gian có hạn nên luận văn khơng thể tránh thiếu sót, mặt cịn hạn chế chẳng hạn như:  Chưa có kiểm thử tính chất tìm liệu thực tế sở liệu lớn  Chưa có đề xuất cài đặt cải tiến thuật toán khai phá luật kết hợp có dựa tính chất tìm  Số tính chất nghiên cứu cịn hạn chế 22 HƯỚNG NGHIÊN CỨU TIẾP THEO Với việc có nhiều nghiên cứu, đề xuất thử nghiệm ứng dụng thành công vào sống chứng tỏ KPDL nói chung, khai phá luật kết hợp nói riêng lĩnh vực nghiên cứu ổn định có tảng lý thuyết vững thu hút nhiều quan tâm Do thời gian có hạn nên luận văn cịn nhiều hạn chế, tương lai phát triển mở rộng theo định hướng sau: - Nghiên cứu nêu tiếp tính chất, cơng thức ràng buộc độ đo phổ biến, độ tin cậy luật môi trường phân tán môi trường tập trung - Đề xuất, cải tiến thuật toán khai phá luật kết hợp dựa tính chất tìm - Cài đặt so sánh thời gian thực tìm tập phổ biến, luật kết hợp mơi trường tập trung môi trường phân tán 23 24 ... số dạng luật kết hợp Một số thuật toán khai phá luật kết hợp Chương 3: Một số tính chất luật kết hợp - Giới thiệu - Các định nghĩa - Giới thiệu số tính chất luật kết hợp sở liệu phân tán ngang. .. khai phá luật kết hợp môi trường phân tán Trong luận văn tác giả đặc biệt quan tâm xét số tính chất luật kết hợp sở liệu phân tán ngang Bản chất mà luận văn muốn đề cập tính chất t luật kết hợp thỏa... liệu phân tán ngang? ?? Xuất phát từ nhu cầu chọn đề tài: “MỘT SỐ TÍNH CHẤT CỦA LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU PHÂN TÁN NGANG? ?? Mục đích nghiên cứu đề tài luận văn nghiên cứu tổng quan khai phá liệu,

Định dạng
Số trang	26
Dung lượng	719,62 KB