Một số vấn đề về tìm kiếm luật kết hợp trong cơ sở dữ liệu Một số vấn đề về tìm kiếm luật kết hợp trong cơ sở dữ liệu Một số vấn đề về tìm kiếm luật kết hợp trong cơ sở dữ liệu luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM LUẬT LIÊN KẾT TRONG CƠ SỞ DỮ LIỆU NGÀNH: CÔNG NGHỆ THÔNG TIN NGUYỄN VŨ CƯƠNG Người hướng dẫn khoa học: TS.TRẦN ĐÌNH KHANG HÀ NỘI - 2005 Lời cám ơn Trước tiên, em xin gửi tới thầy giáo hướng dẫn TS Trần Đình Khang lời cám ơn chân thành Em xin cám ơn tận tình gợi ý, bảo quan tâm thầy giáo suốt trình thực luận văn Và em xin cám ơn thầy cô giáo khoa Công nghệ thông tin - trường Đại học Bách Khoa – Hà Nội, thầy giáo dạy dỗ em suốt q trình học đại học, tồn thầy giáo trường đại học Bách Khoa – Hà Nội Ngoài ra, em xin cám ơn anh chị, bạn bè lớp Cao học Công nghệ thông tin niên khố 2003-2005 khuyến khích em nhiều trình thực luận văn Học viên Cao học Cơng nghệ thơng tin khố 2003 - 2005 Nguyễn Vũ Cương Mục lục Mở đầu Nội dung Chương I Khái niệm khai phá liệu tìm kiếm luật liên kết .5 I Tổng quan khai phá liệu 1.1.1 Định nghĩa KDD 1.1.2 Tiến trình KDD 1.1.3 KDD lĩnh vực có liên quan II Các phương pháp khai phá liệu III Tổng quan tìm kiếm luật liên kết 12 IV Các đặc điểm luật liên kết 14 1.4.1 Mơ hình chuẩn 15 1.4.2 Chu trình tìm kiếm tập tập mục lớn 18 1.4.3 Hai đặc tính phân lớp 18 1.4.4 Hai hướng tiếp cận: Từ lên Từ xuống .19 V Một số giải thuật .21 1.5.1 Giải thuật Apriori AprioriTID .22 1.5.1.1 Giải thuật Apriori 23 1.5.1.2 Giải thuật AprioriTID 27 1.5.2 Giải thuật Partition .29 1.5.2.1 Sản sinh tập mục lớn cục 32 1.5.2.2 Quá trình tạo tập mục lớn 34 1.5.2.3 Sản sinh luật 34 VI Kết luận 35 Chương II Tìm kiếm luật liên kết với mục có trọng số 36 I Giới thiệu trọng số 36 II Tìm kiếm luật liên kết nhị phân có trọng số 37 2.2.1 Giới thiệu luật liên kết nhị phân có trọng số .37 2.2.2 Luật liên kết nhị phân có trọng số 38 2.2.3 Hướng phát triển dựa trọng số số lượng 39 2.2.4 Ngưỡng k-support - k-support bounds 40 2.2.5 Giải thuật tìm kiếm luật liên kết có trọng số 42 III Tìm kiếm luật liên kết có trọng số chuẩn tắc 47 2.3.1 Hướng tiếp cận trường hợp trọng số chuẩn tắc 48 2.3.2 Giải thuật tìm kiếm luật liên kết có trọng số chuẩn tắc 49 IV Tìm kiếm luật liên kết có trọng số mờ 52 2.5.1 Giới thiệu luật mờ 52 2.5.2 Luật liên kết mờ có trọng số 54 V Kết luận 61 Chương III Một số vấn đề nâng cao .62 I Phân loại so sánh giải thuật .62 3.1.1 Phân loại .62 3.1.2 So sánh giải thuật 65 II Luật liên kết mở rộng 68 3.2.1 Luật liên kết khái quát hoá – Generalized association rules 68 3.2.2 Luật liên kết không gian thời gian 70 3.2.3 Luật liên kết định lượng 71 3.2.4 Luật liên kết liệu khoảng – Interval Data Association Rules 75 3.2.5 Luật liên kết độ min-support bội - Multiple Min-supports Association Rules 76 3.2.6 Luật liên kết đa phương tiện 77 3.2.7 Luật liên kết toàn diện - Maximal Association Rules 78 3.2.8 Ràng buộc luật 78 Chương IV Ví dụ minh hoạ 80 I Giải thuật Apriori AprioriTID .81 4.1.1 Giải thuật Apriori: 82 4.1.2 Giải thuật AprioriTID 82 4.1.3 Giải thuật Partition .83 II Giải thuật MINWAL(O) giải thuật MINWAL(W) 83 4.2.1 Giải thuật MINWAL(O) 85 4.2.2 Giải thuật MINWAL(W) 87 Kết luận 90 Tài liệu tham khảo 91 Mở đầu Thế kỷ XX qua đánh dấu son chói lọi lĩnh vực khoa học công nghệ Cách mạng khoa học kỹ thuật diễn lúc, nơi, nhiều lĩnh vực đời sống Và Việt Nam khơng nằm ngồi qui luật chung Trong q trình phát triển này, thu thập khối lượng lớn liệu Và sở liệu tiềm ẩn nhiều tri thức có ích mà người chưa khám phá Ngồi ra, số lượng liệu lớn thu thập vượt q khả phân tích mà khơng sử dụng kỹ thuật phân tích tự động Do có nhu cầu thiết thực tìm kiếm tri thức núi liệu Nhu cầu ngày cấp thiết dẫn tới hình thành lĩnh vực mới, khai phá tri thức sở liệu – Knowledge discovery in database(KDD) Đây hướng nghiên cứu cịn mẻ, có tính ứng dụng thực tiễn cao cịn nhiều tốn mở Xuất phát từ thực tế nói trên, với mục đích tìm hiểu việc tìm luật liên kết sở liệu cỡ lớn, em định lựa chọn đề tài “Một số vấn đề tìm kiếm luật liên kết sở liệu” Luận văn em gồm chương sau: Chương I: Các khái niệm khai phá liệu tìm kiếm luật liên kết Chương II Tìm kiếm luật liên kết với tập mục có trọng số Chương III Một số vấn đề nâng cao Chương IV Ví dụ minh họa Trong q trình thực đồ án này, cố gắng, song khơng thể tránh khỏi sai sót, em mong nhận bảo giúp đỡ từ phía thầy bạn Nội dung Chương I Khái niệm khai phá liệu tìm kiếm luật liên kết I Tổng quan khai phá liệu Ngày nay, máy tính sử dụng rộng rãi nhiều lĩnh vực Khả lưu trữ nhanh, đáng tin cậy không hạn chế máy tính tạo cho người sử dụng mơi trường hồn hảo để thu thập lưu trữ khối lượng thơng tin khổng lồ Máy tính dùng để tìm kiếm thơng tin hữu ích hàng loạt liệu Đây trình khai phá tri thức sở liệu (KDDKnowledge discovery in database) hay tìm kiếm thơng tin 1.1.1 Định nghĩa KDD KDD định nghĩa trình tìm kiếm thơng tin sử dụng từ liệu CSDL Fayyad gợi ý trình KDD chia làm bước, hình 1.1 Tồn q trình KDD bao gồm bước lựa chọn, xử lý, chuyển đổi, tìm kiếm thơng tin diễn giải hay kết luận Các nhà nghiên cứu tập trung vào tiến trình tìm kiếm thơng tin, áp dụng thuật tốn để tìm mơ hình từ liệu, khơng phải cơng việc đơn giản Hình 1.1: Tiến trình KDD Để tìm hiểu kỹ tiến trình KDD, xem xét chi tiết phần 1.1.2 1.1.2 Tiến trình KDD Chúng ta xem xét tiến trình KDD minh họa hình 1.2 sau: • Phát triển hiểu biết lĩnh vực ứng dụng - Develop understanding of application domain: tìm tri thức có liên quan, tìm mục đích người sử dụng v.v… • Tạo tập liệu đích - Create target data set: lựa chọn tập liệu, tập trung vào tập biến mẫu liệu, từ thực việc khai phá liệu • Tiền xử lý liệu - Data cleaning preprocessing: thao tác ví dụ việc loại bỏ nhiễu liệu không liên quan, thu thập thơng tin cần thiết để mơ hình hóa miêu tả nhiễu, định chiến lược xử lý trường liệu bị thiếu, miêu tả thông tin chuỗi thời gian thay đổi biết • Biến đổi quy chiếu liệu - Data reduction and projection: tìm đặc điểm quan trọng để biểu diễn liệu dựa mục tiêu nhiệm vụ Sử dụng phương pháp chuyển đổi để biến đổi số lượng biến tìm biểu diễn bất biến cho liệu • Lựa chọn nhiệm vụ tìm kiếm liệu - Choose data mining task: định liệu mục đích tiến trình KDD phân lớp- classification, hồi quy regression, phân cụm - clustering etc… • Lựa chọn phương pháp tìm kiếm liệu - Choose data mining method: lựa chọn phương pháp sử dụng để tìm kiếm mẫu pattern liệu Điều bao gồm việc định liệu mơ hình hay tham số xác(ví dụ, mơ hình cho liệu phân loại khác so với mơ hình vector với số thực) việc tương thích phương pháp tìm kiếm liệu với tồn đặc trưng tiến trình KDD(ví dụ người sử dụng đầu cuối quan tâm tới việc hiểu biết mơ hình nhiều khả phán đốn nó) Data organized by function (accounting etc.) Create/select target database The KDD Process Data warehousing Select sampling technique and sample data Supply missing values Eliminate noisy data Normalize values Transform values Create derived attributes Find important attributes & value ranges Select DM task (s) Select DM method (s) Extract knowledge Test knowledge Transform to different representation Refine knowledge Query & report generation Aggregation & sequences Advanced methods Hình 1.2: Các nhiệm vụ tiến trình KDD • Tìm kiếm liệu để lấy mẫu mô hình - Data mining to extract patterns/models: tìm kiếm mẫu quan tâm mẫu biểu diễn riêng tập biểu diễn khác nhau: luật phân lớp hay cây, hồi quy, phân lớp… Người dùng tác động hiệu tới phương pháp tìm kiếm liệu việc thực xác bước • Diễn giải đánh giá mẫu/mơ hình - Interpretation and evaluation of pattern/models • Thống liệu khai phá - Consolidating discovered knowledge: phối hợp tri thức hệ thống diễn giải đơn giản tri thức tài liệu Điều bao gồm việc kiểm tra phân tích xung đột tiềm với tri thức có 1.1.3 KDD lĩnh vực có liên quan KDD lĩnh vực liên quan tới nhiều ngành khác nhau, cụ thể thống kê, học máy, sở liệu, giải thuật, tính tốn hiệu cao tính tốn song song, thu thập tri thức cho hệ chuyên gia, thực hóa liệu v.v… Hệ thống KDD thường xây dựng dựa phương pháp, giải thuật, kỹ thuật từ lĩnh vực khác Mục đích kết xuất tri thức từ liệu sở liệu lớn Lĩnh vực học máy nhận dạng mẫu chồng lấp với KDD việc nghiên cứu lý thuyết giải thuật để lấy mẫu mơ hình từ liệu(các phương pháp tìm kiếm liệu) KDD tập trung vào việc mở rộng lý thuyết giải thuật cho tốn tìm kiếm mẫu đặc biệt(có thể hiểu tri thức hữu ích đáng quan tâm) tập liệu thực lớn KDD có nhiều điểm chung với khoa học thống kê, đặc biệt việc phân tích liệu Hệ thống KDD thường nhúng thủ tục thống kê để mơ hình hóa liệu xử lý nhiễu toàn ứng dụng tri thức khám phá Một lĩnh vực khác có liên quan kho liệu - data warehousing Kho liệu gần có xu hướng hệ thống thơng tin quản lý – Management Information System phổ biến cho việc thu thập xử lý liệu giao dịch thu thập, xử lý online Một hướng tiếp cận phổ biến khác việc phân tích kho liệu, OLAP - online analytical processing Các tools OLAP tập trung vào việc phân tích liệu đa chiều, loại liệu cao cấp so với SQL Chúng ta cơng nhận việc tìm kiếm tri thức OLAP mặt liên quan tới hệ tool xử lý kết xuất thông tin thông minh II Các phương pháp khai phá liệu Hai mục tiêu việc tìm kiếm liệu thực tế có xu hướng dự đốn - prediction miêu tả - description Prediction sử dụng biến trường liệu sở liệu để dự đoán giá trị chưa biết giá trị tương lai biến khác muốn theo dõi Description tập trung vào mẫu diễn giải để miêu tả liệu Tầm quan trọng prediction description cho ứng dụng tìm kiếm liệu cụ thể khác khác nhiều Theo [7], phương pháp khai phá liệu phân chia thành dạng sau: Phân lớp – Classification: Phân lớp việc xem xét hàm số ánh xạ đơn vị liệu(data item) với số lớp định nghĩa trước Ví dụ phương pháp phân lớp sử dụng phần ứng dụng khai phá tri thức bao gồm việc phân loại xu hướng thị trường tài việc xác Debt Income Hình 1.3: Biên giới phân lớp Debt Income Hình 1.4: Một ví dụ biên giới phân lớp thông qua lọc phân lớp không tuyến tính(ví dụ mạng nơ-ron) định tự động đối tượng theo dõi hệ sở liệu ảnh lớn Hình 1.3 hình 1.4 việc phân lớp liệu tài khoản nợ thành lớp khác Chú ý rằng, không cần thiết phải phân chia lớp cách hoàn hảo việc sử dụng ranh giới tuyến tính Ngân hàng sử dụng vùng phân lớp để định bào trùm chất tự nhiên vốn có và/hoặc khác biệt tần số xuất sở liệu Do vậy, Liu đề nghị mở rộng mơ hình tìm kiếm luật liên kết, cho phép người dùng định nghĩa nhiều ngưỡng support Giải thuật đề xuất có tên MISapriori Trong giải thuật này, ngưỡng support hiểu dạng độ support bé mục xuất luật Đặc điểm kỹ thuật người dùng định nghĩa độ support khác cho mục Do vậy, kỹ thuật khám phá luật liên quan tới mục hãn hữu mà không sinh nhiều luật không cần thiết Tương tự giải thuật khác, giải thuật MISapriori tạo toàn tập mục lớn thông qua bước đọc liệu Trong bước đầu tiên, tính tốn độ support cho mục riêng lể xác định mục mục lớn Trong bước tiếp theo, giải thuật sử dụng tập mục lớn bước trước để tạo tập mục ứng cử viện Tính toán độ support hành cho tập tập mục ứng cử viên, giải thuật MISapriori xác định tập ứng cử viên lớn thực kết thúc bước lặp Tuy nhiên, việc sản sinh tập mục lớn bước khác với giải thuật khác Một thao tác quan trọng MISapriori việc xếp mục I theo thứ tự tăng dần giá trị MIS chúng Thứ tự sử dụng thao tác giải thuật Mơ hình mở rộng kiểm thử đánh giá tập liệu tổng hợp tập liệu thực 3.2.6 Luật liên kết đa phương tiện Mặc dù sở liệu đa phương tiện nghiên cứu nhiều, việc phát luật liên kết sở liệu đa phương tiện chưa thu hút nhiều ý Các đối tượng đa phương tiện sử dụng thường xuyên sở liệu quan hệ hướng đối tượng so với năm trước Các đối tượng đa phương tiện bao gồm ảnh, video, âm v.v… Việc sử dụng rộng rãi internet làm tăng nhu cầu đối tượng đa phương tiện Do vậy, cần thiết phải kết xuất liệu loại tìm liên kết chúng Một ví dụ luật liên kết đa phương tiện có dạng sau: Ảnh liên quan tới đại dương ∧ kích cỡ lớn => Mầu xanh 77 Cần thiết phải có nhiều nghiên cứu dạng luật liên kết 3.2.7 Luật liên kết toàn diện - Maximal Association Rules Luật liên kết toàn diện cho phép phát biểu tập thuộc tính chặt chẽ so với sử dụng luật liên kết thơng thường Ví dụ, luật có dạng Bơ ⇒ Báo_chí Bơ xuất giao dịch Báo_chí xuất với độ support độ tin cậy Quan hệ giao dịch chứa t={Báo_chí, Bơ, Trứng} giống giao dịch chứa u={Bơ, Báo_chí} Giả sử có tập mục X L với X⊆L, X:L toàn diện xem xét dòng liệu t∩L=X Một luật liên kết X ⇒ Y luật liên kết toàn diện X Y tập tồn diện Giả sử có thuộc tính mục bán cửa hàng đồ ăn mục khác Bơ Trứng xếp vào loại đồ ăn, Báo_chí xếp vào loại mục khác Ở Bơ Báo_chí tồn diện u, có Báo_chí tồn diện t Do vậy, Bơ ⇒ Báo_chí có ý nghĩa u khơng có ý nghĩa t Chú ý rằng, độ support 100% luật liên kết thơng thường(vì có đồng thời giao dịch), 50% với luật liên kết toàn diện 3.2.8 Ràng buộc luật Rất nhiều giải thuật đề xuất để làm giảm số lượng tập mục sinh dựa ràng buộc luật kết Tất nhiên giá trị độ support độ tin cậy tạo ràng buộc luật kết Những ràng buộc khác sau: • Các luật gần định nghĩa ràng buộc quan trọng độ thú vị luật Một luật thú vị luật có độ support độ tin cậy lớn độ support độ tin cậy mong muốn so sánh với chúng trường hợp thuộc tính xuất ngẫu nhiên • Một thơng số khác định nghĩa dựa sai số bình phương trung bình sai số dự đoán - guessing error Sai số dự đoán cho giao dịch cụ thể thuộc tính cụ thể giao dịch tính tốn độ sai khác giá trị thực giá trị ước lệ giá trị thực Sai số dự đốn tổng thể bình phương trung bình tồn sai số dự đốn 78 • Các phép thử độ tương quan chi-squared đề xuất để đánh giá luật liên kết Phương pháp ứng dụng cho luật liên kết khái quát hoá làm việc với lát cắt tập 79 Chương IV Ví dụ minh hoạ Đặt vấn đề Trong chương này, trình bày ví dụ minh họa cho giải thuật giới thiệu Nội dung chương thể vấn đề từ đơn giản đến phức tạp luật liên kết tương ứng với chúng minh họa giải thuật Trước tiên, minh họa cho giải thuật Apriori AprioriTID Đây giải thuật tìm kiếm luật liên kết dựa vào giải thuật này, phát triển nhiều giải thuật hiệu khác Hai giải thuật thuộc hướng tiếp cận từ lên Chúng sử dụng hàm Apriori_gen để xây dựng tập ứng cử viên, sử dụng đặc tính hai đặc tính phân lớp luật liên kết Luật liên kết hiểu rằng, luật liên kết sở liệu mục quan tâm cách đồng nhau, tương tự Như biết, nhiều trường hợp, mục không xem xét cách tương tự nhau, mục có tầm quan trọng khác Để giải vấn đề này, sử dụng khái niệm trọng số Trong chương này, giới thiệu giải thuật MINWAL(O) MINWAL(W) Về ý nghĩa, hai giải thuật tương tự nhau, tuỳ ứng dụng cụ thể chọn lựa giải thuật này, giải thuật Giải thuật MINWAL(W) mở rộng giải thuật MINWAL(O), xem xét tới số lượng lớn mục Minh hoạ giải thuật Giả sử có sở liệu dạng sau: TB Toán Văn Lý Loại Loại Hoá Sinh Sử Địa NN TD GDCD PTTH ĐH ĐH TN 9.2 6.8 8.5 8.7 7.9 6.9 6.7 9.3 7.42 Y TN Giỏi 9.5 6.5 8.6 7.9 7.5 6.3 5.6 8.5 7.5 8.9 7.11 Y TN Giỏi 9.7 6.6 8.2 7.3 6.5 7.6 7.9 8.5 7.23 N 9.8 6.3 8.3 7.9 7.8 8.3 7.3 8.7 7.27 Y XH Khá 6.8 8.2 5.9 6.2 7.3 8.7 6.59 Y XH Khá 6.7 8.5 5.8 6.5 6.3 7.5 8.8 7.6 6.78 Y XH Khá 80 7.2 5.9 6.5 7.9 7.2 8.6 6.69 Y XH Khá 8.3 6.5 6 6.9 7.8 8.9 7.3 8.3 6.75 N 5.8 8.6 6.6 5.9 5.6 6.8 7.8 6.39 Y TN Khá 5.7 8 6.9 6.8 7.5 8 6.55 Y XH TB Trong đó: - NN: Ngoại ngữ - TD: Thể dục - GCCD: Giáo dục công dân - TB PTTH: Trung bình phổ thơng trung học - ĐH: có đỗ đại học hay không - Loại ĐH: Loại đại học: Tự nhiên(TN) xã hội(XH) - Loại TN: Loại tốt nghiệp - TB: Loại trung bình Thực chất, sở liệu loại lớn, với nhiều trường liệu khác gồm nhiều dòng liệu Nhưng khuôn khổ đồ án, sử dụng số dòng liệu để làm liệu gốc minh họa cho giải thuật I Giải thuật Apriori AprioriTID Đối với giải thuật này, quan tâm tới trường, Loại ĐH Loại TN Trước tiên, suy dẫn sở liệu gốc dạng chấp nhận giải thuật Apriori AprioriTID, trước dòng liệu, gán cho dịng biến định danh, TID Và sở liệu sử dụng cho giải thuật Apriori AprioriTID: TID Loại ĐH Loại TN TN Giỏi TN Khá XH Khá XH Khá XH Khá XH Khá 81 XH Khá TN TB 4.1.1 Giải thuật Apriori: Ta qui ước độ support thấp 60%, độ tin cậy thấp 90% • Tìm L1: Dựa vào bảng sau, xác định L1: STT Tập mục Độ support tập mục TN 37.5% XH 62.5% Giỏi 12.5% Khá 75% TB 12.5% Với wminsup = 60%, tìm L1 = {{XH},{Khá}} • Tìm C2, L2 sử dụng hàm apriori_gen: Tập C2 = {{XH, Khá}} L1 chứa XH Khá Dựa vào bảng sau, xác định L2: STT Tập mục Độ support tập mục {XH, Khá} 62.5% Vậy L2 = {{XH, Khá}} Như tìm L2 tập mục lớn, tìm luật sau: XH ⇒ Khá c(XH ⇒ Khá ) = wXH , Kha wXH = 62.5 = > 90% 62.5 Như vậy, kết luật “Với trường đại học với kiểu trường trường xã hội, sinh viên trường thường tốt nghiệp với loại Khá với ngưỡng support 60% ngưỡng tin cậy 90%” 4.1.2 Giải thuật AprioriTID Ta qui ước độ support thấp 60%, độ tin cậy thấp 90% Tương tự giải thuật Apriori, xác định L1 = {{XH},{Khá}} • Tìm C2: 82 Sử dụng hàm apriori_gen với đầu vào L1, ta có C2 = {{XH, Khá}} −− Chúng ta xác định C dựa vào bảng sau −− STT TID {XH, Khá} {XH, Khá} {XH, Khá} {XH, Khá} C2 Vậy L2 = {{XH, Khá}} Như tìm L2 tập mục lớn, tìm luật sau: XH ⇒ Khá c(XH ⇒ KHÁ ) = wXH , Kha wXH = 62.5 = > 90% 62.5 Như vậy, kết luật “Với trường đại học với kiểu trường trường xã hội, sinh viên trường thường tốt nghiệp với loại Khá với ngưỡng support 60% ngưỡng tin cậy 90%” Kết tương tự giải thuật Apriori 4.1.3 Giải thuật Partition Vì số lượng giao dịch sở liệu nhỏ nên bỏ qua giải thuật II Giải thuật MINWAL(O) giải thuật MINWAL(W) Trong giải thuật Apriori AprioriTID, xử lý mục cách tương tự Nhưng với giải thuật MINWAL(O) MINWAL(W), xử lý mục với độ quan trọng khác nhau, độ khác thể thông qua giá trị trọng số Đối với giải thuật này, quan tâm tới số trường liệu sở liệu để tìm kiếm luật liên kết điểm loại môn khoa học xã hội môn văn điểm loại giỏi số mơn học tự nhiên tốn, lý, hố năm học phổ thông liên quan tới khả đỗ vào trường đại học thuộc loại tự nhiên 83 Toán Văn Lý Hoá Loại ĐH 9.2 6.8 8.5 8.7 TN 9.5 6.5 8.6 7.9 TN 9.8 6.3 8.3 XH 6.8 8.2 5.9 XH 6.7 8.5 5.8 6.5 XH 7.2 5.9 XH 5.8 8.6 6.6 5.9 TN 5.7 8 XH Trước tiên, suy dẫn sở liệu gốc dạng chấp nhận giải thuật MINWAL(O) MINWAL(W), trước dòng liệu, gán cho dòng biến định danh, TID Và sở liệu sử dụng cho giải thuật MINWAL(O) MINWAL(W): TID V H V H Loại ĐH Các môn học L T TN L T TN L T V V V V TN V H Giả sử có trọng số gắn với mơn học sau: STT Định danh Diễn giải Trọng số V Văn 0.3 H Hoá 0.4 L Lý 0.5 84 T Toán 0.8 TN Tự nhiên 4.2.1 Giải thuật MINWAL(O) Chúng ta giả sử wminsup = 0.4 Bước 1: - Chúng ta tìm size = - Số lượng mục {V,H, L, T, TN}tương ứng {7,3,3,3,3} - Chúng ta có bảng gồm toàn ngưỡng k-support cho mục X Độ support(%) wsup V 87.5 0.2625 H 37.5 0.15 L 37.5 T TN B(X,2) B(X,3) B(X,4) B(X,5) 2 2 0.1875 2 37.5 0.3 2 2 37.5 0.375 2 2 - Từ bảng trên, có C1 = {{V}, {H}, {L}, {T}, {TN}} Bước 2: - Chúng ta có C2 xây dựng việc sử dụng hàm kết hợp kết hợp với đầu vào C1, ta có kết sau: C2={{V,H}, {V,L}, {V,T}, {V,TN}, {H, L}, {H, T}, {H, TN},{L, T},{L, TN}, {T,TN}} Chúng ta có kết bảng sau: Itemset Support wsup B(X,3) B(X,4) B(X,5) lớn? Giữ C2? {V,H} 0.175 2 N Y {V,L} 0.2 2 N Y {V,T} 0.275 2 N Y {V,TN} 0.4875 2 Y Y {H,L} 0.225 2 N Y {H,T} 0.3 2 N Y {H,TN} 0.175 2 N N {L,T} 0.4875 2 Y Y {L,TN} 0.375 2 N Y 85 {T,TN} 0.45 2 Y Y -Tương tự vậy, có C3 xây dựng từ việc sử dụng hàm kết hợp Join với đầu vào C2, C3={{V, H, L}, {V, H, T}, {V, L, T}, {V, L, TN}, {V, T, TN}, {H, L, T}, {L, T, TN}} Itemset Support wsup B(X,4) B(X,5) lớn? Giữ C3? {V,H,L} 0.15 2 N N {V,H,T} 0.1875 2 N N {V,L,T} 0.4 2 Y Y {V,L,TN} 0.45 2 Y Y {V, T,TN} 0.2625 2 N N {H,L,T} 0.425 2 Y Y {L,T,TN} 0.575 2 Y Y Giải thuật đến kết thúc khơng tìm C4 Như vậy, tìm 3-itemset lớn sau: L3={{V, L, T}, {V, L, TN}, {H, L, T}, {L, T, TN}} Dựa vào tập mục lớn trên, cách tương tự giải thuật Apriori AprioriTID, tìm luật liên kết sau, với minconf = 66% • Với tập mục lớn {V,L,T} c(V,L ⇒ T ) = wV , L ,T wV , L = =1 Có thể phát biểu rằng, học sinh có điểm trung bình mơn văn trung bình có điểm mơn lý giỏi có điểm tốn loại giỏi, với ngưỡng support có trọng số 0.4 ngưỡng tin cậy 66% Đối với tập mục lớn khác tương tự Nếu quan tâm đến việc đỗ vào trường tự nhiên số điểm học môn phổ thơng, quan tâm tới tập mục lớn, {V, L, TN} {L, T, TN} • Với tập mục {V, L, TN}: c(V,L ⇒ TN ) = 86 wV , L ,TN wV , L = = 50 Luật không đáp ứng yêu cầu độ tin cậy, bỏ qua • Với tập mục {L, T, TN}: c(L,T ⇒ TN ) = wL ,T ,TN wL ,T = = 66.66 Có thể phát biểu rằng, học sinh có điểm trung bình mơn lý mơn tốn giỏi thi đỗ vào trường tự nhiên, với ngưỡng support có trọng số 0.4 ngưỡng tin cậy 66% Chúng ta vừa giới thiệu giải thuật MINWAL(W) để tìm tập mục lớn tốn có trọng số Trong khuôn khổ giới hạn, thời gian không đủ dài, sở liệu mang tính giới thiệu diễn giải cho giải thuật 4.2.2 Giải thuật MINWAL(W) Cũng với sở liệu sử dụng trình bày trên, ví dụ minh hoạ giải thuật MINWAL(O) Chúng ta sử dụng giá trị wminsup=0.19 Bước 1: - Chúng ta tìm size = - Số lượng mục {V,H, L, T, TN}tương ứng {7,3,3,3,3} X SC wsup lớn V 0.2625 Y H 0.15 N L 0.1875 N T 0.3 Y TN 0.375 Y Như vậy, L1={{TN},{T},{V}} C1={{TN},{T},{V}} Bước 2: Sử dụng thủ tục kết hợp Join, với đầu vào L1, tìm C2 C2 = {{TN, T}, {TN, L}, {TN, H}, {TN, V}, {T, L}, {T, H}, {T, V}, {L, V}, {H, V}} Chúng ta có kết bảng sau trình lược bỏ Prune trình kiểm tra Checking: 87 X SC wsup lớn {TN,T} 0.225 Y {TN,L} 0.1625 N {TN,H} 0.0875 N {TN,V} 0.24375 Y {T,L} 0.24375 Y {T,H} 0.15 N {T,V} 0.1375 N {L,V} 0.1 N {H,V} 0.0875 N Chúng ta có L2 = {{TN,T}, {TN, V}, {T, L}} Tương tự, sử dụng thủ tục kết hợp Join, với đầu vào L2, tìm C3 = {{TN, T, L}, {TN, T, H}, {TN, T, V}, {T, L, H}, {T, L, V}} Sử dụng thủ tục Prune Checking, có: X SC wsup lớn {TN,T,L} 0.192 Y {TN,T,H} 0.183 N {TN,T,V} 0.175 N {T,L,H} 0.142 N {T,L,V} 0.067 N L3 = {TN,T,L} C4={{TN,T,L,H}, {TN,T,L,V}} X SC Wsup lớn {TN,T,L,H} 0.084375 N {TN,T,L,V} 0.1625 N Giải thuật đến kết thúc, có tập mục lớn L3 = {TN,T,L} Dựa vào tập mục lớn trên, cách tương tự giải thuật Apriori AprioriTID, tìm luật liên kết sau, với minconf = 66% 88 c(L,T ⇒ TN ) = wL ,T ,TN wL ,T = = 66.66 Có thể phát biểu rằng, học sinh có điểm trung bình mơn lý mơn tốn giỏi thi đỗ vào trường tự nhiên, với ngưỡng support có trọng số 0.19 ngưỡng tin cậy 66% 89 Kết luận Vấn đề tìm kiếm luật liên kết sở liệu thực hữu ích lĩnh vực khai phá tri thức Trong luận văn này, giới thiệu phương pháp khác để tiếp cận với vấn đề luật liên kết Bài tốn tìm kiếm luật liên kết ứng dụng cho nhiều loại luật liên kết chính, luật liên kết nhị phân, luật liên kết có trọng số luật liên kết mờ Ngoài ra, xem xét giải thuật đề xuất để giải toán đặt giới thiệu số toán nâng cao Vấn đề trọng số đặt đây, cho phép luật liên kết có tính tương tác cao với người sử dụng, ngồi điều chỉnh trọng số để điều chỉnh tầm quan trọng thuộc tính Vấn đề phát triển toán hướng phát triển tương lai giới thiệu chi tiết chương III • Điểm mạnh: o Khái quát hoá, hệ thống hoá luật liên kết o Giới thiệu loại luật liên kết từ đơn giản đến phức tạp o Giới thiệu khái niệm nâng cao để tăng tính thú vị cho luật o Giới thiệu khác biệt luật liên kết khơng trọng số luật liên kết có trọng số o Giới thiệu giải thuật có hiệu 90 Tài liệu tham khảo [1] R.Argrawal, T.Imielinski, A.Swami - Mining association rules between sets of mục in large databases – IBM Almaden Research Center – 650 Harry Road, San Jose, CA 95120 [2] R.Agrawal, R.Srikant – Fast algorithms for Mining association rules – IBM Almaden Research Center – 650 Harry Road, San Jose, CA 95120 [3] H.Mannila, H.Toivonen, A.Inkeri Verkamo – Efficient Algorithms for Discovering Association Rules - University of Helsinki, Department of Computer Science, P.O.Box 26(Teollisuuskatu 23), FIN-00014 Helsinki, Finland [4] G.Piatetsky - Shapiro and W.J.Frawley, editors – Knowledge Discovery in Databases, MIT Press, 1991 [5] Major works in Association rules – www.comp.nus.edu.sg [6] Mining association rules with weighed items – www.cse.cuhk.edu.hk [7] Introduction to Knowledge Discovery and Data Mining, Unesco courses – Prof Ho Tu Bao, Prof Bach Hung Khang, institute of Information Technology, National Center for Natural Science and Technology [8] Association rules – www.sciencedirect.com [9] Association rule mining, Liaquat Majeed Sheikh, National University of Computer and Emerging Sciences, Data Mining: Concepts and Techniques [10] Data mining technique - http://www.statsoftinc.com/textbook/stdatmin.html [11] A fuzzy approach for mining quantitative association rules – TUCS Technical Report No 336, March 2000 - Attila Gyenesei – University of Turku, Department of Computer Science, Finland [12] Mining weighted association rules for fuzzy quantitative items – TUCS Technical Report No 346, May 2000 - Attila Gyenesei – University of Turku, Department of Computer Science, Finland [13] Fast algorithms for discovering the maximum frequent set – Dao – I Lin, Department of Computer Science, New York University 91 ... tìm hiểu việc tìm luật liên kết sở liệu cỡ lớn, em định lựa chọn đề tài ? ?Một số vấn đề tìm kiếm luật liên kết sở liệu? ?? Luận văn em gồm chương sau: Chương I: Các khái niệm khai phá liệu tìm kiếm. .. tìm kiếm luật liên kết có trọng số 42 III Tìm kiếm luật liên kết có trọng số chuẩn tắc 47 2.3.1 Hướng tiếp cận trường hợp trọng số chuẩn tắc 48 2.3.2 Giải thuật tìm kiếm luật liên kết. .. tới việc tìm kiếm luật liên kết, nhánh nhỏ tìm kiếm liệu KDD III Tổng quan tìm kiếm luật liên kết Mục đích việc tìm luật liên kết tìm quan hệ sau đây: A1 ∧ A2 ∧…∧ Am ⇒ B1 ∧ B2 ∧ … ∧ Bn Trong Ai,