Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,07 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Trần Thị Thúy XÂY DỰNG LUẬT KẾT HỢP TRÊN BẢNG QUYẾT ĐỊNH CĨ CÁC GIÁ TRỊ THUỘC TÍNH THAY ĐỔI Chun ngành: Khoa học máy tính Mã số: 60.48.01.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2014 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: GS.TS Vũ Đức Thi (Ghi rõ học hàm, học vị) Phản biện 1: TS Nguyễn Đức Dũng Phản biện 2: PGS.TS Đoàn Văn Ban Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: 14 00 ngày 15 tháng 02 năm 2014 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Trong năm gần đây, cơng nghệ thơng tin phát triển vơ nhanh chóng ứng dụng rộng rãi nhiều lĩnh vực kinh tế - xã hội Sự việc dẫn đến bùng nổ thơng tin, địi hỏi phát triển phương pháp khai phá liệu hiệu để phát tri thức hữu ích, tiềm ẩn sở liệu lớn Ngày khai phá liệu, khám phá tri thức trở thành lĩnh vực khoa học thu hút quan tâm nhiều nhà nghiên cứu nước giới Lý thuyết tập thô đề nghị Pawlak Z từ năm đầu thập niên 80 kỷ trước Đó cách tiếp cận để xử lý liệu mơ hồ, không chắn Cách tiếp cận lý thuyết tập thơ có vai trị quan trọng trí tuệ nhân tạo, đặc biệt lĩnh vực học máy, hỗ trợ định Sử dụng lý thuyết tập thơ giải hiệu vấn đề quan trọng như: Rút gọn thuộc tính, xử lý giá trị thiếu, rời rạc hóa liệu, phát phụ thuộc liệu, phát luật định, luật kết hợp (tĩnh động), phân cụm liệu… Khi áp dụng tập thô để giải vấn đề khám phá tri thức trích rút luật kết hợp từ sở liệu, phải đối mặt với tình sở liệu có hàng triệu đối tượng Đồng thời, theo thời gian số đối tượng, số thuộc tính giá trị thuộc tính thay đổi Khi để thu luật kết hợp có ý nghĩa từ tập liệu bị thay đổi, xem xét lại sở liệu ban đầu liệu bị thay đổi gần nhất, công việc tiêu tốn số lượng thời gian tính khơng gian nhớ Do hiệu thuật tốn thấp Trong thực tế, vấn đề thường xuyên xảy ra, việc nghiên cứu, tìm thuật tốn nhằm nâng cao hiệu công việc cập nhật tri thức từ bảng liệu động công việc cần thiết, đòi hỏi quan tâm nhà nghiên cứu Học gia tăng cách người dùng tiếp thu tri thức Đây phương pháp học máy ứng dụng thực đánh giá phương pháp hiệu việc phát tri thức từ liệu động Luận văn trình bày phương pháp học gia tăng để “Xây dựng luật kết hợp bảng định có giá trị thuộc tính thay đổi” sở sử dụng độ xác độ phủ luật làm hai nhân tố đánh giá chất lượng mô tả tri thức (luật) quan tâm trích rút Mục đích nghiên cứu Nghiên cứu tổng quan khám phá tri thức khai phá liệu, xây dựng thuật toán khai phá luật kết hợp từ bảng liệu làm thơ, làm mịn giá trị thuộc tính Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Đối tượng nghiên cứu luận văn bảng liệu có tập giá trị thuộc tính thay đổi Phạm vi nghiên cứu: Ứng dụng thuật toán trích rút luật kết hợp thử nghiệm khai phá liệu với CSDL bảng cập nhật thông tin nhân viên công ty Phương pháp nghiên cứu Học gia tăng theo tiếp cận tập thô để giải toán xây dựng luật kết hợp bảng định thay đổi Chương 1- TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 Phát tri thức khai phá liệu Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Còn khai phá liệu bước qui trình phát tri thức gồm có thuật tốn khai phá liệu chuyên dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu bị che khuất hàng “núi” liệu Nhiều người coi khai phá liệu khám phá tri thức sở liệu Tuy nhiên thực tế, khai phá liệu bước thiết yếu trình phát tri thức sở liệu 1.2 Quá trình phát tri thức khai phá liệu[1] Quá trình phát tri thức gồm giai đoạn trình bày hình 1.1 Mặc dù có giai đoạn xong q trình khám phá tri thức từ sở liệu trình tương tác lặp di lặp lại theo chu trình liên tục kiểu xốy trơn ốc, lần lặp sau hồn chỉnh lần lặp trước Ngoài ra, giai đoạn sau lại dựa kết thu giai đoạn trước theo kiểu thác nước Đây q trình biện chứng mang tính chất khoa học lĩnh vực phát tri thức phương pháp luận việc xây dựng hệ thống phát tri thức Hình 1.1: Quá trình phát tri thức từ sở liệu 1.2.1 Xác định vấn đề 1.2.2 Thu thập tiền xử lý liệu 1.2.2.1 Chọn lọc liệu 1.2.2.2 Làm liệu 1.2.2.3 Làm giàu liệu 1.2.2.4 Mã hóa 1.2.3 Khai thác liệu 1.2.4 Minh họa đánh giá 1.2.5 Đưa kết vào thực tế 1.3 Khai phá liệu[1] 1.3.1 Các khái niệm khai phá liệu Sau số quan niệm khai phá liệu: Khai phá liệu tập hợp thuật toán nhằm chiết xuất thơng tin có ích từ kho liệu khổng lồ Khai phá liệu định nghĩa trình phát mẫu liệu Quá trình tự động hay bán tự động, song phần nhiều bán tự động Các mẫu phát thường hữu ích theo nghĩa: mẫu mang lại cho người sử dụng lợi đó, thường lợi kinh tế Khai phá liệu giống q trình tìm mơ tả mẫu liệu Dữ liệu tập hợp vật hay kiện, đầu trình khai phá liệu dự báo vật hay kiện Khai phá liệu áp dụng sở liệu quan hệ, giao dịch, sở liệu không gian, kho liệu phi cấu trúc, mà điển hình World Wide Web Khám phá tri thức trình nhận biết mẫu mơ hình liệu với tính chất: Đúng đắn, mới, khả ích hiểu Khai phá liệu bước trình khám phá tri thức bao gồm thuật toán khai phá liệu chuyên dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Như vậy, mục đích khám phá tri thức khai phá liệu tìm mẫu mơ hình tồn sở liệu bị khuất số lượng liệu khổng lồ 1.3.2 Nhiệm vụ khai phá liệu Những nhiệm vụ khai phá liệu là: Phân cụm, phân loại, phân nhóm, phân lớp: Nhiệm vụ trả lời câu hỏi: Một liệu thu thập thuộc nhóm nào? Q trình thường thực cách tự động Khai phá luật kết hợp: Nhiệm vụ phát mối quan hệ giống ghi giao dịch Luật kết hợp X=>Y có dạng tổng quát là: Nếu giao dịch sở hữu tính chất X đồng thời sở hữu tính chất Y, mức độ Khai phá luật kết hợp hiểu theo nghĩa: Biết trước tính chất X, tính chất Y tính chất nào? Lập mơ hình dự báo bao gồm hai nhiệm vụ: Hoặc phân nhóm liệu vào hay nhiều lớp liệu xác định từ trước, sử dụng trường cho sở liệu để dự báo xuất (hoặc không xuất hiện) trường hợp khác Phân tích đối tượng ngồi Phân tích tiến hóa 1.3.3 Triển khai việc khai phá liệu Nhóm tác giả Cabena et al đề nghị triển khai trình khai phá liệu theo bước: Bước 1: Xác định rõ mục tiêu thương mại cần khai phá Bước 2: Chuẩn bị liệu (Thu thập, tiền xử lý, chuyển đổi khuôn dạng liệu thấy cần thiết) Bước 3: Khai phá liệu (Chọn thuật tốn thích hợp) Bước 4: Phân tích kết thu (Xem có thú vị khơng?) Bước 5: Tiêu hóa tri thức thu lượm (Nhằm đề kế hoạch khai thác thông tin mới) 1.3.4 Một số ứng dụng khai phá liệu Hiện nay, kỹ thuật khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác như: Thương mại: Phân tích liệu bán hàng thị trường, phân tích đầu tư, định cho vay, phát gian lận, … Thông tin sản xuất: Điều khiển lập kế hoạch, hệ thống quản lý, phân tích kết thử nghiệm, … Thông tin khoa học: dự báo thời tiết, CSDL sinh học: Ngân hàng gen, … khoa học địa lý: dự báo động đất, … Trong y tế, marketing, ngân hàng, viễn thông, du lịch, internet… Và thu thật đáng giá Điều chứng minh thực tế: Chẩn đoán bệnh y tế dựa kết xét nghiệm giúp cho bảo hiểm y tế phát nhiều trường hợp xét nghiệm không hợp lý, tiết kiệm nhiều kinh phí năm; dịch vụ viễn thơng phát nhóm người thường xuyên gọi cho mobile thu lợi hàng triệu USD; IBM Suft-Aid áp dụng khai phá liệu vào phân tích lần đăng nhập Web vào trang liên quan đến thị trường để phát sở thích khách hàng, từ đánh giá hiệu việc tiếp thị qua Web cải thiện hoạt động Website; trang Web mua bán qua mạng Amazon tăng doanh thu nhờ áp dụng khai phá liệu việc phân tích sở thích mua bán khách hàng 1.3.5 Các kỹ thuật khai phá liệu Thường chia thành hai nhóm chính: Kỹ thuật khai phá liệu mơ tả: Có nhiệm vụ mơ tả tính chất đặc tính chung liệu sở liệu có Các kỹ thuật gồm có: Phân cụm (clustering), tóm tắt (summerization), trực quan hóa (visualiztation), phân tích phát triển độ lệch (evolution and deviation analyst), phân tích luật kết hợp (association rules) … Kỹ thuật khai phá liệu dự đốn: Có nhiệm vụ đưa dự đốn dựa vào suy diễn liệu thời Các kỹ thuật gồm có: Phân lớp (classification), hồi quy (regession)… Một số phương pháp thông dụng là: Phân cụm liệu, phân lớp liệu, phương pháp hồi quy khai phá luật kết hợp 1.3.5.1 Phân cụm liệu[1] Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc lớp tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học khơng có thầy Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngoài phân cụm liệu cịn sử dụng bước tiền xử lý cho thuật toán khai phá liệu khác 1.3.5.2 Phân lớp liệu [7] Mục tiêu phương pháp phân lớp liệu dự đoán nhãn lớp cho mẫu liệu Quá trình phân lớp liệu thường gồm hai bước: Xây dựng mô hình sử dụng mơ hình để phân lớp liệu Bước 1: Một mơ hình xây dựng dựa việc phân tích mẫu liệu sẵn có Mỗi mẫu tương ứng với lớp, định thuộc tính gọi thuộc tính lớp Các lớp liệu gọi lớp liệu huấn luyện (training data set) Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình Bước 2: Sử dụng mơ hình để phân lớp liệu Trước hết, phải tính độ xác mơ hình Nếu độ xác chấp nhận được, mơ hình sử dụng để dự đoán nhãn lớp cho mẫu liệu khác tương lai 1.3.5.3 Phương pháp hồi quy Phương pháp hồi quy khác với phân lớp liệu chỗ: Hồi quy dùng để dự đốn giá trị liên tục cịn phân lớp liệu dùng để dự đoán giá trị rời rạc Hồi quy hàm học ánh xạ mục liệu thành biến dự đốn có giá trị thực Có nhiều ứng dụng khai phá liệu với nhiệm vụ hồi quy, chẳng hạn khả đánh giá tử vong bệnh nhân biết kết xét nghiệm; chẩn đoán, dự đoán nhu cầu tiêu thụ sản phẩm hàm chi tiêu quảng cáo 1.3.5.4 Khai phá luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu luật kết hợp tìm Khai phá luật kết hợp thực qua hai bước: Bước 1: Tìm tất tập mục phổ biến, tập mục phổ biến xác định qua tính hỗ trợ thỏa mãn độ hỗ trợ cực tiểu Bước 2: Sinh luật kết hợp mạnh từ tập mục phổ biến, luật phải thỏa mãn độ hỗ trợ cực tiểu độ tin cậy cực tiểu Phương pháp sử dụng hiệu lĩnh vực maketing có chủ đích, phân tích định, quản lý kinh doanh, phân tích giá thị trường … 1.3.6 Kiến trúc hệ thống khai phá liệu Như trình bày trên, khai phá liệu giai đoạn trình phát tri thức từ số lượng lớn liệu lưu trữ sở liệu, kho liệu nơi lưu trữ khác Bước tương tác lẫn người sử dụng sở tri thức, mẫu đáng quan tâm đưa cho người dùng lưu trữ tri thức sở tri thức Hình 1.2 Kiến trúc hệ thống khai phá liệu Kiến trúc hệ thống khai phá liệu (Hình 1.2) có thành phần sau: - Cơ sở liệu, kho liệu: Đó tuyển tập sở liệu, kho liệu … Các kỹ thuật làm liệu, tích hợp, lọc liệu thực liệu - Cơ sở liệu kho liệu phục vụ: Là kết lấy liệu có liên quan sở khai phá liệu người dùng - Cơ sở tri thức: Đó lĩnh vực tri thức sử dụng để hướng dẫn việc tìm đánh giá mẫu kết thu - Mô tả khai phá liệu: Bao gồm tập modul chức để thực nhiệm vụ mô tả đặc điểm, kết hợp, phân lớp, phân cụm liệu… - Đánh giá mẫu: Thành phần sử dụng độ đo tương tác với modul khai phá liệu để tập trung vào tìm mẫu quan tâm - Giao diện người dùng: Đây modul người dùng hệ thống khai phá liệu Cho phép người dùng tương tác với hệ thống sở truy vấn hay tác vụ, cung cấp thơng tin cho việc tìm kiếm 1.3.7 Q trình khai phá liệu Các thuật toán khai phá liệu thường mơ tả chương trình hoạt động trực tiếp tệp liệu Với phương pháp máy học thống kê trước đây, thường bước thuật tốn nạp tồn tệp liệu vào nhớ Khi chuyển sang ứng dung công nghiệp liên quan đến việc khai thác kho liệu lớn, mơ hình khơng thể đáp ứng khơng thể nạp hết liệu vào nhớ mà cịn khó chiết xuất tệp đơn giản để phân tích Q trình khai phá liệu (hình 1.3) bắt đầu cách xác định xác vấn đề cần giải Tiếp đến xác định liệu liên quan dùng để xây dựng giải pháp Bước thu thập liệu liên quan xử lý chúng thành dạng cho thuật tốn khai phá hiểu Hình 1.3 Q trình khai phá liệu Sau chọn thuật tốn khai phá liệu thích hợp thực việc khai phá liệu để tìm mẫu có ý nghĩa dạng biểu diễn tương ứng (luật kết hợp, định …) Kết thu mẫu phải có đặc điểm Độ đối sánh tương ứng với độ thay đổi liệu bảng tri thức Thường độ đo mẫu đánh giá hàm logic hàm độ đo Ngoài mẫu cịn có khả sử dụng tiềm ẩn Với thuật toán nhiệm vụ khai phá liệu khác dạng mẫu chiết xuất đa dạng 1.3.8 Những khó khăn khai phá liệu Việc nghiên cứu ứng dụng kỹ thuật khai phá liệu gặp nhiều khó khăn, khơng phải khơng giải mà chúng cần tìm hiểu để phát triển tốt Một số khó khăn khai phá liệu: - Dữ liệu lớn - Kích thước lớn - Dữ liệu động - Các trường liệu không phù hợp - Các giá trị bị thiếu - Các trường liệu bị thiếu - Quá phù hợp - Khả biểu đạt mẫu - Sự tương tác với người sử dụng tri thức sẵn có 1.4 Kết luận chương Trình bày tổng quan khám phá tri thức khai phá liệu, đề cập đến khái niệm khám phá tri thức, khai phá liệu, trình khai phá liệu, nhiệm vụ kỹ thuật khai phá liệu Đồng thời trình bày số ứng dụng khai phá liệu Chương 2- KHAI PHÁ LUẬT KẾT HỢP VÀ LÝ THUYẾT TẬP THÔ 2.1 Khai phá luật kết hợp Khai phá luật kết hợp trình xác định luật kết hợp bảng định cho trước, phục vụ cho việc phân lớp đối tượng Khai phá luật kết hợp nhiều chuyên gia nước quan tâm phương diện lý thuyết ứng dụng, nghiên cứu chủ yếu xem xét bảng liệu tĩnh Trong thực tế, liệu thường xuyên thay đổi theo thời gian Đã có số nghiên cứu khía cạnh khác để cập nhật tri thức bảng liệu động, tập trung chủ yếu vào trường hợp sau đây: (1) Tập giá trị thuộc tính thay đổi tập đối tượng thuộc tính khơng đổi ; (2) Tập đối tượng thay đổi tập thuộc tính tập giá trị thuộc tính khơng đổi; (3) Tập thuộc tính thay đổi tập đối tượng tập giá trị thuộc tính khơng thay đổi Trong luận văn này, em xin trình bày thuật tốn khai phá luật kết hợp bảng liệu động theo hướng học gia tăng trường hợp thay đổi bảng liệu là: Bảng liệu có giá trị thuộc tính thay đổi Để đánh giá kết trích rút luật kết hợp, luận văn sử dụng độ xác độ phủ luật 2.2 Lý thuyết tập thô[2] 2.2.1 Hệ thông tin Hệ thông tin bốn IS = (U, A, V, f) U tập hữu hạn, khác rỗng đối tượng gọi tập vũ trụ, A tập hữu hạn khác rỗng thuộc tính, ⋃ tập giá trị thuộc tính tập giá trị thuộc tính a, hàm thơng tin cho , ta có Ta gọi giá trị đối tượng x thuộc tính a, tập gọi khái niệm IS Nếu V chứa giá trị thiếu thuộc tính IS gọi hệ thông tin không đầy đủ Trái lại, IS gọi hệ thông tin đầy đủ hay hệ thơng tin Ví dụ 2.1 Cho hệ thơng tin biểu diễn bảng 2.1, ta có: { } Tập thuộc tính { } Tập đối tượng { } Tập giá trị thuộc tính ta có ; = 2… tương ứng giá trị đối tượng thuộc tính … Bảng 2.1: Ví dụ hệ thơng tin U U 1 2 2 3 2 3 2 3 2 3 2 3 10 Tập Hình 2.1: Mơ hình tập thơ gọi P- vùng biên X Nếu (tức ) X gọi tập rõ (crisp), trái lại X gọi tập thô (rough) Dựa vào ý nghĩa xấp xỉ xấp xỉ trên, ta định nghĩa bốn lớp tập thô tương ứng với bốn mức độ mơ hồ (vagueness) sau: X gọi P – định nghĩa cách thô (roughly P - definable) và (2) X gọi P – không định nghĩa cách nội vi (internally Punderfinable) và (3) X gọi P – không định nghĩa cách ngoại vi (externally Punderfinable) và (4) X không xác định hoàn toàn (totally P-underfinable) và Đối với hệ thông tin biệt chia U thành lớp tương đương rời , ta có: { { [ ] [ ] } Giả sử P- quan hệ bất khả phân Khi đó, với tập ⋃ } ⋃ Trên sở đó, tính P – xấp xỉ P – xấp xỉ X thuật toán sau đây: Thuật toán 2.2: Xác định xấp xỉ dưới, xấp xỉ Vào: Hệ thông tin Tập thuộc tính Tập đối tượng Ra: P – xấp xỉ P – xấp xỉ X 11 Phương pháp: Bước 1:Xác định lớp tương đương Bước 2: Đặt Bước 3: For j = to m begin if then if quan hệ IND(P) ; then ; end; Kết thúc Dễ thấy, thuật tốn 2.2 có độ phức tạp O(k| | | |, | | | | Ví dụ 2.3 Xét hệ thơng tin bảng 2.1 { }, { } Giả sử, chọn { } với { }, { }, Ta có: { } { }; { } { } Suy ra: { }, { } Vì nên ta có X tập thơ Một số tính chất xấp xỉ Nếu , 10 ( ) ( ) 11 ( ) ( ) 2.2.4 Bảng định Một trường hợp đặc biệt hệ thông tin gọi bảng định tập thuộc tính A phân thành hai tập rời C D, C tập thuộc tính điều kiện, D tập thuộc tính định cho , Bảng định ký hiệu : { } { } tương ứng phân Giả sử hoạch sinh tập thuộc tính điều kiện C tập thuộc tính định D, ; , tương ứng gọi lớp tương đương điều kiện lớp tương đương định 12 Một lớp tương đương điều kiện gọi quán , ; lớp tương đương định gọi quán , Một bảng định gọi quán lớp tương đương điều kiện quán Ngược lại gọi bảng định không quán 2.2.5 Luật kết hợp Độ hỗ trợ độ tin cậy (độ xác) hai độ đo mức độ quan tâm luật kết hợp tương ứng chúng phản ánh tính hữu ích tính chắn luật khám phá Các luật kết hợp xem luật có ý nghĩa chúng thỏa mãn đồng thời ngưỡng độ hỗ trợ tối thiểu ngưỡng độ tin cậy tối thiểu Các ngưỡng thiết lập người sử dụng chuyên gia Mặt khác, độ xác độ phủ sử dụng để đánh giá mức độ đầy đủ cần thiết luật , mơ hình xác xuất đơn giản mơ hình có độ xác độ phủ cao Vì vậy, luận văn chọn độ xác độ phủ để mô tả tri thức quan tâm Định nghĩa 2.4 { }, { } Cho bảng định , tương ứng phân hoạch sinh C,D Một luật kết hợp biểu diễn dạng , Định nghĩa 2.5 Cho bảng định Giả sử , tương ứng lớp tương đương điều kiện lớp tương đương định sinh C, D Độ hỗ trợ, độ xác độ phủ luật kết hợp tương ứng định nghĩa sau: ( ) | | Độ hỗ trợ : Độ xác: ( ) ( ) | | | | Độ phủ: | | | | Hiển nhiên ,ta có: ( ) ( ) ∑ ∑ ( ) ( ) 13 Khi xem xét độ đo tất luật kết hợp, để đơn giản ta biểu diễn độ đo dạng ma trận độ đo sau: Ma trận độ hỗ trợ: =( ) =( ) Ma trận độ xác: Ma trận độ phủ: ( ) Chú ý: (i)Nếu luật kết hợp gọi luật kết hợp ngược (inverse) Các luật kết hợp ngược sử dụng để giải thích (các lý do) kết hợp Dễ thấy, độ xác luật kết hợp ngược độ phủ luật kết hợp bạn đầu ( ) ( ) (ii)Nếu Điều có nghĩa độ đo xác độ đo độ phủ luật cịn sử dụng để đo mức độ xấp xỉ xấp xỉ khái niệm Định nghĩa 2.6 Cho bảng định tương ứng lớp tương đương điều kiện, lớp tương đương định sinh luật kết hợp ( ) Nếu gọi luật kết hợp chắn; Nếu Mệnh đề 2.1 [4] Ta có, ( ) ( ) ( ) gọi luật kết hợp không chắn; 14 ( ) ( Định nghĩa 2.7 Giả sử, ) (2.4) (i=1,…,m; j=1,…,n) tương ứng lớp tương đương ( ) điều kiện lớp tương đương định, ta gọi luật luật kết hợp có ý nghĩa, hai ngưỡng cho trước, với Nói chung, ta thường chọn luật kết hợp có độ xác độ phủ cao Hiển nhiên, với ngưỡng độ xác độ phủ khác nhau, số lượng luật kết hợp có ý nghĩa nhận khác Số lượng luật kết hợp có ý nghĩa tăng giá trị của ngược lại 2.3 So sánh kỹ thuật phân lớp dựa luật kết hợp phân lớp dựa tập thô Kỹ thuật phân lớp dựa luật kết hợp )với kỹ thuật phân lớp dựa tập thơ ( ) hai khía cạnh là: độ xác phân lớp số lượng luật sinh Các kết thử nghiệm cho thấy, hầu hết tập liệu, độ xác phân lớp xấp xỉ với , cá biệt vài tập liệu độ xác phân lớp cao Về số lượng luật sinh ra, hầu hết trường hợp sinh nhiều luật Xem xét vấn đề sinh luật , khác đáng kể cách xử lý liệu, xem tần suất thuộc tính quan tâm vấn đề quan trọng, xem phân biệt giá trị thuộc tính sở khái niệm phân biệt quan trọng 2.4 Kết luận chương Chương trình bày tổng quan khai phá luật kết hợp, đồng thời trình bày số vấn đề lý thuyết tập thô, luật kết hợp công thức biểu diễn mối quan hệ độ đo luật kết hợp Đây vấn đề để nắm bắt trình bày kết chương sau luận văn 15 Chương 3- XÂY DỰNG LUẬT KẾT HỢP TRÊN BẢNG DỮ LIỆU CĨ CÁC GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 3.1 Giới thiệu Trong ứng dụng thực tế, theo thời gian giá trị thuộc tính thay đổi Sự thay đổi nói chung chia thành hai loại: vài giá trị thuộc tính kết hợp với thành giá trị (ta gọi tượng làm thô giá trị thuộc tính) ; vài giá trị thuộc tính tách thành hai giá trị (ta gọi tượng làm mịn giá trị thuộc tính) Khi làm thơ giá trị thuộc tính làm cho xấp xỉ khái niệm bị thu hẹp lại xấp xỉ mở rộng Kết ngược lại ta làm mịn giá trị thuộc tính Như vậy, làm thô, làm mịn giá trị thuộc tính phân hoạch sinh thuộc tính trở nên thơ hay mịn Điều có nghĩa lớp đương đương luật kết hợp thu trước bị thay đổi khơng cịn giá trị thời điểm Khi đó, để thu luật kết hợp có ý nghĩa thời điểm mới, chương luận văn tập trung giải vấn đề trích rút luật kết hợp có ý nghĩa làm thô, làm mịn giá trị thuộc tính điều kiện làm thơ, làm mịn giá trị thuộc tính định 3.2 Khái niệm làm thơ, làm mịn giá trị thuộc tính Định nghĩa 3.1 Cho hệ thông tin IS = (U, A, V, f), , tập giá trị thuộc tính a Giả ) ) sử ( , ( tương ứng giá trị đối tượng thuộc tính a ) ( ) (p ) Nếu thời điểm ta có ( (z ) ta gọi hai giá trị w, y thuộc tính a làm thô thành giá trị z Định nghĩa 3.2 { } Cho hệ thông tin IS = (U, A, V, f), Giả sử tập đối tượng có giá trị z thuộc tính a Nếu thời điểm đó, Z phân hoạch { thành hai tập hợp W, Y cho ( ) } { ( ) tính a làm mịn thành hai giá trị w y } ta gọi giá trị z thuộc 3.3 Tiến trình cập nhật tri thức làm thơ, làm mịn giá trị thuộc tính 3.3.1 Yêu cầu giả thiết toán Cho bảng định tập giá trị thuộc tính điều kiện a thuộc tính định d Yêu cầu đặt ra: Tiến hành trích rút luật kết hợp làm thơ, làm mịn giá trị thuộc tính điều kiện làm thô, làm mịn giá trị thuộc tính định Các luật kết hợp trích rút thỏa mãn đồng thời ngưỡng độ xác ngưỡng độ phủ cho trước Giả sử tập thuộc tính định D gồm thuộc tính d, tiến trình học luật kết hợp giá trị thuộc tính thay đổi diễn từ thời điểm t đến thời điểm t+1; 16 { } { } tương ứng phân hoạch sinh C, D | | Tại thời điểm t, ký hiệu , , tương ứng giá trị x, giá trị lớp tương đương điều kiện thuộc tính a giá trị x, giá trị lớp đương đương định thuộc tính d Tương tự thời điểm t+1, ta ký hiệu giá trị , , 3.3.2 Cơ sở tốn học 3.3.2.1 Làm thơ giá trị thuộc tính điều kiện Định lý 3.1: Giả sử sau thời điểm t, hai giá trị w,y thuộc tính làm thơ thành giá trị z, Tại thời điểm t+1, tồn hai lớp tương đương điều kiện ( ) làm thơ thành lớp tương đương điều kiện , Hệ 3.1[5] Nếu sau thời điểm t, hai lớp đương tương điều kiện làm thơ thành lớp điều kiện thời điểm t+1, ta có: (i) ( (ii) ) ( ) j=1,…,n 3.3.2.2 Làm mịn giá trị thuộc tính điều kiện Định lý 3.2: Giả sử sau thời điểm t, giá trị z thuộc tính làm mịn thành hai giá trị w y Tại thời điểm t+1, tồn lớp tương đương điều kiện làm mịn thành hai lớp tương đương điều kiện khi: (i) ; { }; (ii) với { } (iii) với Hệ 3.2 [ ] Nếu sau thời điểm t, lớp tương đương điều kiện làm mịn thành hai lớp tương đương điều kiện Tại thời điểm t+1, ta có: (i) ; (ii) ( ) ( ) ( ) j=1,…,n 3.3.2.3 Làm thô giá trị thuộc tính định Giả sử sau thời điểm t, hai giá trị w, y thuộc tính định d làm thô thành giá trị z (z ) Tại thời điểm t+1, tồn hai lớp tương đương định làm thơ thành lớp tương đương định , có nghĩa { } { }; với Từ kết này, ta có hệ sau: Hệ 3.3 [ ] ( ) Ta có i=1,…,m 17 3.3.2.4 Làm mịn giá trị thuộc tính định Giả sử sau thời điểm t, giá trị z thuộc tính định d làm mịn thành hai giá trị w y ( ) Tại thời điểm t+1 , tồn lớp tương đương định làm mịn thành hai lớp tương đương định ; Khi đó, ta rút hệ sau: Hệ 3.4 [5] Ta có i=1,…,m 3.3.3 Thuật tốn Trên sở định lý hệ trình bày trên, luận văn em xin trình bày thuật tốn để trích rút luật kết hợp có ý nghĩa làm thơ, làm mịn giá trị thuộc tính điều kiện làm thơ, làm mịn giá trị thuộc tính định Thuật tốn xây dựng theo hướng học gia tăng, khơng địi hỏi phải thực lại việc phân lớp giá trị thuộc tính thay đổi, cần tìm lớp tương đương bị thay đổi làm sở cho việc cập nhật lại ma trận độ hỗ trợ thời điểm trước đó, dựa tính ma trận độ xác, ma trận độ phủ sinh luật Các bước thuật tốn trình bày hình 3.1 Hình 3.1: Các bước thuật tốn trích rút luật kết hợp làm thơ/mịn giá trị thuộc tính Thuật tốn 3.1 Tính ma trận độ hỗ trợ thời điểm t Vào: Các lớp tương đương điều kiện Các lớp tương đương điều kiện Ra: Ma trận độ hỗ trợ (Sup) thời điểm t Phương pháp: // Áp dụng đĩnh nghĩa 2.5 for i = to m 18 for j = to n begin | | ; end ; Kết thúc Thuật tốn 3.2: Tính ma trận độ hỗ trợ thời điểm t+1 làm thơ giá trị thuộc tính điều kiện Vào: - Ma trận độ hỗ trợ Sup thời điểm t -Thuộc tính điều kiện làm thơ -Các giá trị w, y làm thô thành z Ra: Ma trận độ hỗ trợ Sup thời điểm t+1 sau làm thơ thuộc tính Phương pháp: // Tìm tất cặp tương đương điều kiện hợp thành lớp tương đương điều kiện ;// tập chứa cặp lớp tương đương hợp lại thành lớp for p = to m for q = p + to m begin ) ( ) if ( ( ) ) ( ) or ( ( ) then begin kiemtra = 1; for k = to | | // | | số thuốc tính điều kiện begin if ( ) then begin kiemtra = 0; break; end; end; if kiemtra = then begin lưu ( ) vào CC; end; end; end; // Tính ma trận Sup thời điểm t+1 for ( ) in CC begin for = to n begin ( ) ( ) end; Xóa dịng tương ứng với ; Bổ sung dòng tương ứng với ; ( ); 19 end; Kết thúc Thuật tốn 3.3 Tính ma trận độ hỗ trợ thời điểm t+1 làm mịn giá trị thuộc tính điều kiện Vào: - Ma trận Sup thời điểm t - Thuộc tính điều kiện làm mịn - Tập W đối tượng mà có giá trị z thuộc tính làm mịn thành w - Tập Y đối tượng có giá trị z thuộc tính làm mịn thành y Ra: Ma trận Sup thời điểm t+1 sau làm mịn thuộc tính Phương pháp: //Tìm lớp điều kiện tách thành lớp for s = to m begin if and and then begin ; ; for each x in begin if ( ) then Bổ sung x vào else if ( ) then Bổ sung x vào ; end; end; end; // Tính Sup thời điểm t+1 for j = to n begin Tính Sup( ); ( ) ( ) ( ); end; Xóa dịng tương ứng với ; Bổ sung dòng tương ứng với ; Kết thúc Thuật tốn 3.4 Tính ma trận độ hỗ trợ thời điểm t+1 làm thô giá trị thuộc tính định Vào: - Ma trận Sup thời điểm t -Giá trị w, y thuộc tính định d làm thơ thành z Ra: Ma trận Sup thời điểm t+1 sau làm thơ Phương pháp: // Tìm lớp , kết hợp thành lớp ; ; for j = to n begin ) if ( ; 20 if ( ) ; end; // Tính ma trận Sup thời điểm t+1 for i = to m begin ; end; Xóa cột tương ứng với , ; Bổ sung cột tương ứng với ; Kết thúc Thuật tốn 3.5: Tính ma trận độ hỗ trợ thời điểm t+1 làm mịn giá trị thuộc tính định Vào: - Ma trận Sup thời điểm t -Tập tập đối tượng có giá trị thuộc tính d z làm mịn thành giá trị w -Tập tập đối tượng có giá trị thuộc tính d z làm mịn thành thành giá trị y Ra: Ma trận Sup thời điểm t+1 sau làm mịn d Phương pháp: // Tìm lớp tách thành lớp for j = to n begin ) if ( end; // Tính ma trận Sup thời điểm t+1 for i = to m begin Tính Sup( ); ( ) end; Xóa cột ; Bổ sung cột Kết thúc Chú ý: Trong thuật tốn 3.5 này, tập thuộc tính định D có thuộc tính d, nên làm mịn giá trị z d thành hai giá trị w y, ta có hai lớp tương đương định tương ứng ; Diễn giải làm việc thuật toán từ 3.2 đến 3.5 Tất thuật toán 3.2 đến 3.5 xây dựng sở kết định lý 3.1, định lý 3.2, hệ từ 3.1 đến 3.4 Các thuật toán làm việc theo chế: Đầu tiên thực việc tìm cặp lớp tương đương mà kết hợp với thành lớp tương đương (khi làm thơ) tìm lớp tương đương bị tách thành hai lớp tương đương (làm mịn), sau 21 cập nhật lại dòng (cột) tương ứng ma trận độ hỗ trợ thời điểm trước Sau bước cập nhật này, ta thu ma trận độ hỗ trợ thời điểm t+1 Thuật toán 3.6 : Tính ma trận độ xác ma trận độ phủ thời điểm t+1 Vào: Ma trận độ hỗ trợ thời điểm t+1 Ra: Ma trận độ xác ma trận độ phủ thời điểm t+1 Phương pháp: // Áp dụng mệnh đề 2.1 SupN = 0; // Vecto tổng dòng gồm n giá trị để tính Acc SupM = 0; // Vecto tổng cột gồm m giá trị để tính Cov // Tính tổng for i = to m for j = to n begin SupN(j) = SupN(j) + Sup( ); SupM(i) = SupM(i) + Sup( ); end // Tính Acc, Cov for i = to m for j = to n begin ( ) ( ) ; end Kết thúc Thuật tốn 3.7: Trích rút luật kết hợp có ý nghĩa Vào: -Ma trận độ xác thời điểm t+1 -Ma trận độ phủ thời điểm t+1 -Các ngưỡng Ra: - Các luật kết hợp có ý nghĩa Phương pháp: // Áp dụng định nghĩa 2.7 for i = to m for j = to n begin ( ) if then đưa end Kết thúc Nhận xét: Theo thời gian, thay đổi giá trị thuộc tính kéo dài nhiều thời điểm khác nhau, tồn tiến trình thay đổi chia thành vài phần nhỏ, có nghĩa từ thời điểm t đến thời điểm t+1, từ thời điểm t+1 đến thời điểm t+2… 22 Vì ta ln thực việc lưu lại ma trận độ hỗ trợ, lớp tương đương điều kiện lớp tương đương định , nên thời điểm (giả sử t+2), ma trận độ hỗ trợ , lớp tương đương thu thời điểm trước (thời điểm t+1) sử dụng lại giá trị thời điểm t 3.3.4 Độ phức tạp thuật toán Mệnh đề 3.8 : Độ phức tạp thuật tốn trích rút luật kết hợp có ý nghĩa làm thơ, làm mịn giá trị thuộc tính | | 3.3.5 Ví dụ minh họa 3.4 Ứng dụng thuật tốn 3.4.1 Cài đặt 3.4.1.1 Yêu cầu hệ thống Chương trình “Thuật tốn trích rút luật kết hợp làm thơ, làm mịn giá trị thuộc tính” viết ngơn ngữ C# Visual Studio 2010 sử dụng phiên Net Framewok 4.0 Yêu cầu tối thiểu hệ thống sử dụng chương trình: - Cài đặt Net Framework phiên 4.0 trở lên - Hệ điều hành tối thiểu Windows XP SP2 Mã nguồn biên dịch thành tệp thực thi exe môi trường Windows nên cần cài đặt thư viện yêu cầu chạy chương trình 3.4.1.2 Cấu trúc lớp chương trình Chương trình tổ chức theo lớp có chức rõ ràng, tối ưu cho việc đọc xử lý lớp khác Việc tổ chức theo lớp giúp dễ dàng theo dõi mã nguồn xử lý xảy lỗi Sau mô tả chi tiết cấu trúc lớp chương trình chức chúng Mối liên hệ lớp chương trình: Hình 3.2: Mối liên hệ lớp chương trình 3.4.2 Thử nghiệm chương trình 23 Dữ liệu đầu vào bảng định quán lưu trữ bảng liệu Mỗi bảng lưu trữ thông tin bảng vào bảng trung gian TableMetaData Cấu trúc bảng liệu minh họa sau: Hình3.8: Cấu trúc bảng DS1 Hình 3.9: Cấu trúc bảng TableMetaData Các cấu trúc sử dụng để lưu trữ ma trận độ hỗ trợ List Nó mảng vô hướng C#, linh hoạt xử lý liệu dạng mảng động Để lưu trữ lớp tương đương, chương trình dùng đối tượng Dictionary, phần tử Dictionary list chứa số đối tượng Một số giao diện chương trình: Hình 3.10: Giao diện chương trình nạp bảng định 24 Hình 3.14: Danh sách luật kết hợp trích rút 3.5 Kết luận chương Trong chương trình bày khái niệm làm thơ, làm mịn giá trị thuộc tính Đưa chứng minh số định lý, hệ làm sở cho tính đắn thuật tốn đề xuất theo tiếp cận gia tăng để phát luật kết hợp có ý nghĩa bảng liệu động làm thô, làm mịn giá trị thuộc tính định Ưu điểm cách tiếp cận cần tổ chức lưu trữ cập nhật lại ma trận độ hỗ trợ, dựa tính ma trận độ xác ma trận độ phủ, sau sinh luật Đồng thời đưa mệnh đề đánh giá độ phức tạp thuật toán KẾT LUẬN VÀ KIẾN NGHỊ Những kết luận văn: 1.Trình bày chứng minh công thức biểu diễn mối quan hệ độ đo hỗ trợ với độ đo xác độ phủ luật kết hợp 2.Trình bày thuật tốn theo hướng học gia tăng phát luật kết hợp giá trị thuộc tính bảng liệu thay đổi Ưu điểm thuật toán cần cập nhật lại ma trận độ hỗ trợ, dựa tính ma trận độ xác ma trận độ phủ sinh luật Trình bày chứng minh định lý hệ làm sở cho tính đắn thuật tốn theo hướng học gia tăng phát luật kết hợp làm thơ, làm mịn giá trị thuộc tính điều kiện làm thô, làm mịn giá trị thuộc tính định Trình bày mệnh đề đánh giá độ phức tạp thuật toán Những vấn đề cần tiếp tục nghiên cứu: Luận văn đề cập đến vấn đề xây dựng luật kết hợp bảng định giá trị thuộc tính thay đổi Do em cố gắng tiếp tục nghiên cứu vấn đề : Xây dựng thuật toán phát luật kết hợp bảng định tập đối tượng thay đổi Xây dựng thuật toán phát luật kết hợp bảng định tập thuộc tính thay đổi ... Tập giá trị thuộc tính thay đổi tập đối tượng thuộc tính khơng đổi ; (2) Tập đối tượng thay đổi tập thuộc tính tập giá trị thuộc tính khơng đổi; (3) Tập thuộc tính thay đổi tập đối tượng tập giá. .. vài giá trị thuộc tính kết hợp với thành giá trị (ta gọi tượng làm thô giá trị thuộc tính) ; vài giá trị thuộc tính tách thành hai giá trị (ta gọi tượng làm mịn giá trị thuộc tính) Khi làm thơ giá. .. 15 Chương 3- XÂY DỰNG LUẬT KẾT HỢP TRÊN BẢNG DỮ LIỆU CĨ CÁC GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 3.1 Giới thiệu Trong ứng dụng thực tế, theo thời gian giá trị thuộc tính thay đổi Sự thay đổi nói chung