Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 34 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
34
Dung lượng
65,64 KB
Nội dung
TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI Bộ GIÁO DỤC VÀ ĐÀO TẠO BÙI THỊ XUYÊN ỨNG DỤNG LUẬT KẾT HỢP CHỈ DẪN TÀI LIỆU LIÊN QUAN CHỦ ĐÈ LUẬN VĂN THẠC sĩ MÁY TÍNH TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI _• BÙI THỊ XUYÊN ỨNG DỤNG LUẬT KẾT HỢP CHỈ DẪN TÀI LIỆU LIÊN QUAN CHỦ ĐÈ Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC sĩ MÁY TÍNH Ngưòi hướng dẫn khoa học: PGS.TS Lê Huy Thập Trong thời gian thực luận văn thạc sỹ em nhận nhiều khích lệ, động viên, giúp đỡ từ phía thầy cô, gia đình bạn bè xung quanh Em xin bày tỏ lòng biết on chân thành tới thầy giáo, PGS.TS Lê Huy Thập, người trực tiếp hướng dẫn em hoàn thành luận văn thạc sỹ LỜI CẢM Em xin gửi lời cảm ơn chân thành tới thầy cô trường Đại học Sư phạm Hà Nội Em cố gắng học tập hoàn thành luận văn thạc sỹ luận văn thạc sỹ có thiếu sót Em mong nhận góp ý, bảo thầy cô bạn để luận văn thạc sỹ hoàn thiện Vĩnh Phúc, ngàyio tháng 12 năm 2015 Hoc viên * LỜI Bùi CẢM Thị Xuyên Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học PGS TS Lê Huy Thập Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Hoc viên * Bùi Thị Xuyên MỤC DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIÉT TẮT Kí hiêu • w Y nghĩa CSDL Cơ sở liệu D sở liệu giao dịch DL Dữ liệu DM Data mining (khai phá liệu) KDD Knowledge discovery ( phát tri thức) KPDL Khai phá liệu DWT Kỹ nghệ kho liệu DW Kho liệu Độ hỗ trợ ( support) p Độ tin cậy (confidence) n Phép giao u Phép họp c: Tập rỗng e Thuộc ck Tập k-itemset ứng viên Tập họp tập Ac B X->Y Tập k-itemset ứng viên mà TID giao dịch sinh liên k với tập mục ứng viên : Luật kết lợp X Y Tid : Tập giao dịch c: MỞ ĐẦU Lý chọn đề tài Với phát triển nhanh chóng công nghệ thông tin thấy thực tế người có tay lượng liệu lớn với kỹ thuật khai thác cũ SQL giảm dần tính phù họp nhường chỗ cho kỹ thuật khai phá liệu Khai phá liệu trở thành môn nhà khoa học quan tâm nghiên cứu tính ứng dụng cao thực tiễn sống ứng dụng rộng rãi nhiều lĩnh vực như: Tài thị trường chứng khoán, Thương mại, Giáo dục, y tế, sinh học, bưu viễn thông với nhiều hướng tiếp cận như: Phân lớp Dự đoán, Phân cụm, Luật kết họp, Trong viết báo cáo chủ đề đó, soạn giáo trình, viết báo, tạp chí, Tác giả cần thu thập tài liệu tham khảo Các tài liệu tham khảo có thư viện, có mạng có hiệu sách, Tuy nhiên, để tìm kệ sách thư viện, đường link mạng giá sách hiệu sách thích họp cho mục đích vấn đề cần giải nhằm thu tài liệu chuẩn cho mục đích giảm thiểu thời gian tìm kiếm thu tài liệu có chất lượng tốt Mục đích nghiên cứu (Các kết cần đạt đuợc) Dùng khai phá liệu đặc biệt khai phá luật kết hợp thuật toán liên quan như: Apriori-TID Lập trình ứng dụng trường THPT Hùng An Nhiệm vụ nghiên cứu Nghiên cứu kỹ nghệ kho liệu Nghiên cứu khai phá liệu Ngôn ngữ lập trình Đối tượng phạm vi nghiên cứu Khai phá liệu Phương pháp nghiên cứu Phương pháp tìm luật kết họp khai phá liệu Các phương pháp xử lý liệu phục vụ cho khai phá liệu Giả thuyết khoa học Dùng kiến thức khác toán rời rạc, giao dịch CSDL để hỗ trợ nâng cao mở rộng đề tài Cấu trúc luận văn Luận văn gồm: Lời mở đầu, ba chương nội dung, phần kết luận tài liệu tham khảo Chương 1: Tổng quan khai phá liệu Trong giới thiệu tổng quan trình khai phá liệu, kiến trúc hệ thống khai phá liệu, nhiệm vụ chính, phương pháp khai phá ứng dụng khai phá liệu Chương 2: Khai phá luật kết họp Chương trình bày tổng quan luật kết họp, phát biểu toán khai phá liệu, phát luật kết họp, khái niệm luật kết họp phương pháp khai phá luật kết họp Chương 3: Thiết kế ứng dụng luật kết hợp dẫn tài liệu Bước thứ 3: Khai phá liệu, rút tri thức Là khai phá liệu, hay nói cách khác trích mẫu mô hình ẩn liệu Giai đoạn quan trọng, bao gồm công đoạn như: chức năng, nhiệm vụ mục đích khai phá liệu, dùng phương pháp khai phá nào? Thông thường toán khai phá liệu bao gồm: toán mang tính mô tả - đưa tính chất chung liệu, toán dự báo - bao gồm việc phát suy diễn dựa liệu có Tùy theo toán xác định mà lựa chọn phương pháp khai phá liệu cho phù họp Bước thứ tư: Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đoán Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Bước thứ năm: Sử dụng tri thức phát Là hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đoán Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các kết trình phát tri thức đưa ứng dụng lĩnh vực khác Do kết dự đoán mô tả nên chúng đưa vào hệ thống hỗ trợ định nhằm tự động hóa trình Tóm lại: KDD trình kết xuất tri thức từ kho liệu mà khai phá liệu công đoạn quan trọng 1.2.4 Nhiệm vụ khai phá liệu Nhiệm vụ khai phá liệu bao gồm: Phân lóp, Hồi quy, Phân nhóm, Tổng hợp, Mô hình hóa phụ thuộc phát biến đổi độ lệch [3], 1.2.4.1 Phân lóp (phân loại - classification) Là việc xác định ánh xạ để ánh xạ mẫu liệu thỏa mãn ràng buộc vào lóp, liệu phân lóp giao không Mục tiêu thuật toán phân lóp tìm mối quan hệ thuộc tính dự báo thuộc tính phân lóp Như trình phân lóp sử dụng mối quan hệ để dự báo cho mục Các kiến thức phát biểu diễn dạng luật theo cách sau: “Nếu thuộc tính dự báo mục thoả mãn điều kiện tiền đề mục nằm lóp kết luận” Ví dụ: Một mục biểu diễn thông tin nhân viên có thuộc tính dự báo là: họ tên, tuổi, giới tính, trình độ học vấn, thuộc tính phân loại trình độ nhân viên 1.2.4.2 Hồi qui (regression) Là việc dùng hàm dự báo để từ mẫu liệu có hàm dự báo cho giá trị thực Nhiệm vụ hồi quy tương tự phân lóp, điểm khác chỗ thuộc tính để dự báo liên tục rời rạc Việc dự báo giá trị số thường làm phương pháp thống kê cổ điển, chẳng hạn hồi quy tuyến tính Tuy nhiên, phương pháp mô hình hoá sử dụng, ví dụ: định ứng dụng hồi quy nhiều: dự báo thời tiết, ước lượng sác xuất người bệnh chết cách kiểm tra triệu chứng; dự báo nhu cầu người dùng sản phẩm, kháng sản v,v, 1.2.4.3 Phân nhóm (clustering) Là việc mô tả chung để tìm tập hay nhóm, loại mô tả liệu Các nhóm tách phân cấp hay gối lên Có nghĩa liệu vừa thuộc nhóm lại vừa thuộc nhóm khác Các ứng dụng khai phá liệu có nhiệm vụ phân nhóm phát tập khách hàng có phản ứng giống CSDL tiếp thị; xác định quang phổ từ phương pháp đo tia hồng ngoại, Liên quan chặt chẽ đến việc phân nhóm nhiệm vụ đánh giá liệu, hàm mật độ xác suất đa biến/ trường CSDL 1.2.4.4 Tổng họp (summarization) Là công việc liên quan đến phưong pháp tìm kiếm mô tả tập liệu [1], [3], [4] Kỹ thuật tổng họp thường áp dụng việc phân tích liệu có tính thăm dò báo cáo tự động Nhiệm vụ sản sinh mô tả đặc trưng cho lóp Mô tả loại kiểu tổng họp, tóm tắt đặc tính chung tất hay hầu hết mục lóp Các mô tả đặc trưng thể theo luật có dạng sau: “Nếu mục thuộc lóp tiền đề mục có tất thuộc tính nêu kết luận” 1.2.4.5 Phát biến đổi độ lệch (change and deviation dectection) Nhiệm vụ tập trung vào khám phá hầu hết thay đổi có nghĩa dạng độ đo biết trước giá trị chuẩn, phát độ lệch đáng kể nội dung tập liệu thực nội dung mong đợi Hai mô hình độ lệch hay dùng lệch theo thời gian hay lệch theo nhóm Vì nhiệm vụ yêu cầu số lượng dạng thông tin khác nên chúng thường ảnh hưởng đến việc thiết kế chọn phương pháp khai phá liệu khác 1.2.5 Các phương pháp khai phá liệu Quá trình khai phá liệu trình phát mẫu, phương pháp khai phá liệu để tìm kiếm mẫu đáng quan tâm theo dạng xác định Có thể kể vài phương pháp như: Sử dụng công cụ truy vấn, xây dựng định, dựa theo khoảng cách (K-láng giềng gần), giá trị trung bình, phát luật kết hợp, Các phương pháp theo tích hợp vào hệ thống lai để khai phá liệu theo thống kê nhiều năm nghiên cứu [3] 1.2.5.1 Các thành phần giải thuật khai phá liệu Giải thuật khai phá liệu bao gồm thành phần sau: biểu diễn mô hình, kiểm định mô hình phương pháp tìm kiếm Biểu diễn mô hình' Mô hình biểu diễn theo ngôn ngữ để miêu tả mẫu khai thác Mô tả mô hình rõ ràng học máy tạo mẫu có mô hình xác cho liệu Tuy nhiên, mô hình lớn khả dự đoán học máy bị hạn chế Như làm cho việc tìm kiếm phức tạp hiểu mô hình không đơn giản có mẫu tạo mô hình xác cho liệu Một điều quan trọng người thiết kế giải thuật phải diễn tả giả thiết mô tả tạo giải thuật Khả miêu tả mô hình lớn làm tăng mức độ nguy hiểm bị học làm giảm khả dự đoán liệu chưa biết Hơn nữa, việc tìm kiếm trở lên phức tạp việc giải thích mô hình khó khăn Mô hình ban đầu thường xác định cách kết họp biến đầu với biến độc lập biến đầu vào Sau phải tìm tham số mà toán cần tập trung giải Việc tìm kiếm mô hình đưa mô hình phù họp với tham số xác định dựa liệu Trong số trường hợp, tập liệu chia thành tập liệu học tập liệu thử Tập liệu học dùng để làm cho tham số mô hình phù họp với liệu Mô hình sau đánh giá cách đưa liệu thử vào mô hình thay đổi tham số cho phù hợp cần Kiếm định mô hình (model évaluation): Là việc đánh giá, ước lượng mô hình chi tiết, chuẩn trình xử lý phát tri thức với ước lượng có dự báo xác hay không có thoả mãn sở logic hay không? Ước lượng phải đánh giá chéo (cross validation) với việc mô tả đặc điểm bao gồm dự báo xác, tính lạ, tính hữu ích, tính hiểu phù hợp với mô hình Hai phương pháp logic thống kê chuẩn sử dụng mô hình kiểm định Phương pháp tìm kiểm: Phương pháp gồm hai thành phần: Tìm kiếm tham số tìm kiếm mô hình - Tìm kiếm tham số Giải thuật cần tìm kiếm tham số để tối ưu hóa tiêu chuẩn đánh giá mô hình với liệu quan sát với mô tả mô hình định Việc tìm kiếm không cần thiết số toán đon giản Đối với mô hình chung cách này, giải thuật “tham lam” thường sử dụng lặp lặp lại Ví dụ phương pháp giảm gradient giải thuật lan truyền ngược (backpropagation) cho mạng neuron - Tìm kiếm mô hình xảy giống vòng lặp qua phưong pháp tìm kiếm tham số: Mô tả mô hình bị thay đổi tạo nên họ mô hình Với mô tả mô hình, phưong pháp tìm kiếm tham số áp dụng để đánh giá chất lượng mô hình Các phưong pháp tìm kiếm mô hình thường sử dụng kỹ thuật tìm kiếm heuristic kích thước không gian mô hình thường ngăn cản tìm kiếm tổng thể, hon giải pháp đon giản theo mẫu đóng (closed form) không dễ đạt [3] I.2.5.2 - Phương pháp suy diễn / quy nạp Phương pháp suy diễn: Nhằm rút thông tin kết logic thông tin CSDL Ví dụ toán tử liên kết áp dụng cho bảng quan hệ, bảng đầu chứa thông tin nhân viên phòng ban, bảng thứ hai chứa thông tin phòng ban trưởng phòng Như suy mối quan hệ nhân viên trưởng phòng Phương pháp suy diễn dựa kiện xác để suy tri thức từ thông tin cũ Mau chiết xuất cách sử dụng phương pháp thường luật suy diễn - Phương pháp quy nạp: Phương pháp quy nạp suy thông tin sinh từ CSDL Có nghĩa tự tìm kiếm, tạo mẫu sinh tri thức bắt đầu với tri thức biết trước Các thông tin mà phương pháp đem lại thông tin hay tri thức cấp cao diễn tả đối tượng CSDL Phương pháp liên quan đến việc tìm kiếm mẫu CSDL Trong khai phá liệu, quy nạp sử dụng định tạo luật [3] I.2.5.3 Phương pháp K-láng giềng gần Sự miêu tả ghi tập liệu trỏ vào không gian nhiều chiều có ích việc phân tích liệu Việc dùng miêu tả này, nội dung vùng lân cận xác định, ghi gần không gian xem xét thuộc lân cận (hàng xóm - láng giềng) Khái niệm dùng khoa học kỹ thuật với tên gọi K-láng giềng gần, K số láng giềng sử dụng Phương pháp hiệu lại đơn giản Ý tưởng thuật toán học Kláng giềng gần “thực láng giềng gần bạn làm” Ví dụ: Để dự đoán hoạt động cá thể xác định, K-láng giềng tốt cá thể xem xét, trung bình hoạt động láng giềng gần đưa dự đoán hoạt động cá thể [4], [6] Kỹ thuật K-láng giềng gần phương pháp tìm kiếm đơn giản, có số mặt hạn chế giới hạn phạm vi ứng dụng nó, thuật toán có độ phức tạp tính toán luỹ thừa bậc theo số ghi tập liệu Vấn đề liên quan đến thuộc tính ghi Một ghi gồm nhiều thuộc tính độc lập, xem điểm không gian tìm kiếm có số chiều lớn Trong không gian có số chiều lớn, hai điểm có khoảng cách Vì mà kỹ thuật K-láng giềng không cho ta thêm thông tin có ích nào, hầu hết cặp điểm láng giềng Cuối cùng, phương pháp K-láng giềng không đưa lý thuyết để hiểu cấu trúc liệu Hạn chế khắc phục kỹ thuật định Phương pháp sử dụng định luật I.2.5.4 Với kỹ thuật phân lóp dựa định, kết trình xây dựng mô hình cho định Cây sử dụng trình phân lóp đối tượng liệu chưa biết đánh giá độ xác mô hình Tương ứng với hai giai đoạn trình phân lóp trình xây dựng sử dụng định Quá trình xây dựng định nút đơn biểu diễn tất mẫu liệu Sau đó, mẫu phân chia cách đệ quy dựa vào việc lựa chọn thuộc tính Nếu mẫu có lóp nút trở thành lá, ngược lại ta sử dụng độ đo thuộc tính để chọn thuộc tính làm sở để phân chia mẫu lóp Theo giá trị thuộc tính vừa chọn, ta tạo nhánh tương ứng phân chia mẫu vào nhánh tạo Lặp lại trình tạo định, tất nút triển khai thành gán nhãn Quá trình đệ quy dừng lại điều kiện sau thỏa mãn: - Tất mẫu thuộc nút - Không thuộc tính để lựa chọn - Nhánh không chứa mẫu Phần lớn giải thuật sinh định có hạn chế chung sử dụng nhiều nhớ Lượng nhớ sử dụng tỷ lệ thuận với kích thước mẫu liệu huấn luyện Một chương trình sinh định có hỗ trợ sử dụng nhớ song lại có nhược điểm tốc độ thực thi Do vậy, vấn đề tỉa bớt định trở nên quan trọng Các nút không ổn định định tỉa bớt Kỹ thuật tỉa trước việc dừng sinh định chia liệu ý nghĩa [3], I.2.5.5 Phương pháp phát luật kết hợp Phương pháp nhằm phát luật kết họp thành phần liệu CSDL Mầu đầu giải thuật khai phá liệu tập luật kết họp tìm Ta lấy ví dụ đơn giản luật kết họp sau: kết họp hai thành phần A B có nghĩa xuất A ghi kéo theo xuất B ghi đó: A -» B Cho lược đồ R = {Ai, Ap} với thuộc tính Ai, ApVỚi miền giá trị D(Ai), quan hệ r R Một luật kết hợp r mô tả dạngX->B v i X c R v B € R\x Cho w c R, đặt s(W, R) tần số xuất w R tính tỷ lệ hàng r có giá trị cột thuộc w Tần số xuất luật X->B r định nghĩa s(X u {B}, R) gọi độ hỗ trợ luật, độ tin cậy luật s(X u {B}, R)/s(X, R) X gồm nhiều thuộc tính, B giá trị không cố định Nhờ mà không xảy việc tạo luật không mong muốn trước trình tìm kiếm bắt đầu Điều cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ số lượng thuộc tính đầu vào Do cần phải ý thiết kế liệu cho việc tìm kiếm luật kết hợp Nhiệm vụ việc phát luật kết hợp phải tìm tất luật X—»B cho tần số luật không nhỏ ngưỡng (độ hỗ trợ) cho trước độ tin cậy luật không nhỏ ngưỡng cho trước Từ CSDL ta tìm hàng nghìn chí hàng trăm nghìn luật kết hợp Ta gọi tập X c R thường xuyên R thỏa mãn điều kiện s(X,R) > Nếu biết tất tập thường xuyên R việc tìm kiếm luật dễ dàng Vì vậy, giải thuật tìm kiếm luật kết hợp trước tiên tìm tất tập thường xuyên này, sau tạo dựng dần luật kết hợp cách ghép dần tập thuộc tính dựa mức độ thường xuyên Các luật kết họp cách hình thức hóa đơn giản Chúng thích họp cho việc tạo kết có liệu dạng nhị phân Giải thuật tìm kiếm luật kết họp tạo số luật phải với số tập phổ biến tập phổ biến có kích thước K phải có 2K tập phổ biến Thông tin tập phổ biến sử dụng để ước lượng độ tin cậy tập luật kết họp [3] 1.2.6 Lơi khai phá liệu so với phương pháp - So với phương pháp học máy (Machine Learning): Khai phá liệu có lợi chỗ sử dụng CSDL chứa nhiễu liệu không đầy đủ bị biến đổi liên tục [3] - Phương pháp hệ chuyên gia, ví dụ hệ chuyên gia thường mức chất lượng cao nhiều so với liệu CSDL chúng bao hàm trường họp quan trọng, đòi hỏi phải có tham gia chuyên gia việc phát tri thức [3] - Phương pháp thống kê: Có thể thấy phương pháp thống kê có số điểm yếu mà khai phá liệu khắc phục được: không phù họp với kiểu liệu có cấu trúc nhiều CSDL, không sử dụng tri thức có sẵn lĩnh vực, cần có hướng dẫn người dùng để xác định phân tích liệu đâu [3], Kết luận chương Trong vài thập niên gần đây, với thay đổi phát triển không ngừng công nghệ thông tin, luồng thông tin chuyển tải mau lẹ đến chóng mặt dẫn đến bùng nổ thông tin, vậy, chuyên gia cho rằng, sống xã hội “rất giàu thông tin nghèo tri thức” Chính mà việc tìm trích lọc thông tin theo chủ đề quan trọng Trước tình hình giải pháp hiệu giúp phân tích khối lượng liệu lớn khai phá liệu Trong chương trình bày tóm tắt hiểu biết kho liệu KPDL, mục đích, thành phần, phương pháp, ứng dụng khó khăn gặp phải KPDL Trong phương pháp KPDL khai phá luật kết họp phương pháp phổ biến, quan tâm, nghiên cứu nhiều đề cập chi tiết chương sau Chương KHAI PHÁ LUẬT KẾT HỢP 2.1 Môt • •số khái niêm Giả sử có sở liệu D Luật kết họp cho biết phạm vi mà xuất tập mục s ghi D kéo theo xuất tập mục u (SnU = 0) ghi Mỗi luật kết họp đặc trưng cặp tỉ lệ hỗ trợ: độ hỗ trợ độ tin cậy tỉ lệ phần trăm ghi D chứa s u Vẩn đề khám phá luật kết hợp phát biểu sau: Cho trước tỉ lệ hỗ trợ (support ration) độ tin cậy (coníĩdence) p Tìm tất luật D có giá trị tỉ lệ hỗ trợ tin cậy lớn p tương ứng Chẳng hạn D CSDL mua bán độ hỗ trợ = 40% độ tin cậy p = 90% Vấn đề phát luật kết họp thực sau: Đếm tất qui luật xuất số mục kéo theo số mục khác Chỉ xét qui luật mà tỉ lệ hỗ trợ lớn 40% độ tin cậy lớn 90% Chẳng hạn thống kê khách hàng mua sản phẩm qua mạng có CSDL yêu cầu khách hàng giả sử quan tâm đến mối quan hệ "tuổi, giới tính, nghề nghiệp?” mua “những sản phẩm nào?" Rõ ràng có nhiều câu hỏi kiểu [3] 2.2 2.2.1 Luật kết họp[3] Mô hình hình thức luật kết hợp Kí hiệu: 1/1 = {ii, i2, , u tập m khoản mục (item) 2/ T = {ti, t2, , tn} tập (CSDL) giao dịch ti= {iii, ii2, iik} Vij, iyel, gọi giao dịch ti 3/ Gọi X - tập hạng mục I, nói X CỊ ti VỊj, iy e X iij e ti Ví dụ 2.1: Cho bảng 2.1 gọi CSDL giao dịch Giao dịch ID (TID) Các Items A, B, D, E B, c, E A, B, D, E A, B, c, E A, B, c, D, E B, c, D Bảng 2.1 Ví dụ vê CSDL giao dịch Trong I = { A, B, c, D, E}, T = {1, 2, 3, 4, 5, 6} Giao dịch ti = {A, B, D, E}, t2 = { B, c, E}, , t6 = {B, c, D } X = {B, DỊ ta có B , D e I v X c ti, X c t3, X c tg X c t6 Tương tự khái niệm tập họp, Item giao dịch Để thuận tiện coi Item gia dịch xếp theo thứ tự từ điển Độ hỗ trợ tập mục (support) Cho D CSDL n giao dịch giao dịch đánh nhãn với định danh (Unique Transasction Identiíier) Nói rằng, giao dịch t e T hỗ trợ cho tập Xc I chứa tất item X, nghĩa X c= t, (có thể dùng kí hiệu T(X) để tập giao dịch hỗ trợ cho X) Độ hỗ trợ tập mục X, kí hiệu support(X) (hoặc supp(X) sup(X) s(X)) tỷ lệ phần trăm giao dịch hỗ trợ X tổng giao dịch J, nghĩa là: (2 Count{X c= 11T e \ Count sup(X) = Item, X Ví du 2.2: Trong bảng 2.1 ta thấy Count(J) = Count(T) = Với X = {A} Count(X) = 4, X = {BỊ Count(X) = 6, X = {C} Count(X) = 4, X={D}thì Count(X) = 4, X = {E} Count(X) = Dựa vào công thức (2.1) ta có bảng 2.2 Đô hỗ trơ tối thiểu • • Độ hỗ trợ tối thiểu, kí hiệu minsup (minimum support) giá trị cho truớc người sử dụng (là chuyên gia tốt) Nếu tập mục X có supp(X) > minsup ta nói X tập mục phổ biến (hoặc large itemset) Tập mục phổ biến tập quan tâm thuật toán Trong trình bày sau này, ta sử dụng cụm từ khác “X có độ hỗ trợ tối thiểu” để nói lên X thỏa mãn supp(X) > minsup 2.2.2 Định nghĩa luật kết họp Luật kết hợp tập X theo tập mục Y kí hiệu XRỴ X —> Y, X, Y ç I X nY = ; X gọi giả thiết Y gọi kết luận Hai tham số quan trọng luật kết hợp độ hỗ trợ (support) độ tin cậy (confident) Nó làm thước đo cho cho tính tin cậy mức độ xác luật Độ hỗ trợ luật kết hợp Độ hỗ trợ luật X —> Y tỉ số số giao dịch T có chứa Xu Y tổng số giao dịch T tính sau: Sup(X Count(X u ) Count(T) ĐỘ tin cậy luật kết hợp Độ tin cậy đo mức độ xác luật tỷ lệ tập giao dịch có chứa XuY so với tập giao dịch có chứa X lớn ß e [0, 1] với Độ tin cậy luật X ->Y, kí hiệu conf(X ->Y) xác định theo công thức sau: Conf(X —» Y) = Sup(x — ^ > 6 Sup(X) Count(X F) Do Conf(X -» ) = Sup(*u "> = Sup(X) "> Count(X) Count(X) CountỢ) Conf(X —» , Count(X) ’ Từ định nghĩa ta có: < sup(X->Y) < < conf(X->Y) < Theo quan niệm xác suất, độ hỗ trợ xác suất xuất tập mục X u Y, độ tin cậy xác suất có điều kiện xuất Y xuất X Ví du 2.3: Tính sup conf luật kết hợp CSDL giao dịch ví dụ 2.2-1 Với Count(T) = Count(T) = ta có bảng 2.3 sau: Sup(X—>Y) Count(X u ) Count(T) Conf(X—>Y) Count(X u ) Count(X) X >Y Count(X) Count(XuY) A >c 2/6=33,3% 2/4=50% c >A c >13 2/6=33,3% 2/4=50% 4 4/6=66,7% 4/4=100% 13 >c 4/6=66,7% 4/6=66,7% 4/6=66,7% 4/6=66,7% 13 >D Bảng 2.3 Tính độ hỗ trợ độ tin cậy Tập phổ biến (Frequent Itemset): Một tập mục X gọi tập phổ biến độ hỗ trợ lớn ngưỡng minsup cho người sử dụng: supp(X) > rainsup Ví dụ 2.4: Xét CSDL giao dịch ví dụ 2.2-1 với minsup=50% ta tìm tập phổ biến bảng 2.4 sau: Các tập phổ biến X Độ hỗ trợ Sup B 6/6 =100% E, BE 5/6 = 83,3% A, c, D, AB, AE, BC, BD, ABE 4/6 = 66,7% AD, CE, ABD, ADE, BCE, BDE 3/6 = 50% Bảng 2.4 Các tập phô biên - Tất tập tập phổ biến tập phổ biến Các tính chất tập phổ biến Tính chất Độ hỗ trợ cho tất tập con: A ç B, A, B tập mục sup(A) > sup(B) Vì tất giao dịch J hỗ trợ B hỗ trợ A nghĩa Tính chất Nếu tập mục B độ hỗ trợ tối thiểu D nghĩa support(B) < minsup VB ç A tập phổ biến support(B) < support(A) < minsup Tính chất Nếu tập mục B phổ biến D, nghĩa support(B) > minsup tập A B tập phổ biến D support(A) > support(B) > minsup 2.2.3 Phát biểu toán luật kết họp Cho CSDL T, độ hỗ trợ tối thiểu minsup, độ tin cậy tối thiểu minconf Bài toán khai phá luật kết hợp toán tìm tất luật X —>Y (X, Yc I X n Y = 0) thỏa mãn sup(X-»Y) > minsup conf(X—>Y) > minconf Hầu hết thuật toán đề xuất để khai phá luật kết họp thường chia thành hai pha [4] [7]: Bài toán 1: Tìm tất tập mục mà có độ hỗ trợ lớn độ hỗ trợ cho trước Các tập mục thoả mãn độ hỗ trợ tối thiểu gọi tập mục phổ biến Nghĩa là, tìm tất tập mục X thỏa mãn supp(X) > minsup Bài toán 2: Dùng tập mục phổ biến để sinh luật mong muốn, nghĩa là, sinh luật tin cậy từ tập phổ biến tìm thấy toán Ví dụ 2.5: Với tập phổ biến ADE có độ tin cậy supp(ADE) = 50% bảng 2.4 minconf = 70% sinh luật kết họp bảng 2.5 sau đây: Luật kết họp (X->Y) A->DE Conf(X-»Y) Độ tin cậy conf > minconf ? =supp(ADE)/supp(A)=75% Có D->AE 75% Có E->AD 60% Không AD->E 100% Có DE-KA 100% Có AE->D 75% Có Bảng 2.5 Luật kết hợp sinh từ tập phổ biến ADE [...]... khách hàng Tuy nhiên, các vấn đề về tài chính cần có một khung nhìn khác về khách hàng Khung nhìn đó bao gồm các phần dữ liệu khác nhau về tài chính và marketing Tính tích hợp thể hiện ở chỗ: dữ liệu tập hợp trong kho dữ liệu được thu thập từ nhiều nguồn được trộn ghép với nhau thành một thể thống nhất b Tính hướng chủ đề Dữ liệu trong kho dữ liệu được tổ chức theo chủ đề phục vụ cho tổ chức dễ dàng... liệu có thể không cần không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ dữ liệu mang tính tổng họp phục vụ chủ yếu cho quá trình phân tích để trợ giúp quyết định 2/ Kho dữ liệu có thể phải lưu dữ liệu dạng CSDL cần cho các ứng dụng tác nghiệp Do vậy, các hệ thống ứng dụng tác nghiệp (Operational Application System OAS) cần lưu trữ dữ liệu chi tiết Mối quan hệ của dữ liệu trong hệ thống này cũng khác, đòi... còn Y được gọi là kết luận Hai tham số quan trọng của luật kết hợp là độ hỗ trợ (support) và độ tin cậy (confident) Nó làm thước đo cho cho tính tin cậy và mức độ chính xác của luật Độ hỗ trợ của luật kết hợp Độ hỗ trợ của luật X —> Y bằng tỉ số giữa số các giao dịch trong T có chứa Xu Y trên tổng số giao dịch T được tính như sau: Sup(X Count(X u ) Count(T) ĐỘ tin cậy của luật kết hợp Độ tin cậy đo... cây quyết định khi chia dữ liệu không có ý nghĩa [3], I.2.5.5 Phương pháp phát hiện luật kết hợp Phương pháp này nhằm phát hiện ra các luật kết họp giữa các thành phần dữ liệu trong CSDL Mầu đầu ra của giải thuật khai phá dữ liệu là tập luật kết họp tìm được Ta có thể lấy một ví dụ đơn giản về luật kết họp như sau: sự kết họp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo... tin theo chủ đề là rất quan trọng Trước những tình hình đó giải pháp hiệu quả giúp phân tích khối lượng dữ liệu lớn đó là khai phá dữ liệu Trong chương 1 đã trình bày tóm tắt những hiểu biết về kho dữ liệu và KPDL, mục đích, thành phần, các phương pháp, ứng dụng và những khó khăn đang gặp phải của KPDL Trong những phương pháp KPDL thì khai phá luật kết họp là phương pháp phổ biến, đang được quan tâm,... D chứa cả s và u Vẩn đề khám phá luật kết hợp được phát biểu như sau: Cho trước tỉ lệ hỗ trợ (support ration) 9 và độ tin cậy (coníĩdence) p Tìm tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn 9 và p tương ứng Chẳng hạn D là CSDL mua bán độ hỗ trợ 9 = 40% và độ tin cậy p = 90% Vấn đề phát hiện luật kết họp được thực hiện như sau: Đếm tất cả những qui luật chỉ ra sự xuất hiện một... processing) Dòng dữ liệu trong một tổ chức (cơ quan, xí nghiệp, công ty, ) có thể mô tả khái quát như sau: Hình 1.1 Luồng dữ liệu của một tổ chức Dữ liệu cá nhân không thuộc phạm vi quản lý của hệ quản trị kho dữ liệu Nó chứa các thông tin được trích xuất ra từ các hệ thống dữ liệu tác nghiệp, kho dữ liệu và từ những kho dữ liệu cục bộ của những chủ đề liên quan bằng các phép gộp, tổng họp hay xử lý theo... những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được” Các ứng dụng của khai phá dữ liệu: Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều nghành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, CSDL, thuật toán, tính toán song song Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình hóa dữ liệu và phát... kê để mô hình hóa dữ liệu và phát hiện các mẫu Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như: Bảo hiểm, tài chính, thị trường chứng khoán: phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán Danh mục vốn và giá, lãi xuất, dữ liệu thẻ tín dụng, phát hiện gian lân, Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định: Điều trị y học và chăm sóc y... mô tả dữ liệu Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau Có nghĩa là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác Các ứng dụng khai phá dữ liệu có nhiệm vụ phân nhóm như phát hiện tập các khách hàng có phản ứng giống nhau trong CSDL tiếp thị; xác định các quang phổ từ các phương pháp đo tia hồng ngoại, Liên quan chặt chẽ đến việc phân nhóm là nhiệm vụ đánh giá dữ liệu, hàm