Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
2,02 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ GIANG THỊ THU HUYỀN NGHIÊN CỨU CÁC LUẬT KẾT HỢP SONG SONG TRONG KHAI PHÁ DỮ LIỆU Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Đoàn Văn Ban Hà Nội – 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CẢM ƠN Để có kết ngày hôm nay, ghi nhớ công ơn thầy cơ, bạn bè, đồng nghiệp gia đình, người dạy bảo ủng hộ suốt q trình học tập Trước hết, tơi muốn gửi lời cảm ơn đến thầy cô giáo trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội quan tâm tổ chức đạo trực tiếp giảng dạy khố cao học chúng tơi Đặc biệt, tơi xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn PGS.TS Đồn Văn Ban, người tận tình bảo góp ý mặt chun mơn cho tơi suốt q trình làm luận văn Nếu khơng có giúp đỡ thầy tơi khó hồn thành luận văn Cũng qua đây, tơi xin gửi lời cảm ơn đến ban lãnh đạo Khoa Hệ thống thông tin Kinh tế thuộc Học viện Ngân hàng, nơi công tác, tạo điều kiện thuận lợi cho tơi thời gian hồn thành mơn học suốt q trình làm luận văn tốt nghiệp Cuối cùng, xin cảm ơn bố mẹ, chồng bạn bè, đồng nghiệp ủng hộ, động viên để yên tâm nghiên cứu hồn thành luận văn Trong suốt q trình làm luận văn, thân cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm nhiều tài liệu liên quan Tuy nhiên, thân bắt đầu đường nghiên cứu khoa học, chắn luận văn cịn nhiều thiếu sót Tơi mong nhận bảo Thầy Cơ giáo góp ý bạn bè, đồng nghiệp để luận văn hoàn thiện Hà Nội, tháng 04 năm 2010 Giang Thị Thu Huyền LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Nghiên cứu luật kết hợp song song khai phá liệu” kết tự thân tơi tìm hiểu, nghiên cứu Các tài liệu tham khảo trích dẫn thích đầy đủ Tơi xin chịu trách nhiệm luận văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1 Khai phá liệu .3 1 Khái niệm Khai phá liệu 1 Kiến trúc hệ thống khai phá liệu .5 1 Một số kỹ thuật khai phá liệu .6 1 Lựa chọn phương pháp khai phá liệu Ứng dụng khai phá liệu Một số khó khăn khai phá liệu 10 Kết luận chương 11 CHƯƠNG KHAI PHÁ CÁC LUẬT KẾT HỢP SONG SONG .12 Luật kết hợp khai phá liệu .12 1 Một số hướng tiếp cận khai phá luật kết hợp 12 2 Các tính chất luật kết hợp 13 Bài toán khai phá luật kết hợp 17 Một số thuật toán khai phá luật kết hợp 17 2 Các thuật toán song song phát luật kết hợp .26 2 Thuật toán song song 27 2 Khai phá luật kết hợp song song .30 Kết luận chương 49 CHƯƠNG CÀI ĐẶT THUẬT TOÁN KHAI PHÁ CÁC LUẬT KẾT HỢP SONG SONG TRONG KHAI PHÁ DỮ LIỆU 50 Cài đặt thuật toán khai phá luật kết hợp song song 50 1 Mơi trường cài đặt chương trình thử nghiệm 50 Mô tả liệu toán .51 3 Giao diện chương trình 52 Đánh giá kết 58 Phương pháp đánh giá chương trình song song 58 2 Kết cài đặt chương trình thử nghiệm .59 KẾT LUẬN .60 TÀI LIỆU THAM KHẢO 62 PHỤ LỤC 64 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Tên viết tắt Diễn giải Ck Tập k-itemset ứng viên (Candidate sets) Conf Độ tin cậy (Confidence) D Cơ sở liệu giao dịch Di Phần thứ i sở liệu D Item Mục Itemset Tập mục k-itemset Tập mục gồm k mục Lk Tập k-itemset phổ biến MPI Truyền thông điệp (Message Passing Interface) minconf Ngưỡng tin cậy tối thiểu (minimum confidence) minsup Ngưỡng hỗ trợ tối thiểu (minimum support) SC Số đếm hỗ trợ (Support count) Sup Độ hỗ trợ (Support) T Giao dịch (Transaction) TID Định danh giao dịch (Unique Transaction Identifer) Tid-List Danh sách định danh giao dịch XY Luật kết hợp (Với X tiền đề, Y hệ quả) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC BẢNG Bảng Trang Bảng Một số ký hiệu dùng thuật toán Apriori .18 Bảng 2 Ký hiệu dùng thuật toán song song 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC HÌNH VẼ Hình Trang Hình 1 Quá trình khai phá liệu Hình Kiến trúc hệ thống khai phá liệu Hình Mơ tả luật kết hợp Hình Tập chứa tập mục khơng phổ biến không phổ biến 15 Hình 2 Minh hoạ thuật tốn Apriori tìm tập mục phổ biến 22 Hình Sinh luật từ tập mục phổ biến 25 Hình Tính tốn 27 Hình Tính tốn song song 27 Hình Kiến trúc nhớ chia sẻ 29 Hình Kiến trúc nhớ phân tán 29 Hình Kiến trúc nhớ lai 30 Hình Giải thuật Count Distribution 32 Hình 10 Cơ sở liệu D tập mục phổ biến 33 Hình 11 Tìm tập mục phổ biến theo thuật toán song song Count Distribution 33 Hình 12 Tìm tập mục phổ biến theo thuật tốn song song Data Distribution 36 Hình 13 Tổ chức liệu theo chiều ngang theo chiều dọc 37 Hình 14 Chuyển đổi liệu 40 Hình 15 Thuật toán song song Eclat 41 Hình 16 Khai phá tập mục phổ biến sử dụng thuật toán song song Eclat 42 Hình 17 Cấu trúc FP-tree cục xây dựng từ phân hoạch sở liệu 46 Hình 18 Khai phá tập mục phổ biến sử dụng thuật toán song song FP-Growth 46 Hình Giao diện nhập liệu đầu vào 56 Hình Giao diện thực theo thuật toán Apriori 56 Hình 3 Giao diện thực theo thuật tốn song song Count Distribution 57 Hình Giao diện thực theo thuật toán song song Eclat 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Đặt vấn đề Ngày nay, người sở hữu kho liệu phong phú, đa dạng khổng lồ Đặc biệt phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực làm cho kho liệu tăng lên nhanh chóng Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật công cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Mặt khác, mơi trường cạnh tranh người ta ngày cần có thơng tin với tốc độ nhanh để giúp cho việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Tiến hành cơng việc q trình phát tri thức sở liệu, kỹ thuật khai phá liệu cho phép phát tri thức tiềm ẩn Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thời Cơng nghệ thơng tin giới nói chung Việt Nam nói riêng Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Các kỹ thuật phát tri thức khai phá liệu thực qua nhiều giai đoạn sử dụng nhiều kỹ thuật: phân lớp (classification), phân cụm (clustering), phân tích tương tự (similarity analysis), tổng hợp (summarization), luật kết hợp (association rules), … Một nội dung phổ biến khai phá liệu phát luật kết hợp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất nhiều tập thuộc tính khác nào? Do việc phát luật kết hợp bước quan trọng khai phá liệu Mặt khác, nhu cầu song song hóa xử lý phân tán cần thiết kích thước liệu lưu trữ ngày lớn nên đòi hỏi tốc độ xử lý dung lượng nhớ hệ thống phải đảm bảo Vì vậy, u cầu cần có thuật tốn song song hiệu cho việc phát luật kết hợp khai phá liệu cần thiết, góp phần thúc đẩy khả ứng dụng việc phát tri thức, hỗ trợ định vào hoạt động thực tiễn Từ vấn đề nêu trên, chọn đề tài “Nghiên cứu luật kết hợp song song khai phá liệu” để làm luận văn tốt nghiệp Mục tiêu luận văn Tìm hiểu khái quát khai phá liệu sâu luật kết hợp Tìm hiểu số mơ hình tính tốn song song LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nghiên cứu xây dựng thuật toán luật kết hợp song song khai phá liệu Cài đặt số thuật toán song song khai phá liệu phát luật kết hợp Bố cục luận văn Luận văn chia làm chương: Chương 1: Tổng quan khai phá liệu Chương giới thiệu trình khai phá liệu phát tri thức, phương pháp khai phá liệu, ứng dụng số khó khăn khai phá liệu Chương 2: Khai phá luật kết hợp song song Chương trình bày tóm tắt luật kết hợp, mơ hình toán khai phá luật kết hợp, khái niệm luật kết hợp, phương pháp khai phá luật kết hợp khai phá luật kết hợp song song Chương 3: Cài đặt thuật toán khai phá luật kết hợp song song ứng dụng cho toán khai phá liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1 Khai phá liệu 1 Khái niệm Khai phá liệu Khai phá liệu (Data Mining) khái niệm đời vào năm cuối thập kỷ 1980 Nó q trình khám phá thơng tin ẩn tìm thấy sở liệu xem bước trình khám phá tri thức Data Mining giai đoạn quan trọng tiến trình khai phá tri thức từ sở liệu, tri thức hỗ trợ việc định khoa học kinh doanh, … Giáo sư Tom Mitchell [20] đưa định nghĩa Khai phá liệu sau: “Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [21] phát biểu: “Khai phá liệu, thường xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin ẩn, trước chưa biết có khả hữu ích, dạng qui luật, ràng buộc, qui tắc sở liệu.” hay nói cách khác “Khai phá liệu – Data Mining tiến trình khám phá tri thức tiềm ẩn sở liệu Cụ thể hơn, tiến trình trích lọc, sản sinh tri thức mẫu tiềm ẩn, chưa biết hữu ích từ sở liệu lớn” [2] Nói tóm lại, Khai phá liệu q trình học tri thức từ liệu thu thập [8]–[12]–[15] Khai phá liệu tiến trình khái quát kiện rời rạc liệu thành tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho tiến trình định Khai phá liệu việc trích rút tri thức cách tự động hiệu từ khối liệu lớn Tri thức thường dạng mẫu tin có tính chất khơng tầm thường, không tường minh (ẩn), chưa biết đến có tiềm mang lại lợi ích Để hình dung vấn đề ta sử dụng ví dụ đơn giản sau: Khai phá liệu ví tìm kim đống cỏ khơ Trong ví dụ này, kim mảnh nhỏ tri thức thơng tin có giá trị đống cỏ khô kho sở liệu rộng lớn Như vậy, thơng tin có giá trị tiềm ẩn kho sở liệu chiết xuất sử dụng cách hữu ích nhờ khai phá liệu Chức khai phá liệu gồm có gộp nhóm phân loại, dự báo, dự đốn phân tích liên kết Năm 1989, Fayyad, Smyth Piatestsky-Shapiro dùng khái niệm Phát tri thức từ sở liệu (Knowledge Discovery in Database-KDD) Trong đó, khai phá liệu giai đoạn đặc biệt tồn q trình, sử dụng kỹ thuật để tìm mẫu từ liệu Có thể coi khai phá liệu cốt lõi trình phát tri thức Quá trình khai phá liệu tiến hành qua giai đoạn hình 1 [7] LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 52 Ở Việt Nam thẻ thông dụng phổ biến thẻ ATM (Automatic Teller Machine) – Loại thẻ rút tiền từ Máy rút tiền tự động hay máy giao dịch tự động, thiết bị ngân hàng giao dịch tự động với khách hàng, thực việc nhận dạng khách hàng thông qua thẻ ATM (thẻ ghi nợ, thẻ tín dụng) hay thiết bị tương thích, giúp khách hàng kiểm tra tài khoản, rút tiền mặt, chuyển khoản, toán tiền hàng hóa dịch vụ, thấu chi tài khoản, … Sản phẩm thẻ nguồn thu mang tính chất chiến lược Ngân hàng Ngân hàng muốn tìm hiểu sản phẩm thẻ mà khách hàng sử dụng kết hợp với sản phẩm khác nhằm phát triển sản phẩm/ dịch vụ tốt nhằm giữ khách hàng cũ tiếp cận thêm với nhiều khách hàng Việc sử dụng luật kết hợp trường hợp tự nhiên hỗ trợ lớn việc dự báo, phân tích đưa định Tuy nhiên, Khai phá luật kết hợp lĩnh vực Ngân hàng có nhiều thách thức: Các tham số đầu vào lấy từ liệu Ngân hàng thường lớn Các tham số có từ nhiều nguồn (bản thân Ngân hàng tổ chức tài khác, …) Lựa chọn tham số để xây dựng mơ hình khai phá liệu khơng đơn giản Các tri thức có nhờ luật kết hợp cần phải kiểm chứng chuyên gia kinh tế Các chuyên gia người định giữ lại hay loại bỏ luật Số lượng luật sinh lớn nên khó quan sát hết được, cần có cơng cụ hỗ trợ khác nữa, … * Cơ sở liệu vào: Tập liệu đầu vào danh sách sản phẩm tương ứng khách hàng sử dụng Điều có nghĩa khách hàng sử dụng lúc nhiều dịch vụ * Cơ sở liệu ra: Luật kết hợp tìm với độ hỗ trợ độ tin cậy luật kết hợp Ví dụ: {TheTinDung} > {ATM} Độ hỗ trợ = 31.63%, Độ tin cậy = 81.58% Kết luật có nghĩa 81.58% khách hàng sử dụng thẻ tín dụng thường sử dụng kèm ATM, 31.63% khách hàng sử dụng hai dịch vụ Nhận xét: Theo định hướng tìm luật kết hợp sản phẩm thẻ dịch vụ khác ngân hàng cung cấp chạy chương trình ta thay đổi giá trị độ hỗ trợ, độ tin cậy ta có nhận xét sau: Nếu chọn giá trị độ hỗ trợ nhỏ độ tin cậy nhỏ số luật sinh nhiều Ví dụ: Độ hỗ trợ 0.05 độ tin cậy 0.1 số luật 374 luật Việc có nhiều LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 53 luật sinh nên ta khó quan sát hết luật, nhiên nhờ có ta tìm luật có giá trị Nếu chọn luật có độ hỗ trợ độ tin cậy lớn số luật q Ví dụ: Độ hỗ trợ 0.2 độ tin cậy 0.6 số luật 20 luật Thông thường ta nên chọn độ hỗ trợ nhỏ độ tin cậy lớn Ví dụ: Độ hỗ trợ 0.1 độ tin cậy 0.5 số luật 80 luật Việc chọn vừa đảm bảo khơng phải tìm q nhiều luật, vừa đảm bảo bỏ sót luật có giá trị Với liệu thu thập phân tích ta khai thác số luật nhằm giúp cho ngân hàng đưa định phục vụ cho hoạt động kinh doanh họ Với thẻ tín dụng: Từ thẻ tín dụng ta có số luật sau: {TheTinDung} > {TheGhiNo} Độ hỗ trợ = 19.39%, Độ tin cậy = 50.00% {TheTinDung} > {ATM} Độ hỗ trợ = 31.63%, Độ tin cậy = 81.58% {TheTinDung} > {DichVuKhac} Độ hỗ trợ = 12.22%, Độ tin cậy = 34.14% {TheTinDung} > {VayTien} Độ hỗ trợ = 22.45%, Độ tin cậy = 57.89% {TheTinDung} > {TietKiem} Độ hỗ trợ = 24.49%, Độ tin cậy = 63.16% {TheTinDung} > {ATM, TheGhiNo} Độ hỗ trợ = 19.39%, Độ tin cậy = 50.00% {TheTinDung} > {TheGhiNo, VayTien} Độ hỗ trợ = 16.33%, Độ tin cậy = 42.11% {TheTinDung} > {ATM, VayTien} Độ hỗ trợ = 22.45%, Độ tin cậy = 57.89% {TheTinDung} > {ATM, TietKiem} Độ hỗ trợ = 23.47%, Độ tin cậy = 60.53% {TheTinDung} > {TietKiem, VayTien} Độ hỗ trợ = 14.29%, Độ tin cậy = 36.84% {TheTinDung} > {ATM, TheGhiNo, VayTien} Độ hỗ trợ = 16.33%, Độ tin cậy = 42.11% {TheTinDung} > {ATM, TietKiem, VayTien} Độ hỗ trợ = 14.29%, Độ tin cậy = 36.84% {TheTinDung} > {Pos} Độ hỗ trợ = 11.22%, Độ tin cậy = 28.95% {TheTinDung} > {ChuyenTien} Độ hỗ trợ = 10.20%, Độ tin cậy = 26.32% Ta thấy, khách hàng sử dụng thẻ tín dụng có xu hướng sử dụng ATM lớn (độ hỗ trợ = 31.63%, độ tin cậy = 81.58%) Việc sử dụng thẻ tín dụng với thẻ ghi nợ khơng đáng kể, thực tế lượng khách hàng sử dụng hai dịch vụ chiếm tỷ lệ nhỏ xét chất hai dịch vụ khác nhau, nhiên thực tế trình sử dụng thẻ ranh giới hai loại thẻ ngày mờ nhoè ngân hàng ngày có nhiều dịch vụ áp dụng cho thẻ Một điểm đáng ý khách hàng sử dụng thẻ tín dụng thường có xu hướng vay tiền (độ hỗ trợ = 22.45%, độ tin cậy = 57.89%) hay gửi tiết kiệm (độ hỗ trợ = 24.49%, độ tin cậy = 63.16%) Phải từ luật ngân hàng áp dụng để đưa vào thực tế có chế độ đặc biệt khuyến khích khách hàng gửi/ vay tiền ngân hàng dễ dàng mở thẻ tín dụng ngược lại Tuy nhiên ta thấy khách hàng sử dụng Thẻ tín dụng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 54 với dịch vụ khác (độ hỗ trợ = 12.22%, độ tin cậy = 34.14%) Một lý dẫn đến điều dịch vụ khác mà ngân hàng cung cấp chưa phong phú Ngân hàng nên tăng cường tốt dịch vụ để thu hút thêm khách hàng tăng cường khả cạnh tranh với ngân hàng khác, Với thẻ ghi nợ: Từ thẻ ghi nợ ta có số luật sau: {TheGhiNo} > {VayTien} Độ hỗ trợ = 20.41%, Độ tin cậy = 35.71% {TheGhiNo} > {TheTinDung} Độ hỗ trợ = 19.39%, Độ tin cậy = 33.93% {TheGhiNo} > {Pos} Độ hỗ trợ = 22.45%, Độ tin cậy = 39.29% {TheGhiNo} > {DichVuKhac} Độ hỗ trợ = 24.49%, Độ tin cậy = 42.86% {TheGhiNo} > {ChuyenTien} Độ hỗ trợ = 25.51%, Độ tin cậy = 44.64% {TheGhiNo} > {DichVuKhac} Độ hỗ trợ = 24.49%, Độ tin cậy = 42.86% {TheGhiNo} > {ATM, VayTien} Độ hỗ trợ = 20.41%, Độ tin cậy = 35.71% {TheGhiNo} > {ATM, TheTinDung} Độ hỗ trợ = 19.39%, Độ tin cậy = 33.93% {DichVuKhac} > {TheGhiNo} Độ hỗ trợ = 24.49%, Độ tin cậy = 57.14% Cũng giống Thẻ tín dụng Khách hàng sử dụng thẻ ghi nợ có xu hướng sử dụng ATM lớn (độ hỗ trợ = 39.80%, độ tin cậy = 69.64%) So với thẻ tín dụng khách hàng sử dụng thẻ ghi nợ với dịch vụ khác tốt (độ hỗ trợ = 24.49%, độ tin cậy = 42.86%) Ngồi khách hàng cịn thường sử dụng Thẻ ghi nợ với dịch vụ như: vay tiền, pos, chuyển tiền nhiều Hiện nay, số lượng khách hàng sử dụng thẻ ghi nợ lớn, ngân hàng cần có sách để giữ chân khách hàng cũ đồng thời mở rộng hoạt động thẻ với sản phảm khác Khi phân tích luật ta thấy có luật thú vị, ví dụ: {TheGhiNo, TheTinDung} > {ATM} có độ hỗ trợ = 19.39%, độ tin cậy = 100.00% Ở luật ta thấy việc sử dụng thẻ ghi nợ, thẻ toán, ATM chiếm tỷ lệ nhỏ 19.39% nhiên sử dụng thẻ ghi nợ, thẻ tín dụng xu hướng dùng ATM lên tới 100% Ở hai loại thẻ việc khách hàng sử dụng kết hợp thẻ với ATM lớn Do đó, ngân hàng cần khơng ngừng hoàn thiện tăng cường cho hệ thống ATM để tạo thuận lợi cho khách hàng Mặc dù việc sử dụng thẻ với dịch vụ khác (e-banking, đầu tư chứng khốn, …) cịn tương lai ngân hàng nên đầu tư để mở rộng thị phần này, xét cho xu tất yếu Ngoài ta thấy, khách hàng sử dụng dịch vụ Ngân hàng thiếu kết hợp sản phẩm/ dịch vụ với nhau, chưa tận dụng hết tiện ích gia tăng mà dịch vụ mang lại Việc sử dụng ATM với dịch vụ khác cịn q so với nhu cầu thực khách hàng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 55 Về phía Ngân hàng có số đề suất: Hồn thiện nâng cao chất lượng tiếp tục phát triển sản phẩm/ dịch vụ giá trị gia tăng phục vụ tốt nhu cầu khách: dịch vụ nạp tiền Topup, dịch vụ thu hộ cước phí Smart Bill, dịch vụ thương mại điện tử Smart Ecom, … Mở rộng kết nối hệ thống ATM/ POS, …để khách hàng dễ dàng sử dụng dịch vụ kèm Hồn thiện thương mại hóa sản phẩm dịch vụ cung cấp Triển khai kế hoạch truyền thông, kế hoạch marketing sản phẩm/ dịch vụ Ngân hàng nên triển khai dịch vụ cung cấp hướng tới đối tượng khách hàng cụ thể Thực tế cho thấy có đợt khuyến mại lượng khách đăng ký sử dụng thẻ tăng nhiều, có tình trạng khách đăng ký dùng thẻ sau lại không dùng Nên ngân hàng nên hướng dịch vụ vào đối tượng người dùng Ví dụ phát triển thẻ cho quan, doanh nghiệp,… Kết hợp với hệ thống tài chính, hệ thống siêu thị, khách sạn, hàng không, …để tăng cường khả sử dụng thẻ Chạy chương trình phân tích kết ta có số kết luận: Ưu điểm: Luật kết hợp mà ta khai thác xem tư liệu quý giúp cho người làm ngân hàng có định hợp lý Mặc dù luật sinh có giá trị, tìm vài luật tốt mang lại nhiều lợi ích kinh tế Nhược điểm: Số thuộc tính liệu để khai phá cịn Trong thực tế sản phẩm thẻ tín dụng hay ghi nợ lại chia làm nhiều sản phẩm khác nữa, ngân hàng cịn có nhiều dịch vụ mà ta chưa phân tích hết được,… Luật kết hợp tìm cịn nhiều, chưa tập trung, khó khăn cho người khai thác luật tìm Hướng phát triển tương lai: Mở rộng số thuộc tính, liệu khai phá để tìm nhiều luật có ý nghĩa Nghiên cứu, cải tiến chương trình để áp dụng với liệu ngày gia tăng ngân hàng Kết thể chương trình luật, cần phát triển thêm phân tích khác để chương trình có tính ứng dụng cao LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 56 3 Giao diện chương trình Hình 3.1 Giao diện nhập liệu đầu vào Hình Giao diện thực theo thuật toán Apriori LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 57 Hình 3 Giao diện thực theo thuật tốn song song Count Distribution Hình Giao diện thực theo thuật toán song song Eclat LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 58 Đánh giá kết Phương pháp đánh giá chương trình song song 1 Đánh giá thời gian thực song song Để đánh giá độ phức tạp tính tốn thuật tốn song song, ngồi việc xác định số bước tính tốn cịn cần đánh giá thời gian truyền thơng tiến trình Trong hệ thống truyền thông điệp, thời gian truyền thông điệp xem xét thời gian thực thuật toán Thời gian thực song song, ký hiệu gồm hai phần: tcomp thời gian tính tốn tcomm thời gian truyền thông liệu Như có: = tcomp + tcomm Thời gian tính tốn tcomp xác định giống thuật toán tuần tự, cách đếm số lượng bước tính tốn Khi có nhiều tiến trình thực đồng thời cần tính thời gian thực tiến trình phức tạp (thực lâu nhất) Thơng thường, tất tiến trình thực thao tác tính tốn, nên cần đếm cách đơn giản số lượng bước tính tốn tiến trình Trong trường hợp khác, tìm số lượng bước tính tốn lớn tiến trình thực thời gian Để thuận tiện bỏ qua thời gian tính tốn thành phần phân chia thời gian truyền thơng điệp Khi thời gian cho tính tốn là: tcomp = tcomp1 + tcomp2 + tcomp3 + 2 Thời gian truyền thông Thời gian truyền thông phụ thuộc vào: số lượng thông điệp, kích thước thơng điệp, cấu hình kết nối mạng đường truyền cách thức truyền tải thông điệp, Công thức ước lượng thời gian truyền thông xác định là: tcomm = tstartup + n * tdata Trong đó: + tstartup thời gian khởi động (thời gian tối thiểu) cần để truyền thông báo khơng có liệu Bao gồm thời gian đóng gói thơng điệp nơi gửi thời gian mở gói thơng điệp nơ nhận Để đơn giản giả thiết thời gian số + tdata thời gian cần để gửi từ (word) liệu (hay mục liệu) từ nơi gửi tới nơi nhận, giả thiết số có n (word) số từ liệu trao đổi hệ thống Tố độ truyền đo bit/ giây Thời gian truyền thông cuối tcomm tổng thời gian truyền thông tất thơng điệp từ tiến trình 3 Tỉ lệ tính tốn/ truyền thơng Thông thường, truyền thông hao tốn (mất nhiều thời gian), tính tốn truyền thơng độ phức tạp tăng n khơng cải thiện thực thi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 59 Độ phức tạp tính tốn lớn so với truyền thơng tăng n lên cải thiện thực thi: Tỉ lệ tính tốn/ truyền thơng = tcomp/ tcomm Chi phí chi phí tối ưu giải thuật Chi phí tính tốn song song định nghĩa: Chi phí = (thời gian thực thi) * (tổng số xử lý sử dụng) Chi phí tính toán đơn giản thời gian xử lý nó, ts Chi phí tính tốn song song * p Thuật toán song song tối ưu chi phí thuật tốn mà có chi phí giải tốn tương đương với thời gian thực hệ thống xử lý đơn Chi phí = * p = k * ts Ở k số, p số lượng xử lý sử dụng Phân tích độ phức tạp thời gian, nói thuật tốn song song tối ưu chi phí nếu: Độ phức tạp thời gian song song * số xử lý = độ phức tạp thời gian 2 Kết cài đặt chương trình thử nghiệm Chương trình cài đặt thử nghiệm sinh luật kết hợp hai thuật toán song song Count Distribution Eclat Cơ sở liệu vào chương trình lưu trữ đĩa cục vị trí nút Khi thực thi chương trình u cầu nhập vào độ hỗ trợ độ tin cậy luật cần khai phá, số xử lý Khi chương trình thực xong, nút nhận nội dung luật kết hợp sinh chương trình Thời gian thực thuật tốn song song Count Distribution Eclat tính từ bắt đầu chạy xử lý cuối nhóm truyền thơng thực xong Thời gian thực thi thuật toán Count Distribution gần thuật toán Apriori với dung lượng liệu vào dung lượng liệu nút Với thuật toán Count Distribution giai đoạn đầu thực thi nhanh thuật toán Apriori tuần tự, cuối giai đoạn thực thi chậm thuật toán Apriori tuần phải chờ nút xử lý đồng Riêng với thuật toán Eclat, số lần quét sở liệu nên thực nhanh so với thuật tốn cịn lại Ngồi ra, kết thực thuật tốn cịn phụ thuộc nhiều vào việc chọn độ hỗ trợ, độ tin cậy, kích thuớc liệu cần khai phá, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 60 KẾT LUẬN Khai phá liệu lĩnh vực nghiên cứu việc phát tri thức sở liệu rộng lớn phương thức thông minh thu hút nhà nghiên cứu người dùng ngành tin học Nghiên cứu lĩnh vực đòi hỏi tích hợp kết nghiên cứu nhiều lĩnh vực khoa học máy tính việc áp dụng nhiệm vụ khai phá liệu Qua thời gian hai năm học tập, tìm hiểu nghiên cứu với khoảng thời gian làm luận văn, luận văn đạt số kết cụ thể hướng phát triển sau: Kết đạt Trình bày cách khái quát khai phá liệu phát tri thức, quy trình khai phá liệu, lựa chọn phương pháp khai phá liệu Trình bày số ứng dụng, khó khăn thách thức khai phá liệu Giới thiệu chi tiết vấn đề khai phá luật kết hợp như: khai niệm sở, tốn xuất phát đến mơ hình, thuật toán khai phá luật kết hợp sở Trên sở thuật toán Apriori thuật tốn thuộc họ Apriori, luận văn trình bày chi tiết số thuật toán khai phá luật kết hợp song song khai phá liệu, phân tích, đánh giá số thuật tốn song song Xây dựng cài đặt chương trình thử nghiệm khai phá luật kết hợp song song dựa vào hai thuật toán song song Count Distribution Eclat để ứng dụng cho toán khai phá liệu Ngồi ra, luận văn cịn cài đặt thêm thuật tốn Apriori để đối chiếu Luận văn tiến hành thử nghiệm thuật toán liệu Ngân hàng nhằm tìm luật kết hợp sản phẩm/ dịch vụ Ngân hàng Hướng phát triển Các giải thuật khai phá liệu (ví dụ giải thuật sinh luật kết hợp song song) phần công việc phát tri thức Trong tương lai, cần phải quan tâm đến giai đoạn khác: lựa chọn liệu, làm tiền xử lý liệu, … Khai phá liệu, phát tri thức thực lặp lặp lại, có tương tác với ta cần tìm hiểu thêm tác động lẫn đó, kết hợp nhiều thuật tốn khai phá liệu với để tạo kết tốt Tiếp tục nghiên cứu sâu thuật toán khai phá luật kết hợp song song, tìm cách cải tiến khắc phục nhược điểm thuật tốn song song có, xây dựng thuật toán nhằm đạt hiệu tốt Tăng cường khả song song hoá cho phù hợp với phát triển công nghệ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 61 Nghiên cứu khả tích hợp với hệ quản trị sở liệu song song nhằm tăng khả thực hiện, lưu trữ, tìm kiếm, … phù hợp với việc giải toán mà sở liệu lến đến giga/ tera-bytes cách có hiệu Mở rộng, hồn thiện chương trình luận văn để xây dựng ứng dụng vào thực tế: tài chính, ngân hàng, quy luật thị trường chứng khoán bất động sản, dự đốn rủi ro tín dụng, định hướng kinh doanh, y tế, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 62 TÀI LIỆU THAM KHẢO Tiếng Việt Đoàn Văn Ban, Nguyễn Mậu Hân (2006), Xử lý song song phân tán, NXB Khoa học Kỹ thuật Hà Nội Đỗ Phúc (2006), Giáo trình khai thác liệu, NXB Đại học Quốc gia TP Hồ Chí Minh Nguyễn Thanh Thuỷ (2001), Khai phá liệu - Kĩ thuật ứng dụng, Bài giảng trường thu Hệ Mờ ứng dụng, Hà Nội Tiếng Anh Agrawal and J.Shafer (1996), “Parallel mining of association rules”, In IEEE trans, on Knowledge and Data Engg, 8(6), pp 962-969 Agrawal, H Mannila, R Srikant (1996), Fast discovery of association rules, MIT Press Agrawal, R Srikant (1994), “Fast algorithms for mining association rules”, In 20 th VL.DBConf Agrawal, Heikki Mannila, Ramakrishnan Srikant, Hannu Toivonen, and A Inkeri Verkamo (1996), Advances in Knowledge Discovery and Data Mining, pp 307-328, AAAI Press D Hand, H Mannila and P Smyth (2001), Principles of Data Mining, The MIT Press, London, England Douglas Gregor and Benjamin Martin (2008), MPI.NET Tutorial in C#, Open Systems Laboratory, Indiana University 10 H D K Moonesinghe, Moon-Jung Chung, Pang-Ning Tan (1996), Fast Parallel Mining of Frequent Itemsets, Department of Computer Science & Engineering, Michigan State University 11 I H Witten and E Frank (2000), Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann Publishers, New York 12 J Han and M Kamber (2006), Data Mining: Concepts and Techniques, 2nd Edition, Morgan Kaufmann Publishers 13 J Han, J Pei and Y Yin (1999), “Mining Frequent Pattens without Candidate Generation”, In ACM SIGMOD 14 Jianwei Li, Ying Liu, Wei-keng Liao, Alok Choudhary (2006), Parallel Data Mining Algorithms for Association Rules and Clustering, CRC Press LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 63 15 M Kantardzic (2003), Data Mining: Concepts, Models, Method, and Algorithms, John Wiley & Sons, New York, NY 16 Margaret H Dunham, Yongqiao Xiao, Le Gruenwald, Zahid Hossain (1997), A survey of association rules, IEEE Press 17 Mohammed Javeed Zaki (1999), Hierarchical Parallel Algorithms for Association Mining, Computer Science Department Rensselaer Polytechnic Institute, Troy, NY 12180, USA 18 Mohammed Javeed Zaki, Srinivasan Parthasarathy, and Wei Li (1998), A Localized Algorithm for Parallel Association Mining, Department of Computer Science, University of Rochester, Rochester, NY 14627 19 Mohammed J Zaki (1999), Parallel and Distributed Association Mining: A Survey, Rensselaer Polytechnic Institute, IEEE Concurrency 20 T Mitchell (1999), “Machine Learning and Data Mining”, Communications of the ACM, 42(11), pp 30—36 21 U M Fayyad, G Piatetsky-Shapiro, P.Smyth and R Uthurusamy (1996), Advances in Knowledge Discovery and Data Mining, AAAI Press, Menlo Park, CA 22 Yi Wang, Haoyuan Li, Dong Zhang, Ming Zhang, Edward Chang (2001), PFP: Parallel FP-Growth for Query Recommendation, ACM Internet 23 http://www.smartlink.com.vn/ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 64 PHỤ LỤC Mơ tả chương trình cài đặt Tổ chức liệu Lớp tập liệu D public class Data { public Dictionary data; //Tập hợp dòng giao dịch public Data() //Khởi tạo tập liệu public string Add(DRow dr) //Thêm giao dịch vào tập liệu public string Add(string rowValues) // Thêm giao dịch vào tập liệu public Data Di(int i, int size) //Chia tập liệu thành nhiều phần, phục vụ cho thuật toán song song public void FromFile(string path) //Đọc tập liệu từ file } Lớp Itemset public class Itemset { public string[] items; //Mảng lưu phần tử itemset public Itemset(int k) //Khởi tạo itemset public bool Include(string str) //Kiểm tra phần tử thuộc itemset hay không public bool Compare(string[] items1, string[] items2) //So sánh itemset public static Itemset GenK_1Subset(Itemset kItemset, int ignoreIndex) // Tạo tập k-1 itemset từ tập k-itemset cách bỏ phần tử public static Itemset GetRest(Itemset items1, Itemset items2) // Lấy phần bù itemset public static Itemset Intersec(Itemset items1, Itemset items2) //Lấy phần giao itemset public void sort() //Sắp xếp phần tử itemset } Lớp phần từ tập L public class LkItem { public Itemset item; //Chứa itemset public int count; //Chứa tổng số giao dịch chứa itemset public LkItem(int k) //Khởi tạo public LkItem Copy() //Sao chép } LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 65 Lớp tập L public class Lk { public Dictionary data; //Lưu phần tử tập L public Lk() //Khởi tạo public bool Contains(LkItem item) //Kiểm tra phần tử thuộc tập L hay không public bool Contains(string item) // Kiểm tra phần tử có thuộc tập L hay không Với phần tử đưa vào theo định dạng chuỗi public bool ContainsItemset(Itemset itemset) //Kiểm tra itemset có tồn tập L hay khơng public LkItem GetLkItemByItemset(Itemset itemset) //Lấy phần tử dựa vào itemset public string Add(LkItem item) //Thêm phần tử vào tập L public void CountSup(Data d) //Đếm số hỗ trợ cho phần tử public void RemoveUnsup(Data d, double minsup) //Xóa phần tử có độ hỗ trợ khơng thỏa mãn public static List SetI(List sets, int i, int size) //Chia thành tập hợp nhỏ để đưa vào xử lý song song public Lk Copy() //Sao chép public void Append(Lk from) //Nối thêm tập khác public void Append(List eclatSets, Lk from) //Nối thêm tập khác dùng cho thuật toán eclat public void EclatRemoveUnSup(Data d, double minsup) //Xóa phần tử có độ hỗ trợ khơng thỏa mãn, dùng cho thuật toán eclat } Lớp phần tử tập C public class CkItem { public Itemset item; //Chứa itemset public int count; // Chứa tổng số giao dịch chứa itemset public int CountSup(Data d) //Đếm độ hỗ trợ } Lớp tập C public class Ck { public Dictionary data; //Lưu phần tử public Ck() //Khởi tạo public string Add(CkItem item) //Thêm phần tử public void CountSup(Data d) //Đếm độ hỗ trợ cho phần tử } LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 66 Lớp chứa luật public class RuleItem { public Itemset from; //A A->B public Itemset to; //B A->B public double conf; //Độ tin cậy luật public double sup; //Độ hỗ trợ luật public RuleItem(int kf, int kt) //Khởi tạo } Lớp tập luật public class Rules { public Dictionary data; //Lưu danh sách luật public Rules() //Khởi tạo public string Add(RuleItem ri) //Thêm luật public void Append(Rules from) //Thêm tập luật khác public override string ToString() //Hiển thị tập luật } Các hàm public class Apriori { public Lk BuildL1(Data d) // Xây dựng tập L1{large 1-itemset} public Ck Generate(Lk Lk_1) //Sinh Ck tử Lk_1 public List FindSet(Data d, double minsup) //Tìm tập L thỏa mãn public Rules GenRules(List sets, Data d, double minconf) //Xây dựng tập luật public Rules GenRules(List worldSets, List sets, Data d, double minconf) //Xây dựng tập luật dùng cho thuật toán song song } public class Eclat { public Lk BuildL1(Data d) //Biểu diễn tập giao dịch theo chiều dọc public Lk SortLk(Lk lk) //Sắp xếp phần tử tập L public Lk ClassDivide(Lk lk, int i, int size) //Chia lớp tương đương public static Rules GenRules(List eclatSets, List sets, Data d, double minconf) //Sinh luật cho thuật toán Eclat } LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tắt luật kết hợp, mơ hình toán khai phá luật kết hợp, khái niệm luật kết hợp, phương pháp khai phá luật kết hợp khai phá luật kết hợp song song Chương 3: Cài đặt thuật toán khai phá luật kết hợp. .. khai phá liệu Ứng dụng khai phá liệu Một số khó khăn khai phá liệu 10 Kết luận chương 11 CHƯƠNG KHAI PHÁ CÁC LUẬT KẾT HỢP SONG SONG .12 Luật kết hợp khai phá. .. nhiều ý nghĩa) 1 Luật kết hợp song song Bên cạnh khai phá luật kết hợp tuần tự, nhà làm tin học tập trung vào nghiên cứu thuật giải song song để phát luật kết hợp, Luật kết hợp song song (parallel