Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
859,29 KB
Nội dung
ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN - LÊ THỊ VIỆT HOA KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP SONG SONG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hướng dẫn khoa học: PGS.TS ĐOÀN VĂN BAN THÁI NGUYÊN 2008 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 LỜI CẢM ƠN Xin chân thành cảm ơn Thầy giáo PGS.TS Đoàn Văn Ban tận tình dạy hướng dẫn suốt thời gian học tập làm luận văn Tôi xin xin lời biết ơn chân thành đến quý Thầy giáo, cô giáo Viện Công nghệ Thông tận tình giảng dạy, trang bị cho kiến thức quý báu suốt trình học tập Khoa Xin cảm ơn tất anh chị em học viên Cao học khóa 5, cám ơn cán công chức, giảng viên – Khoa Công nghệ Thông tin - Đại học Thái Nguyên tạo điều kiện giúp đỡ suốt trình học tập làm luận văn Cuối xin cảm ơn gia đình, bạn bè, đồng nghiệp giúp đỡ suốt thời gian học tập hoàn thành luận văn Thái Nguyên, tháng năm 2008 Tác giả Lê Thị Việt Hoa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 LỜI CAM ĐOAN Tôi xin cam đoan đề tài khoa học “Khai phá liệu thuật toán khai phá luật kết hợp song song ” công trình nghiên ứu c thân Các số liệu kết nghiên cứu nêu luận văn trung thực, tác giả cho phép sử dụng tài liệu tham khảo trình bày luận văn Tôi xin chịu trách nhiệm luận văn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỤC LỤC Trang phụ bìa Trang Lời cám ơn Lời cam đoan Mục lục Danh mục kí hiệu, chữ viết tắt Danh mục hình vẽ Mở đầu Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm 1.2 Kiến trúc hệ thống khai phá liệu 1.3 Các giai đoạn trình khai phá liệu 1.4 Một số kỹ thuật khai phá liệu 1.5 Các sở liệu phục vụ cho khai phá liệu 10 1.6 Các phương pháp khai phá liệu 11 1.7 Các ứng dụng khai phá liệu 13 1.8 Khai phá liệu lĩnh vực liên quan 14 1.9 Các thách thức phát tri thức khai phá liệu 15 1.10 Kết luận chương 16 Chương 2: KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU 17 2.1 Mở đầu 17 2.2 Luật kết hợp 18 2.2.1 Các khái niệm 18 2.2.2 Khai phá luật kết hợp 21 2.2.3 Cách tiếp cận khai phá luật kết hợp 22 2.3 Luật kết hợp sở 24 2.3.1 Phát tập mục phổ biến 24 2.3.2 Sinh luật kết hợp 30 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 2.4 Khai phá luật kết hợp với số khái niệm mở rộng 32 2.4.1 Giới thiệu 32 2.4.2 Khai phá luật kết hợp trọng số 32 2.4.3 Khai phá luật kết hợp tổng quát 43 2.5 Kết luận chương 49 Chương 3: MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP SONG SONG VÀ PHÂN TÍCH ĐÁNH GIÁ CÁC THUẬT TOÁN 3.1 Nguyên lý thiết kế thuật toán song song 50 50 3.2 Hư ớng tiếp cận thiết kế thuật toán khai phá luật kết hợp song song 51 3.2.1 Mô hình song song liệu 51 3.2.2 Mô hình song song thao tác 51 3.3 Một số thuật toán khai phá luật kết hợp song song 52 3.3.1 Thuật toán Count Distribution (CD) 52 3.3.2 Thuật toán Data Distribution (DD) 54 3.3.3 Thuật toán Candidate Distribution 58 3.3.4 Thuật toán song song Fp-Growth 60 3.3.5 Thuật toán song song Eclat 65 3.4 Phân tích, đánh giá so sánh việc thực thuật toán 71 3.4.1 Phân tích đánh giá thuật toán song song 71 3.4.2 So sánh việc thực thuật toán 73 3.5 Kết luận chương 74 Kết luận 75 Tài liệu tham khảo 77 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 DANH MỤC CÁC KÝ HIỆU VIẾT TẮT Diễn giải Ký hiệu Ck Tập k-itemset ứng viên Ck Tập k-itemset ứng viên mà TID giao dịch sinh Conf Độ tin cậy (Confidence) CFPT FP-Tree điều kiện sở (Fisst conditional FP-Tree) D Cơ sở liệu giao dịch Di Phần thứ i sở liệu D Item Mục Itemset Tập mục I Tập mục KDD Phát tri thức sở liệu (Knowledge Discovery in Database) CSDL Cơ sở liệu (Database) k-itemset Tập mục gồm k mục Lk Tập k-itemset phổ biến MPI Truyền thông điệp minconf Ngưỡng tin cậy tối thiểu minsup Ngưỡng hỗ trợ tối thiểu OLAP Phân tích trực tuyến OLTP Xử lý giao dịch trực tuyến SC Số đếm hỗ trợ (support count) sup Độ hỗ trợ (support) T Giao dịch (transaction) Tid Định danh giao dịch Tid-List Danh sách định danh giao dịch X ⇒Y Luật kết hợp (với X tiền đề, Y hệ quả) liên kết với tập mục ứng viên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 DANH MỤC HÌNH VẼ VÀ BẢNG Trang Hình 1.1 Khám phá tri thức sở liệu điển hình Hình 1.2 Các bước quy trình khai phá liệu Hình 1.3: Cây định Hình 1.4: Mẫu kết nhiệm vụ phân cụm liệu Hình 1.5: Mẫu kết nhiệm vụ hồi quy Hình 1.6: Một số lĩnh vực liên quan đến khai phá liệu 14 Hình 2.1 Sơ đồ tổng quan thuật toán khai phá tập mục phổ biến 24 Hình 2.2: Ví dụ thuật toán Apriori 28 Bảng 2.1.a Thông tin cửa hàng bán lẻ 33 Bảng 2.1.b Tập giao dịch D cửa hàng 33 Hình 3.1 Mô hình song song liệu 51 Hình 3.2 Mô hình song song thao tác 52 Hình 3.3 Sơ đồ thuật toán Count Distribution 52 Hình 3.4 Phát hi ện tập mục phổ biến thuật toán song song CD 54 Hình 3.5 Sơ đồ mô tả thuật toán Data Distribution 55 Hình 3.6: Sơ đồ luồng thuật toán Data Distribution 56 Hình 3.7: Phát hi ện tập mục phổ biến thuật toán song song DD 57 Hình 3.8: Các phân hoạch CSDL FP-Tree cục ban đầu 61 Bảng 3.1: Các mẫu điều kiện sở FP-Tree điều kiện sở 62 Hình 3.9: Quá trình sinh tập phổ biến xử lý P1 P2 63 Hình 3.10: Quá trình chuyển đổi CSDL theo chiều dọc 70 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỞ ĐẦU Với bùng nổ phát triển công nghệ thông tin mang lại nhiều hiệu khoa học hoạt động thực tế, khai phá liệu lĩnh vực mang lại hiệu thiết thực cho người Khai phá liệu giúp người sử dụng thu tri thức hữu ích từ sở liệu kho liệu khổng lồ khác Cơ sở liệu đơn vị, tổ chức kinh doanh, quản lý khoa học chứa đựng nhiều thông tin tiềm ẩn, phong phú đa dạng, đòi hỏi phải có phương pháp nhanh, phù hợp, xác, hiệu để lấy thông tin bổ ích Những “ tri thức” chiết suất từ nguồn sở liệu nguồn thông tin hỗ trợ cho lãnh đạo việc lên kế hoạch hoạt động việc định sản xuất kinh doanh T iến hành công việc thực trình phát tri thức sở liệu (Knowledge Discovery in Database) mà kỹ thuật khai phá liệu (Data Mining) cho phép phát tri thức tiềm ẩn Để lấy thông tin mang tính tri thức khối liệu khổng lồ, cần thiết phải phát triển kỹ thuật có khả tích hợp liệu từ hệ thống giao dịch khác nhau, chuyển chúng thành tập hợp sở liệu ổn định có chất lượng Các kỹ thuật gọi kỹ thuật tạo kho liệu môi trường liệu nhận áp dụng kỹ thuật tạo kho liệu nói gọi kho liệu (Data Warehouse) [19, 24] Một nội dung khai phá liệu phổ biến phát luật kế t hợp Phương pháp nhằm tìm tập thuộc tính thường xuất đồng thời sở liệu rút luật ảnh hưởng tập thuộc tính dẫn đến xuất (hoặc tập) thuộc tính khác Bên cạnh đó, nhu cầu song s ong hóa xử lý phân tán cần thiết kích thước lưu trữ liệu ngày nhiều nên đòi hỏi tốc độ xử lý dung lượng nhớ hệ thống phải đảm bảo Vì thế, yêu cầu cần có thuật toán song song hiệu cho việc phát luật kết hợp Ứng dụng khai phá liệu mang lại lợi ích to lớn việc tổng hợp cung cấp thông tin nguồn sở liệu lớn Hơn nhu cầu song song hóa xử lý phân tán cần thiết kích Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 thước d ữ liệu lưu trữ ngày lớn nên đòi hỏi tốc độ xử lý dung lượng nhớ hệ thống phải đảm bảo Vì thế, yêu cầu cần có thuật toán song song hiệu cho luật kết hợp Phương pháp nghiên cứu luận văn tổng hợp kết dự a báo khoa ọc h số hội thảo quốc tế báo chuyên ngành, từ trình bày vấn đề khai phá liệu xây dựng số thuật toán khai phá luật kết hợp song song Nội dung luận văn trình bày chương phần kết luận Chương 1: Tổng quan khai phá liệu: Giới thiệu tổng quan trình khai phá liệu, kho liệu khai phá liệu; kiến trúc hệ thống khai phá liệu; Nhiệm vụ phương pháp khai phá liệu Chương 2: Khai phá luật kết hợp song song: Chương trì nh bày tổng quan luật kết hợp; phát biểu toán khai phá liệu, phát luật kết hợp; khái niệm luật kết hợp phương pháp khai phá luật kết hợp; khai phá luật kết hợp với số khái niệm mở rộng Chương 3: Một số phương pháp khai phá luật kết hợp song song phân tích đánh giá thuật toán song song Thái Nguyên 01 tháng 10 năm 2008 Tác giả Lê Thị Việt Hoa Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Chương TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm Khai phá liệu khái niệm đời vào năm cuối thập kỷ 80, trình tìm kiếm, khám phá d ưới nhiều góc độ khác nhằm phát mối liên hệ, quan hệ liệu, đối tượng bên CSDL, kết việc khai phá xác định mẫu hay mô hình tồn bên chúng nằm ẩn CSDL [3] Về chất giai đoạn rút trích tìm mẫu, mô hình hay thông tin mới, tri thức tiềm ẩn có CSDL chủ yếu phục vụ cho mô tả dự đoán Đây giai đoạn quan trọng trình phát tri thức từ CSDL, tri thức hỗ trợ việc định, điều hành khoa học kinh doanh Khai phá liệu tiến trình khám phá tri thức tiềm ẩn CSDL, cụ thể hơn, tiến trình lọc, sản sinh tri thức mẫu tiềm ẩn, chưa biết thông tin hữu ích từ CSDL lớn 1.2 Kiến trúc hệ thống khai phá liệu Khai phá d ữ liệu trình rút trích thông tin bổ ích từnhững kho liệu lớn Khai phá d ữ liệu quátrình khai phá tri th ức từ s liệu Kiến trúc hệ thống khai phá liệu có thành [2] phần sau: Hình 1.1 Khám phá tri thức sở liệu điển hình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 1) 2) if(Tree chứa đường dẫn đơn) and (i ≠ null) then Sinh tập mục có độ hỗ trợ ≥ minsup tổ hợp nút đường dẫn 3) 4) else if(i ≠ null) then Sinh tập mục β = i ∪ α Xây dựng mẫu điều kiện sở β CFPTβ 5) 6) else for i bảng tiêu đề Cây Sinh tập mục β = i ∪ α Xây dựng mẫu điều kiện sở β CFPTβ 7) if CFPTβ ≠ ∅ then FP-Growth-OneItem(CFPTβ, β, null); 3.3.5 Thuật toán song song Eclat 1) Nhóm tập mục giao dịch Phương pháp đ ể nhóm tập mục phổ biến có liên quan với cách sử dụng lược đồ phân chia lớp tương đương Mỗi lớp tương đương chứa tập mục ứng cử quan h ệ tương đương với Bên cạnh, ta sử dụng kỹ thuật tổ chức CSDL theo chiều dọc để nhóm giao dịch có liên quan với Phân lớp tương đương Gọi Lk tập itemset phổ biến Không tính tổng quát, giả sử L k xếp theo thứ tự từ điển Ta phân hoạch tập mục Lk thành lớp tương đương sau: Nếu phần t Lk có k – thành viên giống chúng thuộc lớp Ký hiệu: Lớp tương đương chứa a Sa = [a] Trong phạm vi lớp, ta sinh k-itemset ứng cử cách kết nối tất S i = S i ( S i − 1) / cặp với tiền tố định danh lớp Trong đó: |Si| số phần 2 tử lớp có định danh i Các k- itemset ứng cử ứng cử sinh ta từ lớp khác độc lập với Tổ chức sở liệu Thuật toán Eclat sử dụng cách tổ chức liệu theo chiều dọc Với tổ chức liệu theo chiều dọc, CSDL gồm danh sách mục Mỗi mục Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 65 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 xác định danh sách định danh giao dịch có chứa mục đó, ký hiệu tid-List Những ưu điểm cách tổ chức theo chiều dọc: - Nếu tid-List theo thứ tự tăng dần độ hỗ trợ k-itemset ứng cử tính toán phép lấy giaocác tid-List hai (k-1)subset b ất kỳ, Với cách tổ chức này, thuật toán không cần phải trì cấu trúc liệu phức tạp, không băm c ũng sinh tất -ksubset c giao dịch thực thao tác tìm kiếm băm - Các tid-List chứa tất thông tin liên quan tập mục, vậy, tính độ hỗ trợ cho tập mục không cần phải quét toàn CSDL Vì tất thông tin lớp tương đương nhóm nên sinh tập mục phổ biến trước chuyển sang lớp Ví dụ: Giả sử tid-List AB, AC là: T(AB) = {1, 5, 7, 10, 50}; T(AC) = {1, 4, 7, 10, 11} Thì T(AB) ∩ T(AC) cho T(ABC) = {1, 7, 10} Ta tính độ hỗ trợ cách đếm số phần tử tid-List, số phần tử tid-List l ớn độ hỗ trợ tối thiểu chèn ABC vào L3 2) Thuật toán song song Eclat Nội dung thuật toán Begin /* Pha khởi tạo*/ 1) Duyệt qua phân hoạch CSDL cục 2) Tính toán số đếm hỗ trợ cục cho tất 2-itemset 3) Xây d ựngsố đếm hỗ trợ tổng thể cho tập mục chứa L2 /*Pha biến đổi*/ 4) Phân hoạch L2 thành lớp tương đương 5) Lập lịch L2 tập xử lý 6) Tổ chức phân hoạch liệu cục theo chiều dọc 7) Truyền tid-List có liên quan tới xử lý khác 8) L2 cục = nhận tid-List từ xử lý khác /*Pha đồng thời*/ 9) forparallel lớp tương E2 L2 cục Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 66 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Compute_Frequent(E2) /*Pha rút gọn*/ 10) Tập hợp kết đưa kết hợp end Giải thích thuật toán 1) Phần khởi tạo Pha khởi tạo bao gồm việc tính toán tất -itemset phổ biến CSDL cần khai phá Ta không cần tính số đếm hỗ trợ -itemset việc xác định số đếm hỗ trợ -itemset đạt lần duyệt CSDL Để tính toán cho 2-itemset, xử lý sử dụng mảng cục tiến hành số hóa mục CSDL theo hai chiều Mặt khác, xử lý tính số đếm hỗ trợ cục cho 2-itemset thực phép lấy tổng rút gọn (sum-reduction) tất xử lý để xây dựng số đếm hỗ trợ tổng thể Kết thúc pha khởi tạo, tất xử lý có số đếm hỗ trợ tổng thể tất 2-itemset phổ biến L2 CSDL 2) Pha biến đổi gồm bước Bước 1: Đầu tiên L2 phân hoạch thành lớp tương đương Sau lớp tương đương gán cho xử lý cho cân Bước 2: CSDL biến đổi từ định dạng theo chiều ngang thành chiều dọc phân phối lại Do đó, nhớ cục xử lý, tid-List tất 2-itemset lớp tương đương gán cho Lập lịch phân lớp tương đương Đầu tiên, ta phân hoạch L2 thành lớp tương đương cách sử dụng tiền tố chung mô tả Tiếp theo, phân chia cho xử lý lớp tương đương Mỗi lớp tương đương gán trọng số dựa vào số phần tử lớp Vì phải khảo sát tất cặp bước lặp tiếp theo, nên ta m gán trọng số cho mộ t lớp với m số p h ần tử củ a lớp tươn g đ ương 2 tương ứng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 67 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Sắp xếp lớp dựa theo trọng số gán cho xử lý nạp nhất, nghĩa xử lý có trọng số toàn phần lớp nhỏ Nếu ước lượng tốt số tập mục phổ biến mà nhận từ lớp tương đương sử dụng ước lượng làm trọng số Trong phạm vi lớp, lấy độ hỗ trợ trung bình tập mục làm trọng số Biến đổi CSDL theo chiều dọc Sau phân hoạch lớp tương đương cân xử lý, ta biến đổi CSDL cục từ định dạng theo chiều ngang theo chiều dọc Điều thực bước: Bước 1: Mỗi xử lý duyệt CSDL cục xây dựng tid-List cục cho tất 2-itemset Bước 2: Mỗi xử lý cần xây dựng tid-List toàn cục cho tập mục lớp tương đương Do đó, phải gửi tid -List cho xử lý khác nhận tid-List từ xử lý khác gửi đến 3) Pha đồng thời Cơ sở liệu phân bố lại, tid -List tất itemset lớp tương đương cục thường trú đĩa cục Mỗi xử lý tính toán tất tập mục phổ biến cách độc lập Nó đọc trực tiếp từ nhớ cục tid-List 2-itemset, sau sinh tất tập mục phổ biến trước chuyển sang bước tiếp theo, bước bao gồm việc quét phân hoạch CSDL cục biến đổi lần Trong phạm vi lớp tương đương, cần khảo sát tất cặp 2-itemset thực lấy giao tid-List tương ứng Nếu số phần tử tid-List kết lớn độ hỗ trợ tối thiểu tập mục bổ sung vào L3 Sau đó, tiếp tục phân hoạch L thành lớp tương đương dựa tiền tố chung độ dài Quá trình lặp lại thủ tục thực sau: Begin Compute_Frequent(Ek-1) for tất itemset I1 I2 Ek-1 if((I1.tidList ∩ I2tidList) ≥ minsup) Bổ sung (I1 ∪ I2) vào Lk; Phân hoạch Lk thành lớp tương đương; forparallel lớp tương đương Ek Lk Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 68 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Compute_Frequent(Ek); End Compute_Frequent 4) Pha rút gọn Tại thời điểm cuối pha đồng thời, trích rút kết từ xử lý đưa kết Quá trình thực bước truyền thông khác thuật toán *) Giai đoạn khởi tạo: Khi thu số đếm hỗ trợ tất -itemset, ta cần thực phép lấy tổng rút gọn để tính số đếm tổng thể Ta định mảng m kích thước (m số mục) vùng kênh nhớ dùng chung, sau 2 xử lý truy cập mảng chung (theo phương thức loại từ lẫn nhau) để tăng số đếm hỗ trợ hành lên số đếm hỗ trợ cục đợi rào chắn xử lý cuối thực xong việc truy cập mảng dùng chung để tăng số đếm hỗ trợ Các số đếm hỗ trợ cục sử dụng để xây dựng tid-List đảo toàn cục *) Giai đoạn biến đổi Mỗi xử lý quét phân hoạch CSDL cục lần thứ hai xây dựng tid-List theo chiều dọc tất -itemset phổ biến L Vì CSDL gốc ban đầu phân hoạch theo dạng khối nên CSDL đảo xử lý gồm vùng định danh không liên tiếp Ta sử dụng thông tin với thông tin số đếm hỗ trợ cục để đặt tid-List xử lý khác gửi đến vào khoảng trống thích hợp, tid-List toàn cục thu xuất theo thứ tự từ điển, Với lưu giữ này, tiết kiệm chi phí xếp cho tid-List giao dịch phân tán cách ngẫu nhiên Quá trình biến đổi hoàn thành qua bước sau: Bước 1: Biến đổi tid-List cục Trước tiên, ta chia L2 thành hai nhóm Các ật p mục thuộc lớp tương đương mà gán cho xử lý cục bộ, kí hiệu G, tập mục lại thuộc lớp tương đương khác, kí hiệu R Với xử lý Pi, nhớ dành vùng nhớ có kích thước Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 69 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 ∑ glocal _ count ( g ) + ∑ partial _ count (r , Pi) g∈G r∈R Với g ∈ G, r ∈ R: tập mục partial_count(r, Pi): Số đếm hỗ trợ tập mục r xử lý Pi Sau đó, xử lý thực việc biến đổi ghi tid -List phần tử G vào khoảng trống thích hợp Các phần tử R để trống Hình 3.10 mô tả bước biến đổi CSDL ba xử lý: L2 Số đếm hỗ trợ tổng thể Số đếm hỗ P0 trợ cục P1 P2 12 13 15 23 25 34 35 10 13 10 15 16 14 17 10 11 10 4 Phân chia L2 thành l ớp tương đương gán cho xử lý P0, P1, P2 P0 – (12, 13, 15); P1 – (23, 25); P2 – (34, 35) Kí hiệu: tid- List P 0, P1, P2 là: Lớp tương đương cục (G) Lớp khác (R) 12 13 15 23 25 34 35 Lớp tương đương cục sau truyền 12 13 15 Lớp tương đương cục (G) Lớp khác (R) 23 25 23 25 34 35 Lớp tương đương cục sau truyền 23 25 Lớp khác (R) Lớp tương đương cục (G) 23 25 34 35 34 35 Lớp tương đương cục sau truyền 34 35 Hình 3.10: Quá trình chuyển đổi CSDL theo chiều dọc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 70 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Bước 2: Truyền tid-List Một việc biến đổi CSDL cục hoàn thành, ta cần phải nhận tidList tất 2-itemset G từ xử lý khác truyền đến truyền tid-List R đến xử lý khác Các tid-List đến chép vào khoảng trống thích hợp Vì phần giao dịch phân biệt tăng đều, tid-List tập mục G viết đĩa, R bị loại bỏ Để truyền tid-List cục qua kênh nhớ, sử dụng lợi việc truyền thông điệp nhanh mức người sử dụng Mỗi xử lý xác định kích thước đệm (2MB) cho vùng truyền, vùng nhận dùng chung định danh Việc truyền thông tiến hành theo cách khóa luân phiên pha ghi đọc Trong pha ghi, xử lý ghi tid-List tập mục P vào vùng truyền ch o đến đạt đến giới hạn không gian đệm Tại thời điểm này, vào pha đọc, quét vùng nhận xử lý đặt tid-List G vào khoảng trống thích hợp Khi vùng đọc quét xong, vào pha ghi Quá trình lặp lại nhận tất tid-List phận Tại thời điểm cuối pha này, CSDL định dạng theo chiều dọc Sau đó, xử lý vào pha đồng thời tính toán tập mục phổ biến mô tả Việc phép rút gọn cuối đượ c thực tương tự phép rút gọn pha khởi tạo 3.4 Phân tích, đánh giá so sánh việc thực thuật toán 3.4.1 Phân tích đánh giá thuật toán song song Đánh giá thuật toán chủ yếu vào thời gian thực tính theo hàm kích cỡ liệu vào (input) Hàm gọi độ phức tạp tính toán thời gian f(n) thuật toán ký hiệu O(f(n)) Một cách hình thức, O() định nghĩa sau: Một thuật toán có độ phức tạp tính toán tính toán f(n) = O(g(x)) ⇔ Tồn số dương C số nguyên x0 cho ≤ f(x) ≤ C * g(x), với số lượng liệu vào x ≥ x0 O(1) ký hiệu cho số Ngoài ra, độ phức tạp tính toán thuật toán song song phụ thuộc vào kiến trúc máy tính song song số lượng xử lý phép sử dụng hệ thống phụ thuộc vào thời gian trao đổi liệu xử lý Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 71 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Độ phức tạp thời gian thước đo quan trọng đánh giá mức độ hiệu thuật toán song song Giả sử mô hình tính toán có p xử lý; dẫn đến mức độ song song có giới hạn; ngược lại, không bị giới hạn số lượng xử lý không bị chặn Mức độ hiệu thuật toán thể mức độ song song thuật toán Là số lượng cực đại phép toán độc lập thực đồng thời thời điểm thực thuật toán Ký hiệu p(w) độ song song thuật toán, thuật toán đạt hiệu để giải toán có kích cỡ w thuật toán cần sử dụng nhiều p(w) xử lý Độ phức tạp thời gian thuật toán song song sử dụng p xử lý để giải toán có kích cỡ n hàm f(n, p) xác định thời gian cực đại trôi qua điểm bắt đầu thực thuật toán xử lý thời điểm kết thúc xử lý liệu vào Có hai thao tác khác thuật toán song song: Các phép toán sở như: +, -, *, /, AND, OR,… Các phép truyền liệu kênh truyền Vì độ phức tạp thời gian thuật toán song song xác định số phép toán s số bước truyền tải liệu xử lý với Nên từ suy ra, đ ộ phức tạp thời gian thuật toán song song không phụ thuộc vào mô hình tính toán mà ph ụ thuộc vào xử lý sử dụng Định nghĩa liên quan đến độ phức tạp giải thuật song song là: Định nghĩa 3.1: Một thuật toán song song có độ phức tạp tính toán O(t) với p xử lý thực nhiều O(t * p) phép toán sở Định nghĩa 3.2: Một thuật toán song song có độ phức tạp tính toán O(t) sử dụng nhiều xử lý để thực O(e) phép toán sở cài đặt với p xử lý có độ phức tạp thời gian O([e/p]+t) Định nghĩa 3.3: Một thuật toán song song có độ phức tạp tính toán O(t) với p xử lý cài đặt với [p/f] xử lý (1≤ f ≤ p) có độ phức tạp thời gian O(f * t) Ngoài ra, đánh giá thuật toán song song cần phải xét tới độ tăng tốc hiệu suất Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 72 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 3.4.2 So sánh việc thực thuật toán Dựa vào việc thực thi thuật toán CSDL khác cho thấy thuật toán FP-Growth thực thi nhan h nhất, tiếp đến thuật toán Eclat, thuật toán Candidate distribution, CD, DD Việc theo thứ hạng mang tính tương đối, thuật toán có ưu điểm nhược điểm riêng Trong số thuật toán khai phá liệu luật kết hợp song song, thuật toán song song cài đặt dựa thuật toán Apriori (chẳng hạn thuật toán CD, DD, Candidate distribution) đư ợc sử dụng phổ biến thực thi chúng đơn giản dễ dàng Hơn nữa, luật kết hợp sinh trực tiếp dựa vào cách thức khai phá tập mục Bởi tập mục ứng cử sinh ta tất thông tin tập tính toán Tốc độ thực thuật toán tỉ lệ với số lượng giao dịch gặp khó khăn việc xử lý nhiều mục nhiều mẫu CSDL lớn Thuật toán song song Eclat có ưu điểm tính toán nhanh độ hỗ trợ thông qua tập giao dịch tid-List Thuật toán thiết kế dựa mô hình song song thao tác, có ốt c độ thực thi nhanh hệ thống đa xử lý nhớ phân tán Hạn chế chủ yếu thuật toán chúng cần phải sinh phân bố lại tid-List Hơn nữa, với tập mục phổ biến có kích thước lớn, phần chung chủ yếu tid-List lấy giao lặp lại nhiều lần tất tập Để giảm bớt tình trạng này, cách thiết lập tối ưu khác kiểm tra thay đổi tid-List thay cho việc lưu giữ tid-List toàn cục thông qua vòng ặl p cho giảm đáng kể khối lượng liệu tính toán Thuật toán FP-Growth xử ký lượng lớn CSDL hiệu có tốc độ thực thi tỷ lệ hiệu so với lượng giao dịch lớn, lặp lại nhiều lần hay lặp lại nhiều lần cục giao dịch kết hợp lại tạo thành nhánh FP-Tree Tuy nhiên ích lợi không tăng tăng thêm số lượng xử lý nhiều FP-Tree cho tập giao dịch khác hoàn toàn dư thừa Lợi ích hạn chế CSDL rải rác Thuật toán xử lý số lượng lớn mục việc gán mục cho nhiều xử lý mà không quan tâm không gian lưu trữ tập mục Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 73 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 3.5 Kết luận chương Trong chương trình bày nguyên lý thiết kế thuật toán song song hai hướng tiếp cận việc thiết kế thuật toán khai phá luật kết hợp song song là: Mô hình song song liệu mô hì nh song song giao tác Một số thuật toán khai phá luật kết hợp song song thiết kết dựa hai mô hình thuật toán Count Distribution, Data Distribution, Candidate Distribution, Eclat, FP-Growth Chương đánh giá chung ưu nhược điểm so sánh việc thực thuật toán làm sở cho việc cải tiến thuật toán phát thuật toán song song Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 74 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 KẾT LUẬN Kết đạt luận văn Khai phá liệu lĩnh vực quan trọng, bao gồm nhi ều lĩnh vực nhiều kỹ thuật khác Luận văn đề cập đến nội dung phát tri thức, khai phá liệu Ứng dụng khai phá liệu lớn có ích hoạt động sản xuất, kinh doanh trợ giúp cho việc hoạch định chiến lược nhà quản lý nh hỗ trợ định Bên cạnh, luận văn đề cập đến khó khăn, thách thức việc ứng dụng nghiên cứu kỹ thuật khai phá liệu • Về mặt lý thuyết, khai phá liệu công đoạn tiến trình lớn , tiến trình khám phá tri thức từ CSDL Phương pháp khai phá liệu là: phương pháp sử dụng định luật, phương pháp quy nạp, phương pháp phát luật kết hợp, phương pháp dựa mẫu, mô hình phụ thuộc dựa đồ thị xác suất, phương pháp phân lớp hồi quy phi tuyến tính…, phương pháp áp dụng liệu thông thường tập mờ Trong luận văn trình bày chi tiết vấn đề khai phá luật kết hợp: từ khái niệm sở, toán xuất phát đến mô hình hình thức, thuật toán khai phá luật kết hợp sở thuật toán khai phá luật kết hợp trọng số, luật kết hợp định lượng luật kết hợp tổng quát • Về thuật toán khai phá luật kết hợp, luận văn trình bày số thuật toán tiêu biểu khai phá luật kết hợp như: Apriori, phân hoạch, AIS, SETM,… • Trên sở thuật toán tuần tự, luận văn trình bày chi tiết thuật toán song song Count Distribution, Data Distribution, Candidate Distribution, Eclat, FP-Growth Việc đánh giá thuật toán làm rõ c hất luật kết hợp nội dung trình bày luận văn Hướng nghiên cứu Trên sở nghiên cứu trình bày luận văn, tiếp tục nghiên cứu sâu thuật toán khai phá luật kết hợp song song , tìm cách cải tiến nhằm khắc phục nhược điểm thuật toán song song có Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 75 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 thuật toán khai phá liệu song song khác để áp dụng vào số toán khai phá liệu phù hợp cho giai đoạn như: quy luật thị trường, chứng khoán bất động sản, dự đoán rủi ro tín dụng, định hướng kinh doanh, y tế… Trong trình học tập, tìm hiểu nghiên cứu với khoảng thời gian làm luận văn, cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên ời th gian nghiên u có hạn nên không tránh khỏi thiếu sót mong nhận nhận xét đóng góp ý kiến thầy cô giáo quan tâm để luận văn hoàn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 76 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 TÀI LIỆU THAM KHẢO Tiếng việt Đoàn Văn Ban, Nguyên M ậu Hân (2006) Xử lý song song phân tán, Nxb Khoa học & Kỹ thuật, Hà Nội Nguyễn Thanh Bình (2007), Khai phá liệu: Khái niệm kỹ thuật, Huế Đỗ Phúc (2006), Giáo trình khai phá liệu , Nxb Đại học Quốc gia TP Hồ Chí Minh Hồ Thuần, Hồ Cẩm Hà (2006), Các hệ sở liệu Lý thuyết Thực hành, Tập 2, Nxb Giáo dục Nguyễn Thanh Thủy (2003), Phát hi ện tri thức khai phá liệu: Công cụ, phương pháp ứng dụng, Bài gi ảng Trường Thu, Hà Nội Tiếng Anh A Savaere, E Omiecinski and S.Navathe (1995), An efficient algorihm for mining association rules in large databases, In 21st VLDB Con& Agrawal and J.Shafer (1996), Parallel mining of association rules, In IEEE Trans, on Knowledge and Data Engg, pages 8(6): 962 – 969 CAI, Chun Hing (1998), Mining Association Rules With Weighted Items, The Chinese University of Hong Kong, August H.Mannila, H Toivonen and I.Verkamo (1994), efficient algorithms for discovering association rules, In AAAI Wkshp, Knowledge Discoverry in Databases, July 10 J.Han, J.Pei and Y.Yin (2000), Mining Frequent Pattens Without Candidate Generation, In ACM SIGMOD 11 J.S.Park, M.Chenand P.S.Yu (1995), Efficient parallel data mining for association rules, In ACM Intl, Conf Information and Knowledge Management, November 12 Jiamwei Li, Ying Lui, Wei-Keng Liao, Alok Choudhay (2006), Parallel Data Mining Algorithms for Association Eules and Clustering, by CRC Press, LLC Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 77 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 13 Kwok-Leung Tsui, Victoria C,P Chen, Wei Jiang, Y Alp Aslandogan, (2001), Data Minning Methods and applications 14 M, Holshimer, M.Kersten, H.Manila and H Toivonen (1995), A perspectiveon databases and data mining, In lsr Ind, Conf Knowledge Discovery and Data Mining, August 15 M.Houtsma and A.Swami (1995), Set-oriented miningof association rules in relational databases, In lth Intln, Conf Data Engineeng 16 M.J Zaki, S.Parthasarathy, W.Li and M.Ogihara (1997), Evaluation of sampling for data mining of association rules, In th Intl, Wkshp Research Issues in Data En, gg, Apr 17 Ming-Syan Chen, Jiawei Han and Philip S.Yu (1996), Data Mining: An Overview from a Databases Perpective, IEEE Transactions on Knowledge and Data Engineering, Vol.8, No.6, pp 866-883 18 Margaret H Dunham, Yongqiao Xiao, Le Gruenwald, Zahid Hossain, (2003) A survey of Assocition rules, Department of Computer Science and Engineering Southerm Methodist University Dallas 19 O.R.Zaiane, Mohammad El-Haijj and Paul L (2001), Fast Parallel Association Rule Mining Without Candidacy Generation, Proc Of the IEEE 2001 International Conference in Data Minning (ICDM’2001), San Jose, CA, USA, November 29-December 20 R Agmwal, H.Manila, R Srikant, H Toivonen and A Verkamo (1996), Fast discovery of association rules, In U.Fayyad and et al, editors, Advances in Knowledge Discovery and Data Minning MIT Press 21 R Agrawal and R Srikant, (1994), Fast algorithms for minning association rules, In 20th VL.DBConf, Sept 22 R Agrawal, T Imielinski and A Swami (1993), Minning association rules between sets of items i large databases, In ACM SIGMOD Intil C@ Managenment of Data, May 23 Two Crows (2005), Introduction to Data Minning and Knowledge Discovery, Edition third 24 Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, (2002) From Data Minning To Discory Knowledge in Database Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 78 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Địa Internet 25 ://www.cs.cmu.edu/~scandal/nesl/algorithms.html 26 ://computing.llnl.gov/tutorials/parallel_comp/index.html 27 MPI home page.http://www.mcs.anl.gov/mpi Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 79 http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399