Luận văn thạc sĩ công nghệ thông tin phương pháp khai thác theo chiều ngang để trích xuất các tập phổ biến

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH NGUYỄN QUÝ TÍN PHƯƠNG PHÁP KHAI THÁC THEO CHIỀU NGANG ĐỂ TRÍCH XUẤT CÁC TẬP PHỔ BIẾN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Mã số: 60480201 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS CAO TÙNG ANH TP HỒ CHÍ MINH – tháng 06 năm 2019 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH Người hướng dẫn khoa học: TS Cao Tùng Anh - Học viên bảo vệ thành công luận văn ngày 04 tháng 06 năm 2019, Hội đồng đánh giáluận văn thạc sĩ thành lập theo Quyết định số … ngày … /…./2019 Hiệu trưởng Trường ĐH Ngoại ngữ -Tin học TP.HCM, với tham gia của: Chủ tịch Hội đồng: PGS.TS Phạm Thế Bảo Phản biện 1: TS Trần Minh Thái Phản biện 2: PGS.TS Lê Hoàng Thái Ủy viên: PGS.TS Nguyễn Thanh Bình Thư ký: TS Nguyễn Đức Cường - Có thể tìm hiểu Luận văn Thư viện Trường ĐH Ngoại ngữ-Tin học TP HCM, cổng thông tin điện tử, website đơn vị quản lý sau đại học Trường LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn cơng trình nghiên cứu thân tơi Tất tài liệu tham khảo từ nghiên cứu có liên quan nêu rõ nguồn gốc phần tài liệu tham khảo Các số liệu, kết nêu luận văn tự thực nghiệm Tác giả luận văn Nguyễn Q Tín i LỜI CẢM ƠN Tơi xin bày tỏ lòng biết ơn sâu sắc đến Thầy, TS Cao Tùng Anh, người hết lòng hướng dẫn, động viên giúp đỡ cho tơi hồn thành luận văn Tôi xin chân thành gửi lời cám ơn đến quý Thầy Cô trường Đại Học Ngoại ngữ - Tin học TP.HCM tận tình dạy dỗ, bảo kiến thức q báu giúp tơi hồn thành khóa học tiến độ tảng cho nghiên cứu Xin cảm ơn Ban Hợp tác Đào tạo Sau đại học nhiệt tình hỗ trợ suốt trình học tập trường Cuối cùng, xin chân thành cảm ơn cha mẹ, vợ, bạn bè đồng nghiệp khích lệ, động viên, tạo điều kiện thuận lợi cho suốt thời gian thực luận văn TP HCM, tháng 06 năm 2019 Tác giả luận văn Nguyễn Q Tín ii TĨM TẮT Khai thác tập phổ biến phương pháp khai thác liệu quan trọng sử dụng rộng rãi để trích xuất quy tắc kết hợp hiệu từ khối lượng lớn liệu Một số thuật toán đề xuất để khai thác tập phổ biến như: Apriori, FP-Growth,… áp dụng nhiều lĩnh vực Vì thuật tốn khai thác tập phổ biến truyền thống tạo số lượng lớn tập phổ biến Hơn nữa, bùng nổ tổ hợp tập hợp liệu lớn làm khó khăn thêm khai thác Trong luận văn nghiên cứu cài đặt thuật toán hiệu hơn, để tiến hành khai thác tập phổ biến tập liệu lớn Thuật toán Mining Row Item Horizontal (MRIH), sử dụng phương pháp khai thác từ lên theo chiều ngang để thiết lập cân kích thước ngang dọc sở liệu đầu vào cấp khai thác Với mục đích này, sở liệu xếp theo thứ tự tăng dần độ phổ biến hạng mục Trong thuật toán, sở liệu giao tác chia thành số sở liệu nhỏ giảm kích thước vấn đề khai thác cấp Kết thử nghiệm cho thấy thuật toán đạt hiệu khai thác tốt số tập liệu đầu vào khác Hơn nữa, nghiên cứu hiệu suất cho thấy thuật toán tốt đáng kể iii DANH MỤC CÁC KÝ HIỆU VIẾT TẮT KÍ HIỆU Ý NGHĨA TIẾNG ANH Ý NGHĨA TIẾNG VIỆT BFS Breadth First Search Tìm kiếm theo chiều rộng cond Conditional Điều kiện CSDL Database Cơ sở liệu Transaction database of conditional database Transaction database of conditional database i Cơ sở liệu giao tác có điều kiện Cơ sở liệu giao tác có điều kiện i DFS Depth-first search Tìm kiếm theo chiều sâu F.C.I Frequent closed itemset Tập phổ biến đóng FI Frequent Itemset Tập phổ biến FP-array Frequent Pairs Array Mảng phổ biến FP-Tree Frequent Pattern Tree Cây phổ biến Item Items Hạng mục Itemset Itemset Tập hạng mục minsup Minsup Độ phổ biến tối thiểu MRIH Mining Row Item Horizontal PIETM Principle of Inclusion– Exclusion and Transaction Mapping rowset Rowset Tập dòng sup Support Độ phổ biến TDB Transaction Database Cơ sở liệu giao tác tid Transaction ID Mã giao tác tid-list Transaction ID-List Danh sách mã giao tác DB DB|i Thuật toán khai thác theo phương pháp ngang Thuật toán khai thác tập phổ biến dựa nguyên lý Bao gồm - Loại trừ ánh xạ giao tác iv DANH MỤC CÁC BẢNG Bảng 2.1 Cơ sở liệu mẫu Bảng 2.2 Cơ sở liệu mẫu hạng mục xếp Bảng 2.3 Minh họa liệu định dạng theo chiều dọc 10 Bảng 2.4 Minh họa liệu biểu diễn ma trận bit 11 Bảng 2.5 Các tập phổ biến có danh mục 13 Bảng 2.6 Các tập phổ biến có danh mục 14 Bảng 2.7 Các tập phổ biến có danh mục 14 Bảng 2.8 Các tập phổ biến có danh mục 15 Bảng 2.9 Cơ sở liệu dùng làm liệu xây dựng FP-Tree 17 Bảng 2.10 Minh họa hạng mục phổ biến giao tác 17 Bảng 2.11 Bảng kết FP-Tree điều kiện từ sở mẫu điều kiện 23 Bảng 2.12 CSDL giao tác gồm giao tác hạng mục 26 Bảng 2.13 CSDL giao tác gồm giáo tác 17 hạng mục 31 Bảng 2.14 Danh sách khoảng giao tác 33 Bảng 2.15 Kết hợp khoảng giao tác 34 Bảng 2.16 Khai thác tập phổ biến PIETM 35 Bảng 3.1 Tập liệu D cắt tỉa với minsup=2 42 Bảng 3.2 Ma trận bit tập liệu giao tác I 46 Bảng 3.3 Ma trận bit D sau lược bỏ cột không thỏa minsup = 47 Bảng 3.4 Ma trận bit d-cond D sau lược bỏ cột d với minsup = 47 Bảng 3.5 Ma trận bit chuyển đổi từ tập phần tử tương ứng với bảng 3.4 47 Bảng 3.6 Ma trận bit Tỉa d-cond D 47 Bảng 4.1 Bảng mô tả CSDL mẫu (Dataset.txt) 51 Bảng 4.2 Bảng mô tả CSDL 51 v DANH MỤC CÁC HÌNH Hình 2.1 Thuật tốn Apriori 12 Hình 2.2 Lưu đồ thuật tốn xây dựng FP-Tree (bước 1) 16 Hình 2.3 Lưu đồ thuật tốn xây dựng FP-Tree (bước 2) 16 Hình 2.4 Minh họa bước xây dựng FP-Tree 18 Hình 2.5 Header table FP-Tree 19 Hình 2.6 Cơ sở mẫu điều kiện cho nút p 20 Hình 2.7 Cơ sở mẫu điều kiện kiện cho nút m 21 Hình 2.8 Cơ sở mẫu điều kiện cho nút FP-Tree 21 Hình 2.9 Cây FP-Tree cho tập phổ biến sở mẫu điều kiện cho p 22 Hình 2.10 Cây FP-Tree cho tập phổ biến mẫu sở điều kiện cho m 22 Hình 2.11 Tất mẫu phổ biến liên quan đến p là: p:3 cp:3 23 Hình 2.12 Tất mẫu phổ biến liên quan đến m là: m:3, fm:3, cm:3, am:3, fcm3:, fam:3, cam:3, fcam:3 24 Hình 2.13 Thuật tốn CLOSET 25 Hình 2.14 Thuật tốn CLOSET khai thác tập phổ biến đóng 26 Hình 2.15 Thuật tốn Apriori, FP-Growth PIETM 30 Hình 2.16 Thuật toán PIETM 30 Hình 2.17 Hàm Union_Intervals 31 Hình 2.18 Ví dụ xây dựng FP-Tree khoảng giao tác 32 Hình 2.19 Các thành phần tập phổ biến đóng 36 Hình 2.20 Ví dụ FP-Tree 36 Hình 3.1 Biễu diễn tìm kiếm từ lên 40 Hình 3.2 Biểu diễn tìm kiếm từ xuống 41 Hình 3.3 Mở rộng mục d, b, c khơng gian tìm kiếm thuật tốn ngang tập liệu bảng 3.1 42 Hình 3.4 Loại bỏ mục d, b, a, c tập liệu D 44 Hình 3.5 Loại bỏ b|a, b|c tập liệu cắt tỉa b-cond 45 Hình 3.6 Thuật tốn MRIH 48 Hình 3.7 Khai thác tất hạng mục tập liệu D 49 Hình 4.1 Kết thực nghiệm với CSDL T10I4D100K (D1) 52 Hình 4.2 Kết thực nghiệm với CSDL T40I10D100K (D2) 52 Hình 4.3 Kết thực nghiệm với CSDL Retail 53 Hình 4.4 Kết thực nghiệm với CSDL Mushroom 54 Hình 4.5 Kết thực nghiệm với CSDL Accident 54 vi TRANG THÔNG TIN VỀ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN QUÝ TÍN Nam/ Nữ: Nam Ngày tháng năm sinh: 08 tháng năm 1980 Nơi sinh: TP.HCM Ngành học: Công nghệ Thông tin Mã số: 604802015 Ngày nhập học: 6/2016 Các thay đổi q trình đào tạo: (nếu có) Tên đề tài luận văn (chính thức bảo vệ): 6.1 Tiếng việt: Phương pháp khai thác theo chiều ngang để trích xuất tập phổ biến 6.2 Tiếng Anh: Horizontal method for efficient frequent pattern mining Cán hướng dẫn (họ tên, học hàm, học vị): TS CAO TÙNG ANH Tóm tắt kết luận văn: Khai thác tập phổ biến phương pháp khai thác liệu quan trọng sử dụng rộng rãi để trích xuất quy tắc kết hợp hiệu từ khối lượng lớn liệu Một số thuật toán đề xuất để khai thác tập phổ biến như: Apriori, FP-Growth,… áp dụng nhiều lĩnh vực Vì thuật tốn khai thác tập phổ biến truyền thống tạo số lượng lớn tập phổ biến Hơn nữa, bùng nổ tổ hợp tập hợp liệu lớn làm khó khăn thêm khai thác Trong luận văn nghiên cứu cài đặt thuật toán hiệu hơn, để tiến hành khai thác tập phổ biến tập liệu lớn Thuật toán Mining Row Item Horizontal (MRIH), sử dụng phương pháp khai thác từ lên theo chiều ngang để thiết lập cân kích thước ngang dọc sở liệu đầu vào cấp khai thác Với mục đích này, sở liệu xếp theo thứ tự tăng dần độ phổ biến hạng mục Trong thuật toán, sở liệu giao tác chia thành số sở liệu nhỏ giảm kích thước vấn đề khai thác cấp Kết thử nghiệm cho thấy thuật toán đạt hiệu khai thác tốt số tập liệu đầu vào khác Hơn nữa, nghiên cứu hiệu suất cho thấy thuật toán tốt đáng kể Khả ứng dụng thực tiễn: Ứng dụng phương pháp khai thác ngang kết hợp với phương pháp xử lý ngôn ngữ tự nhiên để xây dựng ứng dụng phân tích liệu tiếng việt thu thập từ Facebook; xem xét liệu liên quan tới học sinh phổ thông, xử lý thông tin đưa định hướng tư vấn cho học sinh phổ thông lựa chọn học nghề vii 10 Những hướng nghiên cứu tiếp theo: Nghiên cứu áp dụng phương pháp khai thác song song dựa vector bit động vào thuật toán để xử lý song song mơ hình chia để trị làm tăng hiệu cho thuật tốn 11 Các cơng trình cơng bố có liên quan đến luận văn: - Bài tốn xác định luật kết hợp lần Agrawal R giới thiệu 1993 sau giải sở thuật toán Apriori [3] - Thuật toán FP-Growth [4] Han cộng đề xuất vào năm 2000 Thuật toán tiếp tục cải tiến với tên gọi FP-Growth* [5] vào năm 2005 tác giả Grahne Zhu - Khai thác tập phổ biến đóng có cơng trình tiêu biểu sau: Closet [6], Mafia[7] - Khai thác tập phổ biến lớn giải pháp thay tốt cho vấn đề bùng nổ tập phổ biến [8,9] - Các thuật toán khai thác sử dụng kỹ thuật nén bitmap [10-11] - Thuật toán Erasable Itemsets fully [12] đề xuất thuật toán hiệu sử dụng kỹ thuật phân chia cắt tỉa để khai thác hạng mục hồn tồn xố - Thuật toán MFS_DoubleCons [13] khai thác tập phổ biến với ràng buộc kép đề xuất - Thuật toán GENCLOSE [14] thuật toán hiệu khai thác tập phổ biến tập phổ biến đóng tìm kiếm ngang xây dựng đặc biệt - Thuật toán Disclosed [15] thuật toán hiệu khai thác theo chiều sâu, từ xuống cho tập phổ biến đóng - Thuật toán khai thác tập phổ biến PIETM [16] dựa nguyên lý Bao gồmLoại trừ ánh xạ giao tác CÁN BỘ HƯỚNG DẪN (ký tên, họ tên) HỌC VIÊN (ký tên, họ tên) TS Cao Tùng Anh Nguyễn Quý Tín viii tập liệu, xây dựng ma trận bit cắt tỉa cột theo thứ tự tập liệu Đối với hạng mục có ma trận bit này, chẳng hạn X, ta xây dựng ma trận X-cond DB ma trận bit Ví dụ 3.7: Ta xét lại ví dụ 3.1 bảng 3.1 Cho tập liệu giao tác I có m dịng, dịng gọi giao tác Trên giao tác chứa tập phần tử, phần tử tương ứng với hạng mục liệu, tập mục liệu gọi tập hạng mục Ta xây dựng ma trận bit dựa tập liệu I sau: Một dòng ma trận bit ương ứng với dòng I Mỗi cột ma trận bit tương ứng với hạng mục I (hạng mục xếp thứ tự tăng dần theo độ phổ biến, trùng độ phổ biến xếp theo thứ tự từ điển) Gọi aij giá trị dịng thứ i cột thứ j ma trận bit (1  i  m, 1 j  n) aij = giao dịch thứ i có chứa item trùng với item cột thứ j ma trận bit, ngược lại aij = Như vậy, từ tập liệu ban đầu ta tạo ma trận bit tương ứng e f g h i j k l m n 0 p q r d b a c 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 Bảng 3.2 Ma trận bit tập liệu giao tác I Từ ma trận bit bảng 3.2, với minsup = 2, ta loại bỏ cột tương ứng với hạng mục e, f, g, h, i, j, k, l, m, n, p, q, r độ phổ biến hạng mục không thỏa minsup, kết ta thu ma trận bit D bảng 3.3 46 d b a c 0 1 1 0 0 1 1 0 1 1 1 1 Bảng 3.3 Ma trận bit D sau lược bỏ cột không thỏa minsup = Loại bỏ hạng mục d ma trận bit D, với minsup = 2, loại bỏ cột tương ứng với hạng mục d dịng khơng chứa d ma trận bit bảng 3.3 thu ma trận bit d-cond D bảng 3.4 b a c 1 Bảng 3.4 Ma trận bit d-cond D sau lược bỏ cột d với minsup = Tính độ phổ biến hạng mục sau: xử lý mảng lưu trữ vector bit đại diện cho phần tử nên cần chuyển liệu sang chiều dọc ma trận chuyển đổi bit tương ứng trình bày bảng 3.5 b 1 a 1 c 1 Độ phổ biến mục b Bảng 3.5 Ma trận bit chuyển đổi từ tập phần tử tương ứng với bảng 3.4 Cắt tỉa ma trận bit d-cond D, với minsup = 2, loại bỏ cột dòng tương ứng với hạng mục không thỏa với minsup=2 ma trận bit bảng 3.4 thu ma trận bit Tỉa d-cond bit bảng 3.6 b 1 Bảng 3.6 Ma trận bit Tỉa d-cond D 47 3.4 Thuật toán MRIH Input: M_D: bitVector array[0 m] of boolean // ma trận bit D m: integer //số dòng ma trận M_D n: integer //số cột ma trận M_D x: String //hạng mục phổ biến trích từ M_D Output: S: String //tập hạng mục phổ biến Procedure MRIH (M_D, x) M_X: bitVector array[0 m] of boolean //ma trận bit X-cond D i : integer Output (file, x) if (Support(Items(n-1)) >= minsup) then Output (file, x+’n-1’) for each item y of M_D from to n-2 if (Support(y) >= minsup) then for i= to m-1 if (M_D[i] includes y) then 10 apend(row[i]) of M_D to M_X with 11 afer column item y to item n-1 (X-cond D) 12 13 for each item z of M_X if (Support(z) < minsup) then 14 Delete column and row z 15 of M_X (Tỉa X-cond D) 16 17 if (M_X!= NULL and Len(M_X)>=minsup) then if (bitVector(M_X)==1) 18 19 20 21 Output (file, X+’y’+’Items(M_X)’) else MRIH(M_X, x+’y’) Output (file, x+’y’) 22 return Hình 3.6 Thuật toán MRIH 48 3.5 Minh họa thuật toán liệu mẫu Ví dụ 3.8: Sử dụng lại CSDL ví dụ 3.1 bảng 3.1 Bước 1: Tỉa CSDL giao tác với minsup =2, xếp hạng mục thứ tự tăng dần theo độ phổ biến trùng độ phổ biến theo thứ tự từ điển ta tập liệu D Bước 2: Xây dựng ma trận bit cho tập liệu D bảng 3.3 Bước 3: Khai thác theo thuật toán sau: Tập liệu D b, a, c a, c d, b a, c b, a a, c b, c d, b, a, c d-cond D b b, a, c Tỉa d-cond D b b {db} tập phổ biến b-cond D a, c a c a, c a-cond D c c c c c Tỉa b-cond D a, c a c a, c c-cond D NULL {c} tập phổ biến {ac} tập phổ biến b|a-cond c c b|c-cond NULL {bac} tập phổ biến {bc} tập phổ biến Hình 3.7 Khai thác tất hạng mục tập liệu D 49 3.6 Kết luận chương Chương trình bày biểu diễn tập liệu ma trận bit, kỹ thuật xây dựng khai thác liệu dựa cấu trúc tìm kiếm, với kỹ thuật phân chia cắt tỉa thuật toán để khai thác theo chiều ngang trích xuất tập phổ biến Vấn đề đặt cần thực nghiệm để kiểm tra tính hiệu thuật tốn, nội dung trình bày chương 50 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ THUẬT TOÁN Trong chương này, luận văn mô tả sở liệu sử dụng cho chương trình, ghi nhận kết quả, từ đưa nhận xét hướng phát triển Để đo tính hiệu thuật tốn MRIH, chương trình thực CSDL: CSDL từ ví dụ mẫu (Dataset.txt) xuyên suốt chương chương để kiểm chứng độ xác chương trình Để có sở đánh giá kết nghiên cứu chứng minh tính hiệu thuật tốn, thuật tốn lập trình với ngơn ngữ Python 3.5 Máy tính chạy chương trình thử nghiệm Window 10 với cấu hình CPU Intel Core i5 2.7GHz, GB RAM ổ cứng TB: Các CSDL thử nghiệm lấy từ http://fimi.ua.ac.be/data/ 4.1 Mơ tả liệu CSDL từ ví dụ mẫu (Dataset.txt) xuyên suốt chương chương để kiểm chứng độ xác chương trình STT Tên CSDL Kích thước (size) Dataset KB Số lượng giao tác (transaction) Số lượng hạng mục (items) 17 Bảng 4.1 Bảng mô tả CSDL mẫu (Dataset.txt) CSDL tải từ nguồn http://fimi.ua.ac.be/data/, với cấu trúc CSDL mô tả bảng 4.2 S T T Tên CSDL T10I4D100K Kích thước (size) Số lượng giao tác (transaction) Độ dài trung bình giao tác (average transaction length) Số lượng hạng mục (items) 3.93M 100000 10 870 100000 39 942 (D1) T40I10D100K 15.12M (D2) Mushroom 0.56M 8124 23 119 Retail 3.97M 88162 10 16469 Accident 33.8M 340183 34 468 Bảng 4.2 Bảng mô tả CSDL 51 Khi chọn CSDL thực nghiệm, quan tâm đến số lượng giao tác số lượng hạng mục để từ ghi nhận kết thời gian chương trình xử lý 4.2 Kết chương trình thực nghiệm Hình 4.1 Kết thực nghiệm với CSDL T10I4D100K (D1) Hình 4.2 Kết thực nghiệm với CSDL T40I10D100K (D2) 52 Chúng ta thấy hình 4.1 4.2 hai tập liệu D1, D2 bảng 4.2 có số lượng giao tác tập liệu số khác biệt số lượng hạng mục tập liệu dẫn đến nhiều khác biệt hiệu Với minsup = 2% (= 2000) thấy thuật tốn MRIH trích xuất tập phổ biến từ D1 khoảng 77.7 giây thời gian khoảng 300.92 giây D2 Với Sự khác biệt cho thấy yếu tố khác tác động vào thời gian khai thác tập liệu độ dài trung bình giao tác Chúng ta thấy bảng 4.2 hai tập liệu D1 D2 có số lượng giao tác số lượng hạng mục có hai kích thước khác Lý khác biệt kích thước số lượng hạng mục trung bình giao tác (chiều dài trung bình giao tác) Vì vậy, nói kích thước trung bình giao tác có mối quan hệ trực tiếp minsup có mối quan hệ ngược lại với thời gian khai thác Hình 4.3 Kết thực nghiệm với CSDL Retail 53 Hình 4.4 Kết thực nghiệm với CSDL Mushroom Hình 4.5 Kết thực nghiệm với CSDL Accident Qua kết thực nghiệm cho thấy thuật toán MRIH chưa thật khai thác tốt minsup ngưỡng thấp CSDL đặc ví dụ tập liệu D1, D2, Accident, trung bình số lượng hạng mục giao tác lớn dẫn đến thời gian khai thác 54 chậm tốn không gian nhớ Như thuật toán hiệu khai thác tập liệu thưa chưa tốt tập liệu đặc 4.3 Kết luận chương Trong chương này, thực nghiệm thuật toán khai thác ngang để tiến hành khai thác hạng mục phổ biến tập liệu lớn Trong thuật toán sử dụng sở liệu giao tác cắt tỉa theo thứ tự phân chia để thực Thuật toán phân chia liệu tất trích xuất hạng mục phổ biến tập liệu vào danh mục n đó, n số mục phổ biến tập liệu Kết thử nghiệm cho thấy thuật toán đạt hiệu khai thác tốt số đầu vào liệu khác Hơn nữa, nghiên cứu hiệu suất cho thấy thuật toán hoạt động tốt so với thuật toán PIETM Chương trình cho kết xác theo mơ tả thuật tốn, nhiên CSDL có độ dài trung giao tác lớn thời gian thực CSDL chưa thật tốt hướng phát triển đề tài thời gian tới 55 Chương KẾT LUẬN Luận văn tìm hiểu sở lý thuyết tập phổ biến, số thuật tốn khai thác tập phổ biến thơng dụng theo phương pháp tuần tự, trọng tâm luận văn thực kết sau: - Biểu diễn tập liệu ma trận bit - Sử dụng phương pháp chia để trị cắt tỉa khai thác ngang để giảm kích thước sở liệu giao tác giải vấn đề khai thác cho tập liệu lớn hiệu - Phương pháp nén trích xuất để lưu tập phổ biến trích từ sở liệu giao tác xây dựng để cải thiện thời gian khai thác giảm kích thước tập tin đầu - Xây dựng chương trình thực nghiệm đánh giá kết đạt Luận văn hoàn thành mục tiêu đề nghiên cứu tìm hiểu tiếp cận khai thác tập phổ biến: “Phương pháp khai thác theo chiều ngang để trích xuất tập phổ biến” Hướng nghiên cứu phát triển áp dụng phương pháp khai thác song song vector bit động vào thuật toán để xử lý song song mơ hình chia để trị làm tăng hiệu cho thuật toán Luận văn dừng lại nghiên cứu lý thuyết khai thác ngang với đích cuối chương trình thực nghiệm ứng dụng thuật toán MRIH để kiểm chứng CSDL mẫu, chưa xây dựng chương trình ứng dụng vào thực tiễn sống Ngày nay, khối lượng thông tin chia sẻ internet vô lớn đa dạng thể loại, khai thác thơng tin phục vụ cho cơng việc tuyển sinh, quảng cáo, Hướng phát triển đề tài tiếp tục ứng dụng phương pháp khai thác ngang kết hợp với phương pháp xử lý ngôn ngữ tự nhiên để xây dựng ứng dụng phân tích liệu tiếng Việt thu thập từ Facebook; xem xét liệu liên quan tới học sinh phổ thông, xử lý thông tin đưa định hướng tư vấn cho học sinh phổ thông lựa chọn học nghề./ 56 CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ LUẬN VĂN [1] Nguyễn Quý Tín, Cao Tùng Anh (2018) Phương pháp khai thác theo chiều ngang để trích xuất tập phổ biến Kỷ yếu hội thảo khoa học công nghệ thông tin truyền thông ICT 2018, Trường Đại học Thông tin Liên lạc – Trường Đại học Nha Trang – Trường Đại học Đà Lạt – Sở Thơng tin Truyền thơng Khánh Hịa ngày 21 tháng 12 năm 2018, 49-53 57 TÀI LIỆU THAM KHẢO Tiếng việt: [1] Lê Hồi Bắc (2013), Bài giảng mơn Data Mining, Đại học KHTN (Đại học Quốc gia Tp.HCM) [2] Nguyễn Tấn Thành (2015), Khai thác song song tập phổ biến dựa vector bit động Luận văn thạc sĩ Khoa học máy tính, Đại học Cơng nghệ Thơng tin TP.HCM Tiếng anh: [3] R.Agrawal, T.Imielinski, and A.Swami (1993), “Mining association rules between sets of items in large databases”, In Pro 1993 ACM-SIGMOD Int Conf.Management of Data, pages 207-216, Washington, D.C [4] J Han, J Pei, Y Yin (2000), Mining frequent patterns without candidate generation, in: Proceeding of the 2000 ACM-SIGMOD International Conference on Management of Data (SIGMOD’00), Dallas, TX, 2000, pp 1– 12 [5] G Grahne, J Zhu (2005), Fast algorithms for frequent itemset mining using FP-trees, Transactions on Knowledge and Data Engineering (TKDE), vol 17, no 10, pp 1347-1362, 2005 [6] J Pei, J Han, R Mao (2000), CLOSET an effective algorithm for mining frequent closed itemsets, in: Proceeding of the 2000 ACM-SIGMOD SIGMOD International Workshop Data Mining and Knowledge Discovery (DMKD’00), Dallas, TX, 2000, pp 11–20 [7] Burdick D, Calimlim M, Gehrke J (2001), MAFIA: a maximal frequent itemset algorithm for transactional databases In: Proceeding of the 2001 international conference on data engineering (ICDE’01), Heidelberg, Germany, pp 443–452 [8] Madhavi Dabbiru, Moghalla Shashi (2010), An efficient approach to colossal pattern mining, in: International Journal of Computer Science and Network Security (IJCSNS), 2010, pp 304–312 58 [9] M.K Sohrabi, A.A Barforoush (2012), Efficient colossal pattern mining in high Dimensional datasets, Knowledge Based Systems (2012) [10] Dong J., Han M (2007), BitTableFI: an efficient mining frequent itemsets algorithm, Knowledge Based Systems vol 20, pp.329–335 [11] M T Tran, B Vo, B Le (2015), Combination of dynamic bit vectors and transaction information for mining frequent closed sequences efficiently, Engineering Applications of Artificial Intelligence, vol 38, pp 183-189 [12] T Le, B Vo (2014), MEI: An efficient algorithm for mining erasable itemsets, Engineering Applications of Artificial Intelligence, vol 27, pp 155-166 [13] H Duong, T Truong, B Vo (2014), An efficient method for mining frequent itemsets with double constraints, Engineering Applications of Artificial Intelligence, vol 27, pp 148-154 [14] A Tran, T Truong, B Le (2014), Simultaneous mining of frequent closed Itemsets and their generators: Foundation and algorithm, Engineering Applications of Artificial Intelligence, vol 36, pp 64-80 [15] R Vimieiro, P Moscato (2014), Disclosed: An efficient depth-first, top-down algorithm for mining disjunctive closed itemsets in high-dimensional data, Information Sciences, vol 280, pp 171-187 [16] K C Lin, I Liao, T P Chang, S F Lin (2014), A frequent Itemset mining algorithm based on the Principle of Inclusion– Exclusion and transaction mapping, Information Sciences, vol 276, pp 278-289 [17] Frequent Itemset Mining Implementations Repository http://fimi.ua.ac.be/data/ 59 PHỤ LỤC Giải thích thuật tốn MRIH Input M_D ma trận bit tập liệu D: với m số hàng, n số cột (số lượng hạng mục) x hạng mục loại bỏ tương ứng, giá trị ban đầu x NULL {} M_X ma trận cắt tỉa loại bỏ hạng mục y từ ma trận M_D Giá trị ban đầu x NULL ({}) Minsup: ngưỡng người dùng xác định Bắt đầu Output (file, x); Phần khối lệnh if dòng thuật toán: Kiểm tra độ phổ biến hạng mục cuối M_D (Support(Items(n-1)) >= minsup): độ phổ biến Items(n-1) lớn minsup thực ghi hạng mục cuối (Items(n-1)) vào tập tin liệu xuất Output (file, x+’n-1’); Ngược lại thuật tốn Vịng lặp dịng 6: duyệt hạng mục y M_D từ đến n-2, khai thác hạng mục n-1 hạng mục cuối ma trận bit M_D Phần khối lệnh if dòng 7: Kiểm tra độ phổ biến hạng mục y Bước 1: Từ dòng đến 11: Duyệt loại bỏ tất hạng mục y ma trận bit M_D thỏa điều kiện (M_D[i] includes y): loại bỏ tất mục trước y, mục y tất hàng khơng chứa y sau thêm vào M_X Bước 2: Từ dòng 12 đến 15: Duyệt cắt tỉa hạng mục z ma trận bit M_X thỏa điều kiện (Support(z) < minsup): xóa tất hạng mục z M_X Phần khối lệnh if dòng 16: (M_X!= NULL and Len(M_X)>=minsup) kiểm tra ma trận bit M_X khác NULL số dòng ma trận bit M_X>=minsup gọi đệ quy MRIH() để khai thác tiếp tục Dòng 21 ghi tất 1-item phổ biến Sau cắt tỉa, có tồn cột ma trận bit bị loại bỏ, thuật toán gọi đệ quy để khai thác sở liệu giao tác bị loại bỏ Khi gọi đệ quy MRIH, M_X x + ’y’ mục bị loại bỏ khỏi M_X goi lại Trong thuật toán này, sử dụng phương pháp đệ quy để sử dụng tập liệu bị loại bỏ để khai thác hạng mục phổ biến MRIH tối ưu hóa cách thêm khối lệnh kiểm tra sau hàm lệnh if (M_X!= NULL and Len(M_X)>=minsup) kiểm tra xem tất dòng sở liệu ma trận M_X cắt xén có giống hay khơng, giống ghi hạng mục dịng giống vào mẫu trích xuất loại bỏ mục khỏi tập liệu loại bỏ Kết thúc 60

Định dạng
Số trang	72
Dung lượng	2,33 MB