Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,29 MB
Nội dung
MỤC LỤC CHƢƠNG MỞ ĐẦU Mục tiêu Một số thách thức khai thác liệu 2 Mục tiêu nghiên cứu luận án 3 Nội dung trình bày luận án CHƢƠNG 1: TỔNG QUAN Mục tiêu Tổng quan khai thác không tăng cƣờng tăng cƣờng Tổng quan phƣơng pháp khai thác tập (phổ biến) đóng Tổng quan phƣơng pháp song song hóa CHƢƠNG 2: GIẢI THUẬT KIẾN TẠO CÁC TẬPĐÓNGPHỔBIẾN Mục tiêu Các mệnh đề Cập nhật tập kiến tạo bổ sung giao tác 10 Cập nhật tập kiến tạo tiết giảm giao tác 11 Một số thực nghiệm so sánh 11 CHƢƠNG 3: KIẾN TẠO CÁC TẬP ĐĨNG PHỔBIẾNTHEO LƠ 16 Mục tiêu 16 Tập kiến tạo từ lô giao tác 16 Tập kiến tạo từ lô hạng mục 18 CHƢƠNG 4: GIẢI PHÁP SONG SONG HÓA VỚI SỐ LƢỢNG LỚN GIAO TÁC VÀ HẠNG MỤC 19 Mục tiêu 19 Tập kiến tạo với số lƣợng lớn giao tác 20 Tập kiến tạo với số lƣợng lớn hạng mục 22 Một số thử nghiệm với Map-Reduce 24 CHƢƠNG 5: KẾT LUẬN 25 Kết đạt đƣợc luận án 25 Một số hạn chế cầntiếp tục nghiên cứu 26 DANH MỤC BÀI BÁO KHOA HỌC 27 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng CHƢƠNG MỞ ĐẦU Mục tiêu - Giới thiệu báo kim nam khai thác liệu tác động đến định hƣớng nghiên cứu luận án - Mục tiêu nghiên cứu luận án - Bố cục luận án Một số thách thức khai thác liệu a Từ thuở hình thành vào cuối năm 1980, khai thác liệu đạt đƣợc thành công không nhỏ Nhiều toán phát sinh đƣợc giải khai thác liệu Để phát triển nghiên cứu lĩnh vực này, năm 2006 tác giả [79] phân tích nêu 10 vấn đề quan trọng cầntập trung nghiên cứu giải Tựu trung, tóm lƣợc thành nhóm vấn đề nhƣ sau: i Tăng cƣờng khai thác tập liệu đa chiều, liệu phức hợp; liệu luồng mạng, liệu chuỗi động thái; ii Khai thác tập liệu thuộc lĩnh vực an tồn, an ninh thơng tin, hay nghiên cứu sinh học môi trƣờng; iii Khai thác liệu phân tán, đa tác tử; tập liệu nhạy cảm với chi phí, khơng ổn định biếnđộngtheo thời gian b Khi đề cập vấn đề nêu trên, nhu cầu tìmtập liệu phổbiến vấn đề cấp thiết Năm 2008, luận bàn mƣời giải thuật có sức thuyết phục khai thác liệu, nhiều tác giả [76] phân tích khuyến nghị phát triển nghiên cứu toán khai thác tậpphổbiếntheo hƣớng bản, nhƣ: i Bổ sung thêm yêu cầu phân loại vào khoản mục để trích xuất tập mục phổbiến hàm chứa tri thức sâu sắc [53]; ii Sử dụng đánh giá khoản mục cách lƣợng hóa theo giá trị số [75]; iii Dùng độ đo thông tin thu đƣợc phép phân loại χ2 việc tìmtập mẫu phân biệt [40]; iv Thay việc mô tả theotập mục cách dùng mô tả phong phú hơn, chẳng hạn phƣơng pháp đồ thị [78]; v Khai thác tăng cƣờng để tìmtậpphổbiến mà khởi động lại giải thuật từ đầu sở liệu có biếnđộngtheo thời gian có bổ sung liên tục giao tác [8]; vi Tìmtập mục đóng, tậpphổbiến đƣợc suy dẫn từ tậpđóng [64] c Cho tới nay, cơng trình [76] [79] kim nam cho nghiên cứu lĩnh vực khai thác liệu Những khuyến nghị nghiên cứu nêu nhóm i ii tiểu mục a để gia tăng lĩnh vực hay đối tƣợng liệu toán khai thác liệu Trong tiểu mục b, bốn khuyến nghị nhằm tăng cƣờng hình thức tiêu chí tìm kiếm tậpphổbiếntập liệu cụ thể Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Khai thác tăng cƣờng để tìmtậpđóng suy dẫn tậpphổbiến từ tập liệu độngtheo thời gian, phân tán theo khơng gian, nhạy cảm với chi phí vốn vấn đề nóng bỏng, có tính nội hầu hết thách thức nêu Mục tiêu nghiên cứu luận án Từ thách thức xu hƣớng nghiên cứu khai thác liệu đƣợc trình bày phần trên, luận án đề mục tiêu nghiên cứu nhƣ sau: Một xây dựng thuật toán đảm bảo nhu cầu tăng cường tìm tất tậpđóng cấu trúc trung gian đó, để từ suy dẫn tậpphổbiếntheo ngưỡng phổbiến cho trước Khai thác tăng cƣờng dựa cấu trúc trung gian nhằm cập nhật cấu trúc có biếnđộng liệu mà khơng phải thực thuật tốn từ đầu Thƣờng khai thác tăng cƣờng tập đóng, cấu trúc dàn khái niệm Dàn khái niệm phát huy hiệutìm kiếm, nhiên tốn chi phí thời gian điều chỉnh lại dàn theobiếnđộng liệu theo nhu cầu song song hóa thuật tốn Trong nghiên cứu này, cấu trúc trung gian đƣợc đề xuất, gọi tập kiến tạo, để từ suy dẫn tập mục đóngtập giao tác đóngQua thử nghiệm, tập kiến tạo cho phép giải tình có biếnđộng liệu, liệu vào theo lô, thuận tiện tiến hành giải pháp song song hóa Hai là, dựa vào cấu trúc trung gian thiết lập, tiếp tục phát triển thuật toántìmtậpđóngphổbiếntheo u cầu xử lý theo lô giao dịch phân tán Nếu nhƣ mục tiêu nhằm xây dựng thuật toán giải toán tăng cƣờng với kỹ thuật cập nhật trực tiếp (nghĩa giao tác đƣợc bổ sung lƣợc bỏ, cấu trúc trung gian đƣợc cập nhật điều chỉnh), mục tiêu thứ hai nhằm xây dựng thuật toán giải toán tăng cƣờng với kỹ thuật cập nhật theo lô liệu giao dịch Bên cạnh đó, phân tích thiết kế, phần tử tập kiến tạo đƣợc thiết lập dựa dãy bit biểu diễn tập mục, tập giao tác kèm theo tần số xuất chúng tập giao dịch Điều không tạo thuận lợi tiến hành thuật tốn tìmtậpđóngphổbiếntình có biếnđộng liệu mà tận dụng đƣợc chế thực phép toán bit lƣu trữ theo bit nhớ máy tính Do tiết kiệm thời gian tính tốn, khơng gian lƣu trữ tập liệu giao dịch cỡ lớn Ba là, từ thuật tốn xử lý theo lơ, phát triển giải pháp song song hóa để giải tốn với tập giao dịch cỡ lớn Giải pháp song song hóa, trƣớc hết đƣợc thiết kế mạng máy tínhtheo chế đơn trình đa liệu – SPMD giao dịch truyền thơng điệp – MPI nhằm kiểm sốt tồn diễn tiến thuật toán Giải pháp Spark MapReduce đƣợc thử nghiệm, nhƣng khơng yếu khó kiểm sốt ẩn dấu theo chủ đích điện toán đám mây chƣa nhu cầu thực bối cảnh nghiên cứu bƣớc đầu Cuối cùng, từ kết nghiên cứu, giới thiệu sơ lược khả triển khai ứng dụng vào hai toán: (1) toán khai thác tậpphổbiến luồng liệu, (2) toán thu gọn tập thuộc tính đặc trưng tập đối tượng nhiều thuộc tínhtập liệu quan sát Trong luồng liệu, giao tác xuất liên tục số lƣợng giao tác vô hạn Với khối lƣợng liệu ngày tăng, xử lý liệu cách hiệu Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng phải duyệt nhiều lần, xác là: xử lý mục liệu tối đa lần Bên cạnh đó, thời gian thành phần cố hữu gắn liền với trình khai thác luồng liệu, liệu phát triển theo thời gian Một đặc điểm quan trọng luồng liệu chúng thƣờng đƣợc khai thác mơi trƣờng phân tán Do đó, khai thác tậpphổbiến luồng liệu thu hút nhiều quan tâm nghiên cứu đặt thách thức lớn chi phí tính tốn nhu cầu nhớ lớn, nhƣ yêu cầu độ xác kết khai thác [24] Trong thu gọn tập thuộc tính, theo quan điểm tập thơ Pawlak khởi xƣớng năm 1983, với hệ thống thông tin gồm đối tƣợng quan sát mang nhiều thuộc tínhcầntìmtập thuộc tính thu gọn Đây toán điện toán hạt cầntìmtập hạt Trong phân tích thống kê [60], khởi đầu toán suy đoán thống kê theo mơ hình hồi quy với số lƣợng lớn biến tham gia mơ hình Trong tốn này, vấn đề chọn tậpbiến để suy đốn theo nhóm tăng hiệu suy đốn đƣợc đặt Bài toán nhu cầu, gần giống tốn thu gọn thuộc tính vừa nêu Hơn 20 năm qua, toán đƣơng thời Một số nghiên cứu tập trung giải vấn đề nhiều phƣơng pháp, chẳng hạn giải pháp tối ƣu hóa lồi thƣa [56], [72], Mục tiêu nghiên cứu không nhằm thử nghiệm thuật tốn đề xuất mà hƣớng đến khả nối kết với giải pháp thu gọn tập thuộc tính vừa nêu Nội dung trình bày luận án Luận án đƣợc soạn thảo theo chƣơng: Chƣơng mở đầu nhằm giới thiệu khái niệm vấn đề có liên quan đến luận án Chƣơng giới thiệu tổng quan cơng bố có trƣớc liên quan đến luận án Phần trình bày theo ba nhóm chính: Tổng quan khai thác không tăng cƣờng tăng cƣờng; Tổng quan phƣơng pháp khai thác tậpđóngphổ biến; Tổng quan giải pháp song song hóa Chƣơng trình bày sở lý luận trình xây dựng tập kiến tạo theo hƣớng tăng cƣờng có tiết giảm giao tác Thuật tốn giới thiệu chƣơng ConPatSet, với thuật toán hỗ trợ khác Một số kết nghiên cứu có trƣớc đƣợc mơ tả so sánh, chủ yếu với hai thuật toán Table Lattice Chƣơng giới thiệu sơ lƣợc việc ứng dụng tập kiến tạo vào hai toán: khai thác tậpphổbiến luồng liệu, thu gọn tập thuộc tính đặc trƣng Chƣơng phát triển ConPatSet giải tốn tìmtậpđóngphổbiếntheo lô giao tác, lô hạng mục với thuật toán OcoPatSet IcoPatSet Chƣơng sử dụng phát huy giải thuật Chƣơng để phát triển giải pháp song song hóa nhằm tìm lời giải cho toán với tập liệu giao dịch cỡ lớn số đối tƣợng giao tác hay số hạng mục Chƣơng chƣơng trình bày kết đóng góp luận án khuyến nghị nghiên cứu tiếp sau luận án Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng CHƢƠNG 1: TỔNG QUAN Mục tiêu Khảo sát tổng quan công bố liên quan nhằm thúc đẩy trình nghiên cứu luận án: - Khai thác tậpphổbiến có tăng cƣờng khơng tăng cƣờng tạo hƣớng nhìn thực tiễn thuật tốn; - Khai thác tậpphổbiếnđóng vạch lộ trình hƣớng đích nội dung phƣơng pháp nghiên cứu luận án; - Giải pháp song song hóa để giải tốn với tập liệu có dung lƣợng lớn Tổng quan khai thác không tăng cƣờng tăng cƣờng Nhiều thuật toán khai thác tăng cƣờng đƣợc đề xuất nhà nghiên cứu khác phù hợp với nhu cầu ứng dụng sử dụng sở liệu ghi phát triển nhanh chóng Phƣơng pháp tiếpcận tổng thể khai thác tăng cƣờng sử dụng kiến thức đƣợc khai thác trƣớc quét phần sở liệu tăng lên Hầu hết thuật toán cố gắng giảm số lần quét sở liệu trì tậpphổbiến cách hiệu Nhƣ trình bày trên, hầu hết thuật toán khai thác tăng cƣờng đƣợc phân vào hai nhóm (Hình 1.2 thể bảng tổng hợp phƣơng pháp tiếpcận trình bày): (1) Các thuật toán dựa-trên-Apriori, (2) Các thuật toán dựa-trên-cây Ngoài cấu trúc đƣợc sử dụng nhóm 2, cách tiếpcận cấu trúc liệu nhóm đa dạng nhƣ: tập hợp (ứng viên, phổ biến), mẫu thống kê, định dạng sở liệu theo chiều dọc, dàn, cửa số trƣợt, tidlist Nhƣng để ngỏ hội cho việc sử dụng cấu trúc chuỗi bit theo định dạng ngang Hơn nữa, thuật tốn dựa-Apriori tồn vấn đề: sinh nhiều ứng viên; trình kiểm thử Apriori; đòi hỏi nhiều lần quét sở liệu Các thuật toán dựa-trên-cây phần lớn cần quét sở liệu lần Các thuật toán đa phần dựa lấy ý tƣởng từ FP với mục đích sử dụng nhƣ cấu trúc trung gian chứa kết điều chỉnh lại cấu trúc có biếnđộng liệu mà khơng cần phải duyệt lại tồn CSDL từ đầu Nhƣng, cấu trúc trung gian phải đối mặt với vấn đề: khó cài đặt thực tế phức tạp cấu trúc cây; liệu phát triển gây vấn đề khơng đủ nhớ chí nghiêm trọng kích thƣớc vƣợt xa dung lƣợng nhớ; đòi hỏi thao tác tái cấu trúc cây: hoán đổi, sáp nhập, chia tách nút cây; cần có thời gian tính tốn lớn việc tìm kiếm đƣờng lần duyệt Ngồi ra, vấn đề đặc biệt khác: Khai thác tăng cƣờng dựa cấu trúc trung gian FP-tree thể yếu điểm trình thực thi cấu trúc FP phụ thuộc vào tính tồn cục độ hỗ trợ tập mục CSDL Do đó, liệu đƣợc cập nhật tạo ảnh hƣởng đến toàn cấu trúc cây, cụ thể tình huống: tập mục xuất lại phổ biến, tập mục cũ trở nên phổbiếntập mục mới, đặc biệt nghiêm trọng tìnhtập mục cũ trở nên khơng phổbiến Để giải vấn đề này, có giải pháp nhƣ cập nhật lại cấu trúc định kỳ dựa vào số để xác định thời điểm cập nhật nhằm giảm tải cho việc phải điều chỉnh liên tục Đặc biệt giải pháp sử dụng thứ tự tắc để tránh việc phải phụ thuộc vào thứ tự toàn cục độ hỗ trợ tập mục Tuy nhiên, tồn Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Một đƣờng hƣớng nghiên cứu đƣợc đƣa sử dụng cấu trúc trung gian dàn khái niệm Phần trình bày tổng quan việc khai thác tăng cƣờng tậpđóng với cấu trúc trung gian dàn khái niệm với việc điểm qua kỹ thuật khai thác tậpđóng khơng tăng cƣờng Tóm lại, nhiều thuật tốn đóng góp cho khai thác tăng cƣờng, nhiên hội để cải thiện tínhhiệu thuật toán, phát triển thuật toán mới, giảm số lần quét sở liệu Phƣơng pháp Số lần quét liệu gốc Số lần quét liệu gia tăng nhiều lần nhiều lần nhiều lần nhiều lần FUP nhiều lần FUP2 nhiều lần DELI nhiều lần ULI lần UWEP lần Negative Borders lần MAAP nhiều lần PELICAN nhiều lần nhiều lần SWF nhiều lần lần ZigZag lần DB-tree lần nhiều lần lần PotFP-tree lần lần AFPIM nhiều lần EFPIM lần FUFP-tree CATS-tree CanTree CP-tree nhiều lần lần lần lần PreLarge-tree lần SPO-tree BIT BIT_FPGrowth lần lần lần lần nhiều lần nhiều lần nhiều lần nhiều lần lần lần lần lần nhiều lần lần lần lần Cách tiếpcận Cấu trúc liệu Yêu cầu lực CPU Yêu cầu nhớ CaoCao Chƣa CaoCao Chƣa CaoCao Chƣa Song song hóa FUP2 mẫu thống kê Hash table Hash table Hash table biên âm Lattice CaoCao Chƣa FUP2 phân hoạch Hash table CaoCao Chƣa dựa-Apriori biên âm Lattice CaoCao Chƣa dựa-Apriori tậpphổbiến tối đại tậpphổbiến tối đại; định dạng liệu dọc phân rã dàn cửa sổ trƣợt sinh ứng viên tậpphổbiến tối đại tidlist FP-tree tái cấu trúc FP-tree; tậpphổbiến tiềm tái cấu trúc FP-tree; bubble-sort tạo Hash table CaoCao Chƣa Lattice CaoCao Chƣa Hash table CaoCao Có Lattice CaoCao Chƣa Tree CaoCao Chƣa Tree CaoCao Chƣa Tree CaoCao Chƣa FP-tree tái cấu trúc Tree CaoCao Chƣa FP-tree tái cấu trúc FP-tree tái cấu trúc FP-tree thứ tự tắc FP-tree tái cấu trúc Tree Tree Tree Tree CaoCao TB CaoCaoCaoCaoCao Chƣa Chƣa Chƣa Chƣa FP-tree tập tiền-lớn Tree TB Cao Chƣa FP-tree tái cấu trúc sáp nhập FP-tree BIT FP-Growth Tree Tree Tree CaoCaoCaoCaoCaoCao Chƣa Có Có dựa-Apriori dựa-Apriori Hình 1.2 Tổng hợp phƣơng pháp tiếpcận khai thác tăng cƣờng Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Tổng quan phƣơng pháp khai thác tập (phổ biến) đóng Các phƣơng pháp khai thác tăng cƣờng tậpđóng chủ yếu sử dụng cấu trúc trung gian dàn khái niệm, xem nhƣ dạng đa phân với tính chất cần phải đảm bảo trì: hai nút ln tìm đƣợc chặn nhỏ chặn dƣới lớn chúng Với phƣơng pháp cập nhật trực tiếp, thêm nút vào dàn cần hai thao tác chính: tìm vị trí thêm nút điều chỉnh lại dàn để đảm bảo trì tính chất dàn Với phƣơng pháp trộn dàn: khối liệu đƣợc xây dựng thành dàn trộn với dàn trƣớc đó, hay xác sáp nhật hai đa phân lại với cho trì đƣợc đặc tính cũ Hai phƣơng pháp gặp khó khăn liệu kết khai thác ngày phình to Ngay lúc này, việc sử dụng danh sách tuyến tính làm cấu trúc trung gian nhằm giảm việc phải điều chỉnh lại cấu trúc trung gian khổng lồ nhiều lần ý tƣởng thử nghiệm Nhóm Nhóm (Dàn khái niệm) (Không tăng cƣờng) (Tăng cƣờng) * Dựa Apriori A-Close (Pasquier et al 1999) [46] * TID CHARM (Zaki, Hsiao 2002) [84] * Dựa FP-tree CLOSET (Pei et al 2000) [47] CLOSET+ (Wang et al 2003) [73] FPClose (Grahne, Zhu 2003) [19] AFOPT (Liu et al 2003) [37] * cập-nhật-trực-tiếp (Hu et al 1999) [23] (Valtchev et al 2008) [66] (Gupta et al 2010) [20] (Szathmary et al 2011) [54] (Rouane-Hacene et al 2013) [50] (Vo et al 2013) [71] (La et al 2014) [28] * trộn-dàn (Valtchev, Missaoui 2001) [65] (Ceglar, Roddick 2007) [5] Hình 1.3 Tổng quan phƣơng pháp khai thác tập (phổ biến) đóng Tổng quan phƣơng pháp song song hóa Trong giai đoạn trƣớc 2005, cơng nghệ để hỗ trợ cách hiệu trình song song hóa chƣa phát triển mạnh, nghiên cứu thƣờng phải đối mặt với khó khăn q trình xử lý tập hợp lớn liệu phân tán là: quản lý, xếp lịch trình truy xuất I/O; quản lý tiến trình song song phân tán; theo dõi trạng thái liệu; xử lý lỗi; quản lý số lƣợng lớn liệu có quan hệ phụ thuộc nhau; … Hiện nay, công nghệ Hadoop giúp tạo hạ tầng hoàn chỉnh cho việc xử lý song song với nhiều ƣu điểm, nhà nghiên cứu đƣợc giải phóng khỏi khó khăn đề cập Tuy nhiên, nghiên cứu tập trung mức độ chuyển đổi giải Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng thuật song song hóa dựa Apriori FP-Growth cho phù hợp với kỹ thuật MapReduce để thực nghiệm với khối lƣợng liệu lớn Bên cạnh việc song song hóa giải thuật khai thác tậpphổ biến, giải thuật song song hóa q trình khai thác tậpphổbiếnđóng tối đại đƣợc tập trung nghiên cứu Tuy nhiên, chƣa có nhiều giải thuật song song hóa mà đảm bảo đƣợc tính chất tăng cƣờng Đặc biệt song song hóa q trình khai thác tậpđóng đảm bảo tính chất tăng cường hội cho nghiên cứu mới, tạo động lực cho luận án tập trung nghiên cứu phát triển vấn đề Trong Chƣơng 4, luận án nghiên cứu đề xuất giải thuật thực nghiệm chiến lƣợc song song hóa khai thác tăng cƣờng theo lơ tậpđóng mơi trƣờng Hadoop-Spark với kỹ thuật MapReduce Có thể nói giải thuật đƣợc đề xuất nhằm song song hóa khai thác tăng cƣờng theo lơ tậpđóng Nhóm (giai đoạn trƣớc 2005) Nhóm (song song hóa khơng tăng cƣờng) * Apriori - FDM (Cheung et al 1996) [7] * Tập tối đại - POP-MAX (Nataraj, Selvan 2010) [41] - FPM (Cheung, Xiao 1998) [9] * Tậpphổbiếnđóng - MT_CLOSED (Lucchese et al 2007) [38] - DDM (Schuster, Wolff 2001) [51] - DAA (Manning, Keane 2001) [39] * FP-tree - (Tang, Turkia 2005) [58] - (Rahman, Balasubramanie 2009) [48] Nhóm (song song hóa tăng cƣờng) * Tậpphổbiến tối đại - (Veloso et al 2003) [69] Nhóm (MapReduce) * FP-Growth - PFP (Li et al 2008) [32] * Apriori - (Cryans et al 2010) [12] - (Yang et al 2010) [80] - PSON (Xiao et al.2011) [77] - PLCMQS (Negrevergne, Uno 2010) [42] - PARMA(Riondato et al 2012) [49] - PGLCM (Do et al 2010) [14] - SPC, FPC, DPC (Lin et al 2012) [36] - PDCRP (Sreedevi, Reddy 2013) [52] - Papriori (Li et al 2012) [33] - FIMMR (Wang et al 2014 [74]) Hình 1.5 Tổng quan phƣơng pháp song song hóa Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng CHƢƠNG 2: GIẢI THUẬT KIẾN TẠO CÁC TẬPĐÓNGPHỔBIẾN Mục tiêu - Thiết lập khái niệm mệnh đề nhằm hỗ trợ việc xây dựng cấu trúc trung gian gọi tập kiến tạo P gồm mẫu kiến tạo từ suy tập mục đóng, tậpphổbiến - Xây dựng thuật toán tăng cƣờng với kỹ thuật cập nhật trực tiếptập kiến tạo P bổ sung giao tác (IncPatSet) tiết giảm hay loại bỏ giao tác từ tập giao tác (DesPatSet) - Việc lƣu trữ liệu giao tác theo dãy bit có ƣu đáng kể so sánh với cơng trình [23] [81] Trƣớc hết làm giảm thiểu lƣợng nhớ ngồi, bên cạnh việc tính tốn liệu bit nhanh nhiều so với kiểu liệu khác Tốc độ thực tác vụ đọc-ghi liệu nhớ nhớ theo chế bit đƣợc cải thiện tốt so với nhƣng chế khác Các mệnh đề Mệnh đề 2.1: Bao đóngtập hợp tậpđóng bé chứa tập hợp Nhận xét 2.1: Trong T = (O, I, R ), phát biểu sau đúng: I I I fI = fI ((I)) = ((I)) Mệnh đề 2.2: TrongT = (O, I, R ) cho I I iI, lúc đó: (I) ({i1}) i((I)) Nhận xét 2.2: Cho T = (O, I, R ), I I Lúc đó, tần số I ((I)) hay: fI = f((I)) Mệnh đề 2.3: Cho tậpđóng C1, C2, C3 I Nếu C1 C2 C3 fC1 > fC2 > fC3 Mệnh đề diễn dịch nhƣ sau: Một tậpđóng T khác (không chứa không bị chứa bởi) tậpđóng khác bị chứa hẳn tậpđóng I tần số phải lớn tần số I Mệnh đề 2.4: Cho O,I hcn T = (O, I, R ), phát biểu sau tương đương: i O,I tối đại ii O, I đóng iii (O) = I, (I) = O Mệnh đề 2.5: Trong T = (O, I, R ) ln có CM = M Tập kiến tạo Cho CSDL giao tác T = (O, I, R ), tập mẫu gộp tối đại - đƣợc định nghĩa, tập kiến tạo P T , mẫu gộp tối đại gọi mẫu kiến tạo Nhận xét 2.3: Hai phần tử tập kiến tạo P trùng Mệnh đề 2.6: Cho tập giao tác T gồm m hạng mục, P tập kiến tạo ứng với T u,vP Xét mẫu gộp o m-bit mẫu r = u & o, s = v & o Lúc đó, có ba khả sau xảy ra: i u = r = s ii u = r s iii.u r s Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Cập nhật tập kiến tạo bổ sung giao tác Hình 2.1 Sơ đồ khối thiết kế IncPatSet ALGORITHM IncPatSet(o,P,nP) // Function for updating constructive pattern set when increasing a new object // in: new object o, current constructive set P // out: P new constructive set if all bits in o equal then return P; // oP if all bits in o equal then { for pP fp := fp+1; // statements in A-block if oP then append o to P; return P; } Q := {o}; // statements in B-block for pP { q := o & p; if all bits in q equal then continue // qP else Q:=Q{q}; } 10 S := Q; R := ; // statements in C-block: Filtered-PatSet(Q) 11 for qQ { 10 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Hình 2.5 Thời gian tínhtheo số giao tác tập liệu Retail Nhận xét 2.4: Từ Bảng 2.6-2.8 số tậpđóngtìm thấy theo ConPatSet Lattice nhƣ Lattice ngừng tính tốn số giao tác tăng lớn mà thời gian tính vƣợt trội hay chậm trễ với mức độ chậm tăng theo hàm mũ nhƣ Bảng 2.9 Bảng 2.9 Thời gian chậm trễ tính tốn Lattice ứng với ConPatSet Khoảng số lƣợng giao tác tham gia tính tốn Thời gian chậm trễ trung bình thêm giao tác (sec.) Thời gian chậm trễ trung bình tìmtậpđóng (sec.) Mơ hình thời gian chậm trễ theo số giao tác T (sec.) Hệ số tƣơng quan mơ hình chậm trễ Pumb_star 10-100 113.88 2263.39 0.026T5.47 97.52% T10I4D100K 1000-10000 2.38 6441.55 16.7T3.1 99.95% 20519.46 5.98T3.5 99.50% Tên tập liệu giao tác Retail 10000-15000 2.77 (%) Chú thích: T số giao tác tập liệu Lattice tính b Thực nghiệm so sánh với thuật toán dựa bảng [81] 13 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Hình 2.6 Thời gian tínhtheo số 200 giao tác Pumb-star Hình 2.7 Thời gian tínhtheotập giao tác T10I4D100K 14 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Hình 2.8 Thời gian tínhtheotập giao tác Retail Nhận xét 2.5: Bảng 2.13 Thời gian chậm trễ tính tốn Table so với ConPatSet Tên tập liệu giao tác Pumb_star T10I4D100K Retail Khoảng số lƣợng giao tác tham gia tính tốn Thời gian chậm trễ trung bình thêm giao tác (sec.) Thời gian chậm trễ trung bình tìmtậpđóng (sec.) Mơ hình thời gian chậm trễ theo số giao tác T (sec.) Hệ số tƣơng quan mơ hình chậm trễ 10-140 58.82 2064.00 0.021T4.932 99.35% 5818.60 4594.71 0.252T3.387 99.80% 99.85% 1000-30000 1000-41000 2.63 2.15 0.097T3.243 (%) Bảng 2.10-2.12 cho thấy số tậpđóngtìm đƣợc theo hai thuật tốn nhƣ Table ngƣng tính tốn số giao tác tăng lớn, thời gian tính có nhiều chậm trễ mức độ trễ gia tăng theo hàm mũ nhƣ thống kê cột gần cuối Bảng 2.13 Cuối đồ thị minh họa việc sử dụng dung lƣợng nhớ (tính theo MB) thuật toántheotập liệu thực nghiệm có biếnđộng 1000 giao tác 15 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Hình 2.9 Dung lƣợng nhớ đƣợc sử dụng thuật toán CHƢƠNG 3: KIẾN TẠO CÁC TẬP ĐĨNG PHỔBIẾNTHEO LƠ Mục tiêu - Trong chƣơng này, tập kiến tạo P toàn CSDL đƣợc tạo từ tập kiến tạo thành phần, tƣơng ứng với việc chia CSDL thành lô giao tác lô hạng mục - Xây dựng thuật tốn tăng cƣờng với kỹ thuật cập nhật theo lơ giao tác ( OcoPatSet) theo lô hạng mục (IcoPatSet) Tập kiến tạo từ lô giao tác Xét tập giao tác T 1, T theo lô giao dịch (O1, I, R 1) (O2, I, R 2) có chung tập mục I Áp dụng thuật toán ConPatSet xác định đƣợc tập kiến tạo tƣơng ứng P1 P2 Bài tốn đặt tìmtập kiến tạo P cho tập giao tác T ứng với tập O hợp tập giao dịch O1 O2, O = O1O2 Hình 3.1 mơ tả sơ đồ khối thuật tốn đề xuất OcoPatSet để tìmtập kiến tạo tình hợp lơ giao tác Mặc dù nội dung thuật toán sơ đồ nêu với hai lơ, song từ dẫn cho trƣờng hợp nhiều lơ 16 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Hình 3.1 Sơ đồ thuật toán OcoPatSet ALGORITHM OcoPatSet(T 1,T 2) // “Objectsets-Combined Pattern Set” : „ou-kou-pat-set‟ // Creating Constructive Pattern Set from batches of objects // in: constructive sets P1,P2 of T 1,T // out: P, combined constructive set Q:=; // Integrated-PatSet(P1,P2): for p1P1 { for p2P2 { q := p1&p2; if all bits in q equal then continue; Q:=Q{q}; } } R:=Q; // Filtered-PatSet(Q): for rR for qR if q « r then Q:=Q\{q}; R1:=P1; // Selected-PatSet(P1,Q): for rP1 for qQ if r«q then R1:=R1\{q}; 10 R2:=P2; // Selected-PatSet(P2,Q): 11 for rP2 for qQ if r«q then R2:=R2\{q}; 12 Return P:=QR1R2 Mệnh đề 3.1: Cho k lô đối tượng giao tác O 1, ,O k Thuật toán OcoPatSet lập nên tập kiến tạo P tương ứng với hợp lô O = i=1 kO i Độ phức tạp thuật toán o(mn*k*2), 17 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng n* = maxi=1 k(|O i|) k* = maxi=1 k(Pi), Pi tập kiến tạo lập ConPatSet cho lô O i , i = 1, ,k Nhận xét 3.1: Với số hạng mục m, ghép trước lô giao tác O i , ni = |O i|, i=1 k để có O = i=1 kO i, n = |O | ConPatSet tạo tập kiến tạo P ứng với độ phức tạp o(mnk2), k = |P| Độ phức tạp Mệnh đề 3.1 o(mn*k*2) có độ lớn giảm đáng kể so với o(mnk2) n* = maxi=1 k(ni) bé hẳn so với n = i=1 k ni Tập kiến tạo từ lô hạng mục Xét tập giao tác T 1, T theo lô hạng mục có chung tập giao tác (O, I1, R 1) (O, I2, R 2) Áp dụng thuật toán ConPatSet xác định đƣợc tập kiến tạo tƣơng ứng P1 P2 Bài tốn đặt tìmtập kiến tạo P cho tập giao tác T ứng với tập mục I hợp tập mục I1 I2, I = I1I2 Thuật tốn tìmtập kiến tạo hợp lô hạng mục rời đƣợc gọi IcoPatSet Sơ đồ khối thuật toán minh họa Hình 3.3 Hình 3.3 Sơ đồ khối thuật tốn IcoPatSet 18 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng ALGORITHM IcoPatSet(T 1,T 2) // “Itemsets-Combined Pattern Set” : „ai-kou-pat-set‟ // Creating Constructive Pattern Set from batches of items // in: constructive sets P1,P2 of T 1,T // m1, m2: number of items in T 1,T // out: P, combined constructive set Q:=; Q1:=; Q2:=; // Concatenated-PatSet(Q): for p1P1 { OP1(p1):=Pro(p1); q1:=fill(p1,m2+); Q1:=Q1{q1}; } for p2P2 { OP2(p2):=Pro(p2); q2:=fill(p2,m1-); Q2:=Q2{q2}; } for p1P1 { for p2P2 { q:=p1 p2; fq:=|OP1(p1) OP2(p2)|; Q:=Q{q}; } } R:=Q; 10 for rR { // Filtered-PatSet(Q): 11 for qR { if r«q then Q:=Q\{q};}} 12 for rQ { // Selected-PatSet( Q1,Q): 13 for p1Q1 { 14 if r « p1 then Q1:=Q1\{p1};} } 15 for rQ { // Selected-PatSet(Q2,Q): 16 for p2Q2 { 17 if r « p2 then Q2:=Q2\{p2};} } 18 Return P:=QQ1Q2 Mệnh đề 3.2: Cho k lô hạng mục I 1, ,I k Thuật toán IcoPatSet thiết lập tập kiến tạo P tương ứng với hợp lô I = i=1 kI i Độ phức tạp thuật tốn o(mnk*2), k* số phần tử cực đại tập mẫu trung gian thiết lập nên P theo thuật toán IcoPatSet Nhận xét 3.2: Nếu ghép trước k lô hạng mục I i tập n giao tác để có tập mục I = i=1 kI i, m = |I |, ConPatSet tạo tập P với độ phức tạp o(mnk2), k = |P| Sử dụng IcoPatSet độ phức tạp o(mnk*2) có độ lớn giảm thiểu k* khơng lớn so với k Song việc ghép trước vấn đề cầncân nhắc CHƢƠNG 4: GIẢI PHÁP SONG SONG HÓA VỚI SỐ LƢỢNG LỚN GIAO TÁC VÀ HẠNG MỤC Mục tiêu - Tiếp nối Chƣơng 3, giải pháp song song hóa với OcoPatSet IcoPatSet đƣợc đề xuất - Thử nghiệm môi trƣờng Hadoop-Spark với kỹ thuật MapReduce 19 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóngTập kiến tạo với số lƣợng lớn giao tác Trƣờng hợp số giao tác lớn, để giảm thời gian tốn tìmtập kiến tạo cần đƣợc thực mạng máy tính cục giải pháp song song hóa Đây giải pháp áp dụng cho trƣờng hợp sở liệu (CSDL) giao tác phân tán theo vùng, miền khác Bài toán xác định tập kiến tạo tình vừa nêu phát biểu nhƣ sau: Cho CSDL giao tác T = (O,I,R ) O = =1 s O , O O = với , = 1,2, ,s Tìmtập kiến tạo P cho T để suy dẫn tập mục đóng, phổbiến T ứng với m = |I | hạng mục số giao tác n = |O | lớn Mạng máy tính dùng để giải tốn gồm máy chủ M kết nối với s máy trạm S, = 1, ,s; CSDL máy trạm T = (O,I,R ) Gọi tms thời gian truyền-nhận thông điệp M S , twb thời gian truyền-nhận mẫu gộp m-bit tần số số nguyên không âm byte Các giá trị thay đổi theo kỹ thuật truyền nối cấu hình máy tính mạng Phase 1: Splitting T into T , sending to S = 1,2, , s Phase 2: Comparing, choosing closed maximal patterns in Q to get filtered Q: „mkQ2 ‟ s flows „s(tms + twbn)‟ „tms + twb kQ‟ M: S : Getting T , creating P : „mnk2 ‟ Phase 3: Sending Q to S Creating Q a proposed set of patterns for T from all P, sending to M o „tms + twb kQ‟ „s(tms + twbk)‟ Getting Q, removing proper patterns in P to get closed patterns R: „mkkQ‟ Sending updated closed patterns R to M Q: „m(s-1)kc2‟ P123.4 P12.3 P1.2 S1: P1 S2: P2 Phase 4: Output final solution: P = QR1 Rs S3: P3 S4: P4 Ss-2: Ps-2 Ss-1: Ps-1 Ss: Ps Hình 4.1 Giải pháp song song hóa cho thuật tốn OcoPatSet 20 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Bảng 4.1 Phân tích thuật tốn song song với OcoPatSet Tác vụ máy Mức độ phức tạp Máy chủ Phân rã T thành s tập T M : Gửi T đến s máy trạm S Lọc-chọn Q với Selected-PatSet Gửi Q s máy trạm Nhận P, kết xuất P = Q ( R ) s(tms + ntwb) mkQ2, kQ = |Q| tms + kQtwb Máy trạm Nhận S từ máy chủ S: Tạo tập kiến tạo P theo ConPatSet Tạo tập mẫu đề xuất Q ghép tiếp liên, o mnk2 m(s-1)kc2 Gửi tập Q đến máy chủ M Nhận Q, lọc-loại mẫu riêng P theo Q Gửi P loại mẫu riêng đến máy chủ M tms + kQtwb mkkQ tms + ktwb Mệnh đề 4.1: Độ phức tạp thuật toán OcoPatSet thiết lập tập kiến tạo P theo giải pháp song song hóa tập giao tác O = i=1 sO i o(mn*k*2), m số tập mục, n* = maxi=1 s(|O i|), k* số lớn số phần tử tập mẫu trung gian để tạo lập P Nhận xét 4.1: - Nếu tính T tập giao tác O = i=1 sO i, độ phức tạp xét theo Mệnh đề 2.7 Chương o(mnkP2), kP = | P | Để tiện so sánh, giả sử n* đạt ns n* = n – =1 s-1 n bé so với n Giả thiết k* độ lớn với kP, độ phức tạp thuật toán song song hóa giảm từ o(mnkP2) xuống đến mức o(m[ n – =1 s2 1n ]kP ) - Về việc phân chia liệu cho máy hệ thống song song hóa cho hiệu quả: Độ phức tạp giải pháp song hóa theo giao tác phụ thuộc vào n* (số lớn số phần tử khối liệu phân chia O i) k* (là số lớn số phần tử tập mẫu trung gian để tạo lập P) Mặc dù số lượng phần tử khối liệu xác định trước số lượng phần tử tập mẫu trung gian khơng thể kiểm sốt cách xác phụ thuộc vào đặc trưng tập liệu thực nghiệm (chỉ biết chận | P | = 2n – 1) Do đó, mặt lý thuyết để giảm thiểu n* k* phân chia nhỏ tập giao tác O hiệu quả, nghĩa sử dụng nhiều máy tính hệ thống song song hiệu Tuy nhiên hiệu suất tăng tốc giải pháp song song hóa theo giao tác việc phụ thuộc vào đặc trưng tập liệu thực nghiệm phải vào định luật Amdahl 21 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Hình 4.2 Hệ số tăng tốc thuật tốn song song hóa theo giao tác Tập kiến tạo với số lƣợng lớn hạng mục Nếu tập mục có số hạng mục lớn, CSDL giao dịch phân tán theo nhiều vùng, miền khác tập mục, vấn đề xác định tập kiến tạo tìnhtập mục phân tán toán: Cho CSDL giao tác T = (O,I,R ) với I = =1 s I , I I = , = 1,2, ,s Tìmtập kiến tạo P để suy tập mục đóng, phổbiến T ứng với số lƣợng n = |O | giao tác m = |I | đủ lớn Mạng máy tính sử dụng để giải toán gồm máy chủ M kết nối với s máy trạm S , = 1, 2, , s; CSDL máy trạm T = (O,I,R ) Thuật toán IcoPatSet đƣợc thiết kế để giải tốn nêu có sơ đồ mơ tả Hình 4.3 cho s tập mục Hình 4.3 trình bày giải pháp song song hóa cho toántheotập mục máy chủ M s máy trạm S Tƣơng tự nhƣ trình bày mục trƣớc, thời gian truyền-nhận thông điệp thời gian truyền-nhận mẫu gộp m-bit tần số M S, lần lƣợt đƣợc ký hiệu tms twb Bảng 4.4 liệt kê nhằm phân tích độ phức tạp thuật tốn Mệnh đề 4.2: Độ phức tạp thuật toán IcoPatSet thiết lập tập kiến tạo P giải pháp song song hóa tập mục I = =1 sI , n giao tác, m = =1 s |I |, o(mnk*2), k* số lớn số phần tử tập mẫu trung gian để lập nên P Nhận xét 4.2: - Nếu tính T trực tiếp I = =1 sI , độ phức tạp o(mnkP2), kP = |P| Trong trường hợp Mệnh đề 3.4, độ phức tạp IcoPatSet o(mnk*2) Tuy có giảm chưa đáng kể so độ giảm phức tạp song song hóa tập giao tác - Về việc phân chia liệu cho máy hệ thống song song hóa cho hiệu lưu ý Nhận xét 4.1 Tuy nhiên, độ phức tạp giải pháp song hóa theo hạng mục phụ thuộc vào k* 22 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Bảng 4.4 Phân tích thuật tốn song song với IcoPatSet Tác vụ máy Mức độ phức tạp s(tms + ntwb) Máy chủ Phân rã T thành s tập T gửi đến S M : Nhận, lọc-chọn Q với Selected-PatSet Gửi Q máy trạm S Nhận Q, kết xuất tập kiến tạo P = Q(Q) Máy trạm Nhận T , tạo tập P theo ConPatSet nmk2 S: Tạo tập OP(p) = Pro(p) với pP T Lấp vào pP, tạo tập mẫu Q (m-m)k (1+o* )kc Gửi tập mẫu đề xuất Q đến M Nhận Q, loại mẫu suy dẫn P, để có Q Gửi Q cập nhật đến máy chủ M tms + kQtwb mkkQ tms + ktwb Phase 3: Sending Q to S = 1,2, , s „s(tms + kQtwb)‟ „tms + ktwb‟ Sending P, OP to get concatenate Q and resend Q to Ms Getting Q, removing deduced patterns in P to get a closed pattern set Q : „mkkQ‟ Q: „(1+o*2)k*2 ‟ Q123.4 Phase 4: Output the final solution: P = QQ1 Qs i Sending updated closed patterns Q to M o* = max(|OP|), kc = max(k) Q12.3 Q1.2 S2: P2,OP2 Getting T , finding P:„nmk2 ‟, OP: „nmk‟ ,-fill to get Q:„(m-m)k‟ S1: P1,OP1 nmk Tạo tập mẫu ghép tiếp liên Q theo sơ đồ i Phase 1: Phase 2: M: Getting Q ,removing Splitting T to T , deduced patterns in Q to sending T to S get closed patterns for = 1,2, , s Q: „mkQ2 ‟ s flows „s(tms + ntwb)‟ „tms + kQtwb‟ S : mkQ2, kQ = |Q| s(tms + kQtwb) S3: P3,OP3 S4:P4,OP4 Ss-2:Ps-2,OPs-2 Ss-1:Ps-1,OPs-1 Hình 4.3 Giải pháp song song hóa cho thuật tốn IcoPatSet Ss:Ps,OPs 23 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Hình 4.4 Hệ số tăng tốc thuật tốn song song hóa theo hạng mục Một số thử nghiệm với Map-Reduce Cơ sở hạ tầng: máy ảo đƣợc cấp Phòng Thí nghiệm Truyền thơng Đa phƣơng tiện (MMLab), Trƣờng ĐH Công nghệ Thông tin, ĐHQG-Tp.HCM (Đây sở hạ tầng dựa tảng công nghệ đám mây) Mỗi máy có: CPU, 12288 MB nhớ 100 GB nhớ đĩa Hàm Map đƣợc cài đặt thuật toán ConPaSet, hàm Reduce đƣợc cài đặt thuật tốn OcoPatSet Hình 4.6 Thời gian tínhtheo số CPU tập liệu T10I4D100K (gồm 100.000 giao tác; 1.000 hạng mục) Hình 4.7 Thời gian tínhtheo số CPU tập liệu T10I4D100K_400x (gồm 40.000.000 giao tác; 1.000 hạng mục) 24 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Hình 4.8 Thời gian tínhtheo số CPU tập liệu T10I4D100K_800x (gồm 80.000.000 giao tác; 1.000 hạng mục) Hình 4.9 Thời gian tínhtheo số CPU tập liệu Retail (gồm 88.162 giao tác; 16.469 hạng mục) CHƢƠNG 5: KẾT LUẬN Kết đạt đƣợc luận án i Đề xuất thuật toán kiến tạo tậpđóng ConPatSet với phần cốt lõi IncPatSet để tạo lập theo hƣớng tăng cƣờng tập kiến tạo – nhƣ cấu trúc trung gian, gồm mẫu kiến tạo tậpđóng giao tác, tậpđóng hạng mục tần số chúng nhằm rút trích tậpđóngphổbiếntheo ngƣỡng phổbiến cho trƣớc Độ phức tạp thuật toán, với n giao tác m hạng mục, o(mnk2) với k số mẫu kiến tạo - chận độ phức tạp o(mn22n) thuộc loại NP-khó ii Từ ConPatSet dẫn thuật toán bổ trợ gồm DesPatSet UpdPatSet để cập nhật tập kiến tạo tập đóng, tậpđóngphổbiến có tiết giảm hay tăng cƣờng giao tác sơ sở liệu giao dịch Sự phát triển cho phép phát triển thuật tốn để tìmtập kiến tạo luồng giao dịch có tập giao tác độngtheo thời gian ứng với tập mục iii Các thử nghiệm so sánh kết thuật tốn đề xuất với kết cơng bố theo thuật toán [66], [71]; thực nghiệm so sánh nhiều thuật toán dựa bảng [81] tập liệu trang web http://fimi.ua.ac.be/data đƣợc thực Kết cho thấy ConPatSet kết xuất kết Nhờ việc lƣu liệu nhớ theo chế bit, tính tốn bit, nên thu hẹp không gian lƣu liệu thời gian tính tốn đƣợc rút ngắn đáng kể so với thuật tốn có trƣớc iv Giải tốn tìmtập kiến tạo sở giao dịch phân tán theo vùng miền khác nhau, thuật toán ConPatSet đƣợc phát triển đề xuất hai thuật tốn OcoPatSet IcoPatSet để tìmtập kiến tạo theo lô giao tác hay lô hạng mục Các thuật tốn đƣợc song song hóa theo phƣơng thức SPMD chế MPI để giải tốn có dung lƣợng liệu lớn 25 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng Khi song song hóa, chi phí thời gian truyền nhận liệu không đáng kể so với độ phức tạp cho thời gian tính tốn Độ phức tạptính tốn OcoPatSet hợp s tập giao tácO1, , Os o(mn*k*2), n* = maxi=1 s(|O i|); IcoPatSet hợp tập mục I 1, , I r o(mnk*2), m = =1 r |I |, k* số lớn số phần tử tập mẫu trung gian tạo lập tập kiến tạo Giải pháp song song hóa Spark MapReduce đƣợc thử nghiệm, kết sau so sánh chấp nhận đƣợc v Tập kiến tạo đƣợc đề xuất ứng dụng vào trình khai thác tậpphổbiến luồng liệu tìmtập thuộc tính thu gọn bảng thơng tin thông qua phƣơng pháp rút gọn hàm khả phân biệt Một số hạn chế cầntiếp tục nghiên cứu i Cần tiến hành nhiều thực nghiệm, tiếp tục thử thách thuật toán đề xuất tập liệu đủ lớn, đƣợc sử dụng môi trƣờng học thuật Qua đó, đặc biệt theo dõi chận cận tƣơng ứng số mẫu kiến tạo k góp phần đánh giá cận thuật toán trƣờng hợp tổng quát ii Thực nghiệm giải thuật đề xuất toán: gom cụm nhị phân song hƣớng hay biclustering; gom cụm tập liệu thƣa, Qua đó, phát triển ứng dụng thuật tốn đề xuất góp phần giải vấn đề liên quan đƣợc đặt lĩnh vực sinh học, xử lý ảnh, iii Tiếp tục thử nghiệm, phát triển ứng dụng thuật toán đề xuất vào tốn tìmtập thu gọn thuộc tính, hay đặc tính cách hiệu hơn, góp phần hỗ trợ giải toán xử lý hệ thống thông tin, hệ định iv Tìm kiếm điều kiện để triển khai ứng dụng kết nghiên cứu đạt đƣợc vào thực tiễn, chẳng hạn quản lý kế hoạch kinh doanh cửa hàng, hệ thống cửa hàng hay toán quy hoạch nguồn cung-cầu, tiếp thị, v Nghiên cứu phát triển thuật toán đề xuất trƣờng hợp liệu đối tƣợng giao tác bảng thông tin hay bảng định không nhị phân 26 Tóm tắt LATS Nângcaohiệutính tốn tìmtậpphổbiếntheohướngtiếpcậntậpđóng DANH MỤC BÀI BÁO KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN [B1] Thanh-Trung Nguyen – An Improved Algorithm for Frequent Patterns Mining Problem – 3CA2010: 2010 International Symposium on Computer, Communication, Control and Automation (May 5-7, 2010, Tainan, Taiwan) [B2] Thanh-Trung Nguyen, Viet-Long Huu Nguyen, Phi-Khu Nguyen – A Bit-chain Based Algorithm for Problem of Attribute Reduction – ACIIDS2012: The 4th Asian Conference on Intelligent Information and Database Systems (19-21 March, 2012, Kaohsiung, Taiwan) [B3] Thanh-Trung Nguyen, Bach-Hien Nguyen, Phi-Khu Nguyen – Parallelizing the Improved Algorithm for Frequent Patterns Mining Problem – ACIIDS2013: The 5th Asian Conference on Intelligent Information and Database Systems (18-20 March, 2013, Kuala Lumpur, Malaysia) [B4] Thanh-Trung Nguyen, Phi-Khu Nguyen – A New Viewpoint for Mining Frequent Patterns – International Journal of Advanced Computer Science and Application, Vol.4, No.3, March 2013 [B5] Thanh-Trung Nguyen, Phi-Khu Nguyen – Reducing Attributes in Rough Set Theory with the Viewpoint of Mining Frequent Patterns – International Journal of Advanced Computer Science and Application, Vol.4, No.4, April 2013 [B6] Thanh-Trung Nguyen, Hue-Minh Nguyen, Phi-Khu Nguyen – Batch Processing for Incrementally Mining Closed Itemsets with MapReduce – Asian Journal of Mathematics and Computer Research, Vol.6, Issue 1, July 2015 [B7] Thanh-Trung Nguyen – Mining Incrementally Closed Itemsets with a New Intermediate Structure – British Journal of Mathematics and Computer Research, Vol 18(3), August 2016 [B8] Thanh-Trung Nguyen – Mining Incrementally Closed Item Sets with Constructive Pattern Set – Expert Systems With Applications (SCIE, IF2016 = 3.928), Elsevier, Vol.100, June 2018 27 ... cƣờng Tóm tắt LATS Nâng cao hiệu tính tốn tìm tập phổ biến theo hướng tiếp cận tập đóng Tổng quan phƣơng pháp khai thác tập (phổ biến) đóng Các phƣơng pháp khai thác tăng cƣờng tập đóng chủ yếu sử... thuật toán dựa dàn [23] 11 Tóm tắt LATS Nâng cao hiệu tính tốn tìm tập phổ biến theo hướng tiếp cận tập đóng Hình 2.3 Thời gian tính theo số giao tác tập liệu Pumsb-star Hình 2.4 Thời gian tính theo. .. dung lƣợng nhớ (tính theo MB) thuật toán theo tập liệu thực nghiệm có biến động 1000 giao tác 15 Tóm tắt LATS Nâng cao hiệu tính tốn tìm tập phổ biến theo hướng tiếp cận tập đóng Hình 2.9 Dung