Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
836,05 KB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TRẦN MINH THÁI KHAITHÁCMẪUPHỔBIẾNVÀLUẬTTỪCƠSỞDỮLIỆUCHUỖI Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Tp Hồ Chí Minh, năm 2016 Công trình hoàn thành Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự Nhiên - Đại học Quốc Gia Thành phố Hồ Chí Minh Người hướng dẫn khoa học: PGS TS LÊ HOÀI BẮC Phản biện 1: PGS TS Hồ Bảo Quốc Phản biện 2: PGS TS Nguyễn Đình Thuân Phản biện 3: TS Nguyễn An Tế Phản biện độc lập 1: PGS TS Đỗ Trung Tuấn Phản biện độc lập 2: PGS TS Lê Anh Cường Luận án bảo vệ trước Hội đồng chấm luận án họp vào lúc ngày tháng năm Có thể tìm hiểu luận án thư viện: - Thư viện Khoa học Tổng hợp Thành phố Hồ Chí Minh - Thư viện Trường Đại học Khoa học Tự Nhiên TÓM TẮT LUẬN ÁN Hiện tại, khaithácliệuchuỗi hướng lĩnh vực khaithácliệu nhiều nhà khoa học tập trung nghiên cứu Việc khaitháccó tính ứng dụng cao thực tiễn, như: dự báo xu hướng, phân tích thói quen hay hành vi khách hàng, dự đoán thiên tai, ngăn ngừa xâm nhập hệ thống, việc phân tích hay phát dị thường cấu trúc protein, DNA, xử lý văn bản, v.v… Tuy nhiên, vấn đề khaithácliệuchuỗi đối mặt với hai thách thức Thách thức thứ thời gian khaithác thứ hai vấn đề rút trích tập luật không dư thừa sốluật sinh từmẫu Để giải toán này, việc thiết kế mô hình liệu phù hợp, với việc phát hiện, tỉa mẫu nhằm giảm bớt số lượng mẫu không cần thiết rút trích tập luật đầy đủ không dư thừa yếu tố dẫn đến thành công Đây nội dung nghiên cứu luận án Trong đó, luận án tập trung vào việc giải vấn đề giảm thời gian trình khaithácmẫu cách xây dựng cấu trúc liệu nén dạng vector kết hợp với thông tin cần thiết giúp cho việc kiểm tra loại trừ mẫudư thừa cách hợp lý nhanh chóng Tiếp theo đó, luận án trình bày cách thức khaithác hiệu luật không dư thừa, kết hợp với kỹ thuật phát sớm dừng sinh luật cho mẫu không tiềm Các đề xuất tập trung vào việc giảm thiểu thời gian khai thác, chi phí tính toán tối ưu không gian lưu trữ trình khaithácliệuchuỗi Nội dung luận án bao gồm hai phần bốn chương tóm tắt sau: Phần mở đầu Nội dung phần trình bày tóm tắt tính cấp thiết luận án, mục tiêu, phạm vi nghiên cứu kết đạt luận án 1 Giới thiệu Chuỗi (sequence) danh sách có thứ tự kiện hay ký hiệu Dữliệu dạng tồn hầu hết hoạt động hay thông tin mang tính thứ tựCơsởliệu (CSDL) chuỗi (sequence database) bao gồm danh sách chuỗi Ví dụ: chuỗi trang web viếng thăm người dùng thể theo thứ tự thời gian truy cập, chuỗi sản phẩm mua khách hàng siêu thị hay cửa hàng bán lẻ, chuỗi triệu chứng quan sát bệnh nhân bệnh viện, v.v Mục đích việc khaithácliệuchuỗi giúp cho việc dự báo kiện dựa kiện quan sát trước Ví dụ, khách hàng mua mặt hàng A, B C cửa hàng mặt hàng họ mua Nhờ vậy, cửa hàng chủ động việc quản lý danh sách mặt hàng dựa vào xu hướng khách hàng Vấn đề khaithácliệuchuỗicó nhiều ứng dụng lĩnh vực phân tích thói quen hay hành vi mua sắm khách hàng, phân tích mẫu truy cập web, phân tích thí nghiệm khoa học, chuẩn đoán bệnh, phân tích bất thường cấu trúc protein DNA, lĩnh vực viễn thông, hay dự báo ngăn ngừa thảm hoạ thiên nhiên, v.v… Khaithácliệuchuỗi thường chia làm hai giai đoạn bao gồm: giai đoạn khaithácmẫu giai đoạn khaithácluật Tính cấp thiết luận án Khaithác CSDL chuỗicó nhiều ứng dụng thực tế Tuy nhiên, thách thức toán khaithác CSDL chuỗi thời gian khaithác rút trích tập luật không dư thừa từsố lượng lớn luật sinh từ tập mẫu Các đóng góp cho toán khaithácmẫu liên chuỗi hạn chế Cho đến thời điểm có đóng góp Wang Lee (khai thácmẫu liên chuỗi năm 2009) Wang đồng (khai thácmẫu liên chuỗi đóng năm 2013) Hơn nữa, toán có độ phức tạp cao toán khaithácmẫu Cho nên, cần phải tiếp tục nghiên cứu vấn đề Bên cạnh đó, nghiên cứu phương pháp loại bỏ luậtdư thừa có ý nghĩa Ngoài ra, việc kết hợp hai giai đoạn khaithácmẫuluậtcó ý nghĩa góp phần làm giảm bước không cần thiết, cố gắng khaithác tận dụng thông tin cần thiết giai đoạn, hạn chế trình khaithác lại trùng lắp khaithác Mục tiêu, đối tượng, phạm vi nội dung nghiên cứu luận án Mục tiêu luận án tập trung vào nghiên cứu toán khaithácmẫuluậttừ CSDL chuỗiDữliệu sử dụng CSDL chuỗi tổng hợp sinh từ công cụ phát sinh chuẩn IBM CSDL chuỗi thực tế Nội dung nghiên cứu luận án chia thành hai giai đoạn Giai đoạn thứ nhất, nghiên cứu kỹ thuật khaithác hiệu mẫutừ CSDL chuỗi Giai đoạn tiếp theo, nghiên cứu cách thức sinh luật phương pháp loại bỏ luậtdư thừa Nội dung nghiên cứu luận án tập trung vào ba vấn đề chính: (i) Phát triển thuật toán khaithácmẫu đóng (ii) Phát triển thuật toán khaithácmẫu liên chuỗi đóng (iii) Phát triển thuật toán sinh luật không dư thừa Phương pháp nghiên cứu Khảo sát nghiên cứu cách tiếp cận, với kỹ thuật phương pháp công bố từ trước đến tác giả nước có liên quan đến lĩnh vực khaithác CSDL chuỗi Trên sở phân tích, đánh giá đặc điểm để đưa hướng giải cải tiến nhằm áp dụng vào toán luận án Tiến hành thực nghiệm đánh giá, so sánh phương pháp đề xuất luận án với phương pháp có Các đóng góp luận án Nghiên cứu đề xuất cách thức tổ chức liệu cho mẫu kết khaithác cách tối ưu không gian lưu trữ thời gian xử lý trình khaithác Dựa vào đặc điểm mẫu cấu trúc liệu đề xuất, luận án đề xuất kỹ thuật loại trừ sớm ứng viên kỹ thuật kiểm tra mẫu đóng trực tiếp dựa vào thông tin vị trí mẫu Đề xuất kỹ thuật khaithác hiệu luật không dư thừa thông qua việc kết hợp kỹ thuật khaithácmẫu đóng khaithác tập sinh với việc tỉa luật không đủ độ tin cậy Chương Giới thiệu tổng quan Chương trình bày tổng quan lĩnh vực khaithácliệu hướng nghiên cứu khaithác liệu, có vấn đề khaithácliệuchuỗi Bên cạnh trình bày kỹ thuật áp dụng toán này, luận án trình bày khảo sát đánh giá công trình nghiên cứu liên quan nhằm làm rõ tính cấp thiết nội dung nghiên cứu luận án 1.1 Tổng quan khaithácliệu 1.1.1 Khaithácliệu Sự bùng nổ thông tin với phát triển công nghệ lưu trữ mạng Internet làm cho khối lượng liệu phục vụ cho nhu cầu hàng ngày tổ chức ngày trở nên đa dạng phong phú Do vậy, nhu cầu khám phá thông tin cần thiết, tri thức phục vụ cho nhu cầu quản lý, định hướng chiến lược cho tổ chức ngày khó khăn Chính khaithácliệu đời nhằm phục vụ cho nhu cầu khaithác tri thức tiềm ẩn Khaithácliệu hay gọi khám phá tri thức CSDL Đây trình khám phá mẫu hay tri thức có ích từ nguồn liệu, ví dụ CSDL, văn bản, ảnh, hay liệu Web Các mẫukhaithác phải có giá trị, có khả hữu ích dễ hiểu Cho nên, khaithácliệu lĩnh vực đa ngành có liên quan đến máy học, thống kê, CSDL, trí tuệ nhân tạo, thu thập thông tin mô trực quan hóa liệu Quá trình khám phá tri thức CSDL thực ba giai đoạn chính: (i) giai đoạn tiền xử lý liệu, (ii) giai đoạn khaithác liệu, (iii) giai đoạn hậu xử lý Quá trình trình lặp, thực lặp lặp lại nhiều lần để đạt kết khả quan cuối 1.1.2 Các kỹ thuật khaithácliệu Hiện tại, khaithácliệu thường tập trung vào hướng đề cập nhiều gồm: phân lớp, phân cụm liệu, khaithácluật kết hợp khaithácluật Các mô hình liên quan đề xuất bao gồm khaithác văn bản, khaithácliệu Web, khaithácliệu không gian thời gian, v.v… Một mô hình liệu quan trọng tập trung nhiều nghiên cứu mô hình CSDL chuỗi Trong đó, khaithácluậttừ CSDL chuỗi đóng vai trò quan trọng việc hỗ trợ tổ chức dự đoán xu hướng, biến đổi liệu nhằm tìm cách thức tổ chức, quản lý công việc tốt 1.2 Tổng quan khaithác CSDL chuỗiKhaithácluật chủ đề nghiên cứu thiết thực quan trọng lĩnh vực khaithácliệu Mục đích tìm luật tiềm ẩn CSDL chuỗi Mỗi luật thể mối quan hệ mẫuliệu theo thứ tự thời gian Khaithác tập mẫu đóng giúp làm giảm đáng kể số lượng mẫudư thừa Do vậy, để hạn chế phát triển bùng nổ số lượng luật, hướng tiếp cận khaithácluật không dư thừa dựa vào tập mẫu đóng kết hợp tập mẫu đóng với tập sinh Tiêu biểu Jaroszewicz Simovici, (2002), Zaki (2004), Ashrafi đồng (2004, 2005), hay David Lo đồng (2009) Các nghiên cứu đề xuất kỹ thuật theo cách tiếp cận khác nhau, hay kết hợp nhiều hướng tiếp cận với mục tiêu không ngừng cải tiến thuật toán khaithác nhằm đáp ứng tốt thời gian thực thi lẫn hiệu sử dụng nhớ Quá trình khaithácluậttừ CSDL chuỗi thường chia thành hai giai đoạn chính: Giai đoạn khaithácmẫu (hoặc mẫu đóng) Giai đoạn sinh luật Do vậy, số lượng mẫukhaithác nhân tố định ảnh hưởng lớn đến việc sinh luậtcó hiệu hay không 1.3 Phân loại kỹ thuật khaithácmẫu Gần có nhiều nghiên cứu tập trung vào khaithácmẫutừ CSDL chuỗi bao gồm hướng cụ thể như: - Khaithácmẫu tổng quát hay gọi khaithácmẫu tuần tự; - Khaithácmẫu liên chuỗi; - Khaithácmẫu dựa ràng buộc; - Khaithácmẫu CSDL tăng trưởng; - Khaithácmẫu gần đúng; - Khaithácmẫu tuần hoàn phần Trong đó, toán khaithácmẫu vấn đề 1.4 Các công trình nghiên cứu liên quan đề xuất 1.4.1 Khaithácmẫu Các tiếp cận thuật toán bao gồm hướng sau: (1) Tiếp cận theo phép kết - sinh Apriori: AprioriAll (Agrawal Srikant, 1995), GSP (Agrawal Srikant, 1996), PSP (Masseglia đồng sự, 1999), hay SPAM (Ayers đồng sự, 2002) (2) Tiếp cận theo phương pháp phát triển mẫu: FreeSpan (Han đồng sự, 2000), Wap-mine (Pei đồng sự, 2000), PrefixSpan (Pei đồng sự, 2001), hay FS-Miner (EI-Sayed đồng sự, 2004) (3) Tiếp cận theo phương pháp tỉa ứng viên: DISC-all (Chiu đồng sự, 2004), hay LAPIN (Yang đồng sự, 2007) (4) kết hợp ưu điểm hướng trên: SPADE (Zaki, 2001), PLWAP (Ezeife Lu, 2005), hay PRISM (Gouda, Hassaan Zaki, 2010) 1.4.2 Khaithácmẫu đóng Hạn chế thuật toán khaithácmẫu tổng quát cố gắng tìm tất mẫucó Điều làm gia tăng nhanh chóng mẫukhaithác được, dẫn đến dư thừa, trùng lắp mẫu Mục đích khaithácmẫu đóng giúp giảm bớt mẫu không cần thiết Một số thuật toán khaithác hiệu mẫu (mẫu tuần tự) đóng đề xuất bao gồm A-Close (Pasquier đồng sự, 1999), CLOSET (Pei đồng sự, 2000), CHARM (Zaki Hsiao, 2002) CLOSET+ (Wang đồng sự, 2003), CloSpan (Yan đồng sự, 2003), BIDE (Wang đồng sự, 2007) Tuy nhiên, số thuật toán phải trì mẫukhaithác bước trước để phục vụ cho việc kiểm tra mẫu đóng sinh Một số thuật toán khác phải duyệt lại CSDL chuỗi nhiều lần 1.4.3 Khaithácmẫu liên chuỗi Bài toán khaithácmẫu liên chuỗi toán có quan tâm đến mối quan hệ mẫu giao dịch thời điểm khác nhằm thể mối quan hệ theo thứ tự thời gian chuỗi CSDL chuỗi Do đó, mẫu liên chuỗi mang ý nghĩa tổng quát phức tạp so với mẫu Bởi vì, trình khaithácmẫu liên chuỗi bao gồm việc khaithácmẫu kết hợp mẫu theo khoảng thời gian khác Thuật toán tiêu biểu cho toán khaithácmẫu liên chuỗi EISP-Miner (Wang Lee, 2009) Tiếp theo đó, Wang đồng (2013) đề xuất thuật toán khaithácmẫu liên chuỗi đóng giúp giải vấn đề số lượng tập mẫu thu lớn 1.4.4 KhaithácluậtKhaithácluật giúp cho việc rút trích biểu diễn thông tin hữu ích từ tập mẫuKhaithácluật giai đoạn việc khaithác CSDL chuỗiLuật sinh từ tập mẫu Mỗi luậtkhaithác thể mối quan hệ kiện theo thời gian, giúp dự đoán kiện xảy Phương pháp khaithác tập luật đầy đủ đề xuất Spiliopoulou vào năm 1999 Sau đó, toán khái quát thành thuật toán Full (Lo đồng sự, 2009) Tuy nhiên, việc khaithác toàn tập luật dẫn đến việc tồn luậtdư thừa Do vậy, thuật toán khaithácluật không dư thừa đề xuất nhằm giải vấn đề 2.4.2.1 Cấu trúc liệu vector bit động Cấu trúc vector bit cho phép nén thông tin xuất mẫu Bit ‘1’ cho biết có kiện tương ứng xuất ngược lại bit ‘0’ thể giao dịch xuất kiện xét Cấu trúc vector bit động (Dynamic Bit Vector - DBV) giúp loại bỏ bit ‘0’ phần đầu phần cuối bảng bit Mỗi cấu trúc DBV gồm hai phần: (1) Start bit: Vị trí xuất bit ‘1’ (2) Vector bit: Dãy bit bit khác không bit khác không cuối Cấu trúc DBV dùng để lưu trữ mẫu theo định dạng dọc Độ hỗ trợ mẫu tính đơn giản cách dựa vào số lượng bit ‘1’ bảng bit 2.4.2.2 Cấu trúc liệu CloFS-DBVPattern Cấu trúc CloFS-DBVPattern kết hợp DBV với thể thông tin mẫu Mỗi cấu trúc CloFS-DBVPattern gồm hai phần: (i) Sequence: Chứa thông tin mẫu (ii) BlockInfo: Gồm DBV danh sách vị trí xuất mẫu dòng CSDL chuỗi 2.4.2.3 Cấu trúc CloFS-DBV Cấu trúc CloFS-DBV dạng mở rộng cấu trúc tiền tố Mỗi nút lưu trữ mẫu theo cấu trúc CloFS-DBVPattern Với cấu trúc tiền tố, việc sinh luật hiệu cách xét nút (tiền tố) nút (hậu tố), tương ứng với phần bên trái phần bên phải luật 2.4.2.4 Thuật toán CloFS-DBV Thuật toán CloFS-DBV đề xuất gồm bốn giai đoạn chính: (1) Duyệt CSDL chuỗi ban đầu để tìm mẫucó chiều dài thỏa ngưỡng minSup, mẫu lưu trữ theo cấu trúc CloFS-DBVPattern; 12 (2) Áp dụng kỹ thuật loại trừ sớm mẫu tiền tố khả sinh mẫu đóng mới; (3) Mở rộng cho mẫu lại để sinh mẫu ứng viên thông qua phép giao bit; (4) Kiểm tra mẫu đóng trực tiếp dựa vào đặc điểm vị trí mẫu Giai đoạn (2) đến (4) lặp lặp lại nhiều lần không mẫu đóng sinh 2.4.3 Kết thực nghiệm Kết thực nghiệm thực CSDL chuỗi tổng hợp với hai thuật toán khaithácmẫu đóng chuẩn gồm BIDE (Wang đồng sự, 2007) CloSpan (Yan đồng sự, 2003) Với tập mẫu đóng khaithác thuật toán, kết chứng minh tính hiệu thuật toán CloFS-DBV thời gian không gian sử dụng trình khaithác Chương Phương pháp khaithácmẫu liên chuỗi đóng Chương trình bày vấn đề khaithácmẫu liên chuỗi ý nghĩa việc khaithácmẫu liên chuỗi đóng Phần cuối chương, luận án trình bày thuật toán đề xuất cho toán khaithácmẫu liên chuỗi đóng 3.1 Giới thiệu Khác với toán khaithácmẫu (chỉ quan tâm đến mối quan hệ thứ tự diễn giao dịch), toán khaithácmẫu liên chuỗi quan tâm đến mối quan hệ giao dịch xảy thời điểm khác Bởi giao dịch có mối quan hệ chặt chẽ với nhau, giao dịch trước ảnh hưởng đến giao dịch xảy sau Khaithácmẫu liên chuỗi mở rộng khaithácmẫu 13 Do vậy, thuật toán khaithácmẫu liên chuỗi dùng cho trường hợp khaithácmẫumẫu liên chuỗi tùy thuộc vào khoảng thời gian cần xem xét giao dịch Thuật toán EISP-Miner (Wang Lee, 2009) đề xuất cho phép khaithácmẫu liên chuỗi giao dịch CSDL chuỗi Sau đó, thuật toán CISP-Miner (Wang đồng sự, 2013) đề xuất cho phép khaithácmẫu liên chuỗi đóng nhằm làm giảm số lượng mẫu liên chuỗidư thừa tập khaithác Tuy nhiên, thuật toán tồn hạn chế phải trì mẫukhaithác bước trước để phục vụ cho việc kiểm tra mẫu đóng bước sau Sau kiểm tra mẫu này, thuật toán định giữ lại loại bỏ 3.2 Các định nghĩa Thuộc tính thời gian CSDL chuỗi ngữ cảnh khaithácmẫu liên chuỗi định nghĩa thông qua mẫu giao dịch khác (ID) CSDL Gọi 𝑡1 𝑡2 thuộc tính thời gian tương ứng cho mẫu 𝑆1 𝑆2 Nếu 𝑡1 lấy làm thời điểm bắt đầu, khoảng cách thời gian giao dịch (gọi span) 𝑆1 𝑆2 định nghĩa [𝑡2 – 𝑡1 ] Mẫu 𝑆2 thời điểm 𝑡2 so với 𝑡1 gọi mẫu mở rộng (e-seq) ký hiệu 〈𝑆2 〉[𝑡2 – 𝑡1 ] Giả sử có e-seq 𝑆[𝑑] = 〈𝑒1 𝑒2 𝑒3 … 𝑒𝑚 〉[𝑑], 𝑒𝑗 tập kiện ≤ 𝑗 ≤ 𝑚 [𝑑] span 𝑆 Trong đó, 𝑒𝑗 kết hợp với [d] định nghĩa tập kiện mở rộng (e-iset), ký hiệu 〈ej 〉[d] Nếu ej = (i1 i2 i3 … in ), với ik kiện (1 ≤ k ≤ n), ik kết hợp với [d] định nghĩa kiện mở rộng (e-item), ký hiệu ik [d] Một mẫu liên chuỗi danh sách e-seq liên tiếp CSDL chuỗiSố lượng e-item mẫu gọi chiều dài mẫu Một mẫu liên chuỗi với chiều dài k gọi k-pattern 14 Trong mẫu liên chuỗi, span ID giao dịch thứ (t1 ) ID giao dịch cuối (t x ) phải nhỏ hay với maxSpan (t x – t1 ≤ maxSpan), maxSpan ngưỡng span tối đa người dùng định nghĩa Nếu maxSpan = 0, toán khaithácmẫu liên chuỗi trở thành toán khaithácmẫu Bảng 3-3 thể ví dụ CSDL liên chuỗi với maxSpan = Bảng 3-3 Biểu diễn CSDL chuỗi theo dạng CSDL liên chuỗi ID Chuỗi giao dịch 〈A(AC)〉 Mẫu liên chuỗi (maxSpan = 1) 〈A(AC)〉[0] 〈A(ABC)B〉 〈A(ABC)B〉[1] 〈A(ABC)B〉[0] 〈A(BC)〉 〈A(BC)〉[1] 〈B〉 〈A(BC)〉[0] 〈B〉[1] 〈B〉[0] Từ tập mẫu liên chuỗi đóng với chiều dài k (k ≥ 1), mở rộng mẫu liên chuỗi thực để tạo thành mẫu ứng viên có chiều dài k + Quá trình lặp lặp lại nhiều lần không mẫu liên chuỗi đóng sinh Ngoài hai hình thức mở rộng khaithácmẫu (đã đề cập Chương 2), khaithácmẫu liên chuỗi bổ sung thêm hình thức mở rộng liên chuỗi (mở rộng inter-sequence) 3.3 Đề xuất thuật toán khaithácmẫu liên chuỗi đóng Thuật toán ClosedISP đề xuất sử dụng cấu trúc DBV kết hợp với span thông tin giao dịch thành cấu trúc ClosedIS-Pattern để biểu diễn mẫu liên chuỗi đóng Cấu trúc ClosedIS-Tree dùng để lưu trữ tất mẫu liên chuỗi đóng Chiến lược loại trừ kiểm tra mẫu liên chuỗi đóng áp dụng thuật toán 15 3.3.1 Cấu trúc liệu ClosedIS-Pattern Cấu trúc ClosedIS-Pattern mở rộng cấu trúc CloFSDBVPattern (Chương 2) Trong đó, cấu trúc ClosedIS-Pattern gồm phần: (i) Pattern: mẫu với giá trị span tương ứng, (ii) BlockeInfo: DBV giao dịch danh sách vị trí xuất mẫu giao dịch Với cấu trúc ClosedIS-Pattern, chiến lược loại trừ kiểm tra hiệu mẫu đóng thực trực tiếp để tránh chi phí phát sinh mẫu duyệt lại CSDL, độ hỗ trợ tính cách nhanh chóng Hơn nữa, trình mở rộng mẫu thực thông qua thao tác bit gồm dịch phải bit (≫) phép giao (AND) bit 3.3.2 Cấu trúc ClosedIS-Tree Nhằm tăng hiệu việc khaithácluật duyệt chiều sâu theo tiền tố, mẫu liên chuỗi đóng lưu trữ cấu trúc tiền tố gọi ClosedIS-Tree Mỗi nút chứa thông tin ClosedIS-Pattern Tương tự cấu trúc tiền tố trình bày Chương 2, nút gốc (root) mức gán nhãn NULL Tuy nhiên, trình mở rộng nút bổ sung thêm hình thức mở rộng (mở rộng inter-sequence) 3.3.3 Thuật toán ClosedISP Thuật toán ClosedISP gồm bốn giai đoạn chính: (1) Duyệt CSDL chuỗi ban đầu để tìm tập mẫu liên chuỗicó chiều dài lưu theo cấu trúc ClosedIS-Pattern, (2) Kiểm tra loại trừ sớm tiền tố khả mở rộng, (3) mở rộng mẫucó khả sinh mẫu liên chuỗi đóng, cuối (4) kiểm tra mẫu đóng trực tiếp để định lưu lại không Đối với mẫucó chiều dài 1, việc mở rộng mẫu tiến hành để tạo mẫu liên chuỗi chiều dài gồm mẫu: mẫu mở rộng theo 16 sequence, mẫu mở rộng theo itemset mẫu mở rộng theo intersequence Số lượng mẫu mở rộng theo inter-sequence tùy thuộc vào giá trị maxSpan cung cấp Tiếp theo, thuật toán tiến hành mở rộng theo ba hình thức cho mẫucó độ dài k (k > 1) để tạo thành mẫucó độ dài k + Quá trình thực lặp lại thêm mẫu liên chuỗi đóng sinh 3.3.4 Kết thực nghiệm Kết thực nghiệm thực CSDL tổng hợp (được phát sinh từ công cụ sinh liệu IBM) CSDL thực (Gazelle) để đánh giá hiệu thuật toán đề xuất Thuật toán CISP-Miner dùng để so sánh hiệu thực thi thời gian nhớ sử dụng Chương Phương pháp khaithácluật không dư thừa Chương trình bày giai đoạn khaithác CSDL chuỗi Trong đó, bên cạnh trình bày sở lý thuyết kỹ thuật khaithácluật phương pháp khaithácluật không dư thừa từ CSDL chuỗi Luận án trình bày kết nghiên cứu phát triển số kỹ thuật sinh luật không dư thừa 4.1 Giới thiệu Khaithácluật giai đoạn sau khaithácmẫu Mục tiêu khaithácluật tìm mối quan hệ xuất kiện CSDL chuỗi Một luật thể dạng r = X → Y Nghĩa là, X xuất mẫu CSDL Y xuất mẫu sau X với độ tin cậy cao Tập mẫukhaithác ảnh hưởng lớn đến việc sinh luật Nếu mẫu thu lớn nhiều mẫu không cần thiết dẫn đến việc sinh luậtdư thừa tác động đến thời gian khaithácluật 17 Tiếp cận theo hướng khaithác tập mẫu đóng tập sinh để giải vấn đề sinh luật không dư thừa Trong đó, tiêu biểu thuật toán CNR (Lo đồng sự, 2009) Tuy nhiên, phần lớn thuật toán đề xuất cách độc lập theo mục đích khaithác Vì thế, hạn chế thuật toán khaithácluật sinh luật dựa vào kết thuật toán khaithácmẫuphổbiến sẵn có Do vậy, chúng phải phụ thuộc hoàn toàn vào cấu trúc liệumẫuphổbiếnkhaithác Muốn tăng hiệu sinh luật, thuật toán phải xây dựng lại cấu trúc liệu tổ chức mẫu cho phù hợp trước bắt đầu thực trình sinh luật 4.2 Các định nghĩa Một luật thể mối quan hệ thứ tự thời gian xuất mẫu CSDL chuỗi ký hiệu r = 〈pre〉 → 〈post〉, {sup(r), conf(r)}, với pre post phần đầu cuối tách từmẫu X ban đầu CSDL Với sup(r) = sup(X), conf(r) = sup(r)/sup(〈pre〉) giá trị hỗ trợ độ tin cậy tương ứng r Cho ngưỡng phổbiến tối thiểu minSup ngưỡng tin cậy tối thiểu minConf Nếu sup(r) ≥ minSup r xem luậtphổbiến Nếu conf(r) ≥ minConf r gọi luật tin cậy Một luật gọi dư thừa suy dẫn luật khác Một mẫu P xem tiền tố sinh (prefixed generator) không tồn P′ cho P′ ⊂ P ∧ sup(P ′ ) = sup(P) Luật r = pre → post gọi luật không dư thừa thỏa hai điều kiện: Vế trái vế phải luật tạo từmẫu đóng vế trái phải tiền tố sinh 18 Cho hai ngưỡng phổbiến tối thiểu minSup ngưỡng tin cậy tối thiểu minConf, mục tiêu của thuật toán trình bày chương tìm tập luật không dư thừa (NR − Rule) từ CSDL chuỗi Với định nghĩa luật không dư thừa, luận án chứng minh NR − Rule tập luật đầy đủ không dư thừa 4.3 Các công trình nghiên cứu liên quan Vào năm 1999, Spiliopoulou đề xuất phương pháp sinh tập hoàn chỉnh luậttừmẫu sau loại trừ luậtdư thừa giai đoạn sau Sau đó, Lo đồng năm 2009 đề xuất thuật toán khaithácluật không dư thừa với tên gọi CNR (Lo đồng sự, 2009) cho khaithác tập nén luật không dư thừa từmẫu đóng tập sinh Các tập mẫu đóng khaitháctừ thuật toán BIDE Tiếp cận theo hướng tổ chức mẫu tiền tố, dựa vào đặc tính tiền tố, số thuật toán đề xuất kỹ thuật sinh luật dựa vào cấu trúc tiền tố chứng tỏ hiệu khaithác CloGen (Pham đồng sự, 2013), MNSR_PreTree (Pham đồng sự, 2014), IMSR_PreTree (Van đồng sự, 2014) Tuy nhiên, thuật toán dựa vào tập mẫu (được khaitháctừ thuật toán khaithácmẫu đó) để tổ chức lại thành cấu trúc tiền tố Tiếp theo, cấu trúc tiền tố, thuật toán tiến hành duyệt đánh dấu nút tiền tố, nút hậu tố Sau đó, thuật toán bắt đầu trình sinh luật Do vậy, tốn nhiều thời gian biến đổi xây dựng lại cấu trúc tổ chức mẫu để phát sinh luậtcó hiệu 4.4 Thuật toán khaithácluật không dư thừa Thuật toán đề xuất cải tiến, với tên gọi NRD-DBV cho phép khaithác hiệu luật không dư thừa cách kết hợp giai đoạn khaithác 19 mẫu với giai đoạn phát sinh luật trực tiếp từ CSDL chuỗi ban đầu Thuật toán áp dụng cấu trúc nén với định dạng liệu dọc cấu trúc liệu DBV dựa vào đặc điểm cấu trúc tiền tố, số kỹ thuật loại trừ sớm để sinh luật không dư thừa Quá trình khaithácmẫu đóng mở rộng từ thuật toán CloFSDBV trình bày Chương Trong đó, với trình khaithác mẫu, thuật toán khaithácmẫu tiền tố sinh Do vậy, thuật toán không cần phải duyệt lại tập mẫu để tìm tiền tố sinh Sau tìm tất mẫu đóng, thuật toán bắt đầu sinh tất luật không dư thừa Đối với tiền tố sinh nút tiền tố, thuật toán sinh tất luật nút xét Trong trình này, trình tỉa nhánh áp dụng phát luậtcó độ tin cậy thấp 4.5 Độ phức tạp thuật toán NRD-DBV Gọi n số lượng nút tiền tố (tập mẫu đóng), k số lượng trung bình nút Quá trình sinh luật thuật toán thực n × k lần Mặc khác, k ≪ n (theo kết thực nghiệm), nên độ phức tạp thuật toán NRD-DBV ≈ O(n) 4.6 Kết thực nghiệm Kết thực nghiệm so sánh với thuật toán chuẩn CNR (Lo đồng sự, 2009) Việc so sánh hiệu thuật toán thực tập luật sinh với tiêu chí so sánh thời gian nhớ sử dụng Thực nghiệm tiến hành hai loại tập liệu: CSDL tổng hợp CSDL thực cho thấy hiệu thuật toán đề xuất Phần kết luận Phần tóm tắt kết đạt trình nghiên cứu luận án đề xuất hướng phát triển, nghiên cứu 20 Kết luận Luận án trình bày tổng quan, sở lý thuyết, vấn đề kỹ thuật nghiên cứu đề xuất khaithác hiệu liệuchuỗi Thông qua khảo sát nghiên cứu công trình đề xuất nước có liên quan đến luận án cho thấy thuật toán khaithácmẫu hiệu cần xem xét ba đặc điểm: (i) Sử dụng cấu trúc liệucó kích thước tối ưu biểu diễn cho CSDL chuỗi, tránh duyệt CSDL nhiều lần; (ii) Loại trừ sớm mẫu ứng viên; (iii) Duy trì không gian tìm kiếm hẹp Các kết đạt luận án bao gồm: (1) Phát triển cấu trúc liệu cho toán Mở rộng phát triển định dạng dọc liệu dùng cấu trúc vector bit động kết hợp với thông tin vị trí giao dịch mẫu trình khaithácmẫuluật không dư thừa: - Với cấu trúc này, thuật toán đề xuất duyệt CSDL lần, việc tính độ hỗ trợ mẫu đơn giản thông qua số lượng bit mẫu (dùng kỹ thuật bảng tra) - Thao tác mở rộng mẫu thực hoàn toàn phép toán bit bao gồm: phép dịch phải (shift right) bit phép giao (AND) bit - Hơn nữa, đặc điểm mẫucó thứ tự theo vị trí giao dịch nên thuật toán dựa vào thông tin vị trí mẫu giúp trình tỉa mẫu, kiểm tra mẫudư thừa đơn giản hiệu Phát triển cấu trúc tiền tố cho việc lưu trữ thông tin khaithác giai đoạn khaithácmẫu sinh luật tuần tự: 21 - Cấu trúc tiền tố giúp trình khaithác duyệt theo chiều sâu, liệu nén theo tiền tố, trình xét mẫu độc lập theo lớp tương đương (có tiền tố) - Ngoài ra, tiền tố hiệu cho trình sinh luật luần tự tỉa nhánh mẫu khả sinh luậtcó độ tin cậy cao (2) Đề xuất phương pháp thuật toán cho toán Trên sở cấu trúc liệu đề xuất, luận án trình bày định nghĩa mở rộng mẫu tuần tự, mở rộng mẫu liên chuỗi Ngoài ra, định nghĩa đặc điểm mở rộng mẫu dựa vào thông tin vị trí giao dịch mẫu mở rộng tính chất Apriori vào trình sinh luậtmẫu dựa vào cấu trúc tiền tố trình bày luận án Các định nghĩa luận án áp dụng vào kỹ thuật đề xuất nhằm tăng hiệu khaithác bao gồm: - Kỹ thuật loại trừ sớm ứng viên nhằm tránh sinh chuỗi ứng viên không cần thiết sau mở rộng chuỗi dựa vào định nghĩa tính chất mở rộng lùi (Backward-Extension) mẫu - Kỹ thuật kiểm tra mẫuphổbiến đóng trực tiếp dựa vào thông tin vị trí chuỗi dựa vào định nghĩa tính chất mở rộng lùi mở rộng tiến chuỗi (Forward-Extension) - Kỹ thuật phát sớm tỉa mẫu khả sinh luậtđủ ngưỡng độ tin cậy dựa vào tính chất Apriori đặc điểm tiền tố nhằm giảm bước không cần thiết trình sinh luật (3) Các công trình công bố - Thuật toán khaithácmẫu liên chuỗi [CT1] - Thuật toán khaithácmẫu đóng [CT2] 22 - Thuật toán khaithácmẫu liên chuỗi đóng [CT3] - Thuật toán khaithácluật không dư thừa [CT4] Hướng nghiên cứu Vấn đề khaithácliệuchuỗi quan tâm phát triển nhanh chóng tính ứng dụng cao thực tiễn Mặc dùcó nhiều nghiên cứu liên quan nhằm tăng hiệu khai thác, cần có nghiên cứu CSDL chuỗi để giải số vấn đề nhằm đáp ứng yêu cầu bối cảnh tương lai Qua trình thực kết nghiên cứu, luận án đề xuất hướng cần tập trung nghiên cứu tiếp theo, bao gồm: (1) Nghiên cứu tìm kiếm cấu trúc liệu để biểu diễn thông tin mẫu phù hợp trình khaithác hiệu Áp dụng kỹ thuật công nghệ mới, hệ thống quản trị liệu mới, kết hợp kỹ thuật khaithác phần, chia nhỏ không gian tìm kiếm, khaithác song song dạng liệuliệu đồ, liệu thiên nhiên, thời tiết hay mạng xã hội (2) Nghiên cứu kỹ thuật khaithác phân tán CSDL phân tán hệ thống khác (3) Đối với loại ứng dụng cụ thể, bổ sung thêm thông tin ràng buộc kiện hay giao dịch vào trình khaithác nhằm tăng cường tính chủ động người dùng trình sử dụng công cụ khaithác (4) Trong thực tế mẫu hay kiện chuỗicó vai trò quan trọng không đồng CSDL chuỗi Do vậy, việc bổ sung trọng số cho mẫu hay kiện giúp cho việc khám phá mẫuluật phù hợp theo ngữ cảnh khác ứng dụng cần khaithác 23 Danh mục công trình tác giả [CT1] Vo, B., Tran, M T., Nguyen, H., Hong, T P., and Le, B., “A Dynamic Bit-vector Approach for Efficiently Mining Intersequence Patterns,” In Innovations in Bio-Inspired Computing and Applications Conference, (IBICA), IEEE, 2012 pp Third 51-56, International 2012 (DOI 10.1109/IBICA.2012.31) [CT2] Tran, M T., Le, B., and Vo, B., “Combination of dynamic bit vectors and transaction information for mining frequent closed sequences efficiently,” Engineering Applications of Artificial Intelligence, 38, pp 183-189, 2015 (SCIE, 2016 IF 2.368, DOI 10.1016/j.engappai.2014.10.021) [CT3] Le, B., Tran, M T., and Vo, B., “Mining frequent closed intersequence patterns efficiently using dynamic bit vectors,” Applied Intelligence, 43, pp 74-84, 2015 (SCI, 2016 IF 1.215, DOI 10.1007/s10489-014-0630-1) [CT4] Tran, M T., Le, B., Vo, B., and Hong, T P., “Mining nonredundant sequential rules with dynamic bit vectors and pruning techniques,” Applied Intelligence, 45, pp 333-342, 2016 (SCI, 2016 IF 1.215, DOI 10.1007/s10489-016-0765-3) 24 ... CSDL chuỗi bao gồm hướng cụ thể như: - Khai thác mẫu tổng quát hay gọi khai thác mẫu tuần tự; - Khai thác mẫu liên chuỗi; - Khai thác mẫu dựa ràng buộc; - Khai thác mẫu CSDL tăng trưởng; - Khai thác. .. khai thác Vì thế, hạn chế thuật toán khai thác luật sinh luật dựa vào kết thuật toán khai thác mẫu phổ biến sẵn có Do vậy, chúng phải phụ thuộc hoàn toàn vào cấu trúc liệu mẫu phổ biến khai thác. .. đến giao dịch xảy sau Khai thác mẫu liên chuỗi mở rộng khai thác mẫu 13 Do vậy, thuật toán khai thác mẫu liên chuỗi dùng cho trường hợp khai thác mẫu mẫu liên chuỗi tùy thuộc vào khoảng thời gian