Khai thác mẫu phổ biến và luật từ cơ sở dữ liệu chuỗi (tóm tắt)

28 387 1
Khai thác mẫu phổ biến và luật từ cơ sở dữ liệu chuỗi (tóm tắt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TRẦN MINH THÁI KHAI THÁC MẪU PHỔ BIẾN LUẬT TỪ SỞ DỮ LIỆU CHUỖI Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Tp Hồ Chí Minh, năm 2016 Công trình hoàn thành Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự Nhiên - Đại học Quốc Gia Thành phố Hồ Chí Minh Người hướng dẫn khoa học: PGS TS LÊ HOÀI BẮC Phản biện 1: PGS TS Hồ Bảo Quốc Phản biện 2: PGS TS Nguyễn Đình Thuân Phản biện 3: TS Nguyễn An Tế Phản biện độc lập 1: PGS TS Đỗ Trung Tuấn Phản biện độc lập 2: PGS TS Lê Anh Cường Luận án bảo vệ trước Hội đồng chấm luận án họp vào lúc ngày tháng năm thể tìm hiểu luận án thư viện: - Thư viện Khoa học Tổng hợp Thành phố Hồ Chí Minh - Thư viện Trường Đại học Khoa học Tự Nhiên TÓM TẮT LUẬN ÁN Hiện tại, khai thác liệu chuỗi hướng lĩnh vực khai thác liệu nhiều nhà khoa học tập trung nghiên cứu Việc khai thác tính ứng dụng cao thực tiễn, như: dự báo xu hướng, phân tích thói quen hay hành vi khách hàng, dự đoán thiên tai, ngăn ngừa xâm nhập hệ thống, việc phân tích hay phát dị thường cấu trúc protein, DNA, xử lý văn bản, v.v… Tuy nhiên, vấn đề khai thác liệu chuỗi đối mặt với hai thách thức Thách thức thứ thời gian khai thác thứ hai vấn đề rút trích tập luật không thừa số luật sinh từ mẫu Để giải toán này, việc thiết kế mô hình liệu phù hợp, với việc phát hiện, tỉa mẫu nhằm giảm bớt số lượng mẫu không cần thiết rút trích tập luật đầy đủ không thừa yếu tố dẫn đến thành công Đây nội dung nghiên cứu luận án Trong đó, luận án tập trung vào việc giải vấn đề giảm thời gian trình khai thác mẫu cách xây dựng cấu trúc liệu nén dạng vector kết hợp với thông tin cần thiết giúp cho việc kiểm tra loại trừ mẫu thừa cách hợp lý nhanh chóng Tiếp theo đó, luận án trình bày cách thức khai thác hiệu luật không thừa, kết hợp với kỹ thuật phát sớm dừng sinh luật cho mẫu không tiềm Các đề xuất tập trung vào việc giảm thiểu thời gian khai thác, chi phí tính toán tối ưu không gian lưu trữ trình khai thác liệu chuỗi Nội dung luận án bao gồm hai phần bốn chương tóm tắt sau: Phần mở đầu Nội dung phần trình bày tóm tắt tính cấp thiết luận án, mục tiêu, phạm vi nghiên cứu kết đạt luận án 1 Giới thiệu Chuỗi (sequence) danh sách thứ tự kiện hay ký hiệu Dữ liệu dạng tồn hầu hết hoạt động hay thông tin mang tính thứ tự sở liệu (CSDL) chuỗi (sequence database) bao gồm danh sách chuỗi Ví dụ: chuỗi trang web viếng thăm người dùng thể theo thứ tự thời gian truy cập, chuỗi sản phẩm mua khách hàng siêu thị hay cửa hàng bán lẻ, chuỗi triệu chứng quan sát bệnh nhân bệnh viện, v.v Mục đích việc khai thác liệu chuỗi giúp cho việc dự báo kiện dựa kiện quan sát trước Ví dụ, khách hàng mua mặt hàng A, B C cửa hàng mặt hàng họ mua Nhờ vậy, cửa hàng chủ động việc quản lý danh sách mặt hàng dựa vào xu hướng khách hàng Vấn đề khai thác liệu chuỗi nhiều ứng dụng lĩnh vực phân tích thói quen hay hành vi mua sắm khách hàng, phân tích mẫu truy cập web, phân tích thí nghiệm khoa học, chuẩn đoán bệnh, phân tích bất thường cấu trúc protein DNA, lĩnh vực viễn thông, hay dự báo ngăn ngừa thảm hoạ thiên nhiên, v.v… Khai thác liệu chuỗi thường chia làm hai giai đoạn bao gồm: giai đoạn khai thác mẫu giai đoạn khai thác luật Tính cấp thiết luận án Khai thác CSDL chuỗi nhiều ứng dụng thực tế Tuy nhiên, thách thức toán khai thác CSDL chuỗi thời gian khai thác rút trích tập luật không thừa từ số lượng lớn luật sinh từ tập mẫu Các đóng góp cho toán khai thác mẫu liên chuỗi hạn chế Cho đến thời điểm đóng góp Wang Lee (khai thác mẫu liên chuỗi năm 2009) Wang đồng (khai thác mẫu liên chuỗi đóng năm 2013) Hơn nữa, toán độ phức tạp cao toán khai thác mẫu Cho nên, cần phải tiếp tục nghiên cứu vấn đề Bên cạnh đó, nghiên cứu phương pháp loại bỏ luật thừa ý nghĩa Ngoài ra, việc kết hợp hai giai đoạn khai thác mẫu luật ý nghĩa góp phần làm giảm bước không cần thiết, cố gắng khai thác tận dụng thông tin cần thiết giai đoạn, hạn chế trình khai thác lại trùng lắp khai thác Mục tiêu, đối tượng, phạm vi nội dung nghiên cứu luận án Mục tiêu luận án tập trung vào nghiên cứu toán khai thác mẫu luật từ CSDL chuỗi Dữ liệu sử dụng CSDL chuỗi tổng hợp sinh từ công cụ phát sinh chuẩn IBM CSDL chuỗi thực tế Nội dung nghiên cứu luận án chia thành hai giai đoạn Giai đoạn thứ nhất, nghiên cứu kỹ thuật khai thác hiệu mẫu từ CSDL chuỗi Giai đoạn tiếp theo, nghiên cứu cách thức sinh luật phương pháp loại bỏ luật thừa Nội dung nghiên cứu luận án tập trung vào ba vấn đề chính: (i) Phát triển thuật toán khai thác mẫu đóng (ii) Phát triển thuật toán khai thác mẫu liên chuỗi đóng (iii) Phát triển thuật toán sinh luật không thừa Phương pháp nghiên cứu Khảo sát nghiên cứu cách tiếp cận, với kỹ thuật phương pháp công bố từ trước đến tác giả nước liên quan đến lĩnh vực khai thác CSDL chuỗi Trên sở phân tích, đánh giá đặc điểm để đưa hướng giải cải tiến nhằm áp dụng vào toán luận án Tiến hành thực nghiệm đánh giá, so sánh phương pháp đề xuất luận án với phương pháp Các đóng góp luận án Nghiên cứu đề xuất cách thức tổ chức liệu cho mẫu kết khai thác cách tối ưu không gian lưu trữ thời gian xử lý trình khai thác Dựa vào đặc điểm mẫu cấu trúc liệu đề xuất, luận án đề xuất kỹ thuật loại trừ sớm ứng viên kỹ thuật kiểm tra mẫu đóng trực tiếp dựa vào thông tin vị trí mẫu Đề xuất kỹ thuật khai thác hiệu luật không thừa thông qua việc kết hợp kỹ thuật khai thác mẫu đóng khai thác tập sinh với việc tỉa luật không đủ độ tin cậy Chương Giới thiệu tổng quan Chương trình bày tổng quan lĩnh vực khai thác liệu hướng nghiên cứu khai thác liệu, vấn đề khai thác liệu chuỗi Bên cạnh trình bày kỹ thuật áp dụng toán này, luận án trình bày khảo sát đánh giá công trình nghiên cứu liên quan nhằm làm rõ tính cấp thiết nội dung nghiên cứu luận án 1.1 Tổng quan khai thác liệu 1.1.1 Khai thác liệu Sự bùng nổ thông tin với phát triển công nghệ lưu trữ mạng Internet làm cho khối lượng liệu phục vụ cho nhu cầu hàng ngày tổ chức ngày trở nên đa dạng phong phú Do vậy, nhu cầu khám phá thông tin cần thiết, tri thức phục vụ cho nhu cầu quản lý, định hướng chiến lược cho tổ chức ngày khó khăn Chính khai thác liệu đời nhằm phục vụ cho nhu cầu khai thác tri thức tiềm ẩn Khai thác liệu hay gọi khám phá tri thức CSDL Đây trình khám phá mẫu hay tri thức ích từ nguồn liệu, ví dụ CSDL, văn bản, ảnh, hay liệu Web Các mẫu khai thác phải giá trị, khả hữu ích dễ hiểu Cho nên, khai thác liệu lĩnh vực đa ngành liên quan đến máy học, thống kê, CSDL, trí tuệ nhân tạo, thu thập thông tin mô trực quan hóa liệu Quá trình khám phá tri thức CSDL thực ba giai đoạn chính: (i) giai đoạn tiền xử lý liệu, (ii) giai đoạn khai thác liệu, (iii) giai đoạn hậu xử lý Quá trình trình lặp, thực lặp lặp lại nhiều lần để đạt kết khả quan cuối 1.1.2 Các kỹ thuật khai thác liệu Hiện tại, khai thác liệu thường tập trung vào hướng đề cập nhiều gồm: phân lớp, phân cụm liệu, khai thác luật kết hợp khai thác luật Các mô hình liên quan đề xuất bao gồm khai thác văn bản, khai thác liệu Web, khai thác liệu không gian thời gian, v.v… Một mô hình liệu quan trọng tập trung nhiều nghiên cứu mô hình CSDL chuỗi Trong đó, khai thác luật từ CSDL chuỗi đóng vai trò quan trọng việc hỗ trợ tổ chức dự đoán xu hướng, biến đổi liệu nhằm tìm cách thức tổ chức, quản lý công việc tốt 1.2 Tổng quan khai thác CSDL chuỗi Khai thác luật chủ đề nghiên cứu thiết thực quan trọng lĩnh vực khai thác liệu Mục đích tìm luật tiềm ẩn CSDL chuỗi Mỗi luật thể mối quan hệ mẫu liệu theo thứ tự thời gian Khai thác tập mẫu đóng giúp làm giảm đáng kể số lượng mẫu thừa Do vậy, để hạn chế phát triển bùng nổ số lượng luật, hướng tiếp cận khai thác luật không thừa dựa vào tập mẫu đóng kết hợp tập mẫu đóng với tập sinh Tiêu biểu Jaroszewicz Simovici, (2002), Zaki (2004), Ashrafi đồng (2004, 2005), hay David Lo đồng (2009) Các nghiên cứu đề xuất kỹ thuật theo cách tiếp cận khác nhau, hay kết hợp nhiều hướng tiếp cận với mục tiêu không ngừng cải tiến thuật toán khai thác nhằm đáp ứng tốt thời gian thực thi lẫn hiệu sử dụng nhớ Quá trình khai thác luật từ CSDL chuỗi thường chia thành hai giai đoạn chính: Giai đoạn khai thác mẫu (hoặc mẫu đóng) Giai đoạn sinh luật Do vậy, số lượng mẫu khai thác nhân tố định ảnh hưởng lớn đến việc sinh luật hiệu hay không 1.3 Phân loại kỹ thuật khai thác mẫu Gần nhiều nghiên cứu tập trung vào khai thác mẫu từ CSDL chuỗi bao gồm hướng cụ thể như: - Khai thác mẫu tổng quát hay gọi khai thác mẫu tuần tự; - Khai thác mẫu liên chuỗi; - Khai thác mẫu dựa ràng buộc; - Khai thác mẫu CSDL tăng trưởng; - Khai thác mẫu gần đúng; - Khai thác mẫu tuần hoàn phần Trong đó, toán khai thác mẫu vấn đề 1.4 Các công trình nghiên cứu liên quan đề xuất 1.4.1 Khai thác mẫu Các tiếp cận thuật toán bao gồm hướng sau: (1) Tiếp cận theo phép kết - sinh Apriori: AprioriAll (Agrawal Srikant, 1995), GSP (Agrawal Srikant, 1996), PSP (Masseglia đồng sự, 1999), hay SPAM (Ayers đồng sự, 2002) (2) Tiếp cận theo phương pháp phát triển mẫu: FreeSpan (Han đồng sự, 2000), Wap-mine (Pei đồng sự, 2000), PrefixSpan (Pei đồng sự, 2001), hay FS-Miner (EI-Sayed đồng sự, 2004) (3) Tiếp cận theo phương pháp tỉa ứng viên: DISC-all (Chiu đồng sự, 2004), hay LAPIN (Yang đồng sự, 2007) (4) kết hợp ưu điểm hướng trên: SPADE (Zaki, 2001), PLWAP (Ezeife Lu, 2005), hay PRISM (Gouda, Hassaan Zaki, 2010) 1.4.2 Khai thác mẫu đóng Hạn chế thuật toán khai thác mẫu tổng quát cố gắng tìm tất mẫu Điều làm gia tăng nhanh chóng mẫu khai thác được, dẫn đến thừa, trùng lắp mẫu Mục đích khai thác mẫu đóng giúp giảm bớt mẫu không cần thiết Một số thuật toán khai thác hiệu mẫu (mẫu tuần tự) đóng đề xuất bao gồm A-Close (Pasquier đồng sự, 1999), CLOSET (Pei đồng sự, 2000), CHARM (Zaki Hsiao, 2002) CLOSET+ (Wang đồng sự, 2003), CloSpan (Yan đồng sự, 2003), BIDE (Wang đồng sự, 2007) Tuy nhiên, số thuật toán phải trì mẫu khai thác bước trước để phục vụ cho việc kiểm tra mẫu đóng sinh Một số thuật toán khác phải duyệt lại CSDL chuỗi nhiều lần 1.4.3 Khai thác mẫu liên chuỗi Bài toán khai thác mẫu liên chuỗi toán quan tâm đến mối quan hệ mẫu giao dịch thời điểm khác nhằm thể mối quan hệ theo thứ tự thời gian chuỗi CSDL chuỗi Do đó, mẫu liên chuỗi mang ý nghĩa tổng quát phức tạp so với mẫu Bởi vì, trình khai thác mẫu liên chuỗi bao gồm việc khai thác mẫu kết hợp mẫu theo khoảng thời gian khác Thuật toán tiêu biểu cho toán khai thác mẫu liên chuỗi EISP-Miner (Wang Lee, 2009) Tiếp theo đó, Wang đồng (2013) đề xuất thuật toán khai thác mẫu liên chuỗi đóng giúp giải vấn đề số lượng tập mẫu thu lớn 1.4.4 Khai thác luật Khai thác luật giúp cho việc rút trích biểu diễn thông tin hữu ích từ tập mẫu Khai thác luật giai đoạn việc khai thác CSDL chuỗi Luật sinh từ tập mẫu Mỗi luật khai thác thể mối quan hệ kiện theo thời gian, giúp dự đoán kiện xảy Phương pháp khai thác tập luật đầy đủ đề xuất Spiliopoulou vào năm 1999 Sau đó, toán khái quát thành thuật toán Full (Lo đồng sự, 2009) Tuy nhiên, việc khai thác toàn tập luật dẫn đến việc tồn luật thừa Do vậy, thuật toán khai thác luật không thừa đề xuất nhằm giải vấn đề 2.4.2.1 Cấu trúc liệu vector bit động Cấu trúc vector bit cho phép nén thông tin xuất mẫu Bit ‘1’ cho biết kiện tương ứng xuất ngược lại bit ‘0’ thể giao dịch xuất kiện xét Cấu trúc vector bit động (Dynamic Bit Vector - DBV) giúp loại bỏ bit ‘0’ phần đầu phần cuối bảng bit Mỗi cấu trúc DBV gồm hai phần: (1) Start bit: Vị trí xuất bit ‘1’ (2) Vector bit: Dãy bit bit khác không bit khác không cuối Cấu trúc DBV dùng để lưu trữ mẫu theo định dạng dọc Độ hỗ trợ mẫu tính đơn giản cách dựa vào số lượng bit ‘1’ bảng bit 2.4.2.2 Cấu trúc liệu CloFS-DBVPattern Cấu trúc CloFS-DBVPattern kết hợp DBV với thể thông tin mẫu Mỗi cấu trúc CloFS-DBVPattern gồm hai phần: (i) Sequence: Chứa thông tin mẫu (ii) BlockInfo: Gồm DBV danh sách vị trí xuất mẫu dòng CSDL chuỗi 2.4.2.3 Cấu trúc CloFS-DBV Cấu trúc CloFS-DBV dạng mở rộng cấu trúc tiền tố Mỗi nút lưu trữ mẫu theo cấu trúc CloFS-DBVPattern Với cấu trúc tiền tố, việc sinh luật hiệu cách xét nút (tiền tố) nút (hậu tố), tương ứng với phần bên trái phần bên phải luật 2.4.2.4 Thuật toán CloFS-DBV Thuật toán CloFS-DBV đề xuất gồm bốn giai đoạn chính: (1) Duyệt CSDL chuỗi ban đầu để tìm mẫu chiều dài thỏa ngưỡng minSup, mẫu lưu trữ theo cấu trúc CloFS-DBVPattern; 12 (2) Áp dụng kỹ thuật loại trừ sớm mẫu tiền tố khả sinh mẫu đóng mới; (3) Mở rộng cho mẫu lại để sinh mẫu ứng viên thông qua phép giao bit; (4) Kiểm tra mẫu đóng trực tiếp dựa vào đặc điểm vị trí mẫu Giai đoạn (2) đến (4) lặp lặp lại nhiều lần không mẫu đóng sinh 2.4.3 Kết thực nghiệm Kết thực nghiệm thực CSDL chuỗi tổng hợp với hai thuật toán khai thác mẫu đóng chuẩn gồm BIDE (Wang đồng sự, 2007) CloSpan (Yan đồng sự, 2003) Với tập mẫu đóng khai thác thuật toán, kết chứng minh tính hiệu thuật toán CloFS-DBV thời gian không gian sử dụng trình khai thác Chương Phương pháp khai thác mẫu liên chuỗi đóng Chương trình bày vấn đề khai thác mẫu liên chuỗi ý nghĩa việc khai thác mẫu liên chuỗi đóng Phần cuối chương, luận án trình bày thuật toán đề xuất cho toán khai thác mẫu liên chuỗi đóng 3.1 Giới thiệu Khác với toán khai thác mẫu (chỉ quan tâm đến mối quan hệ thứ tự diễn giao dịch), toán khai thác mẫu liên chuỗi quan tâm đến mối quan hệ giao dịch xảy thời điểm khác Bởi giao dịch mối quan hệ chặt chẽ với nhau, giao dịch trước ảnh hưởng đến giao dịch xảy sau Khai thác mẫu liên chuỗi mở rộng khai thác mẫu 13 Do vậy, thuật toán khai thác mẫu liên chuỗi dùng cho trường hợp khai thác mẫu mẫu liên chuỗi tùy thuộc vào khoảng thời gian cần xem xét giao dịch Thuật toán EISP-Miner (Wang Lee, 2009) đề xuất cho phép khai thác mẫu liên chuỗi giao dịch CSDL chuỗi Sau đó, thuật toán CISP-Miner (Wang đồng sự, 2013) đề xuất cho phép khai thác mẫu liên chuỗi đóng nhằm làm giảm số lượng mẫu liên chuỗi thừa tập khai thác Tuy nhiên, thuật toán tồn hạn chế phải trì mẫu khai thác bước trước để phục vụ cho việc kiểm tra mẫu đóng bước sau Sau kiểm tra mẫu này, thuật toán định giữ lại loại bỏ 3.2 Các định nghĩa Thuộc tính thời gian CSDL chuỗi ngữ cảnh khai thác mẫu liên chuỗi định nghĩa thông qua mẫu giao dịch khác (ID) CSDL Gọi 𝑡1 𝑡2 thuộc tính thời gian tương ứng cho mẫu 𝑆1 𝑆2 Nếu 𝑡1 lấy làm thời điểm bắt đầu, khoảng cách thời gian giao dịch (gọi span) 𝑆1 𝑆2 định nghĩa [𝑡2 – 𝑡1 ] Mẫu 𝑆2 thời điểm 𝑡2 so với 𝑡1 gọi mẫu mở rộng (e-seq) ký hiệu 〈𝑆2 〉[𝑡2 – 𝑡1 ] Giả sử e-seq 𝑆[𝑑] = 〈𝑒1 𝑒2 𝑒3 … 𝑒𝑚 〉[𝑑], 𝑒𝑗 tập kiện ≤ 𝑗 ≤ 𝑚 [𝑑] span 𝑆 Trong đó, 𝑒𝑗 kết hợp với [d] định nghĩa tập kiện mở rộng (e-iset), ký hiệu 〈ej 〉[d] Nếu ej = (i1 i2 i3 … in ), với ik kiện (1 ≤ k ≤ n), ik kết hợp với [d] định nghĩa kiện mở rộng (e-item), ký hiệu ik [d] Một mẫu liên chuỗi danh sách e-seq liên tiếp CSDL chuỗi Số lượng e-item mẫu gọi chiều dài mẫu Một mẫu liên chuỗi với chiều dài k gọi k-pattern 14 Trong mẫu liên chuỗi, span ID giao dịch thứ (t1 ) ID giao dịch cuối (t x ) phải nhỏ hay với maxSpan (t x – t1 ≤ maxSpan), maxSpan ngưỡng span tối đa người dùng định nghĩa Nếu maxSpan = 0, toán khai thác mẫu liên chuỗi trở thành toán khai thác mẫu Bảng 3-3 thể ví dụ CSDL liên chuỗi với maxSpan = Bảng 3-3 Biểu diễn CSDL chuỗi theo dạng CSDL liên chuỗi ID Chuỗi giao dịch 〈A(AC)〉 Mẫu liên chuỗi (maxSpan = 1) 〈A(AC)〉[0] 〈A(ABC)B〉 〈A(ABC)B〉[1] 〈A(ABC)B〉[0] 〈A(BC)〉 〈A(BC)〉[1] 〈B〉 〈A(BC)〉[0] 〈B〉[1] 〈B〉[0] Từ tập mẫu liên chuỗi đóng với chiều dài k (k ≥ 1), mở rộng mẫu liên chuỗi thực để tạo thành mẫu ứng viên chiều dài k + Quá trình lặp lặp lại nhiều lần không mẫu liên chuỗi đóng sinh Ngoài hai hình thức mở rộng khai thác mẫu (đã đề cập Chương 2), khai thác mẫu liên chuỗi bổ sung thêm hình thức mở rộng liên chuỗi (mở rộng inter-sequence) 3.3 Đề xuất thuật toán khai thác mẫu liên chuỗi đóng Thuật toán ClosedISP đề xuất sử dụng cấu trúc DBV kết hợp với span thông tin giao dịch thành cấu trúc ClosedIS-Pattern để biểu diễn mẫu liên chuỗi đóng Cấu trúc ClosedIS-Tree dùng để lưu trữ tất mẫu liên chuỗi đóng Chiến lược loại trừ kiểm tra mẫu liên chuỗi đóng áp dụng thuật toán 15 3.3.1 Cấu trúc liệu ClosedIS-Pattern Cấu trúc ClosedIS-Pattern mở rộng cấu trúc CloFSDBVPattern (Chương 2) Trong đó, cấu trúc ClosedIS-Pattern gồm phần: (i) Pattern: mẫu với giá trị span tương ứng, (ii) BlockeInfo: DBV giao dịch danh sách vị trí xuất mẫu giao dịch Với cấu trúc ClosedIS-Pattern, chiến lược loại trừ kiểm tra hiệu mẫu đóng thực trực tiếp để tránh chi phí phát sinh mẫu duyệt lại CSDL, độ hỗ trợ tính cách nhanh chóng Hơn nữa, trình mở rộng mẫu thực thông qua thao tác bit gồm dịch phải bit (≫) phép giao (AND) bit 3.3.2 Cấu trúc ClosedIS-Tree Nhằm tăng hiệu việc khai thác luật duyệt chiều sâu theo tiền tố, mẫu liên chuỗi đóng lưu trữ cấu trúc tiền tố gọi ClosedIS-Tree Mỗi nút chứa thông tin ClosedIS-Pattern Tương tự cấu trúc tiền tố trình bày Chương 2, nút gốc (root) mức gán nhãn NULL Tuy nhiên, trình mở rộng nút bổ sung thêm hình thức mở rộng (mở rộng inter-sequence) 3.3.3 Thuật toán ClosedISP Thuật toán ClosedISP gồm bốn giai đoạn chính: (1) Duyệt CSDL chuỗi ban đầu để tìm tập mẫu liên chuỗi chiều dài lưu theo cấu trúc ClosedIS-Pattern, (2) Kiểm tra loại trừ sớm tiền tố khả mở rộng, (3) mở rộng mẫu khả sinh mẫu liên chuỗi đóng, cuối (4) kiểm tra mẫu đóng trực tiếp để định lưu lại không Đối với mẫu chiều dài 1, việc mở rộng mẫu tiến hành để tạo mẫu liên chuỗi chiều dài gồm mẫu: mẫu mở rộng theo 16 sequence, mẫu mở rộng theo itemset mẫu mở rộng theo intersequence Số lượng mẫu mở rộng theo inter-sequence tùy thuộc vào giá trị maxSpan cung cấp Tiếp theo, thuật toán tiến hành mở rộng theo ba hình thức cho mẫu độ dài k (k > 1) để tạo thành mẫu độ dài k + Quá trình thực lặp lại thêm mẫu liên chuỗi đóng sinh 3.3.4 Kết thực nghiệm Kết thực nghiệm thực CSDL tổng hợp (được phát sinh từ công cụ sinh liệu IBM) CSDL thực (Gazelle) để đánh giá hiệu thuật toán đề xuất Thuật toán CISP-Miner dùng để so sánh hiệu thực thi thời gian nhớ sử dụng Chương Phương pháp khai thác luật không thừa Chương trình bày giai đoạn khai thác CSDL chuỗi Trong đó, bên cạnh trình bày sở lý thuyết kỹ thuật khai thác luật phương pháp khai thác luật không thừa từ CSDL chuỗi Luận án trình bày kết nghiên cứu phát triển số kỹ thuật sinh luật không thừa 4.1 Giới thiệu Khai thác luật giai đoạn sau khai thác mẫu Mục tiêu khai thác luật tìm mối quan hệ xuất kiện CSDL chuỗi Một luật thể dạng r = X → Y Nghĩa là, X xuất mẫu CSDL Y xuất mẫu sau X với độ tin cậy cao Tập mẫu khai thác ảnh hưởng lớn đến việc sinh luật Nếu mẫu thu lớn nhiều mẫu không cần thiết dẫn đến việc sinh luật thừa tác động đến thời gian khai thác luật 17 Tiếp cận theo hướng khai thác tập mẫu đóng tập sinh để giải vấn đề sinh luật không thừa Trong đó, tiêu biểu thuật toán CNR (Lo đồng sự, 2009) Tuy nhiên, phần lớn thuật toán đề xuất cách độc lập theo mục đích khai thác Vì thế, hạn chế thuật toán khai thác luật sinh luật dựa vào kết thuật toán khai thác mẫu phổ biến sẵn Do vậy, chúng phải phụ thuộc hoàn toàn vào cấu trúc liệu mẫu phổ biến khai thác Muốn tăng hiệu sinh luật, thuật toán phải xây dựng lại cấu trúc liệu tổ chức mẫu cho phù hợp trước bắt đầu thực trình sinh luật 4.2 Các định nghĩa Một luật thể mối quan hệ thứ tự thời gian xuất mẫu CSDL chuỗi ký hiệu r = 〈pre〉 → 〈post〉, {sup(r), conf(r)}, với pre post phần đầu cuối tách từ mẫu X ban đầu CSDL Với sup(r) = sup(X), conf(r) = sup(r)/sup(〈pre〉) giá trị hỗ trợ độ tin cậy tương ứng r Cho ngưỡng phổ biến tối thiểu minSup ngưỡng tin cậy tối thiểu minConf Nếu sup(r) ≥ minSup r xem luật phổ biến Nếu conf(r) ≥ minConf r gọi luật tin cậy Một luật gọi thừa suy dẫn luật khác Một mẫu P xem tiền tố sinh (prefixed generator) không tồn P′ cho P′ ⊂ P ∧ sup(P ′ ) = sup(P) Luật r = pre → post gọi luật không thừa thỏa hai điều kiện: Vế trái vế phải luật tạo từ mẫu đóng vế trái phải tiền tố sinh 18 Cho hai ngưỡng phổ biến tối thiểu minSup ngưỡng tin cậy tối thiểu minConf, mục tiêu của thuật toán trình bày chương tìm tập luật không thừa (NR − Rule) từ CSDL chuỗi Với định nghĩa luật không thừa, luận án chứng minh NR − Rule tập luật đầy đủ không thừa 4.3 Các công trình nghiên cứu liên quan Vào năm 1999, Spiliopoulou đề xuất phương pháp sinh tập hoàn chỉnh luật từ mẫu sau loại trừ luật thừa giai đoạn sau Sau đó, Lo đồng năm 2009 đề xuất thuật toán khai thác luật không thừa với tên gọi CNR (Lo đồng sự, 2009) cho khai thác tập nén luật không thừa từ mẫu đóng tập sinh Các tập mẫu đóng khai thác từ thuật toán BIDE Tiếp cận theo hướng tổ chức mẫu tiền tố, dựa vào đặc tính tiền tố, số thuật toán đề xuất kỹ thuật sinh luật dựa vào cấu trúc tiền tố chứng tỏ hiệu khai thác CloGen (Pham đồng sự, 2013), MNSR_PreTree (Pham đồng sự, 2014), IMSR_PreTree (Van đồng sự, 2014) Tuy nhiên, thuật toán dựa vào tập mẫu (được khai thác từ thuật toán khai thác mẫu đó) để tổ chức lại thành cấu trúc tiền tố Tiếp theo, cấu trúc tiền tố, thuật toán tiến hành duyệt đánh dấu nút tiền tố, nút hậu tố Sau đó, thuật toán bắt đầu trình sinh luật Do vậy, tốn nhiều thời gian biến đổi xây dựng lại cấu trúc tổ chức mẫu để phát sinh luật hiệu 4.4 Thuật toán khai thác luật không thừa Thuật toán đề xuất cải tiến, với tên gọi NRD-DBV cho phép khai thác hiệu luật không thừa cách kết hợp giai đoạn khai thác 19 mẫu với giai đoạn phát sinh luật trực tiếp từ CSDL chuỗi ban đầu Thuật toán áp dụng cấu trúc nén với định dạng liệu dọc cấu trúc liệu DBV dựa vào đặc điểm cấu trúc tiền tố, số kỹ thuật loại trừ sớm để sinh luật không thừa Quá trình khai thác mẫu đóng mở rộng từ thuật toán CloFSDBV trình bày Chương Trong đó, với trình khai thác mẫu, thuật toán khai thác mẫu tiền tố sinh Do vậy, thuật toán không cần phải duyệt lại tập mẫu để tìm tiền tố sinh Sau tìm tất mẫu đóng, thuật toán bắt đầu sinh tất luật không thừa Đối với tiền tố sinh nút tiền tố, thuật toán sinh tất luật nút xét Trong trình này, trình tỉa nhánh áp dụng phát luật độ tin cậy thấp 4.5 Độ phức tạp thuật toán NRD-DBV Gọi n số lượng nút tiền tố (tập mẫu đóng), k số lượng trung bình nút Quá trình sinh luật thuật toán thực n × k lần Mặc khác, k ≪ n (theo kết thực nghiệm), nên độ phức tạp thuật toán NRD-DBV ≈ O(n) 4.6 Kết thực nghiệm Kết thực nghiệm so sánh với thuật toán chuẩn CNR (Lo đồng sự, 2009) Việc so sánh hiệu thuật toán thực tập luật sinh với tiêu chí so sánh thời gian nhớ sử dụng Thực nghiệm tiến hành hai loại tập liệu: CSDL tổng hợp CSDL thực cho thấy hiệu thuật toán đề xuất Phần kết luận Phần tóm tắt kết đạt trình nghiên cứu luận án đề xuất hướng phát triển, nghiên cứu 20 Kết luận Luận án trình bày tổng quan, sở lý thuyết, vấn đề kỹ thuật nghiên cứu đề xuất khai thác hiệu liệu chuỗi Thông qua khảo sát nghiên cứu công trình đề xuất nước liên quan đến luận án cho thấy thuật toán khai thác mẫu hiệu cần xem xét ba đặc điểm: (i) Sử dụng cấu trúc liệu kích thước tối ưu biểu diễn cho CSDL chuỗi, tránh duyệt CSDL nhiều lần; (ii) Loại trừ sớm mẫu ứng viên; (iii) Duy trì không gian tìm kiếm hẹp Các kết đạt luận án bao gồm: (1) Phát triển cấu trúc liệu cho toán Mở rộng phát triển định dạng dọc liệu dùng cấu trúc vector bit động kết hợp với thông tin vị trí giao dịch mẫu trình khai thác mẫu luật không thừa: - Với cấu trúc này, thuật toán đề xuất duyệt CSDL lần, việc tính độ hỗ trợ mẫu đơn giản thông qua số lượng bit mẫu (dùng kỹ thuật bảng tra) - Thao tác mở rộng mẫu thực hoàn toàn phép toán bit bao gồm: phép dịch phải (shift right) bit phép giao (AND) bit - Hơn nữa, đặc điểm mẫu thứ tự theo vị trí giao dịch nên thuật toán dựa vào thông tin vị trí mẫu giúp trình tỉa mẫu, kiểm tra mẫu thừa đơn giản hiệu Phát triển cấu trúc tiền tố cho việc lưu trữ thông tin khai thác giai đoạn khai thác mẫu sinh luật tuần tự: 21 - Cấu trúc tiền tố giúp trình khai thác duyệt theo chiều sâu, liệu nén theo tiền tố, trình xét mẫu độc lập theo lớp tương đương (có tiền tố) - Ngoài ra, tiền tố hiệu cho trình sinh luật luần tự tỉa nhánh mẫu khả sinh luật độ tin cậy cao (2) Đề xuất phương pháp thuật toán cho toán Trên sở cấu trúc liệu đề xuất, luận án trình bày định nghĩa mở rộng mẫu tuần tự, mở rộng mẫu liên chuỗi Ngoài ra, định nghĩa đặc điểm mở rộng mẫu dựa vào thông tin vị trí giao dịch mẫu mở rộng tính chất Apriori vào trình sinh luật mẫu dựa vào cấu trúc tiền tố trình bày luận án Các định nghĩa luận án áp dụng vào kỹ thuật đề xuất nhằm tăng hiệu khai thác bao gồm: - Kỹ thuật loại trừ sớm ứng viên nhằm tránh sinh chuỗi ứng viên không cần thiết sau mở rộng chuỗi dựa vào định nghĩa tính chất mở rộng lùi (Backward-Extension) mẫu - Kỹ thuật kiểm tra mẫu phổ biến đóng trực tiếp dựa vào thông tin vị trí chuỗi dựa vào định nghĩa tính chất mở rộng lùi mở rộng tiến chuỗi (Forward-Extension) - Kỹ thuật phát sớm tỉa mẫu khả sinh luật đủ ngưỡng độ tin cậy dựa vào tính chất Apriori đặc điểm tiền tố nhằm giảm bước không cần thiết trình sinh luật (3) Các công trình công bố - Thuật toán khai thác mẫu liên chuỗi [CT1] - Thuật toán khai thác mẫu đóng [CT2] 22 - Thuật toán khai thác mẫu liên chuỗi đóng [CT3] - Thuật toán khai thác luật không thừa [CT4] Hướng nghiên cứu Vấn đề khai thác liệu chuỗi quan tâm phát triển nhanh chóng tính ứng dụng cao thực tiễn Mặc nhiều nghiên cứu liên quan nhằm tăng hiệu khai thác, cần nghiên cứu CSDL chuỗi để giải số vấn đề nhằm đáp ứng yêu cầu bối cảnh tương lai Qua trình thực kết nghiên cứu, luận án đề xuất hướng cần tập trung nghiên cứu tiếp theo, bao gồm: (1) Nghiên cứu tìm kiếm cấu trúc liệu để biểu diễn thông tin mẫu phù hợp trình khai thác hiệu Áp dụng kỹ thuật công nghệ mới, hệ thống quản trị liệu mới, kết hợp kỹ thuật khai thác phần, chia nhỏ không gian tìm kiếm, khai thác song song dạng liệu liệu đồ, liệu thiên nhiên, thời tiết hay mạng xã hội (2) Nghiên cứu kỹ thuật khai thác phân tán CSDL phân tán hệ thống khác (3) Đối với loại ứng dụng cụ thể, bổ sung thêm thông tin ràng buộc kiện hay giao dịch vào trình khai thác nhằm tăng cường tính chủ động người dùng trình sử dụng công cụ khai thác (4) Trong thực tế mẫu hay kiện chuỗi vai trò quan trọng không đồng CSDL chuỗi Do vậy, việc bổ sung trọng số cho mẫu hay kiện giúp cho việc khám phá mẫu luật phù hợp theo ngữ cảnh khác ứng dụng cần khai thác 23 Danh mục công trình tác giả [CT1] Vo, B., Tran, M T., Nguyen, H., Hong, T P., and Le, B., “A Dynamic Bit-vector Approach for Efficiently Mining Intersequence Patterns,” In Innovations in Bio-Inspired Computing and Applications Conference, (IBICA), IEEE, 2012 pp Third 51-56, International 2012 (DOI 10.1109/IBICA.2012.31) [CT2] Tran, M T., Le, B., and Vo, B., “Combination of dynamic bit vectors and transaction information for mining frequent closed sequences efficiently,” Engineering Applications of Artificial Intelligence, 38, pp 183-189, 2015 (SCIE, 2016 IF 2.368, DOI 10.1016/j.engappai.2014.10.021) [CT3] Le, B., Tran, M T., and Vo, B., “Mining frequent closed intersequence patterns efficiently using dynamic bit vectors,” Applied Intelligence, 43, pp 74-84, 2015 (SCI, 2016 IF 1.215, DOI 10.1007/s10489-014-0630-1) [CT4] Tran, M T., Le, B., Vo, B., and Hong, T P., “Mining nonredundant sequential rules with dynamic bit vectors and pruning techniques,” Applied Intelligence, 45, pp 333-342, 2016 (SCI, 2016 IF 1.215, DOI 10.1007/s10489-016-0765-3) 24 ... CSDL chuỗi bao gồm hướng cụ thể như: - Khai thác mẫu tổng quát hay gọi khai thác mẫu tuần tự; - Khai thác mẫu liên chuỗi; - Khai thác mẫu dựa ràng buộc; - Khai thác mẫu CSDL tăng trưởng; - Khai thác. .. khai thác Vì thế, hạn chế thuật toán khai thác luật sinh luật dựa vào kết thuật toán khai thác mẫu phổ biến sẵn có Do vậy, chúng phải phụ thuộc hoàn toàn vào cấu trúc liệu mẫu phổ biến khai thác. .. đến giao dịch xảy sau Khai thác mẫu liên chuỗi mở rộng khai thác mẫu 13 Do vậy, thuật toán khai thác mẫu liên chuỗi dùng cho trường hợp khai thác mẫu mẫu liên chuỗi tùy thuộc vào khoảng thời gian

Ngày đăng: 16/06/2017, 01:49

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan