Bài viết đề xuất thuật toán MTKS (Max Top-K Sequential pattern mining) tìm k mẫu tuần tự tối đại dựa trên thuật toán TKS. Với k mẫu nhập vào thuật toán sẽ trả về k mẫu có độ hỗ trợ cao nhất trong cơ sở dữ liệu.
TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Đỗ Thanh Tùng tgk THUẬT TOÁN TOP-K MẪU TUẦN TỰ TỐI ĐẠI ALGORITHM OF TOP-K MAXIMAL SEQUENTIAL PATTERNS ĐỖ THANH TÙNG, TRẦN THỊ YẾN NHI LÝ HẢI SƠN(***) TÓM TẮT: Khai thác mẫu phần quan trọng khai thác liệu với ứng dụng rộng rãi Tuy nhiên, việc tùy chỉnh thông số minsup để phù hợp thuật toán khai thác mẫu nhằm tạo số mẫu mà người dùng mong muốn điều khó khăn tốn thời gian Để giải vấn đề này, thuật toán khai thác k mẫu tối đại TSP (Top-K Closed Sequential Patterns) [7, tr.438-457] đưa phương án giới hạn lại số lượng k mẫu cần khai thác, thời gian thực nhớ sử dụng thuật toán cao Bài viết đề xuất thuật toán MTKS (Max Top-K Sequential pattern mining) tìm k mẫu tối đại dựa thuật toán TKS [2, tr.109-120] Với k mẫu nhập vào thuật toán trả k mẫu có độ hỗ trợ cao sở liệu Từ khóa: khai thác Top-K mẫu tuần tự; Top-K mẫu tối đại; thuật toán TKS; TSP ABSTRACT: Mining the sequential pattern is an important part of data mining with wide-range applications However, it is very difficult and time-consuming to customize the minsup parameters to fit in a sequential pattern exploring algorithms to create the right number of samples desired by the user To solve this problem, the Top-K closed Sequential Pattern (TSP) algorithm gave a method to limit the number of k patterns to be exploited, but the running time and usage memory of this algorithm is high Therefore, the article proposes the Max Top-K Sequential pattern (MTKS) algorithm to find k maximum sequential patterns based on the algorithm Top-K Sequential pattern mining (TKS) With input k patterns, the algorithm returns k patterns highest degree of support in the database Key words: Top-K sequential patterns mining; Top-K maximal sequential patterns; TKS algorithm; TSP algorithm nhiều lĩnh vực như: phân tích thị trường, phân tích mẫu truy cập web, dự đoán nhu cầu mua sắm khách hàng… Khi khai thác mẫu tồn số vấn đề sau: khai thác mẫu thường tạo số lượng lớn mẫu, vấn đề khơng thể tránh khỏi sở liệu bao gồm chuỗi phổ biến dài Nó tạo mẫu phổ biến mà mẫu có độ hỗ trợ cha mẫu phổ biến khác; Nếu chọn minsup cao, tạo mẫu bỏ qua thơng tin có giá trị cịn ngược lại, q nhiều ĐẶT VẤN ĐỀ Trong lĩnh vực khai thác liệu, sở liệu chuỗi Việc khai thác mẫu nhiệm vụ khai thác liệu quan trọng nghiên cứu rộng rãi [1, tr.3-14], [3, tr.512-521], [4, tr.259-289], [5, tr.554-560], [6, tr.3-17] Cho tập chuỗi, chuỗi bao gồm danh sách tập phổ biến ngưỡng hỗ trợ tối thiểu người dùng định (Minsup), khai thác mẫu để tìm tất mẫu phổ biến có độ hỗ trợ không thấp minsup Khai thác mẫu ứng dụng ThS Trường Đại học Văn Lang, tung.dt@vlu.edu.vn ThS Trường Đại học Văn Lang, nhi.tty@vlu.edu.vn (***) ThS Trường Đại học Văn Lang, son.ly@vlu.edu.vn, Mã số: TCKH25-05-2021 90 TẠP CHÍ KHOA HỌC ĐẠI HỌC VĂN LANG Số 25, Tháng 01 - 2021 mẫu dẫn đến thuật toán chậm Để chọn giá trị minsup hợp lý đòi hỏi phải biết liệu; Mỗi sản phẩm mà khách hàng mua lại có giá khác Tương tự hạng mục giao dịch có trọng số khác tùy theo loại sở liệu cụ thể Nhiều nghiên cứu thực nhiều thuật toán đề xuất lĩnh vực Thuật toán TKS [2, tr.109-120] đánh giá cao chi phí thực thấp so với thuật toán khác việc khai thác k mẫu phổ biến Dựa vào để làm tảng tiến hành nghiên cứu toán khai thác Top K mẫu tối đại NỘI DUNG 2.1 Các khái niệm chuỗi liệu Cho I = {i1, i2,…, ik} tập item Tập I gọi Itemset Chuỗi s= (ti I) danh sách có thứ tự Chúng ta giả sử rằng, item itemset nhóm theo thứ tự Ví dụ: Xét sở liệu bảng Ví dụ: Chuỗi chuỗi chuỗi chuỗi ngược lại 2.2 Độ hỗ trợ Xét sở liệu chuỗi D, chuỗi có số định danh Độ hỗ trợ tuyệt đối mẫu tổng số chuỗi D có chứa p, ký hiệu supD (p) = l{s| sD s}l Độ hỗ trợ tương đối p tỷ lệ phần trăm chuỗi D chứa p Ở đây, mức hỗ trợ tuyệt đối tương đối sử dụng chuyển đổi qua lại, ký hiệu sup(p) Ví dụ: Xét sở liệu bảng 1, chuỗi p = xuất chuỗi s1, s3, s5 Vậy, độ hỗ trợ chuỗi p 2.3 Mẫu Mẫu chuỗi chuỗi liệu Mỗi itemset mẫu gọi thành phần (element) Ví dụ: Mẫu = chuỗi chuỗi s1 2.4 Mẫu Cho trước ngưỡng hỗ trợ tối thiểu (Minsup) xác định người dùng, minsup ∈ (0,1] Một mẫu coi phổ biến độ hỗ trợ lớn minsup: sup()≥ minsup, gọi mẫu Ví dụ: Xét sở liệu bảng Có tập item phân biệt {a, b, c, d, e, f } Xét chuỗi s1 = chuỗi s1 có itemset là: có item Vậy s1 có kích thước có độ dài Trong chuỗi s1, item a xuất lần tính độ hỗ trợ độ hỗ trợ item a tính chuỗi s1 Chuỗi p = xuất chuỗi s1, s2, s3, s4 s5 Vậy, độ hỗ trợ mẫu p Vì sup(p) > minsup nên p mẫu 2.5 Kỹ thuật khai thác tập phổ biến TKS Ví dụ: Cho sở liệu bảng với k =5 Bảng Cơ sở liệu D SID Sequences Chuỗi s1 có itemset xảy theo thứ tự Chiều dài s, l(s) tổng số item s gọi l-sequence Ví dụ: Chuỗi 3-sequence có kích thước Chuỗi = chuỗi chuỗi khác = ký hiệu ∃i1, i2,…im, cho ≤ i1 < i2