Ứng dụng của khai thác mẫu tuần tựcó thể được dùng để hỗ trợ ra quyết định hoặc dựbáo, dự đốn. Điển hìnhnhư:
Khai thác dữ liệu giao dịch: Có thểkhai thác mẫu tuần tự trong chuỗi các giao dịch từ một cửa hàng. Trong trường hợp này, mỗi một chuỗi đại diện cho các giao dịch từmột khách hàng tại các cửa hàng. Từ đây, một thuật tốn khai thác mẫu tuần tự có thểtìm thấy các mẫu chung cho một số khách hàng. Ví dụ, 30% khách hàng mua bia và bánh pizza, sau đó sẽ mua sữa.Điều này có thể được sử dụng cho việc ra các quyết định tiếp thị hoặc đưa ra các gợi ý sản phẩm trên một trang web bán hàng.
Khai thác web log: Khai thác mẫu tuần tựcó thể được thực hiện trên web logs. Trong trường hợp này có thểlà các chuỗi trình tự của các trang web được truy cập bởi người dùng trên một website. Từdữliệu này, một thuật tốn khai thác mẫu tuần tự có thể sử dụng để khám phá ra trình tựcủa các trang web thường được truy cập bởi người dùng. Sau đó, trang web này có thể sử dụng các mẫu đó để tạo đề nghị cho người sửdụng như là các liên kết được đềnghị.
Khai thác hồ sơ y tếhay dữliệu sức khỏe: Thuật tốn khai thác mẫu tuần tựcó thể được sử dụng để tìm kiếm các mẫu trong hồ sơ y tế. Ví dụ, giả sử rằng mỗi chuỗi là các hồ sơ y tế của một người trong một bệnh viện. Các mẫuđược tìm thấy có thể giúp chúng ta chẩn đốn bệnh hay dự báo được tình hình sức khỏe của một hay một nhóm người nào đó. Ví dụ như người lấy thuốc A và thuốc B, và sau đó là thuốc C, sẽcó một cơn đau tim chẳng hạn.
Khai thác dữliệu giáo dục: Khai thác mẫu tuần tự có thể được sử dụng để tìm kiếm các mẫu trong dữliệu giáo dục. Ví dụ, giảsửrằng mỗi chuỗi của một cơ sởdữ liệu chuỗi là các khóa học mà một học sinh thi tại trường đại học. Chúng ta có thể khám phá ra rằngngười học khóa học A và B sẽln ln tham dựkhoá C.
Khai thác dữ liệu thị trường chứng khoán: Khai thác mẫu tuần tự có thể được áp dụng cho chuỗi các sự kiện trên thị trường chứng khoán nhằm phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán, phát hiện gian lận…
Khai thác dữliệu các thảm họa tựnhiên: Khai thác mẫu tuần tựcó thể được áp dụng cho các thảm họa. Ví dụsau trận động đất thì những thay đổi nào có thểxảy ra trong tựnhiên (chẳng hạn như sóng thần, lở đất, dư chấn…).
Khai thác dữliệu sinh họcnhư phân tích chuỗi DNA, phân tích kết cấu protein, tìm kiếm trên gen, dự đốn các quy tắc tổ chức của một số thành phần trong gen, phân tích biểu hiện gen, dự đốn chức năng protein…
Ngoài ra, khai thác mẫu tuần tự còn nhiều ứng dụng khác như phát hiện xâm nhập mạng, khám phá xu hướng thị trường, phân loại văn bản và xác định quyền tác giả, dự đoán và cảnh báo người sửdụng các lỗi tiềm tàng của hệthống…
CHƯƠNG 3
KHAI THÁC K MẪU TUẦN TỰ PHỔ BIẾN DỰA TRÊN ROARING BITMAP
3.1 GIỚI THIỆU
Khai thác mẫu tuần tự đãđược nghiên cứu rộng rãi trong cộng đồng khai thác dữ liệu và có rất nhiều ứng dụng trong thực tế. Khai thác mẫu tuần tự là tìm tất cả các chuỗi con chung (subsequences) xuất hiện nhiều hơnminsup lần trong các chuỗi
(sequences) của CSDL, với minsup là ngưỡng hỗ trợ tối thiểu do người dùng định nghĩa [15]. Cho đến nay, mặc dù nhiều nghiên cứu để thiết kế ra các thuật toán khai thác mẫu tuần tự đã được thực hiện nhưng một vấn đề quan trọng là làm cách nào để người sử dụng có thể chọn được ngưỡng minsup nhằm tạo ra một số lượng mong
muốn các mẫu.Tùy thuộc vào sự lựa chọn ngưỡngminsup, thuật tốn có thể trở nên
rất chậm và tạo ra một số lượng rất lớn các kết quả hoặc q ít kết quả hoặc khơng có kết quả nào, bỏ qua các thơng tin có giá trị. Vấn đề này rất quan trọng bởi vì trong thực tế, người sử dụng chỉ có nguồn tài nguyên giới hạn (thời gian và không gian lưu trữ) nên khơng thể phân tích q nhiều mẫu kết quả và việc tinh chỉnh thông số minsup là rất tốn thời gian. Để giải quyết vấn đề này, người ta đãđề xuất xác định lạivấn đề của khai thác các mẫu tuần tự như làkhai thác k mẫu tuần tự phổ
biến, vớik là số mẫu tuần tự được tìm ra (được trả về) và được định nghĩa bởi người
sử dụng.
Ví dụ: Cho CSDL chuỗi như trong bảng 3.1 và k = 10, thì k mẫu tuần tự phổ biến sẽ là〈{g}〉,〈{a},{f}〉, 〈{a}〉,〈{b}, {e}〉,〈{b}, {g}〉,〈{a}, {e}〉,〈{e}〉với độ hỗ trợ là 3 và〈{b}, {f}〉,〈{b}〉,〈{f}〉với độ hỗ trợ là 4. Bảng3.1 CSDL chuỗiD4 SID Sequences 1 〈{a, b},{c},{f, g},{g},{e}〉 2 〈{a, d},{c},{b},{a, b, e, f}〉 3 〈{a},{b},{f},{e}〉 4 〈{b},{f, g}〉
Thuật toán tốt nhất hiện nay để giải quyết vấn đề này là thuật toán TKS [15].