1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Thuật toán khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian

11 39 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 729,98 KB

Nội dung

Bài viết nhằm đề xuất một phương pháp khai phá mẫu dãy trọng số chuẩn hóa với khoảng cách thời gian, chúng tôi không chỉ quan tâm đến số lần xuất hiện của các dãy (độ hỗ trợ) mà còn quan tâm đến khoảng cách thời gian giữa các dãy và mức độ quan trọng khác nhau (trọng số) của chúng.

Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 Thuật toán khai phá mẫu dãy thƣờng xuyên trọng số chuẩn hóa với khoảng cách thời gian Mining Normalized Weighted Frequent Sequential Patterns with Time Intervals Algorithm Trần Huy Dƣơng, Vũ Đức Thi Abstract: In this paper, we propose a method for mining normalized weighted frequent sequential patterns with time intervals, we are not only interested in the number of occurrences of the sequence (the support), but also concerned about their levels of importance (weighted) We use the binding between the support and weight of the set range to candidates in mining normalized weighted frequent sequential patterns with time intervals while maintaining the downward closure property nature which allows a balance between support and the weight of a sequence Keywords: Data mining, frequent sequential patterns, time intervals, weighted, sequential patterns I GIỚI THIỆU Khai phá mẫu dãy (Mining Sequential Patterns) lĩnh vực quan trọng nghiên cứu khai phá liệu áp dụng nhiều lĩnh vực khác Trong thực tế liệu dãy tồn phổ biến dãy liệu mua sắm khách hàng, liệu điều trị y tế, nhật ký truy cập web, v.v Mục đích khai phá mẫu dãy phát tất dãy xuất lặp lại CSDL theo yếu tố thời gian hướng cải tiến nhằm giảm thiểu chi phí thời gian tài nguyên hệ thống Các thuật toán kể khai phá mẫu dãy quan tâm đến số lần xuất (hay độ hỗ trợ) mẫu dãy; thuật toán Hirate Yamana [10] đề xuất cho phép khai phá mẫu dãy có quan tâm đến giá trị khoảng cách thời gian dãy Tuy nhiên, thuật toán chưa quan tâm đến ràng buộc khoảng cách thời gian dãy mức độ quan trọng khác mục liệu Vì vậy, báo nhằm đề xuất phương pháp khai phá mẫu dãy trọng số chuẩn hóa với khoảng cách thời gian, không quan tâm đến số lần xuất dãy (độ hỗ trợ) mà quan tâm đến khoảng cách thời gian dãy mức độ quan trọng khác (trọng số) chúng Chúng tơi sử dụng tính chất ràng buộc độ hỗ trợ, khoảng cách thời gian trọng số dãy để sinh tập ứng viên khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian sử dụng tính chất phản đơn điệu cho phép cân độ hỗ trợ, khoảng cách thời gian trọng số dãy Phần lại báo sau: Phần II trình bày nghiên cứu liên quan Phần III trình bày tốn đề xuất thuật toán khai phá mẫu dãy thường xuyên Hiện giới có nhiều nhóm tác giả trọng số chuẩn hóa với khoảng cách thời gian nghiên cứu đề xuất thuật toán với phương WIPrefixSpan dựa giải thuật khai phá mẫu dãy pháp tiếp cận khai phá mẫu dãy khác thường xuyên PrefixSpan [3] thuật toán Hirate AprioriAll [1], GSP [2], PrefixSpan [3], SPADE [4], Yamana [10] đề xuất Phần IV trình bày kết SPAM [5], CloFS-DBV [13] v.v nhằm giải thực nghiệm so sánh giải thuật đề nghị đa dạng loại toán đưa (WIPrefixSpan), WPrefixSpan [11] giải thuật IPrefixSpan[10] liệu BMS-WebView Kết - 72 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT luận hướng phát triển thể phần cuối II CÁC NGHIÊN CỨU LIÊN QUAN Năm 1995, Agrawal Srikant phát triển toán khai phá mẫu dãy phổ biến [1] đề nghị thuật toán AprioriAll thuật toán dựa thuật toán Apriori để khai thác mẫu dãy phổ biến Cũng giống Apriori, AproiriAll quét CSDL nhiều lần dựa vào phương pháp sinh ứng viên nên tốn thời gian khai phá Năm 2001, Pei đồng đề nghị thuật toán PrefixSpan [3], thuật toán dựa phương pháp phát triển mẫu dãy Thuật tốn khơng phải qt CSDL nhiều lần nên thời gian khai phá giảm đáng kể so với AprioriAll [1] Các thuật tốn sau phát triển nhằm tối ưu hóa q trình khai phá mẫu dãy kể đến SPADE [4], SPAM [5] Ngoài ra, kỹ thuật dựa chuỗi bit động để khai phá mẫu dãy đóng đề nghị [13] Đối với khai phá mẫu CSDL có trọng số thuật tốn khai phá mẫu dãy nêu không quan tâm tới mức độ quan trọng mẫu (trọng số mẫu) Trên giới có nhiều tác giả nghiên cứu trọng số, kể đến cơng trình khai phá tập mục có trọng số [6-9], [14-16], mẫu dãy có trọng số [12,15] Các thuật tốn [12,15] khai phá mẫu dãy CSDL có trọng số chưa quan tâm đến ràng buộc trọng số, độ hỗ trợ khoảng cách thời gian dãy III KHAI PHÁ MẪU DÃY THƢỜNG XUYÊN TRỌNG SỐ CHUẨN HÓA VỚI KHOẢNG CÁCH THỜI GIAN Tập V-2, Số 14 (34), tháng 12/2015 (t1,3,s3), , (t1,m,sm)} với sj I (1 ≤ j ≤ m) tập mục gọi thành phần dãy sj có dạng (i1i2… ik) it mục liệu thuộc I, t, khoảng cách thời gian dãy s s Một dãy Sm bị loại có mục liệu it I Một mục liệu xuất lần thành phần sj, xuất nhiều lần thành phần dãy Sm Kích thước |Sm| dãy số lượng thành phần dãy Sm Độ dài l(Sm) dãy tổng số mục liệu dãy Sm Một sở liệu dãy S = {S1, S2, …, Sn} tập liệu (sid,Sk) với sid định danh dãy Sk dãy liệu có dạng {(t1,1,s1), (t1,2,s2), (t1,3,s3), , (t1,m,sm)} Định nghĩa (Dãy liệu có khoảng cách thời gian): Một dãy liệu có khoảng cách thời gian có dạng: Sm = (1) Với t,, khoảng cách thời gian dãy s s có dạng: t, = s.time - s.time (2) Định nghĩa (Độ hỗ trợ dãy) : Độ hỗ trợ dãy Sa sở liệu dãy S số lượng xuất ghi S có chứa dãy Sa Định nghĩa (Trọng số chuẩn hóa dãy): ChoI={i1, i2, …, in} tập hợp mục liệu Mỗi mục ijI gán trọng số wj, j = 1, ,n Khi trọng số chuẩn hóa dãy  = có độ dài k sj có dạng (i1i2… ik) tính cơng thức: III.1 Các thuật ngữ mơ tả toán () ∑  (3) Cho I = {i1, i2, …, in} tập hợp mục liệu Mỗi mục ij I gán trọng số wj với giá trị j=1, ,n Định nghĩa (Độ hỗ trợ với trọng số chuẩn hóa dãy): Một dãy Sm danh sách xếp theo thứ tự mục liệu dạng {(t1,1,s1), (t1,2,s2), Ta gọi đại lượng NWsupport() dãy  độ hỗ trợ với trọng số chuẩn hóa dãy : - 73 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT () ( ∑ ()  ) () () xuyên trọng số chuẩn hóa với khoảng cách thời gian S, tức tìm tập L: (4) Định nghĩa (Ràng buộc khoảng cách thời gian): Cho dãy < (t1,1,s1), (t1,2,s2), (t1,3,s3), , (t1,m,sm)>, ràng buộc khoảng cách thời gian dãy định nghĩa theo [10]: L = {Sa ⊆ S | NWsupport(Sa )  wminsup t, thỏa mãn tính chất ràng buộc C1, C2, C3, C4} (6)  Mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian khơng thỏa mãn tính chất phản đơn điệu, nghĩa tập mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian khơng thiết phải mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian  C1 = min_time_interval giá trị nhỏ hai dãy liền kề, tức ti,i+1  min_time_interval  C2 = max_time_interval giá trị lớn hai dãy liền kề, tức ti,i+1 ≤ max_time_interval  C3 = min_whole_interval giá trị nhỏ dãy đầu dãy cuối, tức ti,m  min_whole_interval  C4 = max_whole_interval giá trị lớn dãy đầu dãy cuối, tức ti,m ≤ max_whole_interval Định nghĩa (Mẫu dãy thƣờng xuyên trọng số chuẩn hóa với khoảng cách thời gian): Cho CSDL dãy S có khoảng cách thời gian dãy, mục ij⊆ I gán trọng số wj, ngưỡng hỗ trợ tối thiểu wminsup, ràng buộc khoảng cách thời gian C1, C2, C3, C4 Một dãy  gọi mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian thỏa mãn tính chất: NWSupport()  wminsup t, thỏa mãn tính chất ràng buộc C1, C2, C3, C4 (5) Khi tốn khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian phát biểu sau:  Cho CSDL dãy S có khoảng cách thời gian dãy, mục ij I gán trọng số wj, ngưỡng hỗ trợ tối thiểu wminsup, ràng buộc khoảng cách thời gian C1, C2, C3, C4 Tìm tất mẫu dãy thường Tập V-2, Số 14 (34), tháng 12/2015 III.2 Cơ sở tốn học Chúng tơi đề xuất thuật toán khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian (WIPrefixSpan), Định nghĩa 7, 8, dựa giải thuật khai phá mẫu dãy thường xuyên PrefixSpan [3] Hirate vàYamana[10] với cách tiếp cận tìm cách đưa ràng buộc trọng số, ràng buộc khoảng cách thời gian độ hỗ trợ thuật tốn khai phá mẫu dãy đảm bảo tính chất phản đơn điệu Để tránh phải thực kiểm tra tất khả kết hợp dãy ứng cử viên tiềm năng, ta thay thứ tự mục liệu thành phần dãy Khi mục thành phần dãy liệt kê theo trật tự mà khơng tính tổng qt giả định thứ tự ln ln liệt kê theo thứ tự bảng chữ Ví dụ dãy < (0,a) (1,acb) (2,ac) > thể thông tin siêu thị khách hàng, thời điểm khách hàng mua mặt hàng a, thời điểm khách hàng mua mặt hàng a,c,b thời điểm khách hàng mua mặt hàng a,c Khi đó, việc thể dãy ban đầu thành dãy tương thể mặt hàng khách hàng mua thời điểm cụ thể Với quy ước biểu dãy - 74 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Nếu ta theo thứ tự tiền tố dãy CSDL điều kiện tiền tố có hậu tố dãy ta kiểm tra dãy theo thứ tự xếp CSDL điều kiện theo tiền tố Định nghĩa (Tiền tố Hậu tố dãy có khoảng cách thời gian): Các mục liệu thành phần dãy xếp thứ tự chữ [3] Cho dãy a = , dãy sb tập ij⊆ I Khi tồn giá trị j (1 ≤ j ≤ m) cho sb⊆sj t1,b= t1, j Ta định nghĩa tiền tố dãy có khoảng cách thời gian a với giá trị sb, t1,b sau: Prefix (a,sb, t1,b) = (7) Khi hậu tố dãy có khoảng cách thời gian a với giá trị sb, t1,b định nghĩa: Postfix (a,sb, t1,b) = (8) Với s’j tập sj sau trừ tập sb Khi s’j = , hậu tố a với giá trị sb, t1,b là: Postfix (a,sb, t1,b) = Với j= 3, s’3= (0,r), hậu tố Postfix(a,sb,t1,b) = Định nghĩa (CSDL điều kiện theo tiền tố dãy có khoảng cách thời gian): Cho sở liệu dãy S có khoảng cách thời gian dãy b có dạng Khi CSDL điều kiện theo tiền tố b định nghĩa S|b, gồm hậu tố (Postfix) dãy S với tiền tố b xây dựng theo Định nghĩa Dựa Định nghĩa 3, thấy NW() ln nhỏ hay MaxW với MaxW giá trị lớn trọng số mục S Vì vậy, thay khai phá mẫu dãy thường xuyên thỏa Định nghĩa 6, ta đưa toán dạng khai thác mẫu dãy thỏa Định nghĩa đây, sau tính giá trị NWSupport mẫu dãy thu để tìm mẫu dãy thường xuyên Định nghĩa (Mẫu dãy ứng viên): Cho ngưỡng hỗ trợ tối thiểu wminsup Một dãy  gọi dãy ứng viên mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian thỏa mãn tính chất: Support() * MaxW  wminsup thỏa mãn tính chất C1, C2, C3, C4 (9) Mặt khác, không tồn giá trị j hậu tố a với giá trị sb, t1,b trở thành: Prefix (a,sb, t1,b) =  Với MaxW giá trị lớn trọng số mục S, mẫu dãy ứng viên xây dựng nhằm mục đích tỉa bớt khơng gian tìm kiếm mà đảm bảo tính phản đơn điệu khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian Postfix (a,sb, t1,b) =  Ví dụ : Cho dãy a = , Với tiền tố sb= (0,p) ta xây dựng hậu tố dãy a sau: Với j= 1, s’1= , hậu tố Postfix(a,sb,t1,b) = Với j= 2, s’2= (0,qr), hậu tố Postfix(a,sb,t1,b) = Tập V-2, Số 14 (34), tháng 12/2015 III.3 Ví dụ khai phá mẫu dãy thƣờng xuyên trọng số chuẩn hóa với khoảng cách thời gian Cho CSDL dãy S với khoảng cách thời gian Bảng 1, giá trị trọng số mục liệu Bảng 2, giá trị wminsup =1,5 giá trị C1=1; C2=2; C3=2; C4=3 Khi việc khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách - 75 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT thời gian CSDL dãy S theo phương pháp WIPrefixSpan thực theo bước sau: Giá trị trọng số mục theo Bảng (a=0,9; b=0,75; c=0,8; d=0,85; e=0,75; f=0,7) Giá trị MaxW = 0.9; Giá trị wminsup = 1,5 Bảng Cơ sở liệu dãy S Kiểm tra theo Định nghĩa 9, loại mục , giá trị: Dãy liệu iSID Tập V-2, Số 14 (34), tháng 12/2015 10 20 support()*MaxW = 1*0,9=0,9 < wminsup; 30 support()*MaxW = 1*0,9=0,9 < wminsup; support(*MaxW = 1*0,9=0,9 < wminsup; Khi ta có ứng viên mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian có độ dài là: Bảng Giá trị trọng số mục liệu Tên mục Trọng số Q1 = , , a 0.9 b 0.75 c 0.8 d 0.85 NWsupport() = 3*0,9 =2,7 > wminsup; e 0.75 NWsupport() = 2*0,75 =1,5 = wminsup; f 0.7 NWsupport() = 2*0,8 =1,6 > wminsup Kiểm tra theo Định nghĩa với ứng viên Q1, ta có mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian có độ dài nạp vào L là: Kết L Bước : Bƣớc 1: Tìm ứng viên mẫu dãy thƣờng xuyên với trọng số chuẩn hóa có độ dài Duyệt CSDL dãy S lần để tìm tất ứng viên mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian có độ dài 1, thực đếm độ hỗ trợ mục Một mục có độ dài khơng phải mẫu dãy thường xun có trọng số chuẩn hóa kết hợp với mục khác có độ hỗ trợ lớn trọng số lớn để trở thành mẫu dãy thường xuyên có trọng số mẫu có độ dài lớn Khi ta có giá trị độ hỗ trợ mục sau: support() = 3, support() = 2, support() = 2, support() = 1, support() = 1, support() = L = {, ,} Bƣớc 2: Chia khơng gian tìm kiếm Tồn ứng viên mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian khai phá phân vùng gồm 03 vùng tương ứng với 03 tiền tố gồm:  Mẫu dãy với tiền tố  Mẫu dãy với tiền tố  Mẫu dãy với tiền tố Bƣớc 3: Khai phá tập ứng viên mẫu dãy thƣờng xuyên trọng số chuẩn hóa với khoảng cách thời gian Các tập ứng viên mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian khai phá cách xây dựng CSDL điều kiện - 76 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 tương ứng với tiền tố khai phá chúng phương pháp đệ quy Các bước thực sau: support()*MaxW = 1*0,9=0,9 A Tìm ứng viên mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian với tiền tố ràng buộc thời gian C1, C2, C3, C4 support()*MaxW = 1*0,9=0,9 Khi CSDL điều kiện với tiền tố bao gồm hậu tố xây dựng theo Định nghĩa 7: support()*MaxW = 1*0,9=0,9 support()*MaxW = 1*0,9=0,9 support()*MaxW = 1*0,9=0,9 Các ứng viên có độ dài với tiền tố thỏa mãn độ hỗ trợ với trọng số lớn : , , Bảng Cơ sở liệu điều kiện với tiền tố iSID Kiểm tra ứng viên với tính chất ràng buộc thời gian C1=1; C2=2; C3=2; C4=3 Khi đó, ứng viên bị loại khơng thỏa mãn tính chất C2 = Vì vậy: Dãy liệu 10 < (0,c)> 20 30 Q2 = , Bằng cách quét CSDL điều kiện với tiền tố , độ hỗ trợ mục liệu là: support()= 1; support()= 1; support()= 1; support()= 1; support()= 2; support()= 2; support()= 1; support()= 2; support()= 1; support()= 1; support()= 1; support()= 1; support()= 1; support()*MaxW = 1*0,9=0,9 Kiểm tra độ hỗ trợ với trọng số chuẩn hóa ứng viên , : NWsupport() = 2*(0,9+0,75)/2=1,65 NWsupport(, - Nạp R = {R, } Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT - Kiểm tra điều kiện support()*NW()  wminsup , thỏa mãn L={L, } b) Thực R = WIPrefixSpan( ISDB|,R,W,wminsup, C1, C2, C3, C4) Kết thúc lặp 4) Kết tập L Kết thúc Thủ tục WIPrefixSpan (ISDB|,R,W,wminsup, C1, C2, C3, C4) Bắt đầu: 1) Duyệt ISDB| để tìm tất cặp dãy với  giá trị khoảng cách thời gian dãy với  cặp (định nghĩa (Δt,i)) thỏa mãn điều kiện support (i)* MaxW  wminsup, C1, C2 2) Đặt  = 3) Kiểm tra xem có thỏa mãn điều kiện C4 4) Chỉ thỏa mãn điều kiện C4 Tập V-2, Số 14 (34), tháng 12/2015 (http://www.philippe-fournier-viger.com/spmf/ datasets/BMS1_spmf) Bộ liệu BMS-WebView sinh ngẫu nhiên liệu chiều thời gian, khoảng cách thời gian tập mục kề chuỗi sinh ngẫu nhiên từ 0-10 Giá trị trọng số mục thuật toán WIPrefixSpan khoảng 0,2≤ wj ≤ 0,9 Trong phần thử nghiệm này, chạy thử nghiệm liệu BMS-WebView với ngưỡng hỗ trợ wminsup khác (từ 0,01%-0,1%) Các thuật toán IPrefixSpan[10] WIPrefixSpanđược đưa thêm ràng buộc thời gian: C1 = 0, C2=3, C3=0, C4=50 Tất thực nghiệm tiến hành máy tính có xử lý Intel Core2 Dual 2.53GHz với 3GB nhớ chính, chạy Microsoft Windows XP SP3 Các thuật toán thực ngơn ngữ lập trình Java 1.6 Eclipse Trong trường hợp tổng quát, độ phức tạp thuật tốnWIPrefixSpan O(NL), N số lượng mục tập liệu L chiều dài lớn dãy liệu toàn giao dịch a) Thực R = WIPrefixSpan (ISDB|,R,W,wminsup, C1, C2, C3, C4) b) Khi  thỏa mãn điều kiện C3, R = {R, } c) Kiểm tra điều kiện support()*NW()  wminsup , thỏa mãn L={L, } 5) Kết tập L Kết thúc IV KẾT QUẢ THỰC NGHIỆM Trong phần này, chúng tơi trình bày kết thực nghiệm thuật toán WIPrefixSpan so với thuật toán IprefixSpan [10] thuật toán WPrefixSpan[11] liệu UCI Machine Learning: BMS-WebView với 59601 dãy liệu, 497 mục liệu, chiều dài trung bình dãy gồm 2,42 mục liệu, gồm số dãy dài (hơn 318 dãy chứa nhiều 20 mục) - 79 -  So sánh thời gian chạy: Kết từ Hình cho thấy đưa thêm ràng buộc thời gian vào thời gian chạy thuật tốn giảm đáng kể Thuật tốn WPrefixSpan có thời gian thực thi lâu so với thuật toán IPrefixSpan WIPrefixSpan ngưỡng hỗ trợ giảm dần  So sánh số mẫu dãy thường xuyên tìm được: Hình 2, ta thấy thuật tốn WIPrefixSpan giảm đáng kể số mẫu dãy thường xuyên tìm so với thuật toán IPrefixSpan WPrefixSpan Do thuật toán đưa thêm ràng buộc thời gian trọng số, khơng gian tìm kiếm rút gọn đáng kể  Chúng thử nghiệm thuật toán WIPrefixSpan với giá trị điều kiện từ ĐK1 đến ĐK7 với giá trị ràng buộc thời gian C1, C2, C3, C4 tương ứng Bảng 5,thuật toán sử dụng liệu BMS-WebView trọng số sinh ngẫu nhiên khoảng từ 0,2 đến 0,9 với Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT ngưỡng hỗ trợ wminsup = 0,01% Như Bảng 5, ta thấy số lượng mẫu dãy thường xuyên tìm thay đổi theo điều kiện ràng buộc thời gian khác Như ta thơng qua việc thay đổi ràng buộc thời gian để tỉa bớt liệu không quan trọng làm giảm khơng gian tìm kiếm thuật toán Thời gian (giây) 60 50 40 WPrefixSpa n phép thu nhỏ đáng kể khơng gian tìm kiếm để khai phá mẫu dãy thường xuyên Việc đưa giá trị trọng số mục liệu CSDL dãy có khoảng cách thời gian cho phép quan tâm tới ràng buộc độ hỗ trợ, trọng số khoảng cách thời gian dãy, đồng thời trình xây dựng CSDL điều kiện theo tiền tố, sử dụng điều kiện kiểm tra để thực tỉa mục ứng viên mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian cho phép giảm khơng gian tìm kiếm đảm bảo tính phản đơn điệu giải thuật 30 Bảng Số mẫu dãy thường xuyên theo giá trị điều kiện ràng buộc thời gian khác 20 Điều kiện Khoảng thời gian nhỏ (C1): Khoảng thời gian lớn (C2): Tổng quãng thời gian nhỏ (C3): Tổng quãng thời gian lớn (C4): Số mẫu dãy thường xuyên 10 0,010,020,030,040,050,060,070,080,090,10 wminsup (%) Hình 1: Thời gian chạy Số mẫu dãy thường xuyên Tập V-2, Số 14 (34), tháng 12/2015 4500 4000 3500 3000 2500 2000 1500 1000 500 WPrefixSpan IPrefixSpan WIPrefixSpan 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 wminsup (%) Hình Số mẫu dãy thường xuyên V KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ĐK ĐK ĐK ĐK ĐK ĐK ĐK x x x x x 5 x x x x x x x 10 x 10 50 x x x x x 966 966 126 582 169 126 210 Trong tương lai, tiếp tục nghiên cách thức làm giảm khơng gian tìm kiếm Ngồi ra, nghiên cứu mở rộng giải thuật chúng tơi cho tốn khai phá mẫu chuỗi đóng Trong báo nghiên cứu phát triển thuật toán WIPrefixSpan phát mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách TÀI LIỆU THAM KHẢO thời gian theo cách mơ hình tăng trưởng mẫu dãy ứng viên Với cách tiếp cận giải thuật không cần sinh [1] R.AGRAWAL, AND R.SRIKANT,“Mining sequential patterns”.In Proceedings of the International Conference ứng viên dãy ban đầu theo cách tiếp cận thông on Data Engineering (ICDE), pp 3-14, IEEE Computer thường AprioriAll[1] Chúng sử dụng phương Society (1995) pháp xây dựng CSDL điều kiện theo tiền tố cho - 80 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT [2] R.AGRAWAL, AND R.SRIKANT,“Mining sequential patterns: generallizations and performance improvements” Proceedings of the International Conference on Extending DataBase Technology (EDBT), Lecture Notes in Computer Science, Vol 1057, pp 3-17 (1996) [3] J.PEI, J.HAN, B.M.ASI, H.PINO,“PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth” Proceedings of the Seventeenth International Conference on Data Engineering, pp.215224 (2001) [4] M.ZAKI, “An Efficient Algorithm for Mining Frequent Sequences”, Machine Learning, Vol 40, pp 31–60, 2000 [5] J.AYRES, J.GEHRKE, T.YIU,ANDJ.FLANNICK, “Sequential Pattern Mining using Bitmap Representation”, in Proc of ACM SIGKDD’02, pp 429–435, 2002 [6] M.S.KHAN, M MUYEBA, F COENEN,“Weighted Association Rule Mining from Binary and Fuzzy Data” In Proceedings of 8th Industrial Conference, ICDM 2008,pp 200-212 (2008) [7] F.TAO, F.MURTAGH, M.FARID,“Weighted Association Rule Mining Using Weighted Support and Significance Framework” In Proceedings of 9th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pp 661–666 (2003) [10] Y.HIRATE, H.YAMANA,“Generalized Sequential Pattern Mining with Item Intervals”, JCP,Vol 1, No 3, pp 51-60 (2006) [11] T.H.DUONG, V.D.THI,“Thuật toán khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa sử dụng CSDL tiền tố” Kỷ yếu hội nghị Khoa học Quốc gia lần thứ VI – Nghiên cứu ứng dụng CNTT (FAIR), pp 502-511 (2013) [12] G.C.LAN, T.P.HONG, H.Y.LEE,“An efficient approach for finding weighted sequential patterns from sequence databases”, Applied Intelligence, Vol 41, No 2, pp 439-452 (2014) [13] M.T.TRAN, B.LE, B.VO,“Combination of dynamic bit vectors and transaction information for mining frequent closed sequences efficiently”, Engineering Applications of Artificial Intelligence, Vol 38, pp 183189 (2015) [14] B.VO, F.COENEN,B.LE,“A new method for mining Frequent Weighted Itemsets based on WITtrees” Expert Systemswith Applications, Vol 40, No 4, pp 1256-1264 (2013) [15] U.YUN, G.PYUN, E.YOON,“Efficient Mining of Robust Closed Weighted Sequential Patterns Without Information Loss”, International Journal on Artificial Intelligence Tools, Vol 24, No 1, 28 pages (2015) [16] U.YUN, K.H.RYU,“Approximate weighted frequent pattern mining with/without noisy environments”, Knowledge-Based Systems, Vol 24, No 1, pp 73-82 (2011) [8] U.YUN,“An efficient mining of weighted frequent patterns with length decreasing support constraints”, Knowledge-Based Systems, Vol 21, No 8, pp 741–752 (2008) [9] U.YUN, J.J.LEGGETT,“WFIM: weighted frequent itemset mining with a weight range and a minimum weight”, In 5th SIAM Int Conf on Data Mining, pp 636–640 (2005) Tập V-2, Số 14 (34), tháng 12/2015 Ngày nhận bài: 11/05/2015 - 81 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 SƠ LƢỢC VỀ TÁC GIẢ TRẦN HUY DƢƠNG Sinh năm:1975 VŨ ĐỨC THI Sinh năm 1949 Tốt nghiệp ĐH Bách khoa Hà Nội năm 1997, ngành CNTT Bảo vệ luận văn Thạc sĩ ĐH Bách khoa Hà Nội năm 2000, ngành CNTT Tốt nghiệp ĐH Tổng hợp Hà Nội năm 1971 Bảo vệ luận án tiến sỹ Viện Hàn lâm Khoa học Hungary, năm 1987, chuyên ngành Cơ sở liệu, CNTT Nhận học hàm Phó giáo sư năm 1991, Giáo sư năm 2009 Lĩnh vực nghiên cứu: Khai phá liệu, sở liệu học máy Điện thoại: 0903234934 Email: huyduong@ioit.ac.vn Lĩnh vực nghiên cứu: Cơ sở liệu hệ thống thông tin, khai phá liệu học máy Điện thoại: 0903221304 Email: vdthi@vnu.edu.vn - 82 - ... thường xuyên trọng số chuẩn hóa với khoảng cách thời gian khai phá trình đệ quy tiền tố Trong phương pháp khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian này, kết mẫu dãy. .. Q2 Cách khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian với tiền tố tương ứng thực tương tự Bước A.1 B Tìm ứng viên mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng. .. C4} (6)  Mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian khơng thỏa mãn tính chất phản đơn điệu, nghĩa tập mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian khơng

Ngày đăng: 12/03/2020, 20:53

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w