MỤC LỤC
Phát hiện các mẫu dãy có trọng số trong các CSDL dãy khoảng cách thờigian. Phát hiện các mẫu dãy có trọng số trong các CSDL dãy định lượng cókhoảng cách thời gian.
Cácthuậttoánkhaiphácácmẫumẫudãycótrọngsố,cótínhđếnkhoảngcáchthời gian trong các CSDL dãy có khoảng cách thời gian và CSDL dãy định lượng cókhoảngcáchthờigian.
Phạmvinghiên cứu
Phươngphápnghiêncứu
Đề xuất 01 thuật toán khai phá top-k mẫu dãy có tính đến trọng số của các mụcvà khoảng cách thời gian trong các CSDL dãy có khoảng cách thời gian. Đề xuất 02 thuật toán khai phá mẫu dãy lợi ích cao có tính đến trọng số của cácmục, giá trị định lượng của mỗi mục và khoảng cách thời gian trong các CSDLdãyđịnhlượngcókhoảngcáchthờigian.Kếtquảcôngtrìnhđượcđăngtrongkếtquảtạ i[CT2],[CT3],[CT4],[CT5].
Để giảm số lượng các mẫu dãy được khai phá và tìm thấy các mẫu hữu ích hơn,cácnhànghiêncứucũngđãđềxuấtbổsungvàtíchhợpcácràngbuộctrongkhaithácmẫudãy[4 9].Ràngbuộclàmộttậphợpcáctiêuchíbổsungmàngườidùngcungcấpđểchỉrachínhxáchơn cácloạimẫudãyđượctìmthấy.Nhiềuloạiràngbuộcđãđượcnghiêncứuvàđềxuấtvàcơbảncóhai cáchđểápdụngcácràngbuộc.Cáchthứnhấtlà áp dụng ràng buộc như một bước xử lý hậu kỳ trên tập hợp tất cả các mẫu dãy đểlọc bớt các mẫu không thỏa mãn ràng buộc. Pei và cộng sự [49] và các nhà nghiên cứu khác đã nghiên cứu đặc điểm củacác ràng buộc có thể được đẩy sâu vào quá trình khai thác các mẫu dãy và các loạimẫukhác.Baloạiràngbuộcchínhthôngthườngđượcsửdụngnhưngưỡnghỗtrợtốithiểu,giớih ạnđộdàivàkhoảngcáchthờigianlàcáchphổbiếnđểtíchhợptrongcác.
- Thuật toán MWSP [32] do Wei và đồng sự đề xuất là một mở rộng củathuật toán AproiriAll, có bổ sung thông tin trọng số của các dãy dữ liệu,thuật toán sinh các dãy ứng viên cha theo phương pháp ghép nối từ cácdãyứngviêncủadãyconvàthựchiệnduyệtCSDLdãynhiềulầnđểkiểmtradãyth ườngxuyêncótrọngsố. - Thuật toán Wspan [33] do Unil Yun và đồng sự đề xuất là một mở rộngcủa thuật toán PrefixSpan,bổ sung thông tin trọng số của các dãy dữ liệu,thuật toán sử dụng giá trị hằng số trọng số lớn nhất của các mục dữ liệubanđầuvàkhaiphátheophươngpháptăngtrưởngmẫudãy,tuynhiêncácdãythường xuyênkhaipháđượctrongthuậttoánWSpanchỉcầnđápứngđiều kiện độ hỗ trợ với hằng số trọng số lớn nhất trong CSDL điều kiệnmà không quan tâm tới giá trị trọng số thực của từng dãy thường xuyêntìmđược.
CácthuậttoánkhaiphámẫudãythườngxuyêncổđiểnAprioriAll[2],FreeSpan[13], PrefixSpan [31], Spam [30], Spade [11], Lapin-Spam [18], CM-Spade, CM- Spam[17]cómộtsốhạnchế:thứnhấtlàcácmụctrongCSDLdãycóđộquantrọngnhư nhau nhưng trên thực tế mỗi mục có độ quan trọng khác nhau. Thứ 3, các giải thuậtcần xác định một ngưỡng tối thiểuminsuptuy nhiên thực tế thì rất khó xác định một ngưỡng tối thiểu phù hợp; một ngưỡng tốithiểu quá cao sẽ bỏ qua rất nhiều các mẫu dãy có giá trị, trong khi một ngưỡng tốithiểuthấpsẽcóthểtạoraquánhiềumẫudãykhôngcầnthiết. Trong khai phá các mẫu dãy thông thường, người dùng thườngkhó đặt ngưỡng tối thiểu bằng cách sử dụng các thuật toán khai thác mẫu dãy truyềnthốngnếungườidùngkhôngcókiếnthứcnềntảngvềcơsởdữliệu.Nếungưỡngtốithiểuđư ợcđặtquáthấp,quánhiềumẫudãycóthểđượctìmthấyvàcácthuậttoáncóthểtrởnênrấtchậmvàn.
Thuật toán WIPrefixSpan [40] khai phá mẫu dãy thường xuyên có trọng số vớikhoảngcáchthờigian.WIPrefixSpankhôngchỉquantâmtớikhoảngcáchthờigian,tần xuất xuất hiện của từng mẫu dãy mà còn quan tâm tới giá trị (trọng số) của từngmụcdữliệu.MặcdùWIPrefixSpancóthểtìmracácmẫudãythườngxuyêncótrọngsố với khoảng cách thời gian dựa trên ngưỡng tối thiểuwminsupvà các ràng buộcthời gian C1, C2, C3, C4nhưng rất khó để xác định được ngưỡng tối thiểuwminsupthích hợp để tìm được các mẫu dãy có giá trị. Các khái niệm cơ bản trong khai phá mẫu dãy có trọng số trong CSDL dãy vớikhoảngcáchthờigianđãđượctrìnhbàytrongMục1.3củaChương1.Ngoàira,trongphạm vi bài toán khai phá top-k mẫu dãy được kế thừa và tiếp tục phát triển từ thuậttoánWIPrefixSpan[40]vàthuậttoánTKS[21].Trênthựctế,bàitoántìmtop-kmẫudãy thường xuyên trọng số với khoảng cách thời gian sẽ có nhiều điểm khác biệt sovới các thuật toán tìm top-k mẫu dãy thông thường và do đó cũng mang lại nhiềuthách thức hơn.
ThựchiệnkhaiphámẫudãylợiíchcaotrênCSDLdãyđịnhlượngcókhoảngcách thời gian được phát triển dựa trên thuật toán WIPrefixSpan [40] do Duong vàcộngsựđềxuấtvàthuậttoánkhaiphámẫudãylợiíchcaonhưUS,UL[42]đãđượcAhdmedvàcộ ngsựđềxuất.KếtquảnghiêncứuvàđềxuấtthuậttoánUIPrefixSpankhai phá mẫu dãy lợi ích cao đã được đăng trên Kỷ yếu hội thảo Một số vấn đề chọnlọc của Công nghệ thông tin và Truyền thông [CT2] và tạp chí Cybernetics andInformation Technologies[CT3]. Để giải quyết vấn đề về giá trị số lượng và độ quan trọngkhác nhau trong CSDL, một hướng mới trong khai phá mẫu dãy đã được phát triển:khaiphámẫudãylợiíchcao.Mụctiêucủakhaiphámẫudãylợiíchcaolàtìmracácmẫu dãy có lợi ích lớn hơn hoặc bằng ngưỡng lợi ích tối thiểu trong CSDL dãy địnhlượng. Thuật toán UIPrefixSpan dựa trên thuật toán US [42] là thuật toán khai phámẫu dãy lợi ích cao trên CSDL dãy định lượng và thuật toán WIPrefixSpan [40]làthuật toán khai phá mẫu dãy trọng số với khoảng cách thời gian trên CSDL dãy cókhoảngcáchthờigian,cả2giảithuậttrênđượcpháttriểndựatrênphươngpháptăngtrưởng mẫudãycủathuậttoánPrefixSpan [31].
Nếu thỏa mãn thì thực hiện khai phá đệ quy nạp cácmẫu dãy ứng viên R trên các CSDL chiếu với tiền tố là dãy r mới tại dòng lệnh 6.Dòng lệnh 7 kiểm tra điều kiện thời gian C7(điều kiện khoảng cách thời gian nhỏnhất giữa dãy đầu và dãy cuối) nếu thỏa mãn thì thực hiện thực hiện nạp mẫu dãy rvàotậpmẫudãyứngviênRtạidònglệnh8. 0,c>,<0,d>,<0,e>,<0,f>Đốivớimẫudãyvớicáctiềntốnày,taxâydựngcácCSDLđiều kiệnvớicáctiềntốtươngứngvớicácmụcdữliệutrongtậpứngviêntrongQ1.Cáchkhaip háứngviênmẫudãythườngxuyênlợiích cao với khoảng cách thời gian với mỗi tiền tố tương ứng cũng thực hiệntươngtựnhưbướcAvàthựchiệnkhaiphátheophươngphápđệquy.
Thuật toán UIPrefixSpan khai phá mẫu dãy lợi ích cao có khoảng cách thờigian sử dụng phương pháp tăng trưởng mẫu dãy của thuật toán PrefixSpan [31].UIPrefixSpan là thuật toán 2 pha: trong pha thứ nhất, các mẫu dãy ứng viên lợi íchcaosẽđượctìmra;sauđó,trongphathứ2,thuậttoánsẽduyệtCSDLQiSDBđểtínhlợi ích thực sự của các mẫu dãy ứng viên và tìm ra các mẫu dãy lợi ích cao. Dãy <0,g> có swu(<0,g>) =49 <minUtil nên bịloại.CácdãycònlạiđượcđưavàotậpứngviênR.Cácdãy<0,d>và<0,e>cógiátrịlợi ích thực không nhỏ hơn minUtil nên được đưa vào tập lợi ích cao L. Sau bướcnày,tậpRgồm cácdãy:. LoạibỏkhỏiQiSDBmụcgdogkhôngphảilàứngviên.Tínhlạigiátrịlợiíchcủa dãy đầu vào có chứa g, dãy S5 có chứa g nên lợi ích của S5 sau khi loại g là 17.Xây dựng bảng chỉ mục cho các mẫu dãy trong tập ứng viên R. Toànbộcácứngviênmẫudãylợiíchcaovớikhoảngcáchthờigianđượckhaiphátrongcácp hânvùngtừtậpứngviêngồm06vùngtươngứngvới 06tiềntốgồm:. Tìm các mẫu dãy lợi ích cao với khoảng cách thời gian với tiền tố <0,a>. Dựa vào bảng chỉ mục, xây dựng CSDL chiếu cho các mẫu dãy <0,i>. vớiilàcác mục trong bảng chỉ mục. <0,a>,R,minUtil,C5,C6,C7,C8)đểtìmcácmẫudãylợi íchcaovới khoảngcáchthờigianvớitiềntố<0,a>. Xây dựng bảng lợi ích của các ứng viên, tính các giá trị swu và su của từngứngviên:. Bảng3.12Bảnglợiíchcủacácmẫuứngviên độdài2vớitiềntố<0,a>. Mẫudãy Swu Su. Các mẫu dãy ứng viên <0,a><1,a>, <0,a><1,f>, <0,ad> có minUtil <75 sẽ bịloạikhỏibảnglợiích.Tậpứngviênđộdài2trongbảnglợiíchsaubướcnàygồmcócácmẫudãy:. Duyệt bảng lợi ích, kiểm tra điều kiện C8, tất cả các mẫu dãy đều thỏa mãn điềukiện C8. Lần lượt xây dựng CSDL chiếu của các mẫu dãy trong bảng lợi ích và gọithủ tục đệ quy subHUISP. Bảng3.14Bảnglợiíchcủacácmụcứngviên độdài3vớitiềntố<0,a><1,b>. Mẫudãy Swu Su. Ứngviên<0,a><1,ab>bịloạivìswu=53<minUtil.Duyệtbảnglợiích,kiểmtra điều kiện C8với các mẫu dãy trong bảng lợi ích, tất cả đều thỏa mãn C8. Thựchiện xây dựng lần lượt các CSDL chiếu cho các mẫu dãy trong bảng lợi ích. A.1.1 Tìmcácmẫudãylợiíchcaovớikhoảngcáchthờigianvớitiềntố<0,a. <0,a><1,b><2,a>đểtìmcácmẫudãyứngviênthỏamãnC5,C6.Có1mẫuứngviênthỏamãn C5,C6là:. Xây dựng bảng lợi ích của ứng viên và tính giá trị swu, sucủaứngviênđó. Mẫudãy Swu Su. 1,b><2,b>thỏamãnC8,thựchiệnxâydựngCSDLchiếuchomẫudãy. minUtil,C5,C6,C7,C8)đểtìmmẫudãylợiíchcaovớikhoảngcáchthờigianvớitiềntố<0,a><1, b><2,b>. Trong cả 3 bộ dữ liệu, khi ngưỡng lợi íchminUtilgiảmdần,thờigianchạycủaUIPrefixSpancũngtănglênrấtnhanh.Vớicácngưỡngm inUtilthấp, UIPrefixSpan chạy lâu hơn (ngưỡng 2% trong DS1) HUISPhoặc bị tràn bộ nhớ (ngưỡng 2% trong DS2). Trong khi đó, HUISP vẫn chạy tốt vớicác ngưỡng này. Lý do là vì thuật toán HUISP sử dụng chiến lược tỉa bớt các ứngviên không tiềm năng trong quá trình khai phá giúp giảm bớt ngưỡng swu từ đó làmgiảm không gian tìm kiếm và tăng hiệu năng cho giải thuật. Ngoài ra, nhờ việc ápdụng bảng lợi ích giúp thuật toán chỉ phải thực hiện trong 1 pha và giúp giảm thờigian thực hiện so với thuật toán UIPrefixSpan. Bảng chỉ mục sử dụng trong HUISPcũnggiúp tăngtốcquátrìnhxâydựngcácCSDLchiếucủacácmẫu dãy. Bảng 3.19 thống kê chi tiết số lượng mẫu dãy ứng viên và số lượng mẫu dãylợi ích cao với khoảng cách thời gian khai phá được của thuật toán UIPrefixSpan vàHUISPvớicácthamsốnhư trên. Bảng 3.19 Bảng thống kê số lượng mẫu dãy ứng viên và số mẫu dãy lợi ích cao củaUIPrefixSpanvàHUISP. UIPrefixSpan HUISP UIPrefixSpan HUISP. UIPrefixSpan HUISP UIPrefixSpan HUISP. UIPrefixSpan HUISP UIPrefixSpan HUISP. Số mȁu dãy. b) Đánh giá mối quan hệ giữa số lượng dãy đầu vào với thời gian và bộ nhớsửdụngthực hiệncủathuậttoán.
Luận án đề xuất thuật toán khai phá mẫu dãylợi ích cao là thuật toán UIPrefixSpan và thuật toán HUISP có cải tiến sử dụng mộtsốkỹthuậtbảnglợiích,bảngchỉmục.Trongcácthuậttoánnày,cácmỗimụcdữliệuđược xác định giá trị cả lợi ích trong và lợi ích ngoài và dữ liệu giữa các dãy dữ liệutrongCSDLđềucókhoảngcáchthờigian.Cảhaithuậttoánnàyđượcpháttriểndựatrên phương pháp tăng trưởng mẫu dãy của thuật toán gốc PrefixSpan và thuật toánWIPrefixSpan. Đóng góp của NCS là sử dụng phương pháp xây dựng mẫu dãy ứng viên đểđảmbảotínhchấtphảnđiệuchophépkhaipháđệquy,đồngthờisửdụngchiếnlượctăng dần ngưỡng hỗ trợ wminsup và sử dụng chiến lược tạo mẫu dãy ứng viên hứahẹn nhất theo ý tưởng thuật toán TKS áp dụng trên CSDL dãy có khoảng cách thờigian, nhờ vậy ngưỡng hỗ trợ wminsup sẽ tăng nhanh hơn và không gian tìm kiếmcũng sẽ được giảm xuống đáng kể. Đóng góp của NCS là sử dụng phương pháp xây dựng mẫu dãy ứng viên lợiíchcaođểđảmbảotínhchấtphảnđiệuchophépkhaipháđệquy,đồngthờisửdụngchiến lược 2 pha: pha 1 thực hiện sinh ra các mẫu ứng viên, pha 2 thực hiện tính lạilợiíchthựccủacác mẫuứngviênvàtìmramẫudãylợiíchcaovớikhoảngcáchthờigian.ThuậttoánUIPrefixSpanlàm ộtthuậttoánhiệuquảnhằmkhaiphámẫudãylợiích cao với khoảng cách thời gian trên CSDL dãy định lượng có khoảng cách thờigian.
Đóng góp của NCS là sử dụng phương pháp xây dựng mẫu dãy ứng viên lợiích cao để đảm bảo tính chất phản điệu cho phép khai phá đệ quy, một cấu trúc bảnglà bảng lợi ích để duy trì ngưỡng cận trên và lợi ích thực của các mẫu dãy trong quátrình sinh mẫu dãy và một cấu trúc bảng chỉ mục để tăng tốc tìm kiếm khi xây dựngcácCSDLchiếutrênCSDLdãyđịnhlượngcókhoảngcáchthờigian.Thuậ ttoán.