FGenHUSM: Một thuật toán hiệu quả khai thác các chuỗi sinh phổ biến lợi ích cao

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	13
Dung lượng	1,93 MB

Nội dung

Bài viết đề xuất khái niệm tập FGHUS các chuỗi sinh phổ biến lợi ích cao, là một biểu diễn súc tích của FHUS, và một thuật toán mới hiệu quả để khai thác nó. Dựa vào hai chặn trên của độ đo lợi ích, hai chiến lược tỉa theo chiều rộng và sâu được thiết kế để loại bỏ nhanh các chuỗi ít phổ biến hoặc lợi ích thấp.

Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng FGenHUSM: Một thuật tốn hiệu khai thác chuỗi sinh phổ biến lợi ích cao Trương Chí Tín1 , Trần Ngọc Anh1 , Dương Văn Hải1,2 , Lê Hồi Bắc2 Khoa Tốn – Tin học, Trường Đại học Đà Lạt Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp Hồ Chí Minh Tác giả liên hệ: Trần Ngọc Anh, anhtn@dlu.edu.vn Ngày nhận bài: 15/07/2019, ngày sửa chữa: 09/10/2019, ngày duyệt đăng: 28/10/2019 Định danh DOI: 10.32913/mic-ict-research-vn.v2019.n2.872 Biên tập lĩnh vực điều phối phản biện định nhận đăng: PGS.TS Lê Hồng Sơn Tóm tắt: Khai thác chuỗi phổ biến chuỗi lợi ích cao có mức độ quan trọng khác ứng dụng thực tế Gần đây, nghiên cứu tập trung giải toán tổng quát hơn, khai thác tập FHUS chuỗi phổ biến lợi ích cao Tuy nhiên, thời gian nhớ dùng để khai thác FHUS lớn Bài báo đề xuất khái niệm tập FGHUS chuỗi sinh phổ biến lợi ích cao, biểu diễn súc tích FHUS, thuật toán hiệu để khai thác Dựa vào hai chặn độ đo lợi ích, hai chiến lược tỉa theo chiều rộng sâu thiết kế để loại bỏ nhanh chuỗi phổ biến lợi ích thấp Sử dụng chặn lợi ích, chiến lược tỉa địa phương đề xuất để loại bỏ sớm chuỗi khơng chuỗi sinh phổ biến lợi ích cao Dựa vào chiến lược này, thuật toán 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 thiết kế để khai thác FGHUS mà tính hiệu thể qua thử nghiệm sở liệu lớn Từ khóa: Chuỗi lợi ích cao, khai thác chuỗi sinh phổ biến lợi ích cao, chặn chặn độ đo lợi ích Title: Abstract: Keywords: FGenHUSM: An Efficient Algorithm For Mining Frequent Generator High Utility Sequences Mining the set of all frequent high utility sequences (FHUS) in quantitative sequential databases (QSDBs) plays an important role in many real-life applications However, for huge QSDBs and low minimum support and utility thresholds, algorithms for discovering FHUS often exhibit poor performance in terms of runtime and memory consumption due to the enormous cardinality of the FHUS set To address this issue, this paper introduces a novel set of all frequent generator high utility sequences (FGHUS) This set is a concise representation of FHUS having a cardinality that is often much less than that of FHUS Thus, it is more convenient for users to analyze the information provided by the FGHUS set This paper proposes a novel algorithm named 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 to efficiently mine FGHUS The algorithm adopts the depth and width pruning strategies to quickly eliminate infrequent or low utility sequences In addition, it also uses a novel local pruning strategy to prune non-frequent generator high utility sequences early, which is based on a new lower bound on the utility measure Experimental results on large QSDBs show that the proposed algorithm is efficient in terms of runtime for mining FGHUS, and that the pruning strategies can greatly reduce the search space High utility sequence, frequent generator high utility sequence, upper and lower bounds on utility measure I GIỚI THIỆU HUSM tổng quát FSM có nhiều ứng dụng phân tích hành vi duyệt web [1], liệu thương mại di động [2], hiệu chỉnh gen [3], v.v Ta xét ứng dụng điển hình HUSM phân tích liệu mua hàng Xét sở liệu chuỗi biểu diễn đơn mua hàng khách hàng cửa hàng bán lẻ Khi chuỗi chứa mặt hàng mua khách hàng thời điểm khác Chi tiết hơn, danh sách có thứ tự tập mặt hàng, tập mặt hàng chứa mặt hàng mua Lấy ví dụ, ta có chuỗi {kem đánh răng, bàn chải đánh răng}, {bánh Kinh đô, phô mai}, {nhang} Chuỗi mặt hàng mua phụ nữ Người Khi khai thác tập chuỗi phổ biến (FSM: Frequent Sequence Mining) sở liệu chuỗi (SDB: Sequential Datadase), ta đánh nhiều chuỗi lợi ích cao (HU: High Utility) quan trọng nhiều ứng dụng thực tế chúng phổ biến Chẳng hạn, lợi ích mặt hàng bán thơng tin hữu ích định kinh doanh Vì vậy, toán khai thác chuỗi HU (HUSM: High Utility Sequence Mining) SDB lượng hóa (QSDB: Quantitative SDB) đời sau nhu cầu thiết 57 Các cơng trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thông mua kem đánh bàn chải đánh nhau, sau mua bánh Kinh đô với phô mai, cuối mua nhang Mỗi mặt hàng có giá bán Khi đó, ta xác định giá trị tập mặt hàng mua giá trị danh sách tập mặt hàng chuỗi mua hàng khách hàng Khi khai thác tập lớn đơn mua hàng, ta biết thơng tin như: (i) mặt hàng thường mua nhau, (ii) lợi ích đem lại chuỗi tập mặt hàng đó, v.v Các thơng tin có ích cho việc định kinh doanh cửa hàng hơn, FHUSM: Khai thác tập FHUS chuỗi phổ biến lợi ích cao (FHU: Frequent High Utility), độ đo lợi ích 𝑢 Theo cách tiếp cận trên, nhóm tác giả [13] đề xuất thuật toán hiệu nhằm khai thác hai biểu diễn súc tích FHUS, bao gồm chuỗi phổ biến tối đại lợi ích cao (FMaxHU) tập FCHUS chuỗi phổ biến đóng lợi ích cao (FCHU) Tuy nhiên, chiều dài chuỗi FMaxHU FCHU thường lớn Vì vậy, báo đề xuất biểu diễn súc tích khác FGHUS FHUS Trước đây, xuất nhiều cơng trình nhằm khai thác tập (tập thuộc tính) sinh phổ biến có/khơng có lợi ích cao [14–16] Các chuỗi (danh sách có thứ tự tập thuộc tính) đóng/tối đại/sinh phổ biến đối tượng nhiều nghiên cứu gần [12, 17, 18] Tập chứa chuỗi sinh phổ biến lợi ích cao (FGHUS) mở rộng tự nhiên chuỗi sinh phổ biến truyền thống Một chuỗi FHU gọi chuỗi sinh phổ biến lợi ích cao (FGHU) khơng tồn chuỗi FHU có độ hỗ trợ Cho Ψ QSDB chứa chuỗi đầu vào, chuỗi có kiện, kiện có thuộc tính, thuộc tính gắn với số lượng giá trị lợi ích Do chuỗi 𝛼 xuất vị trí khác (với lợi ích khác nhau) Ψ , nên lợi ích 𝛼 Ψ tính dạng tổng [4], giá trị lớn 𝑢 max (𝛼) [5, 6] giá trị nhỏ 𝑢 (𝛼) [7, 8] (theo nghĩa an tồn rủi ro cho việc phát triển chiến lược kinh doanh hay định) Khi đó, lợi ích 𝛼 tổng lợi ích tất chuỗi Ψ chứa 𝛼 Nếu lợi ích 𝛼 lớn ngưỡng lợi ích tối thiểu 𝑚𝑢, gọi chuỗi HU, ngược lại 𝛼 gọi chuỗi lợi ích thấp (LU: Low Utility) Mục đích HUSM khai thác tập chuỗi lợi ích cao (HUS) chứa chuỗi HU QSDB Vì chuỗi FGHU có chiều dài thường bé nhiều so với chuỗi FMaxHU FCHU, nên chúng có ưu điểm sau Thứ nhất, ta xem biểu diễn nén FHUS Điều phù hợp với nguyên lý chiều dài mô tả bé (MDL: Minimum Description Length) [19] Thứ hai, cho độ xác cao nhiệm vụ chọn mơ hình (so với FHUS hay tập FCHUS) Ngoài ra, khai thác mẫu sinh (với chiều dài tối thiểu) bước quan trọng việc tìm luật quan trọng, chẳng hạn, luật với giả thiết (vế trái) dẫn nhiều kết luận (vế phải), luật khơng dư thừa [20] Khi đó, mẫu sinh vế trái, vế phải mẫu đóng khơng Do đó, mẫu sinh FGHUS thường ưa thích người dùng cần phân tích tập kết quả, số lượng chiều dài chúng bé so với FHUS Tập FHUS thường sử dụng lực lượng chúng bé, chẳng hạn ngưỡng hỗ trợ (𝑚𝑠) ngưỡng lợi ích tối thiểu (𝑚𝑢) cao Ngược lại, ngưỡng thấp đặc biệt tập liệu lớn, để vượt qua khó khăn việc sử dụng phân tích tập kết FHUS với kích thước lớn, tập FGHUS lựa chọn phù hợp với người dùng Thuận lợi giải FSM tính ‘a priori’, cịn gọi tính đơn điệu giảm (anti-monotonic) hay DCP (DownwardClosure Property), độ đo hỗ trợ: Mọi chuỗi cha chuỗi phổ biến (LF: Low Frequent) LF [5, 9] Đặc tính cho phép rút gọn đáng kể khơng gian tìm kiếm tiến hành khai thác chuỗi lớn dần tiền tố Đáng tiếc HUSM, độ đo lợi ích khơng có tính DCP Để khắc phục, chặn (UB: Upper Bound) lợi ích thiết kế để thu hẹp phạm vi tìm kiếm Chặn SWU [5] (thỏa DCP giá trị lớn) chặn khác chặt (có giá trị nhỏ gần với lợi ích hơn) thiết kế sử dụng (mặc dù thỏa mãn tính chất tựa DCP) Với 𝑢 max (𝛼), kể SPU SRU (2013), PEU RSU (2016), gần MEU [6] SEU [10] Với 𝑢 (𝛼), tác giả [7] đề xuất hai chặn trên, RBU LRU, thiết kế hai chiến lược tỉa theo chiều sâu (DPS: Depth Pruning Strategy) rộng (WPS: Width Pruning Strategy), tích hợp chúng vào thuật tốn EHUSM để khai thác hiệu HUS Mặc dù EHUSM khai thác nhanh HUS, lực lượng tập kết thường lớn, việc quản lý phân tích chúng gây khó khăn người sử dụng Một tiếp cận thường dùng FSM khai thác biểu diễn súc tích chúng, chẳng hạn chuỗi tối đại, đóng sinh [11, 12] Chú ý rằng, việc tích hợp FSM HUSM, ta xét toán tổng quát Mục tiêu báo khai thác tập FGHUS Để khai thác hiệu nó, FGHUS ⊆ FHUS, nên chuỗi LU LF khơng FGHU Do đó, tính chất DCP độ hỗ trợ hai chiến lược WPS DPS dựa vào RBU LRU [7, 8] sử dụng để tỉa hiệu chuỗi LF LU từ FHUS mà FGHUS Tuy nhiên, FGHUS khơng tập tập tất chuỗi sinh phổ biến (FGS), nên ta áp dụng trực tiếp điều kiện tỉa 3E [12] để loại bỏ chuỗi không chuỗi sinh lợi ích cao (GHU) 58 Tập 2019, Số 2, Tháng 12 Kích thước 𝑞-chuỗi 𝛼 , ký hiệu size (𝛼 ), số 𝑞-sự kiện (𝑝) Bài báo có số đóng góp sau đây: (i) đề xuất chặn SF 𝑢 ; (ii) dựa vào điều kiện tỉa sớm tổng quát 𝐺𝐸 𝑃 [13] SF, chiến lược tỉa địa phương (LPG) thiết kế để loại bỏ sớm ứng viên (và mở rộng chúng) không GHU; (iii) tích hợp ba chiến lược DPS, WPS LPG vào thuật toán 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 để khai thác chuỗi sinh phổ biến lợi ích cao (FGHU); (iv) thử nghiệm hai sở liệu lớn, thực tế tổng hợp, tính hiệu 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 (so với thuật tốn sở khơng áp dụng chiến lược tỉa) mặt thời gian chạy lực lượng FGHUS thường bé so với FHUS Đây thuật tốn khai thác biểu diễn súc tích FGHUS FHUS với độ đo lợi ích 𝑢 Từ sau, ta xét hai 𝑞-chuỗi 𝛼 = 𝐴1 → 𝐴2 → · · · → 𝐴 𝑝 𝛽 = 𝐵1 → 𝐵2 → · · · → 𝐵𝑞 hai chuỗi tương ứng 𝛼 = 𝐴1 → 𝐴2 → · · · → 𝐴 𝑝 𝛽 = 𝐵1 → 𝐵2 → · · · → 𝐵 𝑞 Định nghĩa ([7]): Xét hai 𝑞-sự kiện 𝐴 𝐵 sau: 𝐴 = 𝑎 𝑖1 , 𝑞 𝑖1 ), (𝑎 𝑖2 , 𝑞 𝑖2 ), , (𝑎 𝑖𝑚 , 𝑞 𝑖𝑚 ) , 𝐵 = (𝑎 𝑗1 , 𝑞 𝑗1 ), (𝑎 𝑗2 ), 𝑞 𝑗2 ), , (𝑎 𝑗𝑛 , 𝑞 𝑗𝑛 ) , với 𝑚 ≤ 𝑛 𝐴 gọi chứa 𝐵 , ký hiệu 𝐴 𝐵, tồn số tự nhiên ≤ 𝑘 < · · · < 𝑘 𝑚 ≤ 𝑛 cho 𝑎 𝑖𝑙 = 𝑎 𝑗𝑘𝑙 𝑞 𝑖𝑙 = 𝑞 𝑗𝑘𝑙 , với 𝑙 = 1, 2, , 𝑚 Phần lại báo tổ chức sau Phần II trình bày khái niệm kết Phần xây dựng chiến lược tỉa địa phương LPG Phần IV đưa thuật toán 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 kết thử nghiệm Phần V đưa kết luận báo Ngồi ra, ta nói 𝛼 chứa 𝛽 , ký hiệu 𝛼 𝛽 , 𝑝 ≤ 𝑞 tồn 𝑝 số nguyên dương, ≤ 𝑗1 < · · · < 𝑗 𝑝 ≤ 𝑞 cho 𝐴 𝑘 𝐵 𝑗𝑘 , với 𝑘 = 1, 2, , 𝑝 Đồng thời, 𝛼 𝛽 tương đương với ((𝛼 𝛽 ) ∧ (𝛼 ≠ 𝛽 )) Tương tự, ta dùng ký hiệu để định nghĩa quan hệ chứa tập tất chuỗi Ta nói 𝛼 𝛽 𝛽 𝛼 (𝛽 gọi chuỗi cha 𝛼) tồn 𝑝 số nguyên dương, ≤ 𝑗 < · · · < 𝑗 𝑝 ≤ 𝑞 cho 𝐴 𝑘 ⊆ 𝐵 𝑗𝑘 , với 𝑘 = 1, 2, , 𝑝 Đồng thời, 𝛼 𝛽 tương đương với ((𝛼 𝛽) ∧ (𝛼 ≠ 𝛽)) II CÁC KHÁI NIỆM VÀ KẾT QUẢ CƠ BẢN Định nghĩa toán Mục giới thiệu vài khái niệm sở liên quan đến tốn HUSM với 𝑢 [7] Ta nói 𝛽 chứa 𝛼, ký hiệu 𝛼 𝛽 (hay 𝛽 gọi 𝑞-chuỗi cha 𝛼) proj(𝛽 ) 𝛼 def Định nghĩa ([7]): Gọi A = {𝑎 , 𝑎 , , 𝑎 𝑀 } tập thuộc tính phân biệt Mỗi thuộc tính 𝑎 gắn liền với số dương P(𝑎) thể giá trị lợi ích đơn vị Khi đó, def ta có véctơ P( 𝐴) = P(𝑎 ), P(𝑎 ), , P(𝑎 𝑀 ) Một thuộc tính số lượng/định lượng (𝑞-thuộc tính) cặp (𝑎, 𝑞), với 𝑎 ∈ A 𝑞 ∈ 𝑅+ số lượng dương Tập 𝐴 A, 𝐴 ⊆ A, gọi kiện Không tổng quát, giả sử thuộc tính kiện tăng theo thứ tự từ điển ≺ Một kiện số lượng (𝑞-sự kiện) ứng với 𝐴 định nghĩa 𝛼, 𝛽 Gọi def 𝜌(𝛼) = {Ψ ∈ D | Ψ 𝛼} tập tất 𝑞-chuỗi đầu vào chứa 𝛼 Độ hỗ trợ 𝛼 định nghĩa số 𝑞-chuỗi đầu vào chứa 𝛼, def supp(𝛼) = |𝜌(𝛼)| Định nghĩa ([7]): Các lợi ích 𝑞-thuộc tính (𝑎, 𝑞), 𝑞-sự kiện 𝐴 = (𝑎 𝑖1 , 𝑞 𝑖1 ), (𝑎 𝑖2 , 𝑞 𝑖2 ), , (𝑎 𝑖𝑚 , 𝑞 𝑖𝑚 ), 𝑞-chuỗi 𝛼 QSDB D định nghĩa def 𝐴 = {(𝑎 𝑖 , 𝑞 𝑖 ) | 𝑎 𝑖 ∈ 𝐴, 𝑞 𝑖 ∈ 𝑅+ } def 𝐴 gọi kiện chiếu 𝐴 , ký hiệu 𝐴 = proj( 𝐴 ) Danh sách 𝑞-sự kiện 𝐴 𝑘 , 𝑘 = 1, 2, , 𝑝 ký hiệu 𝛼 = 𝐴1 → 𝐴2 · · · → 𝐴 𝑝 , gọi 𝑞-chuỗi Chuỗi chiếu 𝛼 𝑞-chuỗi 𝛼 định nghĩa 𝑢((𝑎, 𝑞)) = 𝑃(𝑎) ∗ 𝑞, 𝑚 def 𝑢( 𝐴 ) = 𝑢((𝑎 𝑖 𝑗 , 𝑞 𝑖 𝑗 )), 𝑗=1 𝑝 def def 𝑢(𝛼 ) = 𝛼 = proj(𝛼 ) = proj( 𝐴1 ) → proj( 𝐴2 ) → · · · → proj( 𝐴 𝑝 ) 𝑢( 𝐴𝑖 ), 𝑖=1 def def def Để thuận tiện, ta ký hiệu 𝛼 [𝑘] = 𝐴 𝑘 𝛼[𝑘] = proj( 𝐴 𝑘 ) Một 𝑞-chuỗi rỗng () tất kiện rỗng Một sở liệu chuỗi lượng hóa (QSDB) D chứa hữu hạn 𝑞-chuỗi đầu vào, D = Ψ𝑖 , 𝑖 = 1, 2, , 𝑁 𝑃( 𝐴) Mỗi 𝑞-chuỗi Ψ𝑖 gắn với định danh (SID) 𝑖 Cơ sở liệu chuỗi (khơng lượng hóa SDB) D ứng với D định nghĩa 𝑢(D ) = 𝑢(Ψ ) Ψ ∈D Để tránh tính tốn lặp lại lợi ích 𝑢 𝑞-thuộc tính (𝑎, 𝑞) 𝑞-chuỗi Ψ D , ta tính chúng lần thay 𝑞 𝑢((𝑎, 𝑞)) = P(𝑎) ∗ 𝑞 sở liệu Biểu diễn tương đương QSDB D gọi QSDB tích hợp D , ký hiệu vắn tắt D Từ sau ta xét QSDB tích hợp def D = proj(D ) = proj(Ψ𝑖 ), 𝑖 = 1, 2, , 𝑁 59 Các công trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thông Bảng I D − MỘT QSDB MINH SID độ hỗ trợ với Tập tất chuỗi GHU định nghĩa ký hiệu HỌA def GHUS = 𝛾 ∈ HUS | 𝛾 ∗ ∈ HUS : Chuỗi Ψ1 = (𝑎, 9) → (𝑐, 2) (𝑒, 20) → (𝑐, 1) (𝑔, 50) (𝛾 ∗ → (𝑐, 8) (𝑑, 16) → (𝑐, 8) (𝑑, 16) (𝑒, 35) (𝑔, 60) Tập chuỗi sinh phổ biến lợi ích cao, FGHU, định nghĩa ký hiệu → (𝑎, 3) (𝑐, 5) (𝑒, 2) Ψ2 = (𝑐, 9) ( 𝑓 , 28) → (𝑎, 15) (𝑐, 10) Ψ3 = (𝑔, 20) → (𝑒, 40) ( 𝑓 , 12) → (𝑏, 45) (𝑐, 1) → (𝑑, 56) Ψ4 = (𝑒, 40) → (𝑐, 2) ( 𝑓 , 20) → (𝑐, 3) 𝛾) ∧ (supp(𝛾) = supp(𝛾 ∗ )) → (𝑑, 16) (𝑔, 40) (𝑎, 15) (𝑒, 20) → (𝑐, 6) (𝑑, 24) (𝑒, 25) def FGHUS = 𝛾 ∈ FHUS | 𝛾 ∗ ∈ FHUS : (𝛾 ∗ 𝛾) ∧ (supp(𝛾) = supp(𝛾 ∗ )) Khai thác tập FGHUS mục tiêu báo Ví dụ, xét 𝑚𝑢 = 226 𝑚𝑠 = Với chuỗi 𝛾 = 𝑎 → 𝑔 → 𝑐𝑑𝑒, ta có 𝛾2228 ∈ FHUS Hơn nữa, 𝛾 chuỗi FGHU, khơng tồn 𝛾 ∗ ∈ FHUS cho 𝛾 ∗ 𝛾 supp(𝛾 ∗ ) = supp(𝛾) Đây chuỗi FGHU nhất, tức FGHUS = {𝛾} Để ý rằng, lực lượng FGHUS thường bé nhiều so với FHUS, đặc biệt 𝑚𝑢 𝑚𝑠 bé Chẳng hạn, với 𝑚𝑢 = 𝑚𝑠 = 1, |FHUS| = 5235, |FGHUS| = 105 (khoảng 2% |FHUS|) Xét QSDB minh họa Bảng I, dùng cho ví dụ suốt báo Chuỗi 𝛼 = 𝑒 → 𝑐𝑒 chứa Ψ1 , 𝛼 Ψ1 , xuất Ψ𝑖 Lần xuất 𝛼 Ψ1 𝑞-chuỗi 𝛼 = (𝑒, 20) → (𝑐, 8) (𝑒, 35) Ψ1 Vậy proj(𝛼 ) = 𝛼 𝑢(𝛼 ) = 20+8+35 = 63 Ngoài ra, 𝛼 Ψ2 , nên 𝜌(𝛼) = {Ψ1 , Ψ2 } supp(𝛼) = SDB D ứng với D D = {Ψ1 = 𝑎 → 𝑐𝑒 → 𝑐𝑔 → 𝑐𝑑𝑒𝑔 → 𝑎𝑐𝑒, Định nghĩa ([7]): Ta định nghĩa 𝑠-mở rộng 𝑖-mở rộng 𝛼 𝛽 Ψ2 = 𝑐 𝑓 → 𝑎𝑐 → 𝑑𝑔 → 𝑎𝑒 → 𝑐𝑑𝑒, def Ψ3 = 𝑔 → 𝑒 𝑓 → 𝑏𝑐 → 𝑑, 𝛼 𝑠 𝛽 = 𝐴1 → 𝐴2 → · · · → 𝐴 𝑝 → 𝐵 → 𝐵 → · · · → 𝐵 𝑞 , Ψ4 = 𝑒 → 𝑐 𝑓 → 𝑐} 𝛼 𝑖 𝛽 = 𝐴1 → 𝐴2 → · · · → ( 𝐴 𝑝 ∪ 𝐵 ) → 𝐵 → · · · → 𝐵 𝑞 , Định nghĩa ([7]): Giả sử 𝛼 def O (𝛼, 𝛽 ) = {𝛼 | (𝛼 𝑎 ≺ 𝑏 với 𝑎 ∈ 𝐴 𝑝 𝑏 ∈ 𝐵1 Một mở rộng tiến (hay mở rộng) 𝛼 với 𝛽, ký hiệu 𝛾 = 𝛼 𝛽, 𝑖-mở rộng 𝑠-mở rộng, tức 𝛼 𝑖 𝛽 hay 𝛼 𝑠 𝛽 Khi đó, 𝛼 gọi tiền tố 𝛾 𝛽 hậu tố (đối với 𝛼) 𝛾 Ngoài ra, 𝛿 tiền tố bé (của 𝛾 với ) chứa 𝛼, ta ký hiệu 𝛿 pref(𝛾, 𝛼) Hậu tố 𝛽 𝛾 (đối với 𝛿, tức 𝛾 = 𝛿 𝛽) ký hiệu suf (𝛾, 𝛼) Cơ sở liệu chiếu (PDB) 𝛼 định nghĩa 𝛽 Gọi 𝛽 ) ∧ (proj(𝛼 ) = 𝛼} tập tất lần xuất 𝛼 𝛼 𝛽 Lợi ích bé (gọi tắt lợi ích) 𝛼 𝛽 định nghĩa def 𝑢 (𝛼, 𝛽 ) = min{𝑢(𝛼 ) | 𝛼 ∈ O (𝛼, 𝛽 )} Lợi ích 𝛼 D định nghĩa def 𝑢 (𝛼) = def def D 𝛼 = {suf(Ψ, 𝛼)|(Ψ ∈ D) ∧ (Ψ 𝑢 (𝛼, Ψ )) 𝛼)} Ta nói D𝛽 chứa D 𝛼 , ký hiệu D𝛽 𝐷 𝛼 , 𝜌(𝛽) ⊆ 𝜌(𝛼) với Ψ ∈ 𝜌(𝛽) ta có suf (Ψ, 𝛽) suf(Ψ, 𝛼) Khi D𝛽 D 𝛼 D 𝛼 D𝛽 , ta nói D𝛽 D 𝛼 ký hiệu D𝛽 = D 𝛼 Dễ thấy supp(𝛼) = |D 𝛼 | Ψ ∈𝜌( 𝛼) Lúc đó, 𝛼 gọi chuỗi lợi ích cao (HU) 𝑢 (𝛼) ≥ 𝑚𝑢 Từ nay, ta viết gọn 𝛼𝑠𝑢 để diễn tả 𝑢 (𝛼) = 𝑢 supp(𝛼) = 𝑠 Lý việc sử dụng 𝑢 tham khảo thêm [7, 8, 13] Lấy ví dụ, xét 𝛼 = 𝑒 → 𝑐𝑒 với 𝜌(𝛼) = {Ψ1 , Ψ2 } supp(𝛼) = Dễ thấy rằng, Ví dụ, với 𝛼 = 𝑒 → 𝑒 𝛽 = 𝑒 → 𝑐𝑒, ta có 𝜌(𝛼) = 𝜌(𝛽) = {Ψ1 , Ψ2 }, suf (Ψ1 , 𝛼) = _𝑔 → 𝑎𝑐𝑒 suf(Ψ2 , 𝛼) = Do đó, PDB 𝛼 D 𝛼 = {_𝑔 → 𝑎𝑐𝑒, } Tương tự, ta có D𝛽 = D 𝛼 O (𝛼, Ψ4 ) = {(𝑒, 20) → (𝑐, 8) (𝑒, 35), (𝑒, 20) → Khơng gian tìm kiếm chuỗi lời giải biểu diễn tiền tố với gốc chuỗi rỗng, nút biểu diễn chuỗi ứng viên, nút biểu diễn chuỗi mở rộng Ta ký hiệu branch(𝛼) nhánh có gốc nút biểu diễn 𝛼, chứa 𝛼 mở rộng Với tiền tố khác rỗng 𝛼, 𝛽 = 𝛼 𝑦, chuỗi 𝛾 = 𝛼 𝜀 𝑦 mà 𝛾 𝛽 gọi mở rộng lùi (BE) 𝛽 𝜀, với 𝑦 thuộc (𝑐, 5) (𝑒, 20), (𝑒, 35) → (𝑐, 5) (𝑒, 20)} Do đó, 𝑢 (𝛼, Ψ1 ) = min{63, 45, 60} = 45 tương tự, 𝑢 (𝛼, Ψ1 ) = 51 Vì vậy, ta có 𝛼296 Định nghĩa 5: Một chuỗi HU 𝛾 gọi chuỗi sinh lợi ích cao, GHU, khơng tồn chuỗi HU có 60 Tập 2019, Số 2, Tháng 12 Vì tính cuối 𝛽, ký hiệu lastItem(𝛽) Chẳng hạn, với 𝛼 = 𝑐𝑑 branch(𝛼) chứa chuỗi: 𝑐𝑑 → 𝜀, 𝑐𝑑𝑒 → 𝜀 𝑐𝑑𝑒𝑔 → 𝜀, với 𝜀, kể Cho 𝛽 = 𝑐𝑒, chuỗi 𝑐𝑑𝑒 𝑐 → 𝑐𝑔 → 𝑐𝑑𝑒 BE 𝛽 Tuy nhiên, 𝑐𝑒 → 𝑐𝑔 → 𝑒 BE 𝑐 → 𝑒, không BE 𝛽 𝑢𝑏 rem (𝛽, Ψ1 ) = 17 + 123 = 140 Một độ đo 𝑢𝑏 gọi chặn 𝑢 𝑢 (𝛼) ≤ 𝑢𝑏(𝛼), với 𝛼 Ngoài chặn truyền thống def SWU(𝛼) = Ψ ∈𝜌( 𝛼) 𝑢(Ψ ) [5], ta cịn có chặn chặt sau Thách thức HUSM 𝑢 không đơn điệu tăng không đơn điệu giảm, tức ∃𝛽, 𝛼, 𝛾, 𝛿 : (𝛽 𝛼) ∧ (𝛾 Định nghĩa ([7]): Xét 𝑦 ∈ A 𝛼 khác rỗng Ta định nghĩa chặn sau đây: 𝛿) (𝑢 (𝛽) > 𝑢 (𝛼)) ∧ (𝑢 (𝛾) > 𝑢 (𝛿)) def Ψ ∈𝜌( 𝛼) Nói cách khác, 𝑢 khơng thỏa mãn DCP (tính chất supp sử dụng FSM) Thật vậy, với 𝛼 = 𝑐𝑑, 𝛽 = 𝑐𝑑𝑔, 𝛿 = 𝑐 → 𝑐 → 𝑐𝑑, dễ thấy 𝛿 𝛼 𝛽 𝑢 (𝛽) = 84 > 𝑢 (𝛼) = 54 > 𝑢 (𝛿) = 27 Để khắc phục, chặn 𝑢 thỏa mãn tính chất tựa đơn điệu giảm (có thể yếu DCP) đề xuất mục def 𝑢𝑏 rem (𝛼, Ψ ), LRU(𝛼 𝑦) = Ψ ∈𝜌( 𝛼 𝑦) def LRU(𝑦) = SWU(𝑦) Với hai chặn 𝑢𝑏 𝑢𝑏 , 𝑢𝑏 gọi chặt 𝑢𝑏 , ký hiệu 𝑢𝑏 𝑢𝑏 , 𝑢𝑏 (𝛼) ≤ 𝑢𝑏 (𝛼) với 𝛼 Theo [7, Định lý 1], ta có Hai chiến lược tỉa chuỗi LU LF theo chiều sâu chiều rộng 𝑢 RBU LRU SWU Ví dụ, xét chuỗi 𝛽 = 𝑐 → 𝑐𝑑, 𝜌(𝛽) = {Ψ1 , Ψ2 } Khi Giả sử 𝛼 Ψ , 𝛼 = proj(𝛼 ) Ψ , với Ψ = 𝐵1 → 𝐵2 → · · · → 𝐵𝑞 ∈ D , tức tồn 𝑝 số nguyên, ≤ 𝑖1 < 𝑖 < · · · < 𝑖 𝑝 ≤ 𝑞 cho 𝐴 𝑘 𝐵𝑖𝑘 𝐴 𝑘 = proj( 𝐴 𝑘 ) ⊆ proj(𝐵𝑖𝑘 ), với 𝑘 = 1, 2, , 𝑝 Chỉ số cuối 𝑖 𝑝 gọi điểm cuối 𝛼 (hay 𝛼 ) Ψ , ký hiệu end(𝛼, Ψ ) (hay end(𝛼 , Ψ )) Thuộc tính cuối 𝛼 𝐵𝑖 𝑝 gọi thuộc tính cuối ứng với 𝑖 𝑝 , ký hiệu 𝑒 𝑖 𝑝 Khi đó, 𝑞-chuỗi cịn lại 𝛼 Ψ (đối với 𝑖 𝑝 ) phần lại Ψ def sau 𝑒 𝑖 𝑝 , ký hiệu rem(𝛼, Ψ , 𝑖 𝑝 ) Gọi 𝑖 ∗𝑝 = FEnd(𝛼, Ψ ) điểm cuối 𝛼 Ψ Cơ sở liệu chiếu lượng hóa (PQDB) D 𝛼 𝛼 chứa tất chuỗi lại def rem(𝛼, Ψ , 𝑖 ∗𝑝 ), với Ψ ∈ D Nếu 𝛼 =, ta quy ước 𝑖 ∗𝑝 = def 𝑢𝑏 rem (𝛼, Ψ ), RBU(𝛼) = 𝑢 (𝛽, Ψ1 ) = 25, 𝑢 (𝛽, Ψ2 ) = 39, FEnd(𝛽, Ψ1 ) = 4, 𝑢(𝛽, Ψ1 , 4) = 25, 𝑢(rem(𝛽, Ψ1 , 4)) = 123 Vì 𝑢 (𝛽) = 𝑢 (𝛽, Ψ1 ) + 𝑢 (𝛽, Ψ2 ) = 64, 𝑢𝑏 rem (𝛽, Ψ1 ) = 150, 𝑢𝑏 rem (𝛽, Ψ2 ) = 64, RBU(𝛽) = 𝑢𝑏 rem (𝛽, Ψ1 ) + 𝑢𝑏 rem (𝛽, Ψ2 ) = 212 Ngoài ra, với 𝛼 = 𝑐 → 𝑐, ta dễ thấy 𝛽 = 𝛼 𝑖 𝑑 LRU(𝛽) = 𝑈𝐵rem (𝛼, Ψ1 ) + 𝑢𝑏 rem (𝛼, Ψ2 ) def FEnd(, Ψ ) = 0, D = D rem(, Ψ , 𝑖 ∗𝑝 ) = Ψ Với điểm cuối 𝑖 𝑝 = end(𝛼, Ψ ), ta định nghĩa = 200 + 165 = 365, SWU(𝛽) = 𝑢(Ψ1 ) + 𝑢(Ψ2 ) = 229 + 208 = 437 def 𝑢(𝛼, Ψ , 𝑖 𝑝 ) = min{𝑢(𝛼 ) | 𝛼 ∈ O (𝛼, Ψ ) ∧ end(𝛼 , Ψ ) = 𝑖 𝑝 } Vì ta có Chặn dựa vào lợi ích cịn lại 𝑢 (𝛼, Ψ ) định nghĩa ký hiệu: def 𝑢𝑏 rem (𝛼, Ψ ) = 𝑢(𝛼, Ψ , 𝑖 ∗𝑝 ) + 𝑢(rem(𝛼, Ψ , 𝑖 ∗𝑝 )), 𝛼 ≠, 𝑢(Ψ ), 𝛼 = 𝑢 (𝛽) < RBU(𝛽) < LRU(𝛽) < SWU(𝛽) Để loại nhanh chuỗi có lợi ích thấp phổ biến, dựa vào [7, Định lý 2], ta thiết kế hai chiến lược DPS WPS nhằm thu hẹp hiệu khơng gian tìm kiếm Trước hết, ta có chiến lược tỉa theo chiều sâu dựa vào RBU, viết DPS(RBU), sau: “Nếu RBU(𝛼) < 𝑚𝑢 branch(𝛼) tỉa” Ví dụ, xét 𝛽 = 𝑐 → 𝑑 Do lần xuất 𝛽 Ψ1 𝑞-chuỗi 𝛽 = (𝑐, 2) → (𝑑, 16) Ψ1 , nên def 𝑖 ∗𝑝 = FEnd(𝛽, Ψ1 ) = 4, Gọi hai tập thuộc tính ứng viên cho 𝑖− 𝑠-mở rộng là: rem(𝛽, Ψ1 , 𝑖 ∗𝑝 ) = (𝑒, 35) (𝑔, 60) → (𝑎, 3) (𝑐, 5) (𝑒, 20), def 𝑢(rem(𝛽, Ψ1 , 𝑖 ∗𝑝 )) = 123, 𝑢(𝛽, Ψ1 , 𝑖 ∗𝑝 ) 𝐼LRU (𝛼) = {𝑧 | (LRU(𝛼 𝑖 𝑧) ≥ 𝑚𝑢) ∧ (supp(𝛼 𝑖 𝑧) ≥ 𝑚𝑠)}, 𝑠 𝑧) ≥ 𝑚𝑢) ∧ (supp(𝛼 𝑠 𝑧) ≥ 𝑚𝑠)} def = min{𝑢(𝛽 ), 𝑢((𝑐, 1) → (𝑑, 16))} = 17 𝑆LRU (𝛼) = {𝑧 | (LRU(𝛼 61 Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thông Nếu 𝑢 (𝛼 𝑖 𝑧) ≥ 𝑚𝑢 supp(𝛼 𝑖 𝑧) ≥ 𝑚𝑠, 𝑧) ≥ 𝑢 (𝛼 𝑖 𝑧) ≥ 𝑚𝑢, 𝑦 𝑖 𝑧) ≤ LRU(𝛼 𝑧, 𝛼 𝑠 𝑦 LRU(𝛼 𝑖 tức 𝑧 ∈ 𝐼LRU (𝛼) Vì LRU(𝛼 max{LRU(𝛾) | 𝛾 ∈ {𝛼 𝑖 ≤ LRU(𝛼 𝑦 𝑠 𝑠 𝑧), 𝑖 supp(𝛼 𝑦 𝑧) ≤ supp(𝛼 𝑧), 𝑖 𝑧, 𝛼 𝑠 III CHIẾN LƯỢC LPG TỈA SỚM CÁC CHUỖI KHƠNG LÀ SINH LỢI ÍCH CAO 𝑖 𝑦 với 𝛼 𝑦 𝑧 Điều kiện tỉa sớm tổng quát 𝑧), 𝑠 Trước hết, nhắc lại hai độ đo SE, SLIP điều kiện tỉa sớm tổng quát dùng để tỉa chuỗi phổ biến đóng chuỗi phổ biến đóng có lợi ích cao [13], chuỗi sinh phổ biến [12] 𝑧}} 𝛼 𝑧 Định nghĩa ([12]): Tổng kiện lại PDB D 𝛼 định nghĩa ký hiệu là: Cho nên ta có 𝐼LRU (𝛼 (𝑆LRU (𝛼 𝑖 𝑖 𝑦) ⊆ 𝐼LRU (𝛼), 𝑦) ∪ 𝑆LRU (𝛼 𝑖 def size(Ψ) − size(pref(Ψ, 𝛼)) + SE(𝛼) = 𝑦)) ⊆ 𝑆LRU (𝛼) Ψ∈D: suf (Ψ, 𝛼) ∈D 𝛼 Từ đó, ta có chiến lược tỉa theo chiều rộng dựa vào LRU, viết WPS(LRU), sau: “Nếu LRU(𝛼 𝑦) < 𝑚𝑢, ta không cần xét tất mở rộng tiến 𝛼 𝑦, tức branch(𝛼 𝑦), mở rộng lùi Lấy ví dụ, với 𝑚𝑢 = 230 𝑚𝑠 = 2, ta có supp(𝑏) < 𝑚𝑠 LRU(𝑏) = 174 < 𝑚𝑢 Các giá trị LRU thuộc tính cịn lại, tập chứa thuộc tính ứng viên cho mở rộng, 𝐼LRU () = 𝑆LRU () = {𝑎, 𝑐, 𝑑, 𝑒, 𝑓 , 𝑔}, lớn hay mu (chẳng hạn LRU(𝑎) = 447) Khi đó, WPS(LRU), ta loại thuộc tính 𝑏 khỏi D Để minh họa tác dụng tỉa theo chiều sâu RBU, xét hai giá trị RBU(𝑎𝑐) = 199 RBU(𝑎 → 𝑐) = 229 bé 𝑚𝑢 Sử dụng DPS(RBU), toàn nhánh branch(𝑎𝑐) branch(𝑎 → 𝑐) bị tỉa Dễ thấy rằng, sử dụng supp, 𝐼LRU (𝑎) = {𝑐, 𝑒} 𝑆LRU (𝑎) = {𝑎, 𝑐, 𝑑, 𝑒, 𝑔}(⊆ 𝑆LRU ( )) Vì 𝑆LRU (𝑎 → 𝑐) ⊆ 𝑆LRU (𝑎) với 𝑥 ∈ 𝑆LRU (𝑎), RBU(𝑎 → 𝑐 → 𝑥) < LRU(𝑎 → 𝑐 → 𝑥) = 229 < 𝑚𝑢 hay supp(𝑎 → 𝑐 → 𝑥) = < 𝑚𝑠, 𝑆LRU (𝑎 → 𝑐) = ∅ Do đó, DPS(RBU), ta tỉa nhánh branch(𝑎 → 𝑐 → 𝑥), với 𝑥 ∈ {𝑎, 𝑐, 𝑑, 𝑒, 𝑔} Tuy nhiên, sử dụng WPS(LRU), ta loại bỏ tất nhánh mở rộng lùi branch(𝑎 → 𝑐 → 𝑥), ví dụ branch(𝑎 → 𝑐 → 𝑔 → 𝑑), branch(𝑎 → 𝑐𝑒 → 𝑐𝑔 → 𝑐𝑑) (của branch(𝑎 → 𝑐 → 𝑑)), v.v Thật vậy, lý 𝐼LRU (𝑎 → 𝑐𝑒 → 𝑐𝑔 → 𝑐) ⊆ 𝑆LRU (𝑎 → 𝑐𝑒) ⊆ 𝑆LRU (𝑎 → 𝑐) = ∅ Ngoài ra, chặt LRU, RBU khơng có tác dụng tỉa theo chiều rộng Nếu dùng RBU để tỉa theo chiều rộng, ta tỉa nhầm số lời giải Thật vậy, với 𝑚𝑢 = 225 𝑚𝑠 = 2, 𝐼RBU (𝑎 → 𝑔 → 𝑒 → 𝑐) (⊆ 𝑆RBU (𝑎 → 𝑔 → 𝑒) = {𝑐}), nên 𝐼RBU (𝑎 → 𝑔 → 𝑒 → 𝑐) = ∅ Tuy nhiên, 𝑎 → 𝑔 → 𝑒 → 𝑐𝑒 225 ∈ FHUS Có thể kết luận rằng, LRU lỏng RBU, tác dụng tỉa WPS thật mạnh DPS Vì vậy, DPS WPS dùng để tỉa nhánh LU (và LF) tìm kiếm tiền tố, có hiệu với giá trị 𝑚𝑢 cao [7] Tuy nhiên, nhiều chuỗi HU khơng chuỗi sinh HU (non-GHU) Do đó, phần tiếp theo, chiến lược LPG tỉa ứng viên non-GHU đề xuất Để ý rằng, LPG hiệu với giá trị 𝑚𝑢 thấp Với chuỗi 𝛼, gọi 𝛿 tiền tố bé Ψ chứa 𝛼, Ψ ∈ 𝜌(𝛼) Đặt 𝑓 𝑖(𝛼, Ψ) số (trong Ψ) kiện cuối 𝛿 lastEvent(𝛼) kiện cuối 𝛼 Gọi LP(𝛼, Ψ) danh sách vị trí thứ 𝑖 khác Ψ mà lastEvent(𝛼) ⊆ Ψ[𝑖] 𝑓 𝑖(𝛼, Ψ) ≤ 𝑖 ≤ size(Ψ) Không tổng quát, giả sử số LP(𝛼, Ψ) tăng Khi đó, def slip(𝛼, Ψ) = | LP(𝛼, Ψ)| số vị trí xuất kiện cuối 𝛿 Ψ Định nghĩa ([13]): Số đo SLIP PDB D 𝛼 định nghĩa ký hiệu def SLIP(𝛼) = slip(𝛼, Ψ) Ψ∈𝜌( 𝛼) Ví dụ, xét 𝛼 = 𝑒 → 𝑒 Vì D 𝛼 = {_𝑔 → 𝑎𝑐𝑒, }, nên SE(𝛼) = Ta có 𝜌(𝛼) = {Ψ1 , Ψ2 } Vì kiện cuối 𝑒 xuất hai lần Ψ1 vị trí thứ thứ 5, nên LP(𝛼, Ψ1 ) = {4, 5} Tương tự, LP(𝛼, Ψ2 ) = {5} Vì vậy, SLIP(𝛼) = Từ SE SLIP, ta có điều kiện tỉa sớm tổng quát (GEP) Định lý sau Định lý (Điều kiện tỉa sớm tổng quát [13]): Xét hai chuỗi 𝛼 𝛽 thỏa mãn 𝛼 𝛽 Khi đó: a) Nếu SE(𝛼) = SE(𝛽), supp(𝛼) = supp(𝛽) D𝛾 = D𝜆 với 𝑠-mở rộng 𝛾 𝛼 𝜆 𝛽 với chuỗi khác rỗng; b) Nếu SE(𝛼) = SE(𝛽) SLIP(𝛼) = SLIP(𝛽), supp(𝛼) = supp(𝛽) D𝛾 = D𝜆 với tất mở rộng 𝛾 𝛼 𝜆 𝛽 với chuỗi khác rỗng Chiến lược LPG Dựa vào GEP chặn SF sau 𝑢 , chiến lược LPG tỉa sớm chuỗi non-GHU đề xuất Định nghĩa 10: Cho chuỗi phổ biến 𝛼, tức supp(𝛼) ≥ def 𝑘, với 𝑘 = 𝑚𝑠 Sau xếp tăng dần dãy def U (𝛼) = {𝑢 (𝛼, Ψ ) | Ψ ∈ 𝜌(𝛼)}, 62 Tập 2019, Số 2, Tháng 12 ta thu dãy {𝑢 𝑖 , ≤ 𝑖 ≤ 𝑛} với 𝑛 ≥ 𝑘 Chặn SF 𝑢 định nghĩa tổng 𝑘 giá trị bé U (𝛼), def SF(𝛼) = SLIP(𝛼) = SLIP(𝑖 new ), tồn nhánh non-GHU branch(𝑖new ) tỉa; (ii) Nếu SE(path(𝑢)) = SE(𝑖new ) SF(path(𝑢)) ≥ 𝑚𝑢 , non-GHU s-child branches(𝑖new ) tỉa Ngoài ra, SLIP(path(𝑢)) = SLIP(𝑖new ), non-GHU branch(𝑖new ) tỉa; 𝑢𝑖 1≤𝑖 ≤𝑘 Định lý 2: Ta có: (a) SF chặn 𝑢 , tức SF(𝛼) ≤ 𝑢 (𝛼), với 𝛼; (iii) Nếu q.type = s-ext, q.Parent.Item = q.Item (tồn 𝑟 ∈ q.Parent.iChildren cho r.Item = u.Item), q.Parent.type = s-ext, SE(path(𝑟)) = SE(𝑖new ) SF(path(𝑟)) ≥ 𝑚𝑢, ta tỉa non-GHU branch(𝑖 new ) (b) SF đơn điệu tăng mở rộng, tức SF(𝛽) ≥ SF(𝛼), với 𝛽 = 𝛼 𝛿 𝛼 Chứng minh: (a) Với 𝛼, ta có SF(𝛼) = = 𝑢 (𝛼) 𝑘 𝑖=1 𝑢 𝑖 ≤ (b) Với 𝑠-mở rộng, 𝑠new = 𝛼 𝑠 𝑣 cho v.type = s-ext, SE(path(𝑣)) = SE(𝑠new ) SF(path(𝑣)) ≥ 𝑚𝑢, non-GHU branch(𝑠new ) tỉa 𝑛 𝑖=1 𝑢 𝑖 (b) Với mở rộng 𝛽 = 𝛼 𝛿 𝛼, ta có 𝜌(𝛽) ⊆ 𝜌(𝛼) 𝑢 (𝛽, Ψ ) ≥ 𝑢 (𝛼, Ψ ), với Ψ ∈ 𝜌(𝛽) Thật def 𝑢 (𝛽, Ψ ) = min{𝑢(𝛽 ) | 𝛽 ∈ O (𝛽, Ψ )} = 𝑢(𝛽min ), 𝛽min = 𝛼∗ ∃𝛼∗ ∈ O (𝛼, Ψ ), 𝜀 ∗ 𝛽min cho 𝛼 𝜀 ∗ ∈ O (𝛽, Ψ ) 𝑢(𝛽min ) = 𝑢(𝛼∗ ) + 𝑢(𝜀 ∗ ) ≥ 𝑢(𝛼∗ ) ≥ Chứng minh: Ta chứng minh a(i) Các khẳng định cịn lại chứng minh tương tự Giả sử SE(𝛼) = SE(𝑖 new ) SF(𝛼) ≥ 𝑚𝑢 Vì 𝛼 𝑖new , với 𝑠-mở rộng 𝛾 𝜆 𝛼 𝑖 new tương ứng với chuỗi 𝜀 (kể chuỗi rỗng), 𝛾 = 𝛼 𝑠 𝜀 𝜆 = 𝑖new 𝑠 𝜀, 𝛾 𝜆 supp(𝛾) = supp(𝜆), phần (a) định lý 1, với 𝜀 khác rỗng, D𝛾 = D𝜆 , nên |D𝛾 | = |D𝜆 | Hơn nữa, SLIP(𝛼) = SLIP(𝑖new ), phần (b) định lý 1, ta có 𝛾 𝜆 supp(𝛾) = supp(𝜆), với 𝑖mở rộng 𝜆 = 𝑖new 𝑖 𝜀 𝑖 new 𝑖-mở rộng tương ứng 𝛾 = 𝛼 𝑖 𝜀 𝛼 với 𝜀 Vì vậy, với mở rộng 𝜆 = 𝑖new 𝜀 𝑖 new 𝛾 = 𝛼 𝜀 𝛼, ta ln có 𝛾 𝜆 supp(𝛾) = supp(𝜆) Ngồi ra, tính đơn điệu tăng SF phép toán mở rộng (phần (b) định lý 2), nên 𝑢 (𝛾) ≥ SF(𝛾) ≥ SF(𝛼) ≥ 𝑚𝑢, nghĩa ∃𝛾 ∈ HUS: 𝛾 𝜆 supp(𝛾) = supp(𝜆) Vì vậy, 𝜆 ∉ GHUS def min{𝑢(𝛼 ) | 𝛼 ∈ O (𝛼, Ψ )} = 𝑢 (𝛼, Ψ ) Sau tăng U (𝛼) U (𝛽), ta có hai dãy {𝑢 𝑖 , ≤ 𝑖 ≤ 𝑛}, {𝑢 𝑗 , ≤ 𝑗 ≤ 𝑚} với 𝑛 ≥ 𝑚 ≥ 𝑘 Khi đó, tồn số nguyên ≤ 𝑖 < 𝑖2 < · · · < 𝑖 𝑚 cho 𝑢 𝑖 𝑗 ≤ 𝑢 𝑗 , với ≤ 𝑗 ≤ 𝑚, nên ta có 𝑘 𝑘 𝑢𝑖 ≤ SF(𝛼) = 𝑖=1 𝑘 𝑢𝑖 𝑗 ≤ 𝑗=1 𝑢 𝑗 = SF(𝛽) 𝑗=1 Ví dụ, xét hai ngưỡng 𝑚𝑢 = 85, 𝑚𝑠 = mở rộng 𝛽 = 𝑒 → 𝑒 𝛼 = 𝑒, ta có 𝜌(𝛽) = {Ψ1 , Ψ2 } ⊂ 𝜌(𝛼) = D , 𝑢 (𝛼) = 120, 𝑢 (𝛽) = 85, U (𝛼) = {20; 20; 40; 40}, U (𝛽) = {40; 45}, nên SF(𝛼) = 20 + 20 = 40 SF(𝛽) = 40 + 45 = 85 Khi đó, SF(𝛼) < 𝑢 (𝛼), SF(𝛽) ≤ 𝑢 (𝛽), SF(𝛼) < SF(𝛽) Chiến lược LPG cho phép tỉa sớm chuỗi non-GHU chúng vừa tạo hai mức liền kề tiền tố Ngồi ra, ta khơng cần kiểm tra quan hệ cha chuỗi sử dụng định lý 3, chẳng hạn, 𝛼 𝑖new = 𝛼 𝑖 𝑢 a(i) Do đó, giúp rút ngắn đáng kể thời gian thực thi giảm lượng nhớ lưu trữ trình khai thác Sau đây, ta minh họa trường hợp áp dụng định lý Trên tiền tố với gốc Root =, với nút 𝑞 (1thuộc tính), ta có chuỗi tương ứng 𝛼 = path(𝑞), path(𝑞) chuỗi đầy đủ thu cách duyệt từ Root đến 𝑞 Nút 𝑞 có 𝑖-mở rộng 𝑠-mở rộng hai thuộc tính 𝑢 𝑣 tương ứng, ký hiệu là, 𝛼 𝑖 𝑢 𝛼 𝑠 𝑣 Khi đó, ta gán 𝑢.type = 𝑖-ext 𝑣.type = 𝑠-ext Ký hiệu tập chứa 𝛼 tất mở rộng (hay 𝑠-mở rộng, 𝑖-mở rộng) tất hậu duệ mở rộng (hay 𝑠-mở rộng 𝑖-mở rộng) branch(𝛼) (hay tương ứng 𝑠-child branches(𝛼) 𝑖-child branches(𝛼)) Nếu tất chuỗi nhánh không chuỗi sinh HU, ta ký hiệu chúng non-GHU branch(𝛼) (hay tương ứng non-GHU s-child branches(𝛼) non-GHU i-child branches(𝛼)) Minh họa chiến lược LPG Trước hết, ta minh họa trường hợp a(i) định lý Xét hai ngưỡng 𝑚𝑢 = 85, 𝑚𝑠 = 𝛼 = 𝑎 → 𝑑𝑔 → 𝑎 𝑖new = 𝛼 𝑖 𝑒 = 𝑎 → 𝑑𝑔 → 𝑎𝑒 Ta có SE(𝑖new ) = SE(𝛼) = 3, SF(𝛼) = 174 ≥ 𝑚𝑢, SLIP(𝑖new ) = SLIP(𝛼) = Theo phần a(i) định lý 3, toàn nhánh non-GHU branch(𝑖new ) tỉa Định lý (Chiến lược LPG): Xét 𝑞, 𝑢, 𝑣 nút có tiền tố 𝛼 = path(𝑞) chuỗi ứng với 𝑞 (a) Với 𝑖-mở rộng, 𝑖new = 𝛼 𝑖 Bây giờ, ta minh họa trường hợp a(ii) Đặt 𝑚𝑢 = 75 𝑚𝑠 = Cho trước hai nút 𝑞 = 𝑎 𝑢 = 𝑒 với def tiền tố 𝑎 → 𝑑, ta có 𝛼 = path(𝑞) = 𝑎 → 𝑑 → 𝑎 def 𝛾 = path(𝑢) = 𝑎 → 𝑑 → 𝑒 Khi đó, 𝑖 new = 𝑎 → 𝑑 → 𝑎𝑒 𝛾, 𝜌(𝑖new ) = 𝜌(𝛾) ={Ψ1 , Ψ2 } Ta có 𝑢 (𝑖 new ) = 96 ≥ 𝑚𝑢 𝑢: (i) Nếu SE(𝛼) = SE(𝑖new ) SF(𝛼) ≥ 𝑚𝑢, non-GHU s-child branches(𝑖new ) tỉa Hơn nữa, 63 Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thơng Thuật tốn 1: Thuật tốn FGenHUSM Thuật toán 2: Thủ tục DfsFGHUS Dữ liệu vào: D , 𝑚𝑠, 𝑚𝑢 Dữ liệu ra: FGHUS FGHUS ← ∅; S ← I ← {𝑖 ∈ A | (𝐿𝑅𝑈 (𝑖) ≥ 𝑚𝑢) ∧ supp(𝑖) ≥ 𝑚𝑠)}; Loại thuộc tính khơng thuộc S khỏi D ; for 𝑖 ∈ 𝑆 DfsFGHUS(𝑖, 𝑆, 𝐼, 𝑚𝑠, 𝑚𝑢); end supp(𝑖 new ) = ≥ 𝑚𝑠, nên 𝑖 new chuỗi FHU Tuy nhiên, 𝑖 new 𝑠-mở rộng khơng chuỗi FGHU Thật vậy, ta có SF(𝛾) = 78 ≥ 𝑚𝑢 SE(𝑖 new ) = SE(𝛾) = Tuy nhiên, LP(𝑖new , Ψ1 ) = LP(𝛾, Ψ1 ) = 5, LP(𝑖new , Ψ2 ) = ≠ LP(𝛾, Ψ2 ) = {4, 5}, SLIP(𝑖new ) = ≠ SLIP(𝛾) = Theo phần a(ii) định lý 3, nhánh non-GHU s-child branches(𝑖new ) tỉa 10 11 12 13 14 15 16 Để minh họa trường hợp (b), xét hai nút 𝑞 = 𝑔 𝑣 = 𝑒 def với tiền tố 𝑎 → 𝑑, ta có 𝛼 = path(𝑞) = 𝑎 → 𝑑𝑔, def 𝛾 = path(𝑣) = 𝑎 → 𝑑 → 𝑒 v.type = s-ext Khi đó, 𝑠new = 𝛼 𝑠 𝑒 = 𝑎 → 𝑑𝑔 → 𝑒 𝛾, SE(𝑠new ) = SE(𝛾) = SF(𝛾) = 78 ≥ 𝑚𝑢 Vì lastEvent(𝛾) = lastEvent(𝑠new ) = 𝑒, nên SLIP(𝑠new ) = SLIP(𝛾) = Theo phần (b) định lý 3, ta tỉa nhánh non-GHU branch(𝑠new ) 17 18 19 20 21 22 23 24 25 Bây giờ, đặt 𝑚𝑢 = 65, 𝑚𝑠 = xét hai nút 𝑞 = 𝑐 def (𝑢 ≡) 𝑟 = 𝑒 ứng với chuỗi 𝛼 = path(𝑞) = 𝑐 → 𝑐 → 𝑐 def 𝛿 = path(𝑟) = 𝑐 → 𝑐𝑒 có chuỗi cha parent = 𝑐 → 𝑐 parent.type = q.type = s-ext Khi đó, ta có 𝑖new = 𝛼 𝑖 𝑢 = 𝑐 → 𝑐 → 𝑐𝑒 𝛿, SE(𝑖new ) = SE(𝛿) = 3, SF(𝛿) = 66 ≥ 𝑚𝑢 SLIP(𝑖new ) = SLIP(𝛿) = Vì vậy, theo phần a(iii) định lý 3, tồn nhánh non-GHU branch(𝑖new ) tỉa 26 27 28 29 30 31 32 33 34 35 Để ý rằng, điều kiện “SF(𝛼) ≥ 𝑚𝑢” cần thiết cho việc tỉa Thật vậy, với 𝑚𝑢 = 99 𝑚𝑠 = 3, hai nút 𝑞 = 𝑐 def def 𝑣 = 𝑑 có tiền tố , ta có 𝛼 = path(𝑞) = 𝑐, 𝛾 = path(𝑣) = 𝑑 𝑣.𝑡𝑦 𝑝𝑒 = 𝑠-𝑒𝑥𝑡, 𝑠new = 𝛼 𝑠 𝑑 = 𝑐 → 𝑑 𝛾 với SE(𝑠new ) = SE(𝛾) = SLIP(𝑠new ) = SLIP(𝛾) = Do đó, dùng phần (b) định lý mà bỏ qua phép kiểm tra “SF(𝛾) = 88 ≥ 𝑚𝑢 = 99”, nhánh branch(𝑠new ) bị tỉa nhầm Thật vậy, 𝑠new chuỗi FGHU, 𝑢 (𝑠new ) = 99 ≥ 𝑚𝑢, supp(𝑠new ) = ≥ 𝑚𝑠 không tồn 𝛾 ∗ ∈ HUS mà 𝛾 ∗ 𝑠new supp(𝛾 ∗ ) = supp(𝑠new ) Thật vậy, với 𝑐, 𝑑 𝑠new , 𝑢 (𝑐) = 10 < 𝑢 (𝑑) = 88 < 𝑚𝑢 36 37 38 39 Dữ liệu vào: 𝛾, 𝑆, 𝐼, 𝑚𝑠, 𝑚𝑢 Dữ liệu ra: FGHUS update ← UpdateFGHUS(𝛾, 𝑚𝑢); if update is true then return; end 𝑆new ← 𝐼new ← ∅; for 𝑖 ∈ 𝐼 mà 𝑖 > lastItem(𝛾) if LRU(𝛾 𝑖 𝑖) ≥ 𝑚𝑢 supp(𝛾 𝑖 𝑖) ≥ 𝑚𝑠 then 𝐼new ← 𝐼new ∪ {𝑖}; end end for 𝑖 ∈ 𝐼new mà RBU(𝛾 𝑖 𝑖) ≥ 𝑚𝑢 𝑖new ← 𝛾 𝑖 𝑖 ; LocalPruningGHU(𝑖 new , 𝛾, 𝑚𝑢); 𝛽 ← anh em 𝛾 ứng với 𝑖, có kiểu mở rộng với 𝛾; LocalPruningGHU(𝑖 new , 𝛽, 𝑚𝑢); if 𝛾.type = s-ext, 𝛾.typeOfParent = s-ext, 𝛾.lastItemOfParent = 𝛾.lastItem ∃𝛿 ∈ i- anh em 𝛾 mà 𝛿.lastItem = 𝑖 then LocalPruningGHU(𝑖new , 𝛿, 𝑚𝑢); end end if 𝛾.do-s-ext 𝛾.do-ext then for 𝑖 ∈ 𝑆 if LRU(𝛾 𝑠 𝑖) ≥ 𝑚𝑢 supp(𝛾 𝑠 𝑖) ≥ 𝑚𝑠 then 𝑆new ← 𝑆new ∪ {𝑖}; end end for 𝑖 ∈ 𝑆new mà RBU(𝛾 𝑠 𝑖) ≥ 𝑚𝑢 𝑠new ← 𝛾 𝑠 𝑖 ; 𝛼 ← anh em 𝛾 ứng với 𝑖 có kiểu mở rộng s-ext; LocalPruningGHU(𝑠new , 𝛼, 𝑚𝑢); end for 𝑖 ∈ 𝑆new DfsFGHUS(𝛾 𝑠 𝑖, 𝑆new , 𝑆new , 𝑚𝑠, 𝑚𝑢); end else 𝑆new ← 𝑆; end for 𝑖 ∈ 𝐼new DfsFGHUS(𝛾 𝑖 𝑖, 𝑆new , 𝐼new , 𝑚𝑠, 𝑚𝑢); end dòng 3, WPS dựa vào LRU supp sử dụng Ở dịng 5, gọi thủ tục DfsFGHUS (Thuật tốn 2) tìm kiếm chuỗi FGHU Thủ tục nhận vào chuỗi 𝛾, hai tập thuộc tính 𝑆 𝐼 chứa thuộc tính cho 𝑠- 𝑖-mở rộng tương ứng 𝛾 Trong thủ tục, dịng 1–3, hàm UpdateFGHUS (Thuật tốn 3) kiểm tra xem 𝛾 có GHU khơng cập nhật FGHUS cần Tại dòng 13, 15, 17, 20 29 DfsFGHUS dòng 4, 15 UpdateFGHUS, chiến lược LPG sử dụng thông qua thủ tục LocalPruningGHU (Thuật tốn 4) IV THUẬT TỐN VÀ THỬ NGHIỆM Thuật toán FGenHUSM Thuật toán 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 khai thác tập FGHUS cho thuật toán Đầu vào QSDB D , hai ngưỡng 𝑚𝑠 𝑚𝑢; đầu FGHUS (để tiện trình bày, ta xem biến tồn cục thủ tục hàm con) Ở Tính thuật toán bảo đảm định lý báo định lý [7] Cụ thể, việc áp dụng hai chiến lược tỉa WPS DPS nhằm loại nhanh 64 Tập 2019, Số 2, Tháng 12 Thuật toán 3: Hàm UpdateFGHUS 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Bảng II QSDB D Dữ liệu vào: 𝛾, 𝑚𝑢 Dữ liệu ra: true 𝛾 GHU false trường hợp ngược lại cập nhật FGHUS cần if 𝑅𝐵𝑈 (𝛾) < 𝑚𝑢 then return true; end if 𝛾.𝑑𝑜-𝑒𝑥𝑡 is 𝑓 𝑎𝑙𝑠𝑒 then return true; end if 𝛾.do-s-ext is false then return false; end if 𝑢 (𝛾) < 𝑚𝑢 then return false; end for 𝛼 ∈ FGHUS if supp(𝛼) = supp(𝛾) 𝛾 𝛼 then LocalPruningGHU(𝛾, 𝛼); if 𝛾.𝑑𝑜-𝑒𝑥𝑡 is false then return true; end return false; end end for 𝛼 ∈ FGHUS if supp(𝛼) = supp(𝛾) 𝛼 𝛾 then Loại 𝛼 khỏi FGHUS; end end FGHUS ← FGHUS ∪ {𝛾}; return false; SID 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 Chuỗi Ψ1 = (𝑎, 2) (𝑐, 5) (𝑒, 6) → (𝑎, 3) (𝑏, 6) → (𝑎, 5) (𝑑, 50) → (𝑎, 5) (𝑏, 9) (𝑐, 40) → (𝑎, 4) (𝑐, 10) (𝑑, 10) ( 𝑓 , 36) Ψ2 = (𝑏, 12) → (𝑎, 2) (𝑐, 20) (𝑒, 6) → (𝑎, 3) (𝑑, 20) → (𝑎, 1) (𝑐, 20) (𝑑, 10) ( 𝑓 , 9) → (𝑎, 4) (𝑏, 9) (𝑐, 15) Ψ3 = (𝑐, 20) → (𝑎, 4) (𝑐, 10) (𝑒, 4) → (𝑎, 1) ( 𝑓 , 18) Ψ4 = (𝑑, 80) → (𝑎, 7) (𝑐, 50) (𝑒, 6) → (𝑎, 2) (𝑔, 2) → (𝑎, 9) ( 𝑓 , 72) 𝑚𝑠 = Để tiện trình bày, với chuỗi 𝛼, chúng tơi viết thêm giá trị 𝑢 , RBU, LRU, supp, SE, SLIP SF(𝑢 ) 𝑢min ,RBU,LRU dạng 𝛼supp;SE,SLIP;SF Ký hiệu (_) dùng để dấu một dãy giá trị kề Tại dịng 2, ta có 15,306,322 80,504,607 𝑆 = 𝐼 = {𝑎 6,495,607 , 𝑏 2;_ , 𝑐 4;_ , 4;_ 100,480,550 22,395,607 135,163,607 2,83,228 𝑑3;10,3;_ , 𝑒 4;_ , 𝑓4;_ , 𝑔1;_ } Trước hết, dễ thấy rằng, lần gọi DfsFGHUS nhánh có gốc 𝑓 𝑔 dừng dòng (vì RBU( 𝑓 ) = 163 RBU(𝑔) = 83 < 𝑚𝑢 nên UpdateFGHUS trả true) Nói cách khác, hai nhánh 𝑓 𝑔 tỉa DPS Các chuỗi ứng với nút 𝑎, 𝑏, 𝑐, 𝑑 𝑒 bị bỏ qua giá trị 𝑢 chúng bé 𝑚𝑢, nhiên, tìm kiếm chúng tiếp tục Sau kết thúc tìm kiếm 𝑎, 𝑏 𝑐, ta có Thuật toán 4: Thủ tục LocalPruningGHU MINH HỌA THUẬT TOÁN Dữ liệu vào: cha, con, mu Dữ liệu ra: cha if 𝑆𝐹 (con) ≥ 𝑚𝑢 𝑆𝐸 (cha) = 𝑆𝐸 (con) then cha.do-s-ext ← false; if SLIP(cha) = SLIP(con) then cha.do-ext ← false; end end FGHUS = {𝑐 → 𝑓4220 , 𝑎𝑐 → 𝑎 → 𝑓3211 , 𝑐𝑒 → 𝑎 → 𝑓3218 ; 202 𝑎𝑐 → 𝑎𝑑 → 𝑐 → 𝑎𝑐200 , 𝑎𝑐 → 𝑎𝑑 → 𝑐𝑑𝑓2 , 202 𝑎𝑐𝑒 → 𝑑 → 𝑎𝑐 → 𝑐202 , 𝑐 → 𝑎𝑑 → 𝑎𝑐 → 𝑎𝑐 , 𝑐 → 𝑎𝑑 → 𝑎𝑐𝑑𝑓2203 , 𝑐𝑒 → 𝑎𝑑 → 𝑐 → 𝑐200 , 200 𝑒𝑐 → 𝑑 → 𝑐 → 𝑎𝑐200 , 𝑐𝑒 → 𝑑 → 𝑐𝑑𝑓2 }, ta lưu lại giá trị 𝑢 (ở trên) supp (ở dưới) nhánh chứa chuỗi có lợi ích thấp phổ biến, mục đích chiến lược LPG tỉa sớm nhánh chứa chuỗi khơng chuỗi sinh lợi ích cao Vì vậy, việc dùng ba chiến lược vào thuật tốn 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 khơng làm chuỗi sinh phổ biến lợi ích cao Chú ý rằng, khác với chiến lược LPC [13] nhằm tỉa sớm chuỗi khơng chuỗi đóng phổ biến lợi ích cao, chiến lược LPG cần sử dụng thêm chặn SF độ đo 𝑢 Việc áp dụng LPG mà khơng dùng SF dẫn đến việc tỉa nhầm số nhánh minh họa mục III.3 100,480,550 Bây giờ, ta xét trình khai thác nhánh 𝑑3;_ Sau hàm UpdateFGHUS trả giá trị false, thực dòng 6–10, ta có 𝐼new (𝑑) = { 𝑓 } Các 𝑖–mở rộng 𝑑𝑎, 𝑑𝑏, 𝑑𝑐 𝑑𝑑 bị tỉa 𝑎, 𝑏, 𝑐 𝑑 không lớn 𝑑 Hai 𝑖-mở rộng 𝑑𝑒 𝑑𝑔 bị tỉa 𝑑𝑒, 𝑑𝑔 khơng xuất QSDB D Tương tự, ta có 𝑆new (𝑑) = {𝑎, 𝑏, 𝑐, 𝑑, 𝑒, 𝑓 , 𝑔} Khơng có xảy thực dịng 6–12 Lúc này, ta gọi DfsFGHUS cho 𝑠–mở rộng 𝑑 với thuộc tính 𝑆new (𝑑) trước sau cho 𝑖-mở rộng 𝑑𝑓 Năm nhánh 𝑑 → 𝑏 _,193,252 , 𝑑 → 𝑑 ,163,252 , 𝑑 → 𝑒 ,171,228 , _ _,163,228 _,93,252 𝑑 → 𝑔_ 𝑑𝑓_ bị tỉa giá trị RBU 150,480,480 , chúng bé 𝑚𝑢 Ta lại ba nhánh 𝑑 → 𝑎 3;7,3;14 215,458,480 267,295,480 𝑑 → 𝑐 3;7,3;25 𝑑 → 𝑓3;4,3;29 cần xét với 𝑆new (𝑑) Minh họa thuật toán Trong ví dụ này, chúng tơi minh họa q trình khai thác chuỗi sinh phổ biến lợi ích cao QSDB cho Bảng II thuật toán 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 với 𝑚𝑢 = 200 Xét việc thực thi DfsFGHUS với 𝑑 → 𝑎 Trước hết, sau dịng 3–7, ta có: 𝐼new (𝑑 → 𝑎) = {𝑏, 𝑐, 𝑑, 𝑒, 𝑓 , 𝑔} Sau 65 Các công trình nghiên cứu phát triển Cơng nghệ Thơng tin Truyền thơng đó, cuối dịng 23, ta có 𝑆new (𝑑 → 𝑎) = {𝑎, 𝑐, 𝑓 , 𝑔} Thật vậy, hai nhánh 𝑑 → 𝑎 → 𝑏 𝑑 → 𝑎 → 𝑑 bị tỉa WPS LRU chúng 83 164 bé 𝑚𝑢; cịn chuỗi 𝑑 → 𝑎 → 𝑒 khơng xuất D Thủ tục gọi đệ quy nhánh 𝑑 → 𝑎 → 𝑎, 𝑑 → 𝑎 → 𝑐, 𝑑 → 𝑎 → 𝑓 𝑑 → 𝑎 → 𝑔 với 𝑆new (𝑑 → 𝑎) dòng 32; cho nhánh 𝑑 → 𝑎𝑏, 𝑑 → 𝑎𝑐, 𝑑 → 𝑎𝑑, 𝑑 → 𝑎𝑒, 𝑑 → 𝑎 𝑓 𝑑 → 𝑎𝑔 với 𝑆new (𝑑 → 𝑎) 𝐼new (𝑑 → 𝑎) dòng 38 Sau đó, ta xét 𝑠-mở rộng 𝑑 → 𝑎𝑐 → 𝑎 → 𝑓 chèn vào FGHUS Với 𝑖-mở rộng 𝑑 → 𝑎𝑐 → 𝑎𝑐 𝑑 → 𝑎𝑐 → 𝑎 𝑓 , khơng có thay đổi diễn 𝑑 → 𝑎𝑐 → 𝑎 𝑓 chuỗi cha chuỗi 𝑑 → 𝑎 → 𝑓 FGHUS với độ hỗ trợ Cuối cùng, với 𝑖-mở rộng 𝑑 → 𝑎𝑐 → 𝑎𝑔 Ta có, 𝐼new (𝑑 → 𝑎𝑐 → 𝑎𝑔) = ∅ 𝑆new (𝑑 → 𝑎𝑐 → 𝑎𝑔) = {𝑎, 𝑓 } Ở dòng 26–30 DfsFGHUS, trường hợp (b) xảy với lời gọi LocalPruningGHU(𝑑 → 𝑎𝑐 → 𝑎𝑔 → 𝑓 ,𝑑 → 𝑎𝑐 → 𝑎 → 𝑓 ) Khi đó, ta tỉa toàn nhánh 𝑑 → 𝑎𝑐 → 𝑎𝑔 → 𝑓 khơng chứa chuỗi sinh phổ biến lợi ích cao 258 Trên nhánh 𝑑 → 𝑎 → 𝑎, ta đưa chuỗi 𝑑 → 𝑎 → 𝑎 𝑓_,2,_ vào FGHUS (ở dòng 28 UpdateFGHUS) Các nhánh 𝑑 → 𝑎 → 𝑐 𝑑 → 𝑎 → 𝑔 bị tỉa DPS Trên nhánh 𝑑 → 𝑎 → 𝑓 , ta thay 𝑑 → 𝑎 → 𝑎 𝑓 𝑑 → 𝑎 → 𝑓 FGHUS (các dòng 22–27 UpdateFGHUS) chúng có độ hỗ trợ mà 𝑑 → 𝑎 → 𝑓 𝑑 → 𝑎 → 𝑎 𝑓 Quay trở lại nút 𝑑 → 𝑎𝑐 xét 𝑖-mở rộng nó, ta khơng tìm thấy lời giải nào, đồng thời khơng có nhánh bị tỉa Tuy nhiên, với 𝑑 → 𝑎𝑐𝑒, ta tỉa nhánh không chứa chuỗi sinh đưa thêm ứng viên 𝑑 → 𝑎𝑐𝑒 → 𝑓1215 vào FGHUS Vì giá trị RBU 𝑑 → 𝑎𝑑, 𝑑 → 𝑎𝑒 𝑑 → 𝑎𝑔 bé 𝑚𝑢, ta xét 𝑑 → 𝑎𝑏, 𝑑 → 𝑎 𝑓 𝑑 → 𝑎𝑐 Với 𝑑 → 𝑎𝑏, khơng có thay đổi FGHUS Với 𝑑 → 𝑎 𝑓 𝑑 → 𝑎𝑐, ta đẩy 𝑑 → 𝑎 𝑓3281 𝑑 → 𝑎𝑐230 vào FGHUS Khi đó, ta có 𝐼new (𝑑 → 𝑎𝑐) = {𝑑, 𝑒, 𝑓 } 𝑆new (𝑑 → 𝑎𝑐) = {𝑎, 𝑐, 𝑓 , 𝑔} Khi xét hai nhánh bắt đầu 𝑑 → 𝑓3267 𝑑 → ta chèn thêm chúng vào FGHUS đồng thời loại bỏ 𝑑 → 𝑎𝑐𝑒 → 𝑓1215 Tìm kiếm 𝑑 → 𝑓 kết thúc ta tiếp tục 𝑑 → 𝑐 Trong trình này, ta phát 12 lần sử dụng chiến lược tỉa LPG, 64 lần sử dụng WPS DPS Năm ứng viên sau thêm vào FGHUS: 𝑑 → 𝑐𝑒 → 𝑓1208 , 𝑑 → 𝑐 → 𝑎 → 𝑓1204 , 𝑑 → 𝑐 → 𝑓2328 𝑑 → 𝑐 → 𝑔 → 𝑓1204 Các ứng viên 𝑑 → 𝑎𝑐230 , 𝑑 → 𝑎 𝑓3231 , 𝑑 → 𝑎𝑐 → 𝑎 → 𝑓1211 𝑑 → 𝑎𝑐𝑒 → 𝑓1215 267 204 bị loại 𝑑 → 𝑐215 , 𝑑 → 𝑓3 , 𝑑 → 𝑐 → 𝑎 → 𝑓1 𝑑 → 𝑐𝑒 → 𝑓1208 có FGHUS tương ứng 𝑐215 , Khơng có thay đổi FGHUS xét 𝑑 → 𝑎𝑐 → 𝑐 𝑑 → 𝑎𝑐 → 𝑓 Với 𝑑 → 𝑎𝑐 → 𝑎, ta tìm thấy FGHUS chuỗi 𝑑 → 𝑎𝑐230 có độ hỗ trợ dòng 14 UpdateFGHUS Tại dòng tiếp theo, ta thực thủ tục LocalPruningGHU với 𝑑 → 𝑎𝑐 → 𝑎 𝑑 → 𝑎𝑐 Mặc dù SE(D𝑑→𝑎𝑐→𝑎 ) = SE(D𝑑→𝑎𝑐 ) = 7, chiến lược tỉa LPG áp dụng Sau đó, q trình tìm kiếm 𝑒, 𝑓 , 𝑔 diễn Đáng tiếc là, ta khơng thu Cuối cùng, ta có SF(𝑢 (𝑑 → 𝑎𝑐)) = 29 < 𝑚𝑢 FGHUS = {𝑐 → 𝑓4220 ; 𝑎𝑐 → 𝑎 → 𝑓3211 , 𝑐𝑒 → 𝑎 → 𝑓3218 , 200 𝑑 → 𝑓3267 , 𝑑 → 𝑐215 ; 𝑎𝑐 → 𝑎𝑑 → 𝑐 → 𝑎𝑐 , 202 202 𝑎𝑐 → 𝑎𝑑 → 𝑐𝑑𝑓2 , 𝑎𝑐𝑒 → 𝑑 → 𝑎𝑐 → 𝑐 , 203 𝑐 → 𝑎𝑑 → 𝑎𝑐 → 𝑎𝑐202 , 𝑐 → 𝑎𝑑 → 𝑎𝑐𝑑𝑓2 , 200 𝑐𝑒 → 𝑎𝑑 → 𝑐 → 𝑐 , 𝑐𝑒 → 𝑑 → 𝑐 → 𝑎𝑐200 , 𝑐𝑒 → 𝑑 → 𝑐𝑑𝑓2200 , 𝑑 → 𝑎 → 𝑓2245 , 𝑑 → 𝑐 → 𝑓2328 ; 𝑑 → 𝑐𝑒 → 𝑓1208 , 𝑑 → 𝑐 → 𝑎 → 𝑓1204 , 𝑑 → 𝑐 → 𝑔 → 𝑓1204 }, Tiếp tục, ta có 𝐼new (𝑑 → 𝑎𝑐 → 𝑎) = {𝑐, 𝑓 , 𝑔}, 𝑆new (𝑑 → 𝑎𝑐 → 𝑎) = {𝑎, 𝑓 } Với 𝑠-mở rộng 𝑑 → 𝑎𝑐 → 𝑎 → 𝑎, ta có 𝐼new (𝑑 → 𝑎𝑐 → 𝑎 → 𝑎) = { 𝑓 } Vì RBU(𝑑 → 𝑎𝑐 → 𝑎 → 𝑎 𝑓 ) ≥ 𝑚𝑢, dòng 13, ta gọi LocalPruningGHU (trường hợp (i)) với 𝑖 new = 𝑑 → 𝑎𝑐 → 𝑎 → 𝑎 𝑓 𝑑 → 𝑎𝑐 → 𝑎 → 𝑎 Trong thủ tục ta khơng áp dụng LPG, với 18 lời giải, chiếm tỉ lệ 22% so với 83 chuỗi phổ biến lợi ích cao SF(𝑢 (𝑑 → 𝑎𝑐 → 𝑎 → 𝑎)) = 148 < 𝑚𝑢 Tiếp tục dòng 14–15, trường hợp (ii) xét 𝑖new với 𝛽 = 𝑑 → 𝑎𝑐 → 𝑎 → 𝑓 Vì Thử nghiệm Các thử nghiệm nhằm minh họa tính hiệu 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 tiến hành sở liệu mô tả Bảng III Kosarak Snake hai QSDB thực tế, D4C7T5N5S6I4 D0.5C10T15N2S6I4 hai QSDB tổng hợp, với giá trị số lượng lợi ích đơn vị thuộc tính QSDB tương ứng tạo ngẫu nhiên chương trình sinh liệu IBM (IBM Quest data generator) từ thư viện SPMF [21] SE(D𝑑→𝑎𝑐→𝑎→ 𝑓 ) = SLIP(D𝑑→𝑎𝑐→𝑎→𝑎 𝑓 ) = SE(D𝑑→𝑎𝑐→𝑎→ 𝑓 ) = SLIP(D𝑑→𝑎𝑐→𝑎→ 𝑓 ) = 1, SF(𝑢 (𝑑 → 𝑎𝑐 → 𝑎 → 𝑓 )) = 211 ≥ 𝑚𝑢, ta tỉa toàn nhánh non-GHU branch(𝑑 → 𝑎𝑐 → 𝑎 → 𝑎 𝑓 ) LPG, cụ thể đặt giá trị false cho trường do-ext 𝑖 new 66 Tập 2019, Số 2, Tháng 12 D4C7T5N5S6I4 (ms = 0.25%) Bảng III MINH HỌA THUẬT TOÁN Độ dài trung bình 10000 Số thuộc tính 10094 8,14 Duyệt web 4000 5000 28,7 Tổng hợp D0.5C10T15N2S6I4 500 2000 127,7 Tổng hợp Snake 163 20 60,6 Tên Kosarak D4C7T5N5S6I4 Số chuỗi 1E+4 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 Thời gian chạy (giây) QSDB D Loại liệu 1E+3 1E+2 1E+1 1E+0 0.6 0.3 0.24 0.15 Chuỗi protein 0.03 0.018 0.005 0.002 0.001 0.0003 mu (%) Kosarak (ms = 0.15%) 1E+3 Thời gian chạy (giây) Với QSDB 𝑄 cố định, xác định ngưỡng 𝑚𝑠 tương đối (tần suất tính theo % dùng phổ biến thực nghiệm cho thuật toán lĩnh def vực này, 𝑚𝑠% = 𝑚𝑠 ∗ 100/|𝑄|(%), |𝑄| số 𝑞-chuỗi đầu vào 𝑄) Nếu không gây hiểu nhầm ta ký hiệu 𝑚𝑠 tương đối 𝑚𝑠 1E+2 1E+1 1E+0 Chúng tiến hành khai thác chuỗi sinh phổ biến lợi ích cao 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 ba trường hợp: (i) Non: không dùng chiến lược tỉa (tìm chuỗi phổ biến lợi ích cao trước sau lọc chuỗi sinh); (ii) WDPS: sử dụng WPS DPS; (iii) All: dùng ba chiến lược WPS, DPS LPG Thời gian chạy (giây) 0.6 0.1 0.01 mu (%) 0.006 0.004 0.002 0.001 D0.5C10T15N2S6I4 (ms = 2.2%) 3E+3 Trước hết, nhận thấy hai tập kết 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 trùng tương ứng với hai trường hợp: dùng ba chiến lược tỉa (All) không dùng chiến lược (Non) mà đơn dùng định nghĩa chuỗi sinh lợi ích cao phổ biến (Định nghĩa 5) Do đó, tính 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 kiểm chứng thêm thông qua thực nghiệm 3E+2 3E+1 1.2 Thời gian chạy (giây) 0.3 0.05 mu (%) 0.005 0.001 0.0001 2.7 2.4 Snake (ms = 60%) 2E+4 Thời gian chạy 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 cho hình Khi ngưỡng 𝑚𝑢 cao, điều kiện tỉa LRU(𝛼) < 𝑚𝑢 RBU(𝛼) < 𝑚𝑢 (trong hai chiến lược WPS DPS, hay 𝑊 𝐷𝑃𝑆) dễ có hội xảy hơn, nên số ứng viên (sinh chưa bị tỉa) dùng WDPS bé đáng kể so với Non (không dùng chiến lược nào) Khi 𝑚𝑢 giảm dần, tác dụng WDPS giảm theo Ngược lại, với ngưỡng 𝑚𝑢 thấp, điều kiện SF(𝛼) ≥ 𝑚𝑢 (trong chiến lược LPG dùng All) dễ xảy hơn, nên số ứng viên sinh dùng All (áp dụng ba chiến lược tỉa nêu trên) bé đáng kể so với dùng WDPS Vì vậy, so với Non, việc áp dụng đồng thời ba chiến lược tỉa tỉa nhiều chuỗi ứng viên, thời gian thi hành thuật toán nhanh đáng kể 0.75 2E+3 2E+2 15 14 12 mu (%) Hình Thời gian chạy 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 Ghi chú: All (màu đỏ, hình tam giác), WDPS (màu xanh đậm, hình trịn), Non (màu xanh cây, hình vng) lực lượng, xem FGHUS biểu diễn súc tích FHUS V KẾT LUẬN Ghi nhận số lượng ứng viên sinh tương ứng hình ba trường hợp lý giải thêm khác thời gian chạy chúng Bài báo đề xuất khái niệm tập FGHUS chuỗi sinh phổ biến lợi ích cao thuật tốn hiệu 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 khai thác chúng, thông qua kỹ thuật tỉa nhánh ứng viên tìm kiếm tiền tố Trước hết, hai chiến lược tỉa theo chiều rộng WPS chiều sâu DPS (đã dùng kết trước cho việc tỉa chuỗi lợi ích thấp) điều chỉnh phù hợp để tỉa chuỗi Hình số lượng chuỗi FGHU khai thác 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 (#fGenHU) số lượng chuỗi FHU (#fHU) Có thể thấy rằng, #fGenHU bé #fHU từ đến 100 lần theo trung bình (đặc biệt 𝑚𝑢 bé) Vì vậy, theo 67 Các cơng trình nghiên cứu phát triển Công nghệ Thông tin Truyền thông D4C7T5N5S6I4 (ms = 0.25%) D4C7T5N5S6I4 (ms = 0.25%) Số lời giải số chuỗi FHU 1E+6 Số ứng viên 1E+6 1E+5 1E+5 1E+4 1E+3 1E+2 1E+1 1E+4 1E+0 0.6 0.3 0.24 0.15 0.03 0.018 0.005 0.002 0.001 0.0003 mu (%) 0.6 0.3 0.24 Kosarak (ms = 0.15%) 0.15 0.03 0.018 0.005 0.002 0.001 0.0003 mu (%) Kosarak (ms = 0.15%) 1E+6 Số lời giải số chuỗi FHU Số ứng viên 5E+4 1E+5 1E+4 5E+3 5E+2 5E+1 1E+3 5E+0 0.6 0.1 0.01 mu (%) 0.006 0.004 0.002 0.001 D0.5C10T15N2S6I4 (ms = 2.2%) 0.6 0.1 0.01 mu (%) 0.006 0.004 0.002 0.001 D0.5C10T15N2S6I4 (ms = 2.2%) 1E+6 1E+7 Số ứng viên Số lời giải số chuỗi FHU 1E+5 1E+4 1E+3 1E+2 1E+1 1E+6 1E+0 x 100000 1.2 0.75 0.3 0.05 mu (%) 0.005 0.001 0.0001 Snake (ms = 60%) 29 0.75 0.3 0.05 mu (%) 0.005 0.001 0.0001 2.7 2.4 Snake (ms = 60%) 5E+5 27 5E+4 Số lời giải số chuỗi FHU 25 Số ứng viên 1.2 23 21 19 17 5E+3 5E+2 5E+1 15 13 5E+0 15 14 12 2.7 2.4 15 14 12 mu (%) mu (%) Hình Số ứng viên sinh 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 Ghi chú: All (màu đỏ, hình tam giác), WDPS (màu xanh đậm, hình trịn), Non (màu xanh cây, hình vng) Hình Số lời giải số chuỗi FHU Ghi chú: #fGenHU (màu xanh đậm, hình thoi), #fHU (màu đỏ, hình dấu nhân) LỜI CẢM ƠN phổ biến chuỗi lợi ích thấp Sau đó, chúng tơi chặn SF độ đo lợi ích tối thiểu 𝑢 Dựa vào SF điều kiện tỉa sớm tổng quát [13], chiến lược tỉa LPG đề xuất dùng để tỉa ứng viên không chuỗi sinh phổ biến lợi ích cao Để ý rằng, WPS DPS có tác dụng tỉa mạnh với ngưỡng lợi ích tối thiểu 𝑚𝑢 cao, LPG có hiệu cao với 𝑚𝑢 thấp Do đó, chúng tơi tích hợp tất chúng vào thuật tốn 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 Thực nghiệm bốn sở liệu lớn (thực tế lẫn tổng hợp) 𝐹𝐺𝑒𝑛𝐻𝑈𝑆𝑀 khai thác nhanh FGHUS − biểu diễn súc tích tập chuỗi phổ biến lợi ích cao Nghiên cứu tài trợ Quỹ Phát triển Khoa học Công nghệ Quốc gia (NAFOSTED) đề tài mã số 102.05-2017.300 TÀI LIỆU THAM KHẢO [1] C F Ahmed, S K Tanbeer, and B.-S Jeong, “Mining high utility web access sequences in dynamic web log data,” in 11th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, 2010, pp 76–81 [2] B.-E Shie, H.-F Hsiao, V S Tseng, and S Y Philip, “Mining high utility mobile sequential patterns in mobile 68 Tập 2019, Số 2, Tháng 12 [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] pruning techniques,” Applied Intelligence, vol 45, no 2, pp 333–342, 2016 [21] P Fournier-Viger, A Gomariz, T Gueniche, A Soltani, C.W Wu, and V S Tseng, “SPMF: A Java open-source pattern mining library,” The Journal of Machine Learning Research, vol 15, no 1, pp 3389–3393, 2014 commerce environments,” in International Conf Database Systems for Advanced Applications, 2011, pp 224–238 M Zihayat, H Davoudi, and A An, “Top-k utility-based gene regulation sequential pattern discovery,” in IEEE International Conference on Bioinformatics and Biomedicine, 2016, pp 266–273 C F Ahmed, S K Tanbeer, and B.-S Jeong, “A novel approach for mining high-utility sequential patterns in sequence databases,” ETRI Journal, vol 32, no 5, pp 676–686, 2010 J Yin, Z Zheng, and L Cao, “USpan: An efficient algorithm for mining high utility sequential patterns,” in ACM/SIGKDD Int’l Conf Knowl Disc Data Mining, 2012, pp 660–668 J C.-W Lin, J Zhang, and P Fournier-Viger, “High-utility sequential pattern mining with multiple minimum utility thresholds,” in Asia-Pacific Web and Web-Age Infor Management Joint Conf Web and Big Data, 2017, pp 215–229 T Truong, A Tran, H Duong, B Le, and P Fournier-Viger, “EHUSM: Mining high utility sequences with a pessimistic utility model,” 1st Int’l Work Utility-Driven Mining, 2018 T C Tin, T N Anh, D Van Hai, and L H Bac, “HUPSMT: An efficient algorithm for mining high utility-probability sequences in uncertain databases with multiple minimum utility thresholds,” Journal of Computer Science and Cybernetics, vol 35, no 1, pp 1–20, 2019 T Truong-Chi and P Fournier-Viger, “A survey of high utility sequential pattern mining,” in High-Utility Pattern Mining, P Fournier-Viger, J Lin, R Nkambou, B Vo, and V Tseng, Eds Springer, 2019, pp 97–129 W Gan, J C.-W Lin, J Zhang, H.-C Chao, H Fujita, and S Y Philip, “ProUM: Projection-based utility mining on sequence data,” Info Sciences, vol 513, pp 222–240, 2020 X Yan, J Han, and R Afshar, “CloSpan: Mining closed sequential patterns in large datasets,” in SIAM International Conference on Data Mining, 2003, pp 166–177 B Le, H Duong, T Truong, and P Fournier-Viger, “FCloSM, FGenSM: Two efficient algorithms for mining frequent closed and generator sequences using the local pruning strategy,” Knowledge and Information Systems, vol 53, no 1, pp 71–107, 2017 T Truong, H Duong, B Le, and P Fournier-Viger, “FMaxCloHUSM: An efficient algorithm for mining frequent closed and maximal high utility sequences,” Eng Applications of Artificial Intelligence, vol 85, pp 1–20, 2019 L Szathmary, P Valtchev, A Napoli, and R Godin, “Efficient vertical mining of frequent closures and generators,” in Int’l Symp Intelligent Data Analysis, 2009, pp 393–404 A Tran, T Truong, and B Le, “Simultaneous mining of frequent closed itemsets and their generators: Foundation and algorithm,” Engineering Applications of Artificial Intelligence, vol 36, pp 64–80, 2014 P Fournier-Viger, C.-W Wu, and V S Tseng, “Novel concise representations of high utility itemsets using generator patterns,” in International Conference on Advanced Data Mining and Applications, 2014, pp 30–43 ˇ P Fournier-Viger, A Gomariz, M Sebek, and M Hlosta, “VGEN: Fast vertical mining of sequential generator patterns,” in International Conference on Data Warehousing and Knowledge Discovery, 2014, pp 476–488 H Duong, T Truong, and B Le, “Efficient algorithms for simultaneously mining concise representations of sequential patterns based on extended pruning conditions,” Eng Applications of Artificial Intelligence, vol 67, pp 197210, 2018 P D Grăunwald, I J Myung, and M A Pitt, Advances in minimum description length: Theory and applications MIT press, 2005 M.-T Tran, B Le, B Vo, and T.-P Hong, “Mining nonredundant sequential rules with dynamic bit vectors and Trương Chí Tín giảng viên Khoa Toán – Tin học, Trường Đại học Đà Lạt Tác giả tốt nghiệp Cử nhân Toán Trường Đại học Đà Lạt năm 1983 nhận Tiến sĩ Điều khiển tối ưu ngẫu nhiên năm 1990 Đại học Quốc gia Hà Nội Hướng nghiên cứu tác giả trí tuệ nhân tạo khai thác liệu Trần Ngọc Anh giảng dạy nghiên cứu Khoa Toán – Tin học, Trường Đại học Đà Lạt Tác giả tốt nghiệp Đại học ngành Toán – Tin học vào năm 1999 Đại học Đà Lạt, nhận Thạc sĩ Tiến sĩ Khoa học máy tính vào năm 2004 2016 Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp Hồ Chí Minh Tác giả nghiên cứu khai thác liệu trí tuệ nhân tạo Dương Văn Hải tốt nghiệp Trường Đại học Đà Lạt ngành Tin học năm 2004 Tác giả tốt nghiệp Cao học ngành Công nghệ thông tin năm 2009 Nghiên cứu sinh Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp Hồ Chí Minh Tác giả giảng dạy nghiên cứu khai thác liệu Khoa Toán – Tin học, Trường Đại học Đà Lạt Lê Hoài Bắc nhận Cử nhân Toán năm 1984, Cao học Khoa học máy tính năm 1990 hồn thành Luận án Tiến sĩ Đảm bảo Toán học cho máy tính năm 2000 Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp Hồ Chí Minh Tác giả giảng viên Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp Hồ Chí Minh nghiên cứu trí tuệ nhân tạo, tính tốn mềm, khai thác liệu khoa học liệu 69 ... đại /sinh phổ biến đối tượng nhiều nghiên cứu gần [12, 17, 18] Tập chứa chuỗi sinh phổ biến lợi ích cao (FGHUS) mở rộng tự nhiên chuỗi sinh phổ biến truyền thống Một chuỗi FHU gọi chuỗi sinh phổ biến. .. lợi ích

Ngày đăng: 04/11/2020, 07:21