Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số khai thác top k mẫu tuần tự báo cáo tổng kết đề tài khoa học cấp trường

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	38
Dung lượng	1,82 MB

Nội dung

BỘ CÔNG THƯƠNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG Tên đề tài: Cải tiến hiệu suất thuật toán khai thác mẫu với ràng buộc trọng số/ khai thác Top-K mẫu Mã số đề tài: 20/1.6CNTT01 Chủ nhiệm đề tài: Phạm Thị Thiết Đơn vị thực hiện: Khoa Công nghệ Thông tin Tp Hồ Chí Minh, 2021 LỜI CÁM ƠN Lời đầu tiên, xin chân thành cảm ơn trường Đại học Công nghiệp Tp.HCM tiểu ban Điện – Điện Tử - CNTT đồng ý thơng qua đề tài nhóm chúng tơi tạo hội cho chúng tơi có điều kiện để nghiên cứu Tôi xin gửi lời cảm ơn đến Phịng QLKH&HTQT, phịng Tài – Kế tốn trường Đại học Cơng nghiệp Tp.HCM tận tình hỗ trợ, hướng dẫn thủ tục, hồ sơ giúp chủ nhiệm đề tài thực văn liên quan Cuối xin gửi lời cảm ơn đến BCN Khoa, tập thể GV Khoa Công nghệ thông tin, Thầy Cô đồng hành động viên, tạo điều kiện để chúng tơi hồn thành đề tài Chủ nhiệm đề tài Phạm Thị Thiết PHẦN I THÔNG TIN CHUNG I Thông tin tổng quát 1.1 Tên đề tài: Cải tiến hiệu suất thuật toán khai thác mẫu với ràng buộc trọng số/ khai thác Top-K mẫu 1.2 Mã số: 20/1.6CNTT01 1.3 Danh sách chủ trì, thành viên tham gia thực đề tài TT Họ tên (học hàm, học vị) Đơn vị cơng tác Vai trị thực đề tài TS Phạm Thị Thiết Khoa CNTT – ĐHCN TP.HCM Chủ nhiệm TS Võ Thị Thanh Vân Khoa CNTT – ĐHCN TP.HCM Thư ký 1.4 Đơn vị chủ trì: Khoa Cơng nghệ Thông tin 1.5 Thời gian thực hiện: 1.5.1 Theo hợp đồng: từ tháng 03 năm 2020 đến tháng 03 năm 2021 1.5.2 Gia hạn (nếu có): đến tháng… năm… 1.5.3 Thực thực tế: từ tháng 03 năm 2020 đến tháng 03 năm 2021 1.6 Những thay đổi so với thuyết minh ban đầu (nếu có): (Về mục tiêu, nội dung, phương pháp, kết nghiên cứu tổ chức thực hiện; Nguyên nhân; Ý kiến Cơ quan quản lý) 1.7 Tổng kinh phí phê duyệt đề tài: 40 triệu đồng II Kết nghiên cứu Đặt vấn đề Khai thác mẫu từ sở liệu (CSDL) chuỗi nhiệm vụ quan trọng lĩnh khai thác liệu Một CSDL chuỗi bao gồm tập chuỗi chứa phần tử (elements), kiện (events) xếp theo thứ tự, đó, mẫu (sequential pattern) chuỗi chứa itemset xuất phổ biến có trình tự, tất item itemset giả sử chúng có thời điểm giao dịch chúng có khoảng thời gian giao dịch, thông thường tất giao dịch khách hàng gắn kết với theo trình tự thời gian xem chuỗi Do đó, tốn khai thác mẫu CSDL chuỗi khai thác chuỗi phổ biến để tìm kiếm mối liên quan item khác CSDL, với yêu cầu mẫu phổ biến chuỗi CSDL chuỗi mà xuất chúng lớn ngưỡng hỗ trợ nhỏ người dùng định hay nói cách khác, toán khai thác mẫu từ CSDL chuỗi để tìm tập chuỗi phổ biến thỏa mãn ngưỡng hỗ trợ tối thiểu (minsup) người dùng đặt Các nghiên cứu trước đề xuất phương pháp để cải tiến hiệu suất trình khai thác mẫu CSDL chuỗi Tuy nhiên đa số nghiên cứu sử dụng độ hỗ trợ tối thiểu nhỏ minsup để tìm mẫu phổ biến khai thác mẫu với độ hỗ trợ tối thiểu nhỏ phát sinh tập mẫu lớn, điều làm cho khơng gian lưu trữ mẫu bị tải Để giải vấn đề khơng gian lưu trữ phương pháp cần phải tăng độ hỗ trợ tối thiểu, nhiên việc làm làm nhiều mẫu có tầm quan trọng cao lại có độ hỗ trợ chưa đủ lớn tần suất xuất chuỗi tồn CSDL khơng nhiều ln phải thay đổi giá trị minsup cho phù hợp với yêu cầu người dùng Cũng có số nghiên cứu đề xuất để cải tiến hiệu suất cho toán khai thác mẫu từ CSDL chuỗi toán khai thác mẫu dựa ràng buộc trọng số hay toán khai thác top-k mẫu tuần tự, v.v Tuy nhiên, nghiên cứu chủ yếu phát triển từ thuật toán khai thác mẫu PrefixSpan Chính vậy, đề tài tập trung vào nghiên cứu điểm yếu phương pháp đề xuất trước từ đề xuất giải pháp hiệu cho toán khai thác mẫu dựa ràng buộc trọng số toán khai thác top-k mẫu từ CSDL chuỗi Kết đề tài đóng góp thêm vào tài nguyên học tập cho sinh viên, học viên ngành Khoa học máy tính Mục tiêu a) Mục tiêu tổng quát Đề xuất giải pháp hiệu cho toán liên quan đến khai thác chuỗi khai thác top-k mẫu tuần tự/ khai thác mẫu với ràng buộc trọng số b) Mục tiêu cụ thể - Nghiên cứu phương pháp khai thác chuỗi đề xuất trước - Nghiên cứu đề xuất thuật toán hiệu để khai thác top-k mẫu / khai thác mẫu với ràng buộc trọng số từ CSDL chuỗi - Đánh giá hiệu suất thuật toán đề xuất Phương pháp nghiên cứu - Sử dụng phương pháp tìm kiếm, thu thập, tổng hợp chọn loc tất TLTK liên quan đến vấn đề cần tiếp cận Sử dụng phương nghiên cứu lý thuyết kết hợp với kết đánh giá thuật toán để đề xuất thuật toán để khai thác chuỗi hiệu Sử dụng phương pháp nghiên cứu thực nghiệm mơ lập trình với ngơn ngữ lập trình để xây dựng thực nghiệm cho thuật tốn đề xuất Đánh giá hiệu xuất thuật toán tập CSDL chuẩn Viết báo cáo khoa học Tổng kết kết nghiên cứu Nội dung nghiên cứu đề tài đạt kết sau: - báo khoa học đăng tạp chí IEEE Access (ISI) Đây sản phẩm đề tài - báo khoa học đăng tạp chí khoa học cơng nghệ - Trường ĐHCN Tp.HCM (Sản phẩm sử dụng làm điều kiện xét hoàn thành nhiệm vụ NCKH nhà trường GV có trình độ tiến sĩ) Đánh giá kết đạt kết luận Kết đạt trình thực đề tài: - Tìm hiểu số thuật toán liên quan đến toán khai thác mẫu - mẫu - đóng, top-k mẫu tuần tự, mẫu với rang buộc trọng số Đã đề xuất thuật toán có hiệu suất cao so với thuật tốn cho tài toán khai thác top-k mẫu đóng tốn khai thác mẫu với rang buộc trọng số Kết đề tài đóng góp vào tài ngun cho mơn học liên quan đến Xử lý khai thác liệu, làm tảng cho việc nghiên cứu, học tập hồn thành khóa luận tốt nghiệp cho sinh viên hệ đại học học viên cao học ngành khoa học máy tính Bên cạnh đó, góp phần nâng cao chất lượng nghiên cứu khoa học, phát triển nghề nghiệp giảng viên công bố khoa học giảng viên, khoa nhà trường Tóm tắt kết (tiếng Việt tiếng Anh) Đề tài đề xuất thuật tốn có hiệu suất cao so với thuật toán tại, cụ thể sau: - Đề xuất thuật toán TKCS (Top-K Closed Sequences) cho toán khai thác top-k mẫu đóng Thuật tốn TKCS có hiệu suất tốt thời gian lẫn nhớ so với thuật toán TSP (Top-K Closed Sequential Patterns) thuật tốn đề xuất sử dụng cách xếp mẫu theo thứ tự tăng dần độ hỗ trợ sau mở rộng mẫu có giá trị hỗ trợ cao để tạo mẫu ứng cử viên Hơn nữa, thuật toán sử dụng chiến lược tăng minsup đến giá trị hỗ trợ mẫu danh sách top-k mẫu đóng (CSP – Closed Sequential Pattern) với giá trị hỗ trợ nhỏ - Đề xuất thuật tốn hiệu để khai thác mẫu có trọng số việc kết hợp giá trị trọng số thực item CSDL chuỗi với độ hỗ trợ chúng Bên cạnh đó, thuật tốn sử dụng cấu trúc liệu biểu diễn theo chiều dọc nên thuật toán cần duyệt CSDL lần, tiết kiệm thời gian Hơn nữa, thuật tốn áp dụng khối mã hóa nguyên tố bước tính tốn q trình phát triển mẫu làm tăng hiệu suất thực thi thuật toán so với tiếp cận khác This research has proposed new algorithms with higher performance than the current algorithms, as follows: - Proposing an algorithm named TKCS (Top-K Closed Sequences) to mine the top-k CSPs efficiently The empirical results indicate that TKCS algorithm has better performance both in terms of time and memory than the current TSP algorithm because it uses strategies in the process of exploiting the top-k CSPs as: always choosing the sequential pattern having the greatest support for generating candidate patterns and storing top-k CSPs in the ascending order of the support values to customize the minsup value more quickly to prune the search space - Proposing an effective algorithm to exploit sequential patterns with weighted constrain by combining the actual weight values of items in the sequence database with their support to find higher-value sequential patterns set Moreover, the proposed algorithm uses a vertical database approach, so the algorithm only needs to scan the database once, thus saving execution time In addition, to increase computational efficiency, the algorithm applies the prime block encoding approach in the computational steps of the extension pattern process Experimental results show that the proposed algorithm has more effective execution time III Sản phẩm đề tài, công bố kết đào tạo 3.1 Kết nghiên cứu (sản phẩm dạng 1,2,3) TT Yêu cầu khoa học hoặc/và tiêu kinh tế - kỹ thuật Tên sản phẩm Đăng ký Bài báo khoa học Đạt 2 … Ghi chú: - Các ấn phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo…) chấp nhận có ghi nhận địa cảm ơn trường ĐH Cơng Nghiệp Tp HCM cấp kính phí thực nghiên cứu theo quy định - Các ấn phẩm (bản photo) đính kèm phần phụ lục minh chứng cuối báo cáo (đối với ấn phẩm sách, giáo trình cần có photo trang bìa, trang trang cuối kèm thông tin định số hiệu xuất bản) 3.2 Kết đào tạo TT Họ tên Thời gian thực đề tài Tên đề tài Tên chuyên đề NCS Tên luận văn Cao học Đã bảo vệ Nghiên cứu sinh Học viên cao học Sinh viên Đại học Ghi chú: - Kèm photo trang bìa chuyên đề nghiên cứu sinh/ luận văn/ khóa luận bằng/giấy chứng nhận nghiên cứu sinh/thạc sỹ học viên bảo vệ thành công luận án/ luận văn;( thể phần cuối báo cáo khoa học) IV Tình hình sử dụng kinh phí T T A B Nội dung chi Chi phí trực tiếp Th khốn chun mơn Ngun, nhiên vật liệu, Thiết bị, dụng cụ Công tác phí Dịch vụ th ngồi Hội nghị, hội thảo,thù lao nghiệm thu kỳ In ấn, Văn phòng phẩm Chi phí khác Chi phí gián tiếp Quản lý phí Chi phí điện, nước Tổng số Kinh phí duyệt (triệu đồng) Kinh phí thực (triệu đồng) 38,978,000 38,978,000 1,022,000 1,022,000 40,000,000 40,000,000 Ghi V Kiến nghị (về phát triển kết nghiên cứu đề tài) - Sử dụng kết nghiên cứu làm tài liệu học tập, nghiên cứu lĩnh vực khai phá liệu - Áp dụng kết nghiên cứu cho việc xây dựng ứng dụng dạng khuyến nghị VI Phụ lục sản phẩm (liệt kê minh chứng sản phẩm nêu Phần III) Bài báo khoa học Chủ nhiệm đề tài Tp HCM, ngày tháng năm Phòng QLKH&HTQT Trưởng Khoa CNTT (Họ tên, chữ ký) Phạm Thị Thiết PGS.TS Huỳnh Trung Hiếu PHẦN II BÁO CÁO CHI TIẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC (báo cáo tổng kết sau nghiệm thu, bao gồm nội dung góp ý hội đồng nghiệm thu) CHƯƠNG TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 1.1 Đặt vấn đề Khai thác mẫu toán quan trọng lĩnh vực khám phá tri thức khai thác liệu, ứng dụng rộng rãi bao gồm: phân tích thói quen mua sắm khách hàng, mẫu truy cập web, thí nghiệm khoa học, chẩn đoán bệnh, thảm họa thiên nhiên, kết cấu protein Bài toán khai thác mẫu CSDL chuỗi tìm mẫu xuất thường xuyên (được gọi chuỗi phổ biến) để tìm kiếm mối liên quan item khác nhau, kiện tiềm ẩn liệu phục vụ cho mục đích chiến dịch tiếp thị, tái tổ chức kinh doanh, dự báo lập kế hoạch Cho đến có nhiều cơng trình nghiên cứu lĩnh vực khai thác liệu nói chung, khai thác mẫu phổ biến nói riêng Việc khai thác mẫu phần quan trọng khai thác liệu với ứng dụng rộng rãi nhiều lĩnh vực kinh tế khoa học như: phân tích q trình mua bán hàng hóa, dự đốn thiên tai, phân tích chuỗi DNA, phân tích cấu trúc gen,… Bài tốn khai thác mẫu từ CSDL chuỗi để tìm tập chuỗi phổ biến thỏa mãn ngưỡng minsup người dùng đặt [1, 2, 10, 11, 13, 18, 20, 23, 25, 30, 31, 41] Đây toán quan trọng lĩnh vực khai thác liệu từ CSDL chuỗi tảng nhiều nhiệm vụ khai thác liệu khác gom nhóm liệu [4, 15], phân loại dự đốn liệu [15], phân loại liệu dựa luật kết hợp [30] Có nhiều thuật tốn đề xuất để cải thiện hiệu suất trình khai thác mẫu CSDL chuỗi GSP [31], PSP [23], PrefixSpan [25], SPADE [41], SPAM [2], PRISM [13], CM-SPADE [10], MCM-SPADE [14] Tuy nhiên thuật toán sử dụng độ hỗ trợ để tìm mẫu khai thác mẫu với độ hỗ trợ tối thiểu thấp phát sinh lượng mẫu khổng lồ, điều làm cho không gian lưu trữ mẫu bị tải Để giải vấn đề không gian lưu trữ phương pháp cần phải tăng độ hỗ trợ tối thiểu minsup [35, 40], tập mẫu thu giảm đi, nhiên việc làm làm nhiều mẫu có tầm quan trọng cao lại có độ hỗ trợ chưa đủ lớn (tần suất xuất chuỗi tồn CSDL khơng nhiều) Hơn nữa, thuật toán khai thác mẫu thống mẫu có tầm quan trọng nhau, đó, thực tế, thành phần CSDL có tầm quan trọng khác Những items nằm chuỗi có mức hỗ trợ thấp có tầm quan trọng tính trọng số items Do vậy, mẫu có tầm quan trọng cao (hay trọng số cao) mẫu có giá trị cao nên lưu trữ lại để sử dụng Chính thế, mẫu có độ hỗ trợ không thỏa điều kiện ngưỡng hỗ trợ tối thiểu mẫu giữ lại sau trình khai thác mẫu trọng số mẫu đủ lớn Vấn đề tồn cần giải làm cách để không làm mẫu có tầm quan trọng giữ độ hỗ trợ tối thiểu mức hợp lý cho việc thu thập lưu trữ tập mẫu sau q trình khai thác liệu để khơng tạo tập mẫu lớn, gây dư thừa Bài toán khai thác mẫu dựa ràng buộc trọng số đề xuất để tìm mẫu không phổ biến (không thỏa ràng buộc mức hỗ trợ tối thiểu) lại có items xuất mẫu có tầm quan trọng cao CSDL chuỗi, từ tìm tập mẫu có trọng số hồn chỉnh, có tầm quan trọng hơn, có lợi ích nhiều việc sử dụng mẫu Nhờ trình khai thác cải thiện hiệu tập mẫu tìm thấy đáp ứng yêu cầu người dùng tốt Srikant Agrawal [31] người khái quát toán khai thác mẫu mà cho phép xử lý ràng buộc thời gian Họ đưa hai loại ràng buộc thời gian ràng buộc khoảng thời gian (time-gap) ràng buộc thời gian - cửa sổ trượt (sliding time window) Trong đó, ràng buộc khoảng thời gian giới hạn thời gian xảy hai thành phần liền kề phải nằm khoảng hợp lý, ràng buộc thời gian - cửa sổ trượt qui định thành phần có thời gian nằm phạm vi cửa sổ nằm giao dịch Ngoài ra, tác giả [31] đưa ràng buộc phân cấp mẫu người dùng định nghĩa Garofalakis đồng [12] đề xuất ràng buộc mẫu dạng biểu thức có qui tắc đưa bốn thuật toán, gọi SPIRIT Trong đó, thuật tốn giải tốn khai thác mẫu với loại biểu thức ràng buộc cho trước Yun Leggett đề xuất thuật toán WFIM (Weighted Frequent Itemset Mining) [38] vào năm 2005 để khai thác mẫu có trọng số Trong thuật toán này, items riêng lẻ gán trọng số khác phạm vi trọng số để phản ánh tầm quan trọng chúng ràng buộc trọng số sau đẩy vào thuật tốn tăng trưởng mẫu để giữ thuộc tính giảm bao đóng WFIM sử dụng tiền tố tiếp cận theo hướng từ lên (bottom – up) xếp theo thứ tự tăng dần Thuật toán cho phép điều chỉnh số lượng itemsets phổ biến có trọng số cách thay đổi thơng số dải trọng số trọng số tối thiểu ngưỡng hỗ trợ tối thiểu thấp CSDL dày CSDL dài Trọng số độ hỗ trợ item WFIM xem xét riêng để cắt tỉa khơng gian tìm kiếm Tuy nhiên, độ hỗ trợ itemset thường giảm chiều dài itemset tăng lên trọng số có đặc trưng khác itemset có trọng số thấp đơi đạt trọng số cao kết hợp với item có trọng số cao, khơng đảm bảo thuộc tính giảm bao đóng Bảng 3.4 Sử dụng nhớ TKCS TSP Sequence database Sign Leviathan Bible FIFA BmsWebView1 BmsWebView2 Number of k patterns Memory usage (MB) TKCS TSP (1) (2) Ratio (1)/(2) % 50 109 281 39 100 163 285 57 200 240 290 83 300 250 293 85 400 260 300 87 50 250 318 79 100 320 384 83 200 435 522 83 300 590 668 88 400 680 906 75 50 363 574 63 100 399 695 57 200 450 872 52 300 550 895 61 400 661 950 70 50 278 560 50 100 429 743 58 200 556 789 70 300 630 851 74 400 759 935 81 50 72 183 39 100 129 298 43 200 178 319 56 300 219 368 60 400 293 422 69 50 206 273 75 100 253 336 75 200 350 411 85 300 412 493 84 400 550 583 94 23 Hình 3.2 Thời gian thực thi TKCS TSP CSDL Sign Hình 3.3 Thời gian thực thi TKCS TSP CSDL Leviathan 24 Hình 3.4 Thời gian thực thi TKCS TSP CSDL Bible Hình 3.5 Thời gian thực thi TKCS TSP CSDL FIFA 25 Hình 3.6 Thời gian thực thi TKCS TSP CSDL BmsWebView1 Hình 3.7 Thời gian thực thi TKCS TSP CSDL BmsWebView2 26 • Sử dụng nhớ: Việc sử dụng nhớ thuật toán TKCS TSP tập liệu Sign, Leviathan, Bible, FIFA, BmsWebView1, BmsWebView2 trình bày Bảng 3.4 cho giá trị k Các kết thử nghiệm cho thấy việc sử dụng nhớ thuật tốn TKCS ln thấp nhiều so với thuật toán TSP tất CSDL có số lượng k-CSP khác Ví dụ, CSDL Bible, k = 200, mức sử dụng nhớ TKCS TSP 450 MB 872 MB, tỷ lệ TKCS TSP 52% • Thời gian thực thi Với kết chạy thực nghiệm trong hình từ hình 3.2 đến 3.7 cho thấy thời gian thực thi thuật toán TKCS nhanh nhiều so với thuật toán TSP tất CSDL với số lượng k-CSP khác nhau, đặc biệt người dùng chọn số lượng k mẫu cần tìm lớn thời gian thực thi TKCS nhanh so với TSP nhiều Ví dụ, với CSDL Sign k = 50 ta thấy thời gian thực thi TKCS nhanh gấp 1.7 lần so với TSP, đặc biệt tăng k=400 điều thể rõ thời gian chạy, cụ thể TKCS nhanh gấp 2.3 lần so với TSP Với CSDL khác độ chênh lệch thời gian khác Đối với CSDL lớn có nhiều item thời gian thực thi TSP chậm so với liệu có item Ví dụ, hình 3.3 với mẫu k = 50 TSP có thời gian chạy lâu gấp 3.9 so với TKCS, với k = 400 gấp 6.1 lần Như dựa kết thực nghiệm cho ta thấy thực thi CSDL lớn có số lượng item nhiều thời gian thực thi thuật toán TKCS tốt nhiều so với TSP 27 CHƯƠNG KHAI THÁC CHUỖI TUẦN TỰ VỚI RÀNG BUỘC TRỌNG SỐ Khai thác mẫu có trọng số giúp tìm mẫu có giá trị cao nên áp dụng nhiều lĩnh vực đồng thời giải số khó khăn khơng gian lưu trữ tài nguyên thực toán khai thác mẫu với độ hỗ trợ minsup thấp Trong chương này, trình bày số khái niệm số thuật tốn cơng bố cho toán khai thác mẫu với rang buộc trọng số Đây sở để đề tài đề xuất tiếp cận khai thác mẫu có trọng số việc kết hợp giá trị trọng số thực item CSDL chuỗi với độ hỗ trợ chúng để tìm tập mẫu phổ biến có giá trị Hơn nữa, thuật toán đề xuất sử dụng phương pháp tiếp cận liệu theo chiều dọc nên thuật toán cần duyệt sỡ liệu lần, tiết kiệm thời gian thực thi Bên cạnh đó, để tăng hiệu suất tính tốn, thuật tốn áp dụng mã hóa khối ngun tố bước tính tốn trình phát triển mẫu 4.1 Giới thiệu Cho đến có nhiều cơng trình nghiên cứu lĩnh vực khai thác liệu nói chung, khai thác mẫu phổ biến nói riêng Việc khai thác mẫu phần quan trọng khai thác liệu với ứng dụng rộng rãi nhiều lĩnh vực kinh tế khoa học như: phân tích q trình mua bán hàng hóa, dự đốn thiên tai, phân tích chuỗi DNA, phân tích cấu trúc gen,… Bài toán khai thác mẫu từ CSDL chuỗi để tìm tập chuỗi phổ biến thỏa mãn ngưỡng hỗ trợ tối thiểu (min_sup) người dùng đặt [1, 6, 18, 25, 31] Có nhiều thuật tốn đề xuất để cải thiện hiệu suất trình khai thác mẫu CSDL chuỗi PSP [23], PrefixSpan [25], SPADE [41], SPAM [2], PRISM [13], CM-SPADE [5], MCM-SPADE [18] Tuy nhiên thuật toán sử dụng độ hỗ trợ để tìm mẫu khai thác mẫu với độ hỗ trợ tối thiểu thấp phát sinh lượng mẫu khổng lồ, điều làm cho khơng gian lưu trữ mẫu bị tải Để giải vấn đề khơng gian lưu trữ phương pháp cần phải tăng độ hỗ trợ tối thiểu minsup [35, 23], tập mẫu thu giảm đi, nhiên việc làm làm nhiều mẫu có tầm quan trọng cao lại có độ hỗ trợ chưa đủ lớn (tần suất xuất chuỗi tồn CSDL khơng nhiều) Hơn nữa, thuật toán khai thác mẫu thống mẫu có tầm quan trọng nhau, đó, thực tế, thành phần CSDL có tầm quan trọng khác Những items nằm chuỗi có mức hỗ trợ thấp có tầm quan trọng tính 28 trọng số items Do vậy, mẫu có tầm quan trọng cao (hay trọng số cao) mẫu có giá trị cao nên lưu trữ lại để sử dụng Chính thế, mẫu có độ hỗ trợ khơng thỏa điều kiện ngưỡng hỗ trợ tối thiểu mẫu giữ lại sau q trình khai thác mẫu trọng số mẫu đủ lớn Vấn đề tồn cần giải làm cách để khơng làm mẫu có tầm quan trọng giữ độ hỗ trợ tối thiểu mức hợp lý cho việc thu thập lưu trữ tập mẫu sau trình khai thác liệu để không tạo tập mẫu lớn, gây dư thừa Bài toán khai thác mẫu dựa ràng buộc trọng số đề xuất để tìm mẫu khơng phổ biến (không thỏa ràng buộc mức hỗ trợ tối thiểu) lại có items xuất mẫu có tầm quan trọng cao CSDL, từ tìm tập mẫu có trọng số hồn chỉnh, có tầm quan trọng hơn, có lợi ích nhiều việc sử dụng mẫu Nhờ trình khai thác cải thiện hiệu tập mẫu tìm thấy đáp ứng yêu cầu người dùng tốt Việc khai thác mẫu có trọng số thu thập tập mẫu hồn chỉnh với items có mức hỗ trợ thấp có tầm quan trọng cao, cần thiết cho trình sử dụng liệu Srikant Agrawal [31] người khái quát toán khai thác mẫu mà cho phép xử lý ràng buộc thời gian Họ đưa hai loại ràng buộc thời gian ràng buộc khoảng thời gian (time-gap) ràng buộc thời gian - cửa sổ trượt (sliding time window) Trong đó, ràng buộc khoảng thời gian giới hạn thời gian xảy hai thành phần liền kề phải nằm khoảng hợp lý, ràng buộc thời gian - cửa sổ trượt qui định thành phần có thời gian nằm phạm vi cửa sổ nằm giao dịch Ngồi ra, tác giả [31] cịn đưa ràng buộc phân cấp mẫu người dùng định nghĩa Garofalakis đồng [12] đề xuất ràng buộc mẫu dạng biểu thức có qui tắc đưa bốn thuật tốn, gọi SPIRIT Trong đó, thuật toán giải toán khai thác mẫu với loại biểu thức ràng buộc cho trước Yun cộng đề xuất thuật toán WFIM [38] vào năm 2005 để khai thác mẫu có trọng số CSDL giao dịch lớn cách sử dụng dải trọng số (weight range) trọng số tối thiểu (min_weight) với độ hỗ trợ tối thiểu Trong thuật toán này, item riêng lẻ gán trọng số khác phạm vi trọng số để phản ánh tầm quan trọng chúng ràng buộc trọng số sau đưa vào thuật toán tăng trưởng mẫu để giữ thuộc tính giảm bao đóng WFIM sử dụng tiền tố tiếp cận theo hướng từ lên (bottom – up) xếp theo thứ tự tăng dần Thuật toán cho phép điều chỉnh số lượng itemset phổ biến có trọng số cách thay đổi thông số dải trọng số trọng số tối thiểu 29 ngưỡng hỗ trợ tối thiểu thấp CSDL dày CSDL dài Trọng số độ hỗ trợ item WFIM xem xét riêng để cắt tỉa khơng gian tìm kiếm WFIM cho phép người dùng cân độ hỗ trợ trọng số itemset Năm 2006, Yun cộng [39] đề xuất thuật toán WSpan để khai thác mẫu hiệu cách đưa ràng buộc trọng số vào thuật toán tăng trưởng mẫu bảo tồn thuộc tính giảm bao đóng cách tiếp cận theo hướng CSDL chiếu Tác giả định nghĩa toán khai thác mẫu có trọng số tốn tìm tập hồn chỉnh mẫu có trọng số CSDL với ràng buộc độ hỗ trợ ràng buộc trọng số Tác giả xem xét việc áp dụng ràng buộc trọng số vào khai thác mẫu thuộc tính giảm bao đóng bị phá vỡ việc áp dụng ràng buộc trọng số đơn giản: “Một chuỗi với trọng số thấp mẫu phổ biến việc kết hợp items có trọng số cao chuỗi” Trong thuật toán này, dải trọng số sử dụng items gán giá trị trọng số khác bên dải trọng số, bên cạnh thuật tốn sử dụng giá trị ngưỡng hỗ trợ tối thiểu minsup ngưỡng trọng số lớn (MaxW) để làm điều kiện kiểm tra độ phổ biến mẫu trình khai thác CSDL chuỗi WSpan điều chỉnh số lượng mẫu việc điều chỉnh dải trọng số thành phần CSDL chuỗi đầu vào Năm 2016, Sirisha cộng [29] đề xuất hướng tiếp cận để tìm mẫu với giá trị trung bình trọng số (meanW) mẫu Trong tiếp cận này, giá trị trọng số gán cho items, sau tính giá trị trung bình trọng số cho mẫu dựa vào điều kiện support * meanW < minsup để cắt tỉa mẫu Với thuật toán này, CSDL chiếu đệ quy vào tập CSDL chiếu có trọng số với kích thước nhỏ mẫu có trọng số phát sinh CSDL chiếu có trọng số Tuy nhiên, thuật toán tiếp cận theo hướng tăng trưởng mẫu chia nhỏ CSDL thành CSDL chiếu tiền tố làm cho thuật tốn bị giới hạn khơng gian lưu trữ trình phát sinh CSDL chiếu tiền tố chi phí cao, số trường hợp thực CSDL chuỗi khai thác CSDL dày lớn Năm 20018, Van công [34] đề xuất thuật toán gọi MSPICDBV để khai thác mẫu dựa ràng buộc itemset Thuật toán cải thiện đáng kể hiệu suất toán khai thác mẫu cách sử dụng cấu trúc liệu vector bit động kết hợp với cấu trúc tiền tố để biểu diễn chuỗi ứng viên Tuy nhiên, thuật toán yêu cầu người sử dụng phải xác định trước tập ràng buộc itemset mà không sử dụng ràng buộc trọng số thực tế item CSDL 30 Để cải thiện vấn đề trên, đề tài tập trung nghiên cứu đề xuất thuật toán để khai thác mẫu có trọng số cách sử dụng trọng số thực tế item CSDL đồng thời kết hợp phương pháp mã hóa khối nguyên tố 4.2 Các định nghĩa Trọng số item, itemset, sequence: Trọng số item Weight(i) số thực không âm, thể mức độ quan trọng item CSDL chuỗi Đặt i item đơn, s1, s2, , sn n chuỗi CSDL chuỗi, Weight(i) tính sau: Weight(i) = Với T(i) số lần xuất i CSDL chuỗi, L(sj) chiều dài chuỗi sj Đặt α = chuỗi, tk (1  k  m) thành phần α, bao gồm n item đơn i1, i2, , in, trọng số tk định nghĩa: Weight(tk) = Và Weight(α) là: Weight(α) = Trọng số trung bình: Đặt SD CSDL chuỗi gồm n item đơn ik (1  k  n), trọng số lớn SD (maxW ) là: maxW = max1  k  n (Weight(ik)) trọng số nhỏ SD (minW) là: minW = min1  k  n (Weight(ik)) Khi đó, giá trị trọng số trung bình (MeanW) SD tính sau: meanW = (maxW + minW) / Một chuỗi α chuỗi có trọng số phổ biến support(α) * meanW  minsup 4.3 Thuật toán khai thác mẫu với ràng buộc trọng số Thuật toán khai thác mẫu phổ biến với ràng buộc trọng số đề tài đề xuất trình bày hình 4.1 Thuật toán xây dựng dựa kết hợp giá trị độ hỗ trợ chuỗi trọng số thực item CSDL chuỗi thay sử dụng giá trị trọng số ước lượng người dùng định nghĩa để tìm tập mẫu có trọng số hồn chỉnh có giá trị cao Bên cạnh đó, để biểu diễn thơng tin ứng viên tính tốn độ hỗ trợ ứng viên phát triển mẫu thuật toán sử dụng khối mã hóa nguyên tố [13] sử dụng cấu trúc liệu tổ chức theo chiều dọc Cách tiếp cận nâng cao hiệu suất thực thi phương pháp đề xuất 31 WPM (CSDL, minsup) Duyệt CSDL để xác định meanW F1: danh sách item phổ biến thỏa điều kiện support (i) * meanW  minsup pat_weight := FOREACH item i  F1, S_EXTEND (, F1, minsup) I_EXTEND (, {e  F1 | e lex i}, minsup) S_EXTEND (pat, Sn, minsup) pat_weight  pat; Stemp := FOREACH item j  Sn, pnew = s_extension(pat, j); IF support(pnew)*meanW ≥ minsup THEN Stemp := Stemp  (j) FOREACH item j  Stemp, S_EXTEND (pnew, Stemp, minsup) I_EXTEND (pat, In, min_sup) pat_weight  pat; Itemp := FOREACH item j  In, pnew = i_extension(pat, j); IF support(pnew)*meanW ≥ minsup THEN Itemp := Itemp  (j) FOREACH item j  Itemp, I_EXTEND (pnew, {e  Itemp| e ≻lex j}, minsup) Hình 4.1: Thuật tốn khai thác mẫu với ràng buộc trọng số 4.4 Đánh giá kết thực nghiệm Kết thực nghiệm thuật toán đề tài đề xuất so sánh với thuật toán SPMW [29] Các kết thực nghiệm thực máy tính Intel (R), Core (TM) i3-2370M CPU 2.40 GHz, 4Gb RAM hệ điều hành Windows 10 với ngơn ngữ lập trình Java CSDL sử dụng thực nghiệm liệu chuẩn tải trực tiếp từ http://fimi.ua.ac.be/data/ Đây địa chứa tập liệu tin cậy cộng đồng nghiên cứu khai thác mẫu sử dụng để kiểm chứng thực nghiệm thuật toán đề xuất Các kết thực nghiệm đo lường hiệu suất thời gian thực thuật toán đề xuất so với thuật toán SPMW [29] liệu chuẩn cho hiệu suất thực thi thuật toán mà đề tài đề xuất nhanh hẳn so với thuật toán SPMW tất 32 trường hợp CSDL thực nghiệm Đặc biệt giá trị minsup nhỏ thấy rõ khả thực thi nhanh thuật toán đề xuất so với SPMW 33 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Mục tiêu đề tài nghiên cứu số thuật toán khai thác chuỗi tuần tự, chuỗi đóng có từ đề xuất thuật tốn hiệu Kết quả, đề tài đề xuất thuật tốn có hiệu suất cao so với thuật toán tại, cụ thể sau: - Đề xuất thuật toán TKCS cho toán khai thác top-k mẫu đóng Thuật tốn TKCS có hiệu suất tốt thời gian lẫn nhớ so với thuật tốn TSP thuật tốn đề xuất sử dụng cách xếp mẫu theo thứ tự tăng dần độ hỗ trợ sau mở rộng mẫu có giá trị hỗ trợ cao để tạo mẫu ứng cử viên Hơn nữa, thuật toán sử dụng chiến lược tăng minsup đến giá trị hỗ trợ mẫu danh sách top-k CSP với giá trị hỗ trợ nhỏ - Đề xuất thuật toán hiệu để khai thác mẫu có trọng số việc kết hợp giá trị trọng số thực item CSDL chuỗi với độ hỗ trợ chúng Bên cạnh đó, thuật tốn sử dụng cấu trúc liệu biểu diễn theo chiều dọc nên thuật tốn cần duyệt CSDL lần, tiết kiệm thời gian Hơn nữa, thuật toán áp dụng khối mã hóa ngun tố bước tính tốn q trình phát triển mẫu làm tăng hiệu suất thực thi thuật toán so với tiếp cận khác Trong tương lai, nhóm tác giả hướng tới việc tối ưu thời gian thực thi cho tốn khai thác top-k mẫu đóng cách kết hợp thêm kỹ thuật khác áp dụng mã hóa khối nguyên tố phát triển thuật tốn khai thác tập top-k mẫu có trọng số với liệu chuỗi số lĩnh vực cụ thể chuỗi liệu giao dịch, chuỗi liệu khách hàng, chuỗi lịch sử truy cập web, 34 Tài liệu tham khảo [1] Agrawal, R., Srikant, R., "Mining sequential patterns", Proceedings of the 11th International Conference on Data Engineering, 1995, 3–14 [2] Ayres, J., Gehrke, J.E., Yiu, T., Flannick, J., "Sequential pattern mining using a bitmap representation", Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002, 429–435 [3] Baralis, E., Chiusano, S., Dutto, R., "Applying Sequential Rules to Protein Localization Prediction", Computer and Mathematics with Applications 55, (5), 2008, 867–878 [4] Chezhian, V U., Subash, T., Samy, M R., "Hierarchical sequence clustering algorithm for data mining", Proceedings of the World Congress on Engineering, 2011, 21 – 25 [5] Chuang, K.-T., Huang, J.-L., Chen, M.-S., “Mining top-k frequent patterns in the presence of the memory constraint”, VLDB Journal, 17(5), 2008, 1321-1344 [6] Dong, G., Pei, J., , "Sequence Data Mining", Springer Science + Business Media, LLC, 2007 [7] Fournier-Viger, P., and Tseng, V S., “Mining Top-K Sequential Rules”, Proc of the 7th Intern Conf on Advanced Data Mining and Applications (ADMA 2011), Springer LNAI 7121, 2011, 180-194 [8] Fournier-Viger, P., “Mining Top-K Association Rules”, Proc of the 25th Canadian Conf on Artificial Intelligence (AI 2012), Springer, 2012, 61-73 [9] Fournier-Viger, P., Gomariz, A , Gueniche, T , Mwamikazi, E., Thomas, R , , "TKS: Efficient Mining of Top-K Sequential Patterns", Proc 9th International Conference on Advanced Data Mining and Applications (ADMA 2013), Part I, Springer LNAI 8346, 2013, 109-120 [10] Fournier-Viger, P., Gomariz, A., Campos, M., Thomas, R., "Fast vertical mining of sequential patterns using co-occurrence information", In: PAKDD’14, 2014, 40–52 [11] Gan, W., Lin, J C.-W., Fournier-Viger, P., Chao, H.-C., Yu, P S., "A Survey of Parallel Sequential Pattern Mining", ACM Transactions on Knowledge Discovery from Data, 13(3), Article 25, 2019, 1-34 [12] Garofalakis, M N., Rastogi, R., and Shim, K., "SPIRIT: Sequential Pattern Mining with Regular Expression Constraints", Proc of the Very Large Data Bases Conf., Edinburgh, Scotland, UK, 1999, 223-234 [13] Gouda, K., Hassaan, M., Zaki, M.J., "PRISM: a primal-encoding approach for frequent sequence mining", Journal of Computer and System Sciences 76 (1), 2010, 88–102 35 [14] Han, J., Dong, G., Yin, Y., "Efficient Mining of Partial Periodic Patterns in Time Series Database" 15th International Conference on Data Engineering: Proceedings, 1999, 106-115 [15] Han, J., Kamber, M., "Data Mining: Concepts and Techniques 3nd Edition", Morgan Kanufmann, 2012 [16] Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., and Hsu, M.C., "Freespan: Frequent pattern-projected sequential pattern mining", Proc 2000 Int Conf Knowledge Discovery and Data Mining (KDD’00), 2000, 355–359 [17] Huang, G.-Y., Yang, F., Hu, C.-Z., and Ren, J.-D., “Fast Discovery of Frequent Closed Sequential Patterns based on Positional”, Proc of the 2010 International Conference on Machine Learning and Cybernetics, Qingdao, China, 2010, 444 – 449 [18] Huynh, B., Vo, B., Snasel, V., "An efcient method for mining frequent sequential patterns using multi-core processors", Applied Intelligence, 46(3), 2017, 703–716 [19] Huynh, B., Vo, B., and Snasel, V., “An efficient parallel method for mining frequent closed sequential patterns”, IEEE Access, 5, 2017, 17392-17402 [20] Huynh, B., Trinh, C., Huynh, H., Van, T.T., Vo, B., Snasel, V., "An efficient approach for mining sequential patterns using multiple threads on very large databases", Engineering Applications of Artificial Intelligence, 74, 2018, 242–251 [21] Le, B., Duong, H., Truong, T., and Fournier-Viger, P., “FCloSM, FGenSM: two efficient algorithms for mining frequent closed and generator sequences using the local pruning strategy”, Knowledge and Information Systems, 53(1), 2017, 71–107 [22] Le, T, Vo, B., Huynh, V.-N., Nguyen, N T., and Baik, S W.,” Mining top-k frequent patterns from uncertain databases”, Appl Intell, 50, 2020, 1487–1497 [23] Masseglia, F., Cathala, F., & Poncelet, P., "The PSP Approach for Mining Sequential Patterns", Proceedings of the 2nd European Symposium on Principles of Data Mining and Knowledge Discovery, Nantes, France, 1998, 176-184 [24] Nguyen, L T T., Vo, B., Nguyen, L T T., Fournier-Viger, P., and Selamat, A., “ETARM: an efficient top-k association rule mining algorithm” Applied Intelligence, 248, 2018, 1148–1160 [25] Pei, J., Han, J., Mortazavi-Asl, B., Wang, J., Pinto, H., Chen, Q., Dayal, U., Hsu, M C., "Mining sequential patterns by pattern-growth: the preﬁxspan approach", IEEE Transactions on Knowledge and Data Engineering 16 (10), 2004, 1424–1440 [26] Pei, J., Han, J., and Mao, R., “CLOSET: An efficient algorithm for mining frequent closed itemsets”, In DMKD’01 workshop, Dallas, TX, 2001 [27] Pham, T T., Luo, J., and Vo, B., “An effective algorithm for mining closed sequential patterns and their minimal generators based on prefix trees”, International Journal of Intelligent Information and Database Systems, 7(4), 2013, 324-339 36 [28] Pham, T T., and Van, V., “Applying the attributed prefix tree for mining closed sequential patterns”, Journal of Science and Technology, 54(3A), 2016, 106-114 [29] Sirisha, A., S Pabboju, G Narsimha, "Efficient mining of sequential patterns in a sequence database with weight constraint" IJRITCC, 2016, 394 – 397 [30] Shim, B., Choi, K., Suh, Y., "CRM strategies for a small-sized online shopping mall based on association rules and sequential patterns", Expert Systems with Applications, 39, 2012, 7736 – 7742 [31] Srikant, R and Agrawal, R., "Mining sequential patterns: Generalizations and performance improvements", in: 5th Intl Conf Extending Database Technology, 1996, – 17 [32] Thilagu, M., Nadarajan, R., Ahmed, M.S.I., and Bama, S.S., “PBFMCSP: Prefix Based Fast Mining of Closed Sequential Patterns”, The International Conference on Advances in Computing, Control, and Telecommunication Technologies ATC’09, Trivandrum, Kerala, India, 2009, 484 – 488 [33] Tzvetkov, P., "TSP: Mining Top-k Closed Sequential Patterns", Knowledge and Information Systems, 7(4), 2005, 438-457 [34] Van, T., Vo, B., Le, B., "Mining sequential patterns with itemset constraints"Knowledge and Information Systems, 57(2), 2018, 311-330 [35] Wang, W., Yang, J., "Mining Sequential Patterns From Large Data Sets", Springer, 2005 [36] Wang, J., and Han, J., “BIDE: Efficient mining of frequent closed sequences”, In proc of the 20th Int’ Conf on Data Engineering (ICDE’95): IEEE Computer Society Press, DC, USA, 2004, 79-91 [37] Yan, X., Han, J., and Afshar, R., “CloSpan: Mining closed sequential patterns in large datasets”, Proc of the 3th SIAM International Conference on Data Mining, San Francisco, CA, USA: SIAM Press, 2003, 166 -177 [38] Yun, U., and Leggett, J., "WFIM: Weighted frequent itemset mining with a weight range and a minimum weight", ISBN: 978-0-89871-593-4, 2005, 636–640 [39] Yun, U., and Leggett, J., "WSpan: Weighted sequential pattern mining in large sequence databases", 3rd International IEEE Conference on Intelligent Systems, 2006, 512 – 517 [40] Yun, U., "A new framework for detecting weighted sequential patterns in large sequence databases", Knowledge – base systems, 21, 2008, 110 – 122 [41] Zaki, M.J "SPADE: an efﬁcient algorithm for mining frequent sequences", The Journal of Machine Learning Research, 42, 2001, 31–60 [42] Zaki, M.J., and Hsiao, C., “CHARM: An efficient algorithm for closed itemset mining”, In SDM ‘02, Arlington, VA, 2002, 457 - 473 37

Ngày đăng: 19/05/2023, 22:30