1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số khai thác top k mẫu tuần tự p1

13 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 376,64 KB

Nội dung

MẪU 14KHCN BỘ CÔNG THƯƠNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG Tên đề tài Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số khai thác Top K mẫu tuần tự Mã số đề tài 201 6CNTT01 Chủ nhiệm đề tài Phạm Thị Thiết Đơn vị thực hiện Khoa Công nghệ Thông tin Tp Hồ Chí Minh, 2021 1 LỜI CÁM ƠN Lời đầu tiên, tôi xin chân thành cảm ơn trường Đại học Công nghiệp Tp HCM và tiểu ban Điệ.

BỘ CÔNG THƯƠNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG Tên đề tài: Cải tiến hiệu suất thuật toán khai thác mẫu với ràng buộc trọng số/ khai thác Top-K mẫu Mã số đề tài: 20/1.6CNTT01 Chủ nhiệm đề tài: Phạm Thị Thiết Đơn vị thực hiện: Khoa Công nghệ Thông tin Tp Hồ Chí Minh, 2021 LỜI CÁM ƠN Lời đầu tiên, xin chân thành cảm ơn trường Đại học Công nghiệp Tp.HCM tiểu ban Điện – Điện Tử - CNTT đồng ý thơng qua đề tài nhóm chúng tơi tạo hội cho chúng tơi có điều kiện để nghiên cứu Tôi xin gửi lời cảm ơn đến Phịng QLKH&HTQT, phịng Tài – Kế tốn trường Đại học Cơng nghiệp Tp.HCM tận tình hỗ trợ, hướng dẫn thủ tục, hồ sơ giúp chủ nhiệm đề tài thực văn liên quan Cuối xin gửi lời cảm ơn đến BCN Khoa, tập thể GV Khoa Công nghệ thông tin, Thầy Cô đồng hành động viên, tạo điều kiện để chúng tơi hồn thành đề tài Chủ nhiệm đề tài Phạm Thị Thiết PHẦN I THÔNG TIN CHUNG I Thông tin tổng quát 1.1 Tên đề tài: Cải tiến hiệu suất thuật toán khai thác mẫu với ràng buộc trọng số/ khai thác Top-K mẫu 1.2 Mã số: 20/1.6CNTT01 1.3 Danh sách chủ trì, thành viên tham gia thực đề tài TT Họ tên (học hàm, học vị) Đơn vị cơng tác Vai trị thực đề tài TS Phạm Thị Thiết Khoa CNTT – ĐHCN TP.HCM Chủ nhiệm TS Võ Thị Thanh Vân Khoa CNTT – ĐHCN TP.HCM Thư ký 1.4 Đơn vị chủ trì: Khoa Cơng nghệ Thông tin 1.5 Thời gian thực hiện: 1.5.1 Theo hợp đồng: từ tháng 03 năm 2020 đến tháng 03 năm 2021 1.5.2 Gia hạn (nếu có): đến tháng… năm… 1.5.3 Thực thực tế: từ tháng 03 năm 2020 đến tháng 03 năm 2021 1.6 Những thay đổi so với thuyết minh ban đầu (nếu có): (Về mục tiêu, nội dung, phương pháp, kết nghiên cứu tổ chức thực hiện; Nguyên nhân; Ý kiến Cơ quan quản lý) 1.7 Tổng kinh phí phê duyệt đề tài: 40 triệu đồng II Kết nghiên cứu Đặt vấn đề Khai thác mẫu từ sở liệu (CSDL) chuỗi nhiệm vụ quan trọng lĩnh khai thác liệu Một CSDL chuỗi bao gồm tập chuỗi chứa phần tử (elements), kiện (events) xếp theo thứ tự, đó, mẫu (sequential pattern) chuỗi chứa itemset xuất phổ biến có trình tự, tất item itemset giả sử chúng có thời điểm giao dịch chúng có khoảng thời gian giao dịch, thông thường tất giao dịch khách hàng gắn kết với theo trình tự thời gian xem chuỗi Do đó, tốn khai thác mẫu CSDL chuỗi khai thác chuỗi phổ biến để tìm kiếm mối liên quan item khác CSDL, với yêu cầu mẫu phổ biến chuỗi CSDL chuỗi mà xuất chúng lớn ngưỡng hỗ trợ nhỏ người dùng định hay nói cách khác, toán khai thác mẫu từ CSDL chuỗi để tìm tập chuỗi phổ biến thỏa mãn ngưỡng hỗ trợ tối thiểu (minsup) người dùng đặt Các nghiên cứu trước đề xuất phương pháp để cải tiến hiệu suất trình khai thác mẫu CSDL chuỗi Tuy nhiên đa số nghiên cứu sử dụng độ hỗ trợ tối thiểu nhỏ minsup để tìm mẫu phổ biến khai thác mẫu với độ hỗ trợ tối thiểu nhỏ phát sinh tập mẫu lớn, điều làm cho khơng gian lưu trữ mẫu bị tải Để giải vấn đề khơng gian lưu trữ phương pháp cần phải tăng độ hỗ trợ tối thiểu, nhiên việc làm làm nhiều mẫu có tầm quan trọng cao lại có độ hỗ trợ chưa đủ lớn tần suất xuất chuỗi tồn CSDL khơng nhiều ln phải thay đổi giá trị minsup cho phù hợp với yêu cầu người dùng Cũng có số nghiên cứu đề xuất để cải tiến hiệu suất cho toán khai thác mẫu từ CSDL chuỗi toán khai thác mẫu dựa ràng buộc trọng số hay toán khai thác top-k mẫu tuần tự, v.v Tuy nhiên, nghiên cứu chủ yếu phát triển từ thuật toán khai thác mẫu PrefixSpan Chính vậy, đề tài tập trung vào nghiên cứu điểm yếu phương pháp đề xuất trước từ đề xuất giải pháp hiệu cho toán khai thác mẫu dựa ràng buộc trọng số toán khai thác top-k mẫu từ CSDL chuỗi Kết đề tài đóng góp thêm vào tài nguyên học tập cho sinh viên, học viên ngành Khoa học máy tính Mục tiêu a) Mục tiêu tổng quát Đề xuất giải pháp hiệu cho toán liên quan đến khai thác chuỗi khai thác top-k mẫu tuần tự/ khai thác mẫu với ràng buộc trọng số b) Mục tiêu cụ thể - Nghiên cứu phương pháp khai thác chuỗi đề xuất trước - Nghiên cứu đề xuất thuật toán hiệu để khai thác top-k mẫu / khai thác mẫu với ràng buộc trọng số từ CSDL chuỗi - Đánh giá hiệu suất thuật toán đề xuất Phương pháp nghiên cứu - Sử dụng phương pháp tìm kiếm, thu thập, tổng hợp chọn loc tất TLTK liên quan đến vấn đề cần tiếp cận Sử dụng phương nghiên cứu lý thuyết kết hợp với kết đánh giá thuật toán để đề xuất thuật toán để khai thác chuỗi hiệu Sử dụng phương pháp nghiên cứu thực nghiệm mơ lập trình với ngơn ngữ lập trình để xây dựng thực nghiệm cho thuật tốn đề xuất Đánh giá hiệu xuất thuật toán tập CSDL chuẩn Viết báo cáo khoa học Tổng kết kết nghiên cứu Nội dung nghiên cứu đề tài đạt kết sau: - báo khoa học đăng tạp chí IEEE Access (ISI) Đây sản phẩm đề tài - báo khoa học đăng tạp chí khoa học cơng nghệ - Trường ĐHCN Tp.HCM (Sản phẩm sử dụng làm điều kiện xét hoàn thành nhiệm vụ NCKH nhà trường GV có trình độ tiến sĩ) Đánh giá kết đạt kết luận Kết đạt trình thực đề tài: - Tìm hiểu số thuật toán liên quan đến toán khai thác mẫu - mẫu - đóng, top-k mẫu tuần tự, mẫu với rang buộc trọng số Đã đề xuất thuật toán có hiệu suất cao so với thuật tốn cho tài toán khai thác top-k mẫu đóng tốn khai thác mẫu với rang buộc trọng số Kết đề tài đóng góp vào tài ngun cho mơn học liên quan đến Xử lý khai thác liệu, làm tảng cho việc nghiên cứu, học tập hồn thành khóa luận tốt nghiệp cho sinh viên hệ đại học học viên cao học ngành khoa học máy tính Bên cạnh đó, góp phần nâng cao chất lượng nghiên cứu khoa học, phát triển nghề nghiệp giảng viên công bố khoa học giảng viên, khoa nhà trường Tóm tắt kết (tiếng Việt tiếng Anh) Đề tài đề xuất thuật tốn có hiệu suất cao so với thuật toán tại, cụ thể sau: - Đề xuất thuật toán TKCS (Top-K Closed Sequences) cho toán khai thác top-k mẫu đóng Thuật tốn TKCS có hiệu suất tốt thời gian lẫn nhớ so với thuật toán TSP (Top-K Closed Sequential Patterns) thuật tốn đề xuất sử dụng cách xếp mẫu theo thứ tự tăng dần độ hỗ trợ sau mở rộng mẫu có giá trị hỗ trợ cao để tạo mẫu ứng cử viên Hơn nữa, thuật toán sử dụng chiến lược tăng minsup đến giá trị hỗ trợ mẫu danh sách top-k mẫu đóng (CSP – Closed Sequential Pattern) với giá trị hỗ trợ nhỏ - Đề xuất thuật tốn hiệu để khai thác mẫu có trọng số việc kết hợp giá trị trọng số thực item CSDL chuỗi với độ hỗ trợ chúng Bên cạnh đó, thuật tốn sử dụng cấu trúc liệu biểu diễn theo chiều dọc nên thuật toán cần duyệt CSDL lần, tiết kiệm thời gian Hơn nữa, thuật tốn áp dụng khối mã hóa nguyên tố bước tính tốn q trình phát triển mẫu làm tăng hiệu suất thực thi thuật toán so với tiếp cận khác This research has proposed new algorithms with higher performance than the current algorithms, as follows: - Proposing an algorithm named TKCS (Top-K Closed Sequences) to mine the top-k CSPs efficiently The empirical results indicate that TKCS algorithm has better performance both in terms of time and memory than the current TSP algorithm because it uses strategies in the process of exploiting the top-k CSPs as: always choosing the sequential pattern having the greatest support for generating candidate patterns and storing top-k CSPs in the ascending order of the support values to customize the minsup value more quickly to prune the search space - Proposing an effective algorithm to exploit sequential patterns with weighted constrain by combining the actual weight values of items in the sequence database with their support to find higher-value sequential patterns set Moreover, the proposed algorithm uses a vertical database approach, so the algorithm only needs to scan the database once, thus saving execution time In addition, to increase computational efficiency, the algorithm applies the prime block encoding approach in the computational steps of the extension pattern process Experimental results show that the proposed algorithm has more effective execution time III Sản phẩm đề tài, công bố kết đào tạo 3.1 Kết nghiên cứu (sản phẩm dạng 1,2,3) TT Yêu cầu khoa học hoặc/và tiêu kinh tế - kỹ thuật Tên sản phẩm Đăng ký Bài báo khoa học Đạt 2 … Ghi chú: - Các ấn phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo…) chấp nhận có ghi nhận địa cảm ơn trường ĐH Cơng Nghiệp Tp HCM cấp kính phí thực nghiên cứu theo quy định - Các ấn phẩm (bản photo) đính kèm phần phụ lục minh chứng cuối báo cáo (đối với ấn phẩm sách, giáo trình cần có photo trang bìa, trang trang cuối kèm thông tin định số hiệu xuất bản) 3.2 Kết đào tạo TT Họ tên Thời gian thực đề tài Tên đề tài Tên chuyên đề NCS Tên luận văn Cao học Đã bảo vệ Nghiên cứu sinh Học viên cao học Sinh viên Đại học Ghi chú: - Kèm photo trang bìa chuyên đề nghiên cứu sinh/ luận văn/ khóa luận bằng/giấy chứng nhận nghiên cứu sinh/thạc sỹ học viên bảo vệ thành công luận án/ luận văn;( thể phần cuối báo cáo khoa học) IV Tình hình sử dụng kinh phí T T A B Nội dung chi Chi phí trực tiếp Th khốn chun mơn Ngun, nhiên vật liệu, Thiết bị, dụng cụ Công tác phí Dịch vụ th ngồi Hội nghị, hội thảo,thù lao nghiệm thu kỳ In ấn, Văn phòng phẩm Chi phí khác Chi phí gián tiếp Quản lý phí Chi phí điện, nước Tổng số Kinh phí duyệt (triệu đồng) Kinh phí thực (triệu đồng) 38,978,000 38,978,000 1,022,000 1,022,000 40,000,000 40,000,000 Ghi V Kiến nghị (về phát triển kết nghiên cứu đề tài) - Sử dụng kết nghiên cứu làm tài liệu học tập, nghiên cứu lĩnh vực khai phá liệu - Áp dụng kết nghiên cứu cho việc xây dựng ứng dụng dạng khuyến nghị VI Phụ lục sản phẩm (liệt kê minh chứng sản phẩm nêu Phần III) Bài báo khoa học Chủ nhiệm đề tài Tp HCM, ngày tháng năm Phòng QLKH&HTQT Trưởng Khoa CNTT (Họ tên, chữ ký) Phạm Thị Thiết PGS.TS Huỳnh Trung Hiếu PHẦN II BÁO CÁO CHI TIẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC (báo cáo tổng kết sau nghiệm thu, bao gồm nội dung góp ý hội đồng nghiệm thu) CHƯƠNG TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU 1.1 Đặt vấn đề Khai thác mẫu toán quan trọng lĩnh vực khám phá tri thức khai thác liệu, ứng dụng rộng rãi bao gồm: phân tích thói quen mua sắm khách hàng, mẫu truy cập web, thí nghiệm khoa học, chẩn đoán bệnh, thảm họa thiên nhiên, kết cấu protein Bài toán khai thác mẫu CSDL chuỗi tìm mẫu xuất thường xuyên (được gọi chuỗi phổ biến) để tìm kiếm mối liên quan item khác nhau, kiện tiềm ẩn liệu phục vụ cho mục đích chiến dịch tiếp thị, tái tổ chức kinh doanh, dự báo lập kế hoạch Cho đến có nhiều cơng trình nghiên cứu lĩnh vực khai thác liệu nói chung, khai thác mẫu phổ biến nói riêng Việc khai thác mẫu phần quan trọng khai thác liệu với ứng dụng rộng rãi nhiều lĩnh vực kinh tế khoa học như: phân tích q trình mua bán hàng hóa, dự đốn thiên tai, phân tích chuỗi DNA, phân tích cấu trúc gen,… Bài tốn khai thác mẫu từ CSDL chuỗi để tìm tập chuỗi phổ biến thỏa mãn ngưỡng minsup người dùng đặt [1, 2, 10, 11, 13, 18, 20, 23, 25, 30, 31, 41] Đây toán quan trọng lĩnh vực khai thác liệu từ CSDL chuỗi tảng nhiều nhiệm vụ khai thác liệu khác gom nhóm liệu [4, 15], phân loại dự đốn liệu [15], phân loại liệu dựa luật kết hợp [30] Có nhiều thuật tốn đề xuất để cải thiện hiệu suất trình khai thác mẫu CSDL chuỗi GSP [31], PSP [23], PrefixSpan [25], SPADE [41], SPAM [2], PRISM [13], CM-SPADE [10], MCM-SPADE [14] Tuy nhiên thuật toán sử dụng độ hỗ trợ để tìm mẫu khai thác mẫu với độ hỗ trợ tối thiểu thấp phát sinh lượng mẫu khổng lồ, điều làm cho không gian lưu trữ mẫu bị tải Để giải vấn đề không gian lưu trữ phương pháp cần phải tăng độ hỗ trợ tối thiểu minsup [35, 40], tập mẫu thu giảm đi, nhiên việc làm làm nhiều mẫu có tầm quan trọng cao lại có độ hỗ trợ chưa đủ lớn (tần suất xuất chuỗi tồn CSDL khơng nhiều) Hơn nữa, thuật toán khai thác mẫu thống mẫu có tầm quan trọng nhau, đó, thực tế, thành phần CSDL có tầm quan trọng khác Những items nằm chuỗi có mức hỗ trợ thấp có tầm quan trọng tính trọng số items Do vậy, mẫu có tầm quan trọng cao (hay trọng số cao) mẫu có giá trị cao nên lưu trữ lại để sử dụng Chính thế, mẫu có độ hỗ trợ không thỏa điều kiện ngưỡng hỗ trợ tối thiểu mẫu giữ lại sau trình khai thác mẫu trọng số mẫu đủ lớn Vấn đề tồn cần giải làm cách để không làm mẫu có tầm quan trọng giữ độ hỗ trợ tối thiểu mức hợp lý cho việc thu thập lưu trữ tập mẫu sau q trình khai thác liệu để khơng tạo tập mẫu lớn, gây dư thừa Bài toán khai thác mẫu dựa ràng buộc trọng số đề xuất để tìm mẫu không phổ biến (không thỏa ràng buộc mức hỗ trợ tối thiểu) lại có items xuất mẫu có tầm quan trọng cao CSDL chuỗi, từ tìm tập mẫu có trọng số hồn chỉnh, có tầm quan trọng hơn, có lợi ích nhiều việc sử dụng mẫu Nhờ trình khai thác cải thiện hiệu tập mẫu tìm thấy đáp ứng yêu cầu người dùng tốt Srikant Agrawal [31] người khái quát toán khai thác mẫu mà cho phép xử lý ràng buộc thời gian Họ đưa hai loại ràng buộc thời gian ràng buộc khoảng thời gian (time-gap) ràng buộc thời gian - cửa sổ trượt (sliding time window) Trong đó, ràng buộc khoảng thời gian giới hạn thời gian xảy hai thành phần liền kề phải nằm khoảng hợp lý, ràng buộc thời gian - cửa sổ trượt qui định thành phần có thời gian nằm phạm vi cửa sổ nằm giao dịch Ngoài ra, tác giả [31] đưa ràng buộc phân cấp mẫu người dùng định nghĩa Garofalakis đồng [12] đề xuất ràng buộc mẫu dạng biểu thức có qui tắc đưa bốn thuật toán, gọi SPIRIT Trong đó, thuật tốn giải tốn khai thác mẫu với loại biểu thức ràng buộc cho trước Yun Leggett đề xuất thuật toán WFIM (Weighted Frequent Itemset Mining) [38] vào năm 2005 để khai thác mẫu có trọng số Trong thuật toán này, items riêng lẻ gán trọng số khác phạm vi trọng số để phản ánh tầm quan trọng chúng ràng buộc trọng số sau đẩy vào thuật tốn tăng trưởng mẫu để giữ thuộc tính giảm bao đóng WFIM sử dụng tiền tố tiếp cận theo hướng từ lên (bottom – up) xếp theo thứ tự tăng dần Thuật toán cho phép điều chỉnh số lượng itemsets phổ biến có trọng số cách thay đổi thơng số dải trọng số trọng số tối thiểu ngưỡng hỗ trợ tối thiểu thấp CSDL dày CSDL dài Trọng số độ hỗ trợ item WFIM xem xét riêng để cắt tỉa khơng gian tìm kiếm Tuy nhiên, độ hỗ trợ itemset thường giảm chiều dài itemset tăng lên trọng số có đặc trưng khác itemset có trọng số thấp đơi đạt trọng số cao kết hợp với item có trọng số cao, khơng đảm bảo thuộc tính giảm bao đóng Năm 2006, Yun Leggett [39] đề xuất thuật toán WSpan (Weighted Sequential Pattern Mining) để khai thác mẫu hiệu cách đưa ràng buộc trọng số vào thuật toán tăng trưởng mẫu bảo tồn thuộc tính giảm bao đóng cách tiếp cận theo hướng CSDL chiếu Một dải trọng số sử dụng items gán giá trị trọng số khác bên dải trọng số Thuật toán sử dụng giá trị ngưỡng minsup ngưỡng trọng số lớn (MaxW) để làm điều kiện kiểm tra độ phổ biến mẫu trình khai thác CSDL chuỗi Năm 2016, Sirisha cộng [29] đề xuất hướng tiếp cận để tìm mẫu với giá trị trung bình trọng số (mean_W) mẫu Trong tiếp cận này, trước tiên giá trị trọng số gán vào items theo liệu thực tế, sau định nghĩa giá trị trung bình trọng số cho mẫu dựa vào điều kiện support * mean_W < minsup để cắt tỉa mẫu Với thuật toán này, CSDL chiếu đệ quy vào tập CSDL chiếu có trọng số với kích thước nhỏ mẫu có trọng số phát sinh CSDL chiếu có trọng số Năm 2018, Van công [34] đề xuất thuật toán gọi MSPIC-DBV để khai thác mẫu dựa ràng buộc itemset Thuật toán cải thiện đáng kể hiệu suất toán khai thác mẫu cách sử dụng cấu trúc liệu vector bit động kết hợp với cấu trúc tiền tố để biểu diễn chuỗi ứng viên Tuy nhiên, thuật toán yêu cầu người sử dụng phải xác định trước tập ràng buộc itemset mà không sử dụng ràng buộc trọng số thực tế item CSDL Mặt khác, thuật toán khai thác mẫu phổ biến từ CSDL chuỗi đề cập yêu cầu ngưỡng minsup người dùng định nghĩa Tùy thuộc vào lựa chọn ngưỡng minsup, thuật tốn trở nên chậm tìm số lượng lớn mẫu mẫu, chí khơng có mẫu nào, bỏ qua mẫu có thơng tin có giá trị Vấn đề quan trọng thực tế, người sử dụng có nguồn tài nguyên giới hạn (thời gian không gian lưu trữ) nên phân tích nhiều mẫu kết việc tinh chỉnh thơng số minsup để tìm số lượng mẫu mà người dùng mong muốn tốn thời gian Để giải vấn đề này, thuật toán khai thác theo hướng top-k mẫu phổ biến nghiên cứu đề xuất; đó, k số mẫu có độ hỗ trợ cao mà người dùng mong muốn thuật tốn tìm kiếm trả mà khơng cần xem xét tính tốn ngưỡng minsup phù hợp Thuật toán TSP (Top-K Closed Sequential Patterns) [33] Tzvetkov Và cộng đề xuất năm 2005 để khai thác top-k mẫu phổ (tập phổ biến đóng) mà khơng u cầu người dùng ngưỡng hỗ trợ tối thiểu minsup Thuật toán xây dựng dựa theo hướng tiếp cận phát triển mẫu từ thuật toán PrefixSpan [25], nghĩa thuật toán thực duyệt CSDL để tìm mẫu chứa phần tử, sau xét chuỗi tiền tố chiếu chuỗi hậu tố tương ứng chúng vào CSDL 10 chiếu Ý tưởng thuật toán là: Bắt đầu với ngưỡng minsup 1, sau minsup tăng dần q trình xử lý minsup sử dụng để tìm mẫu phỗ biến với mục đích để giảm khơng gian tìm kiếm Nghĩa có k mẫu với chiều dài không nhỏ min_l tìm thấy minsup gán cho giá trị độ phổ biến mẫu tìm có độ phổ biến nhỏ Và thế, minsup tiếp tục gia tăng suốt trình khai thác mẫu thuật tốn [33] Lợi ích hướng tiếp cận CSDL chiếu (projection-based) xem xét mẫu xuất CSDL mà không thực việc kiểm tra phát sinh mẫu Tuy nhiên, thuật toán TSP phải thực lặp lặp lại việc duyệt/chiếu CSDL nhiều lần nên tốn chi phí chi phí cao thực CSDL dày đặc có nhiều phép chiếu cần thực Thuật toán TKS (Top-K Sequential pattern mining) [9] đề xuất năm 2013 Fournier-Viger Thuật toán sử dụng CSDL bitmap dọc để biểu diễn liệu sử dụng thủ tục thuật tốn SPAM để tạo ứng viên ban đầu sau tiến hành tìm mở rộng mẫu, bên cạnh để tăng hiệu khai thác k mẫu phổ biến thuật toán TKS áp dụng vài chiến lược như: Tăng ngưỡng hỗ trợ để cắt tỉa khơng gian tìm kiếm; Mở rộng mẫu triển vọng nhất; Loại bỏ item không phổ biến tạo ứng viên; Cắt tỉa ứng viên với đồ thứ tự ưu tiên (Precedence Map) Tuy nhiên, thuật toán TKS áp dụng số chiến lược để nâng cao hiệu trình khai thác liệu, thuật tốn TKS cịn nhược điểm sử dụng bit vec-tơ có kích thước cố định vốn đòi hỏi tiêu tốn nhiều thời gian để thực thi phép giao bit vec-tơ 1.2 Sự cần thiết tiến hành nghiên cứu Từ vấn đề đề cập phần 2.1, đề tài tập trung nghiên cứu điểm yếu phương pháp đề nghị trước để từ đề xuất giải pháp hiệu cho toán liên quan đến khai thác chuỗi toán khai thác top-k mẫu khai thác mẫu với ràng buộc trọng số cụ thể sau: - Việc khai thác mẫu có trọng số thu thập tập mẫu hoàn chỉnh với items có mức hỗ trợ thấp có tầm quan trọng cao, cần thiết cho trình sử dụng liệu Do đó, tốn khai thác mẫu dựa ràng buộc trọng số đề xuất để cải tiến hiệu suất toán khai thác mẫu khai thác mẫu phổ biến với giá trị độ hỗ trợ tối thiểu cao khơng mẫu có tầm quan trọng cao (là mẫu có trọng số cao) lại có độ hỗ trợ chưa đủ lớn Tuy nhiên, thuật toán khai thác mẫu với ràng buộc trọng số đề cập phần 2.1 phát triển từ thuật toán khai thác mẫu PrefixSpan phải thực chiếu CSDL duyệt CSDL chiếu nhiều lần q trình mẫu phổ biến Ngồi ra, số thuật toán cần phải xác định trước tập ràng buộc trọng số itemset từ người dùng mà không sử dụng trọng số thực 11 item CSDL Do đó, đề tài tập trung nghiên cứu đề xuất thuật toán cho toán khai thác mẫu với ràng buộc trọng số cách kết hợp ràng buộc mức hỗ trợ tối thiểu lẫn trọng số item CSDL chuỗi để khai thác tập mẫu hoàn chỉnh với tính chặt chẽ mẫu sau q trình khai thác liệu Bên cạnh đó, để tăng hiệu suất trình khai thác mẫu với ràng buộc trọng số, đề tài nghiên cứu áp dụng phương pháp mã hóa khối ngun tố [13] bước tính tốn q trình phát triển mẫu so với thuật tốn trước sử dụng phương pháp chiếu tiền tố - Bài toán khai thác top-k mẫu phổ biến nghiên cứu đề xuất để loại bỏ vấn đề xem xét, tính tốn lựa chọn giá trị ngưỡng minsup cho phù hợp mà đưa mẫu mà người dùng mong muốn Tuy nhiên, thuật toán tốn chi phi cao cho phép chiếu CSDL chiếu phép giao bit vec-tơ để tìm mẫu phổ biến Do tốn khai thác top-k mẫu phổ biến, đề tài tập trung nghiên cứu áp dụng cấu trúc CMAP [9] để cắt tỉa ứng viên sớm giai đoạn phát triển mẫu làm tăng hiệu suất trình khai thác top-k mẫu đóng 1.3 Mục tiêu đề tài Nghiên cứu đề xuất giải pháp hiệu cho toán liên quan đến khai thác chuỗi khai thác top-k mẫu tuần tự/ khai thác mẫu với ràng buộc trọng số từ CSDL chuỗi, sau đánh giá hiệu suất thuật tốn đề xuất so với thuật tốn có - 1.4 Nghiên cứu phương pháp khai thác chuỗi xuất trước Nghiên cứu đề xuất thuật toán hiệu để khai thác top-k mẫu / khai thác mẫu với ràng buộc trọng số từ CSDL chuỗi Đánh giá hiệu suất thuật toán đề xuất so với thuật tốn có Phương pháp nghiên cứu Để đạt mục tiêu nghiên cứu đề tài, nhóm tác giả tiến hành nghiên cứa thuật toán khai thác chuỗi tuần tự, chuỗi đóng Phương pháp nghiên cứu tiến hành cụ thể sau: - Nghiên cứu phương pháp khai thác chuỗi tuần tự, chuỗi đóng, top-k chuỗi xuất trước - Nghiên cứu đề xuất thuật toán khai thác top-k chuỗi đóng/ chuỗi với ràng buộc trọng số - Sử dụng phương pháp nghiên cứu thực nghiệm mơ để xây dựng thực nghiệm cho thuật tốn đề xuất đánh giá hiệu xuất thuật toán tập CSDL chuẩn 12 ... giải pháp hiệu cho toán liên quan đến khai thác chuỗi toán khai thác top- k mẫu khai thác mẫu với ràng buộc trọng số cụ thể sau: - Việc khai thác mẫu có trọng số thu thập tập mẫu hồn chỉnh với items... mẫu làm tăng hiệu suất trình khai thác top- k mẫu đóng 1.3 Mục tiêu đề tài Nghiên cứu đề xuất giải pháp hiệu cho toán liên quan đến khai thác chuỗi khai thác top- k mẫu tuần tự/ khai thác mẫu với. .. Đề xuất giải pháp hiệu cho toán liên quan đến khai thác chuỗi khai thác top- k mẫu tuần tự/ khai thác mẫu với ràng buộc trọng số b) Mục tiêu cụ thể - Nghiên cứu phương pháp khai thác chuỗi đề xuất

Ngày đăng: 18/06/2022, 14:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w