Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số khai thác top k mẫu tuần tự p4

6 4 0
Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số khai thác top k mẫu tuần tự p4

Đang tải... (xem toàn văn)

Thông tin tài liệu

MẪU 14KHCN 28 CHƯƠNG 4 KHAI THÁC CHUỖI TUẦN TỰ VỚI RÀNG BUỘC TRỌNG SỐ Khai thác mẫu tuần tự có trọng số giúp tìm ra các mẫu có giá trị cao hơn nên có thể được áp dụng trong nhiều lĩnh vực hơn đồng thời giải quyết một số khó khăn về không gian lưu trữ và tài nguyên thực hiện trong bài toán khai thác mẫu tuần tự với độ hỗ trợ minsup thấp Trong chương này, trình bày một số khái niệm cũng như một số thuật toán đã được công bố cho bài toán khai thác mẫu tuần tự với rang buộc trọng số Đây là cơ sở để.

CHƯƠNG KHAI THÁC CHUỖI TUẦN TỰ VỚI RÀNG BUỘC TRỌNG SỐ Khai thác mẫu có trọng số giúp tìm mẫu có giá trị cao nên áp dụng nhiều lĩnh vực đồng thời giải số khó khăn không gian lưu trữ tài nguyên thực toán khai thác mẫu với độ hỗ trợ minsup thấp Trong chương này, trình bày số khái niệm số thuật toán cơng bố cho tốn khai thác mẫu với rang buộc trọng số Đây sở để đề tài đề xuất tiếp cận khai thác mẫu có trọng số việc kết hợp giá trị trọng số thực item CSDL chuỗi với độ hỗ trợ chúng để tìm tập mẫu phổ biến có giá trị Hơn nữa, thuật toán đề xuất sử dụng phương pháp tiếp cận liệu theo chiều dọc nên thuật toán cần duyệt sỡ liệu lần, tiết kiệm thời gian thực thi Bên cạnh đó, để tăng hiệu suất tính tốn, thuật tốn áp dụng mã hóa khối ngun tố bước tính tốn q trình phát triển mẫu 4.1 Giới thiệu Cho đến có nhiều cơng trình nghiên cứu lĩnh vực khai thác liệu nói chung, khai thác mẫu phổ biến nói riêng Việc khai thác mẫu phần quan trọng khai thác liệu với ứng dụng rộng rãi nhiều lĩnh vực kinh tế khoa học như: phân tích q trình mua bán hàng hóa, dự đốn thiên tai, phân tích chuỗi DNA, phân tích cấu trúc gen,… Bài toán khai thác mẫu từ CSDL chuỗi để tìm tập chuỗi phổ biến thỏa mãn ngưỡng hỗ trợ tối thiểu (min_sup) người dùng đặt [1, 6, 18, 25, 31] Có nhiều thuật tốn đề xuất để cải thiện hiệu suất trình khai thác mẫu CSDL chuỗi PSP [23], PrefixSpan [25], SPADE [41], SPAM [2], PRISM [13], CM-SPADE [5], MCM-SPADE [18] Tuy nhiên thuật toán sử dụng độ hỗ trợ để tìm mẫu khai thác mẫu với độ hỗ trợ tối thiểu thấp phát sinh lượng mẫu khổng lồ, điều làm cho khơng gian lưu trữ mẫu bị tải Để giải vấn đề khơng gian lưu trữ phương pháp cần phải tăng độ hỗ trợ tối thiểu minsup [35, 23], tập mẫu thu giảm đi, nhiên việc làm làm nhiều mẫu có tầm quan trọng cao lại có độ hỗ trợ chưa đủ lớn (tần suất xuất chuỗi tồn CSDL khơng nhiều) Hơn nữa, thuật toán khai thác mẫu thống mẫu có tầm quan trọng nhau, đó, thực tế, thành phần CSDL có tầm quan trọng khác Những items nằm chuỗi có mức hỗ trợ thấp có tầm quan trọng tính 28 trọng số items Do vậy, mẫu có tầm quan trọng cao (hay trọng số cao) mẫu có giá trị cao nên lưu trữ lại để sử dụng Chính thế, mẫu có độ hỗ trợ khơng thỏa điều kiện ngưỡng hỗ trợ tối thiểu mẫu giữ lại sau q trình khai thác mẫu trọng số mẫu đủ lớn Vấn đề tồn cần giải làm cách để khơng làm mẫu có tầm quan trọng giữ độ hỗ trợ tối thiểu mức hợp lý cho việc thu thập lưu trữ tập mẫu sau trình khai thác liệu để không tạo tập mẫu lớn, gây dư thừa Bài toán khai thác mẫu dựa ràng buộc trọng số đề xuất để tìm mẫu khơng phổ biến (không thỏa ràng buộc mức hỗ trợ tối thiểu) lại có items xuất mẫu có tầm quan trọng cao CSDL, từ tìm tập mẫu có trọng số hồn chỉnh, có tầm quan trọng hơn, có lợi ích nhiều việc sử dụng mẫu Nhờ trình khai thác cải thiện hiệu tập mẫu tìm thấy đáp ứng yêu cầu người dùng tốt Việc khai thác mẫu có trọng số thu thập tập mẫu hồn chỉnh với items có mức hỗ trợ thấp có tầm quan trọng cao, cần thiết cho trình sử dụng liệu Srikant Agrawal [31] người khái quát toán khai thác mẫu mà cho phép xử lý ràng buộc thời gian Họ đưa hai loại ràng buộc thời gian ràng buộc khoảng thời gian (time-gap) ràng buộc thời gian - cửa sổ trượt (sliding time window) Trong đó, ràng buộc khoảng thời gian giới hạn thời gian xảy hai thành phần liền kề phải nằm khoảng hợp lý, ràng buộc thời gian - cửa sổ trượt qui định thành phần có thời gian nằm phạm vi cửa sổ nằm giao dịch Ngồi ra, tác giả [31] cịn đưa ràng buộc phân cấp mẫu người dùng định nghĩa Garofalakis đồng [12] đề xuất ràng buộc mẫu dạng biểu thức có qui tắc đưa bốn thuật toán, gọi SPIRIT Trong đó, thuật tốn giải tốn khai thác mẫu với loại biểu thức ràng buộc cho trước Yun cộng đề xuất thuật toán WFIM [38] vào năm 2005 để khai thác mẫu có trọng số CSDL giao dịch lớn cách sử dụng dải trọng số (weight range) trọng số tối thiểu (min_weight) với độ hỗ trợ tối thiểu Trong thuật toán này, item riêng lẻ gán trọng số khác phạm vi trọng số để phản ánh tầm quan trọng chúng ràng buộc trọng số sau đưa vào thuật toán tăng trưởng mẫu để giữ thuộc tính giảm bao đóng WFIM sử dụng tiền tố tiếp cận theo hướng từ lên (bottom – up) xếp theo thứ tự tăng dần Thuật toán cho phép điều chỉnh số lượng itemset phổ biến có trọng số cách thay đổi thông số dải trọng số trọng số tối thiểu 29 ngưỡng hỗ trợ tối thiểu thấp CSDL dày CSDL dài Trọng số độ hỗ trợ item WFIM xem xét riêng để cắt tỉa khơng gian tìm kiếm WFIM cho phép người dùng cân độ hỗ trợ trọng số itemset Năm 2006, Yun cộng [39] đề xuất thuật toán WSpan để khai thác mẫu hiệu cách đưa ràng buộc trọng số vào thuật toán tăng trưởng mẫu bảo toàn thuộc tính giảm bao đóng cách tiếp cận theo hướng CSDL chiếu Tác giả định nghĩa toán khai thác mẫu có trọng số tốn tìm tập hồn chỉnh mẫu có trọng số CSDL với ràng buộc độ hỗ trợ ràng buộc trọng số Tác giả xem xét việc áp dụng ràng buộc trọng số vào khai thác mẫu thuộc tính giảm bao đóng bị phá vỡ việc áp dụng ràng buộc trọng số đơn giản: “Một chuỗi với trọng số thấp mẫu phổ biến việc kết hợp items có trọng số cao chuỗi” Trong thuật toán này, dải trọng số sử dụng items gán giá trị trọng số khác bên dải trọng số, bên cạnh thuật tốn sử dụng giá trị ngưỡng hỗ trợ tối thiểu minsup ngưỡng trọng số lớn (MaxW) để làm điều kiện kiểm tra độ phổ biến mẫu trình khai thác CSDL chuỗi WSpan điều chỉnh số lượng mẫu việc điều chỉnh dải trọng số thành phần CSDL chuỗi đầu vào Năm 2016, Sirisha cộng [29] đề xuất hướng tiếp cận để tìm mẫu với giá trị trung bình trọng số (meanW) mẫu Trong tiếp cận này, giá trị trọng số gán cho items, sau tính giá trị trung bình trọng số cho mẫu dựa vào điều kiện support * meanW < minsup để cắt tỉa mẫu Với thuật toán này, CSDL chiếu đệ quy vào tập CSDL chiếu có trọng số với kích thước nhỏ mẫu có trọng số phát sinh CSDL chiếu có trọng số Tuy nhiên, thuật toán tiếp cận theo hướng tăng trưởng mẫu chia nhỏ CSDL thành CSDL chiếu tiền tố làm cho thuật toán bị giới hạn khơng gian lưu trữ q trình phát sinh CSDL chiếu tiền tố chi phí cao, số trường hợp thực CSDL chuỗi khai thác CSDL dày lớn Năm 20018, Van công [34] đề xuất thuật toán gọi MSPICDBV để khai thác mẫu dựa ràng buộc itemset Thuật toán cải thiện đáng kể hiệu suất toán khai thác mẫu cách sử dụng cấu trúc liệu vector bit động kết hợp với cấu trúc tiền tố để biểu diễn chuỗi ứng viên Tuy nhiên, thuật toán yêu cầu người sử dụng phải xác định trước tập ràng buộc itemset mà không sử dụng ràng buộc trọng số thực tế item CSDL 30 Để cải thiện vấn đề trên, đề tài tập trung nghiên cứu đề xuất thuật toán để khai thác mẫu có trọng số cách sử dụng trọng số thực tế item CSDL đồng thời kết hợp phương pháp mã hóa khối nguyên tố 4.2 Các định nghĩa Trọng số item, itemset, sequence: Trọng số item Weight(i) số thực không âm, thể mức độ quan trọng item CSDL chuỗi Đặt i item đơn, s1, s2, , sn n chuỗi CSDL chuỗi, Weight(i) tính sau: Weight(i) = Với T(i) số lần xuất i CSDL chuỗi, L(sj) chiều dài chuỗi sj Đặt α = chuỗi, tk (1  k  m) thành phần α, bao gồm n item đơn i1, i2, , in, trọng số tk định nghĩa: Weight(tk) = Và Weight(α) là: Weight(α) = Trọng số trung bình: Đặt SD CSDL chuỗi gồm n item đơn ik (1  k  n), trọng số lớn SD (maxW ) là: maxW = max1  k  n (Weight(ik)) trọng số nhỏ SD (minW) là: minW = min1  k  n (Weight(ik)) Khi đó, giá trị trọng số trung bình (MeanW) SD tính sau: meanW = (maxW + minW) / Một chuỗi α chuỗi có trọng số phổ biến support(α) * meanW  minsup 4.3 Thuật toán khai thác mẫu với ràng buộc trọng số Thuật toán khai thác mẫu phổ biến với ràng buộc trọng số đề tài đề xuất trình bày hình 4.1 Thuật toán xây dựng dựa kết hợp giá trị độ hỗ trợ chuỗi trọng số thực item CSDL chuỗi thay sử dụng giá trị trọng số ước lượng người dùng định nghĩa để tìm tập mẫu có trọng số hồn chỉnh có giá trị cao Bên cạnh đó, để biểu diễn thơng tin ứng viên tính tốn độ hỗ trợ ứng viên phát triển mẫu thuật toán sử dụng khối mã hóa nguyên tố [13] sử dụng cấu trúc liệu tổ chức theo chiều dọc Cách tiếp cận nâng cao hiệu suất thực thi phương pháp đề xuất 31 WPM (CSDL, minsup) Duyệt CSDL để xác định meanW F1: danh sách item phổ biến thỏa điều kiện support (i) * meanW  minsup pat_weight := FOREACH item i  F1, S_EXTEND (, F1, minsup) I_EXTEND (, {e  F1 | e lex i}, minsup) S_EXTEND (pat, Sn, minsup) pat_weight  pat; Stemp := FOREACH item j  Sn, pnew = s_extension(pat, j); IF support(pnew)*meanW ≥ minsup THEN Stemp := Stemp  (j) FOREACH item j  Stemp, S_EXTEND (pnew, Stemp, minsup) I_EXTEND (pat, In, min_sup) pat_weight  pat; Itemp := FOREACH item j  In, pnew = i_extension(pat, j); IF support(pnew)*meanW ≥ minsup THEN Itemp := Itemp  (j) FOREACH item j  Itemp, I_EXTEND (pnew, {e  Itemp| e ≻lex j}, minsup) Hình 4.1: Thuật tốn khai thác mẫu với ràng buộc trọng số 4.4 Đánh giá kết thực nghiệm Kết thực nghiệm thuật toán đề tài đề xuất so sánh với thuật toán SPMW [29] Các kết thực nghiệm thực máy tính Intel (R), Core (TM) i3-2370M CPU 2.40 GHz, 4Gb RAM hệ điều hành Windows 10 với ngơn ngữ lập trình Java CSDL sử dụng thực nghiệm liệu chuẩn tải trực tiếp từ http://fimi.ua.ac.be/data/ Đây địa chứa tập liệu tin cậy cộng đồng nghiên cứu khai thác mẫu sử dụng để kiểm chứng thực nghiệm thuật toán đề xuất Các kết thực nghiệm đo lường hiệu suất thời gian thực thuật toán đề xuất so với thuật toán SPMW [29] liệu chuẩn cho hiệu suất thực thi thuật toán mà đề tài đề xuất nhanh hẳn so với thuật toán SPMW tất 32 trường hợp CSDL thực nghiệm Đặc biệt giá trị minsup nhỏ thấy rõ khả thực thi nhanh thuật toán đề xuất so với SPMW 33 ... chỉnh mẫu có trọng số CSDL với ràng buộc độ hỗ trợ ràng buộc trọng số Tác giả xem xét việc áp dụng ràng buộc trọng số vào khai thác mẫu thuộc tính giảm bao đóng bị phá vỡ việc áp dụng ràng buộc trọng. .. cao, số trường hợp thực CSDL chuỗi khai thác CSDL dày lớn Năm 20018, Van công [34] đề xuất thuật toán gọi MSPICDBV để khai thác mẫu dựa ràng buộc itemset Thuật toán cải thiện đáng k? ?? hiệu suất toán. .. minsup) Hình 4.1: Thuật tốn khai thác mẫu với ràng buộc trọng số 4.4 Đánh giá k? ??t thực nghiệm K? ??t thực nghiệm thuật toán đề tài đề xuất so sánh với thuật toán SPMW [29] Các k? ??t thực nghiệm thực

Ngày đăng: 18/06/2022, 14:59

Tài liệu cùng người dùng

Tài liệu liên quan