Các mức trên cây phân cấp

Mức Tên các mức Số lƣợng nút

1 Product_family 3

2 Product_department 24

4 Product_subcategory 56

5 Product_class 110

6 Product 1560

Theo Bảng 3.11 các CSDL thực nghiệm có ba cây phân cấp (mức một có ba nút). Độ cao của cây phân cấp là sáu (có sáu cấp).

3.4.2. Kết quả thực nghiệm 3.4.2.1. So sánh bộ nhớ 3.4.2.1. So sánh bộ nhớ Bảng 3.12. So sánh bộ nhớ và số lƣợng các mục CSDL So sánh MINE_FWUIs FAST_MINE_FWUIs SALE-FACT-1997 Số lƣợng mục 275.539 86.837 Bộ nhớ 13,52 MB 4,65 MB SALE-FACT- 1997+1998 Số lƣợng mục 783.639 251.395 Bộ nhớ 38,16 MB 13,46 MB SALE-FACT-SYNC Số lƣợng mục 840.079 269.720 Bộ nhớ 40,92 MB 14,44 MB

Bảng 3.12 thể hiện việc thêm và không thêm các mục thuộc mục cha trên cây phân cấp giữa hai thuật toán MINE_FWUIs và FAST_MINE_FWUIs. Số lƣợng mục và dung lƣợng bộ nhớ tăng lên đáng kể sau khi thêm các mục cha trên cây phân cấp vào CSDL.

Ví dụ với CSDL SALE-FACT-1997, số lƣợng mục ban đầu là 86.837, sau khi thêm các mục cha là 275.539, nhƣ vậy việc thêm mục cha trên cây phân cấp làm số lƣợng mục tăng 317%. Tƣơng tự nhƣ vậy, dung lƣợng dữ liệu là 4,65 MB, sau khi thêm mục cha là 13,52 MB, nhƣ vậy dung lƣợng dữ liệu tăng 290%.

3.4.2.2. Thực nghiệm với hàm MAX và SUM

Khi sử dụng hàm MAX hoặc SUM để xác định trọng số và số lƣợng của các mục nút cha sẽ có bốn trƣờng hợp có thể xảy ra gồm: (max, max), (max, sum), (sum, sum), (sum, max). Trong đó cặp (max, max) nghĩa là sử dụng

Trong mục này, luận án thống kê số lƣợng và tỉ lệ G-FWUI (Generalized FWUI: là các FWUI chứa ít nhất một mục cha trên cây phân cấp) trên CSDL SALE-FACT-SYNC với 02 ngƣỡng minwus khá nhỏ là 0,001% và 0,003%.

Đồng thời, so sánh số lƣợng và tỉ lệ G-FWUI khai thác đƣợc khi sử dụng cặp hàm (max, max) và (sum, sum) khi xác định trọng số của các mục cha và số lƣợng của các mục cha trong từng giao dịch.

Bảng 3.13. Thực nghiệm trên CSDL SALE-FACT-SYNC

Số cấp

minwus = 0,001% minwus = 0,003%

G-FWUI G-FWUI

(max, max) (sum, sum) (max, max) (sum, sum)

% Số lƣợng % Số lƣợng % Số lƣợng % Số lƣợng 0 1559 102 3 65,57% 4.528 73,99% 5.993 62,3% 818 87,53% 1.719 4 92,84% 21.783 95,48% 34.476 90,50% 4.128 97,52% 6.821 5 98,49% 103.292 99,16% 185.371 97,88% 1.906 99,43% 30.612 6 98,97% 151.435 99,43% 274.248 98,58% 26.580 99,62% 45.827

Số liệu thực nghiệm từ bảng 3.13 với CSDL SALE-FACT-SYNC cho thấy cây có độ cao càng lớn thì số lƣợng các FWUI khai thác đƣợc càng lớn, điều này là hợp lý do càng có nhiều mục cha đƣợc thêm vào CSDL hơn. Tƣơng tự nhƣ thế, số lƣợng G-FWUI cũng đƣợc khai thác nhiều hơn.

So sánh tỉ lệ và số lƣợng G-FWUI khai thác đƣợc khi sử dụng cặp hàm (sum, sum) và (max, max) cũng có sự khác biệt đáng kể, trong đó số lƣợng khi sử dụng cặp hàm (sum, sum) lớn hơn khá nhiều so với cặp hàm (max, max) trong cùng một ngƣỡng phổ biến wus. Ví dụ với wus = 0,003% và cây

phân cấp có sáu cấp, số lƣợng G-FWUI khi sử dụng cặp hàm (max, max) là 26.580, khi sử dụng cặp hàm (sum, sum) là 45.827. Do khi sử dụng cặp hàm (sum, sum) sẽ tạo ra các mục cha có số lƣợng và trọng số lớn hơn khi sử dụng

cặp hàm (max, max), nên các mục nút cha sẽ tạo ra nhiều G-FWUI hơn khi kết hợp với các mục trong CSDL có trọng số và số lƣợng nhỏ. Đây là lý do mà sử dụng cặp hàm (sum, sum) sẽ tạo ra nhiều G-FWUI nhất so với các cặp hàm còn lại.

Tùy theo CSDL thực tế nhƣ thế nào mà việc xác định trọng số hay số lƣợng của các mục nút cha sẽ sử dụng cặp hàm nào trong bốn cặp trên cho phù hợp.

3.4.2.3. So sánh thời gian

Kết quả thực nghiệm trên ba CSDL cho trong Bảng 3.10 với thuật toán MINE_FWUIs khi sử dụng các cấu trúc DBV, MBiS, EDBV và EIWS đƣợc chỉ ra trong các hình 3.10-3.12:

Hình 3.10. So sánh thời gian trên CSDL SALE-FACT-1997

Hình 3.11. So sánh thời gian trên CSDLSALE-FACT-1997+1998 308,02 308,02 234,82 174,82 156,32 000 050 100 150 200 250 300 350 000 000 000 000 000 000 ti me (s ) minwus (%) DBV MBiS EDBV EIWS 2634,16 2228,732 1028,981 899,458 0 500 1000 1500 2000 2500 3000 0.3 0.2 0.1 0.06 0.03 0.01 ti me(s ) minwus(%) DBV MBiS SDBV EIWS

Hình 3.12. So sánh thời gian trên CSDL SALE-FACT-SYNC

Hình 3.10-3.12 so sánh thời gian chạy của bốn cấu trúc DBV, MBiS, EDBV và EIWS với thuật toán MIN_FWUIs. Kết quả thực nghiệm chỉ ra rằng thuật toán MINE_FWUIs hiệu quả nhất khi sử dụng cấu trúc EIWS. Ví dụ, CSDL SALE-FACT-1997, với ngƣỡng minwus = 0,01%, thời gian chạy với DBV, MBiS, EDBV và EIWS lần lƣợt là 308,02s, 234,82s, 174,82s và 156,32s. Nhƣ vậy EIWS nhanh hơn EDBV, MBiS vàDBV lần lƣợt là 1,12; 1,34 và 1,76 lần.

Cũng nhƣ các kết quả thực nghiệm trong chƣơng 2, các cấu trúc IWS và MBiS có hiệu quả trên CSDL thƣờng và CSDL thƣa. Do đó đối với khai thác tập mục phổ biến trên CSDL số lƣợng có sự phân cấp mục cũng có kết quả tƣơng tự. Ngồi ra, ta có thể thấy thời gian khai thác FWUI trên CSDL số lƣợng có sự phân cấp lớn hơn so với trên CSDL số lƣợng thông thƣờng (cùng so sánh trên các CSDL SALE-FACT) do việc thêm các mục nút cha trên cây phân cấp vào CSDL và phải xác định trọng số, số lƣợng cho các mục này. Đồng thời trong q trình khai thác ln phải kiểm tra mối quan hệ cha con giữa các mục trong tập mục mới tạo thành. Mặt khác, sau khi thêm các mục nút cha vào CSDL, CSDL mới tạo thành cũng lớn hơn CSDL gốc do đó cũng cần nhiều thời gian hơn để khai thác trên CSDL mới so với CSDL gốc.

Kết quả thực nghiệm với thuật toán FAST_MINE_FWUIs và MINE_FWUIs đƣợc trình bày qua các Hình 3.13-3.15:

2757,776 2109,512 1292,55 910,23 0 500 1000 1500 2000 2500 3000 0.3 0.2 0.1 0.06 0.03 0.01 ti me(s ) minwus(%) DBV MBiS EDBV EIWS

Hình 3.13. So sánh thời gian trên CSDL SALE-FACT-1997

Hình 3.14. So sánh thời gian trên CSDL SALE-FACT-1997+1998

Hình 3.15. So sánh thời gian trên CSDL SALE-FACT-SYNC

Hình 3.13-3.15 chỉ ra sự hiệu quả của thuật toán FAST_MINE_FWUIs so với MINE_FWUIs khi cùng sử dụng cấu trúc EIWS. Điều này thể hiện các ƣu điểm của việc không chèn thêm mục cha vào CSDL và xác định nhanh mối quan hệ cha con của tập mục tạo thành từ hai tập mục trong cùng một lớp tƣơng đƣơng trên HIT-tree. Cụ thể ta có kết quả đối với CSDL SALE-FACT- 1997 nhƣ trong Bảng 3.14 sau đây:

156,321 45,563 0 50 100 150 200 0.3 0.2 0.1 0.06 0.03 0.01 ti me(s ) minwus(%) MINE_FWUIs- EIWS FAST_MINE_FWUIs-EIWS 393,452 899,458 0 200 400 600 800 1000 0.3 0.2 0.1 0.06 0.03 0.01 ti me(s ) minwus(%) MINE_FWUIs-EIWS FAST_MINE_FWUIs-EIWS 495,872 1021,441 0 500 1000 1500 0.3 0.2 0.1 0.06 0.03 0.01 ti me(s ) minwus(%) MINE_FWUIs - EIWS FAST_MINE_FWUIs -EIWS

Bảng 3.14. So sánh thời gian chạy trên CSDL SALE-FACT-1997

Thuật toán minwus

MINE_FWUIs FAST_MINE_FWUIs

DBV MBiS EDBV EIWS EDBV EIWS

0,3% 18,41 16,68 11,68 6,21 4,68 2,33 0,2% 45,59 33,53 21,53 12,38 11,53 6,43 0,1% 57,26 42,03 26,03 19,32 17,03 10,12 0,06% 71,82 60,92 30,923 28,41 24,92 14,24 0,03% 121,46 90,76 52,76 45,46 30,76 18,54 0,01% 308,02 234,82 174,13 156,32 90,65 45,56

Từ bảng 3.14, với minwus = 0,01% thuật toán FAST_MINE_FWUIs với cấu trúc EDBV có thời gian chạy là 90,65s nhanh hơn thuật toán MINE_FWUIs (174,13s) là 1,93 lần. Điều này cho thấy tính hiệu quả của việc khơng thêm mục cha vào CSDL và việc xác định nhanh mối quan hệ cha con của các mục trong tập mục tạo thành từ hai tập mục trong cùng một lớp tƣơng đƣơng của HIT-tree.

Bên cạnh đó, cấu trúc EIWS cho thấy hiệu quả khá tốt so với các phƣơng pháp khác. Ví dụ với minwus = 0,01%, thuật tốn FAST_MINE_FWUIs với

cấu trúc EDBV có thời gian chạy là 90,65s, với cấu trúc EIWS có thời gian chạy là 45,56s. Nhƣ vậy sử dụng cấu trúc EIWS nhanh hơn 49,8% so với cấu trúc EDBV.

Các kết quả thực nghiệm về mặt thời gian trên đã cho thấy thuật toán FAST_MINE_FWUIs nhanh hơn hẳn thuật toán MINE_FWUIs trong khai thác tập mục phổ biến trên CSDL số lƣợng có sự phân cấp mục. Điều này chứng tỏ các cải tiến đã trình bày trong phần 3.3 của chƣơng 3 này là có hiệu quả rõ rệt.

3.5. Kết luận chƣơng

Chƣơng này của luận án đề xuất hai cấu trúc EDBV và EIWS với các phần tử là các LI, đây là các mở rộng của DBV và IWS. Đồng thời đề xuất sử dụng mảng MAP định nghĩa trƣớc vị trí các bit 1 của các số nguyên hai byte và sử dụng các phép dịch và AND bit để “cắt” các word (hai byte) từ các LI để ánh xạ vào mảng MAP để tính tidset của các tập mục giúp tính nhanh wus

của chúng. Các kết quả thực nghiệm từ Hình 3.10-3.12 đã cho thấy hiệu quả của EIWS và EDBV đối với các cấu trúc trƣớc đó trên ba CSDL thực nghiệm lấy từ bản Foodmart2000 của SQL2000.

Bên cạnh đó, chƣơng này đề xuất hai mệnh đề nhằm tối ƣu bộ nhớ và tiết kiệm thời gian khai thác FWUI trên HQDB. Thứ nhất, Mệnh đề 3.2 đƣa ra cách xác định tidset mục cha thông qua tidset của các mục con ở nút lá trên cây phân cấp. Bằng mệnh đề này, việc khai thác trên HQDB không tốn thời gian thêm mục cha vào các giao dịch của HQDB nhƣ các phƣơng pháp trƣớc đây và đồng thời không tốn bộ nhớ để lƣu trữ các mục cha này trong CSDL, điều này thật sự có hiệu quả, nhất là trên các CSDL có nhiều cây phân cấp và độ sâu của các cây phân cấp là lớn. Thứ hai, Mệnh đề 3.3 chứng minh việc xác định trong tập mục mới tạo thành từ hai tập mục cùng lớp tƣơng đƣơng trên HIT - tree bằng cách kiểm tra mối quan hệ của đúng một cặp mục cuối của tập mục mới. Trong khi các phƣơng pháp trƣớc đây kiểm tra 2 (m - 1) cặp với m là số lƣợng mục của tập mục cần kiểm tra. Kết quả thực nghiệm từ Hình 3.13 - 3.15 cho thấy hiệu quả khi áp dụng hai mệnh đề đề xuất trong chƣơng này.

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Các kết quả đạt được

Luận án đã khảo sát các nghiên cứu đã có về khai thác tập mục phổ biến trên CSDL, đặc biệt là khai thác FWI và FWUI trên CSDL số lƣợng và khai thác FI trên CSDL có sự phân cấp các mục. Trên cơ sở đó, luận án đề xuất cấu trúc MBiS [I], cấu trúc IWS [II] cấu trúc DTab [IV] để khai thác hiệu quả tập mục phổ biến trên CSDL số lƣợng. Tiếp đến, luận án đề xuất bài toán khai thác tập mục phổ biến trên CSDL số lƣợng có sự phân cấp các mục. Luận án đề xuất một số cải tiến nhƣ tính tidset của mục cha dựa trên tidset các mục con, cấu trúc EDBV, EIWS là các mở rộng của các cấu trúc DBV và IWS áp dụng trong khai thác hiệu quả tập mục trên CSDL số lƣợng có sự phân cấp các mục. Các kết quả nghiên cứu nêu trên đã đƣợc cơng bố trên các tạp chí và hội thảo trong nƣớc và quốc tế uy tín.

Đối với khai thác tập mục trên CSDL số lƣợng, các cấu trúc dữ liệu đƣợc đề xuất trong luận án là IWS và MBiS là các cấu trúc mới theo hƣớng tiếp cận bit-vector, cải tiến hiệu quả rõ rệt so với các cấu trúc đã có nhƣ BitTable hay DBV về bộ nhớ sử dụng cũng nhƣ thời gian xử lý. Bên cạnh đó, đối với cấu trúc IWS, luận án đề xuất sử dụng một mảng MAP định nghĩa trƣớc vị trí bit 1 trong các phần tử của cấu trúc để tính nhanh wus (đối với khai thác FWUI) và ws (đối với khai thác FWI) trên CSDL số lƣợng. Đồng thời luận án đề xuất cấu trúc DTab và DHeap đối với khai thác Top-rank-k tập mục phổ biến trên CSDL số lƣợng. Hiệu quả của các cấu trúc này đƣợc minh họa cụ thể qua các kết quả thực nghiệm trong chƣơng 2.

Đối với khai thác tập mục trên CSDL số lƣợng có sự phân cấp các mục, hai cấu trúc EDBV và EIWS là mở rộng của các cấu trúc DBV và IWS tƣơng ứng, bằng cách sử dụng các phần tử là các LI. Luận án đƣa ra giải pháp sử dụng các phép dịch bit và AND bit để vẫn sử dụng đƣợc mảng MAP nhƣ đối với cấu trúc IWS giúp tính nhanh wus (đối với khai thác FWUI) và ws (đối

với khai thác FWI). Bên cạnh đó, luận án đề xuất một số mệnh đề nhằm xác định tidset của các mục cha thông qua tidset của mục con trên cây phân cấp và xác định nhanh mối quan hệ cha con của các mục trong một tập mục để giảm bộ nhớ lƣu trữ CSDL và tăng tốc tính tốn cho bài toán khai thác FWUI trên HQDB. Các kết quả thực nghiệm trong chƣơng 3 đã cho thấy sự hiệu quả của các đề xuất đối với bài toán này.

Hướng phát triển

Luận án đã nghiên cứu các phƣơng pháp khai thác tập mục phổ biến trên CSDL số lƣợng và CSDL số lƣợng có sự phân cấp các mục. Luận án đề xuất một số thuật toán với các cấu trúc dữ liệu mới hiệu quả hơn các phƣơng pháp khai thác tập phổ biến đã có. Tuy nhiên, các bài tốn trên CSDL số lƣợng có sự phân cấp các cần đƣợc mở rộng và nghiên cứu tiếp nhƣ:

1. Giải quyết bài toán khai thác tập mục phổ biến đóng, tập phổ biến tối đại đối với HQDB.

2. Nghiên cứu các hƣớng tiếp cận hiệu quả hơn trong khai thác tập mục phổ biến trên HQDB dày.

3. Mở rộng bài toán khai thác FWUI trên HQBD lớn, khi đó cần sử dụng các hệ thống tính tốn hiệu năng cao để giải quyết bài tốn với các mơ hình song song hóa thuật tốn một cách hợp lý.

4. Giải quyết bài toán khai thác tập mục phổ biến với CSDL số lƣợng có nhiều tham số (trọng số, thời gian, giá trị, mức độ yêu thích, v.v…) của các mục.

DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

[I] Nguyen Duy Ham, Vo Dinh Bay, Nguyen Thi Hong Minh, Tzung Pei Hong (2015), “MBiS: an efficient method for mining frequent weighted

utility itemsets from QDB”, Journal of Computer Science and Cybernetics,

31(1), pp.17–30.

[II] Nguyen Duy Ham, Bay Vo, Nguyen Thi Hong Minh, Tzung Pei Hong (2015), “An improved algorithm for mining frequent weighted itemsets”,

in Proc. of the International conf on IEEE System, Man, Cybernetics,

Hong Kong, pp. 2579–2584.

[III] Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh (2015), “Thuật toán hiệu quả khai thác tập phổ biến từ cơ sở dữ liệu số lƣợng có sự phân cấp mục”, Hội nghị khoa học quốc gia lần thứ 8:“Nghiên cứu cơ bản và ứng dụng CNTT”, Viện CNTT – Đại học Quốc gia Hà Nội, tr. 679-686.

[IV] Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh (2015), “Thuật toán hiệu quả khai thác Top – rank – k tập phổ biến trọng số hữu ích”, Hội thảo quốc gia lần thứ 18: “Một số vấn đề chọn lọc về CNTT và

TT”, tr. 312–317.

[V] Nguyen Duy Ham, Bay Vo, Nguyen Thi Hong Minh, Witold Pedrycz (2016), “An Efficient Algorithm for Mining Frequent Weighted Itemsets using Interval Word Segments”, Applied Intelligence, pp.1 -13.

TÀI LIỆU THAM KHẢO

[1] Agrawal, R., & Srikant, R. (1994). Fast algorithms for minings association rules.

Proc. of the 20th International Conf on Very Large Data Bases, pp. 487-499.

[2] Agrawal, R., Imielinski, T., & Swami, A. (1993). Mining association rules between sets of items in large databases. Proc. of the 1993 ACM SIGMOD International conference on Management of data, 22(2), 207-216.

[3] Agrawal, R., Mannila, H., Srikant, R., Toivonen, H., & Verkamo, I. A. (1996). Fast discovery of association rules. Proc.of Conf on Advances in Knowldege Discovery and Data Mining, pp. 307-328.

[4] Ali, Z. S., & Rathore, Y. (2014.). A effective and efficient algorithm for cross level frequent pattern mining. Proc. of Conf on Advances in Engineering and Technology Research, pp. 1-6.

[5] Baralis, E., Cagliero, L., Cerquitelli, T., & Garza, P. (2012). Generalized association rule mining with constraints. Information Science (Elsevier Science Inc), 194, pp. 68-84.

[6] Baralis, E., Cagliero, L., Cerquitelli, T., D’Elia, V., & Garza, P. (2014). Expressive generalized itemsets. Information Sciences, 278, pp. 327-343.

[7] Cai, C. H., Fu, A. C., Cheng, C. H., & Kwong, W. W. (1998). Mining association rules with weighted items. Proc. of Conf on IEEE Intelligence Database Engineering and Applications Symposium, pp. 68-77.

[8] Deng, H. Z., & Fang, G. (2007). Mining top-rank-k-frequent patterns. Proc. of

Conf on Machine Learning and Cybernetics, pp. 1763-1768.

[9] Deng, H.-Z. (2012). A new algorithm for fast mining frequent itemsets using N-list. Science china information science, 55(9), pp. 2008-2030.

[10] Deng, H.-Z., & Long, S. (2014). Fast mining frequent itemsets using Nodesets. Expert Systems with Applications, 41(10), pp. 4505-4512.

[11] Deng, Z.-H. (2014). Fast mining top-rank-k - frequent patterns by using Node- list. Expert Systems with Applications, pp. 1763-1768.

[12] Deng, Z.-H., & Lv, S.-L. (2015). PrePost+: An efficient N-Lists-based Algorithm for Mining Frequent Itemsets via Children-Parent Equivalence

.2 sau khi thêm mục cha

Thuật toán xác định giao hai IWS