Phần thực nghiệm sẽ tập trung đánh giá hai khía cạnh: tính chính xác và thời gian thực thi của giải thuật. Thời gian thực thi của giải thuật I-k-Means đƣợc tính tích lũy từ lần chạy thuật toán k-Means ở mức phân giải thứ 2. Ngoài ra, chúng tôi còn thống kê số lần lặp cho đến khi hội tụ của ba thuật toán I-k-Means gốc, I-k-Means kết hợp với kd-tree và I-k-Means kết hợp với CF-tree. Số lần lặp đƣợc tính tích lũy từ lần chạy thuật toán k-Means ở mức phân giải thứ 2 đến mức dữ liệu gốc.
Vì hai thuật toán k-Means và I-k-Means đều đƣợc khởi động với các trung tâm cụm đƣợc tạo ngẫu nhiên, chúng tôi thực hiện mỗi thuật toán 100 lần với các trung tâm cụm khác nhau. Tuy nhiên để nhất quán, mỗi lần thực hiện hai thuật toán trên đƣợc khởi động với cùng một tập trung tâm cụm đƣợc chọn ngẫu nhiên. Sau mỗi lần thực hiện, các tiêu chuẩn đánh giá và thời gian thực hiện đƣợc tính toán. Khi kết thúc thực nghiệm chúng tôi tính giá trị trung bình của các tiêu chuẩn và thời gian thực hiện.
Các bảng từ 5.2 đến 5.6 trình bày kết quả thực nghiệm về năm tiêu chuẩn đánh giá đã đƣợc trình bày ở phần 5.5.1 trên tập dữ liệu Heterogeneous với kích thƣớc dữ liệu khác nhau (từ 1000 đến 8000 chuỗi).
Bảng 5.2 Kết quả thực nghiệm về 5 tiêu chuẩn đánh giá trên tập 1000 chuỗi dữ liệu.
Bảng 5.3 Kết quả thực nghiệm về 5 tiêu chuẩn đánh giá trên tập 2000 chuỗi dữ liệu.
Jaccard NMI Rand FM CSM
k-Means 0.2945 0.6433 0.8183 0.4915 0.4315 I-kMeans 0.4520 0.7882 0.9046 0.6352 0.6487 I-kMeans+kd tree 0.5277 0.8173 0.9292 0.6966 0.7298 I-kMeans+Cf-tree 0.4715 0.8087 0.9053 0.6573 0.6232
Jaccard NMI Rand FM CSM
Clipping 0.1944 0.4341 0.8329 0.3314 0.4131 k-Means 0.3359 0.6730 0.8521 0.5261 0.4912 I-kMeans 0.4740 0.7941 0.9102 0.6540 0.6481 I-kMeans+kd tree 0.4963 0.8053 0.9216 0.6705 0.7260 I-kMeans+Cf-tree 0.4875 0.7980 0.9142 0.6690 0.6172
109
Bảng 5.4 Kết quả thực nghiệm về 5 tiêu chuẩn đánh giá trên tập 4000 chuỗi dữ liệu.
Bảng 5.5 Kết quả thực nghiệm về 5 tiêu chuẩn đánh giá trên tập 6000 chuỗi dữ liệu.
Bảng 5.6 Kết quả thực nghiệm về 5 tiêu chuẩn đánh giá trên tập 8000 chuỗi dữ liệu.
Từ kết quả thực nghiệm đƣợc trình bày trong các bảng trên ta thấy rằng với tập dữ liệu Heterogeneous, phƣơng pháp sử dụng thuật toán I-k-Means kết hợp với kd-tree để tạo các trung tâm cụm khởi động cho kết quả tốt hơn (theo năm tiêu chuẩn đánh giá) so với sử dụng k-Means và I-k-Means truyền thống. Trong một số trƣờng hợp, dùng I-k-Means kết hợp với kd-tree cho kết quả tốt hơn so với I-k-Means kết hợp với CF-tree, và trong một số trƣờng hợp dùng I-k-Means kết hợp với CF-tree cho kết quả tốt hơn so với I-k-Means kết hợp với kd-tree.
Hình 5.7 Kết quả thực nghiệm về thời gian gom cụm trên tập dữ liệu Heterogeneous của bốn thuật toán k-Means, I-k-Means, I-k-Means kết hợp với kd-tree và
I-k-Means kết hợp với CF-tree.
Jaccard NMI Rand FM CSM
k-Means 0.2945 0.6433 0.8183 0.4915 0.4315 I-kMeans 0.4520 0.7882 0.9046 0.6352 0.6487 I-kMeans+kd tree 0.5277 0.8173 0.9292 0.6966 0.7298 I-kMeans+Cf-tree 0.5321 0.8198 0.9287 0.7020 0.6732
Jaccard NMI Rand FM CSM
k-Means 0.3331 0.6632 0.8574 0.5209 0.4801 I-kMeans 0.4400 0.7705 0.9028 0.6215 0.6423 I-kMeans+kd tree 0.4563 0.7867 0.9103 0.6358 0.7076 I-kMeans+Cf-tree 0.4879 0.8009 0.9198 0.6627 0.7072
Jaccard NMI Rand FM CSM
Clipping 0.1346 0.4341 0.8304 0.2384 0.3466 k-Means 0.3178 0.6480 0.8382 0.5124 0.4300 I-kMeans 0.4669 0.7913 0.9091 0.6472 0.6510 I-kMeans+kd tree 0.4713 0.7934 0.9145 0.6490 0.7132 I-kMeans+Cf-tree 0.4901 0.8102 0.9150 0.6708 0.6536 0 5000 10000 15000 20000 25000 30000 35000 40000 1000 2000 4000 6000 8000 Run. time (ms) Number of sequences k-Means I-kMeans
110
Hình 5.7 trình bày kết quả thực nghiệm đo thời gian thực hiện gom cụm trên tập dữ liệu Heterogeneous của bốn phƣơng pháp k-Means, I-k-Means, I-k-Means kết hợp với kd-tree và I-k-Means kết hợp với CF-tree. Kết quả trên biểu đồ cho thấy thời gian thực hiện của thuật toán I-k-Means kết hợp với kd-tree nhanh hơn hoặc xấp xỉ bằng so với thời gian thực hiện của hai thuật toán k-Means và I-k-Means gốc. Thời gian thực hiện gom cụm của thuật toán I-k-Means kết hợp với CF-tree chậm hơn so với khi dùng I-k-Means kết hợp với kd-tree.
Với các tập dữ liệu chƣa đƣợc phân lớp, vì ta chƣa biết trƣớc mỗi chuỗi thuộc lớp nào nên không thể đánh giá qua năm tiêu chuẩn: Jaccard, Rand, FM, CSM, và NMI. Vì vậy, chất lƣợng gom cụm đƣợc đánh giá qua hàm mục tiêu cho bởi công thức (2.8). Chúng tôi thực hiện gom cụm với k = 10 trên các tập dữ liệu này.
Bảng 5.7 Kết quả thực nghiệm đánh giá bốn thuật toán bằng hàm mục tiêu theo kích thước dữ liệu.
Số chuỗi 1000 2000 4000 6000 8000 k-Means 3228.86 5649.47 12388.2 4 17759.05 23504.59 I-k-Means 3270.89 5628.6 12363.61 17699.06 23413.36 I-k-Means + kd tree 3202.29 5618.64 12356.29 17703.19 23425.92 I-k-Means + cf tree 3199.99 5621.39 12357.56 17702.9 23398.05
Bảng 5.7 trình bày kết quả thực nghiệm tính toán hàm mục tiêu theo kích thƣớc dữ liệu sau khi thực nghiệm trên tập dữ liệu Production. Bảng 5.8 trình bày kết quả thực nghiệm tính toán hàm mục tiêu theo năm tập dữ liệu khác nhau. Kích thƣớc dữ liệu đƣợc chọn cố định là 1000 chuỗi.
Kết quả thực nghiệm cho thấy, với các tập dữ liệu thực nghiệm, giá trị hàm mục tiêu khi thực hiện gom cụm bằng thuật toán I-k-Means kết hợp với kd-tree đều nhỏ hơn hoặc xấp xỉ bằng so với giá trị hàm mục tiêu khi thực hiện bằng k-Means hoặc I- k-Means gốc. Trong một số trƣờng hợp, giá trị hàm mục tiêu khi thực hiện gom cụm bằng thuật toán I-k-Means kết hợp với kd-tree tốt hơn so với khi kết hợp với CF-tree. Và trong một số trƣờng hợp, giá trị hàm mục tiêu khi thực hiện gom cụm bằng thuật toán I-k-Means kết hợp với CF-tree tốt hơn so với khi kết hợp với kd-tree.
111
Bảng 5.8 Kết quả thực nghiệm đánh giá bốn thuật toán bằng hàm mục tiêu theo năm tập dữ tập khác nhau.
Tập dữ liệu k-Means I-kMeans I-kMeans + kd tree I-kMeans + CF tree Production 3228.86 3270.88 3202.29 3199.99
Consumer 6793.92 6723.79 6359.73 6403.5 FederalFund 6139.23 6097.18 6061.93 6087.29
Hydrology 9194.96 9191.18 9190.92 9188.36 Economic 9188.44 9184.06 9183.88 9182.86 Bảng 5.9 Kết quả thực nghiệm đánh giá bốn thuật toán bằng hàm mục tiêu
theo số cụm khác nhau.
k k-Means I-k-Means I-k-Means +kd-tree I-k-Means +CF-tree
5 5700.39 5683.87 5689.64 5693.08 6 5687.23 5671.22 5668.34 5671.74 7 5675.78 5657.98 5653.19 5653.19 8 5659.22 5644.07 5640.30 5642.28 9 5663.21 5630.84 5628.77 5629.53 10 5649.47 5628.60 5618.64 5621.39 11 5641.87 5622.09 5610.66 5611.10 12 5634.01 5618.84 5601.01 5604.16 13 5623.08 5617.46 5593.26 5593.26 14 5627.57 5613.47 5585.72 5583.49 15 5612.43 5610.41 5576.00 5576.27
Chúng tôi cũng thực nghiệm so sánh bốn thuật toán trên theo số cụm k khác
nhau. Thực nghiệm đƣợc thực hiện trên tập dữ liệu Production, số chuỗi đƣợc chọn cố định là 2000, số cụm k thay đổi từ 5 đến 15. Bảng 5.9 trình bày kết quả thực nghiệm trong trƣờng hợp này.
Kết quả thực nghiệm trong trƣờng hợp này cho thấy giá trị hàm mục tiêu sẽ giảm dần khi số cụm tăng lên. Và trong hầu hết các trƣờng hợp phƣơng pháp dùng giải thuật I-k-Means kết hợp với kd-tree cho kết quả tốt hơn một ít so với ba phƣơng pháp còn lại. Chỉ riêng trƣờng hợp k = 5, thuật toán I-k-Means kết hợp với kd-tree cho kết quả có hàm mục tiêu lớn hơn một ít so với thuật toán I-k-Means gốc.
Hình 5.8 trình bày kết quả thực nghiệm so sánh thời gian thực hiện của bốn phƣơng pháp k-Means, I-k-Means, I-k-Means kết hợp với kd-tree và I-k-Means kết hợp với CF-tree theo kích thƣớc dữ liệu trên tập dữ liệu Production. Kết quả trên biểu
112
đồ cho thấy thời gian thực hiện của thuật toán I-k-Means kết hợp với kd-tree nhỏ hơn hoặc bằng so với thời gian thực hiện của ba thuật toán I-k-Means kết hợp với CF-tree, k-Means và I-k-Means gốc.
Hình 5.8 Kết quả thực nghiệm so sánh thời gian thực hiện của bốn thuật toán.
Hình 5.9 trình bày kết quả đếm số lần lặp khi thực hiện thực nghiệm ba thuật toán I-k-Means, I-k-Means kết hợp với kd-tree và I-k-Means kết hợp với CF-tree trên tập dữ liệu Production. Số lần lặp đƣợc tính tích lũy từ lần chạy thuật toán k-Means ở mức phân giải thứ hai. Thực nghiệm đƣợc thực hiện trên các tập dữ liệu có kích thƣớc khác nhau: 1000 chuỗi dữ liệu (biểu đồ a), 2000 chuỗi dữ liệu (biểu đồ b), 4000 chuỗi dữ liệu (biểu đồ c).
Hình 5.9 Kết quả đếm số lần lặp tích lũy từ mức phân giải thứ hai khi thực hiện ba thuật toán I-k-Means, I-k-Means kết hợp với kd-tree và I-k-Means kết hợp với CF-tree trên tập dữ liệu
Production.
Kết quả trên biểu đồ cho thấy số lần lặp cho đến khi hội tụ của thuật toán I-k- Means kết hợp với kd-tree và I-k-Means kết hợp với CF-tree nhỏ hơn so với của I-k-
0 50000 100000 150000 200000 250000 300000 350000 400000 450000 1000 2000 4000 6000 8000 Run. time (ms) Number of sequences k-Means I-kMeans
I-kMeans+kd tree I-kMeans+cf tree
0 10 20 30 40 50 60 70 80 90 2 4 8 16 32 64 128 256 512 I-kMeans I-kMeans+ kd -tree I-kMeans+ CF-tree
(a) 0 20 40 60 80 100 120 140 160 2 4 8 16 32 64 128 256 512 I-kMeans I-kMeans+ kd-tree I-kMeans+ CF-tree
(b) 0 20 40 60 80 100 120 140 160 2 4 8 16 32 64 128 256 512 I-kMeans I-kMeans+ kd-tree I-kMeans+ CF-tree
113
Means gốc. Điều này cho thấy, với tập dữ liệu thực nghiệm, kd-tree và CF-tree đã tạo ra các trung tâm cụm khởi động thuật toán ở mức phân giải 2 tốt hơn so với cách lấy ngẫu nhiên của thuật toán I-k-Means gốc và với các trung tâm cụm ban đầu tốt hơn sẽ khiến giải thuật hội tụ về lời giải cận tối ƣu nhanh hơn.
Tóm lại, trong chƣơng này chúng tôi đã ứng dụng phƣơng pháp MP_C vào bài toán gom cụm dữ liệu chuỗi thời gian sử dụng thuật toán I-k-Means kết hợp với kd- tree để tạo các trung tâm cụm khởi động cho thuật toán này. Kết quả đánh giá bằng thực nghiệm cho thấy tuy chất lƣợng gom cụm của phƣơng pháp dùng I-k-Means kết hợp với kd-tree đƣợc cải thiện tốt hơn một ít khi so với sử dụng thuật toán k-Means hoặc I-k-Means gốc nhƣng phƣơng pháp kết hợp này thực hiện bài toán gom cụm dữ liệu chuỗi thời gian nhanh hơn, cho kết quả ổn định hơn (kết quả 100 lần thực nghiệm đều giống nhau). So sánh với phƣơng pháp dùng CF-tree để tạo các trung tâm cụm khởi động cho thuật toán I-k-Means thì phƣơng pháp sử dụng kd-tree thực hiện nhanh hơn và dễ cài đặt hơn trong khi chất lƣợng gom cụm vẫn xấp xỉ. Cũng cần lƣu ý rằng cải tiến về mặt thời gian thực thi là một cải tiến quan trọng cho các giải thuật sử dụng trong lĩnh vực khai phá dữ liệu chuỗi thời gian.
Các kết quả nghiên cứu trong chƣơng này đã đƣợc công bố trong hai bài báo: [A5], [A6] (trong danh mục các tài liệu công bố của tác giả).
114
CHƢƠNG 6. DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN CÓ TÍNH XU
HƢỚNG HOẶC MÙA BẰNG PHƢƠNG PHÁP SO TRÙNG MẪU
Nhiều dữ liệu chuỗi thời gian trong kinh doanh, kinh tế và các lãnh vực đời sống thƣờng biểu hiện tính mùa và tính xu hƣớng. Tính mùa là khuôn mẫu thƣờng lặp lại và có tính chu kỳ do những yếu tố nhƣ thời tiết, lễ tết, những đợt khuyến mãi, v.v... . Mặc dù yếu tố mùa là một thành phần quan trọng nhất trong chuỗi thời gian có tính mùa, xu hƣớng thƣờng đi kèm với biến động mùa và có thể có ảnh hƣởng lớn đến các phƣơng pháp dự báo. Một chuỗi thời gian có xu hƣớng đƣợc xem là một chuỗi thời gian không dừng (nonstationary) và thƣờng phải làm cho trở thành chuỗi thời gian có tính dừng (stationary) trƣớc khi quá trình dự báo diễn ra. Dự báo chính xác dữ liệu chuỗi thời gian có tính xu hƣớng và tính mùa là rất quan trọng để hỗ trợ ra quyết định trong các lãnh vực của đời sống.
Ứng dụng phƣơng pháp so trùng mẫu trong dự báo dữ liệu chuỗi thời gian có tính xu hƣớng và tính mùa là một hƣớng tiếp cận mới cho bài toán đầy thách thức này. Một thể hiện của phƣơng pháp so trùng mẫu là giải thuật k-lân cận gần nhất dùng cho dự
báo chuỗi thời gian. Chƣơng này sẽ trình bày ý tƣởng chính của việc ứng dụng phƣơng pháp thu giảm số chiều MP_C và cấu trúc chỉ mục đƣờng chân trời vào giải thuật k-lân cận gần nhất cho công tác dự báo dữ liệu chuỗi thời gian, đặc biệt cho dữ liệu chuỗi thời gian có tính mùa và xu hƣớng. Kết quả thực nghiệm của cách tiếp cận k-lân cận gần nhất sẽ đƣợc so sánh với một mô hình thông dụng trong dự báo chuỗi thời gian là mạng nơ ron nhân tạo (ANN). Mô hình mạng nơ ron nhân tạo đƣợc dùng để so sánh vì cả hai mô hình nơ ron nhân tạo và mô hình k-lân cận gần nhất đều là những mô hình phi tuyến.