2.2 ĐỀ XUẤT THUẬT TOÁN ĐIỀU CHỈNH CỘNG GIẢI BÀI TOÁN NMF
2.2.2.6 Một số kết quả thực nghiệm
Trong mục này, luận án trình bày 4 kết quả thực nghiệm trên các thuật toán: aNMF (thuật toán mới đề xuất), ALS (thuật toán cải tiến của E.F. Gonzalez và Y. Zhang) [48], Lee-Seung (thuật toán của D.D. Lee and H.S. Seung) [72]. Các chương trình được viết bằng MATLAB và chạy trên máy có cấu hình: Intel Pentium
Core 2 P6100 2.0 GHz, RAM 3GB.
a. Thử nghiệm 1
Thử nghiệm này so sánh tốc độ hội tụ đến điểm dừng của thuật toán. Bảng 2.1 trình bày giá trị (W,H) của nghiệm (W, H) nhận được của mỗi thuật toán thực
hiện trong một khoảng thời gian cho trước với tập dữ liệu có kích thước (n, m, r) = (200,100,10) trong đó V, Winit, Hinit được sinh ra một cách ngẫu nhiên với
500 , 0
ij
V , (Winit)ij 0,5 , (Hinit)ij 0,5 .
Bảng 2.1. Giá trị phần dư KKT tương đối.
Thời gian (giây) aNMF ALS Lee-Seung
60 3.6450 3700.4892 3576.0937 120 1.5523 3718.2967 3539.8986 180 0.1514 3708.6043 3534.6358 240 0.0260 3706.4059 3524.6715 300 0.0029 3696.7690 3508.3239
Kết quả trong Bảng 2.1 thể hiện hai thuật toán Lee-Seung và ALS chưa hội tụ đến điểm dừng. Trong khi đó, thuật toán aNMF có thế đạt đến điểm dừng vì có giá trị xấp xỉ bằng 0 sau khi thực hiện trong khoảng thời gian 300 giây.
b. Thử nghiệm 2
Thử nghiệm này so sánh tốc độ hội tụ đến điểm cực tiểu của hàm mục tiêu
f(W, H) của các thuật toán thực hiện trong khoảng thời gian nhất định trên tập dữ liệu có kích thước (n,m,r) = (500,100,20), được tạo ra như sau. Đầu tiên xây dựng ma trận W và H với các phần tử được chọn ngẫu nhiên trong khoảng [0,1] và sau đó tính V = W * H. Đối với ma trận V như vậy, cực tiểu toàn cục của hàm mục tiêu là bằng không. Các thuật toán được chạy 5 lần với 5 cặp khác nhau của Winit, Hinit
với các giá trị được tạo ra một cách ngẫu nhiên trong khoảng [0,1]. Giá trị trung bình của hàm mục tiêu sau 5 lần thực hiện các thuật toán trong khoảng thời gian cho trước được trình bày trong Bảng 2.2.
Bảng 2.2. Các giá trị trung bình của hàm mục tiêu.
Thời gian (giây) aNMF ALS Lee-Seung
60 57.054 359.128 285.011 120 21.896 319.674 273.564 180 18.116 299.812 267.631 240 17.220 290.789 264.632 300 16.684 284.866 262.865 360 16.458 281.511 261.914
Kết quả trong bảng 2.2 chỉ ra rằng giá trị hàm mục tiêu của hai thuật toán Lee- Seung và ALS là khá lớn. Trong khi đó, giá trị hàm mục tiêu của thuật toán đề xuất aNMF nhỏ hơn nhiều.
c. Thử nghiệm 3
Thử nghiệm này cũng để so sánh tốc độ hội tụ đến giá trị cực tiểu của hàm mục tiêu, nhưng theo một cách khác. Các thuật toán sẽ phải thực hiện trong khoảng thời gian cần thiết để có được W, H với giá trị hàm mục tiêu nhỏ hơn một ngưỡng
lập như trong thí nghiệm 2. Thời gian trung bình của 5 lần thực hiện các thuật toán được trình bày trong Bảng 2.3. Các ô ko có giá trị chỉ ra rằng các thuật toán không đạt được giá trị hàm mục tiêu cho trước trong khi đã chạy trong một khoảng thời gian rất lâu.
Bảng 2.3. Thời gian chạy máy trung bình.
Giá trị ngưỡng aNMF ALS Lee-Seung
300 11.035 giây 233.786 giây 49.904 giây 200 17.865 giây 100 44.045 giây 20 132.563 giây 16 534.771 giây 15.9 784.045 giây d. Thử nghiệm 4
Thử nghiệm này như trong thử nghiệm 2, nhưng ma trận V có kích thước 361x2429 được tạo ra từ cơ sở dữ liệu CBCL (http://cbcl.mit.edu/cbcl/software- datasets/FaceData2.html), bao gồm 2429 ảnh đa cấp xám đều có độ phân giải 19x19 pixel. Các chương trình đang chạy trên hai cặp Winit, Hinit được tạo ra một cách
ngẫu nhiên với giá trị trong khoảng [0,10]. Bảng 2.4 trình bày các giá trị hàm mục tiêu của các thuật toán sau khi thực hiện trong một ngưỡng thời gian cho trước.
Bảng 2.4. Giá trị của hàm mục tiêu.
(n,m,r)=(361x2429x10)
Thời gian (giây) aNMF ALS Lee-Seung
60 21250E+04 25798E+04 25398E+04
120 20541E+04 25370E+04 24951E+04
180 20407E+04 25162E+04 24925E+04
240 20349E+04 25071E+04 24900E+04
300 20308E+04 25013E+04 24875E+04
360 20296E+04 24987E+04 24872E+04
(n,m,r)=(361x2429x20)
Thời gian (giây) aNMF ALS Lee-Seung
60 16129E+04 19986E+04 17227E+04
120 14412E+04 18327E+04 16935E+04
240 13596E+04 17401E+04 16811E+04
300 13397E+04 17253E+04 16794E+04
360 13302E+04 17138E+04 16758E+04
Trong mục này luận án đã trình bày đề xuất một thuật toán mới giải bài toán thừa số hóa ma trận không âm. Thuật toán đề xuất có lược đồ tính toán đơn giản, dễ triển khai ứng dụng và qua các thử nghiệm chứng tỏ nó có tốc độ tính toán vượt trội so với một số thuật toán đã biết gần đây như các thuật toán của D.D. Lee và H.S. Seung, E.F. Gonzalez và Y. Zhang. Với các ưu điểm như vậy, thuật toán mới đề xuất có khả năng ứng dụng để giải quyết các bài toán thực tế có kích thước dữ liệu lớn, trích chọn đặc trưng, tạo đại diện ứng dụng trong xây dựng lược đồ thủy vân như được trình bày tiếp dưới đây.