Kết quả thực nghiệm

Một phần của tài liệu Áp dụng máy học để tìm ra các đặc trưng tối ưu trong các bài toán xử lý số liệu lớn (Trang 46)

Phương pháp học máy trình bày ở chương 4 có đưa ra kết quả tối ưu hay không còn phụ thuộc vào một số tham số của thuật toán. Cụ thể các tham số cần phải lựa chọn ở đây là số nơron lớp ẩn, số vòng lặp mạng nơron, số vòng lặp này được sử dụng để ngừng quá trình huấn luyện của mạng nơron khi mà giá trị lỗi tổng thể chưa đạt về giá trị mong muốn. Tham số tiếp theo cần chọn đó là: cỡ quần thể hay là số bộ thuộc tính trong mỗi lần lặp của giải thuật di truyền. Một tham số nữa là số vòng đời hay là số vòng lặp để ngừng giải thuật di truyền.

Chương trình đã được chạy thử rất nhiều lần với các tham số khác nhaụ Sau đây là giá trị của các tham số cho kết quả khả quan hơn cả. Đó là:

Số nơron lớp ẩn: 10

Số vòng lặp mạng nơron: 100 Cỡ quần thể: 10

Số vòng đời: 30

Áp dụng kỹ thuật cross validation với hệ số N=5 trên tập dữ liệu huấn luyện. Kết quả thu được khi cho bộ dữ liệu ban đầu qua Phần 1 như sau:

1 1 0 0 1 1 0 0 1 1 1 0 0 0 0 1 0 0 1 0 0 0 0 1 1 1 1 0 0 0 1 0 0 0 0 1 0 0 0 1 1 1 1 0 1 0 0 0 1 1 0 1 0 0 1 1 1 0 0 1 0 0 0 0 1 0 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 0 1 0 1 1 1 0 0 0 0 1 1 1 0 0 0 0 0 1 1 0 1 0 1 1 1 0 0 1 1 0 1 0 1

Đây là một chuỗi gồm 119 phần tử mà mỗi phần tử có giá trị là 0 hoặc 1, ý nghĩa của giá trị này: phần tử thứ i (i=1,2,..,119) có giá trị 0 tức là cột i không được chọn, ngược lại có giá trị 1 tức là cột i được chọn. Với chuỗi trên, tổng số phần tử có giá trị 1 là 60. Như vậy bộ dữ liệu ban đầu có 119 cột ta lọc ra được 60 cột có độ phù hợp cao nhất là 0.95.

Thời gian để tìm ra bộ thuộc tính trên cỡ khoảng 30 phút. Lý do thời gian lâu như vậy là trong mỗi vòng lặp của giải thuật di truyền, có nhiều bộ thuộc tính, mỗi bộ thuộc tính lại được qua một mạng nơron khác nhaụ Với mỗi mạng nơron lại phải huấn luyện đến 100 lần. Đồng thời mỗi bộ thuộc tính lại tiến hành cross validation với hệ số là 5 nên càng tăng thời gian thực hiện.

47

Để kiểm chứng lại bộ thuộc tính vừa tìm được có độ tin cậy là bao nhiêu, ta tiến hành kiểm tra 10 lần. Mỗi lần kiểm tra là một lần chia ngẫu nhiên bộ dữ liệu ban đầu thành hai tập huấn luyện (chiếm khoảng 70%) và kiểm thử (khoảng 30%) khác nhaụ Chú ý là các tập này chỉ lấy trên các cột vừa được chọn. Khi đó lại phải xây dựng mạng nơron mới phù hợp với bộ số liệu nàỵ Kết quả thu được qua 10 lần kiểm tra như sau:

Bảng 5.2: Giá trị của 10 lần kiểm tra với bộ thuộc tính vừa tìm được ở trên

Đây là kết quả của Phần 2, chúng ta có thể thấy kết quả trực quan hơn qua biểu đồ mô tả ở hình 5.1 sau đây:

Hình 5.1: Biểu đồ tổng hợp 10 lần kiểm tra

Trục nằm ngang thể hiện lần kiểm thử từ 1 đến 10. Nếu coi 119 cột của bộ số liệu ban đầu cho ta độ tin cậy 100% thì với 60 cột vừa tìm được có độ tin cậy trong 10 lần thử nghiệm có giá trị trong khoảng 78.38% đến 86.49%. Các giá trị cụ thể này được mô tả trên trục thẳng đứng của Hình 5.1.

Sau đây là giá trị trung bình và độ lệch chuẩn của bộ các cột vừa tìm được qua 10 lần thực nghiệm được mô tả dưới bảng sau:

Giá trị trung bình Độ lệch chuẩn

Thời gian huấn luyện (phút)

Thời gian kiểm tra (phút)

82.16 % 2.91 % 30 1.5

48

Nhiều lần chạy chương trình cho thấy các cột tìm được dao động trong khoảng 57 - 65 cột với độ tin cậy 83.12 ± 5%. Thời gian kiểm tra cỡ khoảng 1 đến 2 phút.

Nhận xét: Từ các kết quả thực nghiệm trên đối với bộ dữ liệu stomach cancer chúng ta có nhận xét rằng phương pháp học máy cho kết quả tương đối ổn định và tốt.

Để tìm ra được bộ thuộc tính tối ưu nhất với số cột nhỏ hơn nữa, tiếp tục chạy 10 lần bộ dữ liệu đó qua Phần 1. Kết quả thu được là 10 bộ thuộc tính với độ phù hợp tương ứng. Tính trọng số của các cột này theo công thức chương 4:

Sau đó tiến hành lấy thử với 10, 20, 30, 40, 50 cột có trọng số cao nhất. Thời gian để kiểm tra mỗi bộ một lần cỡ khoảng 1 đến 2 phút.

Mỗi bộ 10, 20, 30, 40, 50 cột tiến hành kiểm thử 11 lần. Bảng tổng hợp so sánh các kết quả thực nghiệm của 10, 20, 30, 40, 50 cột qua 11 lần kiểm tra như sau:

Bảng 5.4: Kết quả 11 lần thử nghiệm với bộ các cột khác nhau

49 Hình 5.2: So sánh kết quả thực nghiệm các bộ cột tìm được

Nhìn vào hình vẽ này ta thấy bộ 50 cột cho kết quả dự đoán cao hơn cả. Giá trị trung bình và độ lệch chuẩn của các bộ 10, 20, 30, 40, 50 cột qua 11 lần thực nghiệm được mô tả ở bảng dưới đây:

Bảng 5.5: Bảng giá trị trung bình và độ lệch chuẩn của bộ các cột

Từ bảng 5.5 thấy độ lệch chuẩn của bộ 50 cột nhỏ nhất đồng thời giá trị trung bình của nó là lớn nhất.

Một phần của tài liệu Áp dụng máy học để tìm ra các đặc trưng tối ưu trong các bài toán xử lý số liệu lớn (Trang 46)

Tải bản đầy đủ (PDF)

(62 trang)