CHƯƠNG 2: THUẬT TOÁN HỌC MÁY CỰC TRỊ TIẾN HÓA
2.5 Mô hình học máy cực trị tiến hóa cho bài toán chấm điểm tín dụng
Dữ liệu đầu vào
Đây là thuật toán học máy có giám sát, do đó, dữ liệu từ các nguồn sẽ được hợp nhất, gán nhãn và tiền xử lí để tạo ra bộ dữ liệu đầu vào sử dụng cho việc huấn
luyện và kiểm định thuật toán (bộ dữ liệu chỉ bao gồm các tiêu chí có ý nghĩa dự báo được lựa chọn và nhãn tương ứng của các điểm dữ liệu).
Bộ dữ liệu đầu vào này sẽ được chia thành 03 tập dữ liệu: tập dữ liệu huấn luyện, tập dữ liệu kiểm định và tập dữ liệu kiểm thử.
o Tập dữ liệu huấn luyện: sử dụng để huấn luyện mô hình, tìm ra bộ
tham số tối ưu của mô hình học máy trên tập dữ liệu huấn luyện.
o Tập dữ liệu kiểm định: sử dụng để đánh giá hiệu năng của mô hình
dựa trên các chỉ số đánh giá cụ thể đối với từng bài toán. Việc đánh giá khách quan dựa trên bộ dữ liệu không dùng trong huấn luyện sẽ giúp hiệu chỉnh các tham số của mô hình để cải thiện hiệu năng.
o Tập dữ liệu kiểm thử: sử dụng để đánh giá khả năng khái quát hoá của
mô hình trên tập dữ liệu bên ngoài thời gian quan sát dung để huấn luyện. Việc đánh giá hiệu năng của mô hình trên tập dữ liệu này sẽ đánh giá được sự ổn đỉnh và khả năng triển khai thực tế.
55
Do đó, bộ dữ liệu huấn luyện và kiểm định thường được lấy mẫu phân tầng từ một bộ dữ liệu có chung các đặc tính để đảm bảo tính tương đồng về các đặc tính dữ liệu, phân phối nhãn giữa hai bộ dữ liệu này.
Huấn luyện mô hình
Quá trình huấn luyện mô hình sẽ được chia thành 02 giai đoạn: tiền huấn luyện mô hình và huấn luyện mô hình.
Tiền huấn luyện mô hình
Giai đoạn này chính là cách tiếp cận tiến hóa, nhằm tìm ra bộ trọng số đầu vào và hệ số ẩn tối ưu, so với việc đơn thuần lấy ngẫu nhiên trong thuật toán học máy cực trị.
Bộ dữ liệu huấn luyện sẽ được chia thành hai bộ nhỏ để tiền huấn luyện cho
bộ tham số đầu vào và hệ số chặn tối ưu, tạm gọi là bộ tiền huấn luyện và tiền kiểm định.
Thuật toán bầy dơi được áp dụng để tìm ra bộ trọng số đầu vào và hệ số chặn tại cả node ẩn tối ưu. Một bầy dơi gồm 𝑁 cá thể được khởi tạo với vị trí mỗi các thể
là một véc-tơ mã hóa các trọng số đầu vào và hệ số chặn. Với mỗi vị trí của cá thể dơi trong bầy, thông qua bộ dữ liệu tiền huấn luyện, bộ trọng số đầu ra sẽ được tính toán theo công thức (2.7) trong mục 2.2. Khi đó, sử dụng bộ trọng số đầu vào và hệ
số chặn được mã hóa bằng vị trí của con dơi, cùng với bộ trong số đầu ra tính toán được, thông qua bộ dữ liệu tiền kiểm định, kết quả dự báo đầu ra theo mô hình sẽ được tính toán. Dự vào công thức (2.15) trong mục 2.4, giá trị thích nghi (sai số RMSE) tương ứng với vị trí của từng cá thể dơi sẽ được tính toán. Việc tính toán
56
như trên lặp lại cho 𝑁 cá thể dơi trong bầy, vị trí đem lại giá trị thích nghi nhỏ nhất sẽ được lưu lại làm giá trị tối ưu của vòng lặp này. Nếu giá trị này nhỏ hơn giá trị nghiệm hiện tại của thuật toán thì nghiệm của thuật toán sẽ được cập nhật lại.
Sau đó, vị trí của các cá thể dơi trong bầy sẽ được cập nhật theo các công thức được đề cập trong mục 2.3. Và việc tính toán sẽ được lặp lại như trên. Thuật toán sẽ
thực hiện qua một số vòng lặp tối đa đã xác định từ trước hoặc khi điều kiện dừng được thỏa mãn. Điều kiện dừng dùng trong luận văn này là khi chênh lệch giữa nghiệm mới cập nhật và nghiệm cũ của thuật toán không đáng kể (nhỏ hơn hoặc bằng một giá trị xác định trước).
Sau bước tiền huấn luyện này, một bộ trọng số đầu vào và hệ số chặn tương ứng với vị trí tốt nhất của cá thể dơi trong bầy có thể tìm được qua thuật toán bầy dơi. Bộ trong số này được cho là tốt hơn so với việc khởi tạo ngẫu nhiên và được sử dụng trong việc huấn luyện mô hình cực trị tiếp theo.
Huấn luyện mô hình
Sau khi bộ trọng số đầu vào và hệ số chặn tại các node ẩn được lựa chọn sau bước tiền huấn luyện mô hình. Trọng số đầu ra sẽ được xác định dựa trên toàn bộ tập dữ liệu huấn luyện như một mô hình học máy cực trị thông thường theo công thức tại mục 2.2.
Kiểm định mô hình
Sau khi tính toán được bộ tham số của mô hình, bộ dữ liệu kiểm định sẽ được sử dụng để đánh giá khả năng dự báo, khả năng khái quát hóa và sự ổn định của mô hình dựa trên các chỉ tiêu xác định dựa theo từng bài toán và bộ dữ liệu.
57
2.5.2 Ưu và nhược điểm của mô hình
Ưu điểm:
▪ Tốc độ huấn luyện nhanh chóng trên tập dữ liệu nhỏ do quá trình huấn luyện dựa vào công thức nghiệm, cho kết quả dự báo tốt hơn so với các
mô hình phân loại khác.
▪ Mô hình học máy cực trị tiến hóa cho kết quả ổn định hơn mô hình học máy cực trị.
Nhược điểm:
▪ Khi dữ liệu huấn luyện lớn, chi phí tính toán ma trận nghịch đảo tổng quát lớn, kết hợp với thuật toán bày đàn yêu cầu năng lực tính toán của
phần cứng rất lớn.
▪ Quá trình tiền huấn luyện để tìm ra bộ tham số đầu vào và hệ số chặn tại các nơ-ron ẩn là thuật toán heuristic, mất nhiều thời gian để tối ưu
nếu kích thước bộ tham số lớn và thường tìm được đáp án tốt hơn chứ chưa chắc là kết quả tối ưu nhất.