4.1. Môi trường huấn luyện và thực nghiệm
Quá trình huấn luyện và thực nghiệm được cải đặt trên môi trường Kaggle với
GPU T4x2 với bộ nhớ là 16GB. Sử dụng ngôn ngữ lập trình là python.
4.2. Phương pháp đánh giá
Trong khóa luận này, tôi sẽ dựa trên True Positive (TP), False Positive (FP), True
Negative (TN), va False Negative (FN) đánh giá hiệu suất của mô chan đoán ung thử phôi:
¢ True Positive (TP): Là số lượng các điểm đữ liệu thuộc lớp can dự đoán
và được dự đoán đúng.
¢ False Positive (FP): Là số lượng các điểm dit liệu không thuộc lớp cần
đự đoán nhưng lại được dự đoán là thuộc lớp đó.
© True Negative (TN): La số lượng các điểm dit liệu không thuộc lớp cần
dự đoán và được dự đoán đúng là không thuộc lớp đó.
® False Negative (FN): La sé luong cac điểm dữ liệu thuộc lớp can dự
đoán nhưng lại bị dự đoán sai, được dự đoán là không thuộc lớp đó.
4.2.1. Độ chính xác (Accuracy)
Accuracy là một chỉ số đánh giá hiệu suất của mô hình. được tính bang tỉ lệ giữa số lương dữ liệu mà mô hình dy đoán trùng với thực tế và tông số lượng dữ liệu trong bộ dữ liệu. Có thé được hiểu là tỷ lệ các trường hợp được dự đoán đúng bởi mô hình.
, TP +TN ‘00 6
Couracy = TP +TN + FP +FNr =
4.2.2. Fl-score
Precision là ty lệ giữa SỐ lượng đữ liệu được mô hình dự đoán đúng vảo một lớp và tông số lượng các diém dữ liêu được phân loại vào lớp đó.
Byacizion= TP (7)
recision = T——Tp
56
Recall là tỷ lệ giữa số lượng trường hợp được mô hình dự đoán trùng với thực tế
và tông số lượng các điểm thực sự thuộc lớp đó trong bộ dữ liệu.
Recall = TP+FN (8)TP
F1-score là sự kết hợp của precision va recall, được tính dựa trên trung bình điều hỏa của chúng. Giúp đánh giá hiệu suất của mô hình một cách toan điện. Fl-score càng
cao tức là mô hình càng tốt, tỷ lệ dự đoán đúng cao và tỷ lệ bị không bỏ mắt dữ liệu
cũng cao.
— 2 x Recall x Precision
A= Recall + Precision ` THỦ @)
4.3. Két qua
Mô hình sử dung ham tôi ưu là Adam với tốc độ học ban dau là 0,001, tốc độ học sẽ học sẽ giảm sau mỗi 10 epochs nêu mô hình không được cải thiện và sẽ thực nghiệm
với 100 cpochs.
915
loss 910 003
009
M _
0 20 t @ s0 2
Fpoxh
Hình 4-1 Độ lỗi trong quá trình huấn luyện và xác thực
Training and Validation Accuracy
10
%
%.
§ 9
Ễ
<
% wom tk} Accuracy
=—— Vabtatien Accuracy 3
0 + “ 63 to +?
tp
Hình 4-2 Độ chính xác trong quá trình huấn luyện và xác thực
57
Từ hai hình trên cho thay đô lỗi thì gan như bằng không và độ chính xác gần như bằng 100% cho thay. Mô hình hoạt động rất hiện quả trên bộ dữ liệu LC25000 và việc điều chỉnh mô hình GoogLeNet đã mang lại hiệu quả rat lớn.
1000
- 800
- ứnaa
2
Ễ
2
=
- 400
-200
lung && won lung_c
Nhẫn du đoán
Hình 4-3 Ma trận nhầm lẫn
Ma trận nhằm lan có l1 hình anh bị dự đoán sai trên 3000 hình ảnh của tập kiêm tra và trên và công thức SỐ (6) và (9) sẽ tính được độ chính xác là 99.63% và fl-score là 99.6% khi so với các mô hình khác được huấn luyện trên cùng bộ đữ liệu LC25000 ở bảng bên dưới thì kết quả thì kết quả của phương án của tôi vẫn có phần tốt hơn.
ma —— ơ=.
Bảng 4-1 So sánh kết qua của phương án dé xuất với các mô hình khác
58
15.000 hình ảnh phối trong bộ dit liệu LC25000 đã được ba nhà nghiên cứu Abbas [3I. Hatuwal [8] và Mangal [12] sử dụng cho quá trình huấn luyện mô hình của họ với
cách chia như sau:
Abbas [3]: Chia bộ dit liệu thành 3 phan với tỷ lệ 55%, 20% và 25% cho lan lượt tập huấn luyện, kiêm thử và kiêm tra.
Hatuwal [8]: Chia bộ dữ liệu thành 2 phan với tỷ lệ 90% và 10% cho lần lượt tập huấn luyện và kiêm thứ.
Mangal [12]: Chia bộ dữ liệu thành 3 phan với ty lệ 80%, 10% va 10%
cho lần lượt tập huan luyện, kiểm thir và kiém tra.
59