TOM TAT KHÓA LUẬN
Chương 3. PHƯƠNG PHÁP THUC HIỆN
Bộ dữ liệu
Bộ dữ liệu C-NMC 2019 là bộ dữ liệu các tế bào đã được gắn nhãn (bình thường với ung thư), được cung cấp để huấn luyện bộ phân loại dựa trên phương pháp học máy dé xác định tế bào bạch cầu bình thường và tế bao bạch cầu ung thư. Các tế bào này đã được phân đoạn từ các hình ảnh hiển
vi. Các hình ảnh này là đại diện cho các hình ảnh trong thế giới thực bởi vì chúng chứa một số lỗi về ánh sáng và vệt nhiễu, dù rằng những lỗi này phần lớn đã được xử lý bằng phương pháp nội bộ chuẩn hóa nhuộm màu [12] [13] [14] [15] [16]. Bộ dữ liệu đã được gan nhãn bởi một bac sĩ
chuyên khoa ung thư.
Bộ dữ liệu này được sử dụng cho cuộc thi IEEE ISBI 2019 “Classification
of Normal vs Malignant Cells in B-ALL White Blood Cancer Microscopic
Images”. Cuộc thi có thé được tim thay tai [2].
Bộ dữ liệu có tông cộng 15114 ảnh, được chia thành ba tập con, bao gồm tập huấn luyện chứa 10661 ảnh, trong đó có 7272 thuộc về lớp ALL (ung
thư), 3389 thuộc lớp HEM (bình thường). Tập đánh giá chứa 1867 ảnh,
trong đó có 1219 thuộc lớp ALL, 648 thuộc lớp HEM. Tập kiểm tra chứa
2586 ảnh, trong đó có 1761 thuộc lớp ALL, 825 thuộc lớp HEM. Tuy
nhiên, nhãn của tập kiểm tra không được cuộc thi công bó, thí sinh chỉ được nộp kết quả dự đoán dé xem điểm đánh giá (Hình 3.7).
Kích thước của mỗi ảnh trong bộ đữ liệu là 450x450, tuy nhiên phần ảnh của tế bào chỉ có kích thước khoảng 300x300, phần còn lại của ảnh chỉ là phan màu đen không có thông tin (xem hình Hình 3.2), nên nhóm quyết định xử lý lại ảnh đầu vào, chỉ tiết được nêu ở mục 3.3
31
Phân phối dữ liệu
8000 T272 7000
6000 5000
4000 3389
3000
- 1761
2000 1219 -
Training_ set Validation_set Testing set
BO: lớp tế bàn khỏemạanh M1: lớp tế bao ắc tính ALL
Hình 3.1 Minh họa số lượng mẫu ở các lớp trong các tập đữ liệu.
Hình 3.2 Minh họa một số ảnh từ bộ đữ liệu, hàng trên là tế bảo ung thư,
hàng dưới là tế bào bình thường.
3.2 Các nghiên cứu liên quan
Rất nhiều hướng giải quyết được đề xuất trong cuộc thi ISBI2019, trong đó phải kể đến phương pháp của nhóm tác giả Shubham Goswami, Suril
Mehta, Dhruv Sahrawat, Anubha Gupta, Ritu và Gupta với bài báo
“Heterogeneity Loss to Handle Intersubject and Intrasubject Variability in
32
Cancer” [17]. Trong bài báo này, nhóm tác giả đã đề xuất hàm mat mát mới là “Heterogeneity Loss” nhăm giải quyết van đề mat cân bằng dit liệu
bang cách buộc mang no-ron phải học các đặc trưng đối tượng độc lập.
Nhóm tác giả cũng đề xuất phương pháp tông hợp nhằm giúp cung cấp cải thiện sự phân lớp qua các mô hình được huấn luyện trên 7 thư mục cho trọng số F1 đạt 95,26% trên bộ dự liệu kiểm tra, và đây là kết quả tốt nhất đạt hang 1 trong bảng xếp hạng cuộc thi ISBI2019 sử dụng bộ dữ liệu C- NMC2019 dé phân lớp tế bào B-ALL (Hình 3.3).
Các vấn đề và hướng giải quyết được nêu trong bài báo:
e Di liệu: dùng cross-validation chia dữ liệu vào 7 thư mục tương ứng
7 CNN dé huấn luyện độc lập về sau.
e Mô hình sử dụng huấn luyện : Inception-v3, trọng số khởi tạo từ
ImageNet.
e Xử lý mat cân bang dữ liệu: sử dụng ham mất mát đề xuất
Heteroheneity Loss.
e Chiến thuật tông hợp khai thác điểm tin cậy độc lập được huấn
luyện qua mô hình Inception-v3 và ham mat mát đề xuất dé đi đến quyết định cuối cùng.
Comparison of different works Weighted-f\(%)
Kulhalli et al. (2019) 84.90 Ding et al. (2019) 85.52 Shah et al. (2019) 86.6 Shi et al. (2019) 87.98 Pan et al. (2019) 91.04 Gehlot et al. (2020) 94.86
Proposed 0 = 0.95 95.26
(ensemble with harmonic mean) | ỉ = 0.98 95.24
Hình 3.3 So sánh phương pháp đề xuất của tác giả với các công trình liên
quan khác.
33
Ngoài ra, còn có công trình của nhóm tác giả Shiv Gehlot, Anubha Gupta, Ritu Gupta trong bai báo “SDCT-AuxNet0: DCT Augmented Stain
Deconvo-lutional CNN with Auxiliary Classifier for Cancer Diagnosis”
[18]. Nhóm tác giả dé xuất mô hình mới cho phân lớp chân đoán bệnh ung thư và phương pháp này đạt 94,8% F1 Score đứng thứ 2 trên bảng xếp
hạng.
Và tuyển tập các bài báo liên quan được gom vào ebook “ISBI2019 C- NMC Challenge: Classification in Cancer Cell Imaging” được công bố bởi Spinger [19]. Tiêu biểu trong đó có các bài báo của nhóm tác giả Jonas Prellberg và cộng sự đề xuất mạng ResNeXt kết hợp với Squeeze-and-
Exicitation [20] đạt Fl 88.91% trên tập final test. Nhóm tác giả Fenrui
Xiao và cộng sự đề xuất mạng DeepMEN và sử dụng bộ tăng thời gian
thực nghiệm [21] đạt Fl 88.56%. Nhóm tác giả Hao-Yi Yang và cộng sự
đề xuất phương pháp học kết hợp băng cách đặt trọng số cho mỗi mô hình
theo độ tin cậy dự đoán thu được từ Monte Carlo dropout [22] đạt F1 89.28%.
3.3 Phương pháp thực hiện
Như ở mục 3.2, các nghiên cứu liên quan thì các tác giả đã xây dựng hàm
mất mát mới, tạo ra mô hình DCT hỗ trợ phân loại tốt hơn, phương pháp
mô hình kết hợp cùng với các phương pháp xử lý ảnh đầu vào và tăng
cường dữ liệu. Dựa trên các công trình liên quan như trên, khóa luận này
chúng tôi cải tiến hàm mất mát từ Focal Loss và Hinge Loss mà chưa có tác giả sử dụng hay cải tiến theo hướng này. Chúng tôi cũng kế thừa ý tưởng kết hợp mô hình — là phương pháp da số các tác giả thường sử dụng
dé cho ra hiệu suất tốt hơn.
Tổng quát phương pháp thực hiện như Hình 3.4 sau:
34
Image Xử lý ảnh đầu ván Tang crime dữ liệu Chun hóa Data Mean
Crop A :
Resize vẻ 134x124 và
Xoay ngau nhiên chuan boa
Lit ngang
Ket hop - Ensemble Xử lý mat căn hằng đữ liệu
Mang CNN
Weighted-
Binary cross
EfIdfw (
Focal Loss DenseNet201 ty
|
Hinge Loss ans aa as
Ham mat mat EffickentNet
đẻ xuat Focal B2 =
Hinge Loss
Hình 3.4 Tổng quát phương pháp thực hiện của khóa luận.
Sau đây là chỉ tiết phương pháp thực hiện khóa luận.
3.3.1 Phương pháp tiền xử lý ảnh đầu vào
¢ Loại bỏ phan thông tin không hữu ích
Ảnh dữ liệu gốc có kích thước 450x450, nhưng bản thân tế bào chỉ có kích thước dao động trong khoảng 200x200 đến 300x300, không gian còn lại của ảnh là phần dư thừa màu đen, không mang thông tin cho việc huấn luyện. Nếu sử dụng nguyên ảnh gốc cho việc huấn luyện, điều này có thé gây nên sự mất mát thông tin quan trọng cho huấn huyện và từ đó dẫn đến hiệu suất mô hình bị sụt giảm. Vì vậy nhóm quyết định loại bỏ bớt phần màu đen, crop ảnh về kích thước sát nhất của phần tế bào, nhưng vẫn đảm
bảo giữ nguyên tỉ lệ 1:1 của ảnh (xem Hình 3.5).
35
228x228
Hình 3.5 Minh họa một số ảnh sau khi crop, hàng trên là tế bào ung thư,
hàng dưới là tế bào bình thường.
Tăng cường dữ liệu và Oversampling
Sau bước xử lý ảnh trên, nhóm sử dụng phương pháp tăng cường dữ liệu
(Data Augmentation). Mô hình học sâu cần được huấn luyện trên một tập
dữ liệu rất lớn dé có thé thê hiện hiệu suất cao. Trong khi đó, đữ liệu huấn luyện của bài toán chỉ có hơn 10000 ảnh. Do đó nhóm quyết định tăng cường dữ liệu, để làm gia tăng sự đa dạng cho dữ liệu và giúp giảm overfitting. Bên cạnh tăng cường dữ liệu, nhóm đồng thời sử dụng phương pháp Oversampling, mục dich là để gia tăng số lượng ảnh cho lớp thiêu số, khiến mô hình “nhìn thấy” lớp thiểu số nhiều hơn và phần nào giúp giảm
sự thiên vị của mô hình cho lớp đa số. Nhóm sử dụng kỹ thuật tăng cường
dữ liệu như điều chỉnh độ tương phản CLAHE [23] và phép xoay ở giai
đoạn offline (thủ công). Ngoài ra, nhóm còn tăng cường dtr liệu ở giai đoạn
online (tăng cường trong quá trình huấn luyện) nhớ sự trợ giúp của phương thức ImageDataGenerator [24] cung cấp bởi Keras, cho phép tạo ra dữ liệu
đã được áp dụng các phép biến đổi cho trước theo thời gian thực. Các kỹ
thuật tăng cường dữ liệu ở giai đoạn online được sử dụng là phép xoay
(ngẫu nhiên trong khoảng (—180°, 180°)), phép lật ngang và lật dọc. Dữ
36
liệu huấn luyện sau khi tăng cường thủ công cộng với Oversampling gia tăng từ 10661 lên 20050 ảnh và số lượng ảnh ở mỗi lớp xấp xỉ bằng nhau
(Bang 3.1)
Bang 3.1 Phân phối dir liệu huấn luyện trước va sau khi tăng cường.
Trước tăng cường Sau tang cường
Té bao ung thu 7272 9272
Tế bao bình thường 3389 10778
Tổng 10661 20050
Resize và chuân hóa dữ liệu
Trải qua các bước xử lý trên, ảnh lúc này sẽ được resize về đúng kích thước mà các mô hình được huấn luyện trước (pre-trained model) cho phép (ví dụ, 224x224). Tiếp đến, anh sẽ được chuân hóa bằng phương pháp DataMean: đầu tiên, tính giá trị trung bình và độ lệch chuẩn của tất cả ảnh trong tập huấn luyện; sau đó, mỗi ảnh trong tập huấn luyện, tập đánh giá, tập kiểm tra sẽ trừ cho giá trị trung bình và chia cho độ lệch chuẩn đã tính
được trước đó.
Vì tính chất hình ảnh giống nhau, khó phân biệt giữa hai lớp, cộng thêm dữ liệu huấn luyện ít và sự mất cân bằng giữa hai lớp trong bộ dữ liệu dẫn đến việc phân loại khó đạt kết quả chính xác cao. Những kỹ thuật tăng cường
dữ liệu thông thường không tạo nhiều sự thay đổi trong cấu trúc của ảnh nên nếu tăng cường quá mức, ngoài việc có thể không đạt thêm được hiệu suất đáng ké mà còn tiêu tốn rất nhiều thời gian cho huấn luyện. Vì lý do trên, nhóm sử dụng phương pháp giải quyết van đề mat cân bằng dữ liệu theo hướng tiếp cận hàm mat mát.
37
3.3.2 Phương pháp xử lý mat cân bằng dữ liệu
Weighted Binary Cross-entropy (WBCE): đây là phương pháp phổ biến được sử dụng với các bài toán xử lý mat cân bằng dit liệu. Mục đích “trừng phạt” mạnh hơn đối với lớp có số lượng mẫu ít, nghĩa là khi dự đoán sai các lớp hiếm gặp sẽ gây ra biến động lớn trong hàm mat mát và ngược lại.
Hàm WBCE được biểu diễn như sau:
1 (6)N
WBCE =-—) wà + yi + log(p(%)) + Wo * (1— yi) + log (L— pO9)
1
Công thức 6 Hàm mat mát Weighted Binary Cross-entropy.
Với w¡ xác định bởi:
N (7)
wi =
C.N;
Công thức 7 Trọng số của hàm WBCE.
Trong đó:
e w, là trọng sô lớp i.
e 7; là số lượng mau của lớp i.
e N làtông số mẫu dữ liệu.
e© c là tông số lớp.
Đây là phương pháp đơn giản, nhưng mang lại hiệu quả trong các bài toán
mat cân bang các lớp trong bộ dữ liệu. Ngoài tính w; dựa vào công thức
trên, w; còn có thê được điêu chỉnh băng cách thủ công đê có trọng sô phù hợp hơn với dữ liệu.
Hàm mất mát Focal Loss xem Công thức 4:
Như được giới thiệu ở mục 2.4.1, hàm Focal Loss giảm sự “trừng phạt” với các mâu dê phân loại, từ đó gia tăng sức ảnh hưởng của các mâu khó phân
38
3.3.3
loại. Tỉ lệ trên có thê được điều chỉnh qua tham số tập trung gamma. Nhóm
áp dụng hàm mắt mát Focal Loss với y = 2.
Hàm mat mát Hinge Loss xem Công thức 5:
Như được giới thiệu ở mục 2.4.2, băng việc maximum-margin đã giúp cho những mẫu nằm gần nhau, dễ bị lẫn lộn, khó phân biệt, được tách ra giúp việc phân loại dé dàng hon và có hiệu quả đáng kế đối với bài toán.
Ham mat mát cải tiên Focal Hinge Loss
Cuối cùng, nhóm thực hiện cải tiến hàm mat mát dựa trên ý tưởng của Focal Loss và Hinge Loss. Từ những kết quả thực nghiệm trong quá trình huấn luyện, nhóm nhận thay hàm mat mat đóng vai trò quan trọng đối với
độ chính xác của kết quả phân lớp, giúp giải quyết được van đề mat cân bằng dữ liệu. Lấy cảm hứng từ kết quả sau khi sử dụng hàm mất mát Focal loss va Hinge loss, nhóm xây dựng một hàm mat mát, tạm gọi là Focal Hinge loss (FHL), kết hợp từ hai hàm trên, với hàm mat mát Hinge loss làm cơ sở và kết hợp với ý tưởng của Focal loss. Công thức của hàm mat mát được biểu diễn như sau:
FHL = a* max(0,1- y_true * y_pred)’ (8)
Công thức 8 Ham mat mát Focal Hinge Loss.
Voi
1 (9)
Công thức 9 Dinh nghĩa tham số alpha.
39
Loss
Hình 3.6 Minh họa sự thay đổi của ham Focal Hinge Loss với một số giá
tri gamma khác nhau.
Tương tự với Focal loss, hàm mat mát Focal Hinge loss thêm một nhân tố điều chỉnh gamma (y > 1) cho phép điều khiến sự tập trung của mô hình trong quá trình huấn luyện. Khi y = 1, FHL tương đương với Hinge Loss. Dựa vào Hình 3.6, khi gamma càng lớn, giá trị mất mát của các mẫu dễ phân loại sẽ càng giảm và của các mẫu khó phân loại sẽ càng tăng, điều này có nghĩa răng mô hình sẽ dành sự tập trung nhiều hơn vào các mẫu khó phân loại. Trong van đề mat cân bang, các mẫu thuộc lớp có số lượng mẫu nhỏ sẽ rơi vào trường hợp mẫu khó phân loại, với hàm mat mát FHL, nó cung cấp cho người sử dụng một cách thức dé có thé giải quyết tình trang
trên thông qua việc hiệu chỉnh gamma.
40
4.2