5
KẾT QUẢ HIỆN THỰC
Trong chương này, chúng tôi xin mô tả các tập dữ liệu sẽ sử dụng, các tiêu chuẩn đánh giá, phương pháp thực nghiệm và đánh giá các kết quả đạt được.
Mục lục
5.1 Tập dữ liệu . . . 36
5.2 Một số tiêu chuẩn đánh giá hệ thống phân lớp . . . 37
5.3 Phương pháp thực nghiệm . . . 38
5.4 Đánh giá các kết quả đạt được . . . 38
CHƯƠNG 5 KẾT QUẢ HIỆN THỰC 36
5.1 Tập dữ liệu
5.1.1 Đặc điểm hình thái của phôi bào ALL
Việc phân lớp tế bào lympho trong hình ảnh hiển vi khá phức tạp vì ngay cả một chuyên gia cũng gặp khó khăn khi phân loại một số loại tế bào lympho. Trên thực tế, những khía cạnh đặc biệt về hình thái của phôi bào ALL và tế bào lympho bình thường không khác nhau nhiều. Tất nhiên ngày nay các công cụ chẩn đoán chính xác đã có sẵn (ví dụ: phân loại miễn dịch học) nhưng chúng yêu cầu mẫu máu, và vì phương pháp không dựa trên hình ảnh nên khả năng sử dụng những công cụ này trong các ứng dụng y tế từ xa là khá hạn chế. Theo phân tích thị giác trong chẩn đoán ALL (phương pháp FAB), những đặc trưng mà các kỹ thuật viên phòng lab xem xét trong quá trình quan sát hình ảnh là:
• L1: Các phôi bào ALL nhỏ và đồng nhất. Các hạt nhân trò, đều đặn với ít khe hở và không dễ thấy. Ít tế bào chất và thường không có không bào.
• L2: Các phôi bào ALL đều lớn và không đồng nhất. Các hạt nhân không đều và thường bị tách ra. Một hoặc nhiều có nhân con lớn. Thể tích tế bào chất có thể thay đổi, nhưng thường lớn và có thể chứa không bào.
• L3: Các phôi bào ALL có kích thước lớn vừa phải và đồng nhất. Hạt nhân đều đặn và có hình bầu dục tròn. Có một hoặc nhiều nhân con nổi bật. Thể tích tế bào chất vừa phải và chứa các không bào nổi bật.
Hình 5.1:Sự biến đổi hình thái phôi bào theo phương pháp phân loại FAB: (a) tế bào lympho ở người bình thường, (b-d) nguyên bào lympho từ các bệnh nhân theo thứ tự lần lượt là L1, L2 và L3.
5.1.2 Tập dữ liệu ALL-IDB
Bộ dữ liệu được cung cấp bởi Khoa Công nghệ thông tin của trường Đại học Milano. Hình ảnh tế bào bạch cầu được chụp bằng kính hiển vi quang học kết hợp với máy ảnh kỹ thuật số Canon PowerShot G5. Tập ảnh có định dạng JPG với độ sâu màu là 24 bit. Độ phóng đại của kính hiển vi là từ 300 đến 500 lần. Cơ sở dữ liệu ALL-IDB bao gồm hai tập dữ liệu khác nhau IDB1 và IDB2. Ta sẽ kiểm tra thuật toán trên tập ALL-IDB2 vì nó được xây dựng để kiểm tra hiệu suất của các hệ thống phân lớp. Tập dữ liệu này chứa những vùng ảnh các tế bào bạch cầu lành tính và ác tính, được cắt ra từ tập ALL-IDB1. ALL-IDB2 được dùng để phát hiện phân đoạn và bài toán phân lớp.
CHƯƠNG 5 KẾT QUẢ HIỆN THỰC 37
Tập dữ liệu chứa 260 hình ảnh, 50% lành tính và 50% ác tính. Phương pháp phân lớp được đề xuất sẽ xây dựng một bộ phân lớp nhị phân vì tập dữ liệu chứa hai lớp (tế bào lành tính và tế bào ác tính).
Chú thích về tên ảnh của tập dữ liệu: Các tệp hình ảnh ALL-IDB2 được đặt tên với ký hiệu ImXXX_Y.jpg trong đó XXX là số nguyên có 3 chữ số (số thứ tự của bức ảnh) và Y là chữ số boolean bằng 0 nếu tế bào được đặt ở giữa ảnh là một tế bào bình thường và bằng 1 nếu tế bào đó là phôi bào. Tất cả hình ảnh có nhãn Y = 0 là của những người khỏe mạnh và tất cả hình ảnh có nhãn Y = 1 là của bệnh nhân ALL.
5.1.3 Tập dữ liệu C-NMC
Để khắc phục hạn chế của việc sử dụng một tập dữ liệu duy nhất cũng như để mở rộng phạm vi công việc, chúng tôi sẽ mở rộng nghiên cứu thêm tập dữ liệu thứ hai, độc lập và gần đây hơn, C-NMC. Bộ dữ liệu này được dùng để phân loại tế bào bình thường và tế bào ác tính B-ALL tại IEEE ISBI-2019, bao gồm một lượng lớn hình ảnh được dán nhãn của các tế bào bình thường và ác tính. Hình ảnh tế bào được trích xuất từ hình ảnh hiển vi phết máu sau khi bình thường hóa vết bẩn. Kích thước của tập dữ liệu huấn luyện là 10.661 hình ảnh từ 76 đối tượng, bao gồm 7.272 hình ảnh tế bào của 47 bệnh nhân ALL và 3.389 hình ảnh của 29 đối tượng có tế bào bạch cầu khỏe mạnh.
5.2 Một số tiêu chuẩn đánh giá hệ thống phân lớp
Để kiểm tra hiệu suất của phương pháp được đề xuất, ta sử dụng độ chính xác (accuracy), độ nhạy (sensitivity), độ đặc trưng (specificity), precision, recall, độ đo F1 (F-measure), root mean square error (RMSE) và hệ số xác định (R2) cũng như thời gian tính toán để chọn lọc đặc trưng. Công thức của các độ đo:
Accuracy= TP+TNTP++TNFP+FN Recall= TPTP+FN Precision=TPTP+FP F1=2×PrecisionPrecision×+RecallRecall
trong đó: “TP” (true positives) là số mẫu tế bào ác tính được gán nhãn chính xác bởi bộ phân lớp, “TN” (true negatives) là số mẫu lành tính được gán nhãn chính xác bởi bộ phân lớp. “FP” (false positives) là số mẫu lành tính nhưng lại bị gán nhãn sai là ác tính, “FN” (false negatives) là số mẫu ác tính nhưng bị gán nhãn là lành tính.
CHƯƠNG 5 KẾT QUẢ HIỆN THỰC 38
5.3 Phương pháp thực nghiệm
Trong phần này, chúng tôi sẽ tiến hành một nghiên cứu trên các tham số của giải thuật SSA mà nhóm chúng tôi đề xuất để đánh giá hành vi thăm dò và khai thác của nó trong công đoạn lựa chọn đặc trưng của bài toán phân lớp tế bào bạch cầu. Biến thể cải tiến hơn của SSA này sẽ được hiện thực để cho thấy độ hiệu quả của giải thuật trong việc giảm tỷ lệ lỗi phân loại sử dụng bộ phân loại SVM với kernel linear.
Để chứng minh tính tối ưu của giải thuật, chúng tôi sử dụng chiến lược chia ngẫu nhiên tập dữ liệu thành tập huấn luyện và tập kiểm thử như sau: 80% để huấn luyện (tách 80% để huấn luyện và 20% để kiểm tra nội sử dụng kiểm tra chéo 5-fold) và 20% để kiểm tra sau cùng. Hai tập tách biệt hoàn toàn với nhau. Đối với tập ALL-IDB2, tỷ lệ này tương ứng với 208 và 52 ảnh, trong khi tập C-NMC lần lượt là 8529 và 2132 ảnh. Để đảm bảo tính thống kê của các kết quả, việc chia tập dữ liệu này sẽ được thực hiện trong 20 lần chạy độc lập. Vì vậy các kết quả thống kê thu được sẽ dựa trên 20 lần chạy độc lập này và lấy trung bình.
Phương pháp phân loại này được hiện thực bằng ngôn ngữ Python 3 trên hệ điều hành Windows 10 64 bit sử dụng một CPU Core i5-8250U và 8 GB RAM. Phần trích xuất đặc trưng bộ dữ liệu hình ảnh bạch cầu sử dụng thư viện Keras dùng GPU của Google Colab.
Kích thước quần thể của chuỗi salp được sử dụng trong nghiên cứu này là 20 và số vòng lặp tối đa của giải thuật là 100. Các kết quả được thống kê đều dựa trên tập kiểm thử. Các tham số của giải thuật được trình bày trong bảng 5.1.
Tham số Giá trị Ý nghĩa
α 0.99 Trọng số trong hàm mục tiêu NIters 100 Số vòng lặp tối đa
NAgents 10 Kích thước của quần thể chuỗi salp
NRuns 20 Số lần chạy
Không gian bài toán Số lượng đặc trưng trong dataset Không gian tìm kiếm Vector nhị phân[0,1]
ω 0.7 Trọng số quán tính
Bảng 5.1:Danh sách các tham số của giải thuật
5.4 Đánh giá các kết quả đạt được
5.4.1 Đánh giá bộ đặc trưng trích xuất từ VGGNet
Trong phần này, hiệu suất của phương pháp phân loại hình ảnh tế bào bạch cầu dựa trên bộ đặc trưng đã được chọn lọc sau khi trích xuất từ mạng VGG19 sẽ được so sánh với các kiến trúc mạng CNN hiện đại khác trên phương diện độ chính xác phân loại (sử dụng Linear Support Vector Machine) và thời gian trích xuất đặc trưng. Tất cả các mạng nơ-ron học sâu được so sánh đều phức tạp về mặt cấu trúc so với mạng VGG19 mà chúng tôi đề xuất sử dụng. Ví dụ, Resnet11 và Xception15 tạo ra khoảng 100 nghìn đặc trưng, Inception14 tạo ra 51 nghìn đặc
CHƯƠNG 5 KẾT QUẢ HIỆN THỰC 39
trưng và Mobilenet13 tạo ra 50 nghìn đặc trưng, trong khi đó VGGNet được sử dụng trong luận văn này chỉ trích xuất ra hơn 25 nghìn đặc trưng từ bộ dữ liệu hình ảnh bạch cầu.
Hình 5.2:Thời gian trích xuất đặc trưng và độ chính xác
Từ hình 5.2, ta có thể thấy trên tập dữ liệu ALL-IDB2, phương pháp mà nhóm chúng tôi đề xuất đã vượt trội hơn các mô hình mạng nơ-ron phức tạp như ResNet50, Inception V3, Xception V3, MobileNet về độ chính xác phân loại, và vẫn chính xác hơn mạng VGG19. Mặc dù số lượng đặc trưng được dùng để phân lớp mà chúng tôi chọn ra nhỏ hơn rất nhiều so với các bộ đặc trưng được trích xuất từ các mạng phức tạp này nhưng hiệu quả phân loại vẫn rất tốt, điều này đã cho thấy ta có thể đạt được hiệu suất phân lớp tốt với mức tài nguyên tiêu thụ ít hơn, chứng minh tính đóng góp các đặc trưng được chọn đối với giải thuật phân lớp là vượt trội so với các bộ đặc trưng có kích thước lớn hơn. Tuy nhiên, về thời gian trích xuất đặc trưng thì phương pháp này thể hiện không tốt so với việc sử dụng các mạng khác. Điều này là do VGG19 phức tạp hơn với 550MB kích thước tham số dẫn đến thời gian suy luận lâu hơn.
5.4.2 Đánh giá ảnh hưởng của các chỉ sốα và β đối với hàm mục tiêu
Các chỉ sốα vàβ trong hàm mục tiêu phản ánh trọng số tương ứng với hai tiêu chí để đánh giá độ tốt của một bộ đặc trưng, đó là: tối đa độ chính xác phân loại (tỷ lệ lỗi thấp nhất) và tối thiểu số lượng đặc trưng được chọn. Trong đó,α xác định trọng số của độ chính xác phân loại vàβ
cho biết trọng số của tỷ lệ giảm số lượng đặc trưng.
Phần lớn các công trình trước đây trong thực tế đặt giá trị tùy ý cho các tham số này. Thông thường,α được gán với các giá trị lớn (nghĩa làα ≥0.9) vàβ được gán với các giá trị rất nhỏ (β ≤0.5). Ta sẽ tiến hành thử nghiệm để nghiên cứu ảnh hưởng củaα vàβ đến hiệu suất của giải thuật SSA nhị phân với cáctransfer function (hàm chuyển đổi) khác nhau. Độ chính xác
CHƯƠNG 5 KẾT QUẢ HIỆN THỰC 40
phân lớp và tỷ lệ giảm số lượng đặc trưng được đo dựa trên kết hợp các giá trị khác nhau củaα
vàβ. Ta có thể quan sát thấy sự thay đổi đáng kể hiệu suất phân lớp trong tương ứng với những thay đổi nhỏ của giá trị các tham số này.
α 0.5 0.7 0.9 0.99 β 0.5 0.3 0.1 0.01 ISSA_S1 0.8077 0.8173 0.8654 0.8894 ISSA_S2 0.8510 0.875 0.9038 0.9087 ISSA_S3 0.8995 0.9135 0.9230 0.9375 ISSA_S4 0.8942 0.9086 0.9183 0.9230
Bảng 5.2:Ảnh hưởng củaα vàβ đến độ chính xác phân loại
α 0.5 0.7 0.9 0.99 β 0.5 0.3 0.1 0.01 ISSA_S1 0.1985 0.1775 0.1790 0.1523 ISSA_S2 0.1882 0.1773 0.1780 0.1354 ISSA_S3 0.1096 0.1258 0.1270 0.1573 ISSA_S4 0.1350 0.1355 0.1486 0.1562
Bảng 5.3:Ảnh hưởng củaα vàβ đến tỷ lệ giảm số lượng đặc trưng
Độ chính xác phân lớp và tỷ lệ giảm số lượng đặc trưng được thể hiện lần lượt trong các bảng 5.2 và 5.3. Ta có thể thấy, độ chính xác tăng lên cùng với việc tăng giá trị củaα, tỷ lệ giảm số lượng đặc trưng giảm khi giảm giá trị củaβ. Trong nghiên cứu này, chúng tôi chọn giá trị
α =0.99và β =0.01 để vừa có thể giảm số lượng đặc trưng nhưng vẫn tối đa được độ chính xác phân lớp.
5.4.3 Thống kê ảnh hưởng của các phiên bản Transfer Function đối vớigiải thuật SSA giải thuật SSA
Giải thuật tối ưu hóa bầy đàn SSA từ dạng liên tục được chúng tôi chuyển về dạng nhị phân bằng cách sử dụng các transfer function (TF) dạng S-shaped và V-shaped khác nhau trong bảng. Để tìm ra phiên bản hàm TF tốt nhất đối với việc lựa chọn đặc trưng của bộ dữ liệu hình ảnh bạch cầu, ta sẽ đánh giá dựa trên các tiêu chí: trung bình độ chính xác phân loại, kích thước bộ đặc trưng lựa chọn và giá trị trung bình của hàm mục tiêu. Giá trị trung bình của 10 lần chạy độc lập của SSA cho từng hàm TF với bộ 25088 đặc trưng được thể hiện trong bảng.
Algorithm Fitness Accuracy Features ISSA_S1 0.088 91.14 1895
ISSA_S2 0.082 91.81 2039 ISSA_S3 0.047 95.38 2508 ISSA_S4 0.100 89.96 1553
CHƯƠNG 5 KẾT QUẢ HIỆN THỰC 41
Như ta có thể thấy, về trung bình giá trị hàm mục tiêu, Binary SSA sử dụng S3 vượt trội hơn so với các hàm S1, S2, S4. Tương tự, SSA với hàm chuyển đổi là S3 sẽ cho ra trung bình độ chính xác phân loại tốt nhất; về số lượng đặc trưng được chọn, hàm S1 có thể tạo ra bộ đặc trưng có kích thước nhỏ trong nhiều lần chạy thực nghiệm. Từ đó, chúng tôi sẽ chọn hàm S3 làm transfer function cho SSA để sử dụng cho các đánh giá tiếp theo.
5.4.4 Đánh giá độ hiệu quả khi thực hiện lựa chọn đặc trưng
Để đánh giá tính hiệu quả của bộ đặc trưng được chọn từ ma trận vector đặc trưng trích xuất của tập dữ liệu hình ảnh tế bào bạch cầu đối với việc phân lớp, phương pháp mà nhóm đề xuất đã được thực hiện trong 10 lần chạy độc lập để tạo ra 10 bộ đặc trưng khác nhau. Những bộ đặc trưng này sẽ được đánh giá bằng cách sử dụng sáu thuật toán phân loại phổ biến đã được chứng minh tính hiệu quả, bao gồm: Linear SVM, KNN (K=5), Decision Tree, Naive Bayes, Adaboost và Multi Layer Perceptron (MLP). Giá trị trung bình, giá trị tốt nhất và giá trị xấu nhất của các chỉ sốAccuracy,Recall,Precision,F1 Scoretrong 10 lần chạy sẽ được chọn làm tiêu chí đánh giá tính hiệu quả phân lớp. Kết quả khác nhau giữa các lần chạy là do bản chất của cơ chế ngẫu nhiên của giải thuật tối ưu hóa bầy đàn, cơ chế này phụ thuộc vào quá trình khám phá không gian tìm kiếm để tìm ra bộ đặc trưng tốt nhất. Giá trị trung bình của các chỉ số đánh giá được thống kê trong bảng 5.5.
Trong bảng 5.5, bộ đặc trưng trích xuất từ VGGNet được so sánh với bộ đặc trưng đã được chọn lọc bằng cải tiến giải thuật tối ưu. Chỉ với khoảng 8% số lượng đặc trưng được giải thuật ISSA lựa chọn và sử dụng trong các bộ phân loại đã chứng minh được hiệu quả phân loại vượt trội trên nhiều tiêu chí. Điều này cho thấy các giải thuật phân lớp có thể học khoảng 2 nghìn đặc trưng nhưng lại cho ra kết quả tốt hơn so với việc học từ tập đặc trưng cơ bản 25 nghìn đặc trưng của VGGNet. Ngoài ra, trong nhiều lần chạy độc lập, chúng tôi nhận thấy bộ phân loạiSVM
với kernel linear cho kết quả phân loại tốt và ổn định nhất trên bộ dữ liệu hình ảnh bạch cầu.
Algorithm Method Features Reduction Accuracy Recall Precision F1 Linear SVM VGGVGG + ISSA 250882007 100%8% 94.2395.72 92.3095.00 96.0096.12 94.1295.57 KNN VGGVGG + ISSA 250882007 100%8% 82.6984.62 69.2373.07 94.7395.00 80.0082.61 Decision Tree VGGVGG + ISSA 250882007 100%8% 71.1580.77 73.0888.46 70.3776.67 71.7082.14 Naive Bayes VGG 25088 100% 75.00 96.15 67.57 79.37 VGG + ISSA 2007 8% 81.03 88.72 77.15 82.53 Adaboost VGGVGG + ISSA 250882007 100%8% 88.4690.38 92.3184.62 85.7195.65 88.8989.80 MLP VGGVGG + ISSA 250882007 100%8% 94.2394.23 96.1596.15 92.5992.59 94.3494.34
Bảng 5.5:Thống kê các chỉ số đánh giá tính hiệu quả của bộ đặc trưng dựa trên 6 giải thuậtphân lớp phân lớp
CHƯƠNG 5 KẾT QUẢ HIỆN THỰC 42
5.4.5 Đánh giá độ hiệu quả của ISSA so với SSA
Trong phần này, chúng ta sẽ đánh giá mức độ hiệu quả của 2 thuật toán SSA và ISSA. Để đánh