GoogleNet, người chiến thắng trong phân loại và theo dõi phát hiện của cuộc thi ILSVRC-2014, là một trong những thế hệ CNN không tuần tự đầu tiên. Trong mạng này, cả chiều sâu (tức là số lượng cấp độ) và chiều rộng (tức là số lượng đơn vị ở mỗi cấp độ), đều được tăng lên mà khơng gây ra căng thẳng tính tốn. GoogleNet được phát triển dựa trên ý tưởng rằng một số kết nối giữa các lớp khơng hiệu quả và có thơng tin dư thừa do mối tương quan giữa chúng. Theo đó, nó sử dụng “Mơ-đun Inception”, một CNN thưa thớt, với 22 lớp trong quy trình xử lý song song và được hưởng lợi từ một số bộ phân loại phụ trợ trong các lớp trung gian để cải thiện khả năng phân biệt ở các lớp thấp hơn. Trái ngược với các CNN thông thường như AlexNet và VGG, trong đó hoạt động tích hợp hoặc tổng hợp có thể được sử dụng ở mỗi cấp, mơ-đun Inception có thể được hưởng lợi từ cả hai ở mỗi lớp. Hơn nữa, các bộ lọc (phức hợp) với các kích thước khác nhau được sử dụng ở cùng một lớp, cung
tính phi tuyến tính bằng cách sử dụng ReLU sau mỗi lớp chập 1 × 1. Trong mạng này, các lớp được kết nối đầy đủ được thay thế bằng một lớp gộp trung bình. Điều này làm giảm đáng kể số lượng tham số vì các lớp được kết nối đầy đủ bao gồm một số lượng lớn các tham số. Do đó, mạng này có thể tìm hiểu các đại diện sâu hơn của các tính năng với ít tham số hơn so với AlexNet trong khi nó nhanh hơn nhiều so với VGG. Hình 4.6 minh họa khung nhìn nén của InceptionV3 được sử dụng trong nghiên cứu này.
4.2. Mơ hình kỳ vọng
Như mơ tả ở trên, mơ hình InceptionResNetV2 là mơ hình được kết hợp tinh tuý của InceptionV3 và ResNet. Đây là mơ hình được kỳ vọng có kết quả cao nhất.
Chương 5. THỰC NGHIỆM VÀ KẾT QUẢ
5.1. Cài đặt thực nghiệm
Nhóm sử dụng bộ dữ liệu ISIC 2020 được chia thành 2 tập con: training (33,126 ảnh) và testing (10,980 ảnh) như đã đề cập. Tồn bộ q trình thực nghiệm được thực hiện trên TPU v3-8 REPLICAS: 8 của Kaggle. Với mỗi model, nhóm đã sử dụng config “256: 13, 384: 15, 512: 15, 768: 15”, ảnh với độ phân giải 256x256 trong 13 epoch và các độ phân giải còn lại trong 15 epoch.
5.2. Chỉ số đánh giá
5.2.1. Area Under The Curve (AUC)
AUC - ROC là một phương pháp tính tốn hiệu suất của một mơ hình phân loại theo các ngưỡng phân loại khác nhau. Giả sử với bài toán phân loại nhị phân (2 lớp) sử dụng hồi quy logistic (logistic regression), việc chọn các ngưỡng phân loại [0...1] khác nhau sẽ ảnh hưởng đến khả năng phân loại của mơ hình và ta cần tính tốn được mức độ ảnh hưởng của các ngưỡng. AUC là từ viết tắt của Area Under The Curve còn ROC viết tắt của Receiver Operating Characteristics. ROC là một đường cong biểu diễn xác suất và AUC biểu diễn mức độ phân loại của mơ hình. AUC-ROC cịn được biết đến dưới cái tên AUROC (Area Under The Receiver Operating Characteristics). Ý nghĩa của AUROC có thể diễn giải như sau: Là xác suất rằng một mẫu dương tính được lấy ngẫu nhiên sẽ được xếp hạng cao hơn một mẫu âm tính được lấy ngẫu nhiên.
5.2.2. Precision
Precision trả lời cho câu hỏi trong các trường hợp được dự báo là positive thì có bao nhiêu trường hợp là đúng ? Và tất nhiên precision càng cao thì mơ hình của chúng ta càng tốt trong việc phân loại hồ sơ BAD (BAD chính là nhóm positive). Công thức của precision như sau:
Precision sẽ cho chúng ta biết mức độ chuẩn xác của mơ hình đối với các hồ sơ được dự báo là BAD. Ví dụ khi precision = 52.4%, chúng ta tin rằng trong các hồ sơ được dự báo là BAD thì có 52.4% tỷ lệ các hồ sơ được phân loại đúng.
Precision = 𝑇𝑃
total predicted positive=
𝑇𝑃 𝑇𝑃 + 𝐹𝑃
Cũng có ý nghĩa gần tương tự như precision, có cùng tử số nhưng có một chút khác biệt về mẫu số trong cơng thức tính tốn, và cũng là một chỉ số giúp đo lường hiệu suất dự báo trên nhóm positive, đó là recall.
5.2.3. Recall
Recall đo lường tỷ lệ dự báo chính xác các trường hợp positive trên tồn bộ các mẫu thuộc nhóm positive. Cơng thức của recall như sau:
Recall = 𝑇𝑃
total actual positive =
𝑇𝑃 𝑇𝑃 + 𝐹𝑁
Để tính được recall thì chúng ta phải biết trước nhãn của dữ liệu. Do đó recall có thể được dùng để đánh gía trên tập train và validation vì chúng ta đã biết trước nhãn. Trên tập test khi dữ liệu được coi như mới hoàn toàn và chưa biết nhãn thì chúng ta sẽ sử dụng precision.
5.3. Phân tích
5.3.1. EfficientNetB6
Sau khi sử dụng mơ hình EfficientNetB6 để giải quyết bài tốn Xác định ung thư da thông qua tập dữ liệu hình ảnh, nhóm đã trích xuất được tổng số đặc trưng là
40.962.441, trong đó có 40.738.009 đặc trưng đó thể dùng để huấn luyện và 224.432 đặc trưng không thể huấn luyện. Kết quả thu được sau 40 epochs như hình bên dưới: