Bài toán image segmentation được chia ra làm 2 loại:
• Semantic segmentation: Thực hiện segment với từng lớp khác nhau.
• Instance segmentation: Thực hiện segment với từng đối tượng trong một lớp. Ví dụ cĩ 3 người trong ảnh thì sẽ cĩ 3 vùng segment khác nhau cho mỗi người.
2.7. Framework được thực hiện.
Những kiến trúc mạng CNN cĩ khả năng giải quyết được nhiều bài tốn nhờ vào việc cĩ thể rút trích đặc trưng một cách tự động tuy nhiên vẫn cĩ những giới hạn nhất định như là tài nguyên tính toán, dữ liệu bị nhiễu, ít nhưng đa dạng, tài nguyên về con người, muốn mạng cĩ thể tự động rút trích ra những đặc trưng tốt thì chúng ta phải tiền xử lý, lọc nhiễu, tăng cường dữ liệu loại bỏ những trường hợp xấu cĩ thể gây ảnh hưởng xấu đến quá trình huấn luyện. Bởi vì dữ liệu dùng để huấn luyện là dữ liệu ảnh 3D cĩ kích thước đa dạng từ 256 × 256 × 100 đến 1024 × 1024 × 160 nên việc chọn cách tiền xử lý sao cho phù hợp để khơng đánh mất nhiều thơng tin quan trọng khi huấn luyện để phù hợp với tài nguyên tính tốn là một việc rất quan trọng. Tiếp
27
theo là dữ liệu bị mất cân bằng nghiêm trọng tỉ lệ tiền cảnh và hậu cảnh là 8.3 × 10−6, số lượng và kích thước trong khơng gian 3D của mỗi class cũng chênh lệch rất nhiều. Tiền xử lý dữ liệu: Trong vấn đề đầu tiên này, chúng tơi kết hợp các phương pháp Crop non-zero region, Intensity normalization, resampling để tiền xử lý, và trong quá trình training dữ liệu sẽ được tăng cường ngẫu nhiên dựa trên các phương pháp như scaling, constrast, rotations, Gaussian blur, Gaussian noise, gamma correction and mirroring.
Với mục đích giúp các đặc trưng của dữ liệu trở nên đa dạng, lọc bỏ những đặc trưng khơng cần thiết và giúp mơ hình cĩ tính tổng quát hĩa cao hơn. Vì dữ liệu là ảnh 3D nên chi phí tính tốn khá là lớn, để giảm thiểu những điều này chúng tơi thực hiện Crop non-zero, kĩ thuật này cực kì hiệu quả với những ảnh não, làm giảm kích thức của dữ liệu. Sau khi cắt chúng tơi thu thập lại các vân trắc trước và sau khi cắt bao gồm kích thước ảnh, khoảng cách của các voxel, ma trận cosin chỉ hướng, trung vị và độ lệch chuẩn của tồn bộ dữ liệu. Trong bộ dữ liệu này khoảng cách giữa các voxel trong khơng gian khơng đồng nhất, chúng tơi sử dụng kỹ thuật cĩ tên là nội suy spline bậc 3 để lấy mẫu lại tất cả các trường hợp huấn luyện và kiểm thử để đưa chúng về cùng một khoảng cách xác định.
Đối với phần nhãn của dữ liệu chúng tơi thực hiện chuyển đổi one-hot encoding sau nĩ sử dụng phép nội suy tuyến tính để xử lý đưa về cùng một khoảng cách của ảnh đã được resampling.
Để xử lý mất cân bằng chúng tơi thực hiện sử dụng kĩ thuật oversampling, chúng chon ngẫu nhiên các trường hợp trong tập huấn luyện theo batch size, tiếp theo lấy 73,88% là vùng vị trí ngẫu nhiên trong các trường hợp đã chọn, 26,12% cịn lại được lấy sao cho chứa một trong các class cần phân đoạn trong các trường hợp đã được chọn.
Attention[23], dense connections[24], dilated convolution[25] là các kỹ thuật đã mang lại nhiều thành cơng trên các nhiệm vụ cấp cao như phân lớp, phát hiện đối tượng, domain adaptation. Chúng tơi đã dựa trên kiến trúc UNet[19] 3D của
28
nnUNet[20] và thay đổi bổ sung các thành phần cấu tạo trong kiến trúc mạng các kỹ thuật và module đã nêu trên nhằm mục đích tăng cường hiệu quả tính tốn, nâng cao hiệu suất đạt được.
Bởi vì đây là một mơ hình mạng 3D nên đầu vào của mạng là tensor cĩ kích thước khá lớn điều này dẫn tới chúng tơi phải sử dụng batch size nhỏ để phù hợp với tài nguyên tính tốn và các chi phí khác. Tuy nhiên việc sử dụng Batch Normalization[21] sẽ được tính toán trên kích thước lơ, việc sử dụng batch size (lơ) nhỏ cĩ thể gây là kết quả tệ, để tránh trường hợp xấu này chúng tơi đã thay đổi tất cả các phép batch normalization bằng instance normalization[22]. Instance nomalization được thực hiện bằng các phép tính trên từng điểm dữ liệu điều này tránh được nhiễu khi chúng ta sử dụng batch size nhỏ.
Loss function
Chúng tơi định nghĩa S là output và cũng là dự đoán của model gồm cĩ 2 thành phần là 𝑆𝑐 là độ tin cậy của chức năng phân lớp, 𝑆𝑠 là tọa độ của các nhãn đã được phân lớp, G là ground truth của ảnh I cũng gồm hai thành phần là tọa độ của nhãn được phân lớp 𝐺𝑠 và độ tin cậy của nhãn được phân lớp 𝐺𝑐.
𝐿𝑜𝑠𝑠 = −𝛼 ∑ 𝐺𝑖𝑐𝑙𝑜𝑔(𝑆𝑖𝑐) − 𝛽 2. ∑ 𝑆𝑖 𝑠𝐺𝑖𝑠 𝑁 𝑖 ∑ 𝑆𝑁 𝑖𝑠 2 𝑖 + ∑ 𝐺𝑁𝑖 𝑖𝑠2 𝑁 𝑖=1
Trong đĩ với 𝛼 và 𝛽 là các siêu tham số, phần số hạng đầu tiên trong hàm mất mát là dùng để giám sát việc phân lớp, số hạng tiếp theo là dùng để giám sát vùng thể tích giao nhau giữ phần dự đoán và nhãn.
THỰC NGHIỆM VÀ ĐÁNH GIÁ
Trong phần này chúng tơi sẽ trình bày về bộ dữ liệu được dùng để huấn luyện và kiểm thử, các độ đo, chi tiết về các cài đặt, bảng kết quả thực nghiệm.
29
3.1. Dữ liệu
Bộ dữ liệu do cuộc thi ADAM của MICAI 2020 cơng bố bao gồm 113 trường hợp, tập nhãn của dữ liệu cĩ 3 class là (0-background), (1-Untreated, unruptured aneurysm), (2-Treated aneurysms or artefacts resulting from treated aneurysms). Trong đĩ cĩ 93 trường hợp là cĩ ít nhất một túi phình và chưa được điều trị, 20 trường hợp chỉ cĩ background.