Luận văn thạc sĩ Khoa học máy tính: Phân đoạn khối u não sử dụng công nghệ học sâu

Vì vậy phạm vi đề tàiđược giới hạn trong các vấn đề sau:• Xây dựng hệ thống học sâu có khả năng phân đoạn khối u não.• Hệ thống sử dụng dữ liệu đầu vào là ảnh chụp MRI của bệnh nhân mắc

Công trình liên quan 3

1 Mô hình học sâu U-Net

Mô hình học sâu U-Net [1] là mô hình phân đoạn ảnh được sử dụng để phân đoạn ảnh y khoa Trong bài công bố vào năm 2015, các nhà nghiên cứu mô hình U-Net đã hiện thực mô hình này và đã giành giải nhất trong cuộc thi phân đoạn cấu trúc tế bào thần kinh do hội thảo quốc tế về hình ảnh y sinh (ISBI) tổ chức.

Nhiều nghiên cứu đã dựa trên mô hình này để tiến hành cải tiến và phát triển như UNet++ [2], UNet 3+ [3], VNet [4], KiUNet [5], DCUNet [6] Và framework nnUNet [7] ra đời với mục tiêu tạo ra một framework thống nhất để sử dụng mô hình UNet và các biến thể của mô hình này Từ đó có thể thấy mô hình UNet là mô hình học sâu kinh điển cho bài toán phân đoạn ảnh.

Cấu trúc mạng UNet được minh hoạ trong hình 2 Mạng bao gồm phần trích xuất (phần mạng bên trái) và phần mở rộng (phần mạng bên phải) Hai phần mạng này có cấu trúc tương tự nhau nhưng chức năng lại trái ngược nhau Phần mạng bên trái dùng để phân loại từng điểm ảnh, phần mạng bên phải dùng để củng cố thêm yếu tố vị trí các loại của điểm ảnh.

Phần mạng trích xuất là kiến trúc của một mạng nơ-ron tích chập thông thường, bao gồm hai lớp tích chập 3×3 không thêm hệ số (unpadded convolution) với hàm kích hoạt là hàm tuyến tính chỉnh lưu (rectified linear unit - ReLU), sử dụng phép max-pooling với cửa sổ 2×2với bước trượt là 2 để tiến hành down sampling Ở mỗi bước down sampling số kênh đặc trưng được nhân đôi.

Phần mạng mở rộng bao gồm các phép up-convolution sử dụng cửa sổ 2×2 Phép toán này làm giảm đi phân nửa số kênh đặc trưng của ma trận đặc trưng đầu vào, kết nối với ma trận đặc trưng tương ứng đã được cắt bớt bên nhánh thu nhỏ Ma trận đặc trưng thu được, lại đi qua hai lớp tích chập 3×3 với hàm kích hoạt là hàm ReLu Cuối cùng sử dụng lớp tích chập1×1để ánh xạ 64 vec-tơ đặc trưng thành phần sang số lớp mong muốn.

Trong quá trình huấn luyện mô hình, tác giả nghiên cứu đã sử dụng Stochastic Gradi- ent Descent (SGD) để huấn luyện mô hình, vì vậy hàm lỗi được tác giả sử dụng là hàm cross-entropy, công thức 1 là công thức tính độ lỗi được tác giả đề xuất.

Trong đó K là số lượng lớp, l : Ω → {1, , K} là nhãn đúng của từng điểm ảnh, w: Ω→R là ma trận hệ số và p l (x) được tính bằng công thức 2.

Phân đoạn khối u não sử dụng công nghệ học sâu Trang 3/32

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học và Kỹ Thuật Máy Tính

Hình 2: Cấu trúc mạng U-Net Ô màu xanh tương ứng với ma trận đặc trưng đa kênh Số kênh được ghi trên từng ô Chiều rộng và chiều cao được ghi ở rìa trái của ô Những ô màu trắng đại diện cho những ma trận đặc trưng được sao lưu Các mũi tên đại diện cho các phép toán khác nhau [1]. p k (x) = exp (a k (x))/(

Trong công thức 2, a k (x) là giá trị kích hoạt của kênh đặc trưng k tại điểm ảnh có vị tríx∈Ω với Ω⊂Z 2

Mạng U-Net là mạng học sâu phân đoạn nổi tiếng, tại thời điểm hoàn thiện báo cáo này, nhiều mạng học sâu phân đoạn ảnh vẫn dựa trên thiết kế chính của mạng U-Net Vì vậy, chúng tôi đã quyết định nghiên cứu, tìm hiểu sâu hơn về mạng học sâu này để từ đó thiết kế nên mô hình học sâu hiệu quả hơn.

2 Mô hình học sâu Attention U-Net

Mô hình học sâu Attention U-Net [8] được phát triển dựa trên mô hình U-Net [1] và cơ chế attention Cơ chế attention được sử dụng trong mạng học sâu này có tên là attention gate sử dụng ngữ cảnh để lọc ra những đặc trưng cần thiết từ ma trận đặc trưng để từ đó làm nổi bật những đặc trưng quan trọng Hình 3 mô tả cấu trúc attention gate.

Hình 3: Cấu trúc Attention Gate Trong đó x l là ma trận đặc trưng đầu vào tại tầng l, g là ma trận ngữ cảnh Ψ là hàm biến đổi tuyến tính α là hệ số attention dùng để điều chỉnh ma trận đặc trưng đầu vào [8].

Với ma trận đặc trưng tại tầng l, x l , và ma trận ngữ cảnh được chọn lọc g Hệ số attention alpha được tính bằng công thức ?? Trong đó, W x và W g là ma trận trọng số của x l và g Hàm kích hoạt σ 1 là hàm ReLU và sigma 2 là hàm kích hoạt sigmoid. α l =σ 2 (σ 1 (W x x l +W g g)) (3)

Cơ chế này đã được sử dụng để củng cố đặc trưng được sử dụng lại từ nhánh thu nhỏ của mô hình U-Net Trong đó ma trận đặc trưng từ nhánh thu nhỏ được dùng làm ma trận đặc trưng đầu vào, ma trận đặc trưng trước khi được mở rộng bên phần mạng mở rộng được dùng làm ma trận ngữ cảnh Từ đó ngữ cảnh thu được từ nhánh thu nhỏ được củng cố và cải thiện kết quả phân đoạn.

Squeeze-and-Excitation Block [9] (SE Block) là một đơn vị tính toán với khả năng trích xuất đặc trưng đối với từng kênh của ma trận đặc trưng SE Block bao gồm hai thành phần: bộ trích xuất (squeeze) và bộ kích hoạt (excitation) Bộ trích xuất dùng để trích xuất hệ số thống kê theo từng kênh của ma trận đặc trưng Hệ số thống kê tại kênh thứ c được tính bằng công thức: z c = 1

• z c : là hệ số trích xuất tại kênh thứ c.

• x c : là ma trận đặc trưng tại kênh thứ c.

• H: là chiều cao của ma trận đặc trưng.

• W: là chiểu rộng của ma trận đặc trưng.

Bộ kích hoạt được sử dụng để kích hoạt hệ số thống kêz Bộ kích hoạt bao gồm hai lớp tích chập với cửa sổ 1×1 nối tiếp nhau với hai hàm kích hoạt theo thứ tự là hàm ReLU và hàm Sigmoid Hệ số sau khi được kich hoạt được dùng để hiệu chỉnh ma trận đặc trưng ban đầu.

Coordinate attention [10] được phát triển dựa trên Squeeze-and-Excition [9] (SE Block). Phương pháp này thừa hưởng việc trích xuất thông tin trên từng kênh của ma trận đặc trưng và phát triển thêm việc trích xuất đặc trưng theo chiều cao và chiều rộng của từng kênh của ma trận đặc trưng. Được phá triển dựa trên SE Block, vì vậy Coordinate attention cũng bao gồm hai thành phần: bộ trích xuất (squeeze) và bộ kích hoạt (excitation) Trong đó bộ trích xuất được mô hình theo công thức: z w c = 1 H X

• z c w : Hệ số thống kê tại kênh thứ cvà chiều rộng w.

• z c h : Hệ số thống kê tại kênh thứ cvà chiều cao h.

Mô hình đề xuất 8

Vấn đề mất ngữ cảnh

Như có thể thấy trong hình 2, qua mỗi bước down sampling, kích thước ma trận đặc trưng đã giảm một nửa so với ban đầu Từ đó ta có thể thấy rằng, sau mỗi bước down sampling, một nửa số lượng thông tin được trích xuất đã bị loại bỏ Bên cạnh đó, việc loại bỏ đặc trưng được thực hiện theo phương pháp max pooling, tức là lựa chọn những đặc trưng có giá trị lớn nhất trong cửa sổ trượt và bỏ qua những đặc trưng còn lại Hình 4 trình bày kết quả của quá trình max pooling Như ta có thể thấy, ma trận kết quả chỉ có kích thước bằng một nửa ma trận đầu vào và chỉ chứa những giá trị lớn nhất trong vùng nhìn thấy của cửa sổ trượt.

Hình 4: Hình ảnh mô tả quá trình max pooling với cửa sổ trượt 2×2 và bước trượt 2.

Hình 5: Hình ảnh mô tả quá trình transpose convolution với cửa sổ trượt2×2 và bước trượt 2. Tuy rằng cách làm này đã được chứng minh là hiệu quả dựa trên kết quả được công bố, nhưng liệu rằng những đặc trưng bị loại bỏ có thật sự không ảnh hưởng đến kết quả phân đoạn của mô hình hay không? Vì vậy, nhằm sử dụng những đặc trưng bị loại bỏ này, tôi tiến hành áp dụng coordinate attention cho ma trận đặc trưng trước khi đưa vào quá trình down sampling Như đã trình bày ở chương Chương 2, coordinate attention có khả năng trích xuất đặc trưng về mối tương quan giữa các kênh của ma trận đặc trưng cũng như mối tương quan giữa các giá trị đặc trưng theo chiều cao và chiều rộng của ma trận.

Và từ đó tiến hành hiệu chỉnh ma trận đặc trưng.

Vấn đề thiếu ngữ cảnh

Như có thể thấy trong hình 2, qua mỗi bước up sampling, kích thước ma trận kết quả lại tăng gấp đôi Quá trình gia tăng kích thước sử dụng cơ chế transpose convolution, nhằm lan truyền kết quả phân đoạn ra các vùng khác của ảnh Hình 5 minh họa một phép toán transpose convolution Như ta có thể thấy, kết quả kết quả phân đoạn được lan truyền ra các vùng xung quanh và kết quả lan truyền phụ thuộc vào giá trị của cửa sổ trượt, một vùng nhìn thấy với kích thước hạn chế, dẫn đến việc kết quả này mất đi tính toàn cục.

Nhằm giải quyết vấn đề này, mô hình UNet gốc đã sử dụng các đặc trưng cùng tầng bên nhánh trích xuất để bổ sung ngữ cảnh toàn cục cho kết quả phân loại Và trong mô hìnhCAUNet của mình, tôi tăng cường yếu tố toàn cục bằng cách áp dụng thêm coordinate attention cho kết quả của lớp up sampling.

Đề xuất mô hình

Như đã trình bày trong phần trước, mô hình được đề xuất áp dụng phương pháp coordinate attention cho ma trận đầu vào của quá trình down sampling và kết quả đầu ra của quá trình up sampling Toàn bộ cấu trúc mô hình được trình bày trong hình 6.

Như ta có thể quan sát trong hình 6 Trước mỗi bước down sampling, các ma trận đặc trưng được đưa qua coordinate attention để củng cố đặc trưng Và sau mỗi bước up samling, các ma trận đặc trưng được đưa qua coordinate attention để củng cố kết quả

Khoa Khoa Học và Kỹ Thuật Máy Tính phân đoạn Thêm vào đó, đặc trưng được truyền từ nhánh trích xuất sang nhánh mở rộng được nối vào kết quả phân đoạn sau khi được gia cố bởi coordinate attention.

Hình 6: Mô hình Coordinate Attention UNet

3 Max pool Coordinate Attention Được phát triển dựa trên Squeeze-and-Excitation [9], vì vậy coordinate attention vẫn giữ phương pháp trích xuất là sử dụng average pooling để trích xuất đặc trưng từ ma trận đặc trưng Các tác giả sử dụng phương pháp average pooling nhằm trích xuất giá trị thông kê từ các giá trị đặc trưng trong ma trận Tuy nhiên phương pháp này lại được chứng minh rằng không hiệu quả đối với miền giá trị có phương sai cao bởi Y-Lan Boureau và các cộng sự[12].

Tuy nhiên, đối với ảnh MRI, giá trị phương sai lại rất lớn Bảng 1 trình bày một số giá trị phương sai được tính trong dữ liệu thứ 351 theo cách chụp T1ce trong tập dữ liệu BraTS 2020 Ta có thể thấy giá trị phương sai cường độ các điểm ảnh là rất lớn vì vậy average pooling có thể không phù hợp với kiểu dữ liệu này.

Từ đó, tôi đề xuất sử dụng phương pháp max pooling thay cho phương pháp average pooling trong bộ trích xuất đặc trưng Bộ phận trích xuất sẽ được tính bằng công thức: z c w = max

• z c w : Hệ số thống kê tại kênh thứ cvà chiều rộng w.

Bảng 1:Phương sai một số lát cắt trong ảnh chụp thứ 351 theo cách chụp T1ce trong tập dữ liệu BraTS 2020.

• z c h : Hệ số thống kê tại kênh thứ cvà chiều cao h.

Trong chương này, tôi đã đề xuất được phương pháp áp dụng coordinate attention vào mô hình UNet và phương pháp hiệu chỉnh coordinate attention để phù hợp hơn với kiểu ảnh MRI Để có thể chứng minh tính hiệu quả của những đề xuất trên tôi hiện thực và kiểm thử cả hai đề xuất này trong chương kế tiếp.

Hiện thực 12

Chuẩn hóa dữ liệu

Như đã trình bày trong chương Chương 3, mô hình đề xuất sử dụng ảnh đầu vào là ảnh 2D Vì vậy với mỗi lát cắt theo chiều z của ảnh MRI, tôi xuất ra thành những ảnh 2D rời rạc và sử dụng làm ảnh đầu vào của mô hình Bên cạnh đó, nhằm tận dụng cả bốn phương thức chụp của ảnh MRI, tôi đã tổng hợp những lát cắt ở cùng tầng (cùng z-index) từ bốn kiểu ảnh của một bệnh nhân thành một ảnh 2D với 4 kênh giá trị. Đối với dữ liệu huấn luyện, nhằm làm giảm sự mất cân bằng dữ liệu, tôi đã loại bỏ những ảnh đầu vào không chứa khối u Tuy nhiên, để đánh giá một cách khách quan mô hình đề xuất, phương pháp này không được áp dụng đối với tập dữ liệu kiểm thử.

So với ảnh thông thường (ảnh chụp từ máy ảnh, hoặc điện thoại), cường độ điểm ảnh thuộc ảnh MRI không có giới hạn cố định Một số điểm ảnh có giá trị cường độ lên đến

2000 Vì vậy để chuẩn hóa dữ liệu về khoảng 0-1, tôi sử dụng giá trị cường độ điểm ảnh lớn nhất trong mỗi ảnh làm giá trị chuẩn hóa.

Các mô hình được hiện thực bằng ngôn ngữ python, sử dụng thư viện pytorch Và được huấn luyện trên máy tính của Google Colab Thời gian trung bình để huấn luyện từng mô hình là 2 giờ đồng hồ.

Việc huấn luyện mô hình được phân làm hai giai đoạn Giai đoạn thứ nhất, tôi tiến hành huấn luyện mô hình UNet với hệ số học là10 −5 , batch size là 5 trong vòng 5 epochs. Sau 5 epochs, kết quả loss cuối cùng ghi nhận được là 0.0138.

Trong giai đoạn thứ hai, tôi sử dụng trọng số huấn luyện được từ giai đoạn thứ nhất và tiến hành huấn luyện ba mô hình:

• Max pooling Coordinate Attention UNet (MCAUNet).

Cả ba mô hình đều được huấn luyện với hệ số học là 10 −5 , batch size là 5 trong vòng

5 epochs Sau khi huấn luyện giá trị loss cuối cùng ghi nhận được lần lượt là 0.00617, 0.02312,0.01217 Ta có thể thấy gía trị loss của mô hình UNet là thấp nhất tuy nhiên điều này là do CAUNet và MCAUNet được thêm vào bộ phận coordinate attention dẫn đến việc phải huấn luyện lại các trọng số cho bộ phận này.

Mô hình Số lượng biến Kích thước mô hình (MB)

Bảng 2: Thông số mô hình được hiện thực.

Bảng 2 thống kê số lượng biến số và kích thước của mô hình được hiện thực Ta có thể thấy là mô hình CAUNet và MCAUNet, có kích thước không chênh lệch nhiều so với mô hình UNet Đây cũng là một trong những yếu tố lựa chọn sử dụng coordinate attention. Coordinate attention ngoài khả năng trích xuất mối quan hệ theo không gian của các giá trị trong ma trận đặc trưng, phương pháp này còn được thiết kế theo tiêu chí nhỏ gọn để phù hợp với các mạng học sâu giành cho thiết bị di động Theo thiết kế ban đầu, hàm kích hoạt được các tác giả sử dụng là ReLU6, phiên bản tinh gọn của hàm ReLU Tuy nhiên, trong quá trình hiện thực, tôi sử dụng hàm ReLU thay vì ReLU6, để tăng tính hiệu quả của mô hình.

Đánh giá 15

Kết quả đánh giá được tính dựa trên tập dữ liệu kiểm thử Chương này trình bày về kết quả thí nghiệm và đánh giá về mô hình đề xuất Mô hình được đánh gía bằng cả hai phương pháp là định tính và định lượng.

Hình 8: Một số kết quả phân đoạn của các mô hình.

Hình 8 trình bày một số kết quả phân đoạn của các mô hình Như ta có thể thấy, kết quả phân đoạn của mô hình CAUNet và MCAUNet cho kết quả phân đoạn tốt hơn mô hình UNet gốc.

Như ta có thể thấy, kết quả phân đoạn của các mô hình gần như tương đương nhau và gần giống với ground truth Tuy nhiên một số kết quả khác lại cho thấy các trường hợp đặc biệt Ví dụ như trong hình 9 Các khối u đều có kích thước rất nhỏ và có trường hợp mô hình không thể phân đoạn được khối u.

Hình 9: Kết quả phân đoạn với khối u quá nhỏ.

Ngoài trường hợp đặc biệt trên, một số trường hợp khác khi khối u quá phức tạp như hình 10 Ta có thể thấy mô hình MCAUNet có kết quả phân đoạn các chi tiết nhỏ tốt hơn UNet và CAUNet.

Theo như quan sát bằng mắt thường, MCAUNet cho kết quả phân đoạn tốt hơn UNet và CAUNet Tuy nhiên, để có thể đánh giá khách quan nhất, tôi tiến hành đánh giá định

Hình 10: Kết quả phân đoạn với khối u phức tạp. lượng các mô hình trong phần tiếp theo.

Kết quả đánh giá định lượng được tính bằng hệ số Dice-Score, và Hausdorff distance 95 percentile Hai hệ số này là hệ số được sử dụng để đánh giá các mô hình trong cuộc thi BraTS [16] Các hệ số này được đo trên ba mục tiêu phân đoạn chính: khối u tăng cường (Enhancing Tumor - ET), lõi khối u (Tumor Core - TC), toàn bộ khối u (Whole Tumor - WT) Kết quả đánh giá được trình bày trong bảng 3.

Mô hình Dice Score Hausdorff 95 percentile

ET TC WT ET TC WT

Bảng 3: Kết quả phân đoạn của các mô hình trên tập dữ liệu BraTS 2020.

Từ kết quả trong bảng 3, ta có thể thấy kết quả phân đoạn đối với khối u tăng cường (ET) của mô hình MCAUNet kém hơn mô hình UNet gốc0.00579về Dice Score, và2.76574 về Hausdorff 95 percentile Tuy nhiên ở hai mục tiêu phân đoạn còn lại, MCAUNet đều cho kết qủa tốt hơn mô hình gốc Tuy hai sự chênh lệch này không quá khác biệt nhưng cũng đã cho thấy sự cải thiện của mô hình MCAUNet đối với mô hình UNet.

Ngoài ra ta có thể thấy, trong cả ba mô hình, CAUNet có kết quả thấp nhất Tuy nhiên MCAUNet lại có kết quả tốt hơn Điều này đã phần nào chứng minh cho luận điểm của tôi trong Chương 3 về vấn đề coordinate attention gốc không phù hợp với dữ liệu có phương sai lớn như ảnh MRI Từ đó cho thấy, việc thay đổi hàm average pooling bằng max pooling đã cho kết quả tốt hơn.

Tổng kết 19

Ưu điểm

• Hệ thống khắc phục được những nhược điểm của mô hình UNet gốc.

• Mô hình nhẹ và có thể chạy được trên máy tính thông thường

Nhược điểm

• Mô hình vẫn chưa giải quyết được vấn đề mất cân bằng dữ liệu.

• Mô hình chưa tận dụng được mối quan hệ không gian giữa các lớp cắt trong ảnh MRI.

3 Hướng phát triển trong tương lai

Trong tương lai, mô hình có thể được phát triển theo hướng giải quyết những vấn đề hiện tại trong luận văn này:

• Giải quyết vấn đề mất cân bằng dữ liệu: hiện tại vấn đề mất cân bằng dữ liệu chỉ được giải quyết bằng cách loại bỏ những mẫu huấn luyện không chứa khối u Ngoài giải pháp này, một số giải pháp có thể áp dụng gồm: cắt ảnh theo chiều dài và chiều cao của ảnh để làm tăng tỉ lệ khối u, dùng những hệ thống tạo ảnh như GAN nhằm tạo ra nhiều dữ liệu hơn Bên cạnh đó, có thể áp dụng thêm phương pháp hiệu chỉnh bias N4 [17] để chuẩn hóa dữ liệu đầu vào.

• Tận dụng mối quan hệ không gian giữa các lớp cắt trong ảnh MRI: để tận dụng được mỗi quan hệ này, ta có thể sử dụng cả chụp MRI là dữ liệu đầu vào như mô hình UNet 3D [18], 3D Auto Encoder Regularization [19], 3D Dilated Multi-Fiber Network [20] hay Multi-Scale 3D CNN [21].

• Tìm hiểu và áp dụng thêm các attention khác: ngoài coordinate attention, nhiều phương pháp sử dụng attention khác đã cho kết quả khả quan trong các bài toán khác như cross-task guided attention [22], multi-scale Guided attention [23]

Trải qua giai đoạn thực hiện luận văn, tôi đã học hỏi được rất nhiều, từ việc thiết kế mô hình cho đến hiện thực và kiểm thử mô hình Bên cạnh đó, tôi còn nhận được những kinh nghiệm thực tiễn trong việc huấn luyện và hiệu chỉnh mô hình học sâu Những kiến thức và kinh nghiệm này sẽ là động lực để tôi có thể tiếp tục phát triển trên con đường sự nghiệp phía trước.

Một lần nữa, tôi xin chân thành cảm ơn quý thầy cô của trường đại học Bách Khoa Thành Phố Hồ Chí Mình và đặc biệt là Tiến Sĩ Nguyễn Đức Dũng Một người thầy nhiệt huyết, một người lái đò tận tụy, người đã hướng dẫn, hỗ trợ tôi hết mình trong quá trình thực hiện luận văn này Chân thành cảm ơn thầy.

Danh sách các công trình khoa học

1 Dang Quoc An and Nguyen Duc Dung, "Coordinate Attention UNet," inProceedings of the 2nd International Conference on Robotics, Computer Vision and Intelligent Systems (ROBOVIS 2021), 2021, pp 122-127.

Quoc An Dang 1 , Duc Dung Nguyen 1

1 Computer Science and Engineering Faculty, Ho Chi Minh City University of Technology, Viet Nam dangquocan95@gmail.com, nddung@hcmut.edu.vn

Keywords: brain tumor segmentation, instant segmentation, channel attention, coordinate attention

Abstract: In this paper, we propose an alternative architecture based on the UNet, which utilized the attention module.

Our model solved the context loss and feature dilution caused by sampling operation of the UNet model using the enhancement ability of the attention Further more, we applied one of the latest attention module named Coordinate Attention module to our model and proposed modification of this module to improve the effective of this module for Magnetic Resonance Imaging (MRI) scans.

Gliomas brain tumor is the most aggressive malig- nant primary brain tumor It mostly occur in adults having low survival rate (Tamimi and Juweid, 2017).

For diagnosing the tumor, The traditional method is segmenting the Magnetic Resonance Imaging (MRI) by specialist, which is very costly and time consum- ing Therefore the needed of an automated segment method arisen.

In recent years, many researchers working on the method to segmenting brain tumor The work varied from the basic CNN model (Havaei et al., 2015) to the encoder-decoder architecture like UNet (Ronneberger et al., 2015), UNet++ (Zhou et al., 2018), VNet (Mil- letari et al., 2016), nnUNet (Isensee et al., 2018).

Then in order to utilize the z-axis feature, many 3D model appeared like 3D UNet (Cáicáek et al., 2016), 3D

Dilated Multi-Fiber Network(Chen et al., 2019), 3D autoencoder regularization (Myronenko, 2018) And among the lots of research, UNet model still appeared to be one of the most typical baseline model How- ever this model still have problem with the context loss and feature dilution In this paper, we propose a new model to address this problem of UNet model by utilizing one of the latest attention module named

Coordinate attention (Hou et al., 2021).

Along side the development of baseline model, attention modules have also been proved to achieve high results in brain tumor segmentation including

Multi-scale guided attention (Sinha and Dolz, 2019),

Cross-task Guided Attention (Zhou et al., 2019) and

Attention UNet (Oktay et al., 2018) Furthermore, many attention modules have been proved very effective in segmentation task such as Squeeze-and- Excitation (Hu et al., 2017) and Coordinate attention (Hou et al., 2021) Even though these attentions have high results in segmenting normal image Their method is not suitable to work with MRI scans which have high variance We also propose a modification of coordinate attention to cope with the MRI scans.

In order to demonstrate the effective of our de- signed We did experiments on the BraTS 2020 dataset (Menze et al., 2015) with the origin UNet model and our proposal The results show the im- provement of our proposal in both model design and attention module design.

In this section, we present a brief overview of recent method to handle the context problem of UNet model and attention module design.

Many work have tried to solve the context problem of UNet model Attention U-Net (Oktay et al., 2018) applied attention gate to enhance the skip connection features UNet++ (Zhou et al., 2018) redesigned the skip connections to reduce the gap between con- tracting path and expanding path UNet 3+ (Huang et al., 2020) applied the full-scale skip connection to incorporate low-level details with high-level seman- tics from feature maps in different scales DC-UNet(Lou et al., 2021) proposed the dual channel block to replace the traditional convolution blocks

Attention have been proved effective in brain tumor segment task Using attention gate to filter the skip connection in Attention UNet (Oktay et al., 2018), applying attention at multi-scale feature in Multi- scale guided attention (Sinha and Dolz, 2019), Cross- task Guided Attention (Zhou et al., 2019) devel- oped a specific module to work with multi tasking model Squeeze-and-Excitation Network (Hu et al.,

2017) proposed a attention module to captured the channel-wise relationship Inspired by the Squeeze- and-Excitation Network, coordinate attention (Hou et al., 2021) further encoding coordinate info along with channel-wise relationship.

In this section, we propose the design of UNet model with attention module in the first part In the second part, we propose a modification of the Coordinate At- tention module (Hou et al., 2021) to be more suitable with MRI scans data.

Tiêu đề	Phân đoạn khối u não sử dụng công nghệ học sâu
Tác giả	Đặng Quốc An
Người hướng dẫn	TS. Nguyễn Đức Dũng
Trường học	Đại học Quốc gia TP. HCM
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	43
Dung lượng	1,32 MB