Mục tiêu, đối tượng và phương pháp nghiên cứu của luận án Mục tiêu của luận án là nghiên cứu một số giải pháp để nâng cao độ chính xác của hệ thống hỗ trợ chẩn đoán hình ảnh y tế bằng
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT HƯNG YÊN
HOÀNG QUỐC TUÂN
NÂNG CAO HIỆU QUẢ HỖ TRỢ CHẨN ĐOÁN MỘT SỐ DẠNG UNG THƯ DỰA TRÊN KỸ THUẬT XỬ LÝ ẢNH VÀ MẠNG
NƠ-RON TÍCH CHẬP
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
Hưng Yên – Năm 2024
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT HƯNG YÊN
HOÀNG QUỐC TUÂN
NÂNG CAO HIỆU QUẢ HỖ TRỢ CHẨN ĐOÁN MỘT SỐ DẠNG UNG THƯ DỰA TRÊN KỸ THUẬT XỬ LÝ ẢNH VÀ MẠNG
NƠ-RON TÍCH CHẬP
Chuyên ngành : Kỹ thuật điện tử
Mã số: 9520203
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TS Bùi Trung Thành
2 TS Phạm Xuân Hiển
Hưng Yên – Năm 2024
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan: luận án “Nâng cao hiệu quả hỗ trợ chẩn đoán một số dạng ung thư dựa trên kỹ thuật xử lý ảnh và mạng nơ-ron tích chập” là công trình nghiên
cứu của riêng tôi được hoàn thành dưới sự chỉ bảo tận tình của hai thầy hướng dẫn Các kết quả nghiên cứu trong luận án là trung thực, được công bố trên các tạp chí khoa học chuyên ngành với sự đồng ý của các đồng tác giả Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
Trang 4LỜI CẢM ƠN
Luận án này báo cáo các kết quả nghiên cứu trong thời gian tôi làm nghiên cứu sinh Để hoàn thành được luận án, ngoài nỗ lực làm việc của bản thân, tôi đã nhận được sự giúp đỡ của rất nhiều người
Tôi xin chân thành bày tỏ lòng biết ơn sâu sắc đến PGS.TS Bùi Trung Thành – Trường Đại học Sư Phạm Kỹ thuật Hưng Yên và TS Phạm Xuân Hiển – Trường
Đại học giao thông vận tải đã tận tình hướng dẫn, tạo mọi điều kiện thuận lợi, giúp tôi thực hiện và hoàn thành luận án này Chân thành cảm ơn các nhóm tác giả đã đồng ý chia sẻ cho tôi tập dữ liệu công khai để tôi thực nghiệm trong nghiên cứu của mình
Xin chân thành cảm ơn các Thầy lãnh đạo khoa Điện – Điện tử, lãnh đạo bộ môn Kỹ thuật điện tử và Phòng đào tạo đã tạo điều kiện thuận lợi để tôi hoàn thành luận án
Xin cảm ơn các đồng nghiệp tại khoa Cơ khí, khoa Điện – Điện tử và khoa Công nghệ thông tin của Trường đại học Sư phạm Kỹ thuật Hưng Yên đã hỗ trợ tôi trong nghiên cứu, cũng như công việc để tôi hoàn thành được luận án
Đặc biệt tôi xin cảm ơn sâu sắc tới gia đình tôi đã hỗ trợ, động viên trong suốt quá trình làm nghiên cứu sinh của tôi
Xin chân thành cảm ơn!
Hưng Yên, ngày tháng năm 2024
Trang 5MỤC LỤC
LỜI CAM ĐOAN……….………i
LỜI CẢM ƠN……….……….ii
MỤC LỤC……… ……… ………iii
DANH MỤC CÁC CHỮ VIẾT TẮT VÀ CÁC KÝ HIỆU ……… ………….…….v
DANH MỤC BẢNG BIỂU……… ……….……… ….… vii
DANH MỤC HÌNH VẼ, ĐỒ THỊ……… ……… ….………….……ix
MỞ ĐẦU……… 1
1 Tính cấp thiết của luận án……….………1
2 Mục tiêu, đối tượng và phương pháp nghiên cứu của luận án….…… ……… 3
3 Đóng góp của luận án……….……… …….…………4
4 Bố cục luận án……….…….………….5
CHƯƠNG 1 TỔNG QUAN VỀ XỬ LÝ ẢNH Y TẾ VÀ ỨNG DỤNG MẠNG NƠ-RON TÍCH CHẬP TRONG HỖ TRỢ CHẨN ĐOÁN QUA HÌNH ẢNH……6
1.1 Tổng quan về chẩn đoán hình ảnh trong y tế ……… ….……6
1.2 Ảnh y tế và kỹ thuật cơ bản trong xử lý ảnh y tế……….8
1.2.1 Các loại ảnh y tế phổ biến trong chẩn đoán hình ảnh………8
1.2.2 Kỹ thuật cơ bản trong xử lý ảnh y tế……… 10
1.3 Phân tích hình ảnh y tế với mạng nơ-ron tích chập……….….….13
1.3.1 Mạng nơ-ron tích chập…… ……… ………13
1.3.2 CNN ứng dụng phát hiện đối tượng trong ảnh y tế ………16
1.3.3 CNN ứng dụng phân vùng ảnh y tế……… ……… 17
1.3.4 CNN ứng dụng hợp nhất ảnh y tế……….……….20
1.3.5 CNN ứng dụng phân loại ảnh y tế……….……….……….….……… 21
1.4 Hệ thống hỗ trợ chẩn đoán bằng máy tính qua hình ảnh cho bệnh ung thư tuyến vú và tuyến giáp……….………28
1.4.1 Một số nghiên cứu phát triển hệ thống hỗ trợ chẩn đoán ung thư tuyến vú và tuyến giáp gần đây ……… …… 30
1.4.2 Nhận xét, đánh giá các nghiên cứu đã khảo sát và đề xuất giải pháp của tác giả……….…36
Trang 61.5 Kết luận Chương 1……… ……… ………38
CHƯƠNG 2 GIẢI PHÁP NÂNG CAO HIỆU QUẢ PHÂN VÙNG HÌNH ẢNH SIÊU ÂM TUYẾN VÚ SỬ DỤNG ẢNH ĐA PHÂN GIẢI VÀ MẠNG PHÂN VÙNG CẢI TIẾN DỰA TRÊN CẤU TRÚC U-NET………40
2.1 Tổng quan giải pháp đề xuất cho mô hình phân vùng ảnh y tế………40
2.2 Tăng cường dữ liệu bằng giải pháp thu nhỏ kích thước ảnh gốc và đệm viền……… ……… 42
2.3 Mạng phân vùng đề xuất trong nghiên cứu……… 47
2.4 Giải pháp tổng hợp ảnh phân vùng đầu ra của mạng phân vùng………… ……51
2.5 Thực nghiệm giải pháp phân vùng đề xuất ……….53
2.5.1 Các phép đo hiệu suất phát hiện và phân vùng của mạng phân vùng………….56
2.5.2 Hiệu suất mô hình phát hiện đối tượng của giải pháp đề xuất………59
2.5.3 Hiệu suất mô hình phân vùng ảnh của giải pháp đề xuất……… 63
2.5.4 So sánh hiệu suất phát hiện và phân vùng ảnh của giải pháp đề xuất với các nghiên cứu trước đây……….….…………67
2.6 Kết luận Chương 2……… ……… ………73
CHƯƠNG 3 GIẢI PHÁP NÂNG CAO HIỆU QUẢ PHÂN LOẠI HÌNH ẢNH KHỐI U TUYẾN GIÁP SỬ DỤNG MỘT LƯỢNG NHỎ DỮ LIỆU HUẤN LUYỆN MẠNG PHÂN LOẠI……… ………… 75
3.1 Giải pháp phân loại ảnh siêu âm tuyến giáp đề xuất trong luận án……… 75
3.2 Thực nghiệm giải pháp phân loại ảnh đề xuất với tập dữ liệu TDID………… 80
3.2.1 Tập dữ liệu ảnh siêu âm tuyến giáp TDID……… …… 80
3.2.2 Kết quả phân loại ảnh siêu âm tuyến giáp với tập dữ liệu thực nghiệm TDID………86
3.3 Kết luận Chương 3……….… ……….90
KẾTLUẬN……….92
TÀI LIỆU THAM KHẢO……… ….…… 94
DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ CỦA NGHIÊN CỨU SINH 105
Trang 7DANH MỤC CÁC CHỮ VIẾT TẮT VÀ CÁC KÝ HIỆU Chữ viết tắt:
AI Atificial Intelligence Trí tuệ nhân tạo
Detection Hỗ trợ phát hiện bằng máy tính
Diagnosis Hỗ trợ chẩn đoán bằng máy tính
CE Cross-entropy Hàm Loss dùng trong mô hình phân
Measurement Phép đo đánh giá mức độ tương đồng
FCN Fully Convolutional
Network Mạng tích chập kết nối đầy đủ
Aspiration Kỹ thuật sinh thiết FNA
Tổng số trường hợp dự báo các quan sát thuộc nhãn Negative thành nhãn Positive
Tổng số trường hợp dự báo các quan sát thuộc nhãn Positive thành nhãn Negative
GPU Graphics Processing
Units Bộ xử lý tác vụ liên quan đến đồ họa
Trang 8IOU Intersection over
union
Phép đo sự tương đồng giữa vùng dự đoán và đối tượng thật
MLP Multi-layer Perceptron Mạng truyền thẳng nhiều lớp
Thuật toán phân loại nhị phân và và
dự báo của học có giám sát
TP True Positive Tổng số trường hợp dự báo đúng là
nhãn Positive
TN True Negative Tổng số trường hợp dự đúng là nhãn
Negative
Các ký hiệu:
A (Addition) Nút tổng hợp trong mạng nơ-ron tích chập
AND_RULE Nguyên tắc lấy kết quả dựa trên kết quả xếp chồng của các ảnh
phân vùng đầu ra Cos( ) Hàm tính khoảng cách giữa hai vectơ ảnh trong không gian
vector DOMINANT Nguyên tắc lấy kết quả dựa trên kết quả đa số của các ảnh
phân vùng đầu ra
Fd Bản đồ đặc trưng tổng hợp với d lớp
OR_RULE Nguyên tắc lấy kết quả dựa trên kết quả vùng bao phủ rộng
nhất của các ảnh phân vùng đầu ra
z Bản đồ đặc trưng ở lớp z
|X1| Độ dài vector đặc trưng của ảnh đầu vào x1
|X2| Độ dài vector đặc trưng của ảnh đầu vào x2
Trang 9DANH MỤC CÁC BẢNG, BIỂU
Bảng 2.1 Bảng mô tả về tập dữ liệu BUS và BUSI được sử dụng trong các thử
Bảng 2.2 Bảng thống kê kết quả thực nghiệm phát hiện tổn thương của giải
pháp đề xuất và các giải pháp khác khi dùng hàm tổn thất CE trên tập dữ liệu BUS
59
Bảng 2.3 Bảng thống kê kết quả thực nghiệm phát hiện tổn thương của giải pháp đề xuất và các giải pháp khác khi dùng hàm tổn thất Dice trên tập dữ liệu BUS
61
Bảng 2.4 Bảng thống kê kết quả thực nghiệm của mô hình phát hiện tổn thương
khi sử dụng ảnh đa phân giải và không sử dụng ảnh đa phân giải với tập dữ liệu BUSI
62
Bảng 2.5 Bảng thống kê kết quả thực nghiệm phân vùng tổn thương khi sử
dụng và không sử dụng giải pháp đề xuất với việc sử dụng tổn thất CE cùng với ba quy tắc kết hợp (AND, OR, DOMINANT)
64
Bảng 2.6 Bảng thống kê kết quả thực nghiệm phân vùng tổn thương khi sử
dụng và không sử dụng giải pháp đề xuất với việc sử dụng tổn thất Dice cùng với ba quy tắc kết hợp (AND, OR, DOMINANT)
65
Bảng 2.7 Bảng thống kê kết quả thực nghiệm phân vùng tổn thương khi sử
dụng và không sử dụng giải pháp đề xuất, thực nghiệm với tập dữ liệu BUSI 66
Bảng 2.8 Bảng so sánh hiệu suất của giải pháp đề xuất mới và các giải pháp
khác dựa trên tiêu chí DP khi thực nghiệm với bộ dữ liệu BUS 70
Bảng 2.9 Bảng so sánh hiệu suất của giải pháp đề xuất mới và các giải pháp
khác dựa trên tiêu chí IOU khi thực nghiệm với bộ dữ liệu BUS 71
Bảng 2.10 Bảng so sánh hiệu suất của giải pháp đề xuất mới và các giải pháp
Bảng 2.11 Thời gian xử lý của mạng phân vùng thông thường và giải pháp
Bảng 3.1 Mô tả về tập dữ liệu TDID được sử dụng trong các thử nghiệm 85
Trang 10Bảng 3.2 Bảng thống kê kết quả thực nghiệm của mạng phân loại được đề xuất
và mạng phân loại thông thường dựa trên cấu trúc Residual Network
88
Bảng 3.3 Bảng thống kê kết quả thực nghiệm của mạng phân loại được đề xuất
và mạng phân loại thông thường dựa trên cấu trúc Inception Network
88
Bảng 3.4 Bảng thống kê kết quả thực nghiệm của mạng phân loại được đề
xuất, mạng phân loại dựa trên cấu trúc Residual Network và Inception Network
90
Trang 11DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.3 Cấu trúc cơ bản của Convolutional Neural Networks 16
Hình 1.4 Cấu trúc kết hợp mạng tích chập và mạng giải chập 18
Hình 1.6 Cấu trúc mô hình phân loại hình ảnh sử dụng CNN 23
Hình 1.7 Sơ đồ cấu trúc phương pháp xây dựng mạng ResNet 25
Hình 1.9 Hình ảnh mô tả sơ đồ khối tích chập thông thường(a) và sơ đồ
Hình 1.12 Sơ đồ khối cấu trúc mô hình phân vùng trong hệ thống CAD 29 Hình 1.13 Sơ đồ khối cấu trúc mô hình phân loại ảnh trong hệ thống CAD 29 Hình 1.14 Tổng quan về nghiên cứu của Tri-Cong Pham và các cộng sự 35
Hình 2.1 Ảnh khối U tuyến vú với vùng tổn thương nhỏ và lớn 40
Hình 2.3 Ví dụ về đệm viền: (a) ma trận gốc, (b) ma trận sau khi đệm viền 45
Hình 2.4 Ví dụ áp dụng bộ lọc cho ảnh sau khi đệm viền 45
Hình 2.5 Ảnh đa phân giải được tạo ra từ một ảnh gốc đầu vào duy nhất 46
Hình 2.6 Sơ đồ khối tích chập: (a) khối tích chập thông thường và (b) khối
Hình 2.7 Kiến trúc mạng phân vùng phát triển mới trong luận án 50
Hình 2.8 Ví dụ cho việc phân vùng đối tượng trên các ảnh thu nhỏ 52
Hình 2.9 Hình ảnh một số trường hợp ảnh siêu âm tuyến vú trong tập dữ
Trang 12Hình 2.10 Hình ảnh mô tả quá trình thực nghiệm đánh giá hiệu quả của
Hình 2.11 Hình ảnh so sánh kết quả thực nghiệm của mạng phân vùng sử
dụng và không sử dụng giải pháp đề xuất mới trong trường hợp tổn thương chưa rõ ràng
68
Hình 2.12 Hình ảnh so sánh kết quả thực nghiệm của mạng phân vùng sử
dụng và không sử dụng giải pháp đề xuất mới trong trường hợp tổn thương
đã rõ ràng
69
Hình 3.1 Cấu trúc mô hình phân loại ảnh y tế sử dụng ít dữ liệu huấn luyện 76 Hình 3.2 Sơ đồ mô tả nguyên lý của giải pháp được đề xuất 77
Hình 3.4 Hình ảnh siêu âm tuyến giáp trong cơ sở dữ thực nghiệm (TDID) 83
Hình 3.5 Hình ảnh mô tả phân bố về số lượng, giới tính và loại bệnh trong tập dữ liệu TDID được đánh giá bởi chuyên gia chẩn đoán hình ảnh thứ nhất
84
Hình 3.6 Hình ảnh mô tả phân bố về số lượng, giới tính và loại bệnh trong tập dữ liệu TDID được đánh giá bởi chuyên gia chẩn đoán hình ảnh thứ hai 84 Hình 3.7 Mô tả quy trình xác thực chéo với tập dữ liệu ảnh siêu âm tuyến
Hình 3.8 Ví dụ kết quả thực nghiệm của giải pháp đề xuất: (a) trường hợp
Trang 13MỞ ĐẦU
1 Tính cấp thiết của luận án
Sự thiếu hụt nguồn lực y tế so với nhu cầu trong lĩnh vực chẩn đoán hình ảnh
là một thực tế hiện nay ở Việt Nam và nhiều quốc gia khác trên thế giới Theo thống
kê gần đây, tại Nhật Bản chỉ có 36 bác sĩ chẩn đoán hình ảnh/triệu dân Cả Liberia chỉ có 2 bác sĩ chẩn đoán hình ảnh và 14 quốc gia tại châu Phi không có bác sĩ chẩn đoán hình ảnh Ngay cả đối với những quốc gia có nền kinh tế và nền y học phát triển, tình trạng thiếu hụt nhân lực để xử lý các công việc chẩn đoán hình ảnh vẫn xảy ra Tại Anh, ước tính có hơn 300.000 hình ảnh X-quang phải chờ đến hơn 30 ngày trước khi được phân tích tại một thời điểm bất kỳ trong năm [1]
Trí tuệ nhân tạo (AI) được coi là xu hướng tất yếu và là giải pháp cho các phần mềm hỗ trợ chẩn đoán bằng máy tính có độ chính xác cao hơn, giúp giải quyết những thiếu hụt về nhân lực [2] Đã có nhiều các công cụ AI mới được phát triển để ứng dụng trong phân tích và chẩn đoán nhiều dạng ung thư khác nhau dựa trên hình ảnh
y tế như X-quang phổi, X-quang vú, CT/MRI sọ não [3, 4] Tại Mỹ, một số phần mềm ứng dụng trí tuệ nhân tạo đã được Cục quản lý Thực phẩm và Dược phẩm Hoa Kỳ (FDA) cấp giấy phép hoạt động Một ví dụ đó là phần mềm chẩn đoán đột quỵ não
do thiếu máu cục bộ cấp tính dựa trên kết quả phân tích hình ảnh chụp CT não của Viz.AI Kết quả thử nghiệm lâm sàng cho thấy hệ thống AI của Viz.AI giúp tiết kiệm tới 45% thời gian chẩn đoán và chăm sóc bệnh nhân [5], điều này vô cùng ý nghĩa trong những trường hợp bệnh nhân cần phải chẩn đoán và can thiệp y tế sớm vì ảnh hưởng tới tính mạng
Ngày nay, hệ thống y tế tại Việt Nam đã có nhiều thay đổi tích cực, nhưng đầu
tư và chi phí cho y tế vẫn còn rất hạn chế Thống kê gần đây, ở Việt Nam chỉ có hơn
8 bác sĩ/vạn dân Số liệu thống kê này cũng chỉ ra rằng, tỷ lệ bác sĩ/người bệnh ở Việt Nam là rất thấp, ngay cả so sánh với các nước khác trong khu vực Đông Nam Á Với thực trạng như hiện nay, cần rất nhiều năm để Việt Nam có thể bắt kịp Singapore, nơi
có 23 bác sĩ/vạn dân [6] Một vấn đề nữa tại Việt Nam là sự mất cân bằng về trình độ giữa các bệnh viện tại địa phương (tuyến huyện, tỉnh) so với các bệnh viện tuyến
Trang 14trung ương hay các thành phố lớn vẫn còn một khoảng cách xa Từ những thực tế trên, việc sử dụng các công nghệ số với nòng cốt là dữ liệu lớn và trí tuệ nhân tạo, để xây dựng nền y tế thông minh được coi là giải pháp để thay đổi nhanh nền y tế của Việt Nam [7] Khi đó các công nghệ số phân tích dữ liệu sẽ được ứng dụng để phát triển các giải pháp chẩn đoán bệnh sớm, với chi phí thấp và dễ dàng tiếp cận người dùng ở quy mô lớn [8, 9]
Trong khoảng thời gian 5 năm trở lại đây, sự phát triển nhanh của dữ liệu lớn
và năng lực tính toán đã giúp cho các mô hình trí tuệ nhân tạo đạt được những tiến
bộ vượt bậc Những đột phá trong nghiên cứu cơ bản và nghiên cứu về ứng dụng trí tuệ nhân tạo trong y tế liên tiếp được công bố và đưa vào triển khai thực tế [10-12] Hiểu một cách ngắn gọn là các mô hình trí tuệ nhân tạo có thể tham gia hỗ trợ bác sĩ trong toàn bộ quy trình khám bệnh lâm sàng dựa trên hình ảnh y tế Trí tuệ nhân tạo giúp cho các thiết bị thu nhận hình ảnh y tế tạo ra các hình ảnh nhanh hơn, chất lượng hơn với giá thành rẻ hơn Việc phân tích, chẩn đoán bệnh và tự động xuất báo cáo… cũng đều có thể đảm nhiệm bởi các phần mềm ứng dụng trí tuệ nhân tạo [13, 14] Trong các tác vụ trên, trí tuệ nhân tạo đã được ứng dụng nhiều trong tác vụ hỗ trợ chẩn đoán bệnh dựa trên hình ảnh [15-17], đặc biệt là phát hiện sớm các bệnh lý liên quan đến ung thư [18, 19] Hệ thống hỗ trợ phát hiện (computer-aided detection – CADe) và hỗ trợ chẩn đoán (computer-aided diagnosis – CADx) đã làm giảm các lỗi
do phương pháp chẩn đoán truyền thống, chủ yếu dựa trên kinh nghiệm của các bác
sĩ [20, 21] Hiệu suất của các hệ thống như vậy đóng một vai trò quan trọng trong việc nâng cao chất lượng của công việc chẩn đoán
Từ các thực tiễn của lĩnh vực chẩn đoán hình ảnh y tế đã phân tích bên trên, cho thấy vấn đề ứng dụng trí tuệ nhân tạo trong xử lý ảnh y tế, để phát triển các hệ thống hỗ trợ phát hiện hay hệ thống hỗ trợ chẩn đoán bằng máy tính là lĩnh vực nghiên
cứu mới và có đóng góp lớn cho ngành y tế Đề tài “Nâng cao hiệu quả hỗ trợ chẩn đoán một số dạng ung thư dựa trên kỹ thuật xử lý ảnh và mạng nơ-ron tích chập” được lựa chọn để thực hiện luận án tiến sĩ chuyên ngành Kỹ thuật điện tử Kết quả
nghiên cứu được áp dụng trên tập dữ liệu ảnh y tế công khai, đã được các bác sĩ chẩn
Trang 15đoán hình ảnh uy tín xác nhận thông tin và gắn nhãn
Thách thức đặt ra với luận án là trong phạm vi nghiên cứu độc lập của nghiên
cứu sinh trong trường đại học, cần phải có thiết bị xử lý hình ảnh tốc độ cao, thu thập được tập dữ liệu chuẩn đã được xác nhận bởi các bác sĩ từ các bệnh viện hay được cho phép sử dụng tập dữ liệu công khai, tập dữ liệu đủ tin cậy đảm bảo sự chính xác trong quá trình thực nghiệm
2 Mục tiêu, đối tượng và phương pháp nghiên cứu của luận án
Mục tiêu của luận án là nghiên cứu một số giải pháp để nâng cao độ chính
xác của hệ thống hỗ trợ chẩn đoán hình ảnh y tế bằng máy tính (CADx) dựa trên kỹ thuật xử lý ảnh và mạng nơ-ron tích chập Ứng dụng giải pháp đề xuất mới trong hỗ trợ chẩn đoán ung thư nhờ chẩn đoán hình ảnh, giúp các bác sĩ chẩn đoán hình ảnh dễ dàng hơn cho việc chẩn đoán bệnh và lập kế hoạch điều trị
Đối tượng nghiên cứu của luận án
- Ảnh y tế của một số dạng ung thư có thể phát hiện sớm nhờ chẩn đoán hình ảnh, có tập dữ liệu đã được công bố trong các nghiên cứu trước đây và được phép sử
dụng hợp pháp trong các nghiên cứu thực nghiệm của Luận án Trong nghiên cứu
này, tác giả lựa chọn ảnh siêu âm tuyến vú và tuyến giáp làm đối tượng nghiên cứu Hai loại ung thư tuyến vú và tuyến giáp là những loại ung thư phổ biến hiện nay và
có thể chẩn đoán sớm qua hình ảnh
- Kỹ thuật xử lý ảnh và mạng nơ-ron tích chập ứng dụng trong tác vụ phân
vùng ảnh và phân loại ảnh
Phạm vi nghiên cứu của luận án: Hình ảnh y tế bao gồm nhiều loại khác
nhau, trên nhiều bộ phận của cơ thể con người với các đặc điểm và giải pháp xử lý khác nhau Nghiên cứu này tập trung vào các loại hình ảnh y tế có sẵn các tập dữ liệu công khai để giảm thời gian cho việc thu thập dữ liệu cũng như đảm bảo độ tin cậy của dữ liệu Vì vậy, phạm vi nghiên cứu tập trung chủ yếu ở hai vấn đề chính:
- Đề xuất và thực nghiệm chứng minh giải pháp kỹ thuật nhằm nâng cao độ chính xác của mô hình phát hiện, phân vùng các đối tượng quan tâm trên hình ảnh y
tế dựa trên kỹ thuật xử lý ảnh và mạng nơ-ron tích chập;
Trang 16- Đề xuất và thực nghiệm chứng minh giải pháp cho mô hình phân loại ảnh y
tế dựa trên cấu trúc CNN trong trường hợp có ít dữ liệu huấn luyện
Phương pháp nghiên cứu:
Nghiên cứu lý thuyết: Phân tích, đánh giá các nghiên cứu về vấn đề phát hiện, phân vùng đối tượng trên ảnh y tế và phân loại ảnh y tế đã được công bố trên các tài liệu, tạp chí; Tổng hợp các thông tin liên quan đến đối tượng nghiên cứu, lựa chọn các cách tiếp cận đã được áp dụng thành công dựa vào các kết quả nghiên cứu đã công bố; Đề xuất giải pháp mới trong phạm vi nghiên cứu
Nghiên cứu thực nghiệm: Thực hiện viết chương trình với ngôn ngữ Python cho các giải pháp đề xuất; Chạy thử nghiệm chương trình của giải pháp đề xuất mới với các bộ dữ liệu hình ảnh y tế công khai, đã được sử dụng ở các nghiên cứu khác;
So sánh và đánh giá kết quả thực nghiệm so với kết quả của các nghiên cứu đã công
bố, từ đó kết luận tính đúng đắn của kết quả nghiên cứu
3 Đóng góp của luận án
Đóng góp thứ nhất: Đề xuất giải pháp phân vùng hình ảnh khối u trong ảnh y
tế sử dụng một mạng phân vùng duy nhất dựa trên cấu trúc mạng U-Net Mạng phân vùng này đã được cải tiến nhiều lớp hơn so với mạng U-Net gốc, tăng khả năng học, giảm hiện tượng mất đạo hàm khi huấn luyện Nâng cao hiệu quả phát hiện và phân vùng đối tượng trong ảnh y tế cho mạng phân vùng khi sử dụng ảnh đa phân giải được tăng cường từ ảnh gốc Nội dung chi tiết của đóng góp thứ nhất được trình bày trong
Chương 2 của Luận án và được công bố trong công trình [2 - 3]
Đóng góp thứ hai: Đề xuất Đã đề xuất giải pháp thiết kế một hệ thống phân
loại hình ảnh khối u trong ảnh y tế dựa trên cấu trúc CNN Hệ thống phân loại này có thể ứng dụng trong trường hợp không có một số lượng lớn dữ liệu huấn luyện cho mạng phân loại nhưng hệ thống vẫn duy trì độ chính xác phân loại cao Nội dung chi tiết của đóng góp thứ hai được trình bày trong Chương 3 của Luận án và được công
bố trong công trình [4]
Trang 17Chương 2 trình bày về giải pháp đề xuất mới để phát triển mô hình mạng trí tuệ nhân tạo giúp nâng cao hiệu quả phát hiện và phân vùng đối tượng trong ảnh y tế Đặc điểm tập dữ liệu ảnh siêu âm tuyến vú BUS và BUSI phục vụ quá trình thực nghiệm, quy trình thực nghiệm và kết quả thực nghiệm phân vùng ảnh trên tập dữ liệu BUS và BUSI cho giải pháp đề xuất mới
Chương 3 trình bày về giải pháp đề xuất mới để phát triển mô hình mạng phân loại ảnh, giúp cải thiện hạn chế của mạng nơ-ron tích chập trong tác vụ phân loại ảnh
y tế khi có ít dữ liệu huấn luyện Đặc điểm tập dữ liệu ảnh siêu âm tuyến giáp TDID phục vụ quá trình thực nghiệm, quy trình thực nghiệm và kết quả thử nghiệm phân loại ảnh trên tập dữ liệu ảnh TDID cho giải pháp đề xuất mới
Kết quả thực nghiệm của Luận án được so sánh với kết quả của các nghiên cứu
đã công bố trước đây khi sử dụng cùng tập dữ liệu ảnh Từ đó, đưa ra kết luận về các
ưu điểm và hạn chế của giải pháp đề xuất mới trong luận án Cuối cùng, phần kết luận nêu những đóng góp của Luận án và các hướng nghiên cứu tiếp theo
Trang 18CHƯƠNG 1 TỔNG QUAN VỀ XỬ LÝ ẢNH Y TẾ VÀ ỨNG DỤNG MẠNG NƠ-RON TÍCH CHẬP TRONG HỖ TRỢ CHẨN ĐOÁN QUA
HÌNH ẢNH
Tóm tắt:
Trong chương này, tác giả trình bày tổng quan về kỹ thuật chẩn đoán hình ảnh trong y tế, đặc điểm của một số phương thức ảnh y tế cơ bản và ứng dụng mạng nơ- ron tích chập trong tác vụ phân tích ảnh y tế Tiếp theo, tác giả trình bày và phân tích cấu trúc của hệ thống hỗ trợ chẩn đoán hình ảnh y tế bằng máy tính(CAD) Phân tích các kết quả nghiên cứu cùng hướng nghiên cứu với luận án, dựa trên những công trình nghiên cứu đã được công bố gần đây ở trong và ngoài nước, chỉ ra được các vấn đề còn tồn tại của những nghiên cứu trước đây đã phân tích Từ những cơ sở lý thuyết và những vấn đề tồn tại của những nghiên cứu trước đây trong phạm vi nghiên cứu của luận án, tác giả đề xuất giải pháp mới để nâng cao hiệu quả hỗ trợ chẩn đoán một số dạng ung thư dựa trên kỹ thuật xử lý ảnh và mạng nơ-ron tích chập
1.1 Tổng quan về chẩn đoán hình ảnh trong y tế
Y học hiện đại chẩn đoán bệnh dựa vào các triệu chứng lâm sàng (chẩn đoán lâm sàng) và các triệu chứng cận lâm sàng (chẩn đoán cận lâm sàng) Trong chẩn đoán cận lâm sàng thì chẩn đoán dựa trên hình ảnh thu được từ các thiết bị, máy y tế ngày càng chiếm một vai trò quan trọng Nhất là ngày nay, sự trợ giúp của các phần mềm tin học giúp cho hình ảnh y tế rõ nét và chính xác hơn [22, 23]
Các phương pháp chẩn đoán hình ảnh rất phong phú, như chẩn đoán qua hình ảnh X-quang, hình ảnh siêu âm, siêu âm - Doppler màu, hình ảnh nội soi, hình ảnh chụp cắt lớp vi tính CT, hình ảnh chụp cộng hưởng từ MRI, hình ảnh kính hiển vi [24]
Chẩn đoán hình ảnh đã góp phần quan trọng nâng cao tính chính xác, kịp thời
và hiệu quả trong chẩn đoán bệnh Như dựa trên hình ảnh siêu âm, các bác sĩ có thể
đo được tương đối chính xác kích thước các tạng đặc trong ổ bụng (gan, lách, thận, tuỵ, ) và phát hiện các khối bất thường nếu có Từ hình ảnh siêu âm tim, cấu trúc,
Trang 19kích thước các buồng tim, van tim và các mạch máu lớn có thể được xác định Trong sản khoa, siêu âm giúp xác định và theo dõi sự phát triển của thai nhi trong bụng mẹ Hình ảnh CT giúp bác sĩ xác định được một số bệnh lý ở sọ não, đặc biệt là xác định máu tụ nội sọ, khối u não Chụp cộng hưởng từ xác định chính xác hơn các hình thái
và các khối bất thường trong cơ thể [24]
Ngày nay, hầu hết các chuyên khoa đều liên quan đến hình ảnh học Y khoa Ngay cả da liễu cũng cần đến sự hỗ trợ của chẩn đoán hình ảnh khi gặp các bệnh lý thể hiện ngoài da Hay như tâm thần cũng phải dùng đến chẩn đoán hình ảnh vì ngoài yếu tố tâm thần bị tổn thương thì người bệnh cũng có thể mắc những bệnh lý kết hợp khác Điều này giúp cho việc chẩn đoán bệnh được toàn diện hơn Do đó, chẩn đoán hình ảnh tương tác với mọi chuyên khoa và hỗ trợ theo nhiều cấp độ trong việc cung cấp thêm thông tin lâm sàng cho bệnh nhân [25] Các thiết bị và máy y tế về chẩn đoán hình ảnh ngày càng ứng dụng nhiều hơn về công nghệ thông tin Các phần mềm cho các máy y tế ngày càng được nâng cấp, nhất là khi kỹ thuật số ra đời đã giúp cho hình ảnh sâu hơn, chất lượng ảnh tốt hơn
Để hỗ trợ các bác sĩ trong công tác chẩn đoán hình ảnh, phát hiện sớm các bất thường, với độ chính xác cao, tạo tiền đề cho điều trị đạt hiệu quả Xử lý ảnh y tế trở thành một vấn đề rất quan trọng, giúp tối ưu cho việc thu thập, xử lý, phân tích và đọc hiểu hình ảnh y tế Những tiến bộ công nghệ đạt được trong xử lý hình ảnh y tế đã tạo ra
cơ hội chưa từng có cho việc chẩn đoán không xâm lấn, đồng thời đưa chẩn đoán hình ảnh trở thành một phần không thể thiếu của hệ thống chăm sóc sức khỏe
Xử lý hình ảnh y tế liên quan đến quy trình nhiều bước, từ thu thập dữ liệu thô đến truyền tải hình ảnh số hóa, làm tiền đề cho luồng dữ liệu hoàn chỉnh trong các hệ thống hình ảnh y tế hiện đại Hiện nay, các hệ thống này có thể xử lý hình ảnh có độ phân giải ngày càng cao về kích thước không gian và cường độ, cũng như thời gian thu thập nhanh hơn, dẫn đến một lượng lớn dữ liệu hình ảnh thô, chất lượng cao phải được xử lý kịp thời
và đúng cách, nhằm đạt được kết quả chẩn đoán chính xác Một trong các tiến bộ nổi bật của khoa học công nghệ trong ứng dụng xử lý ảnh y tế, đó là sự phát triển của GPU (Graphics Processing Units)
Trang 20Các đơn vị xử lý đồ họa (GPU) ngày nay được sử dụng trong nhiều ứng dụng, chủ yếu là do chúng có thể tăng tốc đáng kể tính toán song song, giá cả phải chăng và tiết kiệm năng lượng Trong lĩnh vực xử lý ảnh y tế, GPU rất quan trọng khi các ứng dụng xử lý ảnh đòi hỏi quá trình tính toán các thuật toán phức tạp [26]
1.2 Ảnh y tế và kỹ thuật cơ bản trong xử lý ảnh y tế
1.2.1 Các loại ảnh y tế phổ biến trong chẩn đoán hình ảnh
Ngày nay, với sự phát triển của khoa học công nghệ, nhiều phương pháp được
sử dụng để thu thập các hình ảnh y tế, phù hợp cho các bộ phận khác nhau trên cơ thể con người, đặc điểm của một số loại ảnh y tế phổ biến như sau [27]:
1 Ảnh X-quang
Kỹ thuật chẩn đoán hình ảnh chụp X-quang rất phổ biến và được thực hiện tại
các cơ sở y tế có đủ điều kiện cơ sở để thực hiện kỹ thuật này Kỹ thuật này được thực hiện cho nhiều mục đích như chẩn đoán nguyên nhân và xác định mức độ chấn thương, kiểm tra sự tiến triển của bệnh và đánh giá hiệu quả của các phương pháp điều trị Phần cơ thể cần chụp sẽ được đặt giữa máy chụp X-quang và tấm phim chụp ảnh hoặc cảm biến X-quang kỹ thuật số Người bệnh được giữ yên vị trí trong khi máy phát sóng điện từ (bức xạ) đi qua cơ thể, để lộ hình ảnh phản ánh cấu trúc bên trong cơ thể Đây là phương pháp đơn giản và sớm nhất mà các bác sĩ chẩn đoán hình ảnh được trang bị để chẩn đoán các bệnh lý liên quan đến xương khớp và tầm soát ban đầu các bệnh lý ở phổi thông qua chụp X-quang ngực
2 Ảnh siêu âm
Siêu âm được sử dụng để chụp hình ảnh từ bên trong cơ thể, bằng cách sử dụng sóng âm tần số cao ở các mô mềm như nội tạng và mạch máu Đối với các trường hợp cần hạn chế tiếp xúc với chất phóng xạ, thì siêu âm là lựa chọn tốt để kiểm tra Đây là phương pháp có tính linh động rất cao Không như các kỹ thuật khác phải có sự phối hợp của các kỹ thuật viên, siêu âm hoạt động khá độc lập bởi bác sĩ chẩn đoán hình ảnh Siêu âm khảo sát tốt các bệnh lý ổ bụng, vùng cổ Siêu âm được ứng dụng rộng rãi trong chẩn đoán các bệnh lý tim mạch, tuyến giáp, tuyến vú, theo
Trang 21dõi thai kỳ… Một nhược điểm của ảnh siêu âm là chất lượng hình ảnh phụ thuộc vào
kỹ năng của người siêu âm và không áp dụng được ở vùng có xương và khí
3 Ảnh CT – Scan cắt lớp điện toán
Phương pháp cắt lớp điện toán là một loại kỹ thuật được phát triển từ kỹ thuật
chụp quang, CT-Scan có khả năng cung cấp nhiều thông tin hơn so với chụp quang CT-Scan có thể được áp dụng đối với tất cả các bộ phận của cơ thể, bao gồm ngực, bụng, xương, tủy sống và cả các cơ quan nội tạng như gan, ruột, tuyến tụy, bàng quang, tim phổi Kỹ thuật CT đem đến rất nhiều thông tin hữu ích cho bác sĩ chẩn đoán hình ảnh trong các ca bệnh nhập viện vì cấp cứu như chấn thương, đột quỵ So với siêu âm và MRI thì kỹ thuật CT chiếm ưu thế hơn trong việc khảo sát bệnh lý thuộc lồng ngực, đặc biệt là các tổn thương trong phổi
(a) X-quang xương (b) CT gan (c) MRI não (d) Siêu âm tim
Hình 1.1 Hình ảnh y tế cơ bản và ứng dụng [28]
4 Ảnh MRI – Cộng hưởng từ
Được xem là kỹ thuật hiện đại và phát triển nhảy vọt không kém gì CT, MRI
là phương pháp có tính cạnh tranh rất lớn vì tính an toàn về bức xạ, không sử dụng tia X, MRI phát huy hiệu quả trong các bệnh lý thuộc hệ thần kinh trung ương, gan mật, tim mạch, vú, các bệnh lý vùng chậu và hệ cơ xương khớp khi so với các loại kỹ thuật khác về mức độ cung cấp thông tin Máy MRI tạo ra từ trường xung quanh người bệnh và sau đó phát sóng vô tuyến đến khu vực của cơ thể cần được kiểm tra Một máy tính được sử dụng để ghi lại chuyển động của các bộ phận khác nhau như gân, dây chằng, dây thần kinh, và chuyển dữ liệu thành hình ảnh hai chiều
Trang 221.2.2 Kỹ thuật cơ bản trong xử lý ảnh y tế
Theo như những kết quả trình bày trong nghiên cứu trước đây [29], xử lý hình ảnh y tế đã trải qua quá trình mở rộng đáng kể và là một lĩnh vực nghiên cứu liên ngành thu hút chuyên môn từ toán học ứng dụng, khoa học máy tính, điện tử y sinh và
y học Các kỹ thuật chẩn đoán có sự hỗ trợ của máy tính đã trở thành một phần quan trọng của chẩn đoán lâm sàng Cùng với sự phát triển mạnh mẽ của công nghệ cao và việc ứng dụng các phương thức hình ảnh khác nhau, một thách thức đặt ra là làm thế nào để xử lý và phân tích một lượng lớn hình ảnh để có thể tạo ra thông tin chất lượng cao cho việc chẩn đoán và điều trị bệnh
Phát hiện, chuyển đổi, tiền xử lý và số hóa dữ liệu thô thu được
Các thuật toán tái tạo hình ảnh từ dữ liệu thu được
Các kỹ thuật trong miền không gian và miền tần số để tăng cường sự mô tả của hình ảnh
Phân đoạn, đăng ký, định lượng
Kết xuất dữ liệu hình ảnh để thể hiện trực quan thông tin giải phẫu và sinh lý
Lưu trữ, truy xuất và truyền tải dữ liệu hình ảnh
Hình 1.2 Các kỹ thuật cơ bản trong xử lý ảnh y tế [29]
Hình 1.2 thống kê các kỹ thuật cơ bản nhất của xử lý hình ảnh y tế Các kỹ thuật này nằm trong ba quy trình chính: tái tạo hình ảnh, tính toán và xử lý dữ liệu ảnh, cũng như quản lý hình ảnh
Quá trình tái tạo ảnh bao gồm các bước thu thập dữ liệu, tái tạo hình ảnh và giải quyết bài toán nghịch đảo Mục đích của tính toán và xử lý dữ liệu ảnh là cải thiện khả năng diễn giải của hình ảnh được tái tạo, từ đó trích xuất thông tin có liên quan về mặt lâm sàng Cuối cùng, quản lý hình ảnh liên quan đến việc nén, lưu trữ, truy xuất và truyền tải các hình ảnh thu được [29]
Trang 231) Thu thập dữ liệu: Bước đầu tiên không thể thiếu là thu thập dữ liệu ảnh thô chứa thông
tin ban đầu về các bộ phận được chiếu chụp Những thông tin này chính là đối tượng cho các bước xử lý tiếp theo Các phương pháp chụp khác nhau có thể sử dụng các nguyên tắc vật lý khác nhau và do đó bước đầu tiên này liên quan đến việc phát hiện các đại lượng vật
lý khác Ví dụ, trong chụp ảnh bức xạ kỹ thuật số (DR) hoặc chụp cắt lớp vi tính (CT), đó
là năng lượng của các photon tới; trong chụp cắt lớp phát xạ positron (PET), đó là năng lượng các photon và thời gian phát hiện chúng; trong hình ảnh cộng hưởng từ (MRI), đó
là các tham số của tín hiệu tần số vô tuyến do các nguyên tử bị kích thích phát ra; và trong
siêu âm, đó là các tham số của sóng âm phản xạ lại Tuy nhiên, bất kể loại hình ảnh nào
thì quá trình thu thập dữ liệu cũng có thể được chia nhỏ thành các bước: phát hiện một đại lượng vật lý, chuyển đổi đại lượng vật lý thành tín hiệu điện, điều chỉnh trước tín hiệu thu được và tiến hành số hóa
2) Tái tạo hình ảnh: Tái tạo hình ảnh là một quá trình toán học tạo hình ảnh bằng cách sử
dụng dữ liệu thô thu được Đối với hình ảnh đa chiều, quá trình này bao gồm sự kết hợp của nhiều bộ dữ liệu được chụp ở các góc độ khác nhau hoặc các bước thời gian khác nhau Phần xử lý hình ảnh này giải quyết các vấn đề nghịch đảo, với hai thuật toán chính là thuật toán phân tích và thuật toán lặp lại Các ví dụ điển hình của phương pháp dựa trên thuật toán phân tích bao gồm: filtered backprojection (FBP), được sử dụng rộng rãi trong chụp cắt lớp; Fourier transform (FT) đặc biệt quan trọng trong MRI; và định dạng delay and sum (DAS) không thể thiếu trong siêu âm Các thuật toán này hiệu quả về cả sức mạnh xử
lý và thời gian tính toán, tuy nhiên gặp hạn chế về khả năng xử lý các yếu tố phức tạp Ngược lại, phương pháp dựa trên thuật toán lặp lại khắc phục được các hạn chế trên, giúp cải thiện đáng kể độ nhạy đối với các yếu tố nhiễu và tái tạo lại hình ảnh tối ưu bằng cách
sử dụng dữ liệu thô Các phương pháp lặp thường sử dụng hệ thống và mô hình nhiễu thống kê để tính toán các phép chiếu dựa trên mô hình đối tượng ban đầu với các hệ số giả định Sự khác biệt giữa các dự báo tính toán và dữ liệu ban đầu xác định các hệ số mới được sử dụng để cập nhật mô hình đối tượng Quy trình trên được lặp lại cho đến khi quá trình tái tạo thành hình ảnh cuối cùng
Trang 243) Tính toán hình ảnh: Đề cập đến các phương pháp tính toán hoạt động trên dữ liệu hình
ảnh được tái tạo để trích xuất thông tin có liên quan về mặt lâm sàng Các phương pháp
này được áp dụng để tăng cường, phân tích và trực quan hóa các kết quả hình ảnh
4) Tăng cường hình ảnh: Tăng cường hình ảnh thay đổi cách biểu diễn một hình ảnh để
cải thiện khả năng diễn giải của thông tin chứa trong đó Tăng cường hình ảnh có thể được chia nhỏ thành các kỹ thuật miền không gian và miền tần số Các kỹ thuật miền không gian hoạt động trực tiếp trên các pixels hình ảnh, đặc biệt hữu ích cho việc tối ưu hóa độ tương phản Các kỹ thuật này thường dựa vào các phép biến đổi lôgarit, biểu đồ và lũy thừa Các phương pháp miền tần số sử dụng biến đổi tần số để làm mịn và làm sắc nét hình ảnh bằng cách áp dụng các loại bộ lọc khác nhau Việc sử dụng tất cả các kỹ thuật này cho phép giảm nhiễu và tính không đồng nhất, tối ưu hóa độ tương phản, tăng cường các cạnh, loại bỏ các hiện tượng giả và cải thiện các đặc tính liên quan khác cho việc phân tích và diễn giải chính xác hình ảnh
5) Phân tích hình ảnh: Phân tích hình ảnh là trung tâm của quy trình tính toán, với ba loại
chính: phân đoạn hình ảnh, định dạng hình ảnh và định lượng hình ảnh Quá trình phân đoạn hình ảnh sẽ thực hiện phân vùng ảnh thành các cấu trúc khác nhau dựa trên các đặc trưng của các điểm ảnh Định dạng hình ảnh đảm bảo căn chỉnh chính xác hình ảnh, phân tích các thay đổi theo thời gian hoặc kết hợp các hình ảnh bằng cách sử dụng nhiều phương thức khác nhau Còn quá trình định lượng sẽ xác định các đặc tính của cấu trúc như thể tích, đường kính, thành phần và các thông tin giải phẫu hoặc sinh lý liên quan khác Tất cả các quá trình này có ảnh hưởng trực tiếp đến chất lượng của dữ liệu hình ảnh và mức độ chính xác của các phát hiện y tế
6) Trực quan hóa hình ảnh: Quá trình trực quan hóa kết xuất dữ liệu hình ảnh để biểu thị
một cách trực quan thông tin hình ảnh giải phẫu và sinh lý ở một dạng cụ thể trên các kích thước xác định Thông qua tương tác trực tiếp với dữ liệu, trực quan hóa có thể được thực hiện ở cả giai đoạn đầu và giai đoạn trung gian của phân tích hình ảnh Ví dụ để hỗ trợ các quy trình phân đoạn và định dạng, và ở giai đoạn cuối cùng để hiển thị các kết quả đã được tinh chỉnh
Trang 257) Quản lý hình ảnh: Phần cuối cùng của quá trình xử lý hình ảnh y tế liên quan đến việc
quản lý thông tin thu được và bao gồm các kỹ thuật khác nhau để lưu trữ, truy xuất và truyền tải dữ liệu hình ảnh Có một số tiêu chuẩn và công nghệ được phát triển để giải quyết các khía cạnh khác nhau của quản lý hình ảnh Ví dụ: hệ thống PACS cung cấp khả năng lưu trữ và truyền tải hình ảnh y tế định dạng DICOM Bên cạnh đó, các kỹ thuật đặc biệt để nén và phát trực tuyến hình ảnh cũng có khả năng thực hiện các tác vụ này một cách hiệu quả
1.3 Phân tích hình ảnh y tế với mạng nơ-ron tích chập
Trong công bố gần đây [28], với sự phát triển mạnh mẽ của trí tuệ nhân tạo (AI), đặc biệt là những tiến bộ gần đây của Deep-Learning, việc sử dụng các phương pháp dựa trên học sâu tiên tiến để phân tích hình ảnh đã trở thành một lĩnh vực nghiên cứu tích cực Các kỹ thuật học sâu tiên tiến gần đây đã đạt được thành công lớn trong phân tích hình ảnh với độ chính xác, hiệu quả, ổn định và khả năng mở rộng cao Những tiến bộ công nghệ có thể làm giảm bớt nhu cầu cao về bộ dữ liệu chất lượng và quy mô lớn
Phần lớn những tiến bộ trong lĩnh vực nhận dạng hình ảnh (Image Recognitions) ngày nay phụ thuộc vào kỹ thuật học sâu Học máy thông thường lấy
dữ liệu, đẩy dữ liệu đó thông qua các thuật toán và sau đó đưa ra dự đoán kết quả của việc nhận dạng hình ảnh Học sâu khác với học máy ở cách nó có thể xác định xem kết luận có đúng hay không, có đủ thời gian hay không Kỹ thuật học sâu hoạt động như thế nào được quyết định bởi mạng nơ-ron Các mạng nơ-ron nhân tạo sử dụng các thuật toán được xếp chồng lên nhau Điều này làm cho mỗi thuật toán phụ thuộc vào kết quả của các thuật toán xung quanh khác
1.3.1 Mạng nơ-ron tích chập
Convolutional Neural Networks (CNNs) [30, 31], một loại mạng thần kinh
nhân tạo đã trở nên thiết yếu trong các lĩnh vực thị giác máy tính và đang nhận được nhiều sự chú ý hơn qua các nghiên cứu được công bố với các ứng dụng đa dạng khác nhau Hình 1.3 minh họa kiến trúc cơ bản của một mạng nơ-ron tích chập Các lớp cơ bản trong mạng nơ-ron tích chập bao gồm: lớp tích chập, lớp kích hoạt phi tuyến, lớp
Trang 26lấy mẫu và lớp kết nối đầy đủ Các lớp trong mạng nơ-ron tích chập được thay đổi về
số lượng và cách sắp xếp để tạo ra các mô hình huấn luyện phù hợp cho các ứng dụng khác nhau
Convolutional Layer là thành phần quan trọng nhất trong mạng nơ-ron tích
chập, cũng là lớp thể hiện điểm khác biệt của CNNs trong xử lý ảnh đó là sử dụng kết nối cục bộ thay vì kết nối tất cả các pixel Các liên kết cục bộ này được tính bằng phép tích chập giữa các giá trị pixel trong vùng hình ảnh cục bộ với các bộ lọc (filter) có kích thước nhỏ Bộ lọc này lần lượt được dịch chuyển qua từng vùng của ma trận các điểm ảnh cho đến khi nó quét xong toàn bộ ma trận ảnh, tạo ra ma trận ảnh mới có kích thước nhỏ hơn hoặc bằng kích thước của ma trận ảnh đầu vào Sau khi đưa một hình ảnh vào lớp tích chập, sẽ nhận được đầu ra dưới dạng một loạt ma trận đặc trưng ảnh tương ứng với các bộ lọc được sử dụng để thực hiện tích chập Trọng số của các
bộ lọc này được khởi tạo ngẫu nhiên lần đầu tiên, và sẽ cải thiện trong suốt quá trình huấn luyện qua thuật toán lan truyền ngược đến khi giá trị Loss của mô hình sau mỗi lượt huấn luyện đạt đến giá trị cực tiểu Giả sử lớp đầu vào chứa các pixel thô của hình ảnh với m×m×r (ví dụ: 255×255×3), trong đó m là chiều cao hình ảnh và chiều rộng, còn r là số kênh Lớp tích chập xuất ra một loạt các bản đồ đặc trưng của ảnh (Feature map), sau đó được đưa qua lớp kích hoạt phi tuyến rồi mới đi vào lớp tích chập tiếp theo hoặc lớp lấy mẫu Mỗi lớp tích chập có k bộ lọc với kích thước n × n × q đại diện cho kích thước của kết nối cục bộ các vùng trong ảnh Ở đây, n nhỏ hơn kích thước của hình ảnh m và q bằng hoặc nhỏ hơn r (số lượng kênh) và nó có thể thay đổi cho mỗi bộ lọc Sau khi kết hợp từng bộ lọc với hình ảnh, k bản đồ đặc trưng xk có kích thước m−n+1 được tạo ra (được xác định trong phương trình (1.1)), trong đó Wk và
bk là trọng số và độ lệch của các bộ lọc tương ứng và xk−1 là đầu vào từ lớp trước đó với f là hàm kích hoạt phi tuyến
xk = f((Wk ∗ xk−1) + bk) (1.1)
ReLU Layer là hàm kích hoạt phi tuyến trong mạng nơ-ron tích chập, được
gọi là activation function Hàm kích hoạt phi tuyến có tác dụng mô phỏng tỷ lệ truyền xung qua axon của một nơ-ron thần kinh Trong một mạng nơ-ron nhân tạo, hàm kích
Trang 27hoạt đóng vai trò là thành phần phi tuyến tại đầu ra của các nơ-ron Cũng có các hàm kích hoạt phi tuyến khác như Leaky, Sigmoid, Leaky, Maxout, tuy nhiên hiện nay, hàm ReLU được sử dụng phổ biến và thông dụng nhất Hàm này được sử dụng cho những yêu cầu huấn luyện mạng nơ ron với những ưu điểm nổi bật điển hình là hỗ trợ tính toán nhanh hơn, nếu không có hàm kích hoạt phi tuyến thì mạng nơ-ron dù
có nhiều lớp vẫn sẽ có hiệu quả như một lớp tuyến tính
Pooling Layer là một thành phần tính toán chính khác trong mạng nơ-ron tích
chập được gọi là Pooling, thường được đặt sau Convolution layer và ReLu layer để giảm kích thước ảnh đầu ra mà vẫn giữ được các thông tin quan trọng của ảnh đầu vào Việc giảm kích thước dữ liệu có tác dụng giảm số lượng tham số cũng như tăng hiệu quả tính toán Lớp lấy mẫu cũng sử dụng cửa sổ trượt để quét tất cả các vùng của ảnh tương tự như lớp Convolution và thực hiện lấy mẫu thay vì tích chập, nghĩa là chúng ta sẽ chọn lưu một giá trị đại diện duy nhất cho toàn bộ khu vực thông tin Có
2 giải pháp lấy mẫu thường được sử dụng là Max Pooling và Average Pooling Như vậy, với mỗi ảnh đầu vào đưa qua lấy mẫu ta thu được một ảnh đầu ra tương ứng, kích thước được giảm đi đáng kể nhưng vẫn giữ được các đặc trưng cần thiết cho quá trình tính toán sau này
Fully connected Layer được thiết kế hoàn toàn như mạng nơ-ron truyền thống,
tức là tất cả các điểm ảnh được kết nối đầy đủ với node trong lớp tiếp theo So với mạng nơ-ron truyền thống, các ảnh đầu vào của lớp này đã có kích thước được giảm bớt rất nhiều, đồng thời vẫn đảm bảo các thông tin quan trọng cho việc nhận dạng Do vậy, việc tính toán nhận dạng sử dụng mô hình truyền thẳng đã không còn phức tạp và tốn thời gian như trong mạng nơ-ron truyền thống
Một đặc điểm của CNNs là sẽ so sánh dựa vào từng mảng và các mảng như vậy được gọi là feature Thay vì phải tiến hành khớp các bức ảnh lại với nhau thì mạng nơ-ron tích chập sẽ xác định được sự tương đồng thông qua tìm kiếm thô những đặc trưng khớp với nhau của hai hình ảnh Một feature là một hình ảnh dạng mini (những mảng 2 chiều nhỏ) Những feature này đều tương ứng với một khía cạnh nào
đó của hình ảnh và chúng có thể khớp lại được với nhau [31]
Trang 28Hình 1.3 Cấu trúc cơ bản của Convolutional Neural Networks [30]
1.3.2 CNN ứng dụng phát hiện đối tượng trong ảnh y tế
Các thuật toán phát hiện đối tượng bao gồm hai nhiệm vụ đó là nhận dạng và xác định vị trí Nhiệm vụ nhận dạng đề cập đến việc đánh giá xem các đối tượng thuộc các lớp nhất định có xuất hiện trong các vùng quan tâm hay không, trong khi nhiệm
vụ xác định vị trí đề cập đến việc xác định vị trí của đối tượng trong hình ảnh Trong phân tích hình ảnh y tế, việc phát hiện đối tượng thường nhằm phát hiện sớm nhất những dấu hiệu bất thường ở bệnh nhân Các ứng dụng lâm sàng điển hình của nhiệm
vụ phát hiện bao gồm phát hiện nốt phổi trong hình ảnh CT ngực hoặc X-quang, phát hiện tổn thương trên hình ảnh CT, hoặc siêu âm tuyến vú
Các thuật toán phát hiện đối tượng có thể được phân loại thành hai cách tiếp cận, cách tiếp cận dựa trên Anchor và cách tiếp cận khác là Anchor-Free, tức không
sử dụng anchor Trong đó các thuật toán dựa trên Anchor có thể được chia thành các thuật toán one-stage, two-stage hay multi-stage Đối với thuật toán one-stage, một số cấu trúc điển hình như: SSD, Yolo Nói chung, các thuật toán one-stage hiệu quả về mặt tính toán trong khi các thuật toán two-stage hay multi-stage có hiệu suất phát hiện tốt hơn Một điểm khác của mô hình SSD so với Yolo là sử dụng bản đồ đặc trưng nhiều tỷ lệ, do đó tạo ra hiệu suất phát hiện tốt hơn Yolo
Trang 29Các mô hình phát hiện đối tượng two-stage điển hình như Faster-RCNN hay Mask-RCNN Trong stage-1, ảnh sẽ được đưa ra 1 một mạng con (sub-network) gọi
là RPN (Region Proposal Network) với nhiệm vụ trích xuất các vùng trên ảnh có khả năng chứa đối tượng Sau khi đã thu được các vùng đặc trưng từ RPN, model Faster/Mask-RCNN sẽ thực hiện tiếp việc phân loại đối tượng Sự khác biệt chính giữa Faster-RCNN và Mask-RCNN là Mask-RCNN có một nhánh phân đoạn cá thể Gần đây, có một xu hướng nghiên cứu về việc phát triển các thuật toán không có Anchor CornerNet là một trong những mạng phổ biến CornerNet là một mạng nơ-ron tích chập đơn lẻ giúp loại bỏ việc sử dụng các hộp Anchor thông qua việc sử dụng các điểm chính được ghép nối trong đó hộp giới hạn đối tượng được biểu thị bằng góc trên cùng bên trái và góc dưới cùng bên phải [28]
1.3.3 CNN ứng dụng phân vùng ảnh y tế
Để xác định được vị trí của các đối tượng trong ảnh, hình dạng của đối tượng
và từng pixel thuộc đối tượng trong ảnh, cần phải áp dụng bài toán Image Segmentation (bài toán sẽ phân chia một hình ảnh thành nhiều vùng ảnh khác nhau) Phân vùng ảnh là một tác vụ gắn nhãn pixel, phân chia một hình ảnh thành các vùng
có các thuộc tính tương đồng nhau Đầu vào của bài toán phân vùng là một bức ảnh
và đầu ra là một ma trận mask mà giá trị của từng pixel đã được gán nhãn trên đó [32]
Có hai cách tiếp cận phân vùng ảnh Cách tiếp cận thứ nhất là tiếp cận tương đồng (Similarity approach), có nghĩa là phát hiện sự tương đồng giữa các pixel hình ảnh để tạo thành một phân đoạn dựa trên một ngưỡng Các thuật toán học máy thường dựa trên kiểu tiếp cận này để phân vùng một hình ảnh Cách tiếp cận thứ hai là tiếp cận gián đoạn (Discontinuity approach): Cách tiếp cận này dựa trên sự gián đoạn của các giá trị cường độ pixel trong hình ảnh Các kỹ thuật phát hiện đường, điểm và cạnh sử dụng kiểu tiếp cận gián đoạn để thu được các kết quả phân vùng trung gian Kết quả này sau đó có thể được xử lý để cho ra hình ảnh được phân vùng cuối cùng [33]
Như đã trình bày ở Mục 1.3.1, đặc điểm của mạng nơ-ron tích chập [30] là học các bản đồ đặc trưng của hình ảnh và dùng nó để tạo ra bản đồ đặc trưng ở mức cao
Trang 30hơn Các mạng nơ-ron tích chập thông thường sẽ có kích thước giảm dần qua các lớp tích chập để cuối cùng thu được những đặc trưng bậc cao (high-level) Chức năng chính của mạng nơ-ron tích chập là chuyển từ ảnh sang đặc trưng [31], chức năng này hoạt động tốt trong các bài toán phân loại vì hình ảnh được chuyển đổi thành một vectơ sử dụng để phân loại Khác với bài toán phân loại ảnh, phân vùng ảnh gồm 2 giai đoạn, đầu tiên là chuyển đổi bản đồ đặc trưng của ảnh thành một vectơ, sau đó tái tạo lại một hình ảnh từ vectơ này Đây là một tác vụ khó và muốn chuyển từ đặc trưng sang ảnh thì cần phải sử dụng mạng giải chập Một mạng giải chập sẽ có kiến trúc chung là kích thước của các ma trận đặc trưng qua các lớp của mạng sẽ tăng dần Qua từng lớp, mạng sẽ giải mã các bản đồ đặc trưng thành những thông tin không gian của từng điểm ảnh và tạo thành một bức ảnh mới ở đầu ra Quá trình gia tăng kích thước tại các lớp của mạng giải chập còn được gọi là Upsampling Trong các bài toán phân loại ảnh và bài toán phát hiện đối tượng, mạng giải chập sẽ không được sử dụng, bởi đầu ra của những bài toán này là xác định nhãn hoặc vị trí Đối với các bài toán Image
to Image (đầu vào là ảnh và đầu ra cũng là ảnh), mạng giải chập sẽ rất hiệu quả [34, 35]
Trang 31Hình 1.5 mô tả kiến trúc của mạng phân vùng hình chữ U (U-Net), kiến trúc này gồm 3 phần: contraction (encoder), bottleneck và expansion (decoder) Phần contraction được tạo bởi nhiều khối Mỗi khối gồm hai lớp tích chập có kernel size là 3×3, theo sau bởi một lớp Max Pooling kích thước 2×2 Số lượng kernel hay feature map tăng gấp đôi sau mỗi khối, do đó kiến trúc này có thể học những đặc trưng phức tạp một cách hiệu quả Phần bottleneck ở vị trí thấp nhất làm trung gian giữa các lớp
ở phần contraction và phần expansion Phần thấp nhất này dùng 2 lớp tích chập kích
thước 3×3, theo sau bởi 1 lớp up convolution với kích thước 2×2 [36]
Hình 1.5 Cấu trúc của mạng U-Net [36]
Trái tim của kiến trúc U-Net nằm ở phần expansion Tương tự như contraction, phần này cũng bao gồm nhiều khối Mỗi khối gồm hai lớp tích chập có kích thước 3×3 theo sau bởi một lớp upsampling Sau mỗi khối, số lượng feature map được giảm đi một nửa để đảm bảo tính đối xứng Tuy nhiên đầu vào của mỗi khối expansion sẽ được nối thêm feature map của khối contraction tương ứng Cách thức này sẽ đảm bảo các đặc trưng của hình ảnh đầu vào sẽ được dùng để tái tạo ảnh mới một cách đầy đủ nhất
Số lượng khối expansion bằng với số lượng khối contraction Sau cùng, kết quả sẽ
Trang 32được đưa qua một lớp tích chập kích thước 3×3 khác với số feature map bằng với số vùng mong muốn
Trong Hình 1.5, cấu trúc mạng U-Net với các ký hiệu như sau: Mỗi một thanh chữ nhật màu xanh lá là một feature map đa kênh, kích thước của feature map được
ký hiệu góc bên trái dưới của thanh chữ nhật và số lượng channels được ký hiệu trên đỉnh của thanh chữ nhật Những thanh chữ nhật màu trắng bên nhánh phải của hình chữ U được copy từ nhánh bên trái và nối tiếp vào nhánh bên phải
- Mũi tên màu vàng là Convolution layer 3×3 + ReLU;
- Mũi tên màu xanh lục là Skip connection để nối layer đối xứng ở Encoder với lớp mạng ở Decoder có cùng kích thước;
- Mũi tên màu tím là Max-Pooling 2×2;
- Mũi tên màu đỏ là Transposed convolution, các tích chập chuyển vị này có nhiệm
vụ chuyển đổi từ feature sang các pixels ảnh;
- Mũi tên màu đen là Convolution layer 1×1;
- Một đặc điểm của kiến trúc Net là không có lớp kết nối đầy đủ (FCN), do đó Net có thể nhận hình ảnh đầu vào có kích thước bất kỳ
U-Mặc dù có độ chính xác cao nhưng U-Net vẫn có những hạn chế về tốc độ Do vậy, U-Net thường được sử dụng khá phổ biến trong các tác vụ không đòi hỏi xử lý thời gian thực như phân vùng ảnh Với các đặc điểm của cấu trúc mạng FCN nói chung
và U-Net, sự hiệu quả với kỹ thuật phân vùng ảnh dựa trên học sâu đã được chứng minh qua các nghiên cứu trước đây [37]
1.3.4 CNN ứng dụng hợp nhất ảnh y tế
Hợp nhất hình ảnh, là một quá trình căn chỉnh hai hoặc nhiều hình ảnh Mục tiêu của việc hợp nhất hình ảnh y tế là nhằm thiết lập sự tối ưu trong các hình ảnh thu được tại các thời điểm khác nhau, bằng các phương thức hình ảnh khác nhau (như CT, MRI), trên các bệnh nhân khác nhau, hoặc từ các quan điểm riêng biệt Hợp nhất hình ảnh đóng vai trò là một bước tiền xử lý quan trọng trong nhiều ứng dụng lâm sàng bao gồm lập kế hoạch điều trị và can thiệp có sự hỗ trợ của máy tính, phẫu thuật hoặc mô
Trang 33phỏng có hỗ trợ bằng hình ảnh và tổng hợp các hình ảnh giải phẫu (ảnh CT hoặc MRI) với hình ảnh chức năng (chẳng hạn như positron chụp cắt lớp phát xạ, tính toán phát
xạ đơn photon chụp cắt lớp, hoặc MRI chức năng) cho bệnh chẩn đoán và theo dõi
Tùy theo quan điểm khác nhau mà hợp nhất hình ảnh có thể được phân loại thành các phương pháp khác nhau Ví dụ, các phương pháp hợp nhất hình ảnh có thể được phân loại là đơn phương thức hoặc đa phương thức dựa trên các phương thức hình ảnh có liên quan Theo chiều dữ liệu, các phương pháp hợp nhất có thể được phân loại thành 2D/2D, 3D/3D, 2D/3D, v.v., và từ quan điểm đo lường sự tương đồng, hợp nhất có thể được phân loại thành nhóm dựa trên đặc trưng hoặc cường độ Trước đây, hợp nhất hình ảnh đã được khám phá rộng rãi như một bài toán tối ưu hóa, với mục đích là tìm kiếm lặp đi lặp lại phép biến đổi hình học tốt nhất thông qua việc tối
ưu hóa một phép đo tương tự, như tổng của sự khác biệt bình phương (SSD), thông tin lẫn nhau (MI) và tương quan chéo (CC) Kể từ khi bắt đầu sự phát triển của Deep-learning, nhiều phương pháp hợp nhất khác nhau dựa trên Deep-learning đã được đề xuất và đạt được hiệu suất cao nhất [28]
1.3.5 CNN ứng dụng phân loại ảnh y tế
Là một nhiệm vụ cơ bản trong thị giác máy tính, phân loại hình ảnh đóng một vai trò thiết yếu trong chẩn đoán với sự hỗ trợ của máy tính Cách sử dụng đơn giản của phân loại hình ảnh để phân tích hình ảnh y tế là phân loại hình ảnh đầu vào hoặc một loạt hình ảnh có chứa một (hoặc một số) bệnh được xác định trước hoặc không
có bệnh (tức là trường hợp khỏe mạnh) [38, 39] Các ứng dụng lâm sàng điển hình của nhiệm vụ phân loại hình ảnh bao gồm xác định bệnh da trong da liễu [40, 41], xác định bệnh mắt trong nhãn khoa (như bệnh võng mạc tiểu đường [42, 43], bệnh tăng nhãn áp [44], và các bệnh giác mạc [45]) Phân loại hình ảnh bệnh lý cho các loại ung thư khác nhau như ung thư vú [46] và ung thư não [47] cũng thuộc lĩnh vực này
Mạng nơ-ron tích chập (CNN) là khung phân loại phổ biến nhất để phân tích hình ảnh Để huấn luyện cho mạng nơ-ron tích chập, thuật toán học máy có giám sát (supervised learning) đã được phát triển và ứng dụng rộng rãi Trong kỹ thuật học máy có giám sát, các hình ảnh trong tập dữ liệu phải được dán nhãn trước Thuật toán được huấn
Trang 34luyện trên tập dữ liệu đã được dán nhãn này Từ dữ liệu mẫu đó, thuật toán có thể trích xuất thông tin của ảnh, phục vụ phân loại một hình ảnh bất kỳ được đưa vào đầu vào của
mô hình phân loại
Trong quá trình đánh giá, các đặc điểm của ảnh thực nghiệm được thu thập và phân loại với sự hỗ trợ của mạng phân loại Hệ thống lúc này đã có thể nhận biết các đặc điểm điển hình của mọi lớp hình ảnh mà nó được huấn luyện
Đối với phân loại ảnh dựa trên kỹ thuật học có giám sát, việc dán nhãn dữ liệu đóng vai trò quan trọng Độ chính xác của dữ liệu được dán nhãn quyết định phần lớn hiệu suất của mô hình học máy
Các thuật toán phân loại có giám sát có thể được chia thành hai mục nhỏ hơn dựa trên nhãn dữ liệu: Phân loại nhãn đơn và Phân loại đa nhãn [48]
Phân loại nhãn đơn: Phân loại nhãn đơn (single-label classification) là tác vụ phổ
biến nhất trong phân loại ảnh có giám sát Theo đó, mỗi hình ảnh được đại diện bởi một nhãn/chú thích Mô hình xuất ra một giá trị hoặc một dự đoán duy nhất cho mỗi hình ảnh
mà nó xử lý Đầu ra từ mô hình là mã hóa One-hot (từng giá trị được biến đổi thành các đặc trưng nhị phân chỉ chứa giá trị 1 hoặc 0) Mã hóa One-hot có độ dài bằng số lớp và giá
trị biểu thị xác suất hình ảnh thuộc về lớp này
Phân loại đa nhãn: Phân loại đa nhãn là một tác vụ phân loại trong đó mỗi hình
ảnh có thể chứa nhiều hơn một nhãn hoặc một số hình ảnh chứa đồng thời tất cả các nhãn Phân loại đa nhãn xuất hiện phổ biến trong lĩnh vực xử lý hình ảnh y tế, khi một bệnh nhân
có thể được chẩn đoán mắc nhiều bệnh dựa trên dữ liệu hình ảnh
Sự phát triển của GPUs đã giúp cho việc tăng tốc độ xử lý trong mạng, do vậy
đã có rất nhiều hệ thống xử lý dữ liệu số có hiệu suất vượt trội [49-60] Những công nghệ xử lý dữ liệu loại này đã và đang được sử dụng một cách thành công và rất rộng rãi trong nhiều lĩnh vực bao gồm cả xử lý ảnh và xử lý ngôn ngữ tự nhiên [59, 60] Hình 1.6 trình bày cấu trúc thông thường của một mạng nơ-ron tích chập được sử dụng cho vấn đề phân loại hình ảnh Như đã thể hiện trong Hình 1.6, một mạng nơ-ron tích chập cho tác vụ phân loại ảnh được hợp thành từ hai thành phần chính, bao gồm một thành phần trích xuất đặc trưng dựa trên phép toán tích chập (convolution) và một
Trang 35thành phần phân loại dựa trên một mạng nơ-ron đa lớp Cấu trúc này cho phép trích xuất hiệu quả các đặc trưng của hình ảnh đầu vào sử dụng kỹ thuật Filltering thông qua việc ứng dụng phép toán tích chập Với các đặc điểm hình ảnh được trích xuất, bộ phân loại có thể học để phân loại hình ảnh đầu vào thành các loại được xác định trước trong bộ dữ liệu huấn luyện Các thông số của mạng (các trọng số, các sai số của bộ lọc tích chập và mạng nơ-ron đa lớp) có thể được huấn luyện và thu được một cách tự động bởi một quá trình huấn luyện sử dụng kỹ thuật lan truyền ngược (backpropagation) và huấn luyện dữ liệu (training) Đây là chìa khóa làm giải pháp dựa trên việc học vượt trội so với giải pháp thủ công trong việc phân loại hình ảnh Thêm vào đó, phép toán Convolution với một lớp chia sẻ trọng số cho phép chúng ta xây dựng một mạng sâu hơn mạng nơ-ron thông thường
Hình 1.6 Cấu trúc mô hình phân loại hình ảnh sử dụng CNN [61]
Rất nhiều các kiến trúc CNN đã và đang được phát triển và ứng dụng cho những
hệ thống xử lý ảnh đa dạng như phân loại hình ảnh [49-53], phát hiện vật thể [54, 55], tái thiết hình ảnh 3D [56], và trích xuất đặc điểm hình ảnh [57, 58] Mặc dù mạng nơ-ron tích chập đã và đang được sử dụng một cách thành công trong nhiều hệ thống xử
lý hình ảnh, CNN vẫn có một số giới hạn gây ra bởi các đặc tính và cấu trúc nội bộ của nó Như đã đề cập đến trong các nghiên cứu trước đây [49-53], có hai vấn đề chính
là giới hạn với một CNN Vấn đề đầu tiên được gây ra bởi độ sâu của mạng Để học
từ các dữ liệu một cách hiệu quả, chúng ta thông thường cần xây dựng một mạng sâu, nơi chứa nhiều lớp trọng số Tuy nhiên, mạng sâu thông thường rất khó để huấn luyện bởi vì vấn đề mất gradient Vấn đề thứ hai bị gây ra bởi lượng thông số khổng lồ cần được học trong suốt quá trình huấn luyện Về một hệ thống phân loại hình ảnh, nhiều
Trang 36CNN đã và đang được sử dụng, như AlexNet, VGGNet, ResNet, DenseNet và InceptionNet Alex-Net là một mạng nơ-ron tích chập tiên phong, bao gồm các chuỗi tích chập lặp lại VGGNet được đề xuất đã sử dụng bộ lọc (convolution kernels) có kích thước 3×3 và lớp gộp cực đại (Max-Pooling) 2×2 để đơn giản hóa cấu trúc của Alex-Net và cho thấy hiệu suất được cải thiện bằng cách tăng số lượng các lớp ẩn và
độ sâu của mạng Thông qua việc kết hợp và xếp chồng các bộ lọc có kích thước 1×1, 3×3, 5×5 với các lớp gộp cực đại có kích thước 3×3 và các biến thể của nó đã làm tăng chiều rộng và khả năng thích ứng của mạng Bên cạnh việc sử dụng trực tiếp để phân loại hình ảnh, các mạng mạng nơ-ron tích chập cũng có thể được áp dụng làm Black-bone (mạng xương sống) cho các nhiệm vụ thị giác máy tính khác, chẳng hạn như phát hiện và phân vùng Dựa theo các cấu trúc của chúng, AlexNet bao gồm khoảng
62 triệu thông số, VGGNet-16 chứa 138 triệu thông số, VGNEt-19 có khoảng 143 triệu thông số Để học được lượng dữ liệu khổng lồ đó yêu cầu sức mạnh phần cứng (CPU, GPU, … ) cũng như là một lượng dữ liệu huấn luyện rất lớn Những vấn đề này
có thể có ảnh hưởng rất tiêu cực đến hiệu suất của những hệ thống phân loại hình ảnh, đặc biệt trong vấn đề phân loại ảnh y tế, bởi vì thông thường yêu cầu những hệ thống này là hiệu suất phân loại cao và sử dụng ít dữ liệu huấn luyện Điều đó là bởi vì rất khó để thu thập một số lượng lớn những hình ảnh y tế do các đặc điểm đặc biệt của các loại ảnh này: chúng đòi hỏi các thiết bị thu thập dữ liệu đắt tiền, sự hợp tác của bệnh nhân, cũng như đặc điểm về sự phổ biến của từng loại bệnh
Như đã giải thích ở trên, những mạng nơ-ron tích chập thông thường như AlexNet hay VGGNet được xây dựng bằng chuỗi những lớp trọng số (những lớp tích chập) để trích xuất những đăc trưng hình ảnh và huấn luyện những bộ phân loại cho các vấn đề phân loại Đây là một kiến trúc CNN cơ bản và nó làm việc tốt với những mạng không quá sâu Tuy nhiên, có một vấn đề gọi là mất gradient (vanishing gradient), nó có thể xảy ra khi độ sâu của mạng tăng lên, và vấn đề này làm cho mạng khó huấn luyện và hậu quả là suy giảm hiệu suất phân loại [51] Để giải quyết vấn đề này, He và các cộng sự [51] đã đề xuất một giải pháp mới, không chỉ xây dựng một
Trang 37mạng nơ-ron tích chập rất sâu mà còn để cho việc huấn luyện dễ dàng hơn, đó là ResNet
Hình 1.7 Sơ đồ cấu trúc phương pháp xây dựng mạng ResNet [51]
ResNet về cấu trúc gần như tương tự với các mạng nơ-ron tích chập khác gồm có Convolution, Pooling, Activation và Fully-connected layer Hình 1.7 mô tả khối Residual block được sử dụng trong mạng, trong cấu trúc này xuất hiện một mũi tên xuất phát từ đầu và kết thúc tại cuối khối Residual block Với cấu trúc này, Input
x được bổ sung vào Output của lớp tích chập, hay chính là phép cộng trong hình minh họa, việc này sẽ chống lại việc đạo hàm bằng 0, do vẫn còn cộng thêm x Với H(x) là giá trị dự đoán, F(x) là giá trị thật (nhãn), các mạng phân loại đều hướng đến sao cho H(x) bằng hoặc xấp xỉ F(x), khi đó hiệu suất phân loại là cao nhất Hình 3.3, mô tả sơ
đồ khối cấu trúc mạng ResNet Bằng cách sử dụng loại kết nối gọi là Connections như đã trình bày ở Hình 1.7, kiến trúc CNN này có thể tạo ra mạng bỏ qua một số lớp huấn luyện khi đầu vào và đầu ra của các lớp đó ở gần với hàm nhận dạng Kết quả là mạng sâu hơn và dễ dàng huấn luyện hơn so với những mạng nơ-ron tích chập thông thường
Skip-ResNet có thiết kế tầng tích chập 3×3 giống VGG Residual block có hai tầng tích chập 3×3 với cùng số kênh đầu ra như trong Hình 1.8 Mỗi tầng tích chập được theo sau bởi một tầng chuẩn hóa và một hàm kích hoạt ReLU Đầu vào được đưa qua khối phần dư rồi cộng với chính nó trước hàm kích hoạt ReLU cuối cùng Thiết kế này đòi hỏi đầu ra của hai tầng tích chập phải có cùng kích thước với đầu vào, để có thể cộng lại với nhau Nếu muốn thay đổi số lượng kênh hoặc sải bước
Trang 38trong Residual block, cần thêm một tầng tích chập 1×1 để thay đổi kích thước đầu
vào tương ứng ở nhánh ngoài [51]
7 x 7,64, s = 2 Stage1 Stage2 Stage3 Stage4
Down sample
Residual block
Residual block
Hình 1.8 Cấu trúc mạng Resnet [28]
Mặc dù những CNN thông thường đã và đang thành công trong việc lưu trữ những đặc điểm kết cấu hình ảnh, hiệu suất của chúng vẫn bị ảnh hưởng bởi sự thay đổi lớn trong kích thước của các đối tượng xuất hiện trong những bức ảnh đầu vào Szegedy và cộng sự [52] đề xuất một cấu trúc mạng ứng dụng nhiều kích thước của Convolution Mask để trích xuất đặc điểm hình ảnh từ ảnh đầu vào, cấu trúc mạng này gọi là Inception net được mô tả như trong Hình 1.9
Lớp tiếp theo
5×5 Tích chập
Lớp trước
Hợp nhất các đặc trưng Lớp tiếp theo
1×1 Tích chập
3×3 Tích chập
5×5 Tích chập Lấy mẫu
Lớp trước
Hình 1.9 Hình ảnh mô tả sơ đồ khối tích chập thông thường(a) và sơ đồ khối
Inception module (b)
Trang 39Trong hình này, thay vì sử dụng một phép toán tích chập đơn giữa lớp mạng trước và lớp mạng tiếp theo như vẫn thường dùng trong các mạng nơ-ron tích chập thông thường (Hình 1.9a), Inception module thực hiện những phép toán tích chập khác nhau với nhiều kích thước kernel đa dạng như Hình 1.9b Bản đồ đặc trưng đầu ra được thu nhận bằng cách ghép liên tiếp các đầu ra của các Pooling layer và Convolution layer khác nhau, áp dụng lên input 3 Convolution với 3 kích thước khác nhau là 1×1, 3×3, 5×5, ngoài ra còn một lớp Pooling Cấu trúc này giúp mạng hoạt động tốt nhờ sự kết hợp của các bộ lọc Chúng khám phá hình ảnh trên các vùng có kích thước khác nhau Tức là những chi tiết ở những mức độ khác nhau sẽ được nhận diện một cách hiệu quả bằng các bộ lọc khác nhau Đồng thời, có thể phân bổ số lượng tham số khác nhau cho những vùng có phạm vi khác nhau (ví dụ: nhiều tham số hơn cho vùng phạm vi nhỏ nhưng không bỏ qua hoàn toàn vùng phạm vi lớn).
a*a
Depth concat Inception
Hình 1.10 Sơ đồ cấu trúc GoogLeNet[28]
Với Inception net, thay vì sử dụng nhiều tầng tích chập thì sử dụng nhiều tích chập với các kích thước khác nhau tại cùng một tầng, sau đó nối lại với nhau Mỗi một
Trang 40cụm như vậy họ gọi là một Inception Cell hay Inception module như Hình 1.10 Một
mô hình hiệu quả cho tác vụ phân loại ảnh đó là GoogLeNet, mô hình này sử dụng tổng cộng 9 khối Inception và một tầng gộp trung bình toàn cục xếp chồng lên nhau
1.4 Hệ thống hỗ trợ chẩn đoán bằng máy tính qua hình ảnh cho bệnh ung thư tuyến vú và tuyến giáp
Trong báo cáo của nghiên cứu trước đây [62], các hệ thống CAD aided Diagnosis) bao gồm bốn giai đoạn như trình bày trong Hình 1.11
(Computer-Tiền xử lý ảnh: Nhiệm vụ của tiền xử lý ảnh có thể thực hiện một số tác vụ
như thay đổi kích thước, độ phân giải mà không làm thay đổi các tính năng quan trọng của hình ảnh trước khi chẩn đoán
Phân vùng ảnh: Phân vùng ảnh để chia ảnh thành các vùng không chồng lấn
và sẽ tách các đối tượng trong ảnh ra khỏi hình ảnh tổng thể Vai trò của phân vùng ảnh là làm giảm độ phức tạp của hình ảnh, giúp cho quá trình xử lý hoặc phân tích hình ảnh sau đó trở nên đơn giản hơn Đây là một trong những tác vụ khó khăn nhất trong xử lý ảnh và nhận dạng mẫu, đồng thời quyết định chất lượng của bước phân tích cuối cùng trong một hệ thống CAD đầy đủ
Trích xuất và lựa chọn đặc trưng Phân loại ảnh
Đánh giá kết quả
Hình 1.11 Sơ đồ khối hệ thống CAD cho ảnh y tế [62]
Trích xuất và lựa chọn đặc trưng: Bước này nhằm tìm vectơ đặc trưng của
đối tượng quan tâm trong ảnh, dựa vào vectơ đặc trưng này có thể phân biệt chính xác đối tượng quan tâm trong ảnh là vùng tổn thương/không tổn thương hoặc lành tính/ác tính đối với các ca ung thư Không gian đặc trưng có thể rất lớn và phức tạp, vì vậy việc trích xuất và lựa chọn các đặc trưng hiệu quả nhất là rất quan trọng
Phân loại: Dựa vào các đặc trưng được lựa chọn, vùng nghi ngờ sẽ được phân
loại thành tổn thương/không tổn thương hoặc lành tính/ác tính bằng nhiều phương