2.1. Các phương pháp chan đoán hình ảnh y khoa truyền thống:
2.1.1. Chụp X-quang ngực
Chụp X-quang ngực là phương pháp phô biến giúp pháp hiện các bắt thường có
trong phôi va các cơ quan xung quanh. Đây là một phương pháp hữu ích dé sàng lọc ung thư phôi ở những người có nguy cơ cao mắc bệnh ung thư.
2.1.2. Chụp CT ngực
Chup CT ngực tạo ra hình anh chi tiết hơn chụp X-quang về câu trúc của phôi vả các cơ quan xung quanh, cho phép bác sĩ nhận biết rõ ràng các biểu hiện của ung thư phôi. CT ngực có thé phát hiện các khối u nhỏ hơn va phân loại chúng theo tính chat,
giúp đánh giá mức độ nghiêm trọng của bệnh. Phương pháp này cho phép thu được hình
ảnh từ nhiều góc độ và mặt của phôi, cung cấp thông tin đa chiều về sự phát triển của ung thư phôi. Được coi là phương pháp tiêu chuan trong chân đoán và đánh giá sự phát triển của ung thư phôi.
2.1.3. Chụp PET/CT
Chụp PET/CT kết hợp hai công nghệ hình ảnh là PET (Positron Emission Tomography) va CT (Computed Tomography) trong một quy trình. Điều nay cho phép cung cấp thông tin về cả chức năng va cau trúc của các mô trong cơ thé. PET/CT sử dụng chất đánh đấu phát xạ đẻ phát hiện các tế bào ung thư, bao gồm cả các tế bào ung thư phổi và các điểm lan rộng có thể nằm ở những nơi khác trong cơ thể.
2.1.4. Chụp cộng hưởng từ (MRD
Chụp cộng hướng từ (MRI) sử dụng từ trường và sóng radio dé tạo hình ảnh bên trong cơ thẻ. Phương pháp này có khả năng tạo ra hình ảnh chỉ tiết về cấu trúc của các
mô va cơ quan trong cơ thê, bao gôm ca phôi va các khôi u.
20
2.2. Mạng thần kinh (Neural Network)
Mạng thần kinh (Neural Network) là một phương thức trong lĩnh vực trí tuệ nhân tạo, lay cảm hứng bộ não của con người. Các tế bao than kinh (no-ron) có trong bộ não tạo thành một mạng phức tap, có tính liên kết cao và gửi các tín hiệu điện đến nhau đẻ giúp con người có kha năng tư duy, xử lý thông tin có thé nhận biết được các sự vật, hiện tượng khác nhau. Một mang thần kinh nhân tạo (Artificial Neural Network) được
tạo từ:
¢ Các nơ-ron nhân tạo được gọi là nút (node). Mỗi nút này có thê nhận đầu
vảo, thực hiện một số phép tinh, va sau đó truyền kết quả ra các nút khác.
e Mang than kinh nhan tạo là tập hợp các nơ-ron nhân tao được tạo tô chức thành các lớp và liên kết với nhau theo một số cách cụ thê.
Mạng thần kinh nhân tạo là các chương trình phan mém hoặc thuật toán được viết trên máy tính. Các chương trình này mô phỏng cách thức hoạt động của não bộ con
người bằng cách sử dụng các nơ-ron nhân tạo. Các nơ-ron nhân tạo là các khối phan mềm nhỏ thực hiện các phép toán và truyền tín hiệu cho nhau. Mục đích của mạng than kinh nhân tạo la sử dụng máy tính đề tính toán và đưa ra dự đoán dựa trên dữ liệu.
impulses carried toward cell body
branches
of axon dendrites
axon
nucleus terminals
impulses carried
away from cell body cell body
Hình 2-1 Giải phẫu một nơ-ron [2]
Như hình trên, ta có thé thay một nơ-ron có thé nhận nhiều đầu vào và cho ra một
kết quả duy nhất. Quá trình tính toán của một nơ-ron diễn ra như sau:
21
ơ +
Inputs V
Output
x. Activation
Function Weights
Hình 2-2 Minh hoa quá trình tính toán của một no-ron
Trong hình:
XI, X2...Xm là các tín hiệu đầu vào từ các nơ-ron khác hoặc từ thông tin đầu vào của mạng thần kinh. Các tín hiệu nay được biểu điển dưới dang số
thực.
Wi, W2, ..., Wm là các trọng số liên kết, thé mức độ ảnh hưởng của mỗi tín
hiệu đầu vào đến kết qua dau ra của tế bảo than kinh.
Hàm kết hợp (Sum): Các tín hiệu đầu vào được nhân với trọng SỐ tương
ứng và sau đó được cộng lại.
Kết quả của phép tính trên sẽ được cộng thêm với một đại lượng có tên là
độ lệch (bias) và đưa qua một hàm kích hoạt (activation function).
Hàm kích hoạt (activation function): thường là các hàm phi tuyến tính. Là điều cần thiết để mạng học được các biểu diễn phức tạp giữa đầu vào và đầu ra, tạo ra các dự đoán phi tuyến tính.
Đầu ra (Output): là tín hiệu đầu ra của một tế bảo than kinh sẽ được sử dung là đầu vào cho một tế bao than kinh khác hoặc là đầu ra của một
mang than kinh.
22
2.3. Perceptron đa lớp (Multi Layer Perceptron) (MLP)
Multi Layer Perceptron là tập hợp tế bảo thần kinh tạo thành các nhóm. mỗi nhóm là một lớp tạo thành một mạng phức tap. Mô hình của MLP gòm ba thành phan cơ bản sau: lớp dau vào (inpuU. lớp ân (hidđen) và lớp đầu ra (output). Mỗi lớp gồm nhiều nút
là các nơ-ron.
output layer input layer
hidden layer
Hình 2-3 Perceptron đa lớp [2]
¢ Lớp dau vào (Input layer): Thông tin từ bên ngoài đi vào mạng no-ron nhân tạo qua lớp đầu vào. Mỗi nút trong lớp đầu vào đại diện cho một đặc điểm của dữ liệu đầu vào.
e Lớp an (Hidden layer): Thực hiện các phép tính phức tạp dé trích xuất các đặc điểm quan trọng từ thông tin đầu vào. Mỗi nút trong lớp ân là một nơ- ron nhân tạo thực hiện các phép toán vả truyền tín hiệu cho các nơ-ron khác. Số lượng nơ-ron va số lượng lớp ân có thé thay đôi tủy theo độ phức
tạp của bài toán.
e Lớp đầu ra (Output layer): Đưa ra dự đoán hoặc quyết định dựa trên các
đặc điểm được trích xuất từ thông tin đầu vào. Mỗi nút trong lớp đầu ra đại điện cho một kết quá đầu vào có thẻ.
23
2.4. Mạng thần kinh tích chap (Convolutional neural networks)
Mang than kinh tich chap (Convolutional neural networks = CNN) là một loại mạng than kinh nhân tạo được sử dụng phô bién trong các tác vụ thị giác máy tính, đặc biệt là phân tích ảnh. Các lớp của CNN thường bao gồm một loạt các lớp được liên kết
với nhau thông qua phép tích chập. Lớp tiếp theo là kết quả tích chập từ lớp trước đó.
`. CONVOLUTION + RELY — POOUMO CONVOLUTION + RELY POOUMO PATTON ce 1O91MAX
HIDDEN LAYERS CLASSIFICATION
Hình 2-4 Kiến trúc của CNN [1]
Kiến trúc của một CNN cơ bản sé bao hém: Lớp đầu vao (Input layer), lớp tích
chap (convolutional layer), hàm kích hoạt (activation layer), lớp gộp (pooling layer), lớp
kết nối hoàn toàn (fully connected layers).
2.4.1. Các kiểu lớp
Lớp tích chập (Convolutional layer)
Là một phân quan trọng trong mạng thần kinh, thường được sử dụng ngay sau lớp đầu vào. Trong lớp này, các bộ lọc (filter) hoặc hạt nhân (kernel) được áp dụng dé thực hiện phép tích chập trên dit liệu đầu vào, từ đó trích xuất các đặc trưng quan trọng.
Cách thức hoạt động của phép tích chập như sau:
e Phép tích chập được thực hiện trên hai hàm, thường được gọi là “hình ảnh
dau vao” (input image) va “bộ lọc” (filter) hoặc “hat nhân” (kernel). Ham daua.
24
vào có thé là tín hiệu, ảnh hoặc bat kỳ dit liệu nào khác có thẻ biểu diễn dưới đạng ma trận. Bộ lọc là một mảng nhỏ các giá trị được sử dụng dé “trượt” qua hình ảnh đầu vào.
Pilter/Kernet
(b)
Hình 2-5 Biểu diễn hình ảnh đầu vào và bộ lọc dưới dang ma trận
e Tich điểm: Tai mỗi vị trí trên hình ảnh đầu vào, bộ lọc được nhân với một phan của hàm đầu vào có củng kích thước. Các giá trị được nhân sau đó được cộng lại đề tạo ra một gia trị đơn lẻ cho vị trí đó trên đầu ra.
¢ Lap lại: Quá trình này được lặp lại cho tat cả các vị trí trên hình ảnh dau vào, bắt dau từ trái sang phải và tử trên xuống dưới. Tạo ra một “ban dé đặc trưng”
(feature map) cho thấy mức độ tương quan giữa hàm đầu vào và bộ lọc tại
mỗi vị trí.
Image
Hình 2-6 Cách thức hoạt động của phép tích chap [1]
25
Lớp gộp (Pooling Layer):
Lớp gop là một phép giảm kích thước dữ liệu. Lớp gộp sử dụng một cửa số
(pooling window) trượt qua toàn bộ bản đô đặc trưng, mỗi lần trượt theo các bước trượt cho trước. Lớp nảy giảm số lượng tham số, day nhanh quá trình tính toán, tránh quá khớp bằng cách làm giảm kích thước lớp trước đó nhưng vẫn giữ lại thông tin quan
trọng. Hai loại gộp phô biến lả:
ô_ Gộp cực đại (Max Pooling): Giữ lại giỏ trị lớn nhất từ mỗi vựng của bản
46 đặc trưng sau mỗi lần di chuyên của cửa số gộp. Max Pooling giữ lại các đặc trưng nôi bật nhất.
¢ Gộp trung bình (Average Pooling) Giữ lại giá trị trung bình từ mỗi vùng của bản đồ đặc trưng sau mỗi lan di chuyển của cửa số gộp. Giữ lại thông
tin chỉ tiết hơn so với gộp cực dai, có thé làm giảm nhiều trong dit liệu
Hình 2-7 Gộp cực đại và gộp trung bình
Ngoài hai phép gộp phô biến là gộp cực đại và gộp trung bình thì còn có gop tong (sum pooling), gộp cực tiểu (min pooling)...
26
Lớp kết nối đầy đủ (Fully connected layers)
Dữ liệu vào lớp này sẽ được làm phẳng thành một vectơ. Mỗi phan tử ở vectơ
dau vào sẽ được kết nỗi với tat cả các vectơ cả lớp kết nỗi day đủ này. Trong mô hình
CNN, lớp kết nỗi day đủ thường được tim thấy ở cuối mạng va dùng dé tôi ưu hóa mục
tiêu của mạng.
NS
RSs= SF :
= Wi 2G 4k
Rea {2c 2 xx
Z Lf 2
Hình 2-8 Lớp kết nỗi đầy đủ
2.4.2. Hàm kích hoạt
Hàm kích hoạt trong mạng thần kinh là một hàm được áp dụng cho đầu ra của mỗi nơ-ron trong một lớp dé tạo ra đầu ra phi tuyên tính, giúp mạng thần kinh có khả
năng học và biêu dién các hàm phức tap. Dưới đây là một số hàm kích hoạt phô biến.
Hàm Sigmoid:
Hàm Sigmoid có dạng hình chữ S. chuyên đổi đầu vào là các số thực thành đầu ra nằm trong phạm vi giữa 0 và 1. Điều này giúp nó phù hợp cho các bài toán phân loại, nơi đầu ra cần được biêu diễn dưới dang xác suất. Khi đầu vào đủ lớn (dương hoặc âm), đạo hàm của hàm sigmoid tiến gần đến 0, dẫn đến hiện tượng biến mat đạo hàm
(vanishing gradient) và lam chậm quá trình học của mạng than kinh.
Công thức của hàm Sigmoid:
1
1— e** (1)
a(x) =
27
Dao hàm của hàm Sigmoid có thé tính toán dé dang bằng cách sử dụng chính giá trị của hàm Sigmoid. Cụ thẻ. nếu a(x) là giá trị đầu ra của hàm Sigmoid tại điểm x, thi đạo ham của ham Sigmoid tai điểm x được tinh bằng công thức sau:
rt a(x)*(1— a(x)) (2)do
-100 -7.5 -5.0 -2.5 0.0 2.5 5.0 7.5 10.0
Hình 2-9 Đồ thị của hàm Sigmoid
Hàm Tanh:
Ham Tanh có dạng cong hình Hyperbolic Tangent, tương tự như chữ S nhưng có
giá trị đầu ra trong khoảng [-1, 1] và có tâm đối xứng tại 0. Khi dit liệu đầu vào có giá trị trung bình gần 0, hàm Tanh sẽ hoạt động hiệu quả hơn vì nó có thé phân bố đều các giá trị đầu ra cho các tín hiệu dương và âm.
Hàm Tanh có biểu dién toán học như sau:
x —x
tanh(x) = aoe (3)
Hàm Tanh có nhiều ưu điểm tương tự như ham Sigmoid, bao gồm dé tính toán, khả năng đạo hàm tốt. và phù hợp cho các bài toán phân loại. Tương tự như hàm Sigmoid, hàm Tanh cũng dẫn đến van đề vẻ biến mat đạo hàm khi đầu vào đủ lớn, dẫn đến việc chậm quá trình học của mạng thần kinh.
28
0.75 0.50
0.25
Tanh(X) ° 8
~0.25
~0.50
~0.75
1.00
-100 =-75 =-5.0 -25 00 2.5 5.0 7.5 10.0
x
Hình 2-10 Đồ thị của hàm Tanh
Ham Rectified Linear Unit (ReLU):
Ham Rectified Linear Unit (ReLU) là một hàm kích hoạt phi tuyén phô biến trong
mạng neural. Hảm này được định nghĩa bởi công thức sau:
Relu(x) = max (0,x) (4)
Cụ thê:
ô Khix >0, hàm ReLU trả về giỏ trị x.
ô Khix<0, hàm ReLU trả về giỏ trị 0.
ReLU(X)
~ °
- Om h Wwe ƠI as Œœ@ WO
-7.5 -5.0 -25 00 25 50 7,5 100
Hình 2-11 Đồ thị của hàm ReLU
l _ badco
29
Hàm ReLU chỉ đơn giản là chon giá trị lớn nhất giữa 0 và đầu vào, làm cho nó trở thành một trong những hàm kích hoạt nhanh nhất va dé tính toán. Trong quá trình lan truyền ngược (backpropagation), ReLU giữ nguyên đạo hàm bằng 1 đỗi với các giá trị dương, không gây ra van dé về biến mat đạo hàm như các hàm kích hoạt khác như
sigmoid hay tanh.
Nếu gia trị đầu vào của một nơ-ron luôn nhỏ hơn 0, ReLU sẽ luôn trả về 0 cho nơ-ron đó. Nơ-ron nay được gọi là "nơ-ron chết" (dead neuron) và không còn khả năng
học.
Ham ReLU là một hàm kích hoạt hiệu quả và được sử dung phô biến trong mạng nơ-ron nhân tạo. Ưu điểm chính của ReLU là đơn giản, hiệu quả tính toán, và khả năng giải quyết vẫn đề biến mất đạo hàm. Tuy nhiên, ReLU cũng có một số nhược điểm như van dé "chết neuron". Các biến thé khác của ReLU có thê khắc phục nhược điểm của
ReLU như:
¢ Leaky ReLU: Giới thiệu một độ đốc nhỏ cho phần âm của hàm ReLU đề
tránh van dé "chết neuron”.
¢ Parametric ReLU (PReLU): Cho phép học một độ đốc riêng cho phần âm
của hàm ReLU.
2.4.3. Các tham số của bộ lọc
Bước trượt (Stride):
Xác định số lượng pixel mà bộ lọc (filter) đi chuyên trong mỗi bước khi thực hiện
phép toán tích chập.
Có hai loại bước trượt chính:
e Bude trượt đơn (bước trượt = 1): Bộ lọc di chuyền một pixel trong mỗi
bước.
¢ Bước trượt lớn (bước trượt > 1): Bộ lọc di chuyển nhiều hơn một pixel trong mỗi bước. Vi dụ, bước trượt bang 2 có nghĩa là bộ lọc di chuyên hai pixel trong mỗi bước.
Hiệu ứng của bước trượt:
30
ô Bước trượt đơn: Giữ nguyờn kớch thước của bản đồ đặc trưng sau khi
thực hiện phép toán tích chập.
Lần 1 Lan 2
Hình 2-12 Bước trượt đơn với bộ lọc 3x3
¢ Bước trượt lớn: Giảm kích thước của bản đồ đặc trưng sau khi thực hiện
Lan | Lần 2
Hình 2-13 Bướt trượt lớn với bước trượt bằng 2 và bộ lọc 3x3 Bước trượt là một tham sỐ quan trọng trong mạng nơ-ron tích chập. Việc lựa chọn bước trượt phù hợp có thê giúp cải thiện hiệu quả và độ chính xác của mạng nơ-ron.
Đệm (Padding)
Là kỹ thuật thêm các pixel xung quanh viễn của ảnh dau vào trước khi thực hiện
phép toán tích chập. Việc này mang lại một số lợi ích:
e Giữ nguyên kích thước ảnh:
© Khi sử dụng bộ lọc có kích thước lớn, phép toán tích chập có thé làm giảm kích thước ảnh đầu vào.
© Padding giúp thêm các pixel "ảo” xung quanh ảnh, dam bảo kích
thước ảnh đầu vao được giữ nguyên sau khi thực hiện phép toán
tích chập.
e Cai thiện hiệu quả học tập:
31
o Padding giúp bộ lọc tiếp cận được thông tin từ các pixel xung
quanh, giúp cải thiện khả năng học tập của mạng nơ-ron.
© Việc này đặc biệt hitu ích cho các ảnh có kích thước nhỏ hoặc các bộ lọc có kích thước lớn.
© Giảm thiểu van dé "bị mat thông tin":
o Khi không sử dung padding, phép toán tích chập có thé bỏ qua các
thông tin quan trọng ở các cạnh của ảnh.
o Padding giúp đảm bảo rằng tat cả các pixel của ảnh đều được xử lý bởi bộ lọc, giảm thiêu van đẻ "bị mat thông tin".
Có hai loại padding chính trong CNN:
© Padding "zero": Thêm các pixel có giá trị 0 xung quanh viền ảnh.
© Padding "constant": Thêm các pixel có giá trị có định (thường là giá tri trung bình của ảnh) xung quanh viền ảnh.
Vi dụ:
Giả sử chúng ta có một ảnh đầu vào kích thước 28x28 pixel và sử dụng bộ lọc
3x3 pixel với stride 1.
e Khdéng padding: Sau khi thực hiện phép toán tích chập, kích thước anh
sẽ giảm xuống còn 26x26 pixel.
e Padding "zcro" với kích thước 1: Sau khi thực hiện phép toán tích chập.
kích thước anh sẽ vẫn là 28x28 pixel.
Hình 2-14 Padding "zero" với kích thước 1
32
Padding giúp cải thiện khả năng của mô hình trong việc trích xuất đặc trưng và giữ cho thông tin ở các biên của dữ liệu không bị mắt.
2.5. Học chuyền giao (Transfer learning)
2.5.1. Dinh nghia
Miền (Domain): Là môi trường đề chứa dữ liệu.
Nhiệm vụ (Task): Là mục tiêu ma bạn muốn đạt được với trong một miền dit
liệu.
Trong đó:
e Mien nguồn (Source Domain - DS): Day là miễn mả bạn có dữ liệu va
kiến thức.
e Nhiệm vụ nguôn (Source Task - TS): Day là mục tiêu cụ thể bạn muốn đạt được với dữ liệu trong miễn nguồn.
e Miễn mục tiêu (Target Domain - DT); Đây là miễn mà bạn muốn áp dụng
kiến thức đã học được dé giải quyết van dé mới.
e Nhiém vụ mục tiêu (Target Task - TT): Day là mục tiêu cụ thể bạn muốn đạt được với dữ liệu trong miễn mục tiêu.
Học chuyên giao là quá trình sử dụng kiến thức và kỹ năng đã học từ một miền và nhiệm vụ này (miền nguồn và nhiệm vụ nguồn) dé áp dụng vào một van đề khác
(miền mục tiêu và nhiệm vụ mục tiêu) có liên quan, nhằm cải thiện hiệu suất việc học
của nhiệm vụ mục tiêu trên miền mục tiêu. Nói cách khác, bằng cách sử dụng những gì
đã học được từ các miền nguôn, mô hình có thé học hỏi nhanh hơn và hiệu quả hơn để thực hiện các nhiệm vụ tương tự trên các miễn mục tiêu.
Vi dụ:
e Cóthêsử dung mô hình học được từ nhận dạng ảnh méo trong miền nguồn để cải thiện hiệu suất nhận dạng ảnh chó trong miễn mục tiêu. (Miền
nguôn và miền mục tiêu có liên quan nhưng nhiệm vụ khác nhau)
33