Trong lĩnh vực xử lý hình ảnh, kỹ thuật giám sát xử lý hình ảnh phi tuyến [22, tr.43-53] [14, tr.1582-1596] dựa trên ANN, được gọi là "bộ lọc nơ-ron (neural filter)" [15, tr.1787-1799] và "khuếch tán biên nơ-ron (neural edge enhancer)" [30, tr.303-310] đã được nghiên cứu để làm giảm các đốm lượng tử (quan sát độ
nhiễu cụ thể trong ảnh X-quang y tế) trong chụp động mạch (angiography), chụp X-quang [21, tr.1710-1718] và để giám sát phát hiện các đường viền tâm thất trái bắt nguồn từ tim mạch trong chụp động mạch [13, tr.330-339]. Bằng cách mở rộng bộ lọc nơ-ron và khuếch tán biên nơ-ron, MTANN (Massive training artifical neural network) đã được phát triển để phù hợp với nhiệm vụ phân biệt một tính mờ (opacity) cụ thể từ tính mờ khác trong hình ảnh y tế.
MTANN [20, tr.1602-1617] đã được áp dụng để giảm dương tính giả trong việc phát hiện trên máy vi tính hạch phổi ở chụp cắt lớp liều thấp (CT) và chụp X- quang phổi, có sự phân biệt giữa các hạch phổi lành tính và ác tính trong CT. Trong luận văn này, MTANN được áp dụng nhằm làm giảm độ che xương sườn trên X-quang phổi.
Hình 4.1. Kiến trúc huấn luyện của một MTANN
Kiến trúc và phương pháp huấn luyện của một MTANN được thể hiện trong hình 4. 1 bao gồm một mô hình ANN đa lớp đầu ra tuyến tính và một chương trình huấn luyện lớn các tiểu vùng. Các giá trị pixel trong tiểu vùng chiết xuất từ một ảnh X-quang phổi được nhập làm đầu vào cho ANN. Pixel chiết xuất trong ảnh dạy được sử dụng là các giá trị dạy cho các tiểu vùng tương ứng. MTANN có thể được coi là một bộ lọc phi tuyến có thể được huấn luyện với những ảnh đầu vào và "dạy" các hình ảnh tương ứng. MTANN bao gồm một mô hình ANN đa lớp đầu ra tuyến tính [19, tr.66-74], có khảnăng hoạt động trên dữ liệu hình ảnh trực tiếp. Các đầu ra tuyến tính ANN đa lớp sử dụng một hàm tuyến tính thay vì một hàm sigmoid là hàm kích hoạt cho các nơ-ron đầu ra bởi vì các đặc tính của ANN đã được cải thiện đáng kể với một hàm tuyến tính khi áp dụng cho các ánh xạ liên tục giá trị trong xử lý hình ảnh [14, tr.1582-1596], [19, tr.66-74]. Một ANN thông thường hầu như không có giá trị đầu ra gần bằng 0 và 1 vì các đặc tính của một hàm sigmoid, trong khi đầu ra tuến tính ANN đa lớp có giá trị tuyến tính. Việc huấn luyện để dạy các giá trị gần 0 và 1 quy tụ chậm hơn so với các giá trị khác
so với ANN thông thường về mặt lý thuyết, trong khi các giá trị này được huấn luyện như nhau với mô hình ANN đa lớp đầu ra tuyến tính. Điều này ảnh hưởng đến các đặc điểm hội tụ và các đặc trưng đầu ra của mô hình ANN.
Do đó, đầu ra tuyến tính ANN đa lớp sẽ thích hợp cho xử lý hình ảnh, nơi các giá trị có thể dạy các giá trị liên tục từ 0 đến 1. Các giá trị pixel của ảnh X- quang phổi ban đầu được chuẩn hóa lần đầu sao cho giá trị một pixel của 0 là 0 và giá trị một pixel của cấp độ xám tối đa (1023) là 1. Các yếu tố đầu vào của mô hình ANN đa lớp đầu ra tuyến tính là các giá trị điểm ảnh trong một tiểu vùng Rs
chiết xuất từ một ảnh X-quang phổi. Đầu ra là một giá trị liên tục, tương ứng với điểm ảnh trung tâm trong tiểu vùng, đại diện bởi:
f(x, y) = NN(𝐢𝑥,𝑦), (4.15)
𝐢𝑥,𝑦 = {g(x - i , y - j) | i, j∈ Rs}. (4.16)
𝐢𝑥,𝑦 là những vector đầu vào của MTANN, f(x, y) là một ước tính cho một giá trị dạy, x và y là tọa độ của hình ảnh, NN(𝐢𝑥,𝑦) là mô hình ANN đa lớp đầu ra tuyến tính, và g(x, y) là một giá trịđiểm ảnh chuẩn hóa trong ảnh X-quang phổi đầu vào. Lưu ý rằng chỉ có một nơ-ron được sử dụng trong lớp đầu ra. Các vector đầu vào có thểđược viết lại như sau:
𝐢𝑥,𝑦 = {I1, I2, …, Im, …, 𝐼𝑁𝐼}. (4.17) Trong đó m là số thuộc tính đầu vào, NI là số lượng nơ-ron đầu vào. Bởi vì hàm kích hoạt của các nơ-ron trong lớp đầu vào là một hàm nhận dạng, đầu ra thứ
n của nơ-ron trong lớp đầu vào được ký hiệu In. Đầu ra thứ n của nơ-ron trong lớp ẩn được tính:
𝑂𝑛𝐻 = fs{∑𝑁𝐼 𝑤𝑚𝑛𝐻 . 𝐼𝑚 − 𝑤0𝑛𝐻
𝑊𝑚𝑛𝐻 là trọng số giữa nơ-ron thứ m trong lớp đầu vào và nơ-ron thứ n trong lớp ẩn, 𝑊0𝑛𝐻 là một bù đắp của nơ-ron thứ n trong lớp ẩn, và fs(u) là một hàm sigmoid.
𝑓𝑠(𝑢) = 1+𝑒𝑥𝑝 (−𝑢)1 (4.19)
Đầu ra của các nơ-ron trong lớp xuất được tính:
f(x, y) = fL{∑𝑁𝐻 𝑤𝑚𝑂 . 𝑂𝑚𝐻 − 𝑤0𝑂
𝑚=1 }. (4.20)
𝑊𝑚𝑂 là trọng số giữa nơ-ron m trong lớp ẩn và các nơ-ron trong lớp xuất, 𝑊0𝑂
là một bù đắp của các nơ-ron trong lớp xuất, fL(u) là một hàm tuyến tính:
fL(u) = a.u + 0.5 (4.21)
a là tham số độ dốc. Toàn bộ hình ảnh đầu ra thu được bằng cách quét một ảnh ngực đầu vào với MTANN.
MTANN liên quan đến việc huấn luyện khổng lồ các cặp tiểu vùng pixel, được gọi là một chương trình huấn luyện lớn các tiểu vùng. ẢnhX-quang phổi đầu vào chia từng pixel thành số lượng lớn các tiểu vùng chồng lấn. Pixel đơn tương ứng với các tiểu vùng đầu vào đều được trích xuất từ những hình ảnh giảng dạy xem như những giá trị huấn luyện. MTANN được huấn luyện ồ ạt bằng cách sử dụng sốlượng lớn của các tiểu vùng đầu vào cùng với huấn luyện điểm ảnh tương ứng. Tập huấn luyện của mỗi cặp của một tiểu vùng và một điểm ảnh huấn luyện được định nghĩa như sau:
{𝐢(𝑥, 𝑦), 𝑇(𝑥, 𝑦)|𝑥, 𝑦 ∈ 𝑅𝑇} = {(𝐢1, 𝑇1), (𝐢2, 𝑇2), … , (𝐢p, 𝑇𝑝), … , (𝐢NT, 𝑇𝑁𝑇)} (4.22)
𝑇(𝑥, 𝑦) là hình ảnh dạy, RTlà vùng huấn luyện tương ứng với bộsưu tập của các trung tâm tiểu vùng (hoặc những pixel huấn luyện), p là một pixel trong RT, và NT là số lượng pixel trong RT. Các lỗi được giảm thiểu bằng huấn luyện với công thức:
𝐸 = 𝑁1
𝑇 ∑ {𝑇(𝑥, 𝑦) − 𝑓(𝑥, 𝑦)}2
𝑥,𝑦∈𝑅𝑇 (4.23)
MTANN được huấn luyện bởi thuật toán lan truyền ngược (đã được trình bài
ở mục 2.3.2). Sự điều chỉnh trọng số giữa các nơ-ron ẩn và nơ-ron đầu ra được tính:
∆𝑊𝑂 = −𝜂𝜕𝑊𝜕𝐸𝑂 = −𝜂𝑎(𝑇 − 𝑓)𝑂𝐻 (4.24)
Với 𝜂 là tỷ lệ học
Chúng ta sử dụng một kỹ thuật trừ Dual-energy [31, tr.271-273] để sử dụng ảnh kết quả của MTANN trừ xương sườn trên ảnh X-quang phổi. Phép trừ Dual- energy là một kỹ thuật đểtách xương từ các mô trên ảnh X-quang phổi bằng cách sử dụng sự phụ thuộc năng lượng của suy giảm x-ray bằng các vật liệu khác nhau; nó có thể tạo ra hai hình ảnh mô có chọn lọc, tức là một ảnh xương và một ảnh mô mềm. Ảnh X-quang phổi được sử dụng như ảnh đầu vào cho MTANN, và ảnh xương Dual-energy tương ứng được sử dụng như ảnh huấn luyện. Chúng ta không trực tiếp dùng các hình ảnh mô mềm Dual-energy huấn luyện, bởi vì huấn luyện các MTANN với kết quả ảnh mô mềm Dual-energy được tạo ra kém hơn so với huấn luyện các MTANN với hình ảnh xương Dual-energy (xem mục 3.1).
4.3. Giảm độ che của xương sử dụng mạng nơ-ron
Hình 4.2 minh họa kiến trúc và huấn luyện của một MTANN liên quan đến kỹ thuật đa phân giải phân rã/hợp thành cho hình ảnh có độ phân giải khác nhau. Đầu tiên, ảnh X-quang phổi đầu vào và ảnh xương giảng dạy tương ứng được phân tích thành các bộ hình ảnh có độ phân giải khác nhau, và sau đó các bộ hình ảnh được sử dụng để huấn luyện với ba mô hình MTANN, như minh họa trong hình 4.2(a).
Mỗi MTANN là một hàm huấn luyện cho một độ phân giải nhất định, ví dụ, một MTANN độ phân giải thấp là phụ trách các thành phần tần số thấp của ảnh tầng số thấp, một MTANN có độ phân giải trung bình cho các thành phần có tần số trung bình, và MTANN độ phân giải cao cho thành phần tần số cao. Mỗi độ phân giải, MTANN được huấn luyện một cách độc lập với những ảnh có độ phân giải tương ứng. Sau khi huấn luyện, các MTANN tạo ra ảnh có độ phân giải khác nhau, và sau đó những hình ảnh này được cấu tạo để cung cấp một hình ảnh có độ phân giải cao hoàn chỉnh bằng cách sử dụng các kỹ thuật đa phân giải - hợp thành, như minh họa trong hình 4.2(b). Các ảnh có độ phân giải cao hoàn chỉnh sẽ tương tự như hình xương dạy; Do đó, các MTANN đa phân giải sẽ cung cấp một hình ảnh "giống xương" trong đó xương sườn được tách ra từ các mô mềm.
Một giá trịngưỡng được xác định bằng cách sử dụng phương pháp dựa trên LDA (Linear discriminant analysis) [29, tr.62-66], đó là một phương pháp phổ biến trong các lĩnh vực thị giác máy tính và nhận dạng mẫu (thường được gọi là
ngưỡng Otsu trình bài trong mục 4.1). Hy vọng một giá trịngưỡng hợp lý có thể được xác định bằng cách sử dụng LDA, vì xác định ngưỡng có thể được xem là một vấn đề phân loại hai lớp trong histogram (biểu đồ) mức xám, và phân chia tuyến tính với LDA sẽ làm việc tốt trong không gian này. Phương pháp này sẽ tự động chọn điểm thấp nhất giữa hai lớp trong histogram của mức xám trong X- quang phổi. Phương pháp này liên quan đến việc giảm thiểu tỷ lệ giữa lớp phương sai để tổng phương sai.
Sau khi phân khúc, một bộ lọc Gaussian được áp dụng để làm nhẵn các cạnh của vùng phổi phân đoạn để tạo ra một hình ảnh m(x,y) cho mặt nạ bên ngoài của vùng phổi. Những hình ảnh mặt nạ được chuẩn hóa với có giá trị 0 - 1. Đối với việc làm giảm độ che xương sườn trong ảnh X-quang phổi ban đầu, hình ảnh
fb(x,y) “giống xương” được tạo ra bởi các MTANN đa phân giải, bị trừ từ bản gốc X-quang phổi g(x,y) với mặt nạảnh m(x,y) như sau:
fs(x,y) = g(x,y) – wC * fb(x,y) * m(x,y) (4.25) Trong đó wC là biến trọng số để xác định độ tương phản của xương sườn. Bằng cách thay đổi biến trọng số wC, người ta có thểcó được hình chụp X-quang phổi đã xử lý với độ tương phản khác nhau của xương sườn. Như vậy, các MTANN đa phân giải sẽ có thể tạo ra một hình ảnh "không xương" đã làm giảm độ che của xương sườn. Do đó, xử lý hình ảnh này có thểđược coi như là một kỹ thuật làm giảm độche xương sườn.
Chương 5. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
Hiện thực chương trình demo và đánh giá kết quảđạt được: Cấu hình máy tính chạy phần mềm:
Tên máy: Laptop HP Pavilion X360.
CPU: Intel® Core™ i5-8250U CPU @ 1.60 GHz (8CPUs). Memory Ram: 2 x 12.0 GB, Bus 1333 MHz
Hệ điều hành Windows 10 Pro. Phần mềm lập trình Visual Studio 2019.
5.1. Thực nghiệm
Sản phẩm của chương trình thực nghiệm:
Hình 5.2. Các chức năng đa phân giải
Hình 5.4. Các chức năng huấn luyện MTANN
Hình 5.6. Các chức năng loại bỏ xương
Phần mềm mô phỏng sử dụng MTANN cho việc huấn luyện các ảnh đa phân giải để tạo ra ảnh “giống xương” từ ảnh X-quang phổi ban đầu. Sử dụng một ảnh X- quang phổi và ảnh xương Dual-enery tương ứng phục vụ cho việc huấn luyện (hình 5.7). Mỗi một MTANN được huấn luyện với một sốlượng lớn các tiểu vùng được trích xuất từ ảnh đầu vào.
Hình 5.7. Ảnh phục vụ huấn luyện
Đối với việc huấn luyện trong vùng phổi, mẫu huấn luyện được trích xuất ngẫu nhiên từ vùng phổi bằng tay với số lượng:
- 5.000 mẫu đối với ảnh đa phân giải HighPass (thông cao) gồm:
o Cặp ảnh HighPass cấp 1 (hình 5.8);
o Cặp ảnh HighPass cấp 2 (hình 5.9).
- 2500 mẫu đối với ảnh đa phân giải LowPass (thông thấp) gồm:
o Cặp ảnh LowPass cấp 2 (hình 5.10).
Kích thước của các tiểu vùng phổi R trong mỗi MTANN là 9 x 9 pixel, do đó số lượng các tiểu vùng là đủđể bao phủ chiều rộng của xương sườn trong ảnh đa phân giải thông thấp. Mô hình của mỗi MTANN bao gồm 3 lớp:
Bảng 5.1. Mô hình huấn luyện MTANN
Lớp nơ-ron Số lượng nơ-ron
Đầu vào 80
Ẩn 19
(a) Ảnh Phổi HighPas cấp 1 440 x 440
(b) Ảnh Xương HighPas cấp 1 440 x 440
Hình 5.8 Ảnh huấn luyện HighPass cấp 1 của ảnh phổi và ảnh xươngtương ứng
(a) Ảnh phổi HighPas cấp 2 220 x 220
(b) Ảnh Xương HighPas cấp 2 220 x 220
(a) Ảnh Phổi LowPas cấp 2 110x110
(b) Ảnh Xương LowPas cấp 2 110x110
Hình 5.10. Ảnh huấn luyện LowPass cấp 2 của ảnh phổi và ảnh xương tương ứng
Chọn tỷ lệ học là 0,001. Số lần huấn luyện là lớn hơn 3.100.000 đối với mỗi MTANN. Thời gian học để mạng cho kết quả tốt là hơn 8 ngày với các lỗi trung bình:
Bảng 5.2. Lỗi trung bình huấn luyện của các MTANN
Ảnh Lỗi trung bình
HighPass cấp 1 0.057
HighPass cấp 2 0.069
LowPass cấp 2 0.016
Hình 5.11(b) là ảnh kết quả huấn luyện của MTANN áp dụng cho ảnh xương LowPass cấp 2. Xương sườn được chiết suất 1 cách hiệu quả tương tự như ảnh xương dual-energy hiển thị trong hình 5.10 (b). Xương sườn trong ảnh kết quả tương đối nhiễu so với ảnh xương dual-energy, các mạch máu nhỏ tồn tại trong ảnh gây ra nhiễu mờ. Cần lưu ý rằng các phần xương bên ngoài vùng phổi, ví dụ như các bộ phận xương đòn và cột sống không được tăng cường trong ảnh kết quả vì huấn luyện chỉ tập trung vào vùng phổi Hình 5.11(a). Hình 5.11 (c) và 5.11(d) là kết quả huấn luyện của MTANN áp dụng cho ảnh xương HighPass cấp 1 và cấp
2. Sau đó, sử dụng kỹ thuật multiresolution hợp thành để thu được ảnh “giống
xương” hình 5.12(a) với kích thước không đổi so với ảnh ban đầu.
(a) Ảnh mặt nạ vùng phổi (b) Ảnh đầu ra - ảnh “giống xương” LowPass cấp 2
(a) Ảnh đầu ra HighPass cấp 1 (d) Ảnh đầu ra HighPass cấp 2
Việc loại bỏxương sườn trên ảnh X-quang phổi dựa vào ảnh “giống xương”
và ảnh mặt nạ (đã trình bài ở mục 4.3). Sự tương phản của xương sườn đã được làm giảm đáng kể trong hình 5.11(d), trong khi khảnăng hiển thị của các mô mềm như mạch phổi vẫn được duy trì.
(a) Ảnh “giống xương” (b) là ảnh chỉ phổi thu được bằng kỹ
thuật trừ xương từ ảnh kết quả.
Hình 5.12. Ảnh kết quả sau khi thực hiện làm giảm độ che xương sườn
5.2. Đánh giá kết quả
Việc thực hiện đánh giá được định lượng bằng việc sử dụng một sai số tuyệt đối trung bình giữa ảnh “giống xương” fb(x,y) và ảnh xương Dual-energy b(x,y)
tương ứng, đại diện bởi
𝐸𝑁 = ∑𝑥,𝑦 ∈ 𝑅𝐿𝑁 |𝑏(𝑥,𝑦)− 𝑓𝑥(𝑥,𝑦)|
𝐿(𝑏𝑚𝑎𝑥−𝑏𝑚𝑖𝑛) (5.1)
Trong đó RL là các vùng phổi, NL là số lượng điểm ảnh trong RL, bmax và bmin
là giá trị lớn nhất và giá trị nhỏ nhất trong RL của hình xương Dual-energy. Sử dụng ảnh “giống xương” và ảnh xương Dual-energy trong đánh giá này, bởi vì so
sánh trực tiếp với những ảnh đầu ra của MTANN đa phân giải sẽ chính xác hơn so với việc sử dụng các ảnh “giống mô mềm”, ví dụ như ảnh “giống mô mềm” có thể khác nhau khi một tham số trọng số được thay đổi. Các kết quả cho X-quang phổi là EN = 0,069 với độ lệch chuẩn là 0.016.
KẾT LUẬN VÀ KHUYẾN NGHỊ 1. Kết luận
Kết quả của đề tài: các xương sườn trên ảnh X-quang phổi được làm giảm độ che đáng kể mà không làm ảnh hưởng nhiều đến sức khỏe người bệnh, hỗ trợ cho bác sĩ trong việc kiểm tra lâm sàn có độ chính xác cao.
2. Khuyến nghị
Hướng phát triển của đề tài là thực hiện các chức năng nhận diện tự động khối u tiềm năng (candidate) trên ảnh X- quang phổi, nếu phát hiện khối u tiềm năng, phần mềm sẽ tựđộng thực hiện trừxương với một trọng số khác so với trọng số ban đầu đảm bảo các cấu trúc khác trong ảnh không bị thay đổi trong khi các hạch bệnh sẽ nổi bật lên.
TÀI LIỆU THAM KHẢO
1. A. Hasegawa, S. C. B. Lo, J. S. Lin, M.T. Freedman, S. K. Mun: A Shift-