Chương 4. GIẢM ĐỘ CHE XƯƠNG TRONG ẢNH X-QUANG
4.2. Xác định khung xương sử dụng máy học
Trong lĩnh vực xử lý hình ảnh, kỹ thuật giám sát xử lý hình ảnh phi tuyến [22, tr.43-53] [14, tr.1582-1596] dựa trên ANN, được gọi là "bộ lọc nơ-ron (neural filter)" [15, tr.1787-1799] và "khuếch tán biên nơ-ron (neural edge enhancer)"
[30, tr.303-310] đã được nghiên cứu để làm giảm các đốm lượng tử (quan sát độ nhiễu cụ thể trong ảnh X-quang y tế) trong chụp động mạch (angiography), chụp X-quang [21, tr.1710-1718] và để giám sát phát hiện các đường viền tâm thất trái bắt nguồn từ tim mạch trong chụp động mạch [13, tr.330-339]. Bằng cách mở rộng bộ lọc nơ-ron và khuếch tán biên nơ-ron, MTANN (Massive training artifical neural network) đã được phát triển để phù hợp với nhiệm vụ phân biệt một tính mờ (opacity) cụ thể từ tính mờ khác trong hình ảnh y tế.
MTANN [20, tr.1602-1617] đã được áp dụng để giảm dương tính giả trong việc phát hiện trên máy vi tính hạch phổi ở chụp cắt lớp liều thấp (CT) và chụp X- quang phổi, có sự phân biệt giữa các hạch phổi lành tính và ác tính trong CT.
Trong luận văn này, MTANN được áp dụng nhằm làm giảm độ che xương sườn trên X-quang phổi.
Hình 4.1. Kiến trúc huấn luyện của một MTANN
Kiến trúc và phương pháp huấn luyện của một MTANN được thể hiện trong hình 4. 1 bao gồm một mô hình ANN đa lớp đầu ra tuyến tính và một chương trình huấn luyện lớn các tiểu vùng. Các giá trị pixel trong tiểu vùng chiết xuất từ một ảnh X-quang phổi được nhập làm đầu vào cho ANN. Pixel chiết xuất trong ảnh dạy được sử dụng là các giá trị dạy cho các tiểu vùng tương ứng. MTANN có thể được coi là một bộ lọc phi tuyến có thể được huấn luyện với những ảnh đầu vào và "dạy" các hình ảnh tương ứng. MTANN bao gồm một mô hình ANN đa lớp đầu ra tuyến tính [19, tr.66-74], có khả năng hoạt động trên dữ liệu hình ảnh trực tiếp. Các đầu ra tuyến tính ANN đa lớp sử dụng một hàm tuyến tính thay vì một hàm sigmoid là hàm kích hoạt cho các nơ-ron đầu ra bởi vì các đặc tính của ANN đã được cải thiện đáng kể với một hàm tuyến tính khi áp dụng cho các ánh xạ liên tục giá trị trong xử lý hình ảnh [14, tr.1582-1596], [19, tr.66-74]. Một ANN thông thường hầu như không có giá trị đầu ra gần bằng 0 và 1 vì các đặc tính của một hàm sigmoid, trong khi đầu ra tuến tính ANN đa lớp có giá trị tuyến tính. Việc huấn luyện để dạy các giá trị gần 0 và 1 quy tụ chậm hơn so với các giá trị khác
so với ANN thông thường về mặt lý thuyết, trong khi các giá trị này được huấn luyện như nhau với mô hình ANN đa lớp đầu ra tuyến tính. Điều này ảnh hưởng đến các đặc điểm hội tụ và các đặc trưng đầu ra của mô hình ANN.
Do đó, đầu ra tuyến tính ANN đa lớp sẽ thích hợp cho xử lý hình ảnh, nơi các giá trị có thể dạy các giá trị liên tục từ 0 đến 1. Các giá trị pixel của ảnh X- quang phổi ban đầu được chuẩn hóa lần đầu sao cho giá trị một pixel của 0 là 0 và giá trị một pixel của cấp độ xám tối đa (1023) là 1. Các yếu tố đầu vào của mô hình ANN đa lớp đầu ra tuyến tính là các giá trị điểm ảnh trong một tiểu vùng Rs
chiết xuất từ một ảnh X-quang phổi. Đầu ra là một giá trị liên tục, tương ứng với điểm ảnh trung tâm trong tiểu vùng, đại diện bởi:
f(x, y) = NN(𝐢𝑥,𝑦), (4.15)
𝐢𝑥,𝑦 = {g(x - i , y - j) | i, j ∈ Rs}. (4.16) 𝐢𝑥,𝑦 là những vector đầu vào của MTANN, f(x, y) là một ước tính cho một giá trị dạy, x và y là tọa độ của hình ảnh, NN(𝐢𝑥,𝑦) là mô hình ANN đa lớp đầu ra tuyến tính, và g(x, y) là một giá trị điểm ảnh chuẩn hóa trong ảnh X-quang phổi đầu vào.
Lưu ý rằng chỉ có một nơ-ron được sử dụng trong lớp đầu ra. Các vector đầu vào có thể được viết lại như sau:
𝐢𝑥,𝑦 = {I1, I2, …, Im, …, 𝐼𝑁𝐼}. (4.17) Trong đó m là số thuộc tính đầu vào, NI là số lượng nơ-ron đầu vào. Bởi vì hàm kích hoạt của các nơ-ron trong lớp đầu vào là một hàm nhận dạng, đầu ra thứ n của nơ-ron trong lớp đầu vào được ký hiệu In. Đầu ra thứ n của nơ-ron trong lớp ẩn được tính:
𝑂𝑛𝐻 = fs{∑𝑚=1𝑁𝐼 𝑤𝑚𝑛𝐻 . 𝐼𝑚 − 𝑤0𝑛𝐻 }. (4.18)
𝑊𝑚𝑛𝐻 là trọng số giữa nơ-ron thứ m trong lớp đầu vào và nơ-ron thứ n trong lớp ẩn, 𝑊0𝑛𝐻 là một bù đắp của nơ-ron thứ n trong lớp ẩn, và fs(u) là một hàm sigmoid.
𝑓𝑠(𝑢) = 1
1+𝑒𝑥𝑝 (−𝑢) (4.19)
Đầu ra của các nơ-ron trong lớp xuất được tính:
f(x, y) = fL{∑𝑁𝑚=1𝐻 𝑤𝑚𝑂 . 𝑂𝑚𝐻 − 𝑤0𝑂}. (4.20) 𝑊𝑚𝑂 là trọng số giữa nơ-ron m trong lớp ẩn và các nơ-ron trong lớp xuất, 𝑊0𝑂 là một bù đắp của các nơ-ron trong lớp xuất, fL(u) là một hàm tuyến tính:
fL(u) = a.u + 0.5 (4.21)
a là tham số độ dốc. Toàn bộ hình ảnh đầu ra thu được bằng cách quét một ảnh ngực đầu vào với MTANN.
MTANN liên quan đến việc huấn luyện khổng lồ các cặp tiểu vùng pixel, được gọi là một chương trình huấn luyện lớn các tiểu vùng. ẢnhX-quang phổi đầu vào chia từng pixel thành số lượng lớn các tiểu vùng chồng lấn. Pixel đơn tương ứng với các tiểu vùng đầu vào đều được trích xuất từ những hình ảnh giảng dạy xem như những giá trị huấn luyện. MTANN được huấn luyện ồ ạt bằng cách sử dụng số lượng lớn của các tiểu vùng đầu vào cùng với huấn luyện điểm ảnh tương ứng. Tập huấn luyện của mỗi cặp của một tiểu vùng và một điểm ảnh huấn luyện được định nghĩa như sau:
{𝐢(𝑥, 𝑦), 𝑇(𝑥, 𝑦)|𝑥, 𝑦 ∈ 𝑅𝑇} = {(𝐢1, 𝑇1), (𝐢2, 𝑇2), … , (𝐢p, 𝑇𝑝), … , (𝐢N
T, 𝑇𝑁
𝑇)} (4.22) 𝑇(𝑥, 𝑦) là hình ảnh dạy, RT là vùng huấn luyện tương ứng với bộ sưu tập của các trung tâm tiểu vùng (hoặc những pixel huấn luyện), p là một pixel trong RT, và NT là số lượng pixel trong RT. Các lỗi được giảm thiểu bằng huấn luyện với công thức:
𝐸 = 1
𝑁𝑇 ∑𝑥,𝑦∈𝑅𝑇{𝑇(𝑥, 𝑦) − 𝑓(𝑥, 𝑦)}2 (4.23) MTANN được huấn luyện bởi thuật toán lan truyền ngược (đã được trình bài ở mục 2.3.2). Sự điều chỉnh trọng số giữa các nơ-ron ẩn và nơ-ron đầu ra được tính:
∆𝑊𝑂 = −𝜂 𝜕𝐸
𝜕𝑊𝑂 = −𝜂𝑎(𝑇 − 𝑓)𝑂𝐻 (4.24) Với 𝜂 là tỷ lệ học
Chúng ta sử dụng một kỹ thuật trừ Dual-energy [31, tr.271-273] để sử dụng ảnh kết quả của MTANN trừ xương sườn trên ảnh X-quang phổi. Phép trừ Dual- energy là một kỹ thuật để tách xương từ các mô trên ảnh X-quang phổi bằng cách sử dụng sự phụ thuộc năng lượng của suy giảm x-ray bằng các vật liệu khác nhau;
nó có thể tạo ra hai hình ảnh mô có chọn lọc, tức là một ảnh xương và một ảnh mô mềm. Ảnh X-quang phổi được sử dụng như ảnh đầu vào cho MTANN, và ảnh xương Dual-energy tương ứng được sử dụng như ảnh huấn luyện. Chúng ta không trực tiếp dùng các hình ảnh mô mềm Dual-energy huấn luyện, bởi vì huấn luyện các MTANN với kết quả ảnh mô mềm Dual-energy được tạo ra kém hơn so với huấn luyện các MTANN với hình ảnh xương Dual-energy (xem mục 3.1).
4.3. Giảm độ che của xương sử dụng mạng nơ-ron
Hình 4.2 minh họa kiến trúc và huấn luyện của một MTANN liên quan đến kỹ thuật đa phân giải phân rã/hợp thành cho hình ảnh có độ phân giải khác nhau.
Đầu tiên, ảnh X-quang phổi đầu vào và ảnh xương giảng dạy tương ứng được phân tích thành các bộ hình ảnh có độ phân giải khác nhau, và sau đó các bộ hình ảnh được sử dụng để huấn luyện với ba mô hình MTANN, như minh họa trong hình 4.2(a).
Mỗi MTANN là một hàm huấn luyện cho một độ phân giải nhất định, ví dụ, một MTANN độ phân giải thấp là phụ trách các thành phần tần số thấp của ảnh tầng số thấp, một MTANN có độ phân giải trung bình cho các thành phần có tần số trung bình, và MTANN độ phân giải cao cho thành phần tần số cao. Mỗi độ phân giải, MTANN được huấn luyện một cách độc lập với những ảnh có độ phân giải tương ứng. Sau khi huấn luyện, các MTANN tạo ra ảnh có độ phân giải khác nhau, và sau đó những hình ảnh này được cấu tạo để cung cấp một hình ảnh có độ phân giải cao hoàn chỉnh bằng cách sử dụng các kỹ thuật đa phân giải - hợp thành, như minh họa trong hình 4.2(b). Các ảnh có độ phân giải cao hoàn chỉnh sẽ tương tự như hình xương dạy; Do đó, các MTANN đa phân giải sẽ cung cấp một hình ảnh "giống xương" trong đó xương sườn được tách ra từ các mô mềm.
Một giá trị ngưỡng được xác định bằng cách sử dụng phương pháp dựa trên LDA (Linear discriminant analysis) [29, tr.62-66], đó là một phương pháp phổ biến trong các lĩnh vực thị giác máy tính và nhận dạng mẫu (thường được gọi là ngưỡng Otsu trình bài trong mục 4.1). Hy vọng một giá trị ngưỡng hợp lý có thể được xác định bằng cách sử dụng LDA, vì xác định ngưỡng có thể được xem là một vấn đề phân loại hai lớp trong histogram (biểu đồ) mức xám, và phân chia tuyến tính với LDA sẽ làm việc tốt trong không gian này. Phương pháp này sẽ tự động chọn điểm thấp nhất giữa hai lớp trong histogram của mức xám trong X- quang phổi. Phương pháp này liên quan đến việc giảm thiểu tỷ lệ giữa lớp phương sai để tổng phương sai.
Hình 4.2. Minh họa kiến trúc và huấn luyện của một MTANN.
Sau khi phân khúc, một bộ lọc Gaussian được áp dụng để làm nhẵn các cạnh của vùng phổi phân đoạn để tạo ra một hình ảnh m(x,y) cho mặt nạ bên ngoài của vùng phổi. Những hình ảnh mặt nạ được chuẩn hóa với có giá trị 0 - 1. Đối với việc làm giảm độ che xương sườn trong ảnh X-quang phổi ban đầu, hình ảnh fb(x,y) “giống xương” được tạo ra bởi các MTANN đa phân giải, bị trừ từ bản gốc X-quang phổi g(x,y) với mặt nạ ảnh m(x,y) như sau:
fs(x,y) = g(x,y) – wC * fb(x,y) * m(x,y) (4.25) Trong đó wC là biến trọng số để xác định độ tương phản của xương sườn.
Bằng cách thay đổi biến trọng số wC, người ta có thể có được hình chụp X-quang phổi đã xử lý với độ tương phản khác nhau của xương sườn. Như vậy, các MTANN đa phân giải sẽ có thể tạo ra một hình ảnh "không xương" đã làm giảm độ che của xương sườn. Do đó, xử lý hình ảnh này có thể được coi như là một kỹ thuật làm giảm độ che xương sườn.