Phân vùng đối tượng là để xác định vùng này là đối tượng tế bào đơn lẻ hay là vùng tế
bào dính chùm. Phương pháp tình thành phần liên thông được áp dụng để gán nhãn các vùng đối tượng.
- Sử dụng thông tin ảnh nhị phân ở phần 5.3.1 và thuật toán loang theo chiều rộng (Breath First Search) cho 8 ô liền kềđể xác định vùng đối tượng. Từđây ta có
được diện tích thực tế của vùng đối tượng AR.
- Sử dụng thông tin khoảng cách ở phần 5.3.2 để tìm đỉnh (peak) vùng đối tượng. Từđây ta có được diện tích lý thuyết cùng vùng đối tượng AT.
- Với 2 kết quả này ta sẽ xác định được đây là đối tượng tế bào đơn hay vùng tế
bào dính chùm theo công thức đã định nghĩa AR 1.5AT.
5.5 Phân tách tế bào
Với phương pháp được đề nghị trong chương 4, bước phân tách tế bào được thực hiện theo các bước sau:
Áp dụng công thức (4-3) cho bước tìm các điểm bao phủ và công thức (4-4) cho bước tính độ bao phủ. Quan sát độ bao phủ của các điểm ảnh cho thấy các vùng nào có độ
bao phủ càng cao thì vùng đó càng có khả năng là đối tượng tế bào riêng lẻ cao. 1. Tìm các điểm trung tâm
Đặt I là hình ảnh
Đặt D là hình ảnh biến đổi theo không gian khoảng cách
Đặt dC = [-1 0 1 1 1 0 -1 -1]
for each (x,y) I
supported = 1 for j = 1..8 r = y + dR(j) c = x + dC(j) if D(r,c) > D(y,x)) supported = 0 Thoát khỏi vòng lặp end end
if (supported = 1) Lưu (x,y) vào P
endfor
2. Tính độ bao phủ cho các điểm đó
for each (x,y) P
for j Circle( (x,y), radius = D(x,y))
Cover(x,y) = sum(Dj);
endfor
3. Sắp xếp độ bao phủ theo cách thức giảm dần
P(x,y) = Sort -> Cover(x,y);
4. Thực hiện phân tách tế bào
{Từ việc ước lượng kích thước tế bào}
Đặt averageCover độ phủ trung bình của một tế bào đơn. Đặt averageArea điện tích trung bình của một tế bào đơn.
for each (x,y) P-sorted
if (x,y) = invalid -> continue
if Cover(x,y) < 1/4 averageCover -> continue
Area(x,y) = p Circle( (x,y), radius = D(x,y))
&Found Obj {Vùng đã xét}
if Area(x,y) < 1/3 averageArea -> continue
Neighbour(x,y) = p P & Circle( (x,y), radius = D(x,y)/6)
MarkOfCell = p Circle( Neighbour(x,y), radius = D(x,y))
Lưu MarkOfCell là mặt nạ của một single cell
InvalidPoint = p P & Circle( (x,y), radius = D(x,y)/3*2) Remove(InvalidPoint)
Hình 5-6. Độ bao phủ trên các vùng đối tượng
Hình 5-7. Bước chọn lựa và phân tách được thực hiện tuần tự.
Hình 5-9. Kết quảđánh dấu các vùng phân tách trên hình ảnh gốc
Chương 6.
Thí nghiệm và Thảo luận
Nội dung của chương này trình bày cách thức chuẩn bị thí nghiệm và các kết quả của hai phương pháp đề nghị: phân tách tế bào và phát hiện tế bào nhiễm ký sinh trùng. Phần thảo luận sẽ trình bày một số lỗi còn gặp phải, giới hạn mức độ thành công của thuật toán, cũng như một số so sánh với các công trình khác.
6.1 Xây dựng thí nhiệm
Dữ liệu hình ảnh thí nghiệm là tập các hình ảnh thu được từ các nguồn sau:
1. Do tác giả Ross [15] cung cấp. Dữ liệu này bao gồm các tập ảnh được phân loại theo từng mẫu máu và theo từng loại nhiễm ký sinh trùng. Tập ảnh có nhiều ảnh nhất là tập ảnh tế bào nhiễm ký sinh trùng P. falciparum, trong khi đó các loại ký sinh trùng khác có số lượng ảnh hạn chế.
2. Dữ liệu có được việc thực hiện từ đề tài nghiên cứu tại Singapore. Dữ liệu này
được chụp từ các mẫu vật do kỹ thuật viên tự tạo – cấy nhiều ký sinh trùng P. falciparum – để dễ dàng quan sát và thực hiện đề tài nghiên cứu.
3. Dữ liệu được download từ thư viện ảnh y khoa quốc tế CDC. Centers for Disease Control and Prevention: Public Health Image Library [online]. 2005 WWW <http://phil.cdc.gov/phil/home.asp>.
4. Dữ liệu thu được từ các hình ảnh mẫu vật thực tế. Sử dụng máy ảnh kỹ thuật số
cầm tay và thực hiện chụp hình ảnh quan sát được qua ông ngắm kính hiển vi tại tại Phòng xét nghiệm Sốt rét Bệnh viện Nhiệt đới Thành Phố Hồ Chí Minh. Tất cả các hình ảnh trên đều là ảnh màu với thông tin được lưu trữ dưới dạng ảnh RGB và có độ phân giải thay đổi từ 640x480 đến 1600x1200 điểm ảnh. Đối với bài toán phân tách tế bào, dữ liệu được thử nghiệm toàn bộ và đánh giá kết quả. Đối với bài toán phát hiện tế bào nhiễm kí sinh trùng, dữ liệu được chia làm hai phần, một phần để
thực hiện phần huấn luyện của thuật toán SVM, và phần còn lại để kiểm tra và đánh giá.
Cài đặt thí nghiệm. Sử dụng công cụ Matlab cùng với các thành phần hỗ trợ bao gồm: - Image Processing Toolbox
- SDC Morphology Toolbox
- Bioinformatics Toolbox
Ngoài ra, các đoạn script và code khác được thiết kế và lập trình dựa vào thuật toán có sẵn cũng như thuật toán đề nghị Chương 4. Chương trình được thực hiện trên máy tính chip xử lý Intel Pentium 4 với tốc độ bình 2.4GHz, bộ nhớ 1GBytes.
Đánh giá kết quả, được thực hiện như sau:
- Đối với bài toán phân tách tế bào, thực hiện so sánh số lượng ‘tương đối’ của người và máy tính đếm được trong hình, để tính ra mức độ sai lệch F.
2PR
F
P R
(6-1)
Trong đó, độ chính xác (precision) được tính bằng công thức
precision /
P A Z A (6-2)
Và độ đầy đủ (recall) được tính bằng công thức
recall /
R A Z Z (6-3)
Với A và Z tương ứng là tập các tế bào hồng cầu được phân tách tự động và phân tách thủ công.
- Đối với bài toán phân tách tế bào, thực hiện tính hai hệ số: hệ số nhạy
(sensitivity) và hệ số đặc trưng (specificity). Hệ số thứ nhất được dùng để tính mức độđối tượng âm tính bị phân loại sai thành dương tính. Hệ số thứ hai được dùng để tính mức độ đối tượng dương tính được đánh dấu đúng. Hai hệ số này
được định nghĩa như sau: sensitivity TN SE TN FP (6-4)
specificity TP SP TP FN (6-5)
Trong đó, phần đúng dương tính (true positive – ký hiệu là TP) để chỉ các đối tượng dương tính được đánh dấu đúng là dương tính; phần sai dương tính (false positive – ký hiệu là FP) để chỉ các đối tượng âm tính mà bị đánh dấu sai là dương tính; phần đúng âm tính (true negative – ký hiệu là TN) để chỉ các đối tượng âm tính được đánh dấu đúng là âm tính; cuối cùng phần sai âm tính (false negative – ký hiệu là FN) để chí các đối tượng dương tính bị đánh dấu sai là âm tính.
Hình 6-1. Cách so sánh kết quả với ground-truth
Ground-truth. Tập ảnh được chuyên viên xét nghiệm số rét tại phòng xét nghiệm Bệnh viện Nhiệt đới Thành Phố Hồ Chí Minh thực hiện, bằng cách quan sát, phân tích và nhận dạng các tế bào nhiễm ký sinh trùng. Các tế bào hồng cầu được dánh dấu trên hình ảnh bằng màu xanh. Kết quả được so sánh tự động bằng cách dò tìm sự có mặt của dấu xác định của ground-truth.
6.2 Kết quả thí nghiệm
Tập hình của PTN Singapore, Bảng 6-1, có độ phân tách tốt, độ cân bằng giữa độ chính xác và độ đầy đủ cao. Độ F đạt ngưỡng 97% và thấp nhất là 93%. Đặc điểm của tập hình có mật độđối tượng tế bào cao, độ chồng nhau ở mức cao hơn trung bình, đa số là các đối tượng đơn. Tuy nhiên, hình ảnh của các đối tượng xuất hiện một số hình dạng khác thường – không ở dạng tròn. Vì vậy, mặc dù độ chính xác (xác định đúng tế bào)
cao – trung bình ở mức 95%, nhưng độ đầy đủ (xác định đủ tế bào) không cao - thấp nhất là 90%.
Bảng 6-1. Hiệu suất của ph/pháp phân tách tế bào - tập ảnh của PTN Singapore
Tên file A Z A Z P R F good13 219 224 226 97.77% 96.90% 97.33% good14 278 290 306 95.86% 90.85% 93.29% good15 272 280 288 97.14% 94.44% 95.77% good16 282 295 292 95.59% 96.58% 96.08% good17 273 287 284 95.12% 96.13% 95.62% good18 287 300 301 95.67% 95.35% 95.51%
Tập hình của tác giả Ross cung cấp, Bảng 6-2, có độ phân tách tốt, độ cân bằng giữa độ
chính xác và độđầy đủ khá cao. Độ F đạt ngưỡng 99% và thấp nhất là 90%. Đặc điểm của tập hình có mật độ đối tượng tế bào thưa, số lượng tế bào trên một hình khá ít trung bình khoảng 30 tế bào. Tuy rằng, có một số thí nghiệm có độ chính xác và độ đầy đủ
cao 100% - hình ảnh đều là tế bào đơn, nhưng một số hình ảnh khác có các tế bào dính chùm cũng có thể phân tách đạt độ sai lệnh tuyệt đối 100%. Điều này cho thấy khả
năng phân tách tốt của thuật toán, khi hình ảnh rõ nét và thông tin đối tượng đầy đủ, chính xác.
Bảng 6-2. Hiệu suất của ph/pháp phân tách tế bào - tập ảnh của Ross [15]
Tên file A Z A Z P R F Fal_s1_001 33 35 35 94.29% 94.29% 94.29% Fal_s1_002 31 33 34 93.94% 91.18% 92.54% Fal_s1_003 35 36 35 97.22% 100.00% 98.59% Fal_s1_004 30 33 34 90.91% 88.24% 89.55% Fal_s1_005 31 31 33 100.00% 93.94% 96.88% Fal_s1_006 21 25 25 84.00% 84.00% 84.00% Fal_s1_007 28 29 29 96.55% 96.55% 96.55% Fal_s1_008 27 27 28 100.00% 96.43% 98.18% Fal_s1_009 28 28 31 100.00% 90.32% 94.92% Fal_s1_010 30 30 30 100.00% 100.00% 100.00% Fal_s1_011 28 29 29 96.55% 96.55% 96.55% Fal_s1_012 29 32 30 90.63% 96.67% 93.55%
Fal_s1_013 25 25 25 100.00% 100.00% 100.00% Fal_s1_014 22 23 26 95.65% 84.62% 89.80% Fal_s1_015 29 29 30 100.00% 96.67% 98.31% Fal_s1_016 29 31 30 93.55% 96.67% 95.08% Fal_s1_017 19 21 19 90.48% 100.00% 95.00% Fal_s1_018 21 22 22 95.45% 95.45% 95.45% Fal_s1_019 23 23 24 100.00% 95.83% 97.87% Fal_s1_020 28 28 28 100.00% 100.00% 100.00% Fal_s1_021 31 31 31 100.00% 100.00% 100.00% Fal_s1_022 19 19 19 100.00% 100.00% 100.00% Fal_s1_023 26 29 27 89.66% 96.30% 92.86% Fal_s1_024 20 23 21 86.96% 95.24% 90.91% Fal_s1_025 24 25 24 96.00% 100.00% 97.96% Tập hình của Thư viện CDC, Bảng 6-3, có độ phân tách tốt, độ cân bằng giữa độ chính xác và độđầy đủ ở mức tốt. Độ F đạt mức trung bình 94%, thấp nhất 85% (trường hợp hình lores30). Bộ hình này có đặc điểm không đồng nhất, tông màu đa dạng, mật độ
tùy thuộc vào từng hình, có hình thưa, có hình dày đặc. Phần lớn các hình vẫn đạt mức chính xác cao, còn độ đầy đủ có phần thấp hơn. Nguyên nhân là do đặc biệt ánh sáng không đồng đều trên cùng một hình, dẫn đến việc phân ngưỡng sai lệch, không hình thành đủ lượng thông tin để xây dựng đối tượng tế bào. Trường hợp ở hình lores30 có
độ P cao 96% độ R thấp 77%, nghĩa là xác định chính xác nhưng còn thiếu nhiều tế
bào, đây là trường hợp rõ nét của ánh sáng không đồng đều (vùng trên tối, vùng dưới sáng), đồng thời màu sắc của đối tượng tế bào cũng gần với màu nền, dẫn đến sai lệch trong việc xác định vùng đối tượng. Bảng 6-3. Hiệu suất của ph/pháp phân tách tế bào - tập ảnh của Thư viện CDC Tên file A Z A Z P R F lores11 69 74 71 93.24% 97.18% 95.17% lores12 39 41 39 95.12% 100.00% 97.50% lores13 77 81 83 95.06% 92.77% 93.90% lores14 76 79 80 96.20% 95.00% 95.60% lores15 71 73 77 97.26% 92.21% 94.67% lores16 89 92 91 96.74% 97.80% 97.27% lores17 51 52 55 98.08% 92.73% 95.33% lores18 57 58 61 98.28% 93.44% 95.80%
lores19 72 75 73 96.00% 98.63% 97.30% lores20 78 79 80 98.73% 97.50% 98.11% lores21 77 77 81 100.00% 95.06% 97.47% lores22 70 76 73 92.11% 95.89% 93.96% lores23 62 65 62 95.38% 100.00% 97.64% lores24 51 52 53 98.08% 96.23% 97.14% lores25 69 72 76 95.83% 90.79% 93.24% lores26 87 88 95 98.86% 91.58% 95.08% lores27 47 49 50 95.92% 94.00% 94.95% lores28 47 50 50 94.00% 94.00% 94.00% lores29 44 45 50 97.78% 88.00% 92.63% lores30 55 57 71 96.49% 77.46% 85.94% lores31 43 47 44 91.49% 97.73% 94.51% lores32 35 36 40 97.22% 87.50% 92.11% lores33 80 86 91 93.02% 87.91% 90.40% lores34 85 89 100 95.51% 85.00% 89.95% lores35 86 90 95 95.56% 90.53% 92.97% lores36 36 39 41 92.31% 87.80% 90.00%
Bảng 6-4. Hiệu suất của ph/pháp phân tách tế bào - tập ảnh của BV Nhiệt đới HCM
Tên file A Z A Z P R F DSC001 95 104 103 91.35% 92.23% 91.79% DSC002 80 82 83 97.56% 96.39% 96.97% DSC003 151 162 152 93.21% 99.34% 96.18% DSC004 163 175 181 93.14% 90.06% 91.57% DSC005 135 147 145 91.84% 93.10% 92.47% DSC006 119 164 132 72.56% 90.15% 80.41% DSC007 86 94 91 91.49% 94.51% 92.97% DSC008 97 101 102 96.04% 95.10% 95.57%
Tập hình của BV Nhiệt đới TP Hồ Chí Minh, Bảng 6-4, có độ phân tách tốt. Độ F
trung bình đạt được 92%. Quan sát ta thấy 3 hình DSC005, DSC006, DSC007 có độ
chính xác không cao, đặc biệt DSC006 khá thấp, đồng thời độ đầy đủ của các hình cũng không cao, nguyên nhân là do các đối tượng tế bào nằm chồng lên nhau quá nhiều, không đủ thông tin để phân tách thành đối tượng riêng lẻ. Ngoài ra, trong hình mẫu có tồn tại các tế bào bạch cầu, với kích thước lớn hơn tế bào hồng cầu rất nhiều,
chưa được xét đến. Việc phân tách và nhận dạng tế bào bạch cầu thuộc về một bài toán khác.
Bảng 6-5. So sánh ph/pháp phân tách tế bào của Boray Tek [7]
Phương pháp Độ chính xác Độ thiếu hụt Under Over
Boray Tek 95.40% 1.46% 3.12% 8.14%
Rao Mohana 91.27% 3.12% 5.60% 4.22%
Bảng 6-6. Hiệu suất ph/pháp phân tách tế bào của Kumar [19]
Hình ảnh Số cụm Độ chính xác Sai Thiếu Dres 11 69.5% 23.0% 7.5% Neph 19 78.5% 0.0% 21.5% Podo 42 91.0% 4.5% 4.5% Curv 24 60.0% 6.0% 34.5% Trung bình 112 79.5% 5.0% 15.5%
Bảng 6-7. Đánh giá độ sai lệnh ph/pháp phân tách tế bào của Gloria Diaz [9] [10] Độ sai lệch trung bình % Độ sai khác
Chuyên gia 1 ‐0.23 1.25 ± 5.43
Chuyên gia 2 0.27 1.78 ± 6.64
Trung bình 0.02 0.18 ± 5.48
Thông qua ba bảng kết quả, Bảng 6-5, Bảng 6-6, và Bảng 6-7, của ba công trình tương
ứng với ba phương pháp đã nêu trong phần 4.2. Các phương pháp đều có độ chính xác
ở mức cao 95%, tuy nhiên độđầy đủ trung bình ở mức 90%, có công trình không đề
cập rõ ràng cụ thể trong báo cáo. So sánh với kết quả phương pháp đề nghị, mức độ
chính xác và mức độ đầy đủ, cũng như độ chênh lệch, đều ở mức cao, từ 90% đến 95%. Kết quả này được đánh giá rõ ràng cụ thể trên từng hình ảnh, với các đặc điểm hình ảnh khác nhau, từ các nguồn ảnh khác nhau. Nếu so sánh vềđộ phức tạp, chi phí tính toán, và thời gian thực hiện thì phương pháp đề nghị hiệu quả hơn – vì không sử