Quá trình xử lý này được thực hiện trên ảnh mức xám (gray-scale). Ảnh mức xám có thểđược tổng hợp từ các thành phần màu Ir, Ig, Ib, hoặc có thể sử dụng một trong các thành phần đó. Trong một số công trình, thành phần Hue và Sat trong không gian màu HSV hoặc thành phầy Y trong không gian màu YCbCr cũng được sử dụng là ảnh mức xám. Ởđây, ảnh mức xám được tổng hợp từ các thành phần màu RGB theo công thức
0.3 0.59 0.11
gray r g b
I I I I (5-3)
Hình nền là phần thông tin không cần thiết trong hình ảnh, có cường độ và màu sắc tương tự nhau. Để phân tách hình nền ta xem đây là bài toán phân loại hay gọm cụm các điểm ảnh có cường độ sáng gần giống nhau. Cách tiếp cận này được BorayTek [7] thực hiện bằng phương pháp lọc Bayesian để phân loại các điểm ảnh, Neelam [44][45] thực hiện bằng bằng phương pháp gom cụm KNN (K-nerest neighbourhood).
Tuy nhiên, những kỹ thuật phân ngưỡng tựđộng dựa vào việc phân tích histogram của cường độ màu sắc được xem là hiệu quả hơn trong hình ảnh mẫu máu [17][30][31][32][34][43]. Với việc quan sát và phân tích histogram các thành phần màu sắc ta thấy rằng phần hình ảnh nền và phần hình ảnh cần quan tâm có cường độ
sáng chia thành 2 cụm rõ rệt, với phân bố màu ở hai cụm khá cao và đồng đều. Không cần sử dụng đến các phương pháp gom cụm cũng như phân loại phức tạp, mà chỉ cần
phép phân ngưỡng tựđộng, ta có thể phân chia hình ảnh thành hai phần: hình ảnh nền và vùng đối tượng quan tâm. (Hình 5-3)
Hình 5-3. Khảo sát histogram và kết quả phân ngưỡng tựđộng
Phân ngưỡng tự động có nhiều thuật toán như Huang & Wang, Otsu, Zack (triangle), Li, …2. Để khảo sát và đánh giá được thuật toán nào hiệu quả hơn, người ta đưa ra một khái niệm về “yếu tố sai lệch”. Gọi p z1 và p z2 tương ứng là hàm phân bố xác suất cường độ màu của đối tượng quan tâm và của hình nền. Gọi P1 và P2 tương ứng là xác suất của các điểm ảnh thuộc vào đối tượng quan tâm và hình nền. Và, gọi T là ngưỡng, nếu cường độ màu của điểm ảnh lớn hơn T thì nó thuộc đối tượng quan tâm, nếu thấp hơn nó thuộc hình nền. Ta có công thức tính yếu tố sai lệch như sau:
1 1 2 2 E T PE T P E T (5-4) Với 1 1 T E T p z dz và 2 2 T E T p z dz
Thuật toán phân ngưỡng tự động của Otsu [42] đạt hiệu hiệu quả cao và mức sai lệch thấp, với giả thiết 2 vùng phân bố màu trong histogram có dạng hàm phân bố chuẩn Gaussian. Bằng phương pháp toán học xác suất, Ostu đã đưa ra phương trình tìm ngưỡng T tối ưu như sau: 2 0 AT BT C (5-5) Với 2 2 1 2 A , 2 2 1 2 2 1 2 B , và 2 2 2 2 2 2 2 1 1 2 2 1 2 ln 2 1/ 1 2 C P P . Trong
đó và 2là kỳ vọng và phương sai của phân phối p.