Để chuyển hình ảnh mức xám về ảnh nhị phân ta đặt một ngưỡng (threshold) thích hợp, điểm ảnh xám nào có giá trị bằng hoặc dưới ngưỡng thì đặt lại giá trị bằng 0 và ngược lại, ta đặt lại giá trị bằng 225. Ở đây, ngưỡng được tính tự động từ ảnh xám ở trên theo phương pháp của Otsu.
O(x,y) = 0 nếu I(x,y) < T và 1 nếu I(x,y) ≥ T Với T là ngưỡng.
Nếu sử dụng một giá trị T duy nhất cho toàn bộ bức ảnh, có nghĩa là công thức trên áp dụng cho toàn ảnh trong quá trình phân hoạch thì ta gọi đó là cách dùng ngưỡng toàn cục (Global Thresholding), ngược lại sử dụng ngưỡng khác nhau tùy theo từng vùng
(Region) trong ảnh, T biến thiên theo từng vị trí khác nhau và được tính toán lại tại từng vùng ảnh, có nghĩa là công thức trên áp dụng cho từng vùng cục bộ của ảnh với T thay đổi thì đó gọi là phương pháp dùng ngưỡng cục bộ (Local Thresholding).
Như vậy với giải pháp phân hoạch ngưỡng trên ảnh, T là một nhân tố vô cùng quan trọng mang tính quyết định sự thành bại của thuật toán. Otsu một thuật toán đơn giản để tính T phục vụ cho phân hoạch ảnh toàn cục.
Otsu là tên một nhà nghiên cứu người Nhật đã nghĩ ra ý tưởng cho việc tính ngưỡng T một cách tự động (adaptive) dựa vào giá trị điểm ảnh của ảnh đầu vào nhằm thay thế cho việc sử dụng ngưỡng cố định (fixed hay const). Phương pháp này cho kết quả là mỗi ảnh khác nhau có một ngưỡng tương ứng khác nhau bằng các bước xử lý như sau:
- Chọn một giá trị khởi tạo cho T. Nên chọn giá trị mang tính công thức, ví dụ T = (min + max) / 2, T = giá trị trung bình của toàn bộ ảnh, tránh dùng các giá trị mang tính định lượng thiết lập cứng.
- Phân hoạch ảnh sử dụng T. kết quả của bước này sẽ tạo ra 2 nhóm điểm ảnh: G1 chứa tất cả các điểm ảnh với giá trị (intensity) > T và G2 chứa các điểm ảnh với giá trị (intensity) ≤ T.
- Tính trung bình (Average hay Mean) m1 và m2 của các điểm ảnh thuộc G1 và G2. - Tính lại T dựa vào m1 và m2: T = (m1 + m2) / 2.
- Lặp lại bước 2 đến 4 cho tới khi nào giá trị chênh lệch giữa T cũ và T mới là không đáng kể (nhỏ hơn một giá trị cho trước ΔT). ΔT thường được sử dụng là sai số từ các phép tính toán trong quá trình xử lý. Trong trường hợp này T được tính ở 4 sẽ có phép sai số là 1 / 2 * (giá trị đơn vị của điểm ảnh)