4. Bố cục của luận văn
2.4. Kỹ thuật Docstrum
Thuật toán Dostrum[17]là một kỹ thuật phân tích cấu trúc theo hƣớng tiếp cận từ dƣới lên dựa trên việc phân cụm các thành phần liên thông bằng phƣơng pháp k-láng giềng gần nhất.Thuật toán đƣợc mô tả cụ thể nhƣ sau:
Thuật toán 2. 4: Thuật toán Dostrum
Input: Ảnh sau khi đƣợc quét: I
Output: Ảnh chứa các vùng thông tin đƣợc xác định.
Bƣớc 1: Tiền xử lý (nhị phân ảnh, tăng cƣờng chất lƣợng ảnh đầu vào).
Bƣớc 2: Xác định các thành phần liên thông cơ bản và trọng tâm của chúng.
Bƣớc 3: Đối với mỗi thành phần liên thông, xác định k-láng giềng gần nhất của nó, và trích chọn các láng giềng trong cùng 1 dòng.
Bƣớc 4: Tạo ra các dòng phù hợp
Bƣớc xử lý đầu tiên nhằm tiến hành nhị phân ảnh, căn chỉnh độ nghiêng và tăng cƣờng chất lƣợng. Trong bƣớc xử lý tiếp theo, các thành phần liên thông quá lớn hoặc quá nhỏ sẽ đƣợc loại bỏ. Thực tế, những thành phần quá lớn thƣờng là các vùng ảnh và các thành phần quá nhỏ thƣờng là nhiễu hoặc một số loại dấu chấm (dấu chấm câu, dấu của chữ i). Các thành phần này có thể gây nhiễu cho quá trình xác định trọng tâm của dòng nên sẽ đƣợc tạm thời loại bỏ. kết quả thực hiện của bƣớc này đƣợc thể hiện cụ thể trênHình 2. 4.
a) Phân tích các thành phần liên thông b) Loại bỏ các thành phần quá lớn và quá nhỏ c) Xác định trọng tâm của các dòng
Hình 2. 4. Xác định các thành phần liên thông, trọng tâm của các dòng
Kỹ thuật Dostrum thực hiện dựa trên những thành phần liên kết thƣờng thể hiện các đặc tính riêng rẽ, một phần của một đặc tính (đặc điểm), và hợp nhất các đặc tính cũng nhƣ một số dấu hiệu chấm câu. Với mỗi thành phần liên kết này, ta sẽ tính toán số k-các điểm lân cận gần nhất. Đầu tiên, số k-các điểm lân cận gần nhất sẽ tính số thành phần liên kết gần nhất so với thành phần liên kết đầu tiên sử dụng một số khối khoảng cách. Trong trƣờng hợp này sẽ sử dụng khoảng cách Euclidean và số k đƣợc cho bằng 5. Nhƣ vậy, với mỗi thành phần liên kết ta sẽ có 5 vùng lân cận và một khoảng cách d, và chúng ta có thể ƣớc tính một góc θ. Do đó, với mỗi cặp thành phần liên kiết i và j ta có Dij(d, θ).
Khi dữ liệu này đƣợc biểu thị bằng sơ đồ, ta có thể nhận thấy những cụm khác nhau và dễ dàng tách những khoảng mà ta cần, cụ thể là khoảng cách đến đặc tính tiếp theo trên cùng một dòng và khoảng cách giữa các dòng cũng nhƣ giữa các góc xiên. Các góc này cho phép chúng ta xoay trang giấy (ví dụ xoay nhẹ trang giấy).
Sử dụng những khoảng này ta có thể hợp nhất các thành phần liên kết vào các dòng bởi các đặc tính ở giữa. Sau đó, những dòng này sẽ đƣợc hợp nhất với các khối sử dụng khoảng không giữa các dòng nhằm thu đƣợc một trang đã đƣợc chia hoàn chỉnh.