Trong đề tài này chỳng tụi đề xuất một phương phỏp tỏch dũng đú là tỏch dũng dựa vào khoảng trắng và kết hợp Histogram ngang.
í tưởng của phương phỏp này đú là dựa vào khoảng trắng giữa cỏc dũng với nhau. Khoảng trắng giữa cỏc dũng chớnh là nơi ta đặt nhỏt cỏt để tỏch cỏc dũng với nhau.
Phương phỏp này cú ưu điểm là tốc độ rất nhanh. Nhưng nhược điểm của phương phỏp này là do sự xuất hiện của nhiễu. Nhiễu cú thể làm mất khoảng trắng giữa cỏc dũng, dẫn dến hiện tượng tỏch sai dũng (Một dũng thành hai hoặc ba dũng). Để giải quyết được nhược điểm của phương phỏp này tụi đó kết hợp phương phỏp này với Histogram ngang cho cỏc trường hợp nghi ngờ tỏch hai dũng hay ba dũng. Histogram ngang dựa trờn đặc điểm cỏc điểm đen chỉ phõn bố chủ yếu tại cỏc đường thuộc cỏc dũng, tại khoảng giữa cỏc dũng thỡ rất ớt. Ta tỡm Histogram ngang của văn bản và xỏc định một ngưỡng threshold nào đú, đối với cỏc đường mà trờn đú số điểm đen < threshold thỡ sẽ được chọn làm phõn cỏch giữa cỏc dũng.
Cỏc bước thực hiện:
Bước 1: Xỏc định khoảng trắng giữa cỏc dũng và chọn làm vạch phõn cỏch hay là vị trớ cắt cỏc dũng. Quỏ trỡnh được lặp lại cho đến khi hoàn tất cụng việc tỏch dũng trong đoạn. Chiều cao của mỗi dũng phài > minHeightLine (trỏnh trường hợp tỏch cỏc dấu thành một dũng)
Bước 2: Xỏc định độ cao trung bỡnh của cỏc dũng trong một đoạn( avgHeightLine ). Thực nghiệm ta thấy ValueHistogram được tớnh:
valueHistogram=avgHeightLine x 1,2
Bước 4: Tỡm threshold bằng cỏch trung bỡnh cỏc điểm trong một dũng. Khi thực nghiệm tụi thấy rằng nếu giỏ trị threshold *=0,2->03. Thỡ độ chớnh xỏc là cao nhất.
Bước5:Đối với cỏc đường mà trờn đú số điểm đen < threshold thỡ sẽ được chọn làm phõn cỏch giữa cỏc dũng.
Nhận xột:
Ưu điểm: Thời gian chạy của phương phỏp là nhanh hơn so với 2 phương phỏp trờn. Độ chớnh xỏc của phương phỏp qua thực nghiệm là chấp nhận được, khoảng 99 %.
Nhược điểm: Phương phỏp này khụng cú khả năng tỏch cỏc dũng mà giữa chỳng cú phần giao nhau (khụng dớnh nhau). Nhưng trờn thực tế việc cỏc dũng giao nhau rất ớt xẩy ra ở cỏc văn bản.