Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 89 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
89
Dung lượng
3 MB
Nội dung
TRƯỜNG ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG PHẠM VĂN THỦY ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE LUẬN VĂN THẠC SĨ Thái Nguyên, tháng 06 năm 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận văn cao học “Đánh giá ảnh hưởng tham số đến kết phân tách thuật tốn WhiteSpace” cơng trình nghiên cứu riêng tơi hồn thành hướng dẫn khoa học TS Nguyễn Đức Dũng Trong toàn nội dung luận văn, phần trình bày cá nhân tổ hợp từ nhiều nguồn tài liệu khác Tất tài liệu, số liệu trung thực có xuất xứ rõ ràng trích dẫn theo quy định Tơi hoàn toàn chịu trách nhiệm với lời cam đoan Học viên thực luận văn Phạm Văn Thủy LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành tới TS Nguyễn Đức Dũng có dẫn, động viên suốt trình thực luận văn Đồng thời xin chân thành cảm ơn thầy cô giáo Ban giám hiệu, phịng Đào tạo, thầy giáo trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên thầy cô giáo Viện Công nghệ Thông Tin - Viện Hàn lâm Khoa học Việt Nam quan tâm, tạo điều kiện thuận lợi, giảng dạy hướng dẫn suốt trình học tập hồn thiện luận văn Cuối xin cảm ơn giúp đỡ từ người thân, đồng nghiệp người ủng hộ, hỗ trợ tơi suốt q trình thực luận văn Mặc dù có nhiều cố gắng, nhiên luận văn tránh khỏi thiếu sót, tơi mong nhận đuợc ý kiến đánh giá, bổ sung để tơi hồn thiện luận văn mình./ Quảng Ninh, ngày tháng năm 2017 MỤC LỤC DANH MỤC HÌNH ẢNH PHẦN MỞ ĐẦU 10 Đặt vấn đề 10 Nội dung nghiên cứu 11 2.1 Mục tiêu đề tài 11 2.2 Ý nghĩa khoa học đề tài 12 2.3 Nhiệm vụ nghiên cứu 12 2.4 Phương pháp nghiên cứu 12 2.5 Phạm vi nghiên cứu 13 Bố cục luận văn 13 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH ẢNH TÀI LIỆU 14 1.1 Tổng quan phân tích ảnh tài liệu 14 1.1.1 Giới thiệu ảnh tài liệu 14 1.1.2 Hệ phân tích ảnh tài liệu 15 1.1.3 Quá trình thu nhận ảnh tài liệu 20 1.1.4 Vai trò phân tích ảnh tài liệu 21 1.2 Cấu trúc ảnh tài liệu 23 1.2.1 Cấu trúc vật lý 23 1.2.2 Cấu trúc logic 24 1.3 Phân tích trang tài liệu 24 1.3.1 Tiền xử lý (preprocessing): 26 1.3.2 Phân tích cấu trúc vật lý 27 1.3.3 Phân tích cấu trúc logic: 29 1.4 Kết luận 30 CHƯƠNG 2: ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE 31 2.1 Các hướng tiếp cận số thuật toán phân tách trang tiêu biểu 31 2.1.1 Hướng tiếp cận Top-down 31 a) Tổng quan 31 c) Ưu điểm: 35 d) Nhược điểm: 35 2.1.2 Hướng tiếp cận Bottom-up 38 a) Tổng quan 38 c) Ưu điểm 42 d) Nhược điểm 42 2.1.3 Hướng tiếp cận theo phương pháp lai ghép (hybrid) 43 a) Tổng quan 43 b) Thuật toán tách Nối thích nghi (Adaptive Split - and - Merge) 43 c) Ưu điểm 45 d) Nhược điểm 45 2.1.4 Đánh giá lựa chọn thuật toán 46 2.2 Thuật tốn phân tích trang tài liệu Whitespace 47 2.2.1 Giới thiệu 47 2.2.2 Whitespace Cover 48 2.2.2.1 Định nghĩa toán 48 2.2.2.2 Thuật toán 49 2.3 Ảnh hưởng tham số đến kết phân tách thuật toán Whitespace 54 2.3.1 Tham số tỉ lệ chồng lấp (giao nhau) hình chữ nhật trắng 54 2.3.2 Tham số khoảng trắng tối đa trang văn 56 2.4 Kết luận 68 CHƯƠNG 3: XÂY DỰNG CHƯƠNG TRÌNH VÀ THỰC NGHIỆM PHÂN TÍCH TRANG TÀI LIỆU 71 3.1 Yêu cầu hệ thống 71 3.2 Giới thiệu chương trình 71 3.2.1 Giao diện chương trình 72 3.2.2 Chức 72 3.3 Thực nghiệm 73 3.3.1 Dữ liệu 73 3.3.2 Giới thiệu độ đo PSET 73 3.3.3 Kết thực nghiệm thảo luận 76 TÀI LIỆU THAM KHẢO 88 DANH MỤC HÌNH ẢNH Hình 1.1: Sơ đồ tổng quan trình tạo ảnh tài liệu 14 Hình 1.2: Ví dụ ảnh tài liệu 14 Hình 1.3: Sơ đồ khối liệt kê nhiệm vụ xử lý ảnh tài liệu phân chia theo cấp bậc vùng ảnh 17 Hình 1.4: mơ chuỗi bước phân tích hình ảnh tài liệu phổ biến 19 Hình 1.5 Một hình ảnh nhị phân chữ "e" thực lên ON OFF điểm ảnh, ON điểm ảnh hiển thị "X"[15] 21 Hình 1.6: Sơ đồ OCR 22 Hình 1.7: Cấu trúc vật lý: c, d-Cấu trúc logic tài liệu 23 Hình 1.8: Ví dụ loại tài liệu có bố cục phức tạp 25 Hình 1.9: Sơ đồ nguyên lý hệ thống xử lý tài liệu[15] 25 Hình 1.10: a - Ảnh gốc b - Ảnh sau tách 27 Hình 1.11: Ví dụ ảnh tài liệu bị nghiêng góc độ 28 Hình 1.12: Ví dụ mô tả cấu trúc logic trang tài liệu[14] 29 Hình 2.1: Kết chiếu nghiêng theo phương ngang phương thẳng đứng trang tài liệu 32 Hình 2.2: Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang 33 Hình 2.3: Phép chiếu nghiêng theo phương ngang để phân đoạn ký tự từ 33 Hình 2.4: Kết thực thuật toán X-Y Cut 35 Hình 2.5: Lược đồ chiếu ngang dòng chữ nghiêng 36 - khó phân đoạn ký tự 36 Hình 2.6: Lược đồ chiếu đứng trang tài liệu bị nghiêng 37 Hình 2.7: Lược đồ chiếu đứng báo 37 Hình 2.8: Phương pháp Dostrum cho phân tích định dạng trang (a) Một phần nội dung văn gốc (b) Các thành phần lân cận gần xác định (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần từ xác định dòng văn 39 Hình 2.9: Kết thực kỹ thuật Smearing 41 Hình 2.10: Mơ tả thuật tốn Tách Nối thích nghi 44 Hình 2.11: Hình minh họa bước đệ quy thuật toán Cover khoảng trắng phân nhánh - giới hạn Xem giải thích nội dung văn 49 Hình 2.12: Áp dụng thuật tốn tìm kiếm dịng ràng buộc cho biến thức mơ trang 52 Hình 2.13: Fig 1.Mơ tả thuật tốn WCover [16] (a) hình bao hình chữ nhật, (b) điểm chốt tìm (c,d) miền trai/phải trên/dưới 54 Hình 2.14: Mơ hình dịng văn sử dụng tìm kiếm dịng ràng buộc 58 Hình 2.15: Minh họa tốn tìm kiếm dịng ràng buộc với trở ngại 59 Hình 2.16: Ví dụ kết đánh giá khoảng trắng để phát ranh giới cột tài liệu có bố cục phức tạp (các tài liệu A00C, D050, E002 từ sở liệu UW-III) Lưu ý bố cục phức tạp mô tả tập nhỏ dấu tách cột 63 Hình 3.1: Giao diện chương trình 72 Hình 3.2: Giao diện chức chương trình 72 Hình 3.3: Minh họa kiểu lỗi phân tích trang ảnh tài liệu 74 Hình 3.4: Ảnh số 0000085 tập ảnh UW-III 76 Hình 3.5: Giao diện kết thực nghiệm 77 Hình 3.6: Kết phân tách hình 0000085 – UW-III 77 Hình 3.7: Bảng kết thực nghiệm 79 Hình 3.8: Ảnh hưởng số lượng khoảng trắng tối đa đến kết Wcuts ageblock 80 Hình 3.9: Ảnh hưởng Max_results đến thời gian thực chương trình 80 Hình 3.10: Độ xác thuật tốn với độ đo PSET sử dụng tham số khoảng trắng 300 82 Hình 3.11: Vùng bị bỏ qua 83 Hình 3.12: Vùng bị phân tách thành phần nhỏ 83 Hình 3.13: Độ xác thuật toán với độ đo PSET sử dụng tham số tỉ lệ giao 95% 84 10 PHẦN MỞ ĐẦU Đặt vấn đề Hiện nay, hầu hết tài liệu người số hóa lưu trữ máy tính, việc số hóa đảm bảo tính an tồn thuận tiện hẳn so với sử dụng tài liệu giấy Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu số mục đích khơng thể thay hồn tồn (như sách, báo, tạp chí, cơng văn,…) Hơn nữa, lượng tài liệu tạo từ nhiều năm trước cịn nhiều mà khơng thể bỏ tính quan trọng chúng Việc chuyển đổi tài liệu điện tử sang tài liệu giấy thực dễ dàng cách in hay fax, công việc ngược lại chuyển từ tài liệu giấy sang tài liệu điện tử lại vấn đề không đơn giản Chúng ta mong muốn số hóa tất tài liệu, sách, báo lưu trữ chúng máy tính, việc tổ chức sử dụng chúng thuận tiện nhiều Vậy giải pháp gì? Cơng nghệ phát triển cách chóng mặt, máy scan với tốc độ hàng nghìn trang giờ, máy tính với cơng nghệ xử lí nhanh chóng xác cách siêu việt Vậy không quét trang tài liệu vào xử lý, chuyển chúng thành văn cách tự động? Nhưng vấn đề quét thu trang tài liệu dạng ảnh nên khơng thể thao tác, sửa chữa, tìm kiếm Office được, máy tính không phân biệt đâu điểm ảnh chữ đâu điểm ảnh đối tượng đồ họa Một giải pháp đưa xây dựng hệ thống nhận dạng chữ ảnh chứa chữ đối tượng đồ họa, sau chuyển thành dạng trang văn mở, soạn thảo trình soạn thảo văn Trong thực tế q trình nhận dạng có nhiều tham số ảnh hưởng đến kết chương trình nhận dạng nhiễu, Font chữ, kích thước 75 - Tập C gồm dòng văn không nhận (Missed detection) - Tập S gồm dòng văn bị tách (Split) Tập M gồm dòng văn bị gộp với (Merged) Khi đó, thước đo độ xác thuật tốn xác định cơng thức sau: Có năm kiểu lỗi xét đến độ đo : merge, split, miss/partial-miss, miss-classification Sau đó, kiểu lỗi định lượng ý nghĩa Có hai mức độ ý nghĩ lỗi : Độc lập với ngữ cảnh (implicit context-dependent) phụ thuộc vào ngữ cảnh (explicit context-independent) Cả hai mức độ ý nghĩa lỗi biểu diễn tập trọng số Trong luận văn này, ba ngữ cảnh đánh giá sử dụng thi phân tích trang, sử dụng thực nghiệm ; Segmentation performance, OCR evaluation, Text evaluation [14] - Segmentation performance : Các lỗi phân lớp sai bỏ qua hoàn toàn Các lỗi Miss partial-miss có trọng số cao thấp Các trọng số lỗi merge lỗi split 50%, lỗi false detection xem quan trọng có trọng số 10% - OCR evaluation : Cấu hình tương tự với cầu hình Segmentation performance lỗi phân loại sai chữ có trọng số cao tất trọng số phân loại sai khác có trọng số 10% - Text evaluation : Sử dụng cấu hình OCR evaluation tập trung vào text, bỏ qua phân non - text 76 - Lỗi Merge vùng kết giao với một vài vùng ảnh ground - truth - Lỗi Split : vùng ảnh ground - truth bị phân tách thành một vài vùng ảnh kết - Lỗi Miss Miss phần : vùng ảnh ground-truth bị qn hồn có phần bị qn - Lỗi False detection vùng kết khơng giao với vùng groundtruth - Lỗi Misclassification : Một vùng ảnh ground-truth giao với vùng ảnh khác kiểu 3.3.3 Kết thực nghiệm thảo luận Ảnh Tập liệu UWIII INPUT Tham số khoảng trắng Max_results thay đổi 10 - 1000 Tham số tỉ lệ giao obstacles thay đổi – 100% Hình 3.4: Ảnh số 0000085 tập ảnh UW-III 77 - Output: Hình 3.5: Giao diện kết thực nghiệm Sau thay đổi tham số khoảng trắng tối đa Max_results tăng dần khoảng từ 10 đến 1000 tập hợp kết lưu lại hình sau: Hình 3.6: Kết phân tách hình 0000085 – UW-III 78 Nhìn vào kết thực nghiệm ta dễ dàng nhận thấy số kết thu chiều cao trung bình ký tự (xheight), khoảng cách ký tự (char_spacing), khoảng cách từ (word_spacing), thành phần liên thông (CCs) không thay đổi số kết thay đổi khoảng trắng tìm (whitespace), Wcut, pageblock, time Cụ thể hình số 3.6 ta thấy: Max_results Kết Nhận xét whitespace = 150 150 Wcuts = Pageblock = Max_results = whitespace =150 Time = 9984 whitespace = 563 Khoảng trắng (whitespace) tìm nhỏ 600 Wcuts = số khoảng trắng tối đa cho phép tìm Pageblock = (Max_results) Time = 9984 (Max_results > whitespace) whitespace = 563 - Khoảng trắng tìm khơng thay đổi 1000 Wcuts = khoảng trắng cho phép tìm Pageblock = tiếp tục tăng lên Time = 10112 - Thời gian thực tăng lên 79 Hình 3.7: Bảng kết thực nghiệm 80 Với kết thu từ thực nghiệm ta biểu diễn biểu đồ sau: Mối quan hệ khoảng trắng tối đa khoảng trắng thật tìm thực chương trình Hình 3.8: Ảnh hưởng số lượng khoảng trắng tối đa đến kết Wcuts Pageblock Hình 3.9: Ảnh hưởng Max_results đến thời gian thực chương trình 81 Sau tăng dần số lượng khoảng trắng tối đa cho phép tìm (Max_results) lên đến ngưỡng kết phân tích tiến sát đến kết mong muốn (pageblock) có tăng thêm số lượng khoảng trắng tối đa cho phép tìm kết phân tích thay đổi khơng đáng kể chí cịn làm tăng thêm thời gian thực chương trình tốn dung lượng nhớ Căn vào kết thực nghiệm 50 trang tài liệu thuộc tập liệu UWIII thấy rằng: - Khoảng trắng tối đa cho trang tài liệu mà thuật tốn whitespace tìm thơng thường mức 600 Có trang tài liệu có khoảng trắng nhiều Tập trung chủ yếu mức từ 200 đến 400 khoảng trắng - Thơng thường cần tìm từ 200 - 300 khoảng trắng cho kết phân tách tốt Và dù có tăng số lượng khoảng trắng tối đa, tăng số lượng khoảng trắng tìm kết phân tách thay đổi khơng đáng kể - Thời gian thực chương trình cho trang ảnh tài liệu có số khoảng trắng từ 200 – 400 tương đối nhanh (dưới giây) Các trang ảnh tài liệu có số khoảng trắng lớn thường có khoảng thời gian thực chương trình lâu Vì lí ta nhận thấy tham số khoảng trắng tối đa Max_results = 300 phù hợp đảm bảo hài hòa cho kết phân tách tốt, thời gian thực chương trình nhanh 82 Hình 3.10: Độ xác thuật toán với độ đo PSET sử dụng tham số khoảng trắng 300 Tương tự tham số khoảng trắng Max_results tham số tỉ lệ giao obstacles thay đổi từ đến 100% không làm ảnh hưởng đến kết chiều cao trung bình ký tự (xheight), khoảng cách ký tự (char_spacing), khoảng cách từ (word_spacing), thành phần liên thông (CCs) mà làm thay đổi khoảng trắng tìm (whitespace), Wcut, pageblock, time Qua quan sát trực quan ta thấy để tỉ lệ giao obstacles nhỏ khơng cho kết phân tách với độ xác khơng cao, dễ dàng để sót nhiều khoảng trắng Biểu diễn kết thực nghiệm biểu đồ ta thấy tăng tỉ lệ giao obstacles có nghĩa obstacles (hình bao quanh đối tượng) tiến sát đến trùng Hay nói khác tỉ lệ giao 100% obstacles trùng làm thuật toán thực bị lặp vô hạn Vậy vấn đề đặt tỉ lệ giao obstacles cho độ xác cao nhất? Nếu tỉ lệ giao thấp nhiều trường hợp trang tài liệu chia thành vùng tương đối lớn bỏ qua vùng nhỏ dẫn tới kết độ xác thuật tốn khơng cao 83 Hình 3.11: Vùng bị bỏ qua Ngược lại thỉ lệ giao cao làm cho trang ảnh tài liệu bị phân tách thành phần nhỏ Hình 3.12: Vùng bị phân tách thành phần nhỏ 84 Hình 3.13: Độ xác thuật tốn với độ đo PSET sử dụng tham số tỉ lệ giao 95% Như tỉ lệ 95% giao obstacles cho kết độ xác thuật tốn cao 85 KẾT LUẬN Dù nghiên cứu nhiều năm toán phân tách trang ảnh tài liệu vấn đề quan trọng thời sự thay đổi đa dạng cấu trúc đặc trưng văn Hiện hàng năm có thi quốc tế phân tích trang tài liệu tổ chức thường niên năm lần Ta thấy thuật toán whitespace thuật tốn tương đối tiếng đơn giản lại hiệu việc phát trang ảnh có mã nguồn mở OCROpus Hiện có nhiều thuật tốn sử dụng bước để phát triển thuật toán Cho nên việc tiếp tục nghiên cứu tiến vấn đề có ý nghĩa thực tiễn Các thuật toán phân tách trang phụ thuộc nhiều vào kết trình lọc khoảng trắng, chỉnh góc nghiêng, tức tham số điều kiện để định khoảng trắng có giữ lại hay khơng, góc nghiêng có phù hợp hay khơng Trong luận văn này, tập trung nghiên cứu “Đánh giá ảnh hưởng tham số đến kết phân tách thuật tốn WhiteSpace” với mục đích lựa chọn tham số phù hợp nhằm phát huy điểm mạnh khắc phục nhược điểm thuật toán Kết đạt được: * Về mặt lý thuyết, luận văn trình bày nội dung sau: - Trình bày tổng quan, hướng tiếp cận phân tách tách trang ảnh tài liệu - Trình bày thuật toán Whitespace, Độ đo PSET, liệu UW-III * Về mặt thực nghiệm, luận văn thu kết quả: - Giới thiệu chương trình, cài đặt thành cơng chương trình tách phân tách trang ảnh tài liệu 86 - Thực nghiệm 50/1600 ảnh tập tài liệu UW-III, thực nghiệm với độ đo PSET - Vẽ biểu đồ ảnh hưởng tham số từ kết thu trình thực nghiệm - Đánh giá lựa chon tham số có độ xác tốt nhất: tỉ lệ khoảng trắng whitespace 300, tỉ lệ giao obstacles 95% Do nhiều hạn chế kiến thức, kinh nghiệm thân thời gian thực hiện, luận văn khơng tránh khỏi thiếu sót Rất mong nhận ý kiến đóng góp thầy bạn để hoàn thiện 87 HƯỚNG PHÁT TRIỂN Trong q trình nghiên cứu tơi thấy thuật tốn whitespace thuật tốn phát trang tài liệu tốt Nó sử dụng rộng rãi bước để phát triển thuật toán Và qua trình nghiên cứu tơi thấy cần nghiêm cứu thêm số nội dung sau: - Mối quan hệ tham số -Tăng tốc thuật toán -Tiếp tục đánh giá tập liệu khác PRImA, tập liệu chữ Việt, tập liệu chữ tượng hình (Nhật, Trung Quốc…) -Hiệu chỉnh chương trình chạy tốt 88 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Ngô Quốc Tạo (2008) Xử lý nhận dạng ảnh : Bài giảng cao học, Viện Công nghệ Thông tin Hà Nội [2] Lương Mạnh Bá, Ngô Thanh Thủy(1999), Nhập môn xử lý ảnh số : Nhà xuất khoa học kỹ thuật, Hà Nội Chương 4, Tr 83-87 [3] Hà Đại Tôn, Nguyễn Đức Dũng, et al Tham số tự cho toán phân tách trang ảnh tài liệu Tạp chí khoa học cơng nghệ - Tập 120 số 6, 2014 [4] Lê Đức Hiếu (2012), “Ứng dụng số kỹ thuật xử lý ảnh phân tích chứng minh nhân dân”, Luận văn thạc sĩ Công nghệ Thông tin, trường Đại học Công nghệ [5] Đồn Duy Thường (2014), Nghiên cứu phương pháp phân tích cấu trúc ảnh màu, ứng dụng nhận dạng chứng minh nhân dân, Luận văn thạc sĩ Khoa học máy tính, trường Đại học Thái Ngun, trường Đại học Cơng nghệ thông tin truyền thông Tiếng Anh [6] Breuel, T.M, Two geometric algorithms for layout analysis In Document Analysis Systems, Princeton, NY, pp.188–199, Aug 2002 [7] Sadhana: Document image analysis: A primer, India, pp 3-7 (2002) [8].Anoop M Namboodiri and Anil K Jain, Document Structure and Layout Analysis, Michigan State University, East Lansing, MI-48824, USA, pp 31-34, 38 [9].Jiming Lui, Yuan Y Tang, Ching Y Suen (1997), Chinese document layout analysic based on adaptive Split-and-Merge and qualitation spatial reasoning, Elsevier Science, Oxford, ROYAUME-UNI, pp 4-9 89 [10] Song Mao and Tapas Kanungo Software architecture of pset : A page segmentation evaluation toolkit International Journal on Document Analysis and Recognition, 4(3) :205–217, 2002 [11] Christian Clausner, Stefan Pletschacher, and Apostolos Antonacopoulos Scenario driven in-depth performance evaluation of document layout analysis methods In 2011 International Conference on Document Analysis and Recognition, pages 1404–1408 IEEE, 2011 [12] Lawrence O’Gorman The document spectrum for page layout analysis IEEE Transactions on Pattern Analysis and Machine Intelligence, 15(11) :1162– 1173, 1993 [13] Raymond W Smith Hybrid page layout analysis via tab-stop detection In 2009 10th International Conference on Document Analysis and Recognition, pages 241–245 IEEE, 2009 [14] Wong, K.Y., Casey, R.G., Wahl, F.M.: Document analysis system IBM Journal of Research and Development 26 (1982) 647–656 [15] Kise, K and Sato, A and Iwata, M.: “Segmentation of Page Images using the Area Voronoi Diagram”, Computer Vision and Image Understanding 70 (1998), 370-382 [16] O’Gorman, L.: The Document Spectrum for Page Layout Analysis IEEE Transactions on Pattern Analysis and Machine Intelligence 15 (1993), 1162-1173 [17] G Nagy, S Seth and M Viswanathan, "A Prototype Document ImageAnalysis System for Technical Journals", Computer 25, (1992), 10–22 ... vùng trắng tối đa thuật toán phân tách trang tài liệu WhiteSpace, trình thực nghiệm số kết đạt 31 CHƯƠNG ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE 2.1 Các... 1.3.2 Phân tích cấu trúc vật lý 27 1.3.3 Phân tích cấu trúc logic: 29 1.4 Kết luận 30 CHƯƠNG 2: ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE. .. quan phân tích trang tài liệu Chương 2: Đánh giá ảnh hưởng tham số đến kết phân tách thuật toán WhiteSpace Chương 3: Cài đặt chương trình Demo đánh giá kết 14 CHƯƠNG TỔNG QUAN VỀ PHÂN TÍCH ẢNH