Nghiên cứu phương pháp tìm kiếm văn bản trong hình ảnh tài liệu (tóm tắt luận văn thạc sĩ )

25 5 0
Nghiên cứu phương pháp tìm kiếm văn bản trong hình ảnh tài liệu (tóm tắt luận văn thạc sĩ )

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

-1- HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - LẠI QUỐC ANH NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 -2- Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS Ngô Quốc Tạo Phản biện 1: ……………………………………………………………… Phản biện 2: ……………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông -3- MỞ ĐẦU Hiện công nghệ đại giúp giảm tải trình xử lý, lưu trữ, truyền tải hình ảnh tài liệu hiệu Các cơng ty thường phát triển hướng đến văn phịng khơng cần giấy tờ, số lượng lớn tài liệu in số hố lưu trữ hình ảnh sở liệu Sự phổ biến, tầm quan trọng hình ảnh tài liệu nguồn thơng tin gốc Hàng triệu tài liệu kỹ thuật số truyền tải liên tục từ điểm đến điểm khác Internet Định dạng phổ biến tài liệu kỹ thuật số văn bản, ký tự mã hố máy hiểu Mặt khác, để thực cho hàng tỷ tài liệu truyền thống di sản sẵn dàng tiếp cận Internet, chúng quét chuyển đổi sang kỹ thuật số hố hình ảnh cách sử dụng thiết bị số hóa Mặc dù cơng nghệ xử lý hình ảnh tài liệu DIP sử dụng để tự động chuyển đổi hình ảnh kỹ thuật số tài liệu định dạng văn mà máy đọc được, cách sử dụng cơng nghệ Nhận dạng ký tự quang học OCR, thường cách hiệu thiết thực để xử lý số lượng lớn tài liệu giấy Một lý kỹ thuật phân tích cấu trúc trang xử lý văn với bố trí phức tạp chưa hồn thiện đầy đủ Một lý khác khả nhận dạng công nghệ OCR kém, đặc biệt với hình ảnh tài liệu có chất lượng (giấy in chất lượng, trang in sau bị hằn lên trang trước, tài liệu photo kém, mực in kém, chữ nét, in chữ bị dính, ) Nhận dạng xong sửa chữa kết OCR thường tránh khỏi hầu hết hệ thống DIP Kết quả, lưu trữ tài liệu định dạng hình ảnh truyền thống di sản sẵn có trở thành giải pháp thay nhiều trường hợp Ngày nay, tìm thấy Internet nhiều tài -4liệu kỹ thuật số định dạng ảnh, bao gồm giấy tờ tạp chí, hội nghị, luận án sinh viên, sổ tay, Hơn nữa, nhiều thư viện kỹ thuật số cổng web MEDLINE, ACM, IEEE, lưu giữ hình ảnh tài liệu qt mà khơng có định dạng văn tương đương Yêu cầu đặt cho người sử dụng tìm kiếm thông tin lưu trữ theo nội dung cách hiệu ? Trên sở em chọn đề tài "Nghiên cứu tìm kiếm văn hình ảnh tài liệu" Cấu trúc đề tài luận văn Chương 1: Tổng quan tìm kiếm văn hình ảnh tài liệu - Trình bày giới thiệu, thách thức hệ thống hệ truy vấn thơng tin từ hình ảnh tài liệu, khái quát xử lý ảnh Chương 2: Các phương pháp trích chọn đặc trưng từ hình ảnh tài liệu - Trình bày phương pháp trích chọn đặc trưng từ hình ảnh tài liệu Chương 3: Các phương pháp so sánh hình ảnh từ - Trình bày phương pháp so sánh hình ảnh từ dựa hình ảnh tài liệu Chương 4: Chương trình thử nghiệm tìm kiếm văn hình ảnh tài liệu sở lý thuyết xây dựng -5- CHƯƠNG - TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN TRONG HÌNH ẢNH TÀI LIỆU 1.1 Giới thiệu Tài liệu, Văn bản, Fax, Máy quét ảnh, máy ảnh, Hình ảnh Tài liệu, Văn bản, Fax, Tiền xử lý ảnh Người sử dụng Đưa từ khố Trích chọn thành phần kết nối Trích chọn đặc trưng   Sử dụng phương pháp so sánh hình ảnh từ Gắn cho hình ảnh từ Trích chọn đặc trưng Đưa kết Hình 1.1: Sơ đồ khối hệ thống duyệt từ khố cho hình ảnh tài liệu 1.2 So sánh truy vấn từ tài liệu thu thập Nhiều thư viện kỹ thuật số nay, hình ảnh tài liệu dùng phổ biến nguồn thơng tin Do truy cập vào -6các nội dung sở liệu hình ảnh tài liệu quan trọng thách thức tốn xử lý hình ảnh tài liệu Hai hướng truy vấn không nhận dạng truy vấn dựa nhận dạng Truy vấn dựa OCR liệu hình ảnh ký tự quét vào lỗi lớn 5% Nhưng với phần lớn tài liệu cũ, photocopy nhiều lần, Fax chất lượng khơng OCR Q trình xử lý hướng đến truy vấn không OCR Như tuỳ theo mức độ hình ảnh tài liệu khác nhau, chữ viết tay, in ấn, báo chí, lựa chọn hướng truy vấn phù hợp Phương pháp N-Gram xây dựng lược đồ lập mục hình ảnh tài liệu dựa lược đồ hàm băm nội dung yếu Đặc trưng ảnh cụ thể là, mật độ chiều dọc (VTD), mật độ chiều ngang (HTD), trích chọn Một vector n-gram xây dựng cho tài liệu dựa đặc trưng Văn tương tự tài liệu sau đo cách tính toán điểm vector tài liệu Phương pháp đối sánh đặc trưng khơng xác, so sánh chuỗi để lập mục liên quan đến nhiều tốn ký tự nhân tố truy vấn hình ảnh tài liệu Hình ảnh từ biểu diễn chuỗimẫu, kỹ thuật so sánh phần hình ảnh từ để đánh giá hình ảnh từ liên quan đến hình ảnhtừ khác định liệu từ có phần từ khác Phương pháp xoắn thời gian động DTW sử dụng cho đối sánh truy vấn hình ảnh tài liệu chữ viết tay Thuật tốn tìm từ dựa DTW cho lập mục truy vấn tài liệu trực tuyến Đối sánh hình ảnh từ chữ viết tay sử dụng đặc trưng mã hố nhị -7phân gradient Rút trích đặc trưng nhị phân, độ đo tương tự dựa tương quan sử dụng cho hình ảnh đối sánh từ Những khó khăn việc đối sánh ảnh từ tài liệu in ấn sau: - Ngôn ngữ: Mỗi ngơn ngữ có quy ước riêng, phụ thuộc vào biến đổi hình thái từ tạo - Chất lượng in ấn: Tài liệu in ấn thường có chất lượng Mẫu in thực tế, từ thường bị nét, hay nét dầy từ dính nhau, hay có nhiễu dính xung quanh từ, 1.3 Những thách thức cho truy vấn thông tin từ hình ảnh tài liệu chữ in Hầu hết sách in, tài liệu, tờ báo, lưu trữ thư viện số hố có chất lượng kém, nhiều dạng in ấn, mẫu từ khác Lập mục truy vấn hình ảnh tài liệu có thách thức lớn tình 1.3.1 Mơ hình chất lượng tài liệu chữ in Một số lỗi thường xuất tài liệu in ấn như: mực in tạo thành đốm nhiễu ký tự, nét chữ, dính chữ, chữ in bị đậm hằn lên trang trước, nguyên nhân chất lượng giấy mực in Mơ hình chất lượng tài liệu dễ dàng cho kiểm tra thực lược đồ đối sánh 1.3.2 Ngôn ngữ Các ngôn ngữ khác có quy tắc ngơn ngữ riêng cho hình thành từ Trên sở quy tắc, từ với nghĩa tương tự xuất hình thức khác văn Ngơn ngữ -8tiếng Anh đánh giá cao sử dụng tiền tố, hậu tố cho mẫu từ diễn đạt mối quan hệ ngữ pháp 1.4 Một số khái niệm sở xử lý ảnh 1.4.1 Ảnh số   Trong thực tế ảnh liên lục không gian độ sáng Để xử lý máy tính ảnh phải số hóa Số hóa ảnh biến đổi gần ảnh liên tục thành tập điểm phù hợp với ảnh thật vị trí độ sáng   1.4.2 Ảnh biểu diễn theo mơ hình Raster Đây mơ hình biểu diễn ảnh thơng dụng Ảnh biểu diễn dạng ma trận điểm ảnh 1.4.3 Ảnh biểu diễn theo mơ hình Vector Trong mơ hình Vector người ta sử dụng hướng Vector điểm ảnh lân cận để mã hoá tái tạo hình ảnh ban đầu 1.4.4 Độ phân giải ảnh Độ phân giải số lượng điểm ảnh (pixel) dùng để tập hợp thành hình ảnh Số lượng điểm ảnh nhiều nhỏ độ nét chi tiết ảnh cao 1.4.5 Mức xám ảnh Kết mã hoá tương ứng cường độ sáng điểm ảnh với giá trị số - kết trình lượng hoá 1.5 Một số kỹ thuật nâng cao chất lượng ảnh 1.5.1 Lọc nhiễu -91.5.1.1 Các loại nhiễu Các tín hiệu nhiễu thường chia thành loại sau: Nhiễu thiết bị thu nhận ảnh loại nhiễu gây giới hạn nhiễu xạ quang sai thấu kính, nhiễu phận cảm quang, ảnh mờ nhịe ống kính, nhiễu rung động thiết bị trình thu nhận Nhiễu ngẫu nhiên độc lập loại nhiễu gây ảnh hưởng môi trường xung quanh, ảnh hưởng khí Nhiễu vật quan sát Đây nhiễu gây bề mặt thân vật có độ nhám gồ ghề Chính nhiễu gây tượng tán xạ tia đơn sắc sinh tượng nhiễu lốm đốt 1.5.1.2 Lọc nhiễu lốm đốm: Mơ hình quan sát có nhiễu lốm đốm sau: wN[m,n]= z[m,n] +ηN[m,n] (1.1) Trong cơng thức 1.5 ηN[m,n] nhiễu trắng dừng Với N≥2 ηN[m,n] mô tả gắn với nhiễu ngẫu nhiên Gauusian với mật độ phổ định nghĩa sau: S ηN (ξ1, ξ2)= σ2 = π! /6          N = (1.2) 1/N                N > 1.5.2 Hiệu chỉnh góc nghiêng trang văn Trong q trình thu thập, ảnh bị nghiêng cần phải chỉnh độ nghiêng ảnh xác định góc nghiêng xoay ảnh trở lại ảnh gốc - 10 1.5.2.1 Phương pháp dựa biến đổi Hough Biến đổi Hough phép biến đổi điểm ảnh từ hệ tọa độ x-y sang hệ tọa độ ρ-θ hữu ích cho việc dị tìm đường thẳng ảnh thích hợp cho việc xác định góc nghiêng ảnh có chứa thành phần dịng văn 1.5.2.2 Phương pháp láng giềng gần Phương pháp dựa nhận xét trang văn bản, khoảng cách kí tự từ kí tự từ dòng nhỏ khoảng cách hai dịng văn bản, kí tự, láng giềng gần kí tự liền kề dòng văn 1.5.2.3 Phương pháp sử dụng chiếu nghiêng Dựa vào hình chiếu ngang/dọc ảnh để tìm góc nghiêng 1.6 Kết luận Chương đưa khái niệm tổng quan hệ thống truy vấn từ dựa hình ảnh tài liệu Giới thiệu sơ qua số phương pháp trích chọn đặc trưng hình ảnh, đối sánh hình ảnh từ (NGram, đối sánh đặc trưng chuỗi khơng xác, DTW).Các khái niệm sở xử lý ảnh Các khái niệm nâng cao chất lượng ảnh xoá nhiễu, hiệu chỉnh độ nghiêng ảnh   - 11 - CHƯƠNG - CÁC PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG TỪ HÌNH ẢNH TÀI LIỆU Trích chọn đặc trưng tốn thu thập thơng tin từ liệu thô, phù hợp cho ứng dụng định Trích chọn đặc trưng trích chọn thơng tin hữu ích từ hình ảnh tài liệu Bộ nhớ giảm tải cần lưu giữ thông tin cần thiết, tạo cho hệ thống trở nên nhanh truy tìm tài liệu hiệu Khi nhiều đặc trưng trích chọn lưu sở liệu để sử dụng cho công việc sau Số lượng thơng tin hữu ích mà máy tính lấy từ hình ảnh yếu tố quan trọng định tính thơng minh, hiệu hệ thống truy tìm hình ảnh Nhiều đặc trưng khác sử dụng xử lý ảnh nhận dạng mẫu (đại diện hình ảnh tài liệu) Thử nghiệm với đặc trưng: cấu hình từ, mô tả moment bất biến thống kê, biểu diễn miền biến đổi, sử dụng phép chiếu ngang, biểu diễn đặc trưng hình ảnh từ 2.1 Cấu hình từ Cung cấp biểu diễn thơ hình ảnh từ đối sánh Phép chiếu, chuyển vị, thấp cấu hình đặc trưng xem xét biểu diễn cho hình ảnh từ 2.2 Mơ tả moment bất biến thống kê Các đặc trưng dựa vào moment tính tốn để phân tích hình dạng hình ảnh từ, u cầu moment có thơng tin khác cho hình ảnh - 12 2.3 Biểu diễn miền biến đổi Sử dụng Fourier rời rạc để mơ tả biểu diễn hình dạng từ N Fourier mô tả: G(i), i=0,1,2, ,N-1 độ dài theo chiều dọc hình ảnh từ, N độ rộng từ 2.4 Sử dụng phép chiếu ngang Chia hình ảnh tài liệu thành nhiều vùng hình chữ nhật, vùng biểu diễn cho dòng văn Các thành phần kết nối vùng khác phụ thuộc vào đối tượng ký tự khác Tuỳ thuộc vào đặc trưng, đối tượng ký tự phân lớp dựa độ đo khoảng cách Đối với hai đối tượng ký tự i j, khoảng cách Dij định nghĩa đây; Dij = diff(HTDi, HTDj) + diff(VTDi, VTDj), (2.1) diff(Vi, Vj) hàm tính tốn khoảng cách hai vector Vi Vj Hình 2.1 (a) Ảnh gốc, (b) đối tượng ký tự nhận biết đánh dấu hình hộp, (c) gắn số lớp cho đối tượng ký tự, (d) tập hợp tất lớp đối tượng tìm thấy ảnh gốc - 13 2.5 Mơ tả chuỗi đặc trưng cho hình ảnh từ Các đặc trưng sử dụng biểu diễn cho hình ảnh từ LRPS, chuỗi mã hố trình tự từ tận bên trái đến bên phải từ Đặc trưng dòng, mật độ ký tự sử dụng để trích chọn từ hình ảnh ban đầu Một từ in tài liệu có kích cỡ, phơng chữ, khoảng cách khác nhau, xem xét trích chọn đặc trưng 2.5.1 Biểu diễn đặc trưng LRPS Từ phân tách cách rõ ràng, từ tận bên trái đến bên phải, thành phần rời rạc Mỗi phần ban đầu biểu diễn thuộc tính xác định Một p ban đầu mô tả cách sử dụng (𝜎, 𝜔), 𝜎 đặc trưng LTA ban đầu, 𝜔 đặc trưng phần đầu, phần thấp ký tự ADA Kết quả, hình ảnh từ biểu diễn dãy P sau: P==, (2.2)   Hình 2 Chuỗi trích chọn ban đầu, hình ảnh từ trích chọn từ hình ảnh tài liệu chứa thông tin baseline, x-line, đường biên - 14 (top boundary), đường biên (bottom boundary) (a) đặc trưng đường nét thẳng, (b) phần lại (a), (c) đường ngang TN=2, (d) đường ngang TN=4, (e) đường ngang TN=6 2.5.2 Tính đặc trưng đường nét thẳng đường ngang (LTA) Tính LTA gồm bước Bước trích chọn đặc trưng đường nét thẳng hình ảnh từ (Hình 2.2a) Bước có đường nét dọc, đường nét chéo trích chọn Sau đó, đặc trưng đường ngang phần cịn lại tính tốn 2.5.2.1 Đặc trưng đường nét thẳng Phương pháp run-lenght-based sử dụng trích chọn đường nét thẳng hình ảnh từ Sử dụng R(a,𝜃) biểu diễn cho hướng chạy, định nghĩa tập hợp điểm ảnh kết nối màu đen có chứa điểm a, dọc theo hướng qui định 𝜃 𝑅(𝑎, 𝜃) độ dài khoảng chạy R(a,  𝜃), số điểm điểm đen khoảng chạy 2.5.2.2 Đặc trưng đường ngang Để trích chọn đặc trưng đường ngang, quét hình ảnh từ cột theo cột, số đường ngang TN ghi lại cách đếm số lượng trình chuyển đổi từ điểmảnh màuđen đến điểm ảnh màu trắng, ngược lại, dọc theo cột 2.5.3 Hậu xử lý Để để đối phó với phơng chữ khác nhau, chuỗi gốc nên có kiểu chữ độc lập.Trong số phơng chữ khác nhau, khác biệt đáng kể ảnh hưởng đến trích chọn LRPS biểu - 15 diễn font serif, đặc biệt phần thể đặc trưng đường ngang 2.6 Kết luận Trong chương giới thiệu đặc trưng trích chọn hình ảnh tài liệu như: cấu hình từ, mô tả moment bất biến thống kê, biểu diễn miền biến đổi, sử dụng phép chiếu ngang, mô tả chuỗi đặc trưng cho hình ảnh từ - 16 - CHƯƠNG - CÁC PHƯƠNG PHÁP SO SÁNH HÌNH ẢNH TỪ Việc tìm kiếm tài liệu thực thuật tốn so sánh hình ảnh truy vấn với tất hình ảnh có sở liệu Thực so sánh tốt đạt kỹ thuật xếp tìm kiếm so sánh tốt cặp truy vấn hình ảnh từ tham chiếu Cơng việc thuật toán so sánh đặc trưng với đặc trưng xử lý, đánh số sở liệu Độ đo tương tự tính tốn từ vector đặc trưng hình ảnh truy vấn với vector đặc trưng khác tất hình ảnh sở liệu việc sử dụng độ đo khoảng cách Kết ảnh xếp dựa độ đo khoảng cách 3.1 Thuật tốn DTW DTW sử dụng để tính tốn khoảng cách hai chuỗi thời gian Một chuỗi thời gian danh sách mẫu lấy từ tín hiệu, xếp theo mẫu tương ứng biểu diễn thành dãy số thực, thí dụ T = t1,…tn Thuật tốn sử dụng đặc trưng trích trọn cấu hình từ, mơ tả moment bất biến thơng kê, mô tả miền biến đổi mục 2.1, 2.2, 2.3 Sắp xếp tập vector đặc trưng tính tốn độ đo tương tự Cho hai hình ảnh từ biểu diễn vetor đặc trưng tuần tự: G = G1, G2,…,GM, H = H1, H2,…HN - 17 Giá trị trị DTW hai dãy D(M,N), M, N độ dài hai dãy Tính tốn sau: D(i, j) = 𝐷(𝑖 − 1, 𝑗 − 1) 𝐷(𝑖, 𝑗 − 1) + 𝑑(𝑖, 𝑗) 𝐷(𝑖 − 1, 𝑗) (3.1) d(i, j) giá trị xếp phần tử thứ i  ∈G với phần tử thứ j  ∈H Đường xoắn tối ưu (optimal warping path -OWP) giá trị nhỏ khoảng cách tối thiểu, số tất đường không gian đối sánh DTW, D(0, 0) đến D(M, N) với độ dài L Định nghĩa sau: OWP (G, H) = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝑖 𝑐𝑜𝑠𝑡(𝑊! ) (3.2) Hình 3.1 Các từ đối sánh sử dụng DTW a) Sắp xếp theo cấu hình từ phía hai từ tiếng Anh, b) đường đối sánh tối ưu 3.2 Thuật tốn N-Gram Thuật tốn trích chọn đặc trưng sử dụng phép chiếu ngang mục 2.4 Đánh giá giống văn điện tử Ngram chuỗi n ký tự liên tiếp Một chuỗi n-gram thu cách trượt ký tự phía trước cửa sổ độ rộng nmục văn thời điểm Một bảng hàm băm tạo - 18 để gán số cho n-gram đặc trưng, theo dõi tần suất xuất tất n-gram đặc trưng giống hình ảnh tài liệu m n xác định sau: Similarity(Xm,Xn) = ! !!! !!" !!" ! ! !!! !!" ! ! !!! !!" (3.3) Xm, Xn vectơ tài liệu hình ảnh m n, j số chiều vectơ tài liệu Xi=xi1xi2 xiJ Như văn tương tự ảnh tương ứng với đối tượng ký tự Một n-gram n đối tượng ký tự liên tiếp xác định dựa trích chọn đặc trưng mơ tả ban đầu 3.3 Phương pháp đối sánh đặc trưng khơng xác Hai vấn đề truy xuất hình ảnh tài liệu: tìm kiếm đo độ tương tự tài liệu Đầu tiên, hình ảnh từ biểu diễn chuỗi khởi tạo Sau đó, kỹ thuật đối sánh chuỗi khơng xác sử dụng để đo lường giống hai chuỗi khởi tạo tạo từ hai hình ảnh từ Chuỗi gốc A có độ dài n chuỗi gốc B có độ dài m, V(i, j) giá trị đo tương tự tiền tố [a1, a2, ,ai] [b1,b2, bj] Độ giống A B biểu diễn giá trị V(n, m).Sự giống hai chuỗi A B tính tốn lập trình động với phép truy hồi Các điều kiện sở: ∀i, j: 𝑉(𝑖, 0)   =  0 𝑉(0, 𝑗)   =  0 (3.4) Mối liên hệ phép truy hồi là: ≤ 𝑖 ≤ 𝑛, ≤ 𝑗 ≤ 𝑚: - 19 𝑉(𝑖 − 1, 𝑗 − 1)   + 𝜖(𝑎! , 𝑏! ) V(i, j) = max 𝑉 𝑖 − 1, 𝑗 + 𝜇 𝑎! , − 𝑉(𝑖, 𝑗 − 1) + 𝑣(−, 𝑏! ) (3.5) Kết luận Trong chương giới thiệu thuật tốn tương ứng đặc trưng trích chọn chương như: DTW, N-Gram, so sánh đặc trưng khơng xác - 20 - CHƯƠNG - CHƯƠNG TRÌNH THỬ NGHIỆM 4.1 Mơi trường cài đặt - Hệ thống đề xuất cài đặt với giúp đỡ cơng cụ lập trình Visual Studio 2010 phát triển dựa Microsoft.NET Framework 3.5 - Ngôn ngữ lập trình C# - Dữ liệu ảnh 100 ảnh tham khảo từ trang http://orpheus.ee.duth.gr/irs2_5/ Sau đó, ảnh tiền xử lý đẩy vào cở sỡ liệu - Cở sở liệu sử dụng Microsoft SQL Server 2008 - Chương trình thử nghiệm máy PC, tốc độ 3,4GHz, nhớ RAM 1,0 GB - 21 4.2 Sơ đồ chức Tài liệu, Văn bản, Fax, Máy quét ảnh, máy ảnh, Interrnet Dữ liệu hình ảnh tài liệu, Văn bản, Fax, Người sử dụng Tiền xử lý ảnh Đưa từ khố Rút trích thành phần kết nối Gắn cho hình ảnh từ Trích chọn đặc trưng Trích chọn đặc trưng Cơ sở liệu Đưa kết Sử dụng phương pháp so sánh hình ảnh từ - 22 4.3 Giao diện chương trình Hình 1.Giao diện chương trình với phần cửa sổ nhập từ cần truy vấn Hình 2.Hiển thị kết hình ảnh chứa từ cầm tìm kiếm - 23 -   Hình 3.Hiển thị từ tìm kiếm hình ảnh 4.3 Một số kết + Đánh giá độ xác tìm kiếm văn hình ảnh tài liệu sử dụng: + Độ xác (Precision) + Khả phản hồi (Recall) + Thước đo hiệu (F-measure): 𝐹 =   ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 4.4 Đánh giá + Độ xác (Precision) khoảng 89,09 - 99,36% + Khả phản hồi (Recall) khoảng 85.67 - 99.19% + Độ xác (Precision): 97.08 Khả phản hồi (Recall): 93.94%, tương ứng với Thước đo hiệu (Fmeasure) tốt là: 0.9548 - 24 4.5 Kết luận Trong trình nghiên cứu thực luận văn, tơi nhận thấy đạt số kết sau: + Nắm bắt bước hệ thống tìm kiếm văn hình ảnh tài liệu, hiểu khái niệm xử lý ảnh Thấy vai trò quan trọng xử lý ảnh hệ tìm kiếm, bước tiền xử lý nhằm nâng cao chất lượng ảnh + Tìm hiểu số thuật tốn xử lý ảnh hay dùng bước tiền xử lý ảnh, chỉnh độ nghiêng trang văn bản, xoá nhiễu Trên cở sở hiểu biết vận dụng vào tốn khác + Tìm hiểu tổng qt hố phương pháp trích chọn đặc trưng hình ảnh tài liệu, nắm phương pháp so sánh hình ảnh từ tương ứng Từ đưa giải pháp cho toán đặt luận văn + Đã áp dụng thành công kiến thức tìm hiểu vào cài đặt thử nghiệm chương trình tìm kiếm văn hình ảnh tài liệu Kết chương trình đạt tốt áp dụng vào thực tế Đây tốn khó, chưa có giải pháp khác - 25 đưa gia để giải tốn Đó đóng góp lớn luận văn Tuy nhiên, thời gian làm luận văn hạn chế, khối lượng công việc lớn nên nhiều vấn đề tồn chưa giải quyết: + Chương trình dừng lại bước thử nghiệm, chưa phải chương trình hồn chỉnh, đầy đủ tính Hướng phát triển là, tiếp tục nghiên cứu hồn thiện chương trình để áp dụng vào thực tế Mở rộng tính chương trình (như thêm phần nhận dạng, ) để thành chương trình hồn chỉnh ... bày phương pháp so sánh hình ảnh từ dựa hình ảnh tài liệu Chương 4: Chương trình thử nghiệm tìm kiếm văn hình ảnh tài liệu sở lý thuyết xây dựng -5- CHƯƠNG - TỔNG QUAN VỀ TÌM KIẾM VĂN BẢN TRONG. .. quát xử lý ảnh Chương 2: Các phương pháp trích chọn đặc trưng từ hình ảnh tài liệu - Trình bày phương pháp trích chọn đặc trưng từ hình ảnh tài liệu Chương 3: Các phương pháp so sánh hình ảnh từ... văn hình ảnh tài liệu" Cấu trúc đề tài luận văn Chương 1: Tổng quan tìm kiếm văn hình ảnh tài liệu - Trình bày giới thiệu, thách thức hệ thống hệ truy vấn thơng tin từ hình ảnh tài liệu, khái

Ngày đăng: 02/06/2021, 22:17

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan