Những thách thức trong thiết kế và thực thi hệ thống tìm kiếm ảnh tài liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 30)

5. Phương pháp nghiên cứu

1.4. Những thách thức trong thiết kế và thực thi hệ thống tìm kiếm ảnh tài liệu

tài liệu

Những tài liệu phức tạp đưa ra nhiều thách thách lớn trong lĩnh vực nhận dạng tài liệu và tìm kiếm ảnh. Để thiết kế và thực thi thành công một cơ chế tìm kiếm trong lĩnh vực về ảnh, chúng ta cần đề cập những vấn đề sau:

1.4.1.Tốc độ tính toán

Thực hiện công việc tìm kiếm từ tập dữ liệu ảnh lớn thông qua nhiều bước như xử lý ảnh sơ bộ, trích chọn đặc trưng, đối sánh và lấy tài liệu. Mỗi bước có thể mất nhiều thời gian tính toán. Do đó cần phải sử dụng những thao tác tối ưu trong suốt quá trình truy vấn.

1.4.2.Các tài liệu kém chất lượng

Nguyên nhân dẫn đến chất lượng của ảnh tài liệu bị giảm thường là: -Những vết mực lớn dính lên các chữ cái hoặc các thành phần khác.

-Mực in tạo thành các đốm nhiễu tại các ký tự, mất nét chữ, dính chữ, chữ in bị đậm hằn lên trang trước...nguyên nhân do chất lượng kém của giấy và mực in.

Thiết kế một lược đồ biểu diễn phù hợp và thuật toán đối sánh để điều chỉnh hiệu quả đối với những ảnh tài liệu có chất lượng kém là vấn đề cần thiết.

1.4.3.Ngôn ngữ trong tài liệu

Các ngôn ngữ khác nhau có cách thức biểu diễn và quy luật viết riêng. Ngoài ra lại có nhiều font chữ, phong cách viết khác nhau. Cho nên cần phải tìm ra những đặc trưng nào là bất biến để đối sánh giữa các từ hoặc ký tự. Thông thường việc thiết kế thuật toán tìm kiếm cho các ngôn ngữ châu á thường khó hơn so với các ngôn ngữ châu âu do những đặc trưng nêu trên. Ngôn ngữ tiếng anh được đánh giá cao vì được sử dụng tiền tố và hậu tố cho mẫu từ, diễn đạt mối quan hệ ngữ pháp.

Các ngôn ngữ khác nhau có cách thức biểu diễn và quy luật viết riêng. Ngoài ra lại có nhiều font chữ, phong cách viết khác nhau. Cho nên cần phải tìm ra những đặc trưng nào là bất biến để đối sánh giữa các từ hoặc ký tự. Thông thường việc thiết kế thuật toán tìm kiếm cho các ngôn ngữ châu á thường khó hơn so với các ngôn ngữ châu âu do những đặc trưng nêu trên. Ngôn ngữ tiếng anh được đánh giá cao vì được sử dụng tiền tố và hậu tố cho mẫu từ, diễn đạt mối quan hệ ngữ pháp. tìm. Những kỹ thuật đưa ra bắt gặp trong vấn đề tìm kiếm ảnh tài liệu là sử dụng thủ

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 30)

Tải bản đầy đủ (PDF)

(82 trang)