.Ngôn ngữ trong tài liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 30 - 33)

Các ngôn ngữ khác nhau có cách thức biểu diễn và quy luật viết riêng. Ngoài ra lại có nhiều font chữ, phong cách viết khác nhau. Cho nên cần phải tìm ra những đặc trưng nào là bất biến để đối sánh giữa các từ hoặc ký tự. Thông thường việc thiết kế thuật toán tìm kiếm cho các ngôn ngữ châu á thường khó hơn so với các ngôn ngữ châu âu do những đặc trưng nêu trên. Ngôn ngữ tiếng anh được đánh giá cao vì được sử dụng tiền tố và hậu tố cho mẫu từ, diễn đạt mối quan hệ ngữ pháp.

1.5. Hệ thống đề xuất

Xuất phát từ kiến trúc chung về hệ thống tìm kiếm ảnh. Trong luận văn này đề xuất hệ thống tìm kiếm từ trong ảnh tài liệu và đánh dấu hoặc làm nổi bật từ cần tìm. Những kỹ thuật đưa ra bắt gặp trong vấn đề tìm kiếm ảnh tài liệu là sử dụng thủ

không dùng phương pháp nhận dạng ký tự quang học (OCR - optical character recognition) và sử dụng ảnh của một từ như làm câu truy vấn. Toàn bộ hệ thống bao gồm hai thủ tục chính là A và B như hình 1.6 bên dưới.

Trong thủ tục B, tất cả ảnh tài liệu được phân tích để tìm số lượng từ tối đa bên trong chúng. Sau đó các đặc trưng có thể được lấy ra ứng với hình dạng của từ và bỏ qua những sự khác nhau chi tiết do nhiễu hoặc phông chữ. Những đặc trưng này sau đó được lưu vào cơ sở dữ liệu.

Hình 1.6 Cấu trúc chung hệ thống đề xuất tìm từ trong ảnh tài liệu

Trong thủ tục A, người sử dụng nhập một từ truy vấn và sau đó hệ thống sẽ tạo ra một bức ảnh ứng với từ đó. Tiếp theo ảnh này cũng được xử lý để lấy ra các đặc trưng có thể. Sau đó, những đặc trưng này được dùng để tìm những từ tương tự thông qua thủ tục đối sánh từ. Cuối cùng, những ảnh tài liệu chứa những từ tương tự được hiện thị lên cho người dùng. Kết quả thí nghiệm chỉ ra rằng hệ thống đề xuất đưa ra kết quả tìm kiếm có độ chính xác thông qua độ đo về tỉ lệ độ chính xác (precision) và độ thu hồi (recall).

Trong các chương còn lại của luận văn sẽ đi chi tiết vào từng bước trong hệ thống và các kỹ thuật sử dụng trong từng bước.

Kết luận

Trong chương này, học viên đã đưa ra các khái niệm tổng quan về tra cứu ảnh tài liệu, giới thiệu các khái niệm cơ bản của xử lý ảnh và những thách thức trong thiết kế, thực thi hệ thống tìm kiếm ảnh tài liệu, tra cứu ảnh dựa vào nội dung bao gồm: các chức năng chính của hệ thống tra cứu ảnh theo nội dung và hệ thống đề xuất, đánh giá hiệu năng tra cứu.

CHƯƠNG 2:

MỘT SỐ VẤN ĐỀ VỀ TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU VÀ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 30 - 33)

Tải bản đầy đủ (PDF)

(82 trang)