Thực hiện công việc đối sánh trong hệ thống đề xuất

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 69 - 72)

5. Phương pháp nghiên cứu

2.5. Thực hiện công việc đối sánh trong hệ thống đề xuất

Thủ tục đối sánh từ có thể xác định ảnh từ của tài liệu mà có độ tượng tự cao so với từ truy vấn thông qua cấu trúc vector đặc trưng.

Đầu tiên, một mô tả được tạo ra là một vector gồm các đặc trưng bao gồm 93 thành phần đã được đề xuất hình 2.36. Thành phần đầu tiên là đặc trưng về tỉ lệ

1 ( ) ( ) 100 ax( ) MD i R i m MD  

chiều rộng và chiều cao; đặc trưng thứ hai là đặc trưng về mật độ diện tích và thứ ba là điểm trọng tâm của từ. Đặc trưng tiếp theo là 20 thành phần được lấy ra từ phép chiếu dọc và 50 thành phần tiếp theo là đặc trưng của phép chiếu trên và dưới. Cuối cùng, 20 thành phần cuối được lấy ra từ phần bên trên và phần bên dưới của từ.

Tiếp theo, khoảng cách Minskowski (Mahatan) được tính toán theo vector đặc trưng mô tả cho mỗi từ trong cơ sở dữ liệu:

  93 1 ( ) ( ) W( , ) MD i  Q kk i (2.5.1)

Trong đó MD(i) là khoảng cách Minkowski của từ i. Q(k) là vector đặc trưng mô tả của từ truy vấn và W(k,i) là mô tả của từ thứ i.

Hình 2.37 Thủ tục đối sánh từ

Sau đó, tỉ lệ đối sánh với các từ còn lại trong cơ sở dữ liệu được chuẩn hóa trong giá trị từ 0 đến 100, giá trị này thể hiện độ tương tự của từ truy vấn với từ trong cơ sở là thấp hay cao. Tỉ lệ cho mỗi từ được tính toán như sau:

(2.5.2)

Cuối cùng, hệ thống hiển thị các ảnh tài liệu có chứa các từ theo thứ tự giảm dần đối với tỷ lệ tương ứng. Trong quá trình thực hiện, các ảnh tài liệu được hiển thị cho người dùng là những ảnh tài liệu có tỷ lệ tương tự trên 70%.

Kết luận

Chương này chủ yếu trình bày các thao tác dùng để nhận dạng các từ trong văn bản của hình ảnh tài liệu và tìm hiểu hiểu được các đặc trưng chung hay dùng để đối sánh đối tượng.

CHƯƠNG 3:

CHƯƠNG TRÌNH THỬ NGHIỆM TÌM KIẾM TỪ TRONG ẢNH TÀI LIỆU TRÊN CƠ SỞ LÝ THUYẾT ĐÃ XÂY DỰNG

Trong chương này sẽ xây dựng chương trình thử nghiệm nhằm mục đích tìm kiếm các ảnh tài liệu trong cơ sở dữ liệu (CSDL). Dữ liệu vào là 100 bức ảnh ngôn ngữ tiếng anh được tham khảo từ trang web http://orpheus.ee.duth.gr/irs2_5 . Sau đó, những bức ảnh này được tiền xử lý và đưa vào cơ sở dữ liệu.

Đầu vào

1) Cơ sở dữ liệu các ảnh tài liệu: Những ảnh đầu vào (ảnh đa mức xám) sẽ được chuyển sang ảnh nhị phân và đồng thời nhận dạng các ký tự trong từ có trong ảnh tài liệu rồi mới được đưa vào CSDL.

2) Từ: chương trình thử nghiệm cho phép nhập vào một từ, chương trình sẽ tạo ra ảnh từ và tìm kiếm các bức ảnh có chứa ảnh từ này trong CSDL ảnh tài liệu. Đầu ra: Các tệp ảnh trong có chứa ảnh từ trong cơ sở dữ liệu tài liệu.

3.1.Môi trường cài đặt

+ Hệ thống đề xuất được cài đặt với sự giúp đỡ của công cụ lập trình Visual Studio 2010 và phát triển dựa trên Microsoft.NET Framework 3.5.

+ Ngôn ngữ lập trình C#

+ Cơ sở dữ liệu sử dụng là Microsoft SQL Server 2012

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu trích chọn đặc trưng ứng dụng cho tìm kiếm từ trong ảnh tài liệu (Trang 69 - 72)

Tải bản đầy đủ (PDF)

(82 trang)