Nghiên cứu trích xuất thông tin, phân tích dữ liệu lớn và ứng dụng tìm kiếm trong kho dữ liệu ảnh văn bản

Đề tài “Nghiên cứu trích xuất thông tin, phân tích dữ liệu lớn và ứngdụng tìm kiếm trong kho dữ liệu ảnh văn bản” nhằm nghiên cứu các công nghệ, kỹ thuật lưu trữ và phân tích dit liệu an

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

PHẠM CÔNG HUY

NGHIÊN CỨU TRÍCH XUẤT THÔNG TIN,

PHÂN TÍCH DỮ LIỆU LỚN VÀ ỨNG DỤNG

TÌM KIEM TRONG KHO DU LIEU ANH VAN BẢN

Chuyén nganh: Khoa hoc may tinh

Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2015

Trang 2

Luận văn được hoàn thành tại:

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

Người hướng dẫn khoa học: TS Hoàng Lê Minh

Phản biện 1: TS Lê Đức Hậu

Phản biện 2: TS Đào Đình Khả

Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: 10 giờ 30 phút ngày 20 tháng 9 năm 2015

Có thê tìm hiệu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MO DAU

Theo cách tinh Georges Anderla một nhà kinh tế học người Pháp thi

lượng kiến thức của nhân loại hiện nay cứ tăng gấp đôi sau 18 tháng Đồng

nghĩa với nó lượng tai liệu, sách vở tạp chí, v v những cách thức lưu trữ kiến thức truyền thống cũng ngày càng tăng lên với số lượng, khối lượng đáng kể Mỗi ngày có hàng triệu bản in được tạo ra dưới nhiều hình thức, việc quan lý,

lưu trữ những tài liệu này cũng sẽ gặp khó khăn với lượng tài nguyên đồ sộ vàluôn phát triển như vậy

Ngày nay với sự phát triển mạnh mẽ của công nghệ thông tin, các công

nghệ số hóa và nhận dạng văn bản, hình ảnh đã tạo điều kiện cho việc trong

việc lưu trữ, chia sẻ, truyền tài liệu Các dạng văn bản được đánh máy, viết tay

trước đây phải lưu trữ bằng bản cứng đã được số hóa nhờ những công nghệ

nhận dạng mới thông minh và chính xác hơn Tuy nhiên với gia tăng với tốc

độ chóng mặt về lượng dt liệu, văn bản được số hóa thì việc quản lý và khai

thác hiện tại còn gặp nhiều khó khăn do chưa có một phương pháp lưu trữ, xử

lý đồng bộ và khoa học Hiện nay với công nghệ đữ liệu lớn (Big Data) đang được chú trọng nghiên cứu và áp dụng với khả năng xử lý với tốc độ cao các

dữ liệu có dung lượng lớn, đa dạng.

Đề tài “Nghiên cứu trích xuất thông tin, phân tích dữ liệu lớn và ứngdụng tìm kiếm trong kho dữ liệu ảnh văn bản” nhằm nghiên cứu các công

nghệ, kỹ thuật lưu trữ và phân tích dit liệu anh văn bản từ đó ứng dụng vào van

dé tìm kiếm, khai pha thông tin trong kho dữ liệu anh văn ban được dé dang và

thuận tiện hơn.Bồ cục của luận văn được chia làm 3 chương như sau:

Chương 1: Tổng quan về dữ liệu ảnh văn bản và dữ liệu lớn

Chương 2: Xử lý dữ liệu ảnh văn bản và áp dụng công nghệ dữ liệu lớn

Chương 3: Ung dụng tìm kiếm thông tin trong kho đữ liệu ảnh văn bản.

Trang 4

CHUONG 1: TONG QUAN VE DU LIEU ANH VAN BẢN VA

DU LIEU LON

1.1 Khái quát về dữ liệu dang ảnh văn bản

1.1.1 Giới thiệu về ảnh văn bản

Hình ảnh của một tài liệu giấy, sách báo có thể do đánh máy, viêt tay

được lưu trữ trên máy tính băng cách nào đó như qua chụp, quét bằng các thiết

bị điện tử Việc sử dụng ảnh văn bản đang ngày một phổ biến do khả năng lưu

trữ gần như vô hạn không tốn không gian và hư hỏng như trên các vật liệukhác Việc lấy tài liệu cũng nhanh chóng và dễ dàng, thay vì phải đến phòng

lưu trữ hồ sơ, tất cả đã có trên máy tính của người dùng Dé chia sẻ, gửi tài liệu

số cũng rat dé dàng qua thư điện tử

Nếu tài liệu đó cần được phô biến và công khai, thay vì phải in ra nhiềuban dé dán ở nhiều nơi hay gửi tới nhiều cơ quan, cá nhân thì với anh văn bản,người cần thông tin chỉ cần truy cập đến trang web quản lý của tài liệu đó, việcđưa ảnh lên mang Internet rất phổ biến

1.1.2 Ung dụng của dữ liệu ảnh văn bản

Với nhiều lợi ích so với văn bản trên giấy tờ thông thường như khả nănglây tài liệu nhanh hơn, giảm không gian lưu trữ, cách truy cập, chia sẻ và lưugiữ tốt hơn đã đề cập đến ở trên ảnh văn bản sẽ là lựa chọn để thay thế tài liệutrên giấy tờ Nhưng với một khối lượng dit liệu ảnh văn bản dé thay thế một

thư viện hay một trung tâm lưu trữ thì việc quản lý và khai thác ảnh văn bản

vẫn còn nhiều hạn chế Như việc tìm kiếm một tài liệu hay một cuốn sách dạng

ảnh văn bản cần dùng để đọc, nghiên cứu trong hàng trăm nghìn ảnh văn bản khác đòi hỏi việc đánh các từ khóa tìm kiếm vào ảnh văn bản cũng như cách đặt tiêu đề vị trí của tài liệu trọng một tủ hồ sơ Nhưng để tìm kiếm nội dung

chi tiết hơn như một đoạn nội dung hay một hình vẽ có nội dung, chú thíchtrong một tập ảnh văn bản thì tương đối phức tạp Với những phương pháp

hiện nay như dùng các phần mềm nhận dạng ảnh trên máy tinh dé chuyên đổi

Trang 5

sang dạng văn bản có cấu trúc đã được hỗ trợ rồi tìm kiếm bằng các công cụ

đọc văn bản hoặc các phần mềm tìm kiếm Việc này tương đối rườm rà và matnhiều thời gian do quá trình nhận dạng với một khối lượng lớn dữ liệu ảnh,chưa kể việc thiếu tính trung thực khi chuyên đổi anh văn bản thành dang vănbản có cấu trúc do các phần mềm nhận dạng hiện nay vẫn còn nhiều sai số.Như việc chuyên đổi hình ảnh một biểu đồ hay một chữ ký tay có trên ảnh văn

bản.

1.2 Tổng quan về dữ liệu lớn

1.2.1 Big data và nền tảng Hadoop

Big Data là thuật ngữ dùng dé chỉ một tập hợp dữ liệu rat lớn va rất phứctạp đến nỗi những công cu, ứng dụng xử lí dữ liệu truyền thống không thé nàođảm đương được Kích cỡ của Big Data đang từng ngày tăng lên, và tính đếnnăm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều

petabyte (1 petabyte = 1024 terabyte) chỉ trong một tập hợp dữ liệu [13].

Hadoop là một nền tảng nguồn mở, được Dough Cutting tạo ra khi ôngnghiên cứu về Nutch - một ứng dụng tìm kiếm Hadoop được viết bằng Java,dùng hỗ trợ xây dựng, thực thi các ứng dụng tính toán phân tán theo mô hìnhMapReduce Hadoop cluster là hệ thống máy tính đã được triển khai nền tang

Hadoop, một Hadoop cluster bao gồm hai thành phần cơ bản là kiến trúc MapReduce và hệ thống tập tin phân tán HDFS

Có hai thành phần chính của nền tảng Hadoop kho lưu trữ tệp gọi làHadoop Distributed File System (HDES — Hệ thống tệp phân tán Hadoop) và

khung lập trình gọi là MapReduce.

a) MapReduce layer

Trong Hadoop, mỗi quá trình xử lý MapReduce được gọi là một job

Việc thực hiện job sẽ được quan lý bởi hai đối tượng là JobTracker vàTaksTracker JobTracker hoạt động tai may master có nhiệm vụ quản lý toàn

bộ hệ thống gồm việc tao và quản ly job, phân bố dữ liệu và phân công công

Trang 6

việc cho các TaskTracker, xử lý lỗi, v.v Tại mỗi máy slave có mộtTaskTracker hoạt động để tạo các task xử lý theo yêu cầu của JobTracker

Ngoài ra, định kỳ mỗi khoảng thời gian, TaskTracker phải gửi tín hiệu

HeartBeat về JobTracker để thông báo răng nó vẫn đang còn hoạt động Điềunay đảm bảo JobTracker lập thời biểu công việc chính xác và hiệu quả cho cả

hệ thống

b) HDFS layer

Hadoop Distributed File System (HDFS) là một hệ thống tập tin phân tán, được thiết kế dé chạy trên hệ thống nhiều máy tính được nối mạng với nhau, có khả năng chịu lỗi cao và có thé triển khai trên hệ thống phần cứng

không đòi hỏi cấu hình đắt tiền Có rất nhiều đặc điểm giống nhau giữa HDFS

và những hệ thống tập tin phân tán khác Tuy nhiên, HDFS có những đặc điểmnổi bật riêng giúp nó có khả năng hỗ trợ tốt cho các ứng dụng xử lý dữ liệu

lớn

1.2.2 Khai thác và ứng dụng Big Data

Với khả năng ứng dụng của công nghệ dir liệu lớn, trong khuôn khô luận văn đê áp dụng vào bài toán tìm kiêm ảnh văn bản Trước hêt luận văn xem

xét các công đoạn chính trong một hệ thống tìm kiếm:

Công đoạn lập chỉ mục: Dé có thé đưa vào lập chỉ mục, tập tài liệu phải

trải qua quá trình tiền xử lý, tài liệu thô được xử lý thành các tải liệu được tách

từ, phân đoạn và loại bỏ các yếu tô thông tin không quan trọng Kết thúc quátrình tiền xử lý, các yếu tố thông tin trong tập tài liệu sẽ được tiến hành lập chỉmục, tạo tiền đề cho việc tính độ tương đồng [5]

Công đoạn xử lý yêu cầu tìm kiếm: Người sử dụng có nhu cầu tìm kiếm

đưa ra một biểu thức tìm kiếm phi cấu trúc bằng ngôn ngữ tự nhiên, mô tả nhucầu thông tin của mình Hệ thống tìm kiếm sẽ tiếp nhận và xử lý biểu thức tìmkiếm, biến đổi biểu thức tìm kiếm thành một tài liệu chỉ mục, tiếp theo hệ

thống sẽ làm việc trên tập dữ liệu đã được lập chỉ mục trước đó kết hợp với tài

Trang 7

liệu chỉ mục của biểu thức tìm kiếm, tính toán đưa ra một danh sách các tài liệu

có liên quan đến biểu thức tìm kiếm, kèm theo chỉ số thể hiện mức độ liênquan, sắp xếp danh sách này theo chiều giảm dần của mức độ liên quan, tađược kết quả tìm kiếm [5]

Bài toán tìm kiếm ảnh đã được đưa ra từ rất lâu và có nhiều cách giải quyết khác nhau Cho đến ngày nay đã có nhiều hệ thống tìm kiếm truy vấn

ảnh khác nhau Mục tiêu của hệ thống tìm kiếm ảnh là tìm ra ảnh đúng với nhu

câu của người dùng.

Các hệ thống truy van ảnh hiện nay rất đa dạng nhưng nhìn chung thi chúng được phân biệt bởi: các đặc trưng mà hệ thống rút trích từ ảnh để làm cơ

sở truy van và phương pháp phân đoạn ảnh được sử dụng trong hệ thống truy

vấn, cách thức tô chức chỉ mục cho cơ sở đữ liệu ảnh, độ đo sự tương đồnggiữa hai ảnh Và thường tuân theo mô hình:

Tập kết quả

Ảnh truy vẫn

&——————] Yéu cau truy van

Hình 1.1: Rút trính, truy vấn hình ảnh thời gian thực

Mô hình này đơn giản, dễ cài đặt nhưng đưa vào ứng dụng thực tế sẽ

chậm vì nhược điểm: khi có một yêu cầu tìm kiếm, hệ thống không những phải

rút trích các đặc trưng của ảnh truy van mà còn phải rút trích các đặc trưng củaảnh trong tập ảnh của CSDL ảnh, sau đó tính toán mức độ tương đồng giữachúng Để tăng khắc phục các vấn đề nêu trên của khi tìm kiếm với ảnh vănbản, luận văn đề xuất giải pháp rút trích những đặc trưng của ảnh văn bản Sau

Trang 8

sử dụng trong luận văn cũng được trình bày cụ thể Tại chương này, đề xuất sử

dụng, áp dụng Big Data trong việc lưu trữ và xử lý dữ liệu anh văn bản đượcnêu ra Nhằm mục đích tổ chức thực hiện tìm kiếm trong kho dữ liệu ảnh văn bản sẽ được nêu ra rõ hơn trong phần còn lại của luận văn và là tiền đề cho việc nghiên cứu, áp dụng khai thác ảnh văn bản trên nền tang Big Data sau này.

Các nghiên cứu chi tiét hơn về việc tiên xử lý anh van bản, lập chỉ mục

và tô chức kho đữ liệu được trình bày ở chương 2

Trang 9

CHƯƠNG 2: XỬ LÝ DỮ LIỆU ẢNH VĂN BẢN VÀ ÁP DỤNG

CÔNG NGHỆ DỮ LIỆU LỚN

2.1 Tiền xử lý ảnh văn bản

Dữ liệu ảnh văn bản là dữ liệu dạng file ảnh được chụp, scan hoặc viết ta,

dé khai thác thông tin từ anh bắt buộc phải sử dung các phương pháp nhận dạng.Nhưng mục tiêu của luận văn là khai thác trực tiếp ảnh văn bản để có thông tinchính xác nhất Để phục vụ cho tìm kiếm việc phần tiền xử lý giới thiệu cácphương pháp nhận dạng và tập chung khai thác phương pháp nhận dạng theo mẫu

để áp dụng trích xuất mô tả ảnh văn bản.

2.1.1 Nhận dạng văn bản theo mẫu

a) Các phương pháp nhận dạng ảnh

Có nhiều phương pháp nhận dạng mẫu khác nhau được áp dụng rộng rãitrong các hệ thống nhận dạng kí tự Các phương pháp này có thê được tích hợptrong các hướng tiếp cận sau: Đối sánh mẫu, thống kê, cấu trúc, mạng nơ ron va

SVM

- May vecto hỗ tro (SVM)

- Phuong pháp tiếp cận cấu trúc

- Phương pháp ngữ pháp (Grammatical Methods

- Phương pháp đồ thị (Graphical Methods

- Mô hình Markov ân (Hidden Markov Model

- Phương pháp đối sánh mẫu

Với phương pháp đối sánh mẫu qua việc sử dụng một thư viện được xây

dựng sẵn (tiếng Việt, tiếng Anh, ký tự toán học, ) có khả năng mở rộng chỉnh

sửa cao, tạo được những “key word” (từ khóa) áp dụng cho việc tìm kiếm thôngtin của anh văn bản Luận văn sẽ di sâu vào phương pháp nay áp dụng trong việc trích xuât thông tin của ảnh văn bản.

Trang 10

c) Nhận dạng ảnh văn bản theo mẫu

Việc nhận dạng ảnh của một văn bản hiện nay thường được xử lý và nhận dạng với các ky tự quang học độc lập (OCR - Optical Character Recognition), sau

đó dùng các phương pháp phục hồi để chuyên thành dạng văn bản có thể đọc Tuy nhiên phương pháp này không hoạt động tốt trên chữ viết tay, gặp lỗi khithực hiện ghép thành câu từ hoàn chỉnh và có nghĩa Một phương pháp khác là

nhận biết các từ bỏ qua giai đoạn nhận dạng ký tự bằng cách sử dụng những bộ từđiển mẫu từ dé so sánh sự tương đồng Phương pháp nay cũng giảm được độnhiễu của hình ảnh và tăng tốc độ xử lý so với phương pháp nhận dạng ký tựriêng lẻ do số từ trung bình nhỏ hơn nhiều số ký tự trên một ảnh văn bản Nhưng

về mặt chính xác kém hơn so với phương pháp nhận dạng ký tự quang học độc

từ trong ảnh văn bản có thê được nhận dạng chỉ với hai mươi từ thông dụng [11]

Đề dễ dàng cho việc đánh chỉ mục và tăng cao hiệu năng của việc tìm kiếm

trong ảnh văn bản, luận văn đề xuât việc sử dụng phương pháp nhận dạng theo từ

cho việc nhận dạng và trích xuât ảnh văn bản.

Đề nhận dạng từ trên ảnh văn bản cần sử dụng kỹ thuật phân đoạn, kỹ thuậtnày giả định trên ảnh văn bản chỉ có hai màu trăng và đen (ký tự là màu trắng và

nên đen), khoảng cách giữa các ký tự liền kề nhỏ hon so với khoảng cách giữa các từ liền kề Từ đó xây dựng một hình ảnh mới qua các quá trình xử lý độnghiêng, làm giảm nhiêu, nêu khoảng cách giữa hai diém anh màu trăng liên kê

Trang 11

nhỏ hơn một một số k (khoảng cách trung bình giữa hai từ) thì tất các các điểmảnh giữa hai điểm ảnh đó là màu trắng [11] Bằng phương pháp này khi thực hiệntheo phương đọc và phương ngang có thê tạo được một vùng bao ngoài tối thiểu

là một hình chữ nhật trắng quanh từ:

Theo [11] Các cơ sở để nhận dạng mẫu chữ:

- Đầu tiên xác định hình ảnh của từ được đưa vào so sánh bằng cách căn lềtheo phương ngang và thang dứng dựa vào đường cơ sở Đường co sở được tinh

băng cách xác định băng phương pháp phân đoạn đã trình bày trên.

- Sau đó hình anh sẽ được chuyền đổi thành một vecto đặc trưng băng cách chia hình ảnh thành một ô lưới 4 x 8 Sau đó tính gradient, cấu trúc và tính lồi lõm của mỗi 6 của lưới Kết quả là một vector nhi phân với độ dài là 1024 Ở ví

dụ trong Hình 2.5 thé hiện kết quả khi XOR hai ảnh “nationl” Kết quả của phép

tính này được so sánh với một ngưỡng trung bình dé xác nhận hình anh Dé tăng

độ chính xác có thể áp dụng các thuật toán xử lý đồ họa, xử lý về mặt ngữ pháp,kêt câu câu từ trong đoạn van.

Theo phương pháp này, với bộ thư viện càng đầy đủ và đa dạng, thì khả

năng nhận dạng càng tối ưu Không chỉ các định dạng là ảnh của các mẫu chữđược đánh máy mà còn các văn bản được viết tay, các ngôn ngữ phức tạp nhưtiếng Trung Quốc, tiếng A Rap

2.1.2 Lập chỉ mục từ trong văn ảnh văn bản sử dụng mẫu từ tương dong

Đề áp dụng vào bài toán tìm kiếm phương pháp nhận dạng theo mẫu, việc

lập chỉ mục không chỉ trên những thông tin văn bản thuần túy như tiêu đề tác giả,

Trang 12

ngày tháng lập, mà còn trên những chữ sau quá trình phân đoạn và nhận dạng

theo phương pháp nhận dạng theo mẫu

Quá trình tiền xử lý hình ảnh áp dụng phương pháp sử dụng mẫu:

- Các văn bản in được quét, chụp thành các file ảnh được lưu trong ô cứng

- Sau đó các file này được nhị phân hóa theo ngưỡng của hình ảnh (thành

các hình ảnh tối giản chỉ có trắng và đen)

- Phân đoạn các hình ảnh thành các từ, đối sánh với mẫu trong bộ thư viện

mẫu phù hợp

- Ghi nhớ những mẫu từ thích hợp (những từ thường được sử dụng nhất) được lưu lại làm mẫu đặc trưng dé gom nhóm tat cả những từ nào phù hợp với nó

trong tất cả các tài liệu băng cách dựa vào diện tích của vùng xuất hiện và tỉ lệ

của các từ Tiếp theo kết hợp với việc so sánh khoảng cách tối thiểu băng phép

XOR hình ảnh có thé dé dàng tinh tan số xuất hiện của một từ và phân lớp nó

- Phần đánh chỉ mục: Đối với những từ phù hợp với lớp đặc trưng thường

xuât hiện ta có thê bỏ qua, và đánh chỉ mục theo mâu đó.

Sau bước tiền xử lý các tài liệu ảnh văn bản được mô tả dưới dạng một danh sách theo các mẫu chữ dạng chuan ASCII kèm theo tọa độ, số lần lặp lại các

chữ trong hình anh, vi tri trong ảnh.

Trong khuôn khổ của luận văn, việc đánh chỉ mục của ảnh văn bản qua

những bước xử lý trên thông tin đi kém với các mẫu từ chỉ giới hạn trong mã của

ảnh văn bản, thông tin metadata ( mô tả như nguồn, tác giả, năm ) về ảnh Việcđánh tạo lập thông tin metadata sẽ giúp truy xuất ảnh nhanh hơn trong kho dữ liệuphan này được mô tả kỹ hơn vào phan tiếp của luận văn

2.2 Áp dụng công nghệ dữ liệu lớn để lưu trữ thông tin

2.2.1 Tìm kiễm ảnh văn bản áp dụng công nghệ dữ liệu lớn

Hadoop MapReduce là một mô hình lập trình hỗ trợ đa dạng các loại dữliệu Nhưng giải pháp MapReduce không phải là mô hình áp dụng cho mọi vấn

đề, trên thực tế giải pháp này áp dụng tốt cho co các trường hợp lớn được xử lý

Trang 13

phân tán song song Trong khuôn khổ luận văn, sau bước tiền xử lý đữ liệu đưa rađược một danh sách các từ phù hợp với mẫu cho trước với SỐ lượng từ được tríchxuất của mỗi trang văn bản tương đối nhiều, và có nhiều ảnh tài liệu càng ngàycàng được thu thập do nhu cầu của người sử dụng Dé tìm kiếm và anh văn ban

có nhiều phương pháp nhưng với khối lượng lớn đữ liệu và đặc biệt không phải làdạng dữ liệu có cau trúc, nên luận văn dé xuất sử dụng công nghệ dt liệu lớn (

Hadoop ) dé tìm kiếm dữ liệu chỉ phụ thuộc vào các tập dit liệu được phân tíchcủa anh văn bản.

Độ tương đông giữa nội dung được truy vân và ảnh văn bản phụ thuộc vào

tân sô lặp lại của từ khóa trong nội câu truy vân trong dữ liệu mô tả ảnh văn bản.

Qua quá trình xử lý dữ liệu ảnh văn bản thô, mỗi ảnh văn bản được mô tả dưới

dạng một tập các mẫu từ đã được trích xuất.

Đề hoàn thành được yêu cầu của người tìm kiếm (nhập từ khóa tìm kiếm có

liên qua đến ảnh văn bản) và nhận được môt danh sách kết quả (ảnh dữ liệu chứa

từ khóa tìm kiếm) được xắp xếp với một tiêu chí nào đó:

- Đánh chỉ mục ngược (INVERTED INDEXING):Các dữ liệu ảnh văn bản

sau khi được trích xuất sẽ được chương trình tự động phân tách và tạo chỉ mụcngược (reverse index): chỉ mục với khoá là từ khoá va value là danh sách các tàiliệu có mặt từ khoá) Kết quả của quá trình này là một khối chỉ mục ngược.

Tiêu đề	Nghiên Cứu Trích Xuất Thông Tin, Phân Tích Dữ Liệu Lớn Và Ứng Dụng Tìm Kiếm Trong Kho Dữ Liệu Ảnh Văn Bản
Tác giả	Phạm Công Huy
Người hướng dẫn	TS. Hoàng Lê Minh
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Khoa học máy tính
Thể loại	luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	27
Dung lượng	6,35 MB