HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
PHẠM CÔNG HUY
NGHIÊN CỨU TRÍCH XUẤT THÔNG TIN,
PHÂN TÍCH DỮ LIỆU LỚN VÀ ỨNG DỤNG
TÌM KIEM TRONG KHO DU LIEU ANH VAN BẢN
Chuyén nganh: Khoa hoc may tinh Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2015
Trang 2Luận văn được hoàn thành tại:
HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
Người hướng dẫn khoa học: TS Hoàng Lê Minh
Phản biện 1: TS Lê Đức Hậu
Phản biện 2: TS Đào Đình Khả
Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: 10 giờ 30 phút ngày 20 tháng 9 năm 2015
Có thê tìm hiệu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MO DAU
Theo cách tinh Georges Anderla một nhà kinh tế học người Pháp thi
lượng kiến thức của nhân loại hiện nay cứ tăng gấp đôi sau 18 tháng Đồng
nghĩa với nó lượng tai liệu, sách vở tạp chí, v v những cách thức lưu trữ kiến thức truyền thống cũng ngày càng tăng lên với số lượng, khối lượng đáng kể Mỗi ngày có hàng triệu bản in được tạo ra dưới nhiều hình thức, việc quan lý,
lưu trữ những tài liệu này cũng sẽ gặp khó khăn với lượng tài nguyên đồ sộ và luôn phát triển như vậy.
Ngày nay với sự phát triển mạnh mẽ của công nghệ thông tin, các công
nghệ số hóa và nhận dạng văn bản, hình ảnh đã tạo điều kiện cho việc trong
việc lưu trữ, chia sẻ, truyền tài liệu Các dạng văn bản được đánh máy, viết tay
trước đây phải lưu trữ bằng bản cứng đã được số hóa nhờ những công nghệ
nhận dạng mới thông minh và chính xác hơn Tuy nhiên với gia tăng với tốc
độ chóng mặt về lượng dt liệu, văn bản được số hóa thì việc quản lý và khai
thác hiện tại còn gặp nhiều khó khăn do chưa có một phương pháp lưu trữ, xử
lý đồng bộ và khoa học Hiện nay với công nghệ đữ liệu lớn (Big Data) đang được chú trọng nghiên cứu và áp dụng với khả năng xử lý với tốc độ cao các dữ liệu có dung lượng lớn, đa dạng.
Đề tài “Nghiên cứu trích xuất thông tin, phân tích dữ liệu lớn và ứng dụng tìm kiếm trong kho dữ liệu ảnh văn bản” nhằm nghiên cứu các công
nghệ, kỹ thuật lưu trữ và phân tích dit liệu anh văn bản từ đó ứng dụng vào van
dé tìm kiếm, khai pha thông tin trong kho dữ liệu anh văn ban được dé dang và
thuận tiện hơn.Bồ cục của luận văn được chia làm 3 chương như sau: Chương 1: Tổng quan về dữ liệu ảnh văn bản và dữ liệu lớn
Chương 2: Xử lý dữ liệu ảnh văn bản và áp dụng công nghệ dữ liệu lớn
Chương 3: Ung dụng tìm kiếm thông tin trong kho đữ liệu ảnh văn bản.
Trang 4CHUONG 1: TONG QUAN VE DU LIEU ANH VAN BẢN VA
DU LIEU LON
1.1 Khái quát về dữ liệu dang ảnh văn bản
1.1.1 Giới thiệu về ảnh văn bản
Hình ảnh của một tài liệu giấy, sách báo có thể do đánh máy, viêt tay
được lưu trữ trên máy tính băng cách nào đó như qua chụp, quét bằng các thiết bị điện tử Việc sử dụng ảnh văn bản đang ngày một phổ biến do khả năng lưu
trữ gần như vô hạn không tốn không gian và hư hỏng như trên các vật liệu khác Việc lấy tài liệu cũng nhanh chóng và dễ dàng, thay vì phải đến phòng
lưu trữ hồ sơ, tất cả đã có trên máy tính của người dùng Dé chia sẻ, gửi tài liệu
số cũng rat dé dàng qua thư điện tử.
Nếu tài liệu đó cần được phô biến và công khai, thay vì phải in ra nhiều ban dé dán ở nhiều nơi hay gửi tới nhiều cơ quan, cá nhân thì với anh văn bản,
người cần thông tin chỉ cần truy cập đến trang web quản lý của tài liệu đó, việc đưa ảnh lên mang Internet rất phổ biến.
1.1.2 Ung dụng của dữ liệu ảnh văn bản
Với nhiều lợi ích so với văn bản trên giấy tờ thông thường như khả năng lây tài liệu nhanh hơn, giảm không gian lưu trữ, cách truy cập, chia sẻ và lưu giữ tốt hơn đã đề cập đến ở trên ảnh văn bản sẽ là lựa chọn để thay thế tài liệu trên giấy tờ Nhưng với một khối lượng dit liệu ảnh văn bản dé thay thế một
thư viện hay một trung tâm lưu trữ thì việc quản lý và khai thác ảnh văn bản
vẫn còn nhiều hạn chế Như việc tìm kiếm một tài liệu hay một cuốn sách dạng
ảnh văn bản cần dùng để đọc, nghiên cứu trong hàng trăm nghìn ảnh văn bản khác đòi hỏi việc đánh các từ khóa tìm kiếm vào ảnh văn bản cũng như cách đặt tiêu đề vị trí của tài liệu trọng một tủ hồ sơ Nhưng để tìm kiếm nội dung
chi tiết hơn như một đoạn nội dung hay một hình vẽ có nội dung, chú thích trong một tập ảnh văn bản thì tương đối phức tạp Với những phương pháp
hiện nay như dùng các phần mềm nhận dạng ảnh trên máy tinh dé chuyên đổi
Trang 5sang dạng văn bản có cấu trúc đã được hỗ trợ rồi tìm kiếm bằng các công cụ
đọc văn bản hoặc các phần mềm tìm kiếm Việc này tương đối rườm rà và mat nhiều thời gian do quá trình nhận dạng với một khối lượng lớn dữ liệu ảnh, chưa kể việc thiếu tính trung thực khi chuyên đổi anh văn bản thành dang văn bản có cấu trúc do các phần mềm nhận dạng hiện nay vẫn còn nhiều sai số Như việc chuyên đổi hình ảnh một biểu đồ hay một chữ ký tay có trên ảnh văn
1.2 Tổng quan về dữ liệu lớn
1.2.1 Big data và nền tảng Hadoop
Big Data là thuật ngữ dùng dé chỉ một tập hợp dữ liệu rat lớn va rất phức tạp đến nỗi những công cu, ứng dụng xử lí dữ liệu truyền thống không thé nào đảm đương được Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều
petabyte (1 petabyte = 1024 terabyte) chỉ trong một tập hợp dữ liệu [13].
Hadoop là một nền tảng nguồn mở, được Dough Cutting tạo ra khi ông nghiên cứu về Nutch - một ứng dụng tìm kiếm Hadoop được viết bằng Java, dùng hỗ trợ xây dựng, thực thi các ứng dụng tính toán phân tán theo mô hình MapReduce Hadoop cluster là hệ thống máy tính đã được triển khai nền tang
Hadoop, một Hadoop cluster bao gồm hai thành phần cơ bản là kiến trúc MapReduce và hệ thống tập tin phân tán HDFS
Có hai thành phần chính của nền tảng Hadoop kho lưu trữ tệp gọi là Hadoop Distributed File System (HDES — Hệ thống tệp phân tán Hadoop) và
khung lập trình gọi là MapReduce.a) MapReduce layer
Trong Hadoop, mỗi quá trình xử lý MapReduce được gọi là một job.
Việc thực hiện job sẽ được quan lý bởi hai đối tượng là JobTracker và TaksTracker JobTracker hoạt động tai may master có nhiệm vụ quản lý toàn
bộ hệ thống gồm việc tao và quản ly job, phân bố dữ liệu và phân công công
Trang 6việc cho các TaskTracker, xử lý lỗi, v.v Tại mỗi máy slave có một TaskTracker hoạt động để tạo các task xử lý theo yêu cầu của JobTracker.
Ngoài ra, định kỳ mỗi khoảng thời gian, TaskTracker phải gửi tín hiệu
HeartBeat về JobTracker để thông báo răng nó vẫn đang còn hoạt động Điều nay đảm bảo JobTracker lập thời biểu công việc chính xác và hiệu quả cho cả hệ thống.
b) HDFS layer
Hadoop Distributed File System (HDFS) là một hệ thống tập tin phân tán, được thiết kế dé chạy trên hệ thống nhiều máy tính được nối mạng với nhau, có khả năng chịu lỗi cao và có thé triển khai trên hệ thống phần cứng
không đòi hỏi cấu hình đắt tiền Có rất nhiều đặc điểm giống nhau giữa HDFS và những hệ thống tập tin phân tán khác Tuy nhiên, HDFS có những đặc điểm nổi bật riêng giúp nó có khả năng hỗ trợ tốt cho các ứng dụng xử lý dữ liệu
1.2.2 Khai thác và ứng dụng Big Data
Với khả năng ứng dụng của công nghệ dir liệu lớn, trong khuôn khô luậnvăn đê áp dụng vào bài toán tìm kiêm ảnh văn bản Trước hêt luận văn xem
xét các công đoạn chính trong một hệ thống tìm kiếm:
Công đoạn lập chỉ mục: Dé có thé đưa vào lập chỉ mục, tập tài liệu phải
trải qua quá trình tiền xử lý, tài liệu thô được xử lý thành các tải liệu được tách từ, phân đoạn và loại bỏ các yếu tô thông tin không quan trọng Kết thúc quá trình tiền xử lý, các yếu tố thông tin trong tập tài liệu sẽ được tiến hành lập chỉ mục, tạo tiền đề cho việc tính độ tương đồng [5].
Công đoạn xử lý yêu cầu tìm kiếm: Người sử dụng có nhu cầu tìm kiếm
đưa ra một biểu thức tìm kiếm phi cấu trúc bằng ngôn ngữ tự nhiên, mô tả nhu cầu thông tin của mình Hệ thống tìm kiếm sẽ tiếp nhận và xử lý biểu thức tìm kiếm, biến đổi biểu thức tìm kiếm thành một tài liệu chỉ mục, tiếp theo hệ
thống sẽ làm việc trên tập dữ liệu đã được lập chỉ mục trước đó kết hợp với tài
Trang 7liệu chỉ mục của biểu thức tìm kiếm, tính toán đưa ra một danh sách các tài liệu
có liên quan đến biểu thức tìm kiếm, kèm theo chỉ số thể hiện mức độ liên quan, sắp xếp danh sách này theo chiều giảm dần của mức độ liên quan, ta được kết quả tìm kiếm [5].
Bài toán tìm kiếm ảnh đã được đưa ra từ rất lâu và có nhiều cách giải quyết khác nhau Cho đến ngày nay đã có nhiều hệ thống tìm kiếm truy vấn
ảnh khác nhau Mục tiêu của hệ thống tìm kiếm ảnh là tìm ra ảnh đúng với nhu
câu của người dùng.
Các hệ thống truy van ảnh hiện nay rất đa dạng nhưng nhìn chung thi chúng được phân biệt bởi: các đặc trưng mà hệ thống rút trích từ ảnh để làm cơ
sở truy van và phương pháp phân đoạn ảnh được sử dụng trong hệ thống truy
vấn, cách thức tô chức chỉ mục cho cơ sở đữ liệu ảnh, độ đo sự tương đồng giữa hai ảnh Và thường tuân theo mô hình:
Tập kết quả
Ảnh truy vẫn
&——————] Yéu cau truy van
Hình 1.1: Rút trính, truy vấn hình ảnh thời gian thực
Mô hình này đơn giản, dễ cài đặt nhưng đưa vào ứng dụng thực tế sẽ
chậm vì nhược điểm: khi có một yêu cầu tìm kiếm, hệ thống không những phải
rút trích các đặc trưng của ảnh truy van mà còn phải rút trích các đặc trưng của ảnh trong tập ảnh của CSDL ảnh, sau đó tính toán mức độ tương đồng giữa chúng Để tăng khắc phục các vấn đề nêu trên của khi tìm kiếm với ảnh văn bản, luận văn đề xuất giải pháp rút trích những đặc trưng của ảnh văn bản Sau
Trang 8đó so sánh độ tương đồng giữa lệnh truy vấn và đữ liệu đặc trưng, trả về cho người sử dụng ảnh văn bản có chứa đặc trưng đó.
1.3 Kết luận
Trong chương này, các khái niệm, ứng dụng cơ bản dữ liệu lớn ở đây là nền tảng Hadoop đã được trình bày Đồng thời, các khái niệm, thuật ngữ được
sử dụng trong luận văn cũng được trình bày cụ thể Tại chương này, đề xuất sử
dụng, áp dụng Big Data trong việc lưu trữ và xử lý dữ liệu anh văn bản được nêu ra Nhằm mục đích tổ chức thực hiện tìm kiếm trong kho dữ liệu ảnh văn bản sẽ được nêu ra rõ hơn trong phần còn lại của luận văn và là tiền đề cho việc nghiên cứu, áp dụng khai thác ảnh văn bản trên nền tang Big Data sau này. Các nghiên cứu chi tiét hơn về việc tiên xử lý anh van bản, lập chỉ mục
và tô chức kho đữ liệu được trình bày ở chương 2.
Trang 9CHƯƠNG 2: XỬ LÝ DỮ LIỆU ẢNH VĂN BẢN VÀ ÁP DỤNG
CÔNG NGHỆ DỮ LIỆU LỚN
2.1 Tiền xử lý ảnh văn bản
Dữ liệu ảnh văn bản là dữ liệu dạng file ảnh được chụp, scan hoặc viết ta, dé khai thác thông tin từ anh bắt buộc phải sử dung các phương pháp nhận dạng Nhưng mục tiêu của luận văn là khai thác trực tiếp ảnh văn bản để có thông tin
chính xác nhất Để phục vụ cho tìm kiếm việc phần tiền xử lý giới thiệu các phương pháp nhận dạng và tập chung khai thác phương pháp nhận dạng theo mẫu
để áp dụng trích xuất mô tả ảnh văn bản.
2.1.1 Nhận dạng văn bản theo mẫu
a) Các phương pháp nhận dạng ảnh
Có nhiều phương pháp nhận dạng mẫu khác nhau được áp dụng rộng rãi trong các hệ thống nhận dạng kí tự Các phương pháp này có thê được tích hợp trong các hướng tiếp cận sau: Đối sánh mẫu, thống kê, cấu trúc, mạng nơ ron va
SVM
- May vecto hỗ tro (SVM)
- Phuong pháp tiếp cận cấu trúc
- Phương pháp ngữ pháp (Grammatical Methods
- Phương pháp đồ thị (Graphical Methods
- Mô hình Markov ân (Hidden Markov Model - Phương pháp đối sánh mẫu
Với phương pháp đối sánh mẫu qua việc sử dụng một thư viện được xây
dựng sẵn (tiếng Việt, tiếng Anh, ký tự toán học, ) có khả năng mở rộng chỉnh
sửa cao, tạo được những “key word” (từ khóa) áp dụng cho việc tìm kiếm thông tin của anh văn bản Luận văn sẽ di sâu vào phương pháp nay áp dụng trong việctrích xuât thông tin của ảnh văn bản.
Trang 10c) Nhận dạng ảnh văn bản theo mẫu
Việc nhận dạng ảnh của một văn bản hiện nay thường được xử lý và nhậndạng với các ky tự quang học độc lập (OCR - Optical Character Recognition), sau đó dùng các phương pháp phục hồi để chuyên thành dạng văn bản có thể đọc Tuy nhiên phương pháp này không hoạt động tốt trên chữ viết tay, gặp lỗi khi thực hiện ghép thành câu từ hoàn chỉnh và có nghĩa Một phương pháp khác là
nhận biết các từ bỏ qua giai đoạn nhận dạng ký tự bằng cách sử dụng những bộ từ điển mẫu từ dé so sánh sự tương đồng Phương pháp nay cũng giảm được độ nhiễu của hình ảnh và tăng tốc độ xử lý so với phương pháp nhận dạng ký tự riêng lẻ do số từ trung bình nhỏ hơn nhiều số ký tự trên một ảnh văn bản Nhưng về mặt chính xác kém hơn so với phương pháp nhận dạng ký tự quang học độc
Từ việc thống kê ngôn ngữ sự lặp lại của những từ thông dụng trên một trang (báo, tài liệu) xảy ra thường xuyên Việc sử dụng mẫu của những thừ phổ
biến này cũng cải thiện đáng kề tốc độ xử lý, dễ dàng trong việc đánh chỉ mục, phân nhóm dé cải thiện hiệu năng tìm kiếm ảnh văn bản.
Theo thống kê như, trung bình trong một tài liệu tiếng Anh có sự xuất hiện tới 7% từ “THE” , 3% từ “OF”.Và với hai mươi từ thông dụng ở ví dụ trên chiếm tới 29% của mẫu trong tài liệu tiếng Anh Điều đó cũng có nghĩa một phần ba số từ trong ảnh văn bản có thê được nhận dạng chỉ với hai mươi từ thông dụng [11].
Đề dễ dàng cho việc đánh chỉ mục và tăng cao hiệu năng của việc tìm kiếm
trong ảnh văn bản, luận văn đề xuât việc sử dụng phương pháp nhận dạng theo từ
cho việc nhận dạng và trích xuât ảnh văn bản.
Đề nhận dạng từ trên ảnh văn bản cần sử dụng kỹ thuật phân đoạn, kỹ thuật này giả định trên ảnh văn bản chỉ có hai màu trăng và đen (ký tự là màu trắng và
nên đen), khoảng cách giữa các ký tự liền kề nhỏ hon so với khoảng cách giữacác từ liền kề Từ đó xây dựng một hình ảnh mới qua các quá trình xử lý độ nghiêng, làm giảm nhiêu, nêu khoảng cách giữa hai diém anh màu trăng liên kê
Trang 11nhỏ hơn một một số k (khoảng cách trung bình giữa hai từ) thì tất các các điểm ảnh giữa hai điểm ảnh đó là màu trắng [11] Bằng phương pháp này khi thực hiện theo phương đọc và phương ngang có thê tạo được một vùng bao ngoài tối thiểu là một hình chữ nhật trắng quanh từ:.
Theo [11] Các cơ sở để nhận dạng mẫu chữ:
- Đầu tiên xác định hình ảnh của từ được đưa vào so sánh bằng cách căn lề theo phương ngang và thang dứng dựa vào đường cơ sở Đường co sở được tinh
băng cách xác định băng phương pháp phân đoạn đã trình bày trên.
- Sau đó hình anh sẽ được chuyền đổi thành một vecto đặc trưng băng cách chia hình ảnh thành một ô lưới 4 x 8 Sau đó tính gradient, cấu trúc và tính lồi lõm của mỗi 6 của lưới Kết quả là một vector nhi phân với độ dài là 1024 Ở ví
dụ trong Hình 2.5 thé hiện kết quả khi XOR hai ảnh “nationl” Kết quả của phép
tính này được so sánh với một ngưỡng trung bình dé xác nhận hình anh Dé tăng độ chính xác có thể áp dụng các thuật toán xử lý đồ họa, xử lý về mặt ngữ pháp, kêt câu câu từ trong đoạn van.
Theo phương pháp này, với bộ thư viện càng đầy đủ và đa dạng, thì khả
năng nhận dạng càng tối ưu Không chỉ các định dạng là ảnh của các mẫu chữ được đánh máy mà còn các văn bản được viết tay, các ngôn ngữ phức tạp như tiếng Trung Quốc, tiếng A Rap
2.1.2 Lập chỉ mục từ trong văn ảnh văn bản sử dụng mẫu từ tương dong
Đề áp dụng vào bài toán tìm kiếm phương pháp nhận dạng theo mẫu, việc
lập chỉ mục không chỉ trên những thông tin văn bản thuần túy như tiêu đề tác giả,
Trang 12ngày tháng lập, mà còn trên những chữ sau quá trình phân đoạn và nhận dạng
theo phương pháp nhận dạng theo mẫu.
Quá trình tiền xử lý hình ảnh áp dụng phương pháp sử dụng mẫu:
- Các văn bản in được quét, chụp thành các file ảnh được lưu trong ô cứng.
- Sau đó các file này được nhị phân hóa theo ngưỡng của hình ảnh (thành
các hình ảnh tối giản chỉ có trắng và đen).
- Phân đoạn các hình ảnh thành các từ, đối sánh với mẫu trong bộ thư viện
mẫu phù hợp.
- Ghi nhớ những mẫu từ thích hợp (những từ thường được sử dụng nhất) được lưu lại làm mẫu đặc trưng dé gom nhóm tat cả những từ nào phù hợp với nó
trong tất cả các tài liệu băng cách dựa vào diện tích của vùng xuất hiện và tỉ lệ
của các từ Tiếp theo kết hợp với việc so sánh khoảng cách tối thiểu băng phép
XOR hình ảnh có thé dé dàng tinh tan số xuất hiện của một từ và phân lớp nó.
- Phần đánh chỉ mục: Đối với những từ phù hợp với lớp đặc trưng thường
xuât hiện ta có thê bỏ qua, và đánh chỉ mục theo mâu đó.
Sau bước tiền xử lý các tài liệu ảnh văn bản được mô tả dưới dạng một danh sách theo các mẫu chữ dạng chuan ASCII kèm theo tọa độ, số lần lặp lại các
chữ trong hình anh, vi tri trong ảnh.
Trong khuôn khổ của luận văn, việc đánh chỉ mục của ảnh văn bản qua
những bước xử lý trên thông tin đi kém với các mẫu từ chỉ giới hạn trong mã của
ảnh văn bản, thông tin metadata ( mô tả như nguồn, tác giả, năm ) về ảnh Việc đánh tạo lập thông tin metadata sẽ giúp truy xuất ảnh nhanh hơn trong kho dữ liệu phan này được mô tả kỹ hơn vào phan tiếp của luận văn.
2.2 Áp dụng công nghệ dữ liệu lớn để lưu trữ thông tin
2.2.1 Tìm kiễm ảnh văn bản áp dụng công nghệ dữ liệu lớn
Hadoop MapReduce là một mô hình lập trình hỗ trợ đa dạng các loại dữ liệu Nhưng giải pháp MapReduce không phải là mô hình áp dụng cho mọi vấn đề, trên thực tế giải pháp này áp dụng tốt cho co các trường hợp lớn được xử lý
Trang 13phân tán song song Trong khuôn khổ luận văn, sau bước tiền xử lý đữ liệu đưa ra được một danh sách các từ phù hợp với mẫu cho trước với SỐ lượng từ được trích xuất của mỗi trang văn bản tương đối nhiều, và có nhiều ảnh tài liệu càng ngày càng được thu thập do nhu cầu của người sử dụng Dé tìm kiếm và anh văn ban có nhiều phương pháp nhưng với khối lượng lớn đữ liệu và đặc biệt không phải là dạng dữ liệu có cau trúc, nên luận văn dé xuất sử dụng công nghệ dt liệu lớn (
Hadoop ) dé tìm kiếm dữ liệu chỉ phụ thuộc vào các tập dit liệu được phân tích của anh văn bản.
Độ tương đông giữa nội dung được truy vân và ảnh văn bản phụ thuộc vào
tân sô lặp lại của từ khóa trong nội câu truy vân trong dữ liệu mô tả ảnh văn bản.
Qua quá trình xử lý dữ liệu ảnh văn bản thô, mỗi ảnh văn bản được mô tả dưới
dạng một tập các mẫu từ đã được trích xuất.
Đề hoàn thành được yêu cầu của người tìm kiếm (nhập từ khóa tìm kiếm có
liên qua đến ảnh văn bản) và nhận được môt danh sách kết quả (ảnh dữ liệu chứa từ khóa tìm kiếm) được xắp xếp với một tiêu chí nào đó:
- Đánh chỉ mục ngược (INVERTED INDEXING):Các dữ liệu ảnh văn bản
sau khi được trích xuất sẽ được chương trình tự động phân tách và tạo chỉ mục ngược (reverse index): chỉ mục với khoá là từ khoá va value là danh sách các tài
liệu có mặt từ khoá) Kết quả của quá trình này là một khối chỉ mục ngược.