Phân đoạn khởi tạo ta có thể hiểu nhƣ là quá trình phận cụm các từ. Trong khi các phƣơng pháp tiếp cận dƣới – lên khác thƣờng xác định các đƣờng kẻ từ các từ liền kề theo chiều ngang và các khối từ các đƣờng kẻ liền kề theo chiều dọc, hệ thống sẽ trực tiếp đánh giá các cấu trúc khối văn bản từ việc phân đoạn các từ.
Tƣ tƣởng của thuật toán: lấy một từ bất kỳ làm nhân để xây dựng một khối mới. Nhìn trên Hình 2.4 (b), ta vẽ một vùng mờ ảo bao quanh hình chữ nhật bao của từ (consist). Vùng mở ảo này có độ rộng bằng với độ rộng của hình bao của từ và chiều dọc mở rộng đến các dòng liền kề với từ đó. Tất cả các từ mà có hình bao gối lên vùng mờ ảo của từ làm nhân sẽ nằm trong cùng một khối với từ đó. Do đó một khối bao gồm tất cả các từ đƣợc liên kết với nhau hình 2.4 (c)
Thủ tục trên sẽ đƣợc mở rộng bằng cách thực hiện đệ quy cho tất cả các từ cho đến khi không tìm thấy có từ nào mới mà không nằm trong một khối nào đó. Đầu vào của thủ tục là hình bao chữ nhật của các từ, đầu ra là các khối logic và các từ thuộc từng khối logic.
Thủ tục xây dựng thuật toán khởi tạo:
Hình 2.4 Ví dụ minh họa tư tưởng của thuật toán khởi tạo
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
38
1. Tìm một từ bất kỳ nào đó Wx mà chƣa đƣợc đánh dấu là mở rộng 2. Tạo một khối mới Bi
3. Đánh dấu Wx là đã mở rộng và thêm Wx vào Bi
4. Tìm tất cả các từ Wj theo chiều ngang ở dòng trƣớc và dòng kế tiếp, sao cho Wj nằm chồng lên Wx (có nghĩa là Wj gối lên vùng mở ảo của Wx).
5. Thực hiện đệ quy các bƣớc 3, 4, và 5 cho các từ Wj vừa tìm đƣợc
6. Nếu không tìm đƣợc từ nào mà chƣa đánh dấu và không nằm chồng
lên nhau (theo ý nghĩa của bƣớc 4) thì tăng i lên một và quay trở lại bƣớc 1.
7. Dừng thủ tục lại nếu không tìm thấy từ nào chƣa đƣợc đánh dấu trong tài liệu
Hình 2.5 Mô tả kết quả thuật toán sau khi mở rộng tất cả các từ trong khối
Trong chƣơng này luận văn đã trình bày sơ lƣợc về các phƣơng pháp phát hiện bảng, trình bày chi tiết các bƣớc của thuật toán phát hiện cấu trúc bảng. Tìm hiểu về thuật toán T-Recs do Thomas G.Kieninger [7] đề xuất.
Thuật toán phát hiện cấu trúc bảng sẽ đƣợc cài đặt, thử nghiệm ở chƣơng 3.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
39
CHƢƠNG 3
CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ
Trong chƣơng này của luận văn sẽ mô tả một cách chi tiết quá trình cài đặt thử nghiệm thuật toán, cũng nhƣ đánh giá các kết quả đạt đƣợc trên bộ dữ liệu mà tác giả thu thập đƣợc.