Sử dụng VLSP cho việc Index Tiếng Việt:

Một phần của tài liệu xây dựng bộ máy tìm kiếm tiếng việt dựa trên mã nguồn mở lucene (Trang 34 - 37)

Sau quá trình phân tích ta thấy rằng Lucene chỉ hỗ trợ Index trên tiếng Anh mà chưa có Tiếng Việt. Vì vậy ta phải sử dụng VLSP của thầy Lê Hồng Phương viết. Nó có thể tách các từ Tiếng Việt trong văn bản (mã hóa bằng mã Unicode UTF-8).

VLSP có mục tiêu sau:

- Nghiên cứu và xây dựng một số sản phẩm tiêu biểu về xử lý tiếng nói và văn bản tiếng Việt, nhằm cho đông đảo người sử dụng máy tính và Internet.

- Xây dựng các tài nguyên và công cụ thiết yếu nhất cho xử lý tiếng nói và văn bản tiếng Việt, nhằm thực hiện mục tiêu và dùng cho nghiên cứu-phát triển lâu dài.

3.5 Indexing file Word, Powerpoint, Excel:

Hiện nay bộ soạn thảo Microsoft Word vẫn là phần mềm được sử dụng nhiều nhất trong soạn thảo văn phòng. Vì vậy việc thực hiện indexing được MS Word là một việc thiết thực cần phải làm, cần phải biết cách parse tài liệu MS Word để có thể tìm kiếm với Lucene. Nhưng sự khó khăn nhất gặp phải đó là MS Word là chương trình có bản quyền vì vậy format của nó cũng được giấu kín. Nhưng may thay, có một vài project mã nguồn mở có thể khắc phục được vấn đề này. Trong phần này có giới thiệu 2 project mã nguồn mở Jakarta POI và TextMining.org dùng để rút trích text ra.

Poi là một Jakarta project, có thể tìm nó tại http://jakarta.apache.org/poi . Nó là project cung cấp các hàm API của java để thao tác với các dạng format cơ bản trên định dạng Microsoft’s OLE 2 Compound Document .

Các hàm trong lớp POI có thể lấy ra text của một file tài liệu MS Word, Powerpoint, Excel. Để có thể thực hiện ta add thư viện poi-3.8-beta3-20110606.jar và poi-scratchpad-3.8-beta3-20110606.jar.

Sau đó tạo ra 3 class là DocFileParser.java, PPTFileParser.java, XLSFileParser.java thực hiện lần lượt các chức năng là index cho file word, powerpoint, excel.

Hình 3.5.1: Class thực hiện chức năng index file word

Hình 3.5.2: Class thực hiện chức năng index file Powerpoint

Một phần của tài liệu xây dựng bộ máy tìm kiếm tiếng việt dựa trên mã nguồn mở lucene (Trang 34 - 37)

Tải bản đầy đủ (DOCX)

(53 trang)
w