Bài toán

Một phần của tài liệu tìm kiếm văn bản theo nội dung và ứng dụng (Trang 55 - 66)

Cơ sở dữ liệu đa phương tiện bao gồm văn bản, hình ảnh, âm thanh và video. Mỗi loại dữ liệu đều có tính chất đặc trưng riêng, vì thế phạm vi nghiên cứu sự biểu diễn, tổ chức, lưu trữ và truy vấn trên dữ liệu đa phương tiện là rất lớn. Trong đó, tài liệu văn bản là một loại dữ liệu rất quan trọng, loại dữ liệu này không thể thiếu trong các cơ quan, tổ chức, thư viện… và người ta có thể dùng nó để mô tả các loại dữ liệu khác.

Trong một máy tìm kiếm, các loại dữ liệu đều phải trải qua quy trình xử lý để tìm ra những đặc trưng riêng của từng đối tượng sau đó đối sánh với yêu cầu để tìm ra những dữ liệu phù hợp. Hệ thống truy tìm tài liệu văn bản cũng không nằm ngoài quy trình đó, các tài liệu được xử lý tìm ra đại diện của tài liệu, đồng thời câu truy vấn của người sử dụng đưa vào cũng được xử lý để đưa ra đại diện của truy vấn. Quá trình tiền xử lý này yêu cầu cách thức tìm ra đặc trưng của tài liệu, cách thức tổ chức lưu trữ tài liệu, quá trình xử lý văn bản để loại đi những yếu tố không cần thiết và rất nhiều các bước xử lý khác. Bài toán tập trung vào bước đối sánh đại diện của câu truy vấn với đại diện của tài liệu, nghiên cứu các kỹ thuật đem lại hiệu quả so sánh để đưa ra được những tài liệu phù hợp nhất, nhanh nhất.

Trong thực tế, có rất nhiều kỹ thuật tìm kiếm, có kỹ thuật hiệu quả không cao song cách thức đơn giản, dễ hiểu, có kỹ thuật đem lại hiểu quả tốt, giảm bớt phức tạp song chưa linh hoạt và có kỹ thuật được xem là tốt hơn... Một số kỹ thuật được nghiên cứu trong phạm vi luận văn như mô hình

Boolean; mô hình không gian vectơ; mô hình tìm kiếm theo xác xuất và mô hình tìm kiếm LSI; thư viện tìm kiếm văn bản dtSearch.

3.2 Thƣ viện tìm kiếm văn bản DTSearch

Hiện nay đã có nhiều tổ chức nghiên cứu và phát triển công cụ tìm kiếm văn bản dựa trên kỹ thuật chỉ mục và đã ra đời nhiều công cụ tìm kiếm đã được thương mại và ứng dụng thực tiễn như dtSearch, Lucence,.. Trong phần này công cụ dtSearch được giới thiệu trong môi trường lập trình Java.

3.2.1 Giới thiệu chung

dtSearch là một hệ thống các công cụ trợ giúp cho việc tìm kiếm các dữ liệu văn bản trên máy tính bằng phương pháp lập chỉ mục rất hiệu quả, được phát triển bởi hãng phần mềm dtSearch. Phiên bản đầy đủ của dtSearch bao gồm các công cụ phần mềm tìm kiếm có sẵn phục vụ cho người dùng cuối (end-user) và công cụ hỗ trợ cho lập trình viên (developer) phát triển phần mềm đóng gói.

 dtSearch Desktop: Công cụ lập chỉ mục và tìm kiếm các tài liệu trên máy tính cá nhân, hỗ trợ nhiều định dạng tài liệu khác nhau.

 dtSearch Spider: Công cụ cho phép lập chỉ mục nội dung của các Website, các tài liệu trong Website với nhiều định dạng khác nhau và cả những nội dung Web động. Nó cho phép lập chỉ mục theo độ sâu của Web links và các link cùng mức.

 dtSearch Web: Cung cấp khả năng xuất bản các tài liệu cùng với chức năng tìm kiếm lập chỉ mục dữ liệu đó lên Website.

 dtSearch Network: Công cụ cho phép chia sẻ CSDL chỉ mục và tìm kiếm trong mạng nội bộ.

chức năng tìm kiếm trên thiết bị lưu trữ ngoài như CD, DVD,…

 dtSearch Engine: cho phép developers đưa các chức năng của DtSearch vào các sản phẩm phần mềm đóng gói.

Kết quả tìm kiếm có thể được xuất ra dưới định dạng HTML hoặc PDF và có thể đánh dấu các từ tìm được (highlighted hits) cũng như gắn các liên kết tới các tài liệu liên quan.

3.2.2 Yêu cầu phần cứng

a) Hệ điều hành: Windows XP, Windows Server 2003, Windows Vista, Windows 7, Windows Server 2008

b) Cấu hình:

- Độ phân giải màn hình 800x600 trở lên

- Ram 1Gb trở lên. (dtSearch khi chạy sẽ tốn khoảng 10-20Mb bộ nhớ

cho việc tìm kiếm, khoảng 30Mb cho việc đánh chỉ mục)

- Sau khi cài đặt dtSearch chiếm khoảng 100Mb bộ nhớ ổ cứng (tùy

thuộc phiên bản dtSearch được chọn). Ngoài ra khi đánh chỉ mục, mỗi chỉ mục sẽ có kích thước khoảng 1/3 kích thước tài liệu gốc.

3.2.3 Cấu trúc các chức năng và thành phần của dtSearch

Các thao tác khi làm việc với dtSearch bao gồm: 1. Lập chỉ mục tài liệu.

2. Tìm kiếm.

3. Xem kết quả tìm kiếm.

Hình 3.1 Sơ đồ các chức năng thành phần của dtSearch

dtSearch cho phép tìm kiếm theo kiểu truyền thống với những thông tin mở rộng như tìm theo tên tệp, thời gian khởi tạo,… đối với những tệp dữ liệu mà không cần lập chỉ mục. Nhưng để tìm kiếm với tốc độ nhanh, tiết kiệm thời gian và để thu được những kết quả phù hợp hơn với mong muốn của người sử dụng, những tài liệu cần tìm kiếm cần phải được lập chỉ mục trước khi tìm kiếm. Như vậy, thao tác đầu tiên khi làm việc với dtSearch là lập chỉ mục các tài liệu, sau đó mới tìm kiếm. Mỗi khi thêm một tài liệu mới vào hệ thống, tài liệu này cần được lập chỉ mục, nếu không, nó sẽ không được tham gia vào danh sách những tài liệu có thế được xử lý khi tìm kiếm.

Thành phần trung tâm của dtSearch là dtSearch Engine, nó chứa tất cả các đối tượng, các chức năng của dtSearch. Trong qui trình thao tác với dtSearch, đầu tiên phải sử dụng thành phần cài đặt lựa chọn để cài đặt các lựa chọn, các thông số, các yêu cầu cần thiết để điều kiển việc lập chỉ mục và việc tìm kiếm.

Thành phần lập chỉ mục có chức năng thu thập tài liệu cần tìm kiếm và tạo cơ sở dữ liệu chỉ mục của các tài liệu đó dựa trên những lựa chọn liên

dtSearch Engine Đánh chỉ mục Tìm kiếm Hiển thị kết quả tìm kiếm Các lựa chọn chỉ mục Các lựa chọn tìm kiếm Các văn bản

quan đến việc lập chỉ mục đã được xác định từ trước, trong thành phần cài đặt lựa chọn.

Thành phần tìm kiếm có chức năng tìm kiếm các tài liệu phù hợp với yêu cầu tìm kiếm của người dùng. Các tài liệu cần tìm là những tài liệu đã được đánh chỉ mục hoặc có thể yêu cầu tìm kiếm cả những tệp tài liệu khác. Khi đưa ra một yêu cầu tìm kiếm tới dtSearch, ta có thể sử dụng các toán tử logic (AND, OR, NOT), các toán tử khác (W/N, contains, xfirstword, xlastword), các ký hiệu thay thế (?, *, %, #, ~, &, ~~). Ngoài ra, dtSearch còn hỗ trợ khả năng tìm kiếm theo từ gốc (apply <=> applies), tìm kiếm mờ, các từ đồng âm, đồng nghĩa,…

Thành phần hiển thị kết quả tìm kiếm cung cấp khả năng xuất kết quả tìm được ra định dạng HTML hay PDF với những từ tìm được sẽ được đánh dấu (highlighted hits) để có thể dễ dàng xác định được đoạn văn bản mà người dùng quan tâm.

Giữa các thành phần này có sự liên hệ, tương tác với nhau. Trước khi lập chỉ mục hay tìm kiếm, phải cài đặt các lựa chọn cần thiết để cho quá trình lập chỉ mục hay tìm kiếm có hiệu quả.

3.2.4 Sử dụng dtSearch trong môi trƣờng lập trình Java

Đối với người lập trình, dtSearch cung cấp thư viện các hàm API cho phép truy xuất đến các chức năng lập chỉ mục và tìm kiếm của tdSearch qua môi trường lập trình C, C++, Java, Visual Basic và ASP... Với môi trường lập trình Java, ta có thể sử dụng các chức năng của dtSearch một cách đơn giản thông qua một số thư viện lớp do dtSearch cung cấp.

Các thành phần chính của dtSearch bao gồm:

 dten600.dll: Là tệp thư viện DLL 32 bit, chứa chức năng chính, các lệnh đánh chỉ mục và tìm kiếm, có thể được sử dụng trong nhiều môi

trường lập trình khác nhau.

 dtsjava.dll: Là tệp thư viện dùng để lập trình bằng Java.

 dtisapi6.dll: Là tệp thư viện dùng cho dtSearch Web, nó lam việc với Microsoft Internet Information Server version 4 hoặc cao hơn.

 dtv_odbc.dll: Là tệp chứa chức năng đánh chỉ mục cho các cơ sở dữ liệu. Để đánh chỉ mục cho các cơ sở dữ liệu dùng ODBC, cần phải đặt tệp dtv_odbc.dll này trong thư mục “viewers” là thư mục con của thư mục chứa tệp dten600.dll.

Trong phần này ta chỉ xét 2 thành phần dten600.dll và dtsjava.dll dùng cho môi trường lập trình Java. 2 file này được đặt trong thư mục bin/ khi cài đặt dtSearch. Để sử dụng ta thêm đường dẫn tới thư mục này vào biến môi trường trong windows (mặc định là C:\ProgramFiles\dtSearch Developer\bin). Giao diện chính của chương trình demo:

Sau khi đánh chỉ mục, ta có thể sử dụng chức năng tìm kiếm theo chỉ mục vừa cập nhật:

KẾT LUẬN

Qua tìm hiểu, nghiên cứu cho thấy tính ứng dụng và tính thiết thực của các hệ thống truy tìm thông tin (IR) đa phương tiện nói chung và truy tìm thông tin văn bản nói riêng. Luận văn đi sâu nghiên cứu vấn đề truy tìm văn bản trên cơ sở nội dung qua một số mô hình cụ thể. Qua một quá trình nghiên cứu, luận văn đã đạt được những kết quả sau:

- Tìm hiểu tổng quan về cơ sở dữ liệu đa phương tiện, tầm quan trọng của cơ sở dữ liệu trong xã hội thông tin ngày nay. Hiểu được nguyên lý thiết kế CSDL đa phương tiện thông qua các nhiệm vụ thiết kế.

- Nghiên cứu cách thức hoạt động của hệ thống truy tìm thông tin nói chung và nghiên cứu một số vấn đề chỉ mục, tìm kiếm tài liệu văn bản trên cơ sở nội dung nói riêng.

-Tìm hiểu một số mô hình tìm kiếm như: Mô hình Boolean cơ sở, mở rộng; mô hình không gian vectơ; mô hình tìm kiếm theo xác xuất và mô hình tìm kiếm LSI.

- Nghiên cứu thử nghiệm thư viện tìm kiếm văn bản DTSearch.

Bên cạnh đó, luận văn còn một số nhược điểm như: Chương trình mới chỉ mô tả được thuật toán tìm kiếm, chưa mô tả được hoàn thiện một chương trình tìm kiếm. Chưa so sánh được chi tiết các phương pháp tìm kiếm nêu ra; chưa đánh giá được hiệu năng tìm kiếm của từng phương pháp trên một tập dữ liệu cụ thể.

Hướng nghiên cứu: Hoàn thiện chương trình tìm kiếm để có thể đưa vào ứng dụng. Tiếp tục tìm hiểu về các kỹ thuật tìm kiếm nâng cao dựa trên cơ sở nội dung đối với tài liệu văn bản nói riêng và tìm kiếm đối với cơ sở dữ liệu đa phương tiện nói chung. Đánh giá được khả năng tìm kiếm của các mô hình trên từng dữ liệu cụ thể.

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. PGS.TS. Đặng Văn Đức (2004-2008), Bài giảng Cơ sở dữ liệu đa

phương tiện.

Tiếng Anh

2. Karl Aberer (2003), Data Mining, Laboratoire de systèmeses

d’informations répartis.

3. Ricardo Baeza, Berthier Ribeiro (1999), Modern Information Retrieval,

ACM Press New York.

4. Jamie Callan (2008), Information Retrieval, Carnegie Mellon

University.

5. Soumen Chakrabarti (2003), Mining the Web, Morgan Kaufmann

Publishers.

6. Scott Deerwester et al (1990), Indexing by Latent Semantic Analysis,

Journal of The American Society for Information Science.

7. Edel Garcia (2006), Latent Semantic Indexing (LSI) A Fast Track

Tutorial, Grossman and Frieder’s Information Retrieval, Algorithms and Heuristics.

8. David Hand, Heikki Mannila & Padhraic Smyth (2001), Principles of

Data Mining, The MIT Press, pp. 267-287.

9. Chris Manning et al (2007), Information Retrieval and Lantent Semantic

Indexing, Lecture Notes, Marcus Uneson.

10. E.G.M Petrakis, Multimedia Information Retrieval, University of

Maryland.

11. Gerard Salton, Chris Buckley (1988), Parallel text search methods,

Communications of the ACM.

12. Marcel Worring, Multimedia Information Systems, Lecture Notes,

University of Amsterdam.

13. Justin Zobel, Alistair Moffat (2006), Inverted File for Text Search

Một phần của tài liệu tìm kiếm văn bản theo nội dung và ứng dụng (Trang 55 - 66)

Tải bản đầy đủ (PDF)

(66 trang)