Các thao tác khi làm việc với dtSearch bao gồm: 1. Lập chỉ mục tài liệu.
2. Tìm kiếm.
3. Xem kết quả tìm kiếm.
Hình 3.1 Sơ đồ các chức năng thành phần của dtSearch
dtSearch cho phép tìm kiếm theo kiểu truyền thống với những thông tin mở rộng như tìm theo tên tệp, thời gian khởi tạo,… đối với những tệp dữ liệu mà không cần lập chỉ mục. Nhưng để tìm kiếm với tốc độ nhanh, tiết kiệm thời gian và để thu được những kết quả phù hợp hơn với mong muốn của người sử dụng, những tài liệu cần tìm kiếm cần phải được lập chỉ mục trước khi tìm kiếm. Như vậy, thao tác đầu tiên khi làm việc với dtSearch là lập chỉ mục các tài liệu, sau đó mới tìm kiếm. Mỗi khi thêm một tài liệu mới vào hệ thống, tài liệu này cần được lập chỉ mục, nếu không, nó sẽ không được tham gia vào danh sách những tài liệu có thế được xử lý khi tìm kiếm.
Thành phần trung tâm của dtSearch là dtSearch Engine, nó chứa tất cả các đối tượng, các chức năng của dtSearch. Trong qui trình thao tác với dtSearch, đầu tiên phải sử dụng thành phần cài đặt lựa chọn để cài đặt các lựa chọn, các thông số, các yêu cầu cần thiết để điều kiển việc lập chỉ mục và việc tìm kiếm.
Thành phần lập chỉ mục có chức năng thu thập tài liệu cần tìm kiếm và tạo cơ sở dữ liệu chỉ mục của các tài liệu đó dựa trên những lựa chọn liên
dtSearch Engine Đánh chỉ mục Tìm kiếm Hiển thị kết quả tìm kiếm Các lựa chọn chỉ mục Các lựa chọn tìm kiếm Các văn bản
quan đến việc lập chỉ mục đã được xác định từ trước, trong thành phần cài đặt lựa chọn.
Thành phần tìm kiếm có chức năng tìm kiếm các tài liệu phù hợp với yêu cầu tìm kiếm của người dùng. Các tài liệu cần tìm là những tài liệu đã được đánh chỉ mục hoặc có thể yêu cầu tìm kiếm cả những tệp tài liệu khác. Khi đưa ra một yêu cầu tìm kiếm tới dtSearch, ta có thể sử dụng các toán tử logic (AND, OR, NOT), các toán tử khác (W/N, contains, xfirstword, xlastword), các ký hiệu thay thế (?, *, %, #, ~, &, ~~). Ngoài ra, dtSearch còn hỗ trợ khả năng tìm kiếm theo từ gốc (apply <=> applies), tìm kiếm mờ, các từ đồng âm, đồng nghĩa,…
Thành phần hiển thị kết quả tìm kiếm cung cấp khả năng xuất kết quả tìm được ra định dạng HTML hay PDF với những từ tìm được sẽ được đánh dấu (highlighted hits) để có thể dễ dàng xác định được đoạn văn bản mà người dùng quan tâm.
Giữa các thành phần này có sự liên hệ, tương tác với nhau. Trước khi lập chỉ mục hay tìm kiếm, phải cài đặt các lựa chọn cần thiết để cho quá trình lập chỉ mục hay tìm kiếm có hiệu quả.
3.2.4 Sử dụng dtSearch trong môi trƣờng lập trình Java
Đối với người lập trình, dtSearch cung cấp thư viện các hàm API cho phép truy xuất đến các chức năng lập chỉ mục và tìm kiếm của tdSearch qua môi trường lập trình C, C++, Java, Visual Basic và ASP... Với môi trường lập trình Java, ta có thể sử dụng các chức năng của dtSearch một cách đơn giản thông qua một số thư viện lớp do dtSearch cung cấp.
Các thành phần chính của dtSearch bao gồm:
dten600.dll: Là tệp thư viện DLL 32 bit, chứa chức năng chính, các lệnh đánh chỉ mục và tìm kiếm, có thể được sử dụng trong nhiều môi
trường lập trình khác nhau.
dtsjava.dll: Là tệp thư viện dùng để lập trình bằng Java.
dtisapi6.dll: Là tệp thư viện dùng cho dtSearch Web, nó lam việc với Microsoft Internet Information Server version 4 hoặc cao hơn.
dtv_odbc.dll: Là tệp chứa chức năng đánh chỉ mục cho các cơ sở dữ liệu. Để đánh chỉ mục cho các cơ sở dữ liệu dùng ODBC, cần phải đặt tệp dtv_odbc.dll này trong thư mục “viewers” là thư mục con của thư mục chứa tệp dten600.dll.
Trong phần này ta chỉ xét 2 thành phần dten600.dll và dtsjava.dll dùng cho môi trường lập trình Java. 2 file này được đặt trong thư mục bin/ khi cài đặt dtSearch. Để sử dụng ta thêm đường dẫn tới thư mục này vào biến môi trường trong windows (mặc định là C:\ProgramFiles\dtSearch Developer\bin). Giao diện chính của chương trình demo:
Sau khi đánh chỉ mục, ta có thể sử dụng chức năng tìm kiếm theo chỉ mục vừa cập nhật:
KẾT LUẬN
Qua tìm hiểu, nghiên cứu cho thấy tính ứng dụng và tính thiết thực của các hệ thống truy tìm thông tin (IR) đa phương tiện nói chung và truy tìm thông tin văn bản nói riêng. Luận văn đi sâu nghiên cứu vấn đề truy tìm văn bản trên cơ sở nội dung qua một số mô hình cụ thể. Qua một quá trình nghiên cứu, luận văn đã đạt được những kết quả sau:
- Tìm hiểu tổng quan về cơ sở dữ liệu đa phương tiện, tầm quan trọng của cơ sở dữ liệu trong xã hội thông tin ngày nay. Hiểu được nguyên lý thiết kế CSDL đa phương tiện thông qua các nhiệm vụ thiết kế.
- Nghiên cứu cách thức hoạt động của hệ thống truy tìm thông tin nói chung và nghiên cứu một số vấn đề chỉ mục, tìm kiếm tài liệu văn bản trên cơ sở nội dung nói riêng.
-Tìm hiểu một số mô hình tìm kiếm như: Mô hình Boolean cơ sở, mở rộng; mô hình không gian vectơ; mô hình tìm kiếm theo xác xuất và mô hình tìm kiếm LSI.
- Nghiên cứu thử nghiệm thư viện tìm kiếm văn bản DTSearch.
Bên cạnh đó, luận văn còn một số nhược điểm như: Chương trình mới chỉ mô tả được thuật toán tìm kiếm, chưa mô tả được hoàn thiện một chương trình tìm kiếm. Chưa so sánh được chi tiết các phương pháp tìm kiếm nêu ra; chưa đánh giá được hiệu năng tìm kiếm của từng phương pháp trên một tập dữ liệu cụ thể.
Hướng nghiên cứu: Hoàn thiện chương trình tìm kiếm để có thể đưa vào ứng dụng. Tiếp tục tìm hiểu về các kỹ thuật tìm kiếm nâng cao dựa trên cơ sở nội dung đối với tài liệu văn bản nói riêng và tìm kiếm đối với cơ sở dữ liệu đa phương tiện nói chung. Đánh giá được khả năng tìm kiếm của các mô hình trên từng dữ liệu cụ thể.
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. PGS.TS. Đặng Văn Đức (2004-2008), Bài giảng Cơ sở dữ liệu đa
phương tiện.
Tiếng Anh
2. Karl Aberer (2003), Data Mining, Laboratoire de systèmeses
d’informations répartis.
3. Ricardo Baeza, Berthier Ribeiro (1999), Modern Information Retrieval,
ACM Press New York.
4. Jamie Callan (2008), Information Retrieval, Carnegie Mellon
University.
5. Soumen Chakrabarti (2003), Mining the Web, Morgan Kaufmann
Publishers.
6. Scott Deerwester et al (1990), Indexing by Latent Semantic Analysis,
Journal of The American Society for Information Science.
7. Edel Garcia (2006), Latent Semantic Indexing (LSI) A Fast Track
Tutorial, Grossman and Frieder’s Information Retrieval, Algorithms and Heuristics.
8. David Hand, Heikki Mannila & Padhraic Smyth (2001), Principles of
Data Mining, The MIT Press, pp. 267-287.
9. Chris Manning et al (2007), Information Retrieval and Lantent Semantic
Indexing, Lecture Notes, Marcus Uneson.
10. E.G.M Petrakis, Multimedia Information Retrieval, University of
Maryland.
11. Gerard Salton, Chris Buckley (1988), Parallel text search methods,
Communications of the ACM.
12. Marcel Worring, Multimedia Information Systems, Lecture Notes,
University of Amsterdam.
13. Justin Zobel, Alistair Moffat (2006), Inverted File for Text Search