Tìm kiếm văn bản theo nội dung và ứng dụng

66 3 0
Tìm kiếm văn bản theo nội dung và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀ THƠNG HÀ THANH THỦY TÌM KIẾM VĂN BẢN THEO NỘI DUNG VÀ ỨNG DỤNG Luận văn thạc sĩ khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Thái nguyên – 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CẢM ƠN Để hoàn thành chương trình cao học, tơi nhận hướng dẫn, giúp đỡ góp ý nhiệt tình q thầy cô trường Đại học Công nghệ thông tin - Truyền thông, Đại học Thái Nguyên Trước hết, xin chân thành cảm ơn q thầy trường Đại học Cơng nghệ thông tin - Truyền thông, đặc biệt thầy tận tình dạy bảo cho tơi suốt thời gian học tập trường Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Đặng Văn Đức người thầy dành nhiều thời gian, tâm huyết tận tình giúp đỡ, hướng dẫn tơi suốt q trình nghiên cứu để hồn thành luận văn Đồng thời, xin chân thành cảm ơn Sở Giáo dục đào tạo tỉnh Thái Nguyên, Ban Giám hiệu trường THPT Lương Ngọc Quyến tạo điều kiện giúp đỡ mặt để học tập hồn thành tốt khóa học Cuối tơi xin chân thành cảm ơn gia đình bạn bè, người động viên, khuyến khích tơi suốt q trình học tập nghiên cứu Mặc dù có nhiều cố gắng hoàn thiện luận văn tất nhiệt tình lực mình, nhiên khơng thể tránh khỏi thiếu sót, tơi mong nhận đóng góp q báu q thầy cô bạn Thái Nguyên, ngày 20 tháng năm 2012 Học viên Hà Thanh Thủy Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Thái Nguyên, ngày 20 tháng năm 2012 Học viên Hà Thanh Thủy Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT Từ gốc CSDL DBMS (DataBase Management System) IR (Information Retrieval) IDF(Inverse Document Frequency) LSI(Latent Semantic Indexing) MMDBMS (Multimedia Database Management System) SVD(Singular Value Decomposition) TF (Term Frequency) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Giải nghĩa Cơ sở liệu Hệ quản trị Cơ sở liệu Truy tìm thơng tin Tần số xuất tài liệu phù hợp Chỉ số hóa ngữ nghĩa ẩn Hệ quản trị sở liệu đa phương tiện Kỹ thuật tách giá trị đơn Tần số xuất thuật ngữ http://www.lrc-tnu.edu.vn iv DANH MỤC HÌNH VẼ Hình 1.1 Mơ hình liệu đa phương tiện Hình 1.2 Hệ thống IR tiêu biểu Hình 1.3 Tiến trình truy vấn tài liệu Hình 1.4 Đồ thị so sánh hiệu Hình 2.1 Mơ tả kết hợp Boolean Hình 2.2 Sử dụng khái niệm cho truy vấn Hình 2.3 Sơ đồ SVD ma trận hình chữ nhật thuật ngữ-tài liệu Hình 2.4 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu Hình 2.5 Đồ thị Recall – Precision thuật tốn LSI Hình 2.6 Mơ hình khái niệm Hình 3.1 Sơ đồ chức thành phần dtSearch Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v MỤC LỤC MỞ ĐẦU CHƢƠNG I: TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THÔNG TIN THEO NỘI DUNG 1.1 Khái quát sở liệu đa phương tiện 1.1.1 Giới thiệu 1.1.2 Mục tiêu .6 1.1.3 Mơ hình liệu đa phương tiện 1.2 Hệ thống truy tìm thơng tin 1.2.1 Khái quát 1.2.2 Vấn đề truy tìm tài liệu văn 10 1.2.3 Phân biệt hệ thống IR DBMS 12 1.3 Trích chọn đặc trưng, mục đo tính tương tự 14 1.3.1 Trích chọn đặc trưng 14 1.3.2 Chỉ số hoá cấu trúc .16 1.3.3 Đo tính tương tự 17 1.4 Xếp hạng tài liệu 17 CHƢƠNG II: MỘT SỐ KỸ THUẬT TÌM KIẾM THƠNG TIN VĂN 23 BẢN THEO NỘI DUNG 23 2.1 Mơ hình tìm kiếm thông tin Bool 23 2.1.1 Truy vấn Boolean .23 2.1.2 Cấu trúc tệp mục .25 2.1.3 Chỉ mục tự động 28 2.1.4 Tổng kết mục tự động tài liệu 31 2.2 Tìm kiếm văn sở mơ hình khơng gian vector 32 2.3 Tìm kiếm văn sở kỹ thuật LSI 34 2.3.1 Ý tưởng LSI 34 2.3.2 Một số khái niệm .36 2.3.3 Kỹ thuật SVD (singular value decomposition) 38 2.4 Mơ hình tìm kiếm theo xác suất 41 2.4.1 Lịch sử mơ hình xác suất IR 41 2.4.2 Không gian biến cố .42 2.4.3 Một mơ hình khái niệm .43 2.4.4 Về khái niệm “liên quan” “xác suất liên quan” 45 2.4.5 Nguyên tắc xếp hạng xác suất 45 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vi 2.4.6 Mơ hình nhị phân độc lập (BIM) 46 CHƢƠNG III: NGHIÊN CỨU THỬ NGHIỆM THƢ VIỆN TÌM 48 KIẾM VĂN BẢN DTSEARCH 48 3.1 Bài toán 48 3.2 Thư viện tìm kiếm văn DTSearch 49 3.2.1 Giới thiệu chung 49 3.2.2 Yêu cầu phần cứng .50 3.2.3 Cấu trúc chức thành phần dtSearch 50 3.2.4 Sử dụng dtSearch mơi trường lập trình Java 52 KẾT LUẬN .58 TÀI LIỆU THAM KHẢO .59 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Công nghệ thông tin giới phát triển nhanh giai đoạn Những tiến khoa học công nghệ thông tin áp dụng phục vụ công tác nghiên cứu khoa học, công tác quản lý, sản xuất phục vụ đời sống người hàng ngày Càng ngày, người ta nhận thấy tính hiệu quả, tiện ích khoa học trí tuệ bước thay lao động thủ công, giảm bớt thời gian lao động, tiết kiệm chi phí tạo nên nhiều tiện ích khác Có thể khẳng định rằng: công nghệ thông tin mở kỉ nguyên mới, kỉ nguyên tự động hoá tạo bước nhảy vọt khoa học giới văn minh nhân loại Trong xu phát triển chung xã hội định hướng Đảng Nhà nước ta việc áp dụng công nghệ thông tin tất lĩnh vực đời sống, với phát triển mạnh mẽ công nghệ thông tin, tất lĩnh vực đời sống xã hội tạo khối lượng liệu khổng lồ Trong nhiều tình huống, phải tìm thơng tin cần thiết từ kho liệu khổng lồ có Tuy nhiên, khối lượng liệu lớn, thời gian hạn hẹp nhiều việc tìm kiếm liệu gặp nhiều khó khăn Do đó, cần có hệ thống tìm kiếm thơng tin để hỗ trợ người dùng tìm kiếm nhanh hiệu thơng tin mà họ quan tâm Việc tìm tịi nghiên cứu ứng dụng thuật tốn giúp cho việc tìm kiếm liệu nhanh chóng, tiết kiệm thời gian, có hệ thống khoa học việc làm cần thiết giai đoạn Văn số dạng liệu đa phương tiện, quan tâm từ hàng nghìn năm trước việc tổ chức xếp lưu trữ Tài liệu văn chiếm đa số quan tổ chức, đặc biệt thư viện Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn cịn sử dụng để mơ tả dạng khác liệu đa phương tiện video, audio, hình ảnh Số lượng tài liệu văn ngày lớn có vai trị vơ quan trọng, việc lưu trữ, xử lý truy tìm thủ cơng trước khơng thể khó thực Vì mục tiêu luận văn nhằm tìm hiểu số kỹ thuật tìm kiếm văn theo nội dung sở liệu đa phương tiện nhằm đáp ứng nhu cầu cấp thiết thời đại bùng nổ thông tin điện tử Trên thực tế, có nhiều cơng trình nghiên cứu vấn đề cơng bố nước Mục tiêu luận văn với đề tài”Tìm kiếm văn theo nội dung ứng dụng” mà hướng tới nghiên cứu số kỹ thuật/phương pháp mới, thử đánh giá so sánh ứng dụng vào môi trường cụ thể Đối tƣợng phạm vi nghiên cứu Hệ thống đa phương tiện vấn đề phức tạp rộng lớn, phạm vi nghiên cứu luận văn giới hạn việc sử dụng số kỹ thuật tìm kiếm văn theo nội dung, sau phát triển chương trình demo ứng dụng tìm kiếm văn theo nội dung Hƣớng nghiên cứu đề tài - Nắm vững qui trình thiết kế CSDL đa phương tiện, CSDL văn thành phần quan trọng - Nghiên cứu số kỹ thuật tìm kiếm văn theo nội dung như: mơ hình tìm kiếm Bool, mơ hình tìm kiếm khơng gian vector, mơ hình tìm kiếm theo xác suất, kỹ thuật mục ngữ nghĩa tiềm ẩn (Latent Sematic Indexing-LSI) - Nghiên cứu độ đo phù hợp để đánh giá hiệu hệ thống Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - Xây dựng thử nghiệm chương trình demo tìm kiếm văn theo nội dung sở thư viện dtSearch Phƣơng pháp nghiên cứu - Tổng hợp tài liệu từ nhiều nguồn khác - Phân tích, liệt kê, so sánh, đối chiếu, trực quan, thực nghiệm,… Cấu trúc luận văn Ngoài phần mở đầu giới thiệu ý nghĩa chủ đề nghiên cứu phần kết luận nêu lên kết đạt được, luận văn gồm chương sau đây: Chƣơng I: Giới thiệu tổng quan hệ thống tìm kiếm thông tin theo nội dung Chƣơng II: Một số kỹ thuật tìm kiếm thơng tin văn theo nội dung Chƣơng III: Nghiên cứu thử nghiệm thư viện tìm kiếm văn dtSearch Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 45 Tập đại diện Q D mô tả ánh xạ Q’ D’ Hơn nữa, cần thiết để lập sơ đồ bổ sung phát sinh cho mô hình có tính tổng hợp phép mẫu đủ lớn cho dự toán Tuy nhiên, hầu hết mơ hình làm việc trực tiếp với tài liệu gốc đại diện truy vấn 2.4.4 Về khái niệm “liên quan” “xác suất liên quan” Các khái niệm liên quan cho khái niệm IR Mặc dù có số lượng lớn nỗ lực hướng tới định nghĩa cho khái niệm liên quan [Seracevic 1970; Cooper 1971; Mizzaro 1996], chưa có thỏa thuận định nghĩa xác Tham chiếu đến mơ hình trình bày trên, liên quan (R) mối quan hệ tài liệu (dj ) nhu cầu thông tin người sử dụng (qk) Nếu người dùng muốn tài liệu d có liên quan đến thơng tin cần qk dj có liên quan (R) Các mơ hình giải thích chứng sẵn có để hệ thống IR ước tính xác suất liên quan P (R | qk, dj) Một định nghĩa xác xác suất liên quan phụ thuộc vào định nghĩa khái niệm liên quan, đưa định nghĩa xác liên quan xác định cách chặt chẽ xác suất 2.4.5 Nguyên tắc xếp hạng xác suất Đặc điểm chung tất mơ hình xác suất phát triển IR tuân thủ lý thuyết Nguyên tắc xếp hạng xác suất (PRP) [Robertson 1977] PRP khẳng định tối ưu hiệu suất truy tìm đạt tài liệu xếp hạng theo xác suất họ đánh giá có liên quan đến truy vấn Các xác suất nên ước tính cách xác sở liệu sẵn có cho mục đích Theo ngun tắc “truy tìm tối ưu” khác “truy tìm hồn hảo” Truy tìm tối ưu định nghĩa xác từ xác suất IR chứng minh mặt lý thuyết đại diện (hoặc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 46 mô tả) tài liệu nhu cầu thơng tin Truy tìm hồn hảo liên quan đến đối tượng hệ thống IR, nghĩa là, tài liệu nhu cầu thông tin Định nghĩa thức PRP sau: C biểu thị chi phí truy hồi tài liệu có liên quan, C chi phí truy hồi tài liệu khơng có liên quan Các quy tắc sở PRP tài liệu dm lấy truy vấn qk tài liệu di sưu tập nếu: C P (R | qk, dm) + C (1- P (R | qk, dm))  P(R| qk|di) + C ( 1- P (R| qk| di)) 2.4.6 Mơ hình nhị phân độc lập (BIM) Mơ hình nhị phân độc lập (BIM) mơ hình truyền thống sử dụng với PRP Nó giới thiệu số giả định đơn giản, làm cho chức ước tính xác suất P(R|d,q) tương đương với Boolean: Tài liệu truy vấn hai đại diện theo tỉ lệ Có nghĩa là, tài liệu d đại diện véc tơ với Xt=1 thuật ngữ t có tài lỉệu d Xt=0 t không diện d Mơ hình chấp nhận khơng có liên kết tài liệu Điều giả định đúng, thường cho kết thoả đáng thực hành Nó giả định “Naive” mơ hình NaiveBayes’ Thật mơ hình nhị phân độc lập xác giống mơ hình đa biến Bernoulli NaiveBayes’ Trong ý nghĩa giả định tương đương giả định mơ hình khơng gian véc tơ, tài liệu trực giao với tất tài liệu khác Để thực chiến lược tìm kiếm theo xác suất, cần phải ước tính nào, thuật ngữ tài liệu liên quan cụ thể Chúng ta muốn biết tần số thuật ngữ, tần số tài liệu, độ dài tài liệu số liệu thống kê khác mà tính tốn tài liệu liên quan làm kết hợp cách hợp lí để ước tính xác suất tài liệu liên quan Giả định Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 47 liên quan tài liệu độc lập phù hợp tài liệu khác Theo BIM mơ hình xác suất P(R|d,q) tài liệu có liên quan thông qua xác suất tỉ lệ véc tơ tài liệu PR x, q  Sau cách sử dụng qui   tắc Bayes’ ta có:    Px R  1, q PR  q    PR  x , q    P x q     Px R  0, q PR  q    PR  x , q    P x q  Ở Px R  1, q  Px R  0, q  xác suất có liên quan     không liên quan Làm để tính tốn tất xác suất? Khơng biết xác suất xác phải sử dụng ước tính: Thống kê việc thu thập tài liệu thực tế sử dụng để ước tính xác suất   PR  q  PR  q  cho thấy xác suất tài liệu có liên quan  không liên quan cho truy vấn q Nếu biết tỉ lệ phần trăm tài liệu có liên quan sưu tập sử dụng số để ước lượng   PR  q  PR  q  Kể từ tài liệu có liên quan khơng liên quan truy vấn ta có PR  x, q   PR  x, q     Số hóa Trung tâm Học liệu – Đại học Thái Nguyên   http://www.lrc-tnu.edu.vn 48 CHƢƠNG III: NGHIÊN CỨU THỬ NGHIỆM THƢ VIỆN TÌM KIẾM VĂN BẢN DTSEARCH 3.1 Bài toán Cơ sở liệu đa phương tiện bao gồm văn bản, hình ảnh, âm video Mỗi loại liệu có tính chất đặc trưng riêng, phạm vi nghiên cứu biểu diễn, tổ chức, lưu trữ truy vấn liệu đa phương tiện lớn Trong đó, tài liệu văn loại liệu quan trọng, loại liệu thiếu quan, tổ chức, thư viện… người ta dùng để mơ tả loại liệu khác Trong máy tìm kiếm, loại liệu phải trải qua quy trình xử lý để tìm đặc trưng riêng đối tượng sau đối sánh với yêu cầu để tìm liệu phù hợp Hệ thống truy tìm tài liệu văn khơng nằm ngồi quy trình đó, tài liệu xử lý tìm đại diện tài liệu, đồng thời câu truy vấn người sử dụng đưa vào xử lý để đưa đại diện truy vấn Quá trình tiền xử lý yêu cầu cách thức tìm đặc trưng tài liệu, cách thức tổ chức lưu trữ tài liệu, trình xử lý văn để loại yếu tố không cần thiết nhiều bước xử lý khác Bài toán tập trung vào bước đối sánh đại diện câu truy vấn với đại diện tài liệu, nghiên cứu kỹ thuật đem lại hiệu so sánh để đưa tài liệu phù hợp nhất, nhanh Trong thực tế, có nhiều kỹ thuật tìm kiếm, có kỹ thuật hiệu khơng cao song cách thức đơn giản, dễ hiểu, có kỹ thuật đem lại hiểu tốt, giảm bớt phức tạp song chưa linh hoạt có kỹ thuật xem tốt Một số kỹ thuật nghiên cứu phạm vi luận văn mơ hình Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn 49 Boolean; mơ hình khơng gian vectơ; mơ hình tìm kiếm theo xác xuất mơ hình tìm kiếm LSI; thư viện tìm kiếm văn dtSearch 3.2 Thƣ viện tìm kiếm văn DTSearch Hiện có nhiều tổ chức nghiên cứu phát triển cơng cụ tìm kiếm văn dựa kỹ thuật mục đời nhiều cơng cụ tìm kiếm thương mại ứng dụng thực tiễn dtSearch, Lucence, Trong phần công cụ dtSearch giới thiệu mơi trường lập trình Java 3.2.1 Giới thiệu chung dtSearch hệ thống công cụ trợ giúp cho việc tìm kiếm liệu văn máy tính phương pháp lập mục hiệu quả, phát triển hãng phần mềm dtSearch Phiên đầy đủ dtSearch bao gồm cơng cụ phần mềm tìm kiếm có sẵn phục vụ cho người dùng cuối (end-user) công cụ hỗ trợ cho lập trình viên (developer) phát triển phần mềm đóng gói  dtSearch Desktop: Cơng cụ lập mục tìm kiếm tài liệu máy tính cá nhân, hỗ trợ nhiều định dạng tài liệu khác  dtSearch Spider: Công cụ cho phép lập mục nội dung Website, tài liệu Website với nhiều định dạng khác nội dung Web động Nó cho phép lập mục theo độ sâu Web links link mức  dtSearch Web: Cung cấp khả xuất tài liệu với chức tìm kiếm lập mục liệu lên Website  dtSearch Network: Cơng cụ cho phép chia sẻ CSDL mục tìm kiếm mạng nội  dtSearch Publish: Công cụ lập mục xuất tài liệu kèm theo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 50 chức tìm kiếm thiết bị lưu trữ CD, DVD,…  dtSearch Engine: cho phép developers đưa chức DtSearch vào sản phẩm phần mềm đóng gói Kết tìm kiếm xuất định dạng HTML PDF đánh dấu từ tìm (highlighted hits) gắn liên kết tới tài liệu liên quan 3.2.2 Yêu cầu phần cứng a) Hệ điều hành: Windows XP, Windows Server 2003, Windows Vista, Windows 7, Windows Server 2008 b) Cấu hình: - Độ phân giải hình 800x600 trở lên - Ram 1Gb trở lên (dtSearch chạy tốn khoảng 10-20Mb nhớ cho việc tìm kiếm, khoảng 30Mb cho việc đánh mục) - Sau cài đặt dtSearch chiếm khoảng 100Mb nhớ ổ cứng (tùy thuộc phiên dtSearch chọn) Ngoài đánh mục, mục có kích thước khoảng 1/3 kích thước tài liệu gốc 3.2.3 Cấu trúc chức thành phần dtSearch Các thao tác làm việc với dtSearch bao gồm: Lập mục tài liệu Tìm kiếm Xem kết tìm kiếm Xuất liệu chức tìm kiếm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 51 Các văn dtSearch Engine Các lựa chọn mục Các lựa chọn tìm kiếm Tìm kiếm Đánh mục Hiển thị kết tìm kiếm Hình 3.1 Sơ đồ chức thành phần dtSearch dtSearch cho phép tìm kiếm theo kiểu truyền thống với thơng tin mở rộng tìm theo tên tệp, thời gian khởi tạo,… tệp liệu mà khơng cần lập mục Nhưng để tìm kiếm với tốc độ nhanh, tiết kiệm thời gian để thu kết phù hợp với mong muốn người sử dụng, tài liệu cần tìm kiếm cần phải lập mục trước tìm kiếm Như vậy, thao tác làm việc với dtSearch lập mục tài liệu, sau tìm kiếm Mỗi thêm tài liệu vào hệ thống, tài liệu cần lập mục, khơng, khơng tham gia vào danh sách tài liệu xử lý tìm kiếm Thành phần trung tâm dtSearch dtSearch Engine, chứa tất đối tượng, chức dtSearch Trong qui trình thao tác với dtSearch, phải sử dụng thành phần cài đặt lựa chọn để cài đặt lựa chọn, thông số, yêu cầu cần thiết để điều kiển việc lập mục việc tìm kiếm Thành phần lập mục có chức thu thập tài liệu cần tìm kiếm tạo sở liệu mục tài liệu dựa lựa chọn liên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 52 quan đến việc lập mục xác định từ trước, thành phần cài đặt lựa chọn Thành phần tìm kiếm có chức tìm kiếm tài liệu phù hợp với yêu cầu tìm kiếm người dùng Các tài liệu cần tìm tài liệu đánh mục u cầu tìm kiếm tệp tài liệu khác Khi đưa yêu cầu tìm kiếm tới dtSearch, ta sử dụng toán tử logic (AND, OR, NOT), toán tử khác (W/N, contains, xfirstword, xlastword), ký hiệu thay (?, *, %, #, ~, &, ~~) Ngồi ra, dtSearch cịn hỗ trợ khả tìm kiếm theo từ gốc (apply applies), tìm kiếm mờ, từ đồng âm, đồng nghĩa,… Thành phần hiển thị kết tìm kiếm cung cấp khả xuất kết tìm định dạng HTML hay PDF với từ tìm đánh dấu (highlighted hits) để dễ dàng xác định đoạn văn mà người dùng quan tâm Giữa thành phần có liên hệ, tương tác với Trước lập mục hay tìm kiếm, phải cài đặt lựa chọn cần thiết trình lập mục hay tìm kiếm có hiệu 3.2.4 Sử dụng dtSearch mơi trƣờng lập trình Java Đối với người lập trình, dtSearch cung cấp thư viện hàm API cho phép truy xuất đến chức lập mục tìm kiếm tdSearch qua mơi trường lập trình C, C++, Java, Visual Basic ASP Với mơi trường lập trình Java, ta sử dụng chức dtSearch cách đơn giản thông qua số thư viện lớp dtSearch cung cấp Các thành phần dtSearch bao gồm:  dten600.dll: Là tệp thư viện DLL 32 bit, chứa chức chính, lệnh đánh mục tìm kiếm, sử dụng nhiều mơi Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 53 trường lập trình khác  dtsjava.dll: Là tệp thư viện dùng để lập trình Java  dtisapi6.dll: Là tệp thư viện dùng cho dtSearch Web, lam việc với Microsoft Internet Information Server version cao  dtv_odbc.dll: Là tệp chứa chức đánh mục cho sở liệu Để đánh mục cho sở liệu dùng ODBC, cần phải đặt tệp dtv_odbc.dll thư mục “viewers” thư mục thư mục chứa tệp dten600.dll Trong phần ta xét thành phần dten600.dll dtsjava.dll dùng cho môi trường lập trình Java file đặt thư mục bin/ cài đặt dtSearch Để sử dụng ta thêm đường dẫn tới thư mục vào biến môi trường windows (mặc định C:\ProgramFiles\dtSearch Developer\bin) Giao diện chương trình demo: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 Giao diện cập nhật mục: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 Sau đánh mục, ta sử dụng chức tìm kiếm theo mục vừa cập nhật: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 Sau bấm tìm kiếm, kết search hiển thị: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 KẾT LUẬN Qua tìm hiểu, nghiên cứu cho thấy tính ứng dụng tính thiết thực hệ thống truy tìm thơng tin (IR) đa phương tiện nói chung truy tìm thơng tin văn nói riêng Luận văn sâu nghiên cứu vấn đề truy tìm văn sở nội dung qua số mơ hình cụ thể Qua q trình nghiên cứu, luận văn đạt kết sau: - Tìm hiểu tổng quan sở liệu đa phương tiện, tầm quan trọng sở liệu xã hội thông tin ngày Hiểu nguyên lý thiết kế CSDL đa phương tiện thông qua nhiệm vụ thiết kế - Nghiên cứu cách thức hoạt động hệ thống truy tìm thơng tin nói chung nghiên cứu số vấn đề mục, tìm kiếm tài liệu văn sở nội dung nói riêng -Tìm hiểu số mơ hình tìm kiếm như: Mơ hình Boolean sở, mở rộng; mơ hình khơng gian vectơ; mơ hình tìm kiếm theo xác xuất mơ hình tìm kiếm LSI - Nghiên cứu thử nghiệm thư viện tìm kiếm văn DTSearch Bên cạnh đó, luận văn cịn số nhược điểm như: Chương trình mơ tả thuật tốn tìm kiếm, chưa mơ tả hồn thiện chương trình tìm kiếm Chưa so sánh chi tiết phương pháp tìm kiếm nêu ra; chưa đánh giá hiệu tìm kiếm phương pháp tập liệu cụ thể Hướng nghiên cứu: Hoàn thiện chương trình tìm kiếm để đưa vào ứng dụng Tiếp tục tìm hiểu kỹ thuật tìm kiếm nâng cao dựa sở nội dung tài liệu văn nói riêng tìm kiếm sở liệu đa phương tiện nói chung Đánh giá khả tìm kiếm mơ hình liệu cụ thể Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 TÀI LIỆU THAM KHẢO Tiếng Việt PGS.TS Đặng Văn Đức (2004-2008), Bài giảng Cơ sở liệu đa phương tiện Tiếng Anh Karl Aberer (2003), Data Mining, Laboratoire de systèmeses d’informations répartis Ricardo Baeza, Berthier Ribeiro (1999), Modern Information Retrieval, ACM Press New York Jamie Callan (2008), Information Retrieval, Carnegie Mellon University Soumen Chakrabarti (2003), Mining the Web, Morgan Kaufmann Publishers Scott Deerwester et al (1990), Indexing by Latent Semantic Analysis, Journal of The American Society for Information Science Edel Garcia (2006), Latent Semantic Indexing (LSI) A Fast Track 10 11 12 13 Tutorial, Grossman and Frieder’s Information Retrieval, Algorithms and Heuristics David Hand, Heikki Mannila & Padhraic Smyth (2001), Principles of Data Mining, The MIT Press, pp 267-287 Chris Manning et al (2007), Information Retrieval and Lantent Semantic Indexing, Lecture Notes, Marcus Uneson E.G.M Petrakis, Multimedia Information Retrieval, University of Maryland Gerard Salton, Chris Buckley (1988), Parallel text search methods, Communications of the ACM Marcel Worring, Multimedia Information Systems, Lecture Notes, University of Amsterdam Justin Zobel, Alistair Moffat (2006), Inverted File for Text Search Engines, ACM Computing Surveys, Volume 38 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... rộng lớn, phạm vi nghiên cứu luận văn giới hạn việc sử dụng số kỹ thuật tìm kiếm văn theo nội dung, sau phát triển chương trình demo ứng dụng tìm kiếm văn theo nội dung Hƣớng nghiên cứu đề tài -... phương tiện, CSDL văn thành phần quan trọng - Nghiên cứu số kỹ thuật tìm kiếm văn theo nội dung như: mơ hình tìm kiếm Bool, mơ hình tìm kiếm khơng gian vector, mơ hình tìm kiếm theo xác suất, kỹ... đề công bố nước Mục tiêu luận văn với đề tài? ?Tìm kiếm văn theo nội dung ứng dụng? ?? mà hướng tới nghiên cứu số kỹ thuật/phương pháp mới, thử đánh giá so sánh ứng dụng vào môi trường cụ thể Đối tƣợng

Ngày đăng: 26/03/2021, 09:09

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan