Mở rộng công nghệ lucene để lưu trữ và truy vấn các tài liệu web về các thực thể có tên ở việt nam

105 32 0
Mở rộng công nghệ lucene để lưu trữ và truy vấn các tài liệu web về các thực thể có tên ở việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THANH PHONG MỞ RỘNG CÔNG NGHỆ LUCENE ĐỂ LƯU TRỮ VÀ TRUY VẤN CÁC TÀI LIỆU WEB VỀ CÁC THỰC THỂ CÓ TÊN Ở VIỆT NAM Chuyên ngành:Công Nghệ Thông Tin Mã số ngành:01.02.10 LUẬN VĂN THẠC SĨ TP.HỒ CHÍ MINH, THÁNG NĂM 2005 Đại học Quốc Gia Tp Hồ Chí Minh CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc TRƯỜNG ĐẠI HỌC BÁCH KHOA - - NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN THANH PHONG Phái: Nam Ngày tháng năm sinh: 15 - 07 - 1974 Nơi sinh: Hà Nội Chuyên ngành: Công Nghệ Thông Tin Mã số: 01.02.10 I TÊN ĐỀ TÀI: Mở rộng công nghệ Lucene để lưu trữ truy vấn tài liệu web thực thể có tên Việt Nam II NHIỆM VỤ VÀ NỘI DUNG: Lucene phần mềm mã nguồn mở để phân tích, đánh mục, tìm kiếm tài liệu XML, tổ chức Apache phát triển Mục tiêu đề tài nghiên cứu mở rộng Lucene cho tài liệu XML tiếng Việt, thực hệ thống minh họa cho miền tri thức cụ thể Việt Nam III NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương) : IV NGÀY HOÀN THÀNH NHIÊM VỤ (Ngày bảo vệ luận án tốt nghiệp): 28/1/2005 V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: Tiến sĩ Cao Hoàng Trụ CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÝ NGÀNH TS Cao Hoàng Trụ TS Cao Hoàng Trụ Nội dung đề cương luận văn thạc sĩ Hội Đồng Chun Ngành thơng qua Ngày PHỊNG ĐÀO TẠO SAU ĐẠI HỌC tháng năm KHOA QUẢN LÝ NGÀNH Mục Lục Mục Lục i Lời cám ơn iv Tóm tắt v Abstract .vi Chương I Giới thiệu Chương II Lucene II.1 Một số đối tượng tiêu biểu Lucene II.1.1 Đối tượng Document II.1.2 Đối tượng Field II.1.3 Đối tượng IndexWriter II.1.4 Các đối tượng Analyzers II.1.5 Đối tượng IndexSearchers II.1.6 Đối tượng MultiSearcher II.1.7 Đối tượng Hits HitCollector II.2 Phát triển Lucene thành ứng dụng tìm kiếm thơng thường II.2.1 Thiết kế chương trình II.2.2 Internet Collector II.2.3 Index II.2.4 Search II.2.5 Document Storage Chương III Web có ngữ nghĩa (Semantic web) III.1 Cơ sở tri thức III.2 Ontology 10 III.2.1 Tổ chức Ontology 10 III.2.2 Các chức ontology 11 III.2.3 Phân loại Ontology 12 III.2.4 Một số Ontology 13 III.2.5 Ngôn ngữ công cụ hỗ trợ xây dựng Ontology 13 III.2.6 Giới thiệu RDF (Resource Description Framework) 13 III.2.7 Giới thiệu Lược đồ RDF(RDF Schema) 14 III.3 Sesame 15 III.3.1 Cấu trúc Sesame 15 III.3.2 Các khối chức Sesame 16 III.4 Ngôn ngữ truy vấn RDF/S 17 III.4.1 Ngôn ngữ truy vấn cấp độ cú pháp 17 Trang i III.4.2 Ngôn ngữ truy vấn cấp độ cấu trúc 17 III.4.3 Ngôn ngữ truy vấn mức ngữ nghĩa 18 III.5 Thiết kế chương trình VN-KIM 18 III.5.1 Thiết kế tổng quát 18 III.5.2 Mơ hình giao tiếp hệ thống 20 III.6 Xây dựng Ontology cho miền thực thể có tên Việt Nam 22 III.6.1 Khái niệm 22 III.6.2 Phương pháp 22 III.6.3 Điểm kỹ thuật VN-KIMO 23 III.6.4 Các điểm thay đổi VN-KIMO 23 III.6.5 Tóm tắt kết xây dựng Ontology cho miền thực thể có tên Việt Nam 23 Chương IV Ứng dụng Lucene hệ thống VN-KIM 26 IV.1 Đánh mục cho tài liệu 26 IV.1.1 Giới thiệu 26 IV.1.2 Phương pháp đánh mục 27 IV.1.3 Các khái niệm kỹ thuật 28 IV.1.4 Nội dung đánh mục 28 IV.1.5 Các yếu tố ảnh hưởng đến tốc độ tìm kiếm đánh mục 29 IV.1.6 Phương pháp thực 29 IV.1.7 Thiết kế chương trình 30 IV.1.8 Lớp VswAttribute 33 IV.1.9 Lớp VswNode 34 IV.1.10 Lớp VswNodeHandlerBase 34 IV.1.11 Lớp VswParser 35 IV.1.12 Interface VswIndexAPI 35 IV.1.13 Lớp VswIndexer 36 IV.2 Lưu trữ tài liệu 37 IV.2.1 Mục tiêu 37 IV.2.2 Phương pháp thực VN-KIM 37 IV.2.3 Thuật toán thực 39 IV.2.4 Hiện thực chương trình 40 IV.3 Tìm kiếm tài liệu theo ngữ nghĩa 40 IV.3.1 Giới thiệu 40 IV.3.2 Các phương pháp tìm kiếm hỗ trợ chương trình 41 IV.3.3 Cấu trúc ngữ pháp lệnh tìm kiếm 41 IV.3.4 Phương pháp tìm kiếm 43 IV.3.5 Phương pháp thực 44 IV.3.6 Kỹ thuật phân trang tìm kiếm 44 IV.3.7 Thiết kế chương trình 45 IV.3.8 Mơ hình giao tiếp 48 IV.3.9 Lớp VswAnalyzer 48 IV.3.10 Interface VswQueryResultElement 49 IV.3.11 Lớp VswQueryResultElementImpl 49 Trang ii IV.3.12 Interface VswQueryResult 49 IV.3.13 Lớp VswQueryResultImpl 50 IV.3.14 Interface VswBooleanQuery 50 IV.3.15 Lớp VswBooleanQueryImpl 51 IV.3.16 Lớp VswQueryParser 51 IV.3.17 Interface VswQueryAPI 52 IV.3.18 Lớp VswQueryAPIImpl 52 Chương V Kết Luận 53 V.1 Các đóng góp đề tài 53 V.2 Hướng mở rộng đề tài 53 V.2.1 Hướng nghiên cứu phát triển 53 V.2.2 Hướng ứng dụng 54 Chương VI Tài liệu tham khảo 55 Phụ Lục A: Xây dựng Ontology cho mười miền thực thể có tên Việt Nam 58 Phụ Lục B: Chương trình RMI Server 83 Phụ Lục C: Chương trình Web Demo 84 Phụ Lục D: Các hàm Utils 87 VI.1.1 Lớp VswEncoding 87 VI.1.2 Lớp VswProperties 87 Phụ Lục E: Cách gọi tác vụ từ xa qua RMI 89 VI.1.3 Cách gọi tác vụ từ xa với chương trình đánh mục 89 VI.1.4 Cách gọi tác vụ từ xa chương trình tìm kiếm 93 Phụ Lục F: Cách gọi tác vụ từ xa qua HTTP 95 Trang iii Lời cám ơn Trước hết xin chân thành cám ơn chân thành đến thầy cô khoa Công nghệ thơng tin Trường Đại Học Bách Khoa T.P Hồ Chí Minh dạy dỗ truyền đạt cho tri thức để tơi trở thành cơng dân có ích cho xã hội Tôi xin chân thành cám ơn thầy Tiến Sĩ Cao Hoàng Trụ, người giúp đỡ hướng dẫn làm luận văn thạc sĩ Cám ơn thầy tận tình bảo hướng dẫn nhờ có thầy tơi hồn thành tốt đươc luận văn Xin chân thành cám ơn bạn Tuyên, Duy, Viên dự án VN-KIM, Trường Đại Học Bách Khoa TP Hồ Chí Minh, giúp đỡ tơi suốt trình làm luận văn Cám ơn bạn Bành Anh Huy, công ty Tường Minh, giúp đỡ kỹ thuật lập trình Java Cám ơn bạn Lục Nhất Trường, cơng ty AVON Việt Nam, góp ý giúp phần thiết kế phần web demo Sau tơi xin chân thành cám ơn gia đình đặc biệt cha mẹ vợ động viên tạo điều kiện cho tơi hồn thành năm học trường Cám ơn tất bạn lớp cao học 2002 đoàn kết giúp đỡ tồn tất khố học Trang iv Tóm tắt Sự bùng nổ Internet thập niên 90 kỷ trước dẫn đến đòi hỏi cần cơng cụ tìm kiếm giúp người sử dụng tìm kiếm thơng tin mạng Internet cách nhanh chóng xác Cách tìm kiếm thơng tin dựa từ khoá đáp ứng phần nhu cầu người dùng Tuy nhiên thay tìm kiếm người sử dụng muốn, tìm kiếm theo từ khố tìm tài liệu chứa từ khố người dùng cung cấp Cách tìm kiếm dẫn đến việc thiếu thừa thông tin Thiếu từ khố người sử dụng cung cấp khơng đủ “từ khố” Thừa “từ khố” xuất tài liệu với nghĩa khác nghĩa mà người dùng muốn tìm Do việc phát triển phương pháp tìm kiếm thơng minh u cầu thiết Trong luận văn trình bày phương pháp đánh mục tìm kiếm thơng tin theo ngữ nghĩa Phát triển ứng dụng đánh mục tìm kiếm theo ngữ nghĩa dựa việc mở rộng công nghệ Lucene Đưa giải pháp cho việc lưu trữ tài liệu thích ngữ nghĩa Luận văn xây dựng Ontology cho mười miền thực thể có tên Việt Nam Trang v Abstract The explosion of Internet in the 90 decades lead to the need of search tools which helps people to search for information quickly and precisely The search tools which are based on the keywords (called keyword-base search tool) met part of that need However, instead of searching for information that the user really needs, the keyword-base search tools simply searches documents which are containing the input keywords The result of this approach might produce more or less information Less is because the input keywords might not be enough More is because the meaning of the keywords in the searching documents is not as user expected So the need of developing a ‘smart’ search engine is vital.This thesis shows a methodology to index and search for information based on its semantic Semantic index and search application is built by expanding Lucene open source solution: develop solution for caching sematic annotated documents The thesis also build ontologies for ten Vietnamese named entity domains Trang vi Giới thiệu Chương I Giới thiệu Trong khoảng thập kỷ trở lại đây, có phát triển vượt bậc lĩnh vực Internet dịch vụ nó, có dịch vụ tìm kiếm mạng Các dịch vụ tìm kiếm mạng phát triển khơng ngừng, giúp cho người sử dụng tra cứu tìm kiếm thơng tin mạng cách nhanh chóng Các giải pháp hỗ trợ tìm kiếm thông tin Internet đa dạng, phổ biến đơng tìm kiếm (Search Engine), dịch vụ thư mục (Web Directory) cơng cụ tìm kiếm hàng loạt (Metasearcher) Thuật ngữ “Search Engine” thường dùng lẫn lộn để tất giải pháp Thật ra, Search Engine ba loại cơng cụ tìm kiếm thơng dụng Internet cơng cụ khác hồn tồn mặt tiếp cận Search Engine cách tiếp cận tìm kiếm hiệu cách tiếp cận Search Engine thông dụng Google (www.Google.com) Mô hình tổng qt Search Engine có dạng sau: Queries Web Servers QUERY INTERFACE Queries Results Data MATCH ENGINE DATABASE Classified, Filtered, Indexed Data Agents Seed URLs Hình 1: Mơ hình tổng qt Search Engine Các Search Engine chủ yếu dựa từ khóa để thực việc tìm kiếm Điều có nghĩa cơng cụ tìm kiếm dựa vào từ khoá mà nhập vào để tìm tài liệu có chứa từ khố Ví dụ: gõ vào từ khố “Sài Gịn” u cầu tìm kiếm, cơng cụ tìm kiếm theo từ khố trả tất tài liệu mà nội dung có chứa chữ “Sài Gịn” Việc tìm kiếm dựa từ khố có số hạn chế sau: - Kết trả nhiều không với ý người sử dụng Như ví dụ người sử dụng muốn tìm tài liệu có chứa chữ “Sài Gịn” với ý nghĩa thành phố Sài Gịn, địa danh Tuy nhiên với cơng cụ tìm kiếm theo từ khố khơng phân biệt “Sài Gịn” tài liệu mang ý nghĩa địa danh “bia Sài Gòn”, “thuốc Sài Gòn”, “người Sài Gòn”, “bánh mì Sài Gịn”, … Nếu cẩn thận gõ vào từ khố “thành phố Sài Gịn” khơng phải khơng có vấn đề Vì “Sài Gịn” với ý nghĩa địa danh viết người viết thường bỏ chữ “thành phố” Vì dùng từ khố “thành phố Sài Gịn” tài liệu bị bỏ qua Trang Giới thiệu Hơn với từ khóa kết trả cịn thiếu xác nhiều Ví dụ tài liệu có chứa đoạn “Bánh mì Sài Gịn bán hầu hết thành phố lớn nước” Vì tài liệu có chứa “Sài Gịn” lẫn “thành phố” nên trả ý nghĩa “Sài Gịn” khơng phải địa danh Việc trả kết nhiều không ý người sử dụng hạn chế lớn cơng cụ tìm kiếm theo từ khóa khó khăn lớn cho người sử dụng Đối với ví dụ trên, sử dụng Google để tìm tài liệu có chứa “Sài Gịn” kết trả lên tới 150 ngàn tài liệu! Việc tìm tài liệu cần dựa kết điều lượng thơng tin q nhiều khơng xác Thật cơng cụ tìm kiếm theo từ khoá đưa vài cách để tinh chỉnh kết trả việc tìm kiếm cụm từ, cho phép vài tốn tử tìm kiếm AND, OR, … , xếp hạng kết trả Google có chức gọi “I’m feeling lucky” cố đoán kết gần với ý người sử dụng Tuy nhiên nỗ lực hạn chế hạn chế chế tìm kiếm theo từ khoá - Một hạn chế khác chế tìm kiếm theo từ khố khơng biết liên kết mặt ý nghĩa từ khoá Ví dụ ta tìm “cơng ty phần mềm Việt Nam” cơng cụ tìm kiếm theo từ khố khơng có cách tìm tài liệu chứa chữ “TMA”, “FPT”, “PSV” “công ty TMA”, “công ty PSV”, … cơng ty chun làm phần mềm Hoặc ví dụ khác với từ khố “cụ Hồ Chí Minh” tài liệu có chứa “cụ Hồ”, “bác Hồ” hay “chủ tịch Hồ Chí Minh” khơng liệt kê mặt dù chúng xác tới người Như tìm kiếm theo từ khố trường hợp bị thiếu Nguyên nhân tình trạng cách tìm kiếm đánh mục thông tin sử dụng theo từ khóa khơng phải theo ngữ nghĩa người dùng Do kết thu trang web có chứa từ khóa mà người dùng nhập vào khơng phải trang web có chứa thơng tin mà người dùng muốn tìm Trong ví dụ kết thu trang web có chứa từ khóa Hồ Chí Minh Để giải vấn đề cần phải xây dựng kỹ thuật tìm kiếm khác để khắc phục nhược điểm việc tìm kiếm dựa vào từ khóa Giải vấn đề cần có giải pháp khác thay cho tìm kiếm theo từ khóa người dùng, chương trình tìm kiếm tìm theo ngữ nghĩa mà người sử dùng mô tả Cách tiếp cận gọi web có ngữ nghĩa (semantic web) Luận văn phần dự án web có ngữ nghĩa luận văn giải tốn đánh mục tìm kiếm tài liệu web thực thể có tên Việt Nam Việc đánh mục dựa vào kết thích ngữ nghĩa chương trình thích ngữ nghĩa cho miền thực thể có tên Việt Nam, việc tìm kiếm tài liệu dựa kết vào trình tìm kiếm sở tri thức miền thực thể có tên Việt Nam Việc đánh mục tìm kiếm tài liệu web không xây dựng Ontology nên luận văn thiết kế xây dựng Ontology cho miên thực thể có tên Việt Nam, cụ thể mười miền thực thể: nhân vật, tổ chức, cơng ty, thành phố, tỉnh, núi non, sơng ngịi, đường, địa điểm tiếng tên khác thực thể Trang Phụ Lục B Phụ Lục B: Chương trình RMI Server Để chương trình Indexing API Document Query API sử dụng từ xa theo giao thức RMI địi hỏi trước chương trình client truy xuất Interface đặc tả theo chuẩn RMI ta phải đăng ký với RMIRegistry Interface mà chương trình cho phép client sử dụng Để làm nhiệm vụ đăng ký với RMIRegistry chưong trình có phần IndexServer QueryServer để đăng ký với RMIRegistry IndexServer đăng ký cho phép client sử dụng interface VswIndexAPI QueryServer đăng ký cho phép client sử dụng Interface VswQueryAPI từ xa Chương trình Server cho phép đặc tả quyền kết nối quyền truy xuất, việc đặc tả quyền đặc tả file policy theo chuẩn Java Trang 83 Phụ Lục C Phụ Lục C: Chương trình Web Demo Chương trình Web demo chương trình minh hoạ cách giao tiếp thơng qua giao thức HTTP Chương trình gồm phần minh hoạ tìm kiếm minh hoạ đánh mục Web Server sử dụng Tomcat 5.0.12 Jarkata Tomcat 4.1.30 Chương trình tìm kiếm tài liệu theo ngữ nghĩa Text box nơi nhập câu lệnh tìm kiếm Ví dụ minh hoạ Kết tìm kiếm Trang 84 Phụ Lục C Chương trình đánh mục thơng qua web Giao diện chương trình Kết Trang 85 Phụ Lục C Trang 86 Phụ Lục D Phụ Lục D: Các hàm Utils Phần Utils cung cấp hàm tiện ích sử dụng chung khơng cho chương trình cung cấp hàm tiện ích sử dụng chung sau toàn dự án VI.1.1 Lớp VswEncoding Cung cấp tiện ích việc encoding dùng chung chương trình Lớp cung cấp tác vụ encoding cho tài liệu xml cho Lucene Tên tác vụ Đặc tả Tác vụ dùng để encoding chuỗi kỹ tự trước chuỗi sử dụng tài liệu xml Theo chuẩn xml kỹ tự encodingXML cần encoding & < > ' \ Tác vụ dùng để encoding chuỗi kỹ tự trước chuỗi sử dụng Lucene Theo yêu cầu Lucene kỹ tự cần encoding + - && || ! ( ) { } [ ] ^ encodingLucence " ~ * ? : \ Tác vụ sử dụng tác vụ có nhiệm vụ thay tất chuỗi kỹ tự đặc tả chuỗi kỹ tự khác replace VI.1.2 Lớp VswProperties Theo thiết kế để chương trình uyển chuyển số giá trị dung để cấu hình hệ thống cho phép người quản lý hệ thống thay đổi thông qua việc thay đổi giái trị file cấu hình Thuộc tính Đặc tả Dùng để đặc tả thư mục mà thư mục mục INDEX_DIRECTORY lưu trữ Thư mục mà file thích ngữ STORE_DIRECTORY nghĩa lưu Tên file dùng để chứa ID cuối cấp phát trình lưu file vào Document Storage FILEID_NAME Số mức thư mục tối đa mà hệ thống tạo ra, giá trị không set hệ thống MAX_DIRECTORY_LEVEL sử dụng giái trị default Số lượng thư mục tối đa thư MAX_DIRECTORY mục default 256 Số lượng file tối đa thư mục MAX_FILE default 256 Trang 87 Phụ Lục D DEFAULTPAGESIZE IndexServerName QueryServerName Kích thước PageSize default, PageSize default PageSize trường hợp client không set pagesize Giá trị mặc định DEFAULTPAGESIZE 10 Tên RMI Server cho phục vụ đánh mụcIndex Tên RMI Server cho phục vụ việc tìm kiếm tài liệu theo ngữ nghĩa Trang 88 Phụ Lục E Phụ Lục E: Cách gọi tác vụ từ xa qua RMI VI.1.3 Cách gọi tác vụ từ xa với chương trình đánh mục Trang 89 Phụ Lục E Start Set Security Lookup Server Server available Get VswIndexAPI Interface invalid interface call startsession call uploadfile not end of file end of file call setModifyTime call Index call endsession has next file the end Hình 14: Minh hố cách gọi chương trình Index từ xa Trang 90 Phụ Lục E Ví dụ chương trình client gọi hàm thực việc đánh mục từ xa import Java.rmi.*; import Java.rmi.server.*; import vn.edu.hcmut.dit.index.VswIndexAPI; import Java.io.*; public class IndexRemote { public static void main(String[] args) { System.setProperty("Java.security.policy", "policy"); System.setSecurityManager(new RMISecurityManager()); //Server name String url = "rmi://localhost"; int length= args.length; if (length 0) { Trang 91 Phụ Lục E vswindex.uploadfile(SessionID, buf, len); } rs.close(); vswindex.setModifyTime(SessionID,time); int num = vswindex.Index(SessionID);; vswindex.endsession(SessionID); System.out.println("Number file indexed=" + num); } } catch (Exception e) { e.printStackTrace(); } } } Trang 92 Phụ Lục E VI.1.4 Cách gọi tác vụ từ xa chương trình tìm kiếm S et S ec urity Look up S er ver S erver available G et V s w Q uery A P I interfac e c all getLength invalid interfac e c all S earc h length> D isp lay Hình 15: Minh hố cách gọi chương trình tìm kiếm từ xa Ví dụ Trang 93 Phụ Lục E import Java.rmi.*; import Java.rmi.server.*; import Java.io.*; import vn.edu.hcmut.dit.query.VswQueryAPI; import vn.edu.hcmut.dit.query.VswQueryResult; public class QueryClient { public QueryClient() { } public static void main(String[] args) { System.setProperty("Java.security.policy", "policy"); System.setSecurityManager(new RMISecurityManager()); // Server name or IP String url = "rmi://localhost"; int length= args.length; if (length 0) { xml = new String(buf, start, start + len - 1, "UTF-8"); Trang 94 Phụ Lục E start=len-1; } rs.close(); //end get xml command VswQueryAPI vswquery = (VswQueryAPI) Naming.lookup(url ); int lensearch=vswquery.getLength(xml); System.out.println(lensearch+" files "); if (lensearch>0) { VswQueryResult result = vswquery.Search(xml, 1, 10); if (result != null) { for (int i = 0; i < result.size(); i++) { String path = result.geturl(i); float score = result.score(i); System.out.println("file=" + path + ",score=" + score); } } } } catch (NotBoundException e) { System.out.println("Error Cannot find the server"); } catch (Exception e) { e.printStackTrace(); } } } Phụ Lục F: Cách gọi tác vụ từ xa qua HTTP Việc giao tiếp thông qua giao thức http chương trình thơng qua fike jsp Để gọi tác vụ từ xa thông qua giao thức http thơng qua số hướng dẫn sau Phần đánh mục Trang 95 Phụ Lục F Chương trình client gọi chương trình server thơng qua việc gửi lên server request có nội dung sau http://servername/SimpleUpload.jsp?todo= Phần tìm kiếm Chương trình client gọi chương trình server thơng qua việc gửi lên server request có nội dung sau http://servername/SearchResults.jsp?txtContext= Trang 96 Tóm tắt Lý lịch trích ngang Tóm tắt Lý lịch trích ngang: Họ tên: Nguyễn Thanh Phong Ngày tháng năm sinh: 15/7/1974 Địa liên lạc: Nơi sinh: Hà Nội 93/2 Lê Đức Thọ, F17, Q Gò vấp, Tp HCM Email: phongnt@gmail.com Mobile:0918239520 QUÁ TRÌNH ĐÀO TẠO Đại học: Học khoa Công nghệ thông tin trường đại học Bách Khoa Tp HCM khoá 93 niên khoá 1993-1998 Cao học: Học trường đại học Bách Khoa Tp HCM khoá 13 Q TRÌNH CƠNG TÁC Từ năm 1998-2000: Phịng hệ thống Trung tâm internet Saigon, SàiGonNet, công ty SPT Quản trị hệ thống Mail Server, FireWall, RAS Server, … Từ năm 2000-2003: Làm việc công ty TNHH Tân Thiên Niên Kỷ tham gia phát triển Hệ thống E-Learning: quản lý việc dạy học mạng Ứng dụng quản lý báo cáo Ứng dụng quản lý tài Các ứng dụng khác… Từ Năm 2003- nay: Làm việc công ty Tường Minh (TMA) tham gia phát triển Hệ thống Calendar Server Hệ thống quản lý tài nguyên mạng Các hệ thống khác…… Trang 97 ... ngành: Công Nghệ Thông Tin Mã số: 01.02.10 I TÊN ĐỀ TÀI: Mở rộng công nghệ Lucene để lưu trữ truy vấn tài liệu web thực thể có tên Việt Nam II NHIỆM VỤ VÀ NỘI DUNG: Lucene phần mềm mã nguồn mở để. .. trung vào việc xây dựng sở tri thức cho thực thể có tên Việt Nam Cơ sở tri thức cho Trang Mạng ngữ nghĩa thực thể có tên Việt Nam rộng lớn, nên luận văn giới hạn vào mười miền thực thể có tên sau:... thích ngữ nghĩa cho miền thực thể có tên Việt Nam, việc tìm kiếm tài liệu dựa kết vào trình tìm kiếm sở tri thức miền thực thể có tên Việt Nam Việc đánh mục tìm kiếm tài liệu web không xây dựng Ontology

Ngày đăng: 16/04/2021, 04:19

Mục lục

  • M?c L?c

  • L?i cám on

  • Gi?i thi?u

  • Lucene

    • M?t s? d?i tu?ng tiêu bi?u c?a Lucene

      • Ð?i tu?ng Document

      • Ð?i tu?ng Field

      • Ð?i tu?ng IndexWriter

      • Các d?i tu?ng trong Analyzers

      • Ð?i tu?ng IndexSearchers

      • Ð?i tu?ng MultiSearcher

      • Ð?i tu?ng Hits và HitCollector

      • Phát tri?n Lucene thành ?ng d?ng tìm ki?m thôn

        • Thi?t k? chuong trình

        • Web có ng? nghia \(Semantic web\)

          • Co s? tri th?c

          • Ontology

            • T? ch?c c?a Ontology

            • Các ch?c nang c?a ontology

            • Phân lo?i Ontology

            • M?t s? Ontology

            • Ngôn ng? và công c? h? tr? xây d?ng Ontology

            • Gi?i thi?u v? RDF (Resource Description Framework)

            • Gi?i thi?u Lu?c d? RDF(RDF Schema)

            • Sesame

              • C?u trúc c?a Sesame

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan