NGHIÊN CỨU PHÁT TRIỂN CÁC KỸ THUẬT XÂY DỰNG VÀ KHAI THÁC THÔNG TIN WEB CÓ NGỮ NGHĨA

Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Công nghệ thông tin Tr−êng ¹i häc b¸ch khoa tp. Hå chÝ minh B¸o c¸o tæng kÕt Ò tμi cÊp nhμ n− íc M· sè kc 01.21 Nghiªn cøu ph¸t triÓn c¸c kü thuËt Xy dùng vμ khai th¸c th«ng tin Web cã ng nghÜa Chñ nhiÖm Ò tμi: pgS. Ts. Cao hoμng trô C¬ quan chñ tr×: ¹i häc b¸ch khoa tp. Hå chÝ minh 6385 2952007 TP. Hå ChÝ Minh – 122006 BỘ KHOA HỌC VÀ CÔNG NGHỆ TRƯỜNG ĐẠI HỌC BÁCH KHOA – Đ HQG TP.HCM 268 Lý Thường Kiệt, Q.10, TP.HCM Báo cáo tổng kết khoa học và kỹ thuật của đề tài: Nghiên cứu phát triển các kỹ thuật xây dự ng và khai thác thông tin Web có ngữ nghĩa Mã số đề tài: KC.01.21 Chủ nhiệm đề tài: Cao Hoàng Trụ TP.HCM 122006 iii Tóm tắt Sau gần hai thập niên ra đời và phát triển từ năm 1989, World Wide Web (WWW) đã trở thành một môi trường lưu trữ và chuyển tải thông tin không thể thiếu trong một thời đạ i mà máy tính là công nghệ đòn bẩy cho hầu hết mọi lĩnh vực của kinh tế, chính trị , và xã hội. Với sự phát triển vũ bão và bùng nổ thông tin trên nó, giờ cũng là lúc WWW cầ n chuyển sang một thế hệ mới để có thể được khai thác một cách hiệu quả phục vụ cho lợ i ích của loài người. Đó là thế hệ Web có Ngữ nghĩa (Semantic Web), đượ c Tim Berners-Lee, cha đẻ của WWW, phác thảo ra vào năm 1998. Ở thế hệ hiện tại, thông tin được lưu trữ trong các trang Web dưới dạng văn bả n, hình ảnh, và âm thanh mà chỉ có con người mới đọc, nhìn, nghe và hiểu được. Với lượ ng thông tin vô cùng lớn trên WWW như hiện nay, con người không thể tự mình tìm kiế m, xử lý, và khai thác chúng, mà cần có sự trợ giúp của máy tính. Muốn vậy, trước hế t máy tính phải hiểu được thông tin lưu trữ trong các trang Web để có thể xử lý chúng mộ t cách tự động, tức là các trang Web phải có ngữ nghĩa đối với máy tính. Mục tiêu và viễn cả nh này của Web có ngữ nghĩa đã thu hút sự quan tâm và đầu tư của nhiều nhà nghiên cứ u và các tổ chức trên thế giớ i. Ngoài những vấn đề về lý thuyết và công nghệ chung, việc đưa ngữ nghĩ a vào các trang Web còn phụ thuộc vào ngôn ngữ tự nhiên và miền tri thức cụ thể của từng quốc gia. Đó cũng là ý nghĩa của đề tài này, nhằm nghiên cứu phát triển các kỹ thuật xây dự ng và khai thác thông tin Web có ngữ nghĩa tiếng Việt. Như là bước khởi đầu, đề tài tậ p trung vào mức độ ngữ nghĩa cơ bản nhất của một trang Web là lớp của các thực thể có tên, như con người, tổ chức, nơi chốn, xuất hiện trong đó. Trên cơ sở ngữ nghĩa này, đề tài phát triển một ứng dụng cung cấp tự động thông tin về các thực thể cho những người đọ c tin trên Web. Trước hết, đề tài xây dựng một cơ sở tri thức về các thực thể phổ biến nhất ở Việ t Nam và trên thế giới. Bước tiếp theo, đề tài nghiên cứu và hiện thực các kỹ thuật để xử lý tiếng Việt và rút trích lớp thực thể trên các trang Web một cách tự động. Đồng thời, đề tài nghiên cứu các độ đo và kỹ thuật xử lý truy vấn để người sử dụng có thể truy hồ i chính xác hoặc gần đúng thông tin từ cơ sở tri thức đã xây dựng và kho tài liệu Web đã đượ c chú thích. Trên các cơ sở này, đề tài phát triển các phần mềm ứng dụng rút trích và truy hồ i thông tin cho người sử dụng đầu cuối, và xây dựng một hệ thống máy chủ để đáp ứ ng nhiều yêu cầu đồng thời. Các kết quả đạt được tạo nên một nền tảng cho Web có ngữ nghĩa tiếng Việt, đủ để hiện thực một số ứng dụng tiêu biểu và có thể phát triển tiế p thành một cơ sở hạ tầng hoàn chỉnh. v Mục lục Danh mục hình .............................................................................................................. vii Danh mục bả ng ............................................................................................................... x Chương 1 Giới thiệu .....................................................................................................1 1.1 Thông tin tóm tắt về đề tài ..................................................................1 1.2 Động cơ thực hiện đề tài .....................................................................4 1.3 Phạm vi và mục tiêu của đề tài ............................................................5 1.4 Cấu trúc của quyển báo cáo.................................................................8 Chương 2 Tham khảo các nghiên cứu liên quan và thiết kế hệ thống ...................11 2.1 Web có ngữ nghĩ a..............................................................................11 2.2 Các công nghệ và ngôn ngữ hỗ trợ ....................................................17 2.3 Hệ thố ng KIM ...................................................................................28 2.4 Kiến trúc của VN-KIM .....................................................................32 Chương 3 Xây dựng Ontology và cơ sở tri thức ......................................................39 3.1 Ontology và cơ sở tri thức củ a KIM..................................................39 3.2 Thiết kế và xây dựng Ontology .........................................................41 3.3 Xây dựng cơ sở tri thức .....................................................................50 3.4 Vấn đề bí danh...................................................................................55 Chương 4 Rút trích và chú thích lớp của các thực thể có tên.................................57 4.1 Nhận dạng mã tiếng Việt và khối văn bả n tin ...................................57 4.2 Gán nhãn từ loại và nhận biết danh từ riêng .....................................65 4.3 Nhận biết lớp thực thể .......................................................................70 4.4 Vấn đề đồng tham chiếu và mập mờ thực thể ...................................81 Chương 5 Truy vấn cơ sở tri thức và kho các trang Web có ngữ nghĩa ...............89 5.1 Truy vấn cơ sở tri thứ c ......................................................................89 5.2 Độ tương tự và độ bao phủ ................................................................93 5.3 Truy vấn gần đ úng...........................................................................101 5.4 Truy vấn kho các trang Web có ngữ nghĩa .....................................106 vi Chương 6 Xây dựng hệ thống máy chủ và xử lý song song các yêu cầu ..............111 6.1 Thiết kế và hiện thực mô hình xử lý song song ..............................111 6.2 Phát triển dịch vụ chú thích ngữ nghĩa ............................................115 6.3 Phát triển dịch vụ truy hồi tri thức và tài liệ u .................................118 6.4 Thử nghiệm tải của các dịch vụ.......................................................121 Chương 7 Phát triển các phần mềm công cụ và ứng dụng ...................................127 7.1 Phần mềm xây dựng và quản trị cơ sở tri thức ................................127 7.2 Phần mềm truy hồ i thông tin ...........................................................132 7.3 Plug-in rút trích và truy hồi thông tin ..............................................141 Chương 8 Tổng kết ...................................................................................................145 8.1 Tóm tắt các kết quả đạt đượ c ..........................................................145 8.2 Hướng phát triển..............................................................................152 Lời cảm ơn ................................................................................................................... 153 Tài liệu tham khảo ....................................................................................................... 155 Phụ lục: Các báo cáo kỹ thuật, hướng dẫn sử dụng phần mềm, bài báo khoa học ......171 vii Danh mục hình 2.1.1 Các tầng của Web có ngữ nghĩa ...........................................................................12 2.1.2 Biểu diễn ngữ nghĩa bằng đồ thị khái niệ m .........................................................15 2.2.1 Kiến trúc củ a Sesame ...........................................................................................21 2.2.2 Biểu diễn đồ thị của một truy vấ n SeRQL ...........................................................23 2.2.3 Một đồ thị khái niệm ví dụ ..................................................................................26 2.2.4 Một đồ thị khái niệm với liên kết đồng tham chiế u .............................................27 2.2.5 Một đồ thị khái niệm bị phủ định .........................................................................28 2.2.6 Các đồ thị khái niệm lồ ng nhau............................................................................28 2.3.1 Rút trích thông tin bở i KIM .................................................................................29 2.3.2 Kiến trúc tổng quát củ a KIM ...............................................................................31 2.3.3 Một mẫu truy vấn cố định của KIM .....................................................................32 2.4.1 Kiến trúc củ a VN-KIM ........................................................................................33 2.4.2 Thành phần rút trích thông tin củ a VN-KIM .......................................................35 2.4.3 Truy hồ i thông tin trong VN-KIM .......................................................................36 3.2.1 Sơ đồ phân cấp lớp thực thể về tổ chứ c ...............................................................43 3.2.2 Sơ đồ phân cấp lớp thực thể về tổ chức nhà nướ c................................................44 3.2.3 Sơ đồ phân cấp lớp thực thể về tổ chức giáo dục và đào tạ o ...............................44 3.2.4 Sơ đồ phân cấp lớp thực thể về tổ chức thương mạ i ............................................45 3.2.5 Sơ đồ phân cấp quản lý của các đơn vị hành chính ở Việt Nam ..........................46 3.2.6 Sơ đồ phân cấp lớp thực thể về đơn vị hành chính .............................

Trang 1

Trường đại học bách khoa tp Hồ chí minh

Báo cáo tổng kết đề tài cấp nhà nước

Mã số kc 01.21

Nghiên cứu phát triển các kỹ thuật Xây dựng và khai thác thông tin

Web có ngữ nghĩa

Chủ nhiệm đề tài: pgS Ts Cao hoàng trụ

6385

29/5/2007

TP Hồ Chí Minh – 12/2006

Trang 2

BỘ KHOA HỌC VÀ CÔNG NGHỆ TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM

268 Lý Thường Kiệt, Q.10, TP.HCM

Báo cáo tổng kết khoa học và kỹ thuật của đề tài:

Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin Web có ngữ nghĩa

Mã số đề tài: KC.01.21

Chủ nhiệm đề tài: Cao Hoàng Trụ

Trang 3

Tóm tắt

Sau gần hai thập niên ra đời và phát triển từ năm 1989, World Wide Web (WWW) đã trở thành một môi trường lưu trữ và chuyển tải thông tin không thể thiếu trong một thời đại

mà máy tính là công nghệ đòn bẩy cho hầu hết mọi lĩnh vực của kinh tế, chính trị, và xã hội Với sự phát triển vũ bão và bùng nổ thông tin trên nó, giờ cũng là lúc WWW cần chuyển sang một thế hệ mới để có thể được khai thác một cách hiệu quả phục vụ cho lợi

ích của loài người Đó là thế hệ Web có Ngữ nghĩa (Semantic Web), được Tim

Berners-Lee, cha đẻ của WWW, phác thảo ra vào năm 1998

Ở thế hệ hiện tại, thông tin được lưu trữ trong các trang Web dưới dạng văn bản, hình ảnh, và âm thanh mà chỉ có con người mới đọc, nhìn, nghe và hiểu được Với lượng thông tin vô cùng lớn trên WWW như hiện nay, con người không thể tự mình tìm kiếm,

xử lý, và khai thác chúng, mà cần có sự trợ giúp của máy tính Muốn vậy, trước hết máy tính phải hiểu được thông tin lưu trữ trong các trang Web để có thể xử lý chúng một cách

tự động, tức là các trang Web phải có ngữ nghĩa đối với máy tính Mục tiêu và viễn cảnh này của Web có ngữ nghĩa đã thu hút sự quan tâm và đầu tư của nhiều nhà nghiên cứu và các tổ chức trên thế giới

Ngoài những vấn đề về lý thuyết và công nghệ chung, việc đưa ngữ nghĩa vào các trang Web còn phụ thuộc vào ngôn ngữ tự nhiên và miền tri thức cụ thể của từng quốc gia

Đó cũng là ý nghĩa của đề tài này, nhằm nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin Web có ngữ nghĩa tiếng Việt Như là bước khởi đầu, đề tài tập trung vào mức độ ngữ nghĩa cơ bản nhất của một trang Web là lớp của các thực thể có tên, như con người, tổ chức, nơi chốn, xuất hiện trong đó Trên cơ sở ngữ nghĩa này, đề tài phát triển một ứng dụng cung cấp tự động thông tin về các thực thể cho những người đọc tin trên Web

Trước hết, đề tài xây dựng một cơ sở tri thức về các thực thể phổ biến nhất ở Việt Nam và trên thế giới Bước tiếp theo, đề tài nghiên cứu và hiện thực các kỹ thuật để xử lý tiếng Việt và rút trích lớp thực thể trên các trang Web một cách tự động Đồng thời, đề tài nghiên cứu các độ đo và kỹ thuật xử lý truy vấn để người sử dụng có thể truy hồi chính xác hoặc gần đúng thông tin từ cơ sở tri thức đã xây dựng và kho tài liệu Web đã được chú thích Trên các cơ sở này, đề tài phát triển các phần mềm ứng dụng rút trích và truy hồi thông tin cho người sử dụng đầu cuối, và xây dựng một hệ thống máy chủ để đáp ứng nhiều yêu cầu đồng thời Các kết quả đạt được tạo nên một nền tảng cho Web có ngữ nghĩa tiếng Việt, đủ để hiện thực một số ứng dụng tiêu biểu và có thể phát triển tiếp thành một cơ sở hạ tầng hoàn chỉnh

Trang 4

Mục lục

Danh mục hình vii

Danh mục bảng x

Chương 1 Giới thiệu 1

1.1 Thông tin tóm tắt về đề tài 1

1.2 Động cơ thực hiện đề tài 4

1.3 Phạm vi và mục tiêu của đề tài 5

1.4 Cấu trúc của quyển báo cáo 8

Chương 2 Tham khảo các nghiên cứu liên quan và thiết kế hệ thống 11

2.1 Web có ngữ nghĩa 11

2.2 Các công nghệ và ngôn ngữ hỗ trợ 17

2.3 Hệ thống KIM 28

2.4 Kiến trúc của VN-KIM 32

Chương 3 Xây dựng Ontology và cơ sở tri thức 39

3.1 Ontology và cơ sở tri thức của KIM 39

3.2 Thiết kế và xây dựng Ontology 41

3.3 Xây dựng cơ sở tri thức 50

3.4 Vấn đề bí danh 55

Chương 4 Rút trích và chú thích lớp của các thực thể có tên 57

4.1 Nhận dạng mã tiếng Việt và khối văn bản tin 57

4.2 Gán nhãn từ loại và nhận biết danh từ riêng 65

4.3 Nhận biết lớp thực thể 70

4.4 Vấn đề đồng tham chiếu và mập mờ thực thể 81

Chương 5 Truy vấn cơ sở tri thức và kho các trang Web có ngữ nghĩa 89

5.1 Truy vấn cơ sở tri thức 89

5.2 Độ tương tự và độ bao phủ 93

5.3 Truy vấn gần đúng 101

5.4 Truy vấn kho các trang Web có ngữ nghĩa 106

Trang 5

Chương 6 Xây dựng hệ thống máy chủ và xử lý song song các yêu cầu 111

6.1 Thiết kế và hiện thực mô hình xử lý song song 111

6.2 Phát triển dịch vụ chú thích ngữ nghĩa 115

6.3 Phát triển dịch vụ truy hồi tri thức và tài liệu 118

6.4 Thử nghiệm tải của các dịch vụ 121

Chương 7 Phát triển các phần mềm công cụ và ứng dụng 127

7.1 Phần mềm xây dựng và quản trị cơ sở tri thức 127

7.2 Phần mềm truy hồi thông tin 132

7.3 Plug-in rút trích và truy hồi thông tin 141

Chương 8 Tổng kết 145

8.1 Tóm tắt các kết quả đạt được 145

8.2 Hướng phát triển 152

Lời cảm ơn 153

Tài liệu tham khảo 155

Phụ lục: Các báo cáo kỹ thuật, hướng dẫn sử dụng phần mềm, bài báo khoa học 171

Trang 6

Danh mục hình

2.1.1 Các tầng của Web có ngữ nghĩa 12

2.1.2 Biểu diễn ngữ nghĩa bằng đồ thị khái niệm 15

2.2.1 Kiến trúc của Sesame 21

2.2.2 Biểu diễn đồ thị của một truy vấn SeRQL 23

2.2.3 Một đồ thị khái niệm ví dụ 26

2.2.4 Một đồ thị khái niệm với liên kết đồng tham chiếu 27

2.2.5 Một đồ thị khái niệm bị phủ định 28

2.2.6 Các đồ thị khái niệm lồng nhau 28

2.3.1 Rút trích thông tin bởi KIM 29

2.3.2 Kiến trúc tổng quát của KIM 31

2.3.3 Một mẫu truy vấn cố định của KIM 32

2.4.1 Kiến trúc của VN-KIM 33

2.4.2 Thành phần rút trích thông tin của VN-KIM 35

2.4.3 Truy hồi thông tin trong VN-KIM 36

3.2.1 Sơ đồ phân cấp lớp thực thể về tổ chức 43

3.2.2 Sơ đồ phân cấp lớp thực thể về tổ chức nhà nước 44

3.2.3 Sơ đồ phân cấp lớp thực thể về tổ chức giáo dục và đào tạo 44

3.2.4 Sơ đồ phân cấp lớp thực thể về tổ chức thương mại 45

3.2.5 Sơ đồ phân cấp quản lý của các đơn vị hành chính ở Việt Nam 46

3.2.6 Sơ đồ phân cấp lớp thực thể về đơn vị hành chính 46

3.2.7 Sơ đồ phân cấp lớp thực thể về điểm đặc biệt 48

4.1.1 Một trang Web với các khối văn bản tin tức 60

4.1.2 Vị trí các khối văn bản tin tức trong tập tin HTML 60

4.1.3 Hai trang Web có cùng khung mẫu 62

4.2.1 Phân đoạn từ trong VN-KIM 66

4.2.2 Ví dụ về một đồ thị trạng thái trong phân đoạn từ 67

4.2.3 Ví dụ về các luật nhận diện ngày tháng 68

4.2.4 Mô hình kết hợp luật và xác suất để gán nhãn từ loại 70

4.3.1 Sơ đồ các bước chú thích ngữ nghĩa trong VN-KIM 72

4.3.2 Các bước xử lý chi tiết của so trùng mẫu trong VN-KIM IE 75

Trang 7

4.3.3 Một luật loại bỏ chú thích sai cho chuỗi có viết hoa chữ đầu 75

4.3.4 Hai luật nhận diện các tên thực thể phủ lấp nhau 76

4.3.5 Một luật nhận diện thực thể dựa trên ngữ liệu 77

4.3.6 Một luật nhận diện thực thể dựa trên ngữ cảnh 77

4.3.7 Một luật giải quyết các chú thích gây mâu thuẫn 78

4.3.8 Một luật sinh ra chú thích cuối cùng 78

4.4.1 Kết hợp phân giải đồng tham chiếu và mập mờ trong VN-KIM IE 81

4.4.2 Hàm kiểm tra sự đồng tham chiếu trong VN-KIM IE 84

4.4.3 Giải thuật loại bỏ nhập nhằng dựa vào mối quan hệ giữa các thực thể 86

4.4.4 Các bước loại bỏ mập mờ dựa trên sự đồng tham chiếu 87

5.1.1 Một đồ thị khái niệm truy vấn 90

5.1.2 Giải thuật dịch đồ thị khái niệm truy vấn sang SeRQL 91

5.1.3 Soạn thảo một đồ thị khái niệm truy vấn 92

5.1.4 Các phát biểu SeRQL tương đương và kết quả trả về 93

5.2.1 Độ bao phủ so với độ tương tự 98

5.3.1 Một đồ thị khái niệm truy vấn và sự tổng quát hoá của nó 102

5.3.2 Giải thuật tổng quát hoá và dịch đồ thị khái niệm truy vấn sang SeRQL 103

5.3.3 Một đồ thị trả lời gần đúng 104

5.3.4 Một ví dụ khác về đồ thị truy vấn và trả lời 104

5.3.5 Đồ thị khái niệm truy vấn và tìm kiếm gần đúng 105

5.3.6 Đồ thị khái niệm truy vấn và tìm kiếm chính xác 105

5.4.1 Kiến trúc của HTTPLuceneServer 106

5.4.2 Cấu trúc XML của kết quả trả về 108

6.1.1 Kiến trúc của hệ thống máy chủ xử lý song song SWG cho VN-KIM 112

6.1.2 Đoạn mã bằng Java khai báo một lớp trong VOIService 114

6.1.3 Mô hình hoạt động của các dịch vụ và nhóm máy chủ của VN-KIM 115

6.2.1 Quá trình tiếp nhận và xử lý yêu cầu chú thích 116

6.2.2 Các bước của dịch vụ chú thích ngữ nghĩa 117

6.2.3 Điều khiển các module thực hiện quá trình chú thích 118

6.3.1 Quá trình tiếp nhận và xử lý yêu cầu truy hồi tri thức 120

6.3.2 Giải thuật phân tải truy vấn cơ sở tri thức 120

6.3.3 Quá trình tiếp nhận và xử lý yêu cầu truy hồi tài liệu 121

Trang 8

6.4.1 Đáp ứng thời gian của Server chú thích 122

6.4.2 Đáp ứng thời gian của Sesame Server 124

6.4.3 Đáp ứng thời gian của Lucene Server 125

7.1.1 Giao diện soạn thảo lớp của VN-KIM Ontology Builder 129

7.1.2 Giao diện soạn thảo thuộc tính của VN-KIM Ontology Builder 129

7.1.3 Giao diện chính của VN-KIM KB Access 130

7.1.4 Giao diện chính của VN-KIM KB Project 131

7.1.5 Giao diện tạo Project mới của VN-KIM KB Project 132

7.2.1 Soạn thảo các nút khái niệm trong VN-KIM QER 133

7.2.2 Ràng buộc các thuộc tính thực thể trong VN-KIM QER 134

7.2.3 Soạn thảo các nút quan hệ trong VN-KIM QER 135

7.2.4 Hoàn tất một đồ thị truy vấn với VN-KIM QER 135

7.2.5 Tìm kiếm chính xác trong VN-KIM QER 136

7.2.6 Tìm kiếm gần đúng trong VN-KIM QER 137

7.2.7 Truy vấn bằng SeRQL trong VN-KIM QER 138

7.2.8 Truy vấn bằng mẫu cố định trong VN-KIM QER 139

7.2.9 Tìm kiếm tài liệu trong VN-KIM QER 140

7.2.10 Chọn các thực thể để tìm tài liệu 140

7.2.11 Các tài liệu trả về từ VN-KIM QER 141

7.3.1 VN-KIM Plug-in và một trang Web sau khi được chú giải 142

7.3.2 Duyệt các thực thể đã được nhận diện với VN-KIM Plug-in 142

7.3.3 Tìm kiếm thực thể và tài liệu với VN-KIM Plug-in 143

Trang 9

Danh mục bảng

1.1.1 Thông tin tóm tắt về đề tài 1

1.1.2 Danh sách các thành viên chính của đề tài 2

1.1.3 Danh sách các thành viên tham gia thực hiện đề tài 3

1.3.1 Danh mục các sản phẩm khoa học công nghệ của đề tài 7

3.3.1 Nguồn tài liệu tham khảo cho từng miền thực thể trong cơ sở tri thức 51

3.3.2 Thống kê số lượng các thực thể thuộc ba lớp cấp trên 54

3.3.3 Thống kê số lượng ngữ liệu tương ứng với ba lớp cấp trên 54

3.3.4 Thống kê số lượng thực thể thuộc các lớp chính 54

4.1.1 Tốc độ thực thi của module chuyển mã tiếng Việt 59

4.1.2 Kết quả thử nghiệm giải thuật nhận dạng khối văn bản tin tức 64

4.2.1 Kết quả của phương pháp xác suất và phương pháp kết hợp 70

4.3.1 Số liệu thử nghiệm trên ba lớp cơ sở 80

4.3.2 Số liệu thử nghiệm trên mười lớp chi tiết 80

4.3.3 Số liệu thử nghiệm ở công ty VYC và báo Người lao động 80

5.4.1 Các URL để kết nối đến HTTPLuceneServer 108

6.4.1 Độ giảm thời gian hoàn thành chú thích 123

6.4.2 Độ giảm thời gian hoàn thành truy hồi thực thể 124

6.4.3 Độ giảm thời gian hoàn thành truy hồi tài liệu 125

8.1.1 Các phần mềm chủ yếu của đề tài 146

8.1.2 Các bài báo khoa học liên quan đến đề tài 149

8.1.3 Các sinh viên và luận án tốt nghiệp liên quan đến đề tài 150

Trang 10

Chương 1

Giới thiệu

1.1 Thông tin tóm tắt về đề tài

Bảng 1.1.1 tóm lược các thông tin cơ bản về đề tài Bảng 1.1.2 là danh sách các thành viên chính của đề tài và nhóm công việc đảm trách Bảng 1.1.3 là danh sách các thành viên còn lại đã tham gia trong quá trình thực hiện đề tài

Bảng 1.1.1 Các thông tin cơ bản về đề tài

1 Tên đề tài

NGHIÊN CỨU PHÁT TRIỂN CÁC KỸ

THUẬT XÂY DỰNG VÀ KHAI THÁC

THÔNG TIN WEB CÓ NGỮ NGHĨA

(SEMANTIC WEB)

2 Mã số

KC.01.21

3 Thời gian thực hiện

Từ tháng 01/2004 đến tháng 04/2006

4 Cấp quản lý

Nhà nước Bộ

Cơ sở Tỉnh

5 Kinh phí

2.044 triệu đồng

Trong đó, từ Ngân sách SNKH: 1.600 triệu đồng

(Thuê khoán: 745tr., nguyên vật liệu: 81tr., thiết bị: 1.054tr., chi khác: 164tr.)

Tiêu đề	Nghiên Cứu Phát Triển Các Kỹ Thuật Xây Dựng Và Khai Thác Thông Tin Web Có Ngữ Nghĩa
Tác giả	Cao Hoàng Trụ
Người hướng dẫn	PGS. TS. Cao Hoàng Trụ
Trường học	Đại Học Bách Khoa TP. Hồ Chí Minh
Thể loại	Báo Cáo Tổng Kết
Năm xuất bản	2006
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	10
Dung lượng	405,38 KB