Microsoft Word bia BCTK doc Tr−êng ®¹i häc b¸ch khoa tp Hå chÝ minh B¸o c¸o tæng kÕt ®Ò tµi cÊp nhµ n−íc M sè kc 01 21 Nghiªn cøu ph¸t triÓn c¸c kü thuËt X©y dùng vµ khai th¸c th«ng tin Web cã ng÷ ngh[.]
Trờng đại học bách khoa Hồ chí minh Báo cáo tổng kết đề tài cấp nhà nớc MÃ số kc 01.21 Nghiên cứu phát triển kỹ thuật Xây dựng khai thác thông tin Web có ngữ nghĩa Chủ nhiệm đề tài: pgS Ts Cao hoàng trụ Cơ quan chủ trì: đại học bách khoa Hồ chí minh 6385 29/5/2007 TP Hå ChÝ Minh – 12/2006 BỘ KHOA HỌC VÀ CÔNG NGHỆ TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM 268 Lý Thường Kiệt, Q.10, TP.HCM Báo cáo tổng kết khoa học kỹ thuật đề tài: Nghiên cứu phát triển kỹ thuật xây dựng khai thác thơng tin Web có ngữ nghĩa Mã số đề tài: KC.01.21 Chủ nhiệm đề tài: Cao Hoàng Trụ TP.HCM 12/2006 Tóm tắt Sau gần hai thập niên đời phát triển từ năm 1989, World Wide Web (WWW) trở thành môi trường lưu trữ chuyển tải thông tin thiếu thời đại mà máy tính cơng nghệ địn bẩy cho hầu hết lĩnh vực kinh tế, trị, xã hội Với phát triển vũ bão bùng nổ thơng tin nó, lúc WWW cần chuyển sang hệ để khai thác cách hiệu phục vụ cho lợi ích lồi người Đó hệ Web có Ngữ nghĩa (Semantic Web), Tim Berners-Lee, cha đẻ WWW, phác thảo vào năm 1998 Ở hệ tại, thông tin lưu trữ trang Web dạng văn bản, hình ảnh, âm mà có người đọc, nhìn, nghe hiểu Với lượng thơng tin vơ lớn WWW nay, người tự tìm kiếm, xử lý, khai thác chúng, mà cần có trợ giúp máy tính Muốn vậy, trước hết máy tính phải hiểu thơng tin lưu trữ trang Web để xử lý chúng cách tự động, tức trang Web phải có ngữ nghĩa máy tính Mục tiêu viễn cảnh Web có ngữ nghĩa thu hút quan tâm đầu tư nhiều nhà nghiên cứu tổ chức giới Ngoài vấn đề lý thuyết công nghệ chung, việc đưa ngữ nghĩa vào trang Web cịn phụ thuộc vào ngơn ngữ tự nhiên miền tri thức cụ thể quốc gia Đó ý nghĩa đề tài này, nhằm nghiên cứu phát triển kỹ thuật xây dựng khai thác thơng tin Web có ngữ nghĩa tiếng Việt Như bước khởi đầu, đề tài tập trung vào mức độ ngữ nghĩa trang Web lớp thực thể có tên, người, tổ chức, nơi chốn, xuất Trên sở ngữ nghĩa này, đề tài phát triển ứng dụng cung cấp tự động thông tin thực thể cho người đọc tin Web Trước hết, đề tài xây dựng sở tri thức thực thể phổ biến Việt Nam giới Bước tiếp theo, đề tài nghiên cứu thực kỹ thuật để xử lý tiếng Việt rút trích lớp thực thể trang Web cách tự động Đồng thời, đề tài nghiên cứu độ đo kỹ thuật xử lý truy vấn để người sử dụng truy hồi xác gần thơng tin từ sở tri thức xây dựng kho tài liệu Web thích Trên sở này, đề tài phát triển phần mềm ứng dụng rút trích truy hồi thông tin cho người sử dụng đầu cuối, xây dựng hệ thống máy chủ để đáp ứng nhiều yêu cầu đồng thời Các kết đạt tạo nên tảng cho Web có ngữ nghĩa tiếng Việt, đủ để thực số ứng dụng tiêu biểu phát triển tiếp thành sở hạ tầng hoàn chỉnh iii Mục lục Danh mục hình vii Danh mục bảng x Chương Giới thiệu .1 1.1 Thơng tin tóm tắt đề tài 1.2 Động thực đề tài .4 1.3 Phạm vi mục tiêu đề tài 1.4 Cấu trúc báo cáo .8 Chương Tham khảo nghiên cứu liên quan thiết kế hệ thống 11 2.1 Web có ngữ nghĩa 11 2.2 Các công nghệ ngôn ngữ hỗ trợ 17 2.3 Hệ thống KIM 28 2.4 Kiến trúc VN-KIM .32 Chương Xây dựng Ontology sở tri thức 39 3.1 Ontology sở tri thức KIM 39 3.2 Thiết kế xây dựng Ontology 41 3.3 Xây dựng sở tri thức .50 3.4 Vấn đề bí danh 55 Chương Rút trích thích lớp thực thể có tên .57 4.1 Nhận dạng mã tiếng Việt khối văn tin 57 4.2 Gán nhãn từ loại nhận biết danh từ riêng .65 4.3 Nhận biết lớp thực thể .70 4.4 Vấn đề đồng tham chiếu mập mờ thực thể 81 Chương Truy vấn sở tri thức kho trang Web có ngữ nghĩa .89 5.1 Truy vấn sở tri thức 89 5.2 Độ tương tự độ bao phủ 93 5.3 Truy vấn gần 101 5.4 Truy vấn kho trang Web có ngữ nghĩa .106 v Chương Xây dựng hệ thống máy chủ xử lý song song yêu cầu 111 6.1 Thiết kế thực mơ hình xử lý song song 111 6.2 Phát triển dịch vụ thích ngữ nghĩa 115 6.3 Phát triển dịch vụ truy hồi tri thức tài liệu 118 6.4 Thử nghiệm tải dịch vụ .121 Chương Phát triển phần mềm công cụ ứng dụng 127 7.1 Phần mềm xây dựng quản trị sở tri thức 127 7.2 Phần mềm truy hồi thông tin 132 7.3 Plug-in rút trích truy hồi thơng tin 141 Chương Tổng kết 145 8.1 Tóm tắt kết đạt 145 8.2 Hướng phát triển 152 Lời cảm ơn 153 Tài liệu tham khảo 155 Phụ lục: Các báo cáo kỹ thuật, hướng dẫn sử dụng phần mềm, báo khoa học 171 vi Danh mục hình 2.1.1 Các tầng Web có ngữ nghĩa 12 2.1.2 Biểu diễn ngữ nghĩa đồ thị khái niệm 15 2.2.1 Kiến trúc Sesame 21 2.2.2 Biểu diễn đồ thị truy vấn SeRQL 23 2.2.3 Một đồ thị khái niệm ví dụ 26 2.2.4 Một đồ thị khái niệm với liên kết đồng tham chiếu .27 2.2.5 Một đồ thị khái niệm bị phủ định 28 2.2.6 Các đồ thị khái niệm lồng 28 2.3.1 Rút trích thơng tin KIM 29 2.3.2 Kiến trúc tổng quát KIM .31 2.3.3 Một mẫu truy vấn cố định KIM .32 2.4.1 Kiến trúc VN-KIM 33 2.4.2 Thành phần rút trích thông tin VN-KIM .35 2.4.3 Truy hồi thông tin VN-KIM .36 3.2.1 Sơ đồ phân cấp lớp thực thể tổ chức .43 3.2.2 Sơ đồ phân cấp lớp thực thể tổ chức nhà nước 44 3.2.3 Sơ đồ phân cấp lớp thực thể tổ chức giáo dục đào tạo .44 3.2.4 Sơ đồ phân cấp lớp thực thể tổ chức thương mại 45 3.2.5 Sơ đồ phân cấp quản lý đơn vị hành Việt Nam 46 3.2.6 Sơ đồ phân cấp lớp thực thể đơn vị hành 46 3.2.7 Sơ đồ phân cấp lớp thực thể điểm đặc biệt 48 4.1.1 Một trang Web với khối văn tin tức 60 4.1.2 Vị trí khối văn tin tức tập tin HTML .60 4.1.3 Hai trang Web có khung mẫu 62 4.2.1 Phân đoạn từ VN-KIM .66 4.2.2 Ví dụ đồ thị trạng thái phân đoạn từ .67 4.2.3 Ví dụ luật nhận diện ngày tháng .68 4.2.4 Mơ hình kết hợp luật xác suất để gán nhãn từ loại 70 4.3.1 Sơ đồ bước thích ngữ nghĩa VN-KIM 72 4.3.2 Các bước xử lý chi tiết so trùng mẫu VN-KIM IE .75 vii 4.3.3 Một luật loại bỏ thích sai cho chuỗi có viết hoa chữ đầu 75 4.3.4 Hai luật nhận diện tên thực thể phủ lấp .76 4.3.5 Một luật nhận diện thực thể dựa ngữ liệu .77 4.3.6 Một luật nhận diện thực thể dựa ngữ cảnh 77 4.3.7 Một luật giải thích gây mâu thuẫn .78 4.3.8 Một luật sinh thích cuối 78 4.4.1 Kết hợp phân giải đồng tham chiếu mập mờ VN-KIM IE 81 4.4.2 Hàm kiểm tra đồng tham chiếu VN-KIM IE 84 4.4.3 Giải thuật loại bỏ nhập nhằng dựa vào mối quan hệ thực thể 86 4.4.4 Các bước loại bỏ mập mờ dựa đồng tham chiếu 87 5.1.1 Một đồ thị khái niệm truy vấn 90 5.1.2 Giải thuật dịch đồ thị khái niệm truy vấn sang SeRQL .91 5.1.3 Soạn thảo đồ thị khái niệm truy vấn .92 5.1.4 Các phát biểu SeRQL tương đương kết trả 93 5.2.1 Độ bao phủ so với độ tương tự .98 5.3.1 Một đồ thị khái niệm truy vấn tổng qt hố 102 5.3.2 Giải thuật tổng quát hoá dịch đồ thị khái niệm truy vấn sang SeRQL 103 5.3.3 Một đồ thị trả lời gần .104 5.3.4 Một ví dụ khác đồ thị truy vấn trả lời .104 5.3.5 Đồ thị khái niệm truy vấn tìm kiếm gần .105 5.3.6 Đồ thị khái niệm truy vấn tìm kiếm xác 105 5.4.1 Kiến trúc HTTPLuceneServer .106 5.4.2 Cấu trúc XML kết trả .108 6.1.1 Kiến trúc hệ thống máy chủ xử lý song song SWG cho VN-KIM 112 6.1.2 Đoạn mã Java khai báo lớp VOIService 114 6.1.3 Mơ hình hoạt động dịch vụ nhóm máy chủ VN-KIM 115 6.2.1 Quá trình tiếp nhận xử lý u cầu thích 116 6.2.2 Các bước dịch vụ thích ngữ nghĩa 117 6.2.3 Điều khiển module thực q trình thích 118 6.3.1 Quá trình tiếp nhận xử lý yêu cầu truy hồi tri thức .120 6.3.2 Giải thuật phân tải truy vấn sở tri thức 120 6.3.3 Quá trình tiếp nhận xử lý yêu cầu truy hồi tài liệu 121 viii 6.4.1 Đáp ứng thời gian Server thích .122 6.4.2 Đáp ứng thời gian Sesame Server 124 6.4.3 Đáp ứng thời gian Lucene Server 125 7.1.1 Giao diện soạn thảo lớp VN-KIM Ontology Builder 129 7.1.2 Giao diện soạn thảo thuộc tính VN-KIM Ontology Builder .129 7.1.3 Giao diện VN-KIM KB Access 130 7.1.4 Giao diện VN-KIM KB Project 131 7.1.5 Giao diện tạo Project VN-KIM KB Project 132 7.2.1 Soạn thảo nút khái niệm VN-KIM QER 133 7.2.2 Ràng buộc thuộc tính thực thể VN-KIM QER 134 7.2.3 Soạn thảo nút quan hệ VN-KIM QER 135 7.2.4 Hoàn tất đồ thị truy vấn với VN-KIM QER .135 7.2.5 Tìm kiếm xác VN-KIM QER 136 7.2.6 Tìm kiếm gần VN-KIM QER 137 7.2.7 Truy vấn SeRQL VN-KIM QER .138 7.2.8 Truy vấn mẫu cố định VN-KIM QER .139 7.2.9 Tìm kiếm tài liệu VN-KIM QER 140 7.2.10 Chọn thực thể để tìm tài liệu 140 7.2.11 Các tài liệu trả từ VN-KIM QER 141 7.3.1 VN-KIM Plug-in trang Web sau giải .142 7.3.2 Duyệt thực thể nhận diện với VN-KIM Plug-in 142 7.3.3 Tìm kiếm thực thể tài liệu với VN-KIM Plug-in 143 ix Danh mục bảng 1.1.1 Thơng tin tóm tắt đề tài .1 1.1.2 Danh sách thành viên đề tài .2 1.1.3 Danh sách thành viên tham gia thực đề tài 1.3.1 Danh mục sản phẩm khoa học công nghệ đề tài .7 3.3.1 Nguồn tài liệu tham khảo cho miền thực thể sở tri thức 51 3.3.2 Thống kê số lượng thực thể thuộc ba lớp cấp 54 3.3.3 Thống kê số lượng ngữ liệu tương ứng với ba lớp cấp 54 3.3.4 Thống kê số lượng thực thể thuộc lớp 54 4.1.1 Tốc độ thực thi module chuyển mã tiếng Việt 59 4.1.2 Kết thử nghiệm giải thuật nhận dạng khối văn tin tức 64 4.2.1 Kết phương pháp xác suất phương pháp kết hợp .70 4.3.1 Số liệu thử nghiệm ba lớp sở 80 4.3.2 Số liệu thử nghiệm mười lớp chi tiết 80 4.3.3 Số liệu thử nghiệm công ty VYC báo Người lao động 80 5.4.1 Các URL để kết nối đến HTTPLuceneServer 108 6.4.1 Độ giảm thời gian hoàn thành thích 123 6.4.2 Độ giảm thời gian hoàn thành truy hồi thực thể .124 6.4.3 Độ giảm thời gian hoàn thành truy hồi tài liệu 125 8.1.1 Các phần mềm chủ yếu đề tài 146 8.1.2 Các báo khoa học liên quan đến đề tài 149 8.1.3 Các sinh viên luận án tốt nghiệp liên quan đến đề tài 150 x Chương Giới thiệu 1.1 Thơng tin tóm tắt đề tài Bảng 1.1.1 tóm lược thơng tin đề tài Bảng 1.1.2 danh sách thành viên đề tài nhóm cơng việc đảm trách Bảng 1.1.3 danh sách thành viên cịn lại tham gia q trình thực đề tài Bảng 1.1.1 Các thông tin đề tài Tên đề tài NGHIÊN CỨU PHÁT TRIỂN CÁC KỸ THUẬT XÂY DỰNG VÀ KHAI THÁC THÔNG TIN WEB CÓ NGỮ NGHĨA (SEMANTIC WEB) Mã số Thời gian thực Từ tháng 01/2004 đến tháng 04/2006 Cấp quản lý Nhà nước Bộ Cơ sở Tỉnh KC.01.21 Kinh phí 2.044 triệu đồng Trong đó, từ Ngân sách SNKH: 1.600 triệu đồng (Thuê khoán: 745tr., nguyên vật liệu: 81tr., thiết bị: 1.054tr., chi khác: 164tr.) 2.3 Rút trích lớp thực thể có tên Nhận dạng mã tiếng Việt khối văn tin Hiện nay, trang web Việt Nam dùng nhiều bảng mã khác Do đó, trước rút trích thơng tin văn cần phải nhận bảng mã cụ thể dùng cho văn Chúng tơi phát triển module chuyển mã tiếng Việt để nhận dạng chuyển mã trang Web dạng Unicode chuẩn, kết hợp phương pháp dựa thẻ META so trùng mã ký tự Hiện module tích hợp VN-KIM IE với tính sau: Hỗ trợ ba bảng mã tiếng Việt thông dụng Việt Nam VNI, TCVN3, TCVN6909 Có khả nhận biết thơng minh trang Web chứa nhiều mã tiếng Việt khác nhau, chuyển mã xuôi ngược Chuyển mã nhanh bảng mã tích hợp vào nhớ xử lý theo chế phân luồng Mặt khác, trang Web chứa hiển thị khối thông tin khác hình quảng cáo, thực đơn, liên kết, đặc biệt văn tin tức Con người nhận biết dễ dàng khối thơng tin này, máy tính khơng Trong vấn đề rút trích thơng tin trang Web mà đề tài giải quyết, khối thông tin quan tâm chủ yếu khối văn mang tin tức thời Vì vậy, chúng tơi nghiên cứu phát triển module để phát tự động chuyển vị trí khối văn tin tức cho module theo sau tham khảo xử lý q trình rút trích thơng tin Việc khảo sát cơng trình liên quan cho thấy chưa có phương pháp hồn tồn tự động rút trích tức thời khối văn tin tức đọc Vì vậy, chúng tơi đề xuất phương pháp hồn toàn tự động để thực việc cho trang Web A qua ba bước sau: Tự động tìm kiếm nhóm trang Web B có khung mẫu với A Chuyển tất trang Web sang cấu trúc Lần lượt so trùng A với trang nhóm trang Web B Nếu có cặp có cấu trúc đủ tương tự nhau, suy diễn khung mẫu chung chúng 13 Gán nhãn từ loại nhận biết danh từ riêng Thành phần nhận diện thực thể có tên VN-KIM cần thơng tin từ loại (Parts-Of-Speech − POS) từ xuất văn cần rút trích để so trùng mẫu Đặc biệt danh từ riêng (Proper Noun) chúng tạo nên tên thực thể Trong đề tài này, sử dụng kiến trúc môi trường GATE để phân đoạn từ tiếng Việt theo luật Tập hợp 48 từ loại tiếng Việt Uỷ ban Khoa học Xã hội Việt Nam ([12]) sử dụng cho việc gán nhãn từ loại Về hướng tiếp cận, kết hợp phương pháp xác suất với phương pháp dựa luật Các luật xây dựng theo văn phong, tức cách viết văn người, thể loại văn bản, vào cách thể văn ngữ cảnh cụ thể để xác định từ loại cho từ Việc dùng luật thường gặp trường hợp mập mờ từ loại cạnh từ loại khác Vì vậy, phương pháp xác suất giúp phân giải chọn lựa tổ hợp từ loại trội theo kết thống kê Cụ thể, VN-KIM kết hợp sử dụng gán nhãn dựa luật gán nhãn Trigram Trong gán nhãn Trigram sử dụng kết hợp hai nguồn thông tin là: (1) từ điển tiếng Việt khoảng 80.000 từ, từ có kèm theo danh sách nhãn tần suất xuất tương ứng chúng; (2) ma trận gồm ba nhãn từ loại xuất liền văn với tần số xuất chúng Nguồn thông tin thứ hai thu dựa vào kho ngữ liệu mẫu với khoảng 79.000 từ gán nhãn Các loại dấu câu ký hiệu khác văn xử lý đơn vị từ vựng, với nhãn dấu câu tương ứng Cịn gán nhãn dựa luật, xây dựng 270 luật để nhận diện 48 từ loại kiểu ngày tháng năm Kết thử nghiệm tốt với tập mẫu xây dựng đạt tới độ xác khoảng 80% dùng phương pháp xác suất đạt khoảng 90% dùng phương pháp kết hợp Nhận biết lớp thực thể Điểm phân biệt VN-KIM IE với hệ thống khác hệ thống rút trích thơng tin viết tiếng Việt, với đặc thù ngôn ngữ Dựa kiến trúc GATE, VN-KIM IE nhận lớp thực thể có tên tham chiếu đến thực thể tương ứng sở tri thức, có Theo hướng tiếp cận này, mã nguồn mở GATE biến đổi để sử dụng thơng tin lưu trữ Ontology sở tri thức cụ thể mà đề tài xây dựng 14 Việc làm này, theo kinh nghiệm dự án KIM, không đơn giản tất lớp xử lý hệ thống phải lập trình lại, nhiên tốn phải phát triển từ đầu tất công cụ xử lý ngôn ngữ tự nhiên mà GATE có Hình 2.2 minh họa thành phần xử lý tài liệu VN-KIM, thích ngữ nghĩa thực thể có tên mà tài liệu đề cập đến sinh Các bước tiền xử lý ngôn ngữ tự nhiên trình bày Hai bước cịn lại so trùng cụm từ so trùng mẫu Nộitài dung Nội dung liệutài liệu Chú thích ngữ nghĩa …… Phân đoạn từ Ontology Cơ sở tri thức Ngữ liệu So trùng mẫu Tách câu Gán nhãn từ loại So trùng cụm từ Hình 2.2 Sơ đồ bước thích ngữ nghĩa VN-KIM Ở bước so trùng cụm từ, chuỗi Token gán nhãn tên riêng sau bước gán nhãn từ loại so trùng với tên khác thực thể sở tri thức, từ sinh thích tạm thời cho thực thể sở tri thức xuất tài liệu Ví dụ, tài liệu đầu vào có chuỗi “Hà Nội” sở tri thức chuỗi bí danh ba thực thể khác (thủ “Hà Nội”, di tích thành cổ “Hà Nội”, địa điểm du lịch “Hà Nội”) Như có ba thích sinh ứng với chuỗi Mỗi thích bao gồm lớp thực thể địa liên kết với thực thể tương ứng sở tri thức Quá trình đảm bảo cho hệ thống nhận diện thực thể sở tri thức xuất tài liệu Trong GATE, thành phần Gazetteer thực việc so trùng xác cụm từ với sở tri thức có sẵn Tuy nhiên, Gazetteer GATE dùng cho tiếng Anh nên chưa hỗ trợ Ontology thông tin lưu trữ sở tri thức VN-KIM Ngoài ra, Gazetteer GATE số nhược điểm phân biệt chữ hoa chữ thường, hạn chế 15 kích thước từ điển, chế so trùng chưa nhanh Do đó, thành phần xây dựng lại VN-KIM IE, gọi VN Hash Gazetteer Để tránh phân biệt chữ hoa thường GATE, không quán cách viết tắt danh từ riêng bỏ dấu tiếng Việt, chúng tơi chuẩn hóa cụm từ trước đem so trùng Trong bước chuẩn hóa này, tất cách viết tên riêng liệu đầu vào đưa dạng chuẩn qui ước nhất, thực xây dựng sở tri thức VN-KIM Thêm vào đó, chúng tơi sử dụng kỹ thuật băm tên thực thể để tăng tốc độ so trùng, số lượng thực thể có sở tri thức lớn Tiếp theo, bước so trùng mẫu, tập luật viết dựa văn phạm JAPE GATE sử dụng hiệu chỉnh lại thông tin nhận dạng thành phần so trùng cụm từ nhận dạng thêm thực thể có tên khơng có sở tri thức Việc nhận dạng thêm thực sở cách viết tên thực thể tiếng Việt Ví dụ chuỗi bắt đầu tiền tố công ty (như “cơng ty”, “xí nghiệp”, “hãng”), theo sau cụm từ loại hình cơng ty (như “liên doanh”, “TNHH”), cuối chuỗi từ viết hoa chữ đầu, chuỗi bí danh thực thể thuộc lớp công ty Một ví dụ cho trường hợp chuỗi “Cơng ty TNHH Hịa Bình” Văn phạm so trùng mẫu chứng tỏ tương thích với xử lý ngơn ngữ tự nhiên rút trích thơng tin Bộ xử lý văn phạm JAPE phần kiến trúc GATE, cho phép đặc tả luật so trùng mẫu thích Vì định hành động chuyển đổi xảy luật so trùng với cụm từ văn Chúng điều chỉnh xử lý JAPE nhằm điều khiển thông tin liên quan đến Ontology so trùng mẫu thích GATE cung cấp số luật văn phạm JAPE có sẵn thành phần có tên gọi ANNIE, giúp nhận so trùng số lớp người, nơi chốn, tổ chức, Tuy nhiên, tập luật áp dụng cho thực thể có tên tiếng Anh dựa thành phần gán nhãn từ loại tiếng Anh sẵn có GATE Vì thế, chúng tơi đặc tả tập luật hoàn toàn so với ANNIE để áp dụng cho thực thể có tên tiếng Việt Trong tập luật này, luật mô tả thông qua đặc tả lớp thực thể mẫu Quá trình so trùng dùng nguyên tắc viết tên thực thể quy khơng quy để xác định thích phù hợp có lớp (hay thuộc lớp con) với lớp mẫu văn phạm Nhờ xác định mẫu tham chiếu đến lớp cha bên (ví 16 dụ lớp tổ chức) cho phép tất lớp bên (tổ chức thương mại, tổ chức giáo dục đào tạo, tổ chức nhà nước lớp tổ chức khác) so trùng với luật văn phạm Tuy nhiên, việc xây dựng tập luật cho tiếng Việt khơng đơn giản chưa tồn chuẩn việc viết danh từ riêng tiếng Việt báo chí Bên cạnh đó, việc xác định lớp cho thực thể có tên khơng đơn dựa vào từ điển, có nhiều thực thể khác có tên Ví dụ để xác định xem thực thể “Sài Gòn” mà tài liệu đề cập đến thành phố, sông hay nhà máy bia, không cần phải xét ngữ cảnh nơi từ xuất mà cịn phải xét đến ngun tắc khơng quy việc viết tên riêng tiếng Việt Chẳng hạn câu “Tơi làm việc Sài Gịn” theo ý nghĩa quy câu khơng thiết thực thể “Sài Gòn” phải thành phố mà nhà máy bia Hiện tại, VN-KIM IE có gần 300 luật so trùng mẫu viết văn phạm JAPE Các luật phân thành nhóm chạy tuần tự, thực bước xử lý khác nhau, xác định lớp thực thể liên hệ với thơng tin mơ tả sở tri thức có Hiệu VN-KIM đánh giá Corpus Benchmark Tool GATE người sử dụng công ty du lịch VYC báo Người lao động, cho thấy độ xác (Precision) độ đầy đủ (Recall) vào khoảng 80% 2.4 Truy hồi tri thức thông tin Truy vấn đồ thị khái niệm SeRQL ngôn ngữ truy vấn mạnh cho đồ thị RDF, khơng thích hợp cho người sử dụng đầu cuối với cú pháp phức tạp ngôn ngữ cấu trúc RDF Các mẫu truy vấn cố định đơn giản không cho phép linh hoạt thay đổi chỗ mẫu truy vấn Với biểu diễn đồ thị, đồ thị khái niệm dễ đọc SeRQL linh hoạt mẫu truy vấn cố định Để tận dụng sở hạ tầng Sesame, sử dụng đồ thị khái niệm đơn giản mở rộng với tham chiếu truy vấn (Queried Referent) mức giao diện, ánh xạ chúng sang SeRQL để truy hồi tri thức Chúng phát triển phần mềm soạn thảo truy vấn cho VN-KIM, cho phép truy vấn tri thức tài liệu thích mẫu cố định, đồ thị khái niệm, phát biểu SeRQL Nó cung cấp cơng cụ vẽ để soạn thảo đồ thị khái niệm truy vấn đối 17 với Ontology sở tri thức VN-KIM Việc soạn thảo khái niệm hỗ trợ công cụ duyệt phân cấp kiểu khái niệm thực thể có thuộc kiểu khái niệm cụ thể Cây phân cấp kiểu quan hệ duyệt soạn thảo quan hệ, phù hợp quan hệ với khái niệm liên kết kiểm tra vẽ đồ thị khái niệm Các điều kiện giá trị thuộc tính thực thể đặc tả quan hệ ràng buộc miền giá trị tương ứng định nghĩa Ontology Sau đó, đồ thị khái niệm truy vấn ánh xạ sang phát biểu SeRQL trình bày Truy vấn gần Với bùng nổ thơng tin Web ngày nay, việc địi hỏi ln có câu trả lời xác tìm kiếm thơng tin khơng thực tế Vấn đề liên quan đến khoảng cách ngữ nghĩa khái niệm, quan hệ, thuộc tính, điều thu hút nhiều nỗ lực nghiên cứu Về khoảng cách ngữ nghĩa kiểu khái niệm quan hệ, phương pháp trước phân loại theo hai hướng tiếp cận dựa kho ngữ liệu dựa Ontology Trong cách tiếp cận thứ nhất, khoảng cách ngữ nghĩa từ biểu diễn khái niệm quan hệ xác định theo ngữ cảnh xuất chúng kho ngữ liệu Trong cách tiếp cận thứ hai, xác định dựa mạng ngữ nghĩa từ Tuy nhiên, phương pháp phụ thuộc vào xuất nghĩa thực từ, nên chúng không áp dụng cho nhãn kiểu mang tính định danh Trong đề tài này, sở tri thức VN-KIM xây dựng Ontology, biến đổi công thức tính khoảng cách ngữ nghĩa dựa Ontology từ ([5]) cho nhãn kiểu khái niệm quan hệ Thay tính xác suất xuất từ kho ngữ liệu theo phương pháp đó, chúng tơi rút xác suất xuất kiểu khái niệm quan hệ từ số lượng thực thể thuộc kiểu sở tri thức VN-KIM Chúng gọi phương pháp đề xuất dựa dân số (Population-Based) Đối với giá trị thuộc tính, đề tài quan tâm đến tên thực thể biểu diễn chuỗi kí tự Trong thực tế, truy vấn, người sử dụng thường khơng nhớ xác nhập vào xác tên thực thể cần tìm, gây nên sai lệch câu truy vấn câu trả lời Trong [2], tác giả mở rộng phương pháp 18 TF-IDF với so trùng mờ từ khoá, gọi Soft TF-IDF, để định nghĩa khoảng cách ngữ nghĩa tên thực thể Tuy nhiên, đánh giá IDF, ý nghĩa từ khoá tên thực thể thuộc lớp cụ thể chưa xét đến Vì vậy, đề xuất phương pháp cải tiến Soft TF-IDF nhạy cảm với lớp (Class-Sensitive) Ngồi ra, chúng tơi lưu ý là, độ đo đối xứng độ tương tự bàn bạc nhiều, nghiên cứu độ đo bất đối xứng cịn Nói riêng, người ta muốn đo mức độ đồ thị truy vấn bao phủ đồ thị trả lời Trong đề tài này, hai độ so trùng mà định nghĩa cho kiểu tên thực thể bất đối xứng Về mặt thực, việc xây dựng hệ thống truy hồi gần đồ thị tri thức từ đầu kỳ cơng Do đó, chúng tơi chọn cách tiếp cận biến đổi truy vấn Cụ thể tận dụng sở hạ tầng Sesame SeRQL để quản trị so trùng xác đồ thị tri thức Tức là, tri thức lưu trữ đồ thị RDF Sesame Một đồ thị truy vấn trước hết tổng quát hoá lên mức để truy hồi đồ thị RDF thơng qua SeRQL Sau đó, đồ thị trả lời xác truy vấn biến đổi so trùng với truy vấn gốc để trả độ tương tự bao phủ chúng Về kho trang Web VN-KIM IE thích ngữ nghĩa, dựa thư viện Lucene xây dựng RMILuceneServer để phục vụ việc bổ sung khai thác kho trang Web thích thơng qua giao thức RMI Bên cạnh đó, RMI thường bị chặn tường lửa, xây dựng thêm HTTPLuceneServer để chương trình ứng dụng khai thác thơng qua giao thức HTTP 2.5 Xử lý song song yêu cầu Với chức trình bày VN-KIM, mục tiêu thiết kế hệ thống máy chủ cho nhằm: Đảm bảo ứng dụng Web có ngữ nghĩa phục vụ nhiều người dùng đồng thời Tạo kết thời gian trung bình thấp Tính sẵn sàng cao Chúng tơi đặt tên cho module xử lý song song VN-KIM SWG, với nút tính tốn máy chủ mạnh, phân làm nhiều nhóm (Cluster), nhóm thực thi loại trình chuyên biệt trình xử lý truy vấn sở tri thức, trình thích trang Web tiếng Việt, q trình xử lý truy hồi tài liệu thích, 19 Các hệ thống nhóm Unix/Linux ghép nối nhiều máy tính trạm máy chủ lại với thông qua mạng truyền tốc độ cao cỡ Gbits/sec ([7]) Trong nút (máy tính trạm máy chủ) chạy hệ điều hành Unix/Linux dịch vụ cần thiết khác Network File System, … Hiện nay, hệ thống nhóm dùng Unix/Linux mang lại hiệu đầu tư cao so với máy tính cỡ lớn (Mainframe) Hình 2.3 mơ tả tổng quan kiến trúc hệ thống SWG Kiến trúc phần mềm SWG thiết kế theo mơ hình hướng dịch vụ (Service-Oriented Architecture – SOA) Lý chọn kiến trúc phần mềm hướng dịch vụ tiết kiệm thời gian tích hợp phát triển module độc lập đồng thời Hơn công nghiệp, kiến trúc hướng dịch vụ sử dụng rộng rãi ứng dụng phân bố, IBM Service-Oriented Architecture Chúng tơi thử nghiệm thành cơng mơ hình hướng dịch vụ cho tính tốn lưới (Grid Computing), việc xây dựng dịch vụ lưới (Grid Service) chạy môi trường Globus Toolkit phiên 3.2 để giải tốn tìm kiếm tri thức theo ngữ nghĩa VOAService AS Client VOLService VOKBService VOIService Lucence IS Sesame IS Annotation IS AS Client Client Client SS SS SS LS LS Hình 2.3 Kiến trúc hệ thống máy chủ xử lý song song SWG cho VN-KIM Về mặt phần mềm, SWG có bốn loại dịch vụ cài đặt máy chủ tiền trạm (Front-End) là: 20 Dịch vụ VOIService: Cung cấp thông tin chương trình hoạt động nhóm máy chủ xử lý yêu cầu SWG cho giải thuật cân tải Để tăng tính tái sử dụng, dịch vụ triển khai máy tính tốn nhóm để lấy thơng tin hệ thống tải rảnh CPU, số Mbyte trống nhớ RAM, … Dịch vụ VOAService: Chịu trách nhiệm nhận yêu cầu thích ngữ nghĩa cho trang web tiếng Việt, tìm chương trình thích hoạt động nhóm máy chủ thích hệ thống SWG Sau chuyển u cầu thích đến chương trình đó, chờ nhận kết để chuyển tiếp phía khách hàng (Client) yêu cầu giải Dịch vụ VOKBService: Chịu trách nhiệm nhận yêu cầu truy vấn sở tri thức từ phía khách hàng, tìm kiếm hệ quản trị sở tri thức Sesame hoạt động nhóm máy chủ quản trị sở tri thức hệ thống SWG Sau chuyển yêu cầu truy vấn đến hệ quản trị sở tri thức đó, chờ nhận kết để chuyển tiếp phía khách hàng yêu cầu truy xuất sở tri thức Dịch vụ VOLService: Chịu trách nhiệm nhận trả lời yêu cầu truy xuất tài liệu lưu trữ hệ quản trị tài liệu thích ngữ nghĩa Lucene từ phía khách hàng Chức cách thực dịch vụ tương tự dịch vụ VOKBService 21 Tổng kết Như mục tiêu đặt ban đầu, đề tài xây dựng tảng cho Web có ngữ nghĩa tiếng Việt, đủ để thực số ứng dụng tiêu biểu phát triển tiếp thành sở hạ tầng hoàn chỉnh Kết bao gồm sở tri thức thực thể có tên phổ biến Việt Nam giới, phương pháp phần mềm cơng cụ để thu thập, rút trích truy hồi thơng tin, mơ hình xử lý song song áp dụng cho hệ thống với số máy chủ lớn Một phần kết khoa học đề tài công bố kỷ yếu hội nghị, tạp chí sách xuất nước Hệ thống VN-KIM đề tài triển khai thử nghiệm công ty du lịch VYC báo Người lao động, đạt tiêu kỹ thuật chức đề Về hiệu kinh tế xã hội, trang Web thông tin quảng cáo báo điện tử, công ty du lịch, doanh nghiệp, hay tổ chức phủ có nhiều tên riêng nhân vật, tổ chức, nơi chốn, mà người đọc muốn biết tìm hiểu thêm VN-KIM tự động cung cấp thông tin đối tượng xuất trang Web tiếng Việt cho người đọc, mà khơng địi hỏi việc soạn thảo trước siêu liên kết từ chúng đến nguồn tin Điều có ý nghĩa hàng triệu trang Web tiếng Việt có sẵn, mà việc thích ngữ nghĩa tay cho chúng xem khơng khả thi nhiều thời gian, cơng sức, chi phí Các dịch vụ VN-KIM cung cấp cách gọn nhẹ thông qua Plug-in, cá nhân đơn vị có nhu cầu sử dụng chúng điều khiển quyền truy cập hệ thống 3.1 Sản phẩm phần mềm Bảng 3.1 mơ tả tóm tắt phần mềm chủ yếu đề tài Như vậy, số lượng thực thể sở tri thức vượt gấp đôi so với tiêu ban đầu đặt 60.000 thực thể Độ độ đầy đủ việc rút trích thông tin đạt tiêu ban đầu đặt khoảng 80% Tốc độ giải tin trung bình vào khoảng 15 giây, thỏa mãn yêu cầu người sử dụng nơi thử nghiệm thực tế 22 Bảng 3.1 Các phần mềm chủ yếu đề tài TT Tên phần mềm VN-KIM KB Mô tả Chất lượng Ontology sở tri thức hệ thống VN-KIM đề tài thực thể có tên phổ biến Việt Nam giới - Ontology có 370 lớp 115 tính chất, bao quát lớp thực thể chung Việt Nam giới - Cơ sở tri thức gồm 120.000 thực thể có tên phổ biến Việt Nam giới VN-KIM KBM Phần mềm xây dựng Ontology sở tri thức Chạy Microsoft Windows, cho phép: - Xây dựng Ontology từ đầu - Khởi tạo cập nhật trực tiếp sở tri thức từ xa - Phân nhỏ xây dựng phần sở tri thức VN-KIM QER Phần mềm truy vấn sở tri thức kho tài liệu Web có ngữ nghĩa Chạy Microsoft Windows, cho phép: - Soạn thảo thực thi truy vấn đồ thị khái niệm cách xác gần - Soạn thảo thực thi truy vấn SeRQL - Soạn thảo thực thi truy vấn mẫu cố định VN-KIM Plugin Phần mềm gắn vào trình duyệt Web để rút trích truy hồi thông tin Gắn vào Internet Explorer, cho phép: - Nhận diện thực thể có tên trang Web tiếng Việt, với độ xác độ đầy đủ ~80% - Duyệt để xem thông tin thực thể nhận diện - Truy vấn sở tri thức kho tài liệu Web có ngữ nghĩa mẫu cố định VN-KIM Server Phần mềm hệ thống máy chủ × ~5,6GHz để phân tải đáp ứng yêu cầu rút trích truy hồi thơng tin Gồm module sau: - F-Server: đón nhận phân tải yêu cầu, trả kết - A-Server: nhận diện thích lớp cho thực thể có tên trang Web yêu cầu - S-Server: xử lý yêu cầu truy cập đến sở tri thức Sesame quản lý - L-Server: xử lý yêu cầu truy cập đến kho trang Web có ngữ nghĩa Lucence quản lý 23 3.2 Kết nghiên cứu khoa học Các kết nghiên cứu áp dụng trực tiếp cho việc xây dựng phát triển VN-KIM là: Phương pháp giải thuật để xây dựng sở tri thức lớn theo cách phân mảnh, nhập liệu gián tiếp, tải lên sở tri thức theo lệnh lưu vết trình nhập liệu: cách cho phép phân nhỏ nội dung sở tri thức cho nhiều người nhập liệu, khắc phục hạn chế phần mềm Protégé không quản lý toàn sở tri thức lớn soạn thảo Giải thuật ánh xạ đồ thị khái niệm truy vấn sang câu ngôn ngữ truy vấn SeRQL: kết cho phép truy vấn sở tri thức kho trang Web có ngữ nghĩa đề tài đồ thị khái niệm, dễ sử dụng SeRQL với cú pháp phức tạp, tận dụng Sesame làm phía để lưu trữ truy hồi tri thức Độ đo tương tự bao phủ đồ thị tri thức phương pháp biến đổi truy vấn để truy hồi gần tri thức: độ bao phủ, khác với độ tương tự, độ đo bất đối xứng, nên phân biệt vai trị khác câu truy vấn câu trả lời; phương pháp biến đổi truy vấn giúp tận dụng động tìm kiếm xác có Sesame Mơ hình giải thuật gán nhãn từ loại tiếng Việt, đặc biệt cho danh từ riêng, kết hợp hai cách tiếp cận dựa luật dựa xác suất thống kê: mơ hình kết hợp giúp làm tăng độ xác kết gán nhãn, so với mơ hình dùng luật số liệu thống kê từ kho ngữ liệu Tập luật giải thuật xác định tự động lớp thực thể có tên tiếng Việt theo ngữ cảnh nơi thực thể xuất hiện: luật xây dựng đặc thù cho ngữ liệu, cách viết tên riêng, cấu trúc cụm danh từ tiếng Việt, cho Ontology sở tri thức thiết kế xây dựng thực thể có tên Việt Nam Giải thuật rút trích tự động khối văn tin tức trang Web báo điện tử theo cách tiếp cận so trùng theo khuôn mẫu để phát nội dung khác biệt: giải thuật hữu ích để định vị tin thật nằm lẫn đoạn văn hình ảnh thực đơn, quảng cáo, ; giúp tách biệt đoạn mã 24 thực thi theo kịch dạng văn nằm ẩn trang Web khỏi văn hiển thị cho người đọc Mơ hình giải thuật xử lý song song theo hướng phân tải đa luồng cho dịch vụ khác toàn hệ thống đề tài: giải thuật cho phép kết nối phân tải công nghệ xử lý ngôn ngữ tự nhiên GATE, quản trị sở tri thức Sesame, quản trị kho tài liệu có thích ngữ nghĩa Lucene; mơ hình thiết kế để mở rộng cho hệ thống nhiều máy chủ vật lý nhóm lại theo chức Một phần kết công bố 17 báo xuất nước 05 báo nước, liệt kê Bảng 3.2 Về việc đào tạo nguồn nhân lực, thông qua đề tài, chúng tơi hướng dẫn hồn thành luận án tốt nghiệp cho 01 Tiến sĩ, 09 Thạc sĩ, 14 Kỹ sư Bảng 3.2 Các báo khoa học liên quan đến đề tài TT Tên báo tác giả Nơi xuất Năm A fuzzy FCA-based approach to conceptual clustering for automatic generation of concept hierarchy on uncertainty data Proceedings of the Concept Lattices and Their Applications Workshop, September 23-24, 2004, VSB - TU Ostrava, Czech Republic 2004 Proceedings of the Knowledge Discovery and Ontologies Workshop, September 24, 2004, Pisa, Italy 2004 Proceedings of the 3rd International Semantic Web Conference, November 7-11, 2004, Hiroshima, Japan, LNCS Vol 3298, Springer-Verlag, pp 726-740 2004 Proceedings of the IEEE Conference on Cybernetics and Intelligent Systems, December 1-3, 2004, Singapore, pp 578-583 2004 Proceedings of the Vietnam-Japan Workshop on Active Mining, December 4-7, 2004, Ha Noi, Japanese Artificial Intelligence Society, SIG-KBS-A403, pp 197-200 2004 Proceedings of the International Conference on High Performance Scientific Computing, March 10-14, 2003, Ha Noi, Springer-Verlag, pp 57-68 2005 Proceedings of the 9th Pacific-Asia Conference on Knowledge Discovery and Data Mining, May 18-20, 2005, Ha Noi, Springer-Verlag, pp 290-300 2005 Ngoài nước Quan, T.T & Hui, S.C & Cao, T.H FOGA: a fuzzy ontology generation framework for scholarly semantic web Quan, T.T & Hui, S.C & Cao, T.H Automatic generation of ontology for scholarly semantic web Quan, T.T & Hui, S.C & Fong Alvis, C.M & Cao, T.H A fuzzy FCA-based approach for citation-based document retrieval Quan, T.T & Hui, S.C & Cao, T.H A domain-specific concept-based searching system Cao, T.H & Ta, M.T.H & Luong, T.Q Searching the Web: a Semantics-Based Approach Cao, T.H & Nguyen, T.H.D & Qui, T.C.T Text classification for DAG-structured categories Nguyen, C.D & Dung, T.A & Cao, T.H 25 Contributions of the 13th International Conference on Conceptual Structures, July 18-22, 2005, Kassel, Germany, Kassel University Press, pp 27-40 2005 Proceedings of the 11th World Congress of International Fuzzy Systems Association, July 28-31, 2005, Beijing, China, Tsinghua-Springer, pp 652-657 2005 Proceedings of the 7th International Conference on Information Integration and Web-Based Applications & Services, September, Kuala Lumpur, Malaysia 2005 Addendum Contributions of the 4th International Conference on Research, Innovation and Vision for the Future, IEEE, February 12-16, 2006, HCM City, pp 47-52 2006 Proceedings of the 4th International Conference on Research, Innovation and Vision for the Future, IEEE, February 12-16, 2006, HCM City, pp 145-152 2006 2006 Cao, T.H & Huynh, D.T Book Chapter in Sanchez, E (ed.): Fuzzy Logic and the Semantic Web, Elsevier Science, pp 283-304 Automatic fuzzy ontology generation for semantic web IEEE Transactions on Knowledge and Data Engineering 2006 International Journal of Metadata, Semantics and Ontologies, Inderscience Publishers 2006 Proceedings of the 3rd International Conference on Soft Methods in Probability and Statistics, September 5-7, 2006, Bristol, UK, Advances in Soft Computing, Springer, pp 365-372 2006 International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 2006 Proceedings of the School on Computational Sciences and Engineering: Theory and Applications, 2-4/3/2005, HCM City, 115-122 2005 Kỷ yếu Hội nghị Quốc gia lần Nghiên cứu, Phát triển Ứng dụng CNTT&TT, 24-25/9/2004, Hà Nội, NXB KH&KT, 129-138 2005 Kỷ yếu Hội thảo Quốc gia lần Nghiên cứu Cơ Ứng dụng CNTT, 23-24/9/2005, TP.HCM, NXB KH&KT, 106-116 2006 2006 Nguyen, V.T.T & Cao, T.H Kỷ yếu Hội thảo Quốc gia lần Nghiên cứu Cơ Ứng dụng CNTT, 23-24/9/2005, TP.HCM, NXB KH&KT, 307-316 Gán nhãn từ loại cho tiếng Việt dựa văn phong tính tốn xác suất Tạp chí Phát triển Khoa học & Cơng nghệ ĐHQG TP.HCM, Vol 9, 11-22 2006 Conceptual graphs for knowledge querying in VN-KIM Cao, T.H & Do, H.T & Pham, B.T.N & Huynh, T.N & Vu, D.Q Approximate retrieval of knowledge graphs Cao, T.H & Huynh, D.T 10 Matchmaker for semantic web services using different ontologies Ngan, L.D & Goh, A & Cao, T.H 11 Automatic news extraction from web pages Le, P & Cao, T.H 12 Vietnamese proper noun recognition Nguyen, C.Q & Phan, T.T & Cao, T.H 13 14 Approximate knowledge graph retrieval: measures and realization Quan, T.T & Hui, S.C & Fong Alvis, C.M & Cao, T.H 15 Multi-ontology matchmaker Ngan, L.D & Goh, A & Cao, T.H 16 Fuzzy synset-based hidden Markov model for automatic text segmentation Ha, V.T & Nguyen-Van, Q-A & Cao, T.H & Lawry, J 17 Subsumption degrees between entity types and names for approximate knowledge retrieval Cao, T.H & Huynh, D.T Trong nước A practical grid service-oriented architecture Son, N.T & Hung, N.Q Hướng đến Web Việt có ngữ nghĩa Cao, T.H & Huynh, T.N & Vu, D.Q Gán nhãn từ loại cho tiếng Việt dựa văn phong Nguyen, C.Q & Phan, T.T & Cao, T.H Rút trích thực thể có tên Web tiếng Việt văn phạm so trùng mẫu Nguyen, C.Q & Phan, T.T & Cao, T.H 26 Tài liệu tham khảo Berners-Lee, T 1998 Semantic web roadmap Bản thảo Bilenko, M et al 2003 Adaptive name matching in information integration Trong tạp chí IEEE Intelligent Systems, 18, 16-23 Cunningham, H et al 2003 Developing language processing components with GATE Tài liệu hướng dẫn sử dụng GATE version 2.1 Gruber, T.R 1993 A translation approach to portable ontology specifications Trong tạp chí Knowledge Acquisition, 6, 199-221 Jiang, J., Conrath, D.W 1997 Semantic similarity based on corpus statistics and lexical taxonomy Trong kỷ yếu The International Conference on Research in Computational Linguistics Kampman, A., Harmelen, F., Broekstra, J 2002 Sesame: a generic architecture for storing and querying RDF and RDF schema Trong kỷ yếu The 1st International Semantic Web Conference Lucke, R.W 2005 Building Clustered Linux Systems Prentice Hall PTR Mihalcea, R., Moldovan, D.I 2001 Document indexing using named entities Trong tạp chí Studies in Informatics and Control, 10 (1) Noy, N.F., Sintek, M., Decker, S., Crubezy, M., Fergerson, R.W., Musen, M.A 2001 Creating semantic web contents with Protégé-2000 Trong tạp chí IEEE Intelligent Systems, 2(16), 60-71 10 Popov, B et al 2003 KIM – semantic annotation platform Trong kỷ yếu The 2nd International Semantic Web Conference 11 Sowa, J.F 1984 Conceptual Structures - Information Processing in Mind and Machine Addison-Wesley Publishing Company 12 Uỷ ban Khoa học Xã hội Việt Nam 1993 Ngữ pháp tiếng Việt NXB KH Xã hội 27