Kết quả nghiên cứu khoa học

Các kết quả nghiên cứu chính đã được áp dụng trực tiếp cho việc xây dựng và phát triển VN-KIM là:

1. Phương pháp và giải thuật để xây dựng một cơ sở tri thức lớn theo cách phân mảnh, nhập dữ liệu gián tiếp, và tải lên cơ sở tri thức theo các lệnh đã được lưu vết trong quá trình nhập dữ liệu: cách này cho phép phân nhỏ nội dung của cơ sở tri thức cho nhiều người cùng nhập dữ liệu, và khắc phục được hạn chế của các phần mềm như Protégé không quản lý nổi toàn bộ một cơ sở tri thức quá lớn khi soạn thảo.

2. Giải thuật ánh xạ các đồ thị khái niệm truy vấn sang các câu của ngôn ngữ truy vấn SeRQL: kết quả này cho phép truy vấn cơ sở tri thức và kho trang Web có ngữ nghĩa của đề tài bằng đồ thị khái niệm, dễ sử dụng hơn SeRQL với cú pháp phức tạp, và tận dụng được Sesame làm nền phía dưới để lưu trữ và truy hồi tri thức.

3. Độ đo tương tự và bao phủ giữa các đồ thị tri thức và phương pháp biến đổi truy vấn để truy hồi gần đúng tri thức: độ bao phủ, khác với độ tương tự, là một độ đo bất đối xứng, nên nó phân biệt được vai trò khác nhau của câu truy vấn và câu trả lời; phương pháp biến đổi truy vấn giúp tận dụng được động cơ tìm kiếm chính xác đã có của Sesame.

4. Mô hình và giải thuật gán nhãn từ loại tiếng Việt, đặc biệt cho danh từ riêng, kết hợp cả hai cách tiếp cận là dựa trên luật và dựa trên xác suất thống kê: mô hình kết hợp này giúp làm tăng độ chính xác của kết quả gán nhãn, so với mô hình chỉ dùng các luật hoặc số liệu thống kê từ các kho ngữ liệu.

5. Tập luật và giải thuật xác định tự động lớp của các thực thể có tên tiếng Việt theo ngữ cảnh nơi các thực thể xuất hiện: các luật đã xây dựng là đặc thù cho ngữ liệu, cách viết tên riêng, và cấu trúc các cụm danh từ trong tiếng Việt, cũng như cho Ontology và cơ sở tri thức đã được thiết kế và xây dựng về các thực thể có tên ở Việt Nam.

6. Giải thuật rút trích tự động các khối văn bản tin tức trên các trang Web báo điện tử theo cách tiếp cận so trùng theo khuôn mẫu để phát hiện nội dung khác biệt:

giải thuật này hữu ích để định vị các bản tin thật sự nằm lẫn trong các đoạn văn bản hoặc hình ảnh thực đơn, quảng cáo, ... ; nó cũng giúp tách biệt các đoạn mã

thực thi theo kịch bản ở dạng văn bản nằm ẩn dưới một trang Web khỏi các văn bản hiển thị cho người đọc.

7. Mô hình và giải thuật xử lý song song theo hướng phân tải đa luồng cho các dịch vụ khác nhau của toàn bộ hệ thống đề tài: giải thuật cho phép kết nối và phân tải trên các công nghệ xử lý ngôn ngữ tự nhiên GATE, quản trị cơ sở tri thức Sesame, và quản trị kho tài liệu có chú thích ngữ nghĩa Lucene; mô hình được thiết kế để có thể mở rộng được cho một hệ thống nhiều máy chủ vật lý được nhóm lại theo chức năng.

Một phần các kết quả này đã được công bố trong 17 bài báo xuất bản ở ngoài nước và 05 bài báo ở trong nước, như liệt kê ở Bảng 3.2. Về việc đào tạo nguồn nhân lực, thông qua đề tài, chúng tôi đã hướng dẫn hoàn thành luận án tốt nghiệp cho 01 Tiến sĩ, 09 Thạc sĩ, và 14 Kỹ sư.

Bảng 3.2 Các bài báo khoa học liên quan đến đề tài

TT Tên bài báo và tác giả Nơi xuất bản Năm Ngoài nước

1 A fuzzy FCA-based approach to conceptual clustering for automatic generation of concept hierarchy on uncertainty data.

Quan, T.T. & Hui, S.C. & Cao, T.H.

Proceedings of the Concept Lattices and Their Applications Workshop, September 23-24, 2004, VSB - TU Ostrava, Czech Republic.

2004

2 FOGA: a fuzzy ontology generation framework for scholarly semantic web.

Quan, T.T. & Hui, S.C. & Cao, T.H.

Proceedings of the Knowledge Discovery and Ontologies Workshop, September 24, 2004, Pisa, Italy.

2004

3 Automatic generation of ontology for scholarly semantic web.

Quan, T.T. & Hui, S.C. & Fong Alvis, C.M. &

Cao, T.H.

Proceedings of the 3rd International Semantic Web Conference, November 7-11, 2004, Hiroshima, Japan, LNCS Vol. 3298, Springer-Verlag, pp. 726-740.

2004

4 A fuzzy FCA-based approach for citation-based document retrieval.

Quan, T.T. & Hui, S.C. & Cao, T.H.

Proceedings of the IEEE Conference on Cybernetics and Intelligent Systems, December 1-3, 2004, Singapore, pp. 578-583.

2004

5 A domain-specific concept-based searching system.

Cao, T.H. & Ta, M.T.H. & Luong, T.Q.

Proceedings of the Vietnam-Japan Workshop on Active Mining, December 4-7, 2004, Ha Noi, Japanese Artificial Intelligence Society, SIG-KBS-A403, pp. 197-200.

2004

6 Searching the Web: a Semantics-Based Approach.

Cao, T.H. & Nguyen, T.H.D. & Qui, T.C.T.

Proceedings of the International Conference on High Performance Scientific Computing, March 10-14, 2003, Ha Noi, Springer-Verlag, pp. 57-68.

2005

7 Text classification for DAG-structured categories.

Nguyen, C.D. & Dung, T.A. & Cao, T.H.

Proceedings of the 9th Pacific-Asia Conference on Knowledge Discovery and Data Mining, May 18-20, 2005, Ha Noi, Springer-Verlag, pp. 290-300.

2005

8 Conceptual graphs for knowledge querying in VN-KIM.

Cao, T.H. & Do, H.T. & Pham, B.T.N. &

Huynh, T.N. & Vu, D.Q.

Contributions of the 13th International Conference on Conceptual Structures, July 18-22, 2005, Kassel, Germany, Kassel University Press, pp. 27-40.

2005

9 Approximate retrieval of knowledge graphs.

Cao, T.H. & Huynh, D.T.

Proceedings of the 11th World Congress of International Fuzzy Systems Association, July 28-31, 2005, Beijing, China,

Tsinghua-Springer, pp. 652-657.

2005

10 Matchmaker for semantic web services using different ontologies.

Ngan, L.D. & Goh, A. & Cao, T.H.

Proceedings of the 7th International Conference on Information Integration and Web-Based Applications & Services, September, Kuala Lumpur, Malaysia.

2005

11 Automatic news extraction from web pages.

Le, P. & Cao, T.H.

Addendum Contributions of the 4th International Conference on Research, Innovation and Vision for the Future, IEEE, February 12-16, 2006, HCM City, pp. 47-52.

2006

12 Vietnamese proper noun recognition.

Nguyen, C.Q. & Phan, T.T. & Cao, T.H.

Proceedings of the 4th International Conference on Research, Innovation and Vision for the Future, IEEE, February 12-16, 2006, HCM City, pp. 145-152.

2006

13 Approximate knowledge graph retrieval:

measures and realization.

Cao, T.H. & Huynh, D.T.

Book Chapter in Sanchez, E. (ed.): Fuzzy Logic and the Semantic Web, Elsevier Science, pp. 283-304.

2006

14 Automatic fuzzy ontology generation for semantic web.

Quan, T.T. & Hui, S.C. & Fong Alvis, C.M. &

Cao, T.H.

IEEE Transactions on Knowledge and Data Engineering.

2006

15 Multi-ontology matchmaker.

Ngan, L.D. & Goh, A. & Cao, T.H.

International Journal of Metadata, Semantics

and Ontologies, Inderscience Publishers. 2006 16 Fuzzy synset-based hidden Markov model for

automatic text segmentation.

Ha, V.T. & Nguyen-Van, Q-A. & Cao, T.H. &

Lawry, J.

Proceedings of the 3rd International Conference on Soft Methods in Probability and Statistics, September 5-7, 2006, Bristol, UK, Advances in Soft Computing, Springer, pp. 365-372.

2006

17 Subsumption degrees between entity types and names for approximate knowledge retrieval.

Cao, T.H. & Huynh, D.T.

International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems.

2006

Trong nước

1 A practical grid service-oriented architecture.

Son, N.T. & Hung, N.Q.

Proceedings of the School on Computational Sciences and Engineering: Theory and Applications, 2-4/3/2005, HCM City, 115-122.

2005

2 Hướng đến Web Việt có ngữ nghĩa.

Cao, T.H. & Huynh, T.N. & Vu, D.Q.

Kỷ yếu Hội nghị Quốc gia lần 2 về Nghiên cứu, Phát triển và Ứng dụng CNTT&TT, 24-25/9/2004, Hà Nội, NXB KH&KT, 129-138.

2005

3 Gán nhãn từ loại cho tiếng Việt dựa trên văn phong.

Nguyen, C.Q. & Phan, T.T. & Cao, T.H.

Kỷ yếu Hội thảo Quốc gia lần 2 về Nghiên cứu Cơ bản và Ứng dụng CNTT, 23-24/9/2005, TP.HCM, NXB KH&KT, 106-116.

2006

4 Rút trích thực thể có tên trên Web tiếng Việt bằng văn phạm so trùng mẫu.

Nguyen, V.T.T. & Cao, T.H.

Kỷ yếu Hội thảo Quốc gia lần 2 về Nghiên cứu Cơ bản và Ứng dụng CNTT, 23-24/9/2005, TP.HCM, NXB KH&KT, 307-316.

2006

5 Gán nhãn từ loại cho tiếng Việt dựa trên văn phong và tính toán xác suất.

Nguyen, C.Q. & Phan, T.T. & Cao, T.H.

Tạp chí Phát triển Khoa học & Công nghệ -

ĐHQG TP.HCM, Vol. 9, 11-22. 2006

Các công nghệ và ngôn ngữ hỗ trợ

Thiết kế và xây dựng Ontology