KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 KẾT QUẢ CỦA LUẬN VĂN

Một phần của tài liệu Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính (Trang 102)

- Phần thứ hai là tìm kiếm nâng cao theo các khóa dữ liệu mô tả thuộc tính của tài liệu Để hỗ trợ cho việc tìm kiếm nhanh chóng và chính xác hơn, hệ thống đưa ra

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 KẾT QUẢ CỦA LUẬN VĂN

5.1.KẾT QUẢ CỦA LUẬN VĂN

Với những mục tiêu đề ra ban đầu, luận văn đã thực hiện hoàn chỉnh nội dung nghiên cứu. Nhóm nghiên cứu đã đề xuất được một mô hình ontology cải tiến cùng với các kỹ thuật xử lý ngữ nghĩa để cải thiện giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu KHMT. Qua đó làm cơ sở và là công cụ cho việc thiết kế cơ sở tri thức, bộ suy diễn tìm kiếm tự động cũng như giao diện của hệ thống quản lý kho tài nguyên nói chung và kho tài liệu học tập lĩnh vực KHMT nói riêng. Mô hình ontology cải tiến đã giúp hệ thống có khả năng mở rộng việc xử lý câu truy vấn và xác định độ tương đồng ngữ nghĩa giữa các keyphrase một cách tự động. Từ đó, cải thiện độ chính xác và độ bao phủ của tập kết quả trả về trong quá trình tìm kiếm tài liệu theo ngữ nghĩa.

Luận văn đã phân tích và đánh giá các phương pháp tiếp cận trong việc tổ chức lưu trữ và xử lý ngữ nghĩa của tài liệu đã biết, đặc biệt là giải pháp “Thiết kế và tổ chức lưu trữ kho tài liệu học tập lĩnh vực CNTT”. Từ đó, về mặt lý thuyết, luận văn đã đóng góp trong việc phát triển mô hình biểu diễn tri thức của lĩnh vực và các kỹ thuật xử lý liên quan tới ngữ nghĩa:

- Mô hình ontology cải tiến mô tả tri thức về một lĩnh vực đặc biệt trong đó sử dụng keyphrase và lớp các khái niệm là thành phần chính để định nghĩa các khái niệm trong ontology. Cấu trúc của ontology được thiết kế có tính tổng quát và dễ dàng mở rộng cho nhiều lĩnh vực khác nhau cũng như các loại hình ứng dụng khác nhau. Mô hình cho ta một thể hiện tương đối đầy đủ với các cấu trúc tường minh cho một lớp kiến thức tổng quát bao gồm 5 thành phần chính: (1) một tập hợp các keyphrase biểu thị cho hệ thống các thuật ngữ quan trọng trong lĩnh vực, (2) một tập hợp các lớp định nghĩa các khái niệm tương đối cơ bản của lĩnh vực, (3) một tập hợp các quan hệ giữa các đối tượng bao gồm ba tập hợp con: tập hợp các quan hệ trên lớp, tập hợp các quan hệ giữa keyphrase và lớp và tập hợp các quan hệ trên keyphrase, (4) một tập hợp các luật suy diễn và cuối cùng (5) là một hàm gán nhãn

phân loại keyphrase theo sự phân cấp giữa các chủ đề từ các phạm vi rộng đến hẹp hơn.

- Đề xuất phương pháp xác định mối quan hệ ngữ nghĩa tự động giữa các đối tượng bằng phương pháp suy diễn tiến từ tập luật được định nghĩa trong ontology và các sự kiện liên quan đến keyphrase, lớp và tính chất của quan hệ. Từ đó, giúp cho việc tính độ liên quan về mặt ngữ nghĩa giữa hai keyphrase trong kỹ thuật tính toán và so khớp các đồ thị keyphrase nhanh chóng và chính xác hơn.

- Mở rộng kỹ thuật xử lý câu truy vấn: tận dụng các thông tin mô tả trúc của một khái niệm được định nghĩa trong ontology, tiến hành phân tích và nhận dạng mẫu câu truy vấn để đưa câu truy vấn về dạng cụ thể hơn. Nếu không có kết quả nào được trả về thì ta tiến hành xử lý bằng cách rút trích tự động các keyphrase diễn đạt nội dung chính muốn tìm kiếm, biểu diễn câu truy vấn thành danh sách keyphrase hay đồ thị keyphrase tùy theo chức năng tìm kiếm và ngôn ngữ đặc tả câu truy vấn.

Bên cạnh việc nêu lên các ưu thế và lợi ích của việc nghiên cứu, phát triển mô hình cùng với các thuật giải tự động dựa trên ngữ nghĩa, chúng tôi đã cài đặt và xây dựng được một ứng dụng thử nghiệm từ những cải tiến này. Đây là một hệ thống quản lý kho tài nguyên học tập về chuyên ngành KHMT trong phạm vi của một trường đại học với yêu cầu sử dụng bao gồm các tác vụ chính là tổ chức lưu trữ, quản lý và tìm kiếm, đặc biệt là chức năng tìm kiếm theo ngữ nghĩa liên quan đến nội dung của tài liệu. Từ đó là cơ sở để đánh giá tính hiệu quả của việc cải tiến so với giải pháp cũ. Kết quả đạt được là hệ thống đã cho ra kết quả tìm kiếm có độ chính xác trung bình là 87,74% và độ phủ trung bình là 88,15% so với hệ thống cũ lần lượt là 82,43% và 81,98% trên tập dữ liệu là 500 tài liệu được phân bố tương đối đồng đều cho các lĩnh vực con.

Một số kết quả khác có thể kể đến như: khắc phục các trường hợp thiếu sót và dư thừa của các keyphrase và các quan hệ giúp cho ontology biểu diễn tri thức của lĩnh việc được hoàn thiện hơn. Thu thập kho tài nguyên học tập về lĩnh vực KHMT gần 50GB dữ liệu thô và tổ chức lưu trữ theo cấu trúc thư mục phân cấp. Tài liệu được phân loại theo chức năng sử dụng trong giảng dạy và theo loại hình tài liệu.

5.2.HẠN CHẾ CỦA ĐỀ TÀI

Việc xây dựng một hệ thống quản lý kho tài liệu văn bản hỗ trợ tìm kiếm dựa trên ngữ nghĩa của tài liệu về mặt thực tế là rất khó vì nhiều vấn đề cho đến nay vẫn còn khá mới hoặc vẫn chưa có lời giải tối ưu. Các phương pháp và kỹ thuật hiện có thường chỉ hỗ trợ cho một số miền tri thức nhất định trong những ứng dụng cụ thể. Ngoài ra, việc xây dựng một cơ sở tri thức cho một lĩnh vực cũng gặp nhiều khó khăn vì tốn nhiều chi phí xây dựng và duy trì vốn phải có sự can thiệp của con người, đòi hỏi kiến thức của chuyên gia về lĩnh vực và phụ thuộc nhiều vào ngôn ngữ. Trong bối cảnh đó, với khuôn khổ của một luận văn thạc sỹ, chúng tôi cũng chỉ tập trung nghiên cứu phát triển cải tiến mô hình ontology cùng với các kỹ thuật xử lý ngữ nghĩa liên quan. Xây dựng thử nghiệm một hệ thống quản lý kho tài liệu học tập về một lĩnh vực cụ thể là chuyên ngành KHMT để đánh giá với giải pháp cũ và chỉ giới hạn trong phạm vi kho tài liệu tiếng Anh.

Riêng về đề tài, một trong những hạn chế lớn nhất là chưa định nghĩa được nhiều khái niệm trong chuyên ngành KHMT. Việc định nghĩa cấu trúc của một khái niệm là cực kỳ phức tạp, đặc biệt là các khái niệm trong lĩnh vực chuyên ngành, đòi hỏi nhiều công sức và kiến thức sâu rộng của chuyên gia. Bên cạnh đó, việc xây dựng ontology bằng phương pháp thủ công theo ý kiến chủ quan của con người nên vẫn còn những trường hợp thiếu sót hay dư thừa các keyphrase và quan hệ mặc dù đã được cải thiện rất nhiều so với ontology cũ. Tuy nhiên, việc định nghĩa các khái niệm trong ontology bằng tập các lớp có mô tả cấu trúc thông tin là cách tiếp cận hiện đại và phù hợp, giúp cho ontology mô tả thông tin của miền lĩnh vực sâu hơn. Nếu những tài nguyên từ vựng hay các ontology được xây dựng tốt, mô tả được tương đối đầy đủ tri thức của lĩnh vực thì việc sử chúng sẽ làm tăng độ chính xác và khả năng vét cạn trong quá trình tính toán các độ đo ngữ nghĩa cũng như tìm kiếm.

Quá trình xử lý câu truy vấn đã được mở rộng, tuy nhiên vẫn còn khá đơn giản, chưa tận dụng đầy đủ thông tin trong cấu trúc của lớp. Nếu thông tin của lớp được khai thác đầy đủ thì hệ thống sẽ có khả năng xử lý các cấu truy vấn phức tạp hơn như ở dạng câu hỏi hay câu diễn đạt mệnh đề. Mặc dù còn đơn giản nhưng đây là cơ sở cho việc mở rộng xử lý câu truy vấn so với việc chỉ lọc tách keyphrase trong giải pháp cũ. Từ quy trình xử lý câu truy vấn đã được đề xuất trong luận văn,

ta chỉ cần thêm vào việc nhận dạng các loại câu truy vấn đặc biệt khác mà không làm ảnh hưởng tới quy trình xử lý chung của hệ thống.

Ngoài ra giải pháp hiện tại vẫn còn tại tồn các hạn chế như trong giải pháp cũ mà vẫn chưa được giải quyết như: việc đánh chỉ mục tự động, việc xây dựng các đồ thị keyphrase biểu diễn cho tài liệu vẫn còn thực hiện dưới sự giám sát của con người, chương trình còn ít chức năng, chưa chú ý đến các tiện ích cho người dùng.

5.3.HƯỚNG PHÁT TRIỂN

Tiếp tục phát triển, hoàn thiện các mô hình biểu diễn tri thức, biểu diễn ngữ nghĩa tài liệu, mô hình tổ chức lưu trữ kho tài liệu theo ngữ nghĩa. Nghiên cứu phương pháp và kỹ thuật xây dựng ontology phù hợp cho tiếng Việt.

Khai thác thành phần lớp trong ontology để mở rộng việc xử lý câu truy vấn phức tạp hơn và hỗ trợ trong việc biểu diễn ngữ nghĩa nội dung của tài liệu.

Nghiên cứu các công cụ hỗ trợ tự động trong từng khâu xử lý chẳng hạn như các mô hình và giải pháp rút trích tự động các keyphrase từ tài liệu trên cơ sở lai ghép phối hợp các mô hình đã có, các kỹ thuật trong xác suất thống kê, máy học, kỹ thuật xử lý ngôn ngữ tự nhiên. Theo đó xây dựng bộ công cụ hỗ trợ lập chỉ mục tự động cho các tài liệu.

Xây dựng hoàn chỉnh hệ ứng dụng quản lý tài nguyên học tập về lĩnh vực KHMT, mở rộng thêm nhiều chức năng, tiện ích cho các đối tượng sử dụng.

Các kết quả nghiên cứu liên quan sẽ là cơ sở và công cụ cho việc xây dựng nhiều hệ thống quản lý tài nguyên khác nhau như quản lý kho tài nguyên học tập tổng quát cho mọi lĩnh vực, quản lý thư viện tổng hợp, quản lý văn bản hành chính, văn bản pháp luật và các hệ thống số khác.

Đề tài đã hoàn thành với một số kết quả nhất định tuy nhiên vẫn không tránh khỏi thiếu sót. Kính mong sự thông cảm và đóng góp ý kiến của quý thầy cô.

CÔNG TRÌNH ĐÃ CÔNG BỐ CÓ LIÊN QUAN ĐẾN LUẬN VĂN

VanNhon Do, TruongAn PhamNguyen, Hung K. Chau, ThanhThuong T. Huynh, “Improved semantic representation and search techniques in a document retrieval system design”, International Conference on Software and Information Systems, Las Vegas, USA, May 9-10, 2015.

Tiếng Việt

1. Lê Tấn Hùng, Từ Minh Phương & Huỳnh Quyết Thắng (2006), Tác tử công nghệ phần mềm hướng tác tử, Nhà xuất bản khoa học và kỹ thuật, Hà Nội.

2. Lê Thúy Ngọc (2008), Xây dựng hệ thống tìm kiếm thông tin theo hướng tiếp cận ngữ nghĩa, Luận văn thạc sĩ, Trường đại học Khoa Học Tự Nhiên TP.HCM.

3. Huỳnh Thị Thanh Thương (2012), Nghiên cứu mô hình tổ chức và kỹ thuật tìm kiếm có ngữ nghĩa trên kho tài nguyên học tập lĩnh vực CNTT, Luận văn thạc sĩ, Trường Đại học Khoa học Tự nhiên TP.HCM.

4. Nguyễn Thị Bảo Trâm (2005), Thiết kế và thực hiện các dịch vụ Ontology hỗ trợ thư viện số, Luận văn thạc sĩ, Trường đại học Khoa Học Tự Nhiên TP.HCM.

5. Cao Hoàng Trụ (2005), VN-KIM cho Web Việt có ngữ nghĩa, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9 - Khoa Công Nghệ Thông Tin, Đại học Bách khoa TP.HCM.

Tiếng Anh

6. Aly, A.A (2008), “Using a query expansion technique to improve document retrieval”, International Journal Information Technologies and Knowledge, Volumn 2 Number 4.

7. Julita Bermejo (2007), A simplified guide to create an ontology, The Autonomous Systems Laboratory, Universidad Politecnica de Madrid.

8. Dario Bonino, Fulvio Corno, Laura Farinetti, Alessio Bosca (2004), “Ontology Driven Semantic Search”, WSEAS Transaction on Information Science and Application, Issue 6, Volume 1, pp. 1597-1605.

9. Graciela Brusa, Ma. Laura Caliusco, Omar Chiotti (2006), “A Process for Building a Domain Ontology: an Experience in Developing a Government Budgetary Ontology”, Conferences in Research and Practice in Information Technology, Vol. 72.

10. Oscar Corcho, Mariano Fernández-López, Asunción Gómez-Pérez (2003), “Methodologies, tools and languages for building ontologies. Where is their meeting point?”, Data & Knowledge Engineering 46, 41-64.

11. Nhon Do (2014), “Ontology COKB for designing knowledge- based systems”,

and ontologies”, International Journal of Human-Computer Studies, Volume 65, Issue 7, Pages 624-639.

13. D.Genest, M.Chein (1997), “An experiment in Document Retrieval using Conceptual Graph”, Proceeding of 5th ICCS Conference, Washington USA, P.489- 504.

14. Jon Atle Gulla, Hans Olaf Borch, Jon Espen Ingvaldsen (2006), “Unsupervised Keyphrase Extraction for Search Ontologies”, Natural Language Processing and Information Systems, Lecture Notes in Computer Science Volume 3999, P. 25-36.

15. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2009), An Introduction to Information Retrieval, Cambridge University Press Cambridge, England.

16. Min Peng (2011), “Query expansion based on Conceptual Word Cluster Space Graph”, Information Science and Service Science (NISS), 2011 5th International Conference on New Trends in Volume 1, Pages 128-133.

17. Natalya F. Noy, Deborah L. McGuinness (2001), “Ontology Development 101: A Guide to Creating Your First Ontology”. Stanford Knowledge Systems Laboratory, Technical Report KSL-01-05.

18. David Sánchez, Montserrat Batet (2013), “A semantic similarity method based on information content exploiting multiple ontologies”, Expert Systems with Applications, Volume 39, Issue 9, Pages 1393-1399.

19. David Sánchez, Montserrat Batet, David Isern, Aida Valls (2012), “Ontology-based semantic similarity: A new feature-based approach”, Expert Systems with Applications, Volume 39, Issue 9, Pages 771–7728.

20. Henrik Bulskov Styltsvig (2006), Ontology-based Information Retrieval, A dissertation Presented to the Faculties of Roskilde University in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy.

Một phần của tài liệu Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính (Trang 102)