Phát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhânPhát triển một số tính năng trên nền tảng Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập cá nhân
Trang 1ĐỖ XUÂN DUY
PHÁT TRIỂN MỘT SỐ TÍNH NĂNG TRÊN NỀN TẢNG NEXTCLOUD ĐỂ HỖ TRỢ SINH VIÊN CÔNG NGHỆ THÔNG TIN QUẢN LÝ KHO TÀI LIỆU HỌC TẬP CÁ NHÂN
ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
TP HỒ CHÍ MINH – NĂM 2024
Trang 2ĐỖ XUÂN DUY
PHÁT TRIỂN MỘT SỐ TÍNH NĂNG TRÊN NỀN TẢNG NEXTCLOUD ĐỂ HỖ TRỢ SINH VIÊN CÔNG NGHỆ
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
Trang 3LỜI CAM ĐOAN
Tôi xin khẳng định đề án: “Phát triển một số tính năng trên nền tảng
Nextcloud để hỗ trợ sinh viên công nghệ thông tin quản lý kho tài liệu học tập
cá nhân” là công trình nghiên cứu của riêng tôi
Các thông tin và kết quả trình bày trong đề án này là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác
Tp HCM, ngày 07 tháng 05 năm 2024
Học viên thực hiện đề án
Đỗ Xuân Duy
Trang 4LỜI CẢM ƠN
Để hoàn thiện đề án thạc sĩ của mình thật tốt, không chỉ dựa vào sự cố gắng
và quyết tâm của cá nhân tôi mà còn được sự giảng dạy đầy tâm huyết từ các Thầy
Cô, sự ủng hộ vững chắc từ gia đình và bạn bè trong suốt quãng đường học tập, nghiên cứu và thực hiện đề án
Đặc biệt, lòng biết ơn sâu sắc của tôi dành cho PGS.TS Đỗ Văn Nhơn,
người đã hướng dẫn tôi với sự chăm sóc và hướng dẫn trong suốt quá trình nghiên
cứu Kiến thức uyên bác và tinh thần tận hiến của PGS.TS Đỗ Văn Nhơn đã trở
thành nguồn động viên và lực lượng mạnh mẽ, giúp tôi xác định và theo đuổi con đường nghiên cứu của mình, vượt lên trên mọi thử thách để đạt được những thành quả quan trọng
Tôi cũng muốn bày tỏ lòng biết ơn đến các quý Thầy Cô giảng dạy trong suốt quá trình học vì sự chia sẻ kiến thức và kinh nghiệm của quý Thầy Cô Sự sẵn lòng
và đồng hành của các quý Thầy Cô đã góp phần quan trọng vào quá trình học tập và phát triển chuyên môn của tôi
Tôi nhận thức rằng trong quyển đề án này, không thể tránh khỏi những hạn chế và thiếu sót Vì vậy, tôi chân thành mong nhận được ý kiến đóng góp từ quý Thầy Cô và các bạn đọc để làm cho đề án này hoàn thiện hơn
Một lần nữa, tôi muốn gửi lời cảm ơn sâu sắc nhất!
Tp HCM, ngày 07 tháng 05 năm 2024
Học viên thực hiện đề án
Đỗ Xuân Duy
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH SÁCH CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi
DANH SÁCH BẢNG vii
DANH SÁCH HÌNH VẼ viii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI 2
1.1 Tìm hiểu chung và khảo sát thực trạng 2
1.1.1 Tìm hiểu về tài liệu học tập ngành công nghệ thông tin 2
1.1.2 Thực trạng lưu trữ tài liệu học học tập hiện nay 3
1.2 Đặt vấn đề 4
1.3 Các công trình nghiên cứu liên quan 5
1.4 Mục tiêu nghiên cứu 7
1.5 Đối tượng và phạm vi nghiên cứu 7
1.6 Phương pháp nghiên cứu 8
1.7 Ý nghĩa của đề tài 8
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 10
2.1 Tổng quan về semantic web và truy hồi thông tin 10
2.1.1 Giới thiệu về Semantic web (web ngữ nghĩa) 10
2.1.2 Quá trình phát triển Web ngữ nghĩa 10
2.1.3 Cấu trúc phân tầng của Semantic web 11
2.1.4 Nội dung phát triển Web Ngữ nghĩa 12
2.1.5 Truy tìm thông tin 12
Trang 62.2 Giới thiệu Ontology 13
2.2.1 Giới thiệu sơ lược về Ontology 13
2.2.2 Các phần tử trong Ontology 14
2.2.3 Cách xây dựng một ontology 15
2.3 Phương pháp biểu diễn tài liệu dạng đồ thị keyphrase [3] 18
2.3.1 Tìm hiểu về biểu diễn tài liệu 18
2.3.2 Mô hình biểu diễn tài liệu thành đồ thị keyphrase 18
2.4 Giới thiệu về nền tảng Nextcloud 25
2.4.1 Giới thiệu chung 25
2.4.2 Tính năng và ứng dụng 26
2.4.3 Lợi ích cho Sinh viên CNTT 27
CHƯƠNG 3: THIẾT KẾ 29
3.1 Xây dựng Ontology cho lĩnh vực Công nghệ thông tin 29
3.1.1 Mô hình ontology cho ngữ nghĩa tài liệu 29
3.1.2 Quy trình xây dựng ontology 38
3.2 Mô hình tổ chức, lưu trữ và biểu diễn tài liệu theo ngữ nghĩa trên Nextcloud39 3.2.1 Mô Hình Semantic Document Base 39
3.2.2 Tổ chức lưu trữ cơ sở về các tài liệu theo mô hình SDB trên Nextcloud 41
3.3 Tính toán độ tương đồng ngữ nghĩa 43
3.4 Giải pháp rút trích keyphrase 48
3.5 Giải pháp xử lý câu truy vấn 50
3.6 Thuật toán tìm kiếm theo ngữ nghĩa 51
CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM 54
4.1 Phân tích thiết kế hệ thống 54
4.1.1 Đối tượng sử dụng và mục tiêu của ứng dụng 54
4.1.2 Yêu cầu hệ thống 55
4.1.3 Cấu trúc hệ thống 56
4.2 Phát triển tính năng Tìm kiếm theo ngữ nghĩa trên Nextcloud 57
4.2.1 Tự động gán Keyphrase khi Upload Tài liệu 57
Trang 74.2.2 Tính năng Tìm kiếm theo ngữ nghĩa 59
4.2.3 Thiết kế Giao diện Tìm kiếm theo ngữ nghĩa 63
4.3 Cài đặt ứng dụng 63
4.3.1 Nền tảng công nghệ sử dụng 63
4.3.2 Các chức năng chính của hệ thống 64
4.4 Các giao diện chính 66
4.4.1 Giao diện Đăng nhập 66
4.1.2 Giao diện Trang chủ và tính năng tìm kiếm: 67
4.5 Thực nghiệm và đánh giá 68
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 70
1 Những đóng góp của đề án 70
2 Hạn chế của đề án 72
3 Hướng phát triển tiếp theo của đề án 72
DANH MỤC CÁC TÀI LIỆU THAM KHẢO 73
Trang 8DANH SÁCH CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
CNTT Công nghệ thông tin
SDB Semantic Document Base Cơ sở dữ liệu tài liệu ngữ nghĩa
Trang 9DANH SÁCH BẢNG
Bảng 3.1: Quan hệ giữa các keyphrase trong CK_ONTO 38 Bảng 4.1: Thống kê kết quả tìm kiếm trên kho thử nghiệm 69
Trang 10DANH SÁCH HÌNH VẼ
Hình 1.1: Hệ thống lưu trữ và tìm kiếm hiện nay của nền tảng Nextcloud 3
Hình 2.1: Kiến trúc phân tần của Semantic web [7] 11
Hình 2.2: Ví dụ mạng phân cấp trong WordNet [3] 25
Hình 2.3: Logo Nextcloud 26
Hình 3.1: Không gian các keyphrase [3] 30
Hình 3.2: Quan hệ giữa các lớp 33
Hình 3.3: Quy trình xây dựng ontology 39
Hình 3.4: Tổ chức CSDL của Nextcloud liên quan đến việc lưu trữ tài liệu 42
Hình 3.5: Tổ chức CSDL lưu trữ Ontology 43
Hình 3.6: Các Keyphrase trong Ontology 48
Hình 4.1: Mô hình kiến trúc hệ thống tìm kiếm ngữ nghĩa trên Nextcloud 55
Hình 4.2: Giao diện tính năng Semantic Search 62
Hình 4.3: Giao diện đăng nhập 64
Hình 4.4: Giao diện trang chủ khu vực tìm kiếm 65
Hình 4.5: Giao diện trang chủ và kết quả tìm kiếm cơ bản 66
Hình 4.6: Giao diện trang chủ và kết quả Semantic Search 66
Trang 11MỞ ĐẦU
Trong thời đại số, công nghệ thông tin đã thay đổi mọi khía cạnh của cuộc sống, từ giáo dục đến y tế và giao tiếp Công nghệ không chỉ giúp doanh nghiệp phát triển mà còn nâng cao chất lượng cuộc sống hàng ngày Tuy nhiên, điều này cũng đặt ra thách thức về bảo mật thông tin cá nhân và lựa chọn phương thức lưu trữ phù hợp Trong khi phương tiện lưu trữ truyền thống không còn đáp ứng được nhu cầu hiện đại, giải pháp đám mây đã trở thành lựa chọn hàng đầu, với tính an toàn cao và khả năng truy cập từ mọi nơi
Dù dịch vụ lưu trữ đám mây như Google Drive và Dropbox mang lại nhiều tiện ích, chúng vẫn tồn tại hạn chế như dung lượng miễn phí giới hạn, đẩy người dùng vào việc phải chi trả thêm phí để mở rộng, tạo gánh nặng chi phí cho một số đối tượng Sự cá nhân hóa và tùy chỉnh dịch vụ còn hạn chế, không thể đáp ứng tối
ưu các nhu cầu riêng biệt của người dùng hay doanh nghiệp Không chỉ vậy, thiếu tính năng tìm kiếm nâng cao và gợi ý tài liệu theo sở thích cũng ảnh hưởng đến trải nghiệm và hiệu suất làm việc Điều này đặc biệt quan trọng với sinh viên Công nghệ Thông tin, những người cần một nền tảng lưu trữ dữ liệu hiệu quả, an toàn để quản lý và chia sẻ tài liệu học tập và nghiên cứu, hỗ trợ cải thiện hiệu suất học tập
và tiết kiệm thời gian, công sức
Nextcloud, một nền tảng lưu trữ đám mây mã nguồn mở, cho phép tự quản lý
và phát triển, tuy nhiên, tính năng tìm kiếm còn hạn chế, gây ra sự bất tiện cho việc tìm kiếm và sử dụng tài liệu
Chính vì vậy, đề tài “Phát triển một số tính năng trên nền tảng Nextcloud
để hỗ trợ sinh viên CNTT quản lý kho tài liệu học tập cá nhân” được chọn lựa,
nhằm mục tiêu nghiên cứu và phát triển các giải pháp tối ưu
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI
Giới thiệu chương
Chương 1 của tài liệu mở đầu bằng việc nhấn mạnh tầm quan trọng của quản
lý tài liệu học tập trong ngành công nghệ thông tin và giới thiệu cấu trúc tổng quan Bài viết sẽ phân tích thực trạng hiện nay của việc lưu trữ và truy cập tài liệu, đồng thời đề cập đến những khó khăn và thách thức mà sinh viên gặp phải Dựa trên nghiên cứu và phân tích, chương sẽ đề xuất các giải pháp cải tiến thông qua việc phát triển tính năng trên Nextcloud, nhằm giải quyết các hạn chế và tối ưu hóa quy trình quản lý tài liệu học tập
Nội dung chương
1.1 Tìm hiểu chung và khảo sát thực trạng
1.1.1 Tìm hiểu về tài liệu học tập ngành công nghệ thông tin
Trong ngành Công nghệ thông tin, tài liệu học tập là trang thiết bị không thể thiếu, bao gồm sách giáo khoa, bài giảng, hướng dẫn thực hành, khóa học trực tuyến và hội thảo chuyên sâu Chúng cung cấp kiến thức cơ bản và chi tiết về lập trình, phân tích, thiết kế hệ thống, quản lý dự án công nghệ, và kỹ năng mềm Việc tiếp cận tài liệu học tập chất lượng giúp sinh viên phát triển từ nguyên tắc cơ bản đến tiên tiến, thúc đẩy tư duy sáng tạo và kỹ năng giải quyết vấn đề Quản lý hiệu quả tài liệu đòi hỏi khả năng lọc và tổ chức tài liệu để tối ưu hóa thời gian học và tăng hiệu quả học Sách giáo khoa, khóa học trực tuyến và bài giảng từ giáo viên là nguồn tài liệu quan trọng giúp sinh viên tiếp cận kiến thức và kỹ năng mới một cách linh hoạt và hiệu quả Thực hành và bài lab giúp sinh viên áp dụng kiến thức vào thực tế, nâng cao kỹ năng và chuẩn bị cho sự nghiệp tương lai
Trang 131.1.2 Thực trạng lưu trữ tài liệu học học tập hiện nay
Trong giáo dục đại học và đào tạo chuyên nghiệp, việc lưu trữ tài nguyên học tập trở nên phức tạp do tiến bộ công nghệ Tài liệu được lưu trữ từ sách giấy đến thiết
bị số và nền tảng đám mây như Google Drive, Dropbox tạo thách thức về quản lý và tổ chức Cần có hệ thống lưu trữ tập trung để tích hợp tài nguyên từ nhiều nguồn, cải thiện truy cập và bảo mật dữ liệu, giải quyết vấn đề tìm kiếm và truy cập thông tin không được mô tả đầy đủ
Hình 1.1: Hệ thống lưu trữ và tìm kiếm hiện nay của nền tảng Nextcloud
Ưu điểm:
Việc tìm kiếm bằng từ khóa trong cơ sở dữ liệu có một số lợi ích rõ ràng và đáng chú ý Một trong những ưu điểm lớn nhất là tốc độ thực thi tìm kiếm nhanh chóng, giúp người dùng tiết kiệm được thời gian quý báu Khi tiến hành tìm kiếm bằng từ khóa, hệ thống sẽ nhanh chóng lọc ra và chỉ hiển thị những tài liệu mà tiêu
đề chứa từ khóa được tìm kiếm, giảm bớt đáng kể miền giới hạn của kết quả trả về Điều này có nghĩa là người dùng sẽ không phải lọc qua một lượng lớn thông tin không liên quan, qua đó làm cho quá trình tìm kiếm trở nên hiệu quả và thân thiện với người dùng hơn Hơn nữa, cách tiếp cận này tạo điều kiện cho việc tìm kiếm
Trang 14chính xác, giúp người dùng nhanh chóng tiếp cận được với thông tin họ mong muốn mà không cần phải lướt qua hàng loạt tài liệu không liên quan.
Nhược điểm:
Tuy nhiên, tìm kiếm bằng từ khóa không luôn mang lại kết quả như mong đợi và đi kèm với một số hạn chế đáng kể Cơ sở dữ liệu thường chỉ lưu trữ mô tả tiêu đề của tài liệu mà không đi sâu vào nội dung chi tiết, khiến người dùng gặp khó khăn trong việc tìm kiếm thông tin chính xác và đầy đủ Kết quả là, người dùng thường nhận được danh sách dài các tài liệu, trong đó có thể chứa nhiều hồ sơ không cần thiết và thiếu vắng các tài liệu quan trọng, gây lãng phí thời gian và cảm giác không chính xác và thiếu đầy đủ của kết quả tìm kiếm
Một thách thức lớn khác là khả năng xác định và sử dụng đúng các từ khóa
để mô tả nhu cầu thông tin của mình, đặc biệt là đối với người dùng ít kinh nghiệm
Sự giới hạn về độ chính xác và độ bao phủ của kết quả tìm kiếm cũng là một vấn đề nghiêm trọng, khi người dùng có thể bỏ lỡ những tài liệu liên quan được mô tả bằng các từ khóa đồng nghĩa hoặc gần nghĩa mà không hiển thị trong kết quả tìm kiếm
Những hạn chế này đã là động lực cho nhiều nghiên cứu nhằm phát triển nền tảng tìm kiếm nhằm giải quyết những hạn chế của phương pháp truyền thống
1.2 Đặt vấn đề
Trong thời đại thông tin hiện nay, việc truy cập và sử dụng dữ liệu một cách nhanh chóng và hiệu quả trở nên quan trọng đối với sinh viên Công Nghệ Thông Tin Tuy nhiên, hầu hết các hệ thống tìm kiếm chỉ dựa trên từ khóa mà không tính đến ngữ cảnh hoặc ngữ nghĩa của tài liệu Điều này gây ra sự không chính xác trong việc trả về kết quả, làm lãng phí thời gian và năng lượng của người dùng Yêu cầu
về việc tìm kiếm và truy cập thông tin chính xác và nhanh chóng trở nên cấp bách hơn bao giờ hết, đặc biệt trong lĩnh vực công nghệ Nextcloud, một nền tảng lưu trữ đám mây phổ biến, đã đáp ứng được nhu cầu về lưu trữ và bảo mật, nhưng tính
Trang 15năng tìm kiếm chỉ dựa trên từ khóa, điều này đã hạn chế khả năng đáp ứng yêu cầu của người dùng
Do đó, phát triển một hệ thống tìm kiếm thông minh có xử lý ngữ nghĩa trên nền tảng Nextcloud là một bước tiến quan trọng Hệ thống này có khả năng hiểu và
xử lý ngữ nghĩa của tài liệu, giúp lọc ra và sắp xếp các tài liệu một cách hiệu quả dựa trên sự phù hợp và liên quan với truy vấn của người dùng Điều này không chỉ nâng cao hiệu quả học tập và nghiên cứu trong cộng đồng sinh viên Công Nghệ Thông Tin mà còn mở ra hướng phát triển mới cho việc quản lý và sử dụng tài nguyên tri thức trong nhiều lĩnh vực khác
1.3 Các công trình nghiên cứu liên quan
Phát triển hệ thống tìm kiếm dựa vào ý nghĩa của ngôn từ vẫn là một thách thức lớn, bởi lẽ nhiều khía cạnh của nó vẫn còn đang trong quá trình khám phá hoặc chưa tìm được giải pháp hoàn hảo Bên cạnh đó, việc thiết lập một hệ thống kiến thức chuyên ngành cũng gặp khó khăn do yêu cầu chi phí cao cho việc phát triển và bảo trì, đồng thời cần sự tham gia của những người có chuyên môn sâu trong lĩnh vực cụ thể, và còn phụ thuộc nhiều vào ngôn ngữ được sử dụng Điều này giải thích
vì sao các công cụ tìm kiếm sử dụng ngữ nghĩa hiện chỉ tập trung vào một số ít lĩnh vực và ứng dụng nhất định Một vài nghiên cứu liên quan đến vấn đề này có thể bao gồm:
Tình hình nghiên cứu trong nước
- Công trình nghiên cứu của Nguyễn Phúc Hưng, (2023) Xây dựng ứng dụng
tìm kiếm sách điện tử bằng phương pháp tìm kiếm ngữ nghĩa trên ontology, Công
trình đã đưa ra một phương án xây dựng ứng dụng tìm kiếm ngữ nghĩa và tìm kiếm
từ khoá, nhấn mạnh vào các lợi ích của tìm kiếm ngữ nghĩa trên ontology
- Công trình của tác giả Đỗ Phước Sang, (2019), Ứng dụng tìm kiếm ngữ nghĩa trong lĩnh vực đoàn thanh niên trên kho tài liệu, Tác giả đã giới thiệu công cụ
xây dựng ontology và môi trường, và ngôn ngữ lập trình được ứng dụng để xây
Trang 16dựng hệ thống tìm kiếm văn bản trong lĩnh vực Đoàn thanh niên
- Năm 2012, tại Đại học khoa học tự nhiên, Thành phố Hồ Chí Minh, Huỳnh
Thị Thanh Thương đã công bố nghiên cứu của mình về việc nghiên cứu mô hình tổ chức và kỹ thuật tìm kiếm theo ngữ nghĩa Công trình này, với tiêu đề "Nghiên cứu
mô hình tổ chức và kỹ thuật tìm kiếm có ngữ nghĩa trên kho tài nguyên học tập lĩnh vực CNTT ", đã giới thiệu phương pháp xây dựng ontology và môi trường, cũng như
lựa chọn ngôn ngữ lập trình cho hệ thống tìm kiếm tài liệu trong lĩnh vực CNTT
Những nghiên cứu trên đều nhấn mạnh tầm quan trọng của việc ứng dụng
ngữ nghĩa trong việc tìm kiếm và truy cập thông tin chuyên ngành
Tình hình nghiên cứu ngoài nước
Ngoài những nghiên cứu nổi bật từ Việt Nam, ở các quốc gia có nền khoa học công nghệ tiên tiến, các nhà nghiên cứu cũng đã đóng góp những công trình quan trọng liên quan đến lĩnh vực này
Năm 2018, tại Đại học khoa học ứng dụng Frankfurt, tác giả Doğan Can
Uçar đã công bố nghiên cứu của mình về việc “Thiết kế và triển khai hệ thống đề
xuất tệp sử dụng Lọc Cộng tác và Đề xuất Dựa trên Nội dung cho nền tảng Nextcloud” Tiêu đề gốc tiếng anh là “Design and Implementation of a File Recommendation System Using Collaborative Filtering and Content-Based Recommendation for the Nextcloud Platform” Tác giả tập trung vào việc phát triển
một hệ thống đề xuất độc đáo cho Nextcloud - một nền tảng chia sẻ và đồng bộ hóa tệp mã nguồn mở Hệ thống này kết hợp hai phương pháp tiếp cận chính: Lọc Cộng Tác (Collaborative Filtering) và Đề Xuất Dựa Trên Nội Dung (Content-Based Recommendation), một quy trình được gọi là "Lai Hóa" (Hybridization) Mục tiêu
là cung cấp trải nghiệm người dùng tốt hơn trong việc làm việc hàng ngày với Nextcloud, giúp người dùng dễ dàng thấy và sử dụng các tệp phù hợp hơn
Năm 2010, Damljanovic, D., Agatonovic, M., và Cunningham, H, công bố tại Hội nghị Web Ngữ nghĩa Châu Âu lần thứ 7 (ESWC-2010) với tiêu đề tiếng anh
là “Natural Language Interface to Ontologies: Combining Syntactic Analysis and
Trang 17Ontology-based Lookup through the User Interaction”, tiếng việt là “Giao diện ngôn ngữ tự nhiên cho Ontologies: Kết hợp phân tích cú pháp và tra cứu dựa trên Ontology qua tương tác của người dùng” Công trình này tập trung vào việc phát
triển một phương pháp hiệu quả kết hợp giữa phân tích cú pháp ngôn ngữ và tra cứu thông tin dựa trên ontology, tăng cường sự tương tác với người dùng
Các nghiên cứu như thế không chỉ là nguồn tham khảo quý giá mà còn mở ra những hướng ứng dụng mới mẻ tại Việt Nam, đem lại những kết quả đáng kể trong việc cải thiện và phát triển công nghệ thông tin
1.4 Mục tiêu nghiên cứu
Mục tiêu của đề tài tập trung vào việc kế thừa những tính năng có sẵn của nền tảng Nextcloud như tính năng lưu trữ, chia sẻ, tìm kiếm cơ bản theo tên tài liệu…, nhằm phát triển tính năng tìm kiếm theo ngữ nghĩa, cho kho tài liệu dành cho sinh viên ngành CNTT Mục tiêu chính là xây dựng mô hình tổ chức và lưu trữ tài liệu có quy chuẩn, hệ thống tiền xử lý tài liệu khi tải lên và tính năng tìm kiếm thông minh (có xử lý ngữ nghĩa), cho phép sinh viên quản lý, tìm kiếm và truy cập tài liệu một cách hiệu quả nhưng vẫn đảm bảo tốc độ xử lý nhanh chóng Ví dụ, giả
sử một sinh viên đang tìm kiếm tài liệu liên quan đến "mạng nơ-ron nhân tạo" Hệ thống tìm kiếm theo ngữ nghĩa trên nền tảng Nextcloud không chỉ trả về các tài liệu có chứa chính xác cụm từ "mạng nơ-ron nhân tạo" mà còn cả các tài liệu về
"học sâu", "học máy" và "thị giác máy tính", dựa trên liên kết ngữ nghĩa và sự liên quan chuyên môn Cơ chế này cho phép sinh viên tiếp cận được một loạt các tài liệu bao quát rộng hơn và sâu hơn về chủ đề họ quan tâm, từ đó tăng cường khả năng nghiên cứu và học tập hiệu quả
1.5 Đối tƣợng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Bao gồm các khía cạnh liên quan đến web ngữ nghĩa, các kỹ thuật xử lý dữ liệu ngữ nghĩa, các cách thức biểu diễn và tìm kiếm
Trang 18thông tin dựa trên ngữ nghĩa, vấn đề liên quan đến xử lý ngôn ngữ tự nhiên, cùng
với các loại tài liệu học thuật trong ngành CNTT dành cho đối tượng sinh viên
- Phạm vi nghiên cứu: Hạn chế trong khuôn khổ của tài liệu tiếng Anh được lưu giữ trong cơ sở dữ liệu cá nhân của sinh viên chuyên ngành CNTT, với việc nghiên cứu được thực hiện tại Học Viện Công Nghệ Bưu Chính Viễn Thông, nơi tôi đang theo học chương trình thạc sĩ và các tài liệu chuyên ngành CNTT do bản thân
tự thu thập
1.6 Phương pháp nghiên cứu
Phương pháp thu thập thông tin: Khám phá nguyên lý hoạt động của web ngữ nghĩa; Nghiên cứu các kỹ thuật xử lý ngôn ngữ tự nhiên; Tìm hiểu các phương pháp biểu diễn thông tin và cách thức tìm kiếm các tài liệu giáo dục dành cho sinh viên trong ngành công nghệ thông tin
Phương pháp thử nghiệm: Phát triển một ontology chuyên biệt, tạo cơ sở dữ
liệu; Hình thành kho dữ liệu cho mục đích học tập, thực hiện triển khai thực tế và tiến hành đánh giá các kết quả từ quá trình thử nghiệm
1.7 Ý nghĩa của đề tài
Trong bối cảnh thời đại số ngày nay, sự phát triển vượt bậc của công nghệ thông tin đòi hỏi sự linh hoạt và hiệu quả trong quản lý và truy cập thông tin Đáp ứng nhu cầu này, việc phát triển tính năng tìm kiếm tài liệu dựa trên ngữ nghĩa trên nền tảng Nextcloud không chỉ mang lại giải pháp tối ưu cho việc tìm kiếm và truy cập tài liệu mà còn là một bước tiến quan trọng trong việc tối ưu hóa quy trình làm việc và nâng cao chất lượng học tập và nghiên cứu, đặc biệt là cho sinh viên ngành CNTT
Đối với sinh viên, việc này không chỉ giúp họ tiếp cận thông tin nhanh chóng
và chính xác hơn, mà còn tăng cường khả năng tự học và nghiên cứu thông qua việc tìm kiếm hiệu quả trong kho tài liệu lớn Việc áp dụng công nghệ tìm kiếm theo ngữ
Trang 19nghĩa trên Nextcloud giúp sinh viên có thể dễ dàng tìm thấy tài liệu chính xác theo yêu cầu học thuật, từ đó tối ưu hóa thời gian và nâng cao hiệu suất học tập
Ngoài ra, cho các cá nhân và doanh nghiệp đã và đang hoạt động trong lĩnh vực CNTT và đang sử dụng nền tảng Nextcloud làm công cụ lưu trữ tài liệu, việc này cũng mang lại lợi ích không kém phần quan trọng Cụ thể, việc tìm kiếm và quản lý tài liệu trở nên linh hoạt và tiết kiệm thời gian, giúp nâng cao hiệu quả công việc và tối ưu hóa quy trình quản lý tài liệu Đối với các doanh nghiệp, điều này còn góp phần vào việc nâng cao khả năng cạnh tranh thông qua việc cải thiện quy trình làm việc và quản lý kiến thức doanh nghiệp một cách hiệu quả
Kết luận chương
Trong chương này, chúng ta đã khám phá việc phát triển tính năng tìm kiếm tài liệu dựa trên ngữ nghĩa cho sinh viên ngành CNTT trên Nextcloud, chứng minh khả năng của hệ thống trong việc cải thiện truy cập thông tin Hệ thống sử dụng web ngữ nghĩa và xử lý ngôn ngữ tự nhiên, giúp tìm kiếm chính xác và nhanh chóng Qua thực nghiệm, chúng tôi áp dụng xây dựng ontology và cơ sở dữ liệu, nhận thấy hệ thống có tiềm năng lớn trong việc quản lý tài liệu học tập, mở ra hướng đi mới cho sinh viên tiếp cận thông tin hiệu quả Tuy nhiên, hệ thống còn đối mặt thách thức và hạn chế, cần phát triển liên tục để mở rộng khả năng và tăng cường độ chính xác trong tìm kiếm thông tin, hướng tới cải thiện và khám phá công nghệ mới
Trang 20CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Giới thiệu chương
Chương 2 sẽ khám phá công nghệ Web Ngữ Nghĩa, đồng thời tập trung vào khái niệm ontology, cách thức mô tả dữ liệu ngữ nghĩa, các hệ thống tìm kiếm thông tin, phương pháp biểu diễn tài liệu thông qua đồ thị từ khóa cùng với đó là giới thiệu về nền tảng Nextcloud
Nội dung chương
2.1 Tổng quan về semantic web và truy hồi thông tin
2.1.1 Giới thiệu về Semantic web (web ngữ nghĩa)
Semantic Web là sự mở rộng của World Wide Web, tạo điều kiện cho việc định nghĩa thông tin một cách rõ ràng hơn, thúc đẩy sự hợp tác giữa con người và máy tính Được khởi xướng bởi Tim Berners-Lee, Semantic Web là hệ thống thông tin logic, giúp máy tính xử lý dữ liệu toàn cầu một cách dễ dàng Nó giúp phân tích
và mô tả dữ liệu chi tiết, cũng như xây dựng các tệp tin mô tả mối quan hệ giữa các tập dữ liệu khác nhau, mở rộng khả năng kết nối thông tin và tạo ra mối quan hệ phong phú hơn trên Web
2.1.2 Quá trình phát triển Web ngữ nghĩa
Quá trình phát triển Web ngữ nghĩa đặt nền tảng trên ba trụ cột nghiên cứu chính như sau:
- Tiêu chuẩn hóa ngôn ngữ dùng để thể hiện dữ liệu (XML) và siêu dữ liệu (RDF) trong môi trường Web
- Chuẩn hóa cho các ngôn ngữ biểu đạt Ontology áp dụng cho Web ngữ nghĩa
- Tăng cường phát triển và hoàn thiện cho Web ngữ nghĩa, dưới dự án Phát triển Nâng cao Web Ngữ Nghĩa (Semantic Web Advanced Development - SWAD)
Trang 212.1.3 Cấu trúc phân tầng của Semantic web
Web Ngữ Nghĩa được cấu tạo từ một hệ thống lớp ngôn ngữ đa tầng Mỗi tầng trong hệ thống này đóng vai trò quan trọng trong việc bảo đảm an ninh thông tin và nâng cao chất lượng dữ liệu Cấu trúc của Web Ngữ Nghĩa được trình bày qua một mô hình hình ảnh, minh hoạ cho sự phân chia và tương tác giữa các tầng ngôn ngữ này:
Hình 2.1: Kiến trúc phân tần của Semantic web [7]
- Lớp Unicode & URI: Đảm bảo khả năng áp dụng bộ kí tự quốc tế và cung
cấp cách thức để xác định các thực thể trong mạng Ngữ nghĩa
- Lớp XML kèm theo định nghĩa về namespace (vùng tên) và xmlschema
(lược đồ xml), đảm bảo việc tích hợp định nghĩa của Web Ngữ nghĩa với các tiêu chuẩn khác dựa trên XML
- Lớp RDF và RDFSchema: cho phép chúng ta tạo ra các phát biểu để miêu
tả thực thể sử dụng từ ngữ và định nghĩa từ URI, và những thực thể này có thể được liên kết thông qua các từ ngữ và định nghĩa từ URI đã nêu Là lớp cơ bản cho việc phân loại và liên kết các nguồn thông tin, đồng thời là lớp trung tâm của cấu trúc Web Ngữ nghĩa
Trang 22- Lớp Ontology: Nâng cao và phát triển từ vựng thông qua việc xác định mối
quan hệ giữa các khái niệm khác nhau, sử dụng ngôn ngữ như SPARQL, OWL, RIF/SWRL
- Các lớp Unifying Logic, Proof, Trust: Lớp logic tạo điều kiện cho việc
xây dựng quy tắc, trong khi lớp proof (chứng minh) thực hiện các quy tắc và cùng lớp trust (tin cậy) đánh giá để quyết định việc chấp nhận các vấn đề đã được chứng minh
2.1.4 Nội dung phát triển Web Ngữ nghĩa
Nội dung phát triển Web Ngữ nghĩa chủ yếu bao gồm ba phương diện chính sau đây:
- Chuẩn hóa các ngôn ngữ để biểu diễn dữ liệu (XML) và meta-dữ liệu (RDF) trên Web
- Chuẩn hóa các ngôn ngữ dùng để biểu diễn Ontology trong Web Ngữ nghĩa
- Phát triển và cải thiện Web Ngữ nghĩa qua chương trình Phát triển Web Ngữ nghĩa Cao cấp (SWAD)
2.1.5 Truy tìm thông tin
Trong tìm kiếm thông tin web, việc dùng keyphrase có chọn lọc, dựa trên ontology, là cách tiên tiến giúp phản ánh chính xác nội dung tài liệu và tăng độ liên quan Phương pháp này so sánh đồ thị từ khóa giữa câu truy vấn và tài liệu, mang lại kết quả chính xác cao hơn so với tìm kiếm từ khóa truyền thống Đối với sinh viên công nghệ thông tin, sự tiến bộ nằm ở việc áp dụng ngữ nghĩa và xử lý tri thức qua ontology, nâng cao độ chính xác và khai thác thông tin Ontology nâng cao cách truy xuất thông tin bằng cách biểu diễn tri thức và tổ chức chiến lược tìm kiếm theo ngữ nghĩa, đáp ứng tốt hơn nhu cầu người dùng
Trang 23Đánh giá một hệ thống tìm kiếm thông tin
Đánh giá hiệu suất của một hệ thống tìm kiếm thông tin thường dựa trên các chỉ số nhất định[3]:
Khi xem xét hiệu quả của hệ thống truy vấn thông tin, hai chỉ số quan trọng thường được sử dụng là độ chính xác và độ bao phủ Các chỉ số này được sử dụng
để đánh giá mức độ hài lòng của người dùng đối với kết quả mà hệ thống cung cấp Giả sử rằng S là tập hợp các tài liệu mà hệ thống tìm kiếm xác định là liên quan U
là tập hợp các tài liệu được người dùng đánh giá là liên quan Độ chính xác và độ bao phủ được định nghĩa như sau:
Độ chính xác: Đây là tỉ lệ giữa số tài liệu liên quan mà hệ thống trả về và mà người dùng xác định là liên quan so với tổng số tài liệu mà hệ thống truy vấn trả về
2.2 Giới thiệu Ontology
2.2.1 Giới thiệu sơ lược về Ontology
"Ontology" xuất phát từ triết học và được Aristotle giới thiệu, nhấn mạnh sự tồn tại và bản chất của vật thể Trong khoa học máy tính, nó định nghĩa cấu trúc các đối tượng và mối quan hệ trong một ngữ cảnh, hỗ trợ tự động hóa và quản lý thông tin Mục tiêu là phát triển một ngôn ngữ chung cho một lĩnh vực, với thuật ngữ, khái niệm và quy tắc sử dụng rõ ràng, giúp cải thiện tương tác giữa con người và hệ thống Ontology quan trọng trong nhiều lĩnh vực như trí tuệ nhân tạo và Semantic Web, cung cấp kiến thức tổng quan và tạo nền tảng cho việc tổ chức kiến trúc thông tin và doanh nghiệp, đảm bảo hiệu quả thông tin
Trang 242.2.2 Các phần tử trong Ontology
Các cá thể (Individuals) - Thể hiện Cá thể đại diện cho các đối tượng cụ
thể hoặc trừu tượng, từ những người, động vật, đến vật dụng như chiếc bàn, hay các khái niệm như thành viên hoặc ngôn từ Trong khi một Ontology có thể không bắt buộc phải có cá thể, nhưng chức năng chính của nó thường là cung cấp khả năng phân loại và ngữ nghĩa cho việc sắp xếp chúng Tuy nhiên, các cá thể thường không được xem là một phần của cấu trúc Ontology chính thức
Các lớp (Classes) - Khái niệm Các lớp là những tập hợp trừu tượng của các
đối tượng, chứa các cá thể hoặc thậm chí là các lớp khác, tạo thành cấu trúc phân cấp hay nhóm có tổ chức Lớp có thể bao gồm các lớp con, có thể đại diện cho một tập hợp lớn chung chung hoặc chứa duy nhất các cá thể riêng biệt Sự phân cấp của các lớp từ chung đến riêng biệt hình thành cấu trúc phân cấp
Các thuộc tính (Properties) Các thuộc tính cung cấp thông tin chi tiết về cá
thể hoặc lớp, bao gồm cả tên và giá trị cho từng thuộc tính Các thuộc tính này giữ thông tin mà một đối tượng có thể có, như tên, ngày sinh, nơi sinh, số chứng minh
nhân dân, v.v., và có thể bao gồm dữ liệu phức tạp
Các mối quan hệ (Relation) Các mối quan hệ mô tả liên kết giữa các đối
tượng trong Ontology, chẳng hạn như mối quan hệ xếp gộp, mô tả việc một cá thể thuộc về lớp nào Các mối quan hệ này không chỉ xác định sự thuộc về mà còn liên kết các đối tượng với nhau theo cách có ý nghĩa
Vấn đề hiện nay là việc kết hợp Ontology thường yêu cầu công việc thủ công, tiêu tốn nhiều thời gian và chi phí Việc áp dụng Ontology cung cấp một cách tiếp cận chung, định nghĩa từ ngữ cốt lõi, giúp quá trình này trở nên dễ quản lý hơn Nghiên cứu đang tiếp tục trong việc tìm kiếm phương pháp tự động kết nối Ontology, mặc dù lĩnh vực này chủ yếu còn ở mức độ lý thuyết
Trang 252.2.3 Cách xây dựng một ontology
Phát triển Ontology là một quá trình đòi hỏi sự chính xác và chi tiết cao, được Stanford Center for Biomedical Informatics Research mô tả qua bảy bước và phần mềm Protégé là một công cụ tiêu chuẩn trong lĩnh vực này
2.2.3.1 Xác định lĩnh vực, phạm vi của Ontology
Xác định miền quan tâm và phạm vi sử dụng Ontology trong giai đoạn này cần:
- Xác định mục đích của việc xây dựng ontology là gì?
- Phục vụ đối tượng nào?
- Ontology sắp xây dựng cần có đặc điểm gì?
- Liên quan đến lĩnh vực, phạm vi nào?
- Cách thức tiến hành khai thác, quản lý và duy trì ontology được triển khai như thế nào ?
2.2.3.2 Đánh giá khả năng kế thừa các Ontology có sẵn
Kiểm tra và cân nhắc khả năng sử dụng hoặc mở rộng các Ontology đã được phát triển trước đó Tận dụng tầng trừu tượng hoặc tầng miền xác định từ Ontology sẵn có có thể tiết kiệm đáng kể chi phí và thời gian phát triển
2.2.3.3 Liệt kê danh sách các thuật ngữ chính
Tạo một danh sách các thuật ngữ chuyên ngành liên quan đến lĩnh vực cụ thể
mà Ontology sẽ đề cập đến Các thuật ngữ này sau đó sẽ được phân loại và định nghĩa rõ ràng để xây dựng các lớp trong Ontology Việc liệt kê này không chỉ giúp xác định ngữ nghĩa cho mỗi thuật ngữ mà còn cung cấp một cái nhìn tổng quát về các khái niệm, từ đó làm cơ sở cho việc xây dựng cấu trúc Ontology
2.2.3.4 Xây dựng các lớp và cấu trúc lớp phân cấp
Phân định lớp trong Ontology không chỉ bao gồm việc mô tả thuật ngữ mà còn cân nhắc việc thêm mới hoặc tích hợp lớp có ý nghĩa tương tự Đặc biệt, việc xác
Trang 26định thứ bậc giữa các lớp là quan trọng để làm rõ mối quan hệ phân loại Có ba cách thức xác định cấu trúc phân cấp: tiếp cận từ trên xuống, từ dưới lên, và phương pháp lai, mỗi phương pháp có ưu điểm trong việc tạo ra cấu trúc rõ ràng và minh bạch cho việc phân loại và tích hợp lớp
2.2.3.5 Xác lập các Đặc điểm và Liên kết trong Class
Để phân định đặc điểm của mỗi class, chúng ta cần quay lại và xem xét lại
bộ sưu tập các thuật ngữ đã được danh sách hóa trước đó Phần lớn các thuật ngữ này, sau khi đã phân loại các class, phản ánh đặc điểm của chúng Đối với mỗi đặc điểm được phát hiện, cần phải xác định class mà nó thuộc về Những đặc điểm này sau đó sẽ được nhận diện là thuộc về các class cụ thể đã được xác định
Có hai hình thức đặc điểm: đặc điểm đơn giản và đặc điểm phức tạp Đặc điểm đơn giản bao gồm các giá trị cơ bản như chuỗi ký tự, số, Trong khi đó, đặc điểm phức tạp có thể bao gồm hoặc tham chiếu đến đối tượng khác Một class sẽ thừa hưởng mọi đặc điểm từ mọi class cha của nó
2.2.3.6 Định nghĩa về các giới hạn thuộc tính và mối liên kết trong lớp Giới hạn được thiết lập nhằm xác định giá trị mà một thuộc tính cụ thể có thể chứa Trong số các giới hạn chính đối với một thuộc tính, số lượng và loại là hai yếu tố nổi bật Giới hạn về số lượng chỉ định số lượng giá trị mà một thuộc tính có thể có, với hai trường hợp phổ biến là duy nhất và nhiều Loại giới hạn thứ hai đề cập đến loại dữ liệu mà thuộc tính có thể nhận, bao gồm chuỗi, số, boolean, danh sách lựa chọn, và loại thực thể Loại thực thể đặc biệt liên quan đến hai khái niệm: miền và phạm vi, trong đó miền xác định lớp hoặc các lớp mà một thuộc tính thuộc
về và phạm vi đề cập đến lớp hoặc các lớp đóng vai trò là loại cho giá trị của thuộc tính loại thực thể
Các thuộc tính còn có thể được đặc trưng bởi nhiều yếu tố khác nhau như loại giá trị chấp nhận được, số lượng thuộc tính có thể có, và các đặc điểm khác liên quan đến giá trị của thuộc tính
Trang 27a) RDF (Resource Description Framework)
RDF (Resource Description Framework) là ngôn ngữ miêu tả Ontology, thường được sử dụng để truyền tải dữ liệu, thông tin siêu dữ liệu và cấu hình hệ thống RDF được thiết kế như một mô hình siêu dữ liệu, cung cấp một tập hợp từ vựng để đặc tả ngữ nghĩa của tài nguyên mà nó miêu tả, cùng với một tập từ vựng cho biểu diễn lớp, được xác định bổ sung trong RDFS
b) OWL (Ontology Web Language)
OWL (The Web Ontology Language) là một ngôn ngữ tiên tiến, gần giống với XML, được thiết kế để mô tả hệ thống tri thức trên web Đây là một ngôn ngữ markup được sử dụng để phát triển và chia sẻ dữ liệu thông qua các mô hình được gọi là
"ontology" Một ontology trong OWL diễn giải một lĩnh vực cụ thể, bao gồm các đối tượng trong lĩnh vực đó và các mối quan hệ giữa chúng OWL mở rộng bộ từ vựng của RDF và dựa trên ngôn ngữ DAML+OIL, được W3C hỗ trợ, để tăng cường khả năng biểu diễn ý nghĩa và quan hệ giữa các thuật ngữ trong từ vựng, nhằm đảm bảo tính tương thích và xử lý dễ dàng bởi phần mềm
Trang 28Nhờ vào việc ra đời sau RDFS, OWL không chỉ kế thừa mà còn nâng cao các khả năng của ngôn ngữ này, bằng cách thêm vào các tính năng mới để vượt qua những giới hạn của RDFS OWL cung cấp một nền tảng mạnh mẽ với khả năng logic hóa thông tin, phân loại đối tượng, và áp dụng các ràng buộc về loại và số lượng dữ liệu một cách mạnh mẽ, qua đó tăng cường khả năng suy luận và xử lý thông tin
2.2.3.9 Các công cụ thường sử dụng trong việc hỗ trợ xây dựng Ontology Trong dự án này, tôi chọn không sử dụng công cụ hỗ trợ ontology sẵn có mà
tự phát triển ontology bằng PHP và quản lý nó trên MySQL, cả hai đều tích hợp trên Nextcloud Quyết định này dựa trên việc tự xây dựng và quản lý ontology là khả thi, ngay cả cho những ontology nhỏ và đơn giản, không yêu cầu giải quyết vấn
đề phức tạp Tôi không áp dụng các công cụ như Protégé hay Sesame, mà tập trung
sử dụng PHP và MySQL cho phát triển ontology
2.3 Phương pháp biểu diễn tài liệu dạng đồ thị keyphrase [3]
2.3.1 Tìm hiểu về biểu diễn tài liệu
Áp dụng cấu trúc ngữ nghĩa giúp tổ chức thông tin trong tài liệu, biến văn bản không hoặc bán cấu trúc thành dạng có cấu trúc, dễ dàng qua XML hoặc bảng
cơ sở dữ liệu Cấu trúc hóa tài liệu ngữ nghĩa cho phép áp dụng phương pháp phân tích dữ liệu, tìm kiếm và khám phá thông tin Mô hình đồ thị khái niệm, giới thiệu bởi John F.Sowa, làm nổi bật khả năng biểu diễn tài liệu với đỉnh là khái niệm và liên kết ngữ nghĩa, cung cấp cơ sở cho hệ thống truy vấn hiệu quả
2.3.2 Mô hình biểu diễn tài liệu thành đồ thị keyphrase
Ở cấp độ trừu tượng cao, một tài liệu có thể được nhìn nhận như là một bộ sưu tập gồm nhiều khái niệm, thực thể và các mối liên kết giữa chúng Vì lý do này,
có thể mô tả mỗi tài liệu dưới dạng một đồ thị khái niệm, nơi mà các khái niệm liên kết với nhau thông qua các mối quan hệ ngữ nghĩa dựa trên sự tương đồng về ý nghĩa và cách thức áp dụng Tiếp theo, một phiên bản được chỉnh sửa của mô hình
Trang 29đồ thị khái niệm sẽ được trình bày, đóng vai trò như một mô hình biểu diễn đầy đủ ngữ nghĩa và thích hợp hơn cho việc đại diện các tài liệu
Định nghĩa: Một đồ thị keyphrase (KG) bao gồm ba phần tử cơ bản (GK,
- l E: R KK là hàm gán nhãn cho các cạnh trong đồ thị, sao cho: một cạnh e
được gắn nhãn bởi l(e) RKK chỉ ra một quan hệ ngữ nghĩa giữa hai đỉnh từ khóa liền kề với e
Mô hình đồ thị keyphrase là một cách biểu diễn tri thức dưới dạng đồ thị, trong đó mỗi nút đại diện cho một keyphrase thuộc lĩnh vực tri thức đang xét và mỗi cạnh được gắn nhãn ngữ nghĩa chỉ ra mối quan hệ giữa các nút keyphrase liên quan Trong mô hình đồ thị keyphrase để biểu diễn tài liệu, mỗi nút của đồ thị tương ứng với một keyphrase (được xác định trong ontology) mà tài liệu đề cập, phản ánh nội dung chính của tài liệu Các cạnh nối giữa nút diễn giải các mối quan hệ ngữ nghĩa giữa chúng, đưa ra cách thức mà các keyphrase tương tác và liên kết với nhau trong bối cảnh của tài liệu
Trang 30Ví dụ:Ta có đồ thi keyphrase như sau:
GK = {Artificial Intelligence, Machine Learning, Algorithms, Computer Science, Deep Learning}
E = { e1 = (Artificial Intelligence, Machine Learning), e2 = (Algorithms, Machine Learning), e3 = (Python, Programming Language), e4 = (Deep Learning, Machine Learning), e5 = (Machine Learning, Artificial Intelligence), e6 = (Deep Learning, Machine Learning), e7 = (Machine Learning, Computer Science) }
I(e1) = Đồng nghĩa, I(e2) = Có Liên Quan, I(e3) = Thuộc Về, I(e4) = một, I(e5) = Phần của, I(e6) = Gần Nghĩa, I(e7) = Mở Rộng
Là-2.2.3 Kỹ thuật so khớp
Kỹ thuật so khớp đòi hỏi xác định sự tương đồng ngữ nghĩa giữa đồ thị keyphrase, thông qua chỉ số đánh giá mối liên hệ ngữ nghĩa Để đánh giá này, cần xem xét tương tự ngữ nghĩa giữa keyphrase và mối quan hệ trong đồ thị Các nghiên cứu đã chỉ ra rằng khoảng cách ngữ nghĩa giữa hai keyphrase phụ thuộc vào mối quan hệ kết nối chúng, với một số mối quan hệ cho thấy sự chênh lệch lớn về ý nghĩa, trong khi những mối quan hệ khác chỉ thể hiện sự khác biệt nhỏ Kết nối qua mối quan hệ tương đương thường chia sẻ mức độ tương tự ngữ nghĩa cao hơn so với các mối quan hệ khác
2.3.2.1 Phương pháp đo khoảng cách giữa các keyphrase
Trong bước đánh giá mức độ giống nhau, một phương pháp được đề xuất để xác định trọng số cho các keyphrase liền kề là tính toán trọng số giữa chúng trong cấu trúc cây Ontology Điều này giúp cho việc ước lượng khoảng cách giữa các
Machine Learning
Trang 31keyphrase Dựa vào tài liệu tham khảo số [9], giữa hai keyphrase k1 và k2, trọng số giữa chúng được tính dựa trên một công thức cụ thể:
w[k1 ,k2 ] = Trong công thức này, "depth(k)" đại diện cho độ sâu của keyphrase k từ nút gốc đến nút k trong cấu trúc cây phân cấp Ontology, và α là một hằng số lớn hơn 1, thể hiện tỉ lệ giảm giá trị của hàm trọng số w theo độ sâu của cây phân cấp Ontology
Công thức này phản ánh hai yếu tố chính: đầu tiên, sự khác biệt về ngữ nghĩa
ở các cấp độ cao hơn là lớn hơn so với các cấp độ thấp hơn Thứ hai, khoảng cách giữa hai keyphrase ở cùng một cấp độ sẽ lớn hơn so với khoảng cách giữa hai keyphrase có mối quan hệ cha con Hơn nữa, trong trường hợp xuất hiện quan hệ đa
kế thừa giữa các nút (nghĩa là một nút con k0 có nhiều hơn một nút cha như k1, k2), thì hàm trọng số w cho nút con của k0 sẽ có nhiều giá trị khác nhau, phản ánh đa dạng của quan hệ kế thừa
Thuật toán tính khoảng cách giữa 2 keyphrase
Đầu vào: hai keyphrase k1 và k2
Đầu ra: Khoảng cách ngữ nghĩa giữa k1 và k2
Sem_Dis(k1, k2)
{
If k1, k2 là 2 keyphrase giống nhau
Sem_Dis(k1, k2):= 0 Else If tồn tại liên kết trực tiếp giữa k1 và k2
Sem_Dis(k1, k2):= w(k1, k2) Else If tồn tại liên kết gián tiếp giữa k1 và k2
Sem_Dis (k1, k2):=
1
αdepth (k 2 )
Trang 32// SPath(k1,k2) là đường đi ngắn nhất giữa k1 và k2Else
Sem_Dis(k1, k2):= min{Sem_Dis(k1, k0)} + min{Sem_Dis(k1, k0)}
Ánh xạ này duy trì được sự liên kết "quan hệ kề" giữa các đỉnh và các cạnh,
tức là cho mọi r R H , g(adj i (r)) = adj i (f(r)) với 1 i 2 Trong đó, adji(r) là đỉnh keyphrase thứ i kề với đỉnh quan hệ r Nếu hai đỉnh trong H kề nhau thì đỉnh tương ứng trong G cũng vậy
r R H , β(r,f(r)) ≠ 0
k K H , α(k,g(k)) ≠ 0
Định nghĩa: Định nghĩa: Một mô hình lượng giá cho việc ánh xạ từ đồ thị H
sang G được xác định như sau, với giá trị trong khoảng [0,1]:
2.3.2.2 Tính toán độ tương đồng ngữ nghĩa giữa các tài liệu
Có rất nhiều cách để đánh giá mức độ tương đồng hoặc khoảng cách ngữ nghĩa giữa các concept, dựa trên lượng kiến thức mà hệ thống có sẵn để thực hiện các tính toán này Các phương pháp được phân thành hai loại tiếp cận chính:
Hướng tiếp cận sử dụng cơ sở dữ liệu ngôn ngữ, còn được biết đến dưới tên gọi là cách tiếp cận thiếu tri thức (knowledge-poor)
Σ α(k,g(k)) + Σ β(r,f(r))
r R H
k K H
|KH| + |RH|
Trang 33Phương pháp này phân tích mối quan hệ giữa các từ dựa vào sự xuất hiện trong kho ngữ liệu, với giả định rằng từ tương đồng xuất hiện trong ngữ cảnh tương
tự Dựa vào đó, độ tương đồng được ước lượng bằng cách so sánh vector đặc trưng của từ trong ngữ cảnh Tuy nhiên, phương pháp này có hạn chế như không xác định được sự khác biệt ngữ nghĩa cụ thể và không gán nhãn từ loại, dẫn đến kết quả không chính xác về sự khác biệt ngữ nghĩa thực sự và mối quan hệ ngữ nghĩa giữa các từ ít được quan tâm
Hướng tiếp cận dựa trên ontology, còn gọi là phương pháp giàu tri thức (knowledge-rich)
Phương pháp giàu tri thức sử dụng tri thức ngữ nghĩa được tổ chức trong mạng lưới hoặc đồ thị có hướng để đánh giá độ tương đồng giữa các khái niệm Phương pháp này tận dụng tài nguyên từ vựng cấu trúc sẵn, cho phép phản ánh mối quan hệ ngữ nghĩa chính xác hơn Tuy nhiên, nó cũng gặp hạn chế về sự phụ thuộc vào tài nguyên thủ công có thể thiếu sót hoặc chủ quan, dẫn đến lỗi trong ontology
Dù có hạn chế, phương pháp này vẫn là lựa chọn hiện đại, phù hợp cho biểu diễn và
xử lý ngữ nghĩa Nếu tài nguyên và ontology được xây dựng chính xác và đầy đủ, chúng cải thiện độ chính xác và khả năng thu thập thông tin, với độ đo ngữ nghĩa đơn giản, trực quan
Ngày nay, phương pháp này được phân loại theo nhiều hướng tiếp cận khác nhau:
Dựa trên từ điển đơn ngữ
Phương pháp này chuyển đổi một từ điển đơn ngữ thành một mạng lưới bằng cách tạo ra một nút cho mỗi từ ngữ (headword) và kết nối nút này với các nút khác dựa trên sự xuất hiện của chúng trong định nghĩa của nhau Sự tương đồng giữa các
từ được đo lường bằng việc lan tỏa thông tin trên mạng lưới này Mặc dù phương pháp này không phải lúc nào cũng hiệu quả cao, nhưng nó có thể dễ dàng áp dụng cho hầu hết các ngôn ngữ tự nhiên chỉ với một từ điển đơn ngữ của ngôn ngữ đó
Dựa trên mạng phân cấp ngữ nghĩa
Trang 34Phương pháp dựa trên mạng phân cấp ngữ nghĩa thường sử dụng WordNet
để tổ chức và đánh giá độ tương đồng ngữ nghĩa giữa các khái niệm WordNet phân loại các từ theo danh từ, động từ, tính từ, và trạng từ vào các nhóm từ đồng nghĩa, kết nối chúng bằng mối quan hệ ngữ nghĩa Khoảng cách ngữ nghĩa giữa các khái niệm trong WordNet thường được đo bằng số bước trên con đường ngắn nhất giữa hai khái niệm Phương pháp này cung cấp một khuôn khổ chi tiết và có cơ sở hơn so với các tiếp cận khác để phân tích và so sánh sự tương đồng ngữ nghĩa, mang lại hiệu quả cao trong việc đánh giá độ tương đồng ngữ nghĩa:
Công thức đơn giảng nhất là
),(
1)
,(
2 1 2
1
c c dist c
c sim , trong đó dist(c1,c2) là số nút trên đường nối ngắn nhất giữa hai khái niệm c1 và c2 Trong trường hợp không tồn tại đường nối giữa hai khái niệm đó, độ đo sẽ không được xác định Một hạn chế của phương pháp này là việc không phản ánh đúng mức độ khác biệt ngữ nghĩa thực sự giữa các liên kết trong WordNet Cụ thể, trong WordNet, một số liên kết giữa các synset (nhóm từ đồng nghĩa) có thể biểu thị một khoảng cách ngữ nghĩa lớn, trong khi những liên kết khác chỉ thể hiện sự khác biệt ngữ nghĩa nhỏ Nói chung, các liên kết ở mức độ cao hơn trong cấu trúc phân cấp (gần với nút gốc) thường biểu hiện khoảng cách ngữ nghĩa lớn hơn so với những liên kết ở mức thấp hơn
Ví dụ, trong một mạng phân cấp, khoảng cách ngữ nghĩa giữa synset chứa các từ {object, physical object} và synset {land, dry land, earth} được xem là lớn hơn so với khoảng cách ngữ nghĩa giữa {land, dry land, earth} và {island} Điều này phản ánh sự thật rằng, càng lên cao trong cấu trúc phân cấp, sự chênh lệch ngữ nghĩa càng lớn do các khái niệm trở nên tổng quát và rộng hơn, trong khi ở mức độ thấp hơn, các khái niệm cụ thể hơn và có liên quan mật thiết với nhau hơn
Trang 35
Hình 2.2: Ví dụ mạng phân cấp trong WordNet [3]
Hướng tiếp cận lai ghép
Hướng tiếp cận lai ghép kết hợp đặc điểm của cả hai phương pháp: dựa trên kho ngữ liệu và dựa trên ontology, để xác định khoảng cách ngữ nghĩa giữa các khái niệm Sử dụng cấu trúc từ vựng từ ontology và dữ liệu thống kê từ kho ngữ liệu, phương pháp này áp dụng "lượng tin" từ lý thuyết thông tin, nhằm khắc phục hạn chế của từng phương pháp riêng biệt Các nhà nghiên cứu như Resnik, Jiang và Conrath, Lin đã phát triển hướng tiếp cận này, cho phép tính toán khoảng cách ngữ nghĩa linh hoạt và chính xác hơn, phản ánh sự phức tạp của ngôn ngữ tự nhiên và cách con người sử dụng ngôn ngữ Hướng tiếp cận lai ghép mở ra hướng giải quyết mới cho thách thức xác định khoảng cách ngữ nghĩa chính xác, giảm thiểu thiếu sót của mỗi phương pháp độc lập
2.4 Giới thiệu về nền tảng Nextcloud
2.4.1 Giới thiệu chung
Nextcloud là một nền tảng máy khách-máy chủ để tạo dịch vụ lưu trữ tệp và
sử dụng chúng Về mặt chức năng rất giống với nhiều với Google Suite và Dropbox, với sự khác biệt về chức năng chính là Nextcloud miễn phí và là mã nguồn mở, do đó cho phép bất kỳ ai cũng có thể cài đặt và vận hành nó miễn phí trên máy chủ riêng Trái ngược với các dịch vụ độc quyền như Google Drive,
{entity}
{causal agent, cause} {object, physical object}
{living thing, animate thing} {land, dry land, earth}
{island} {coastal plain}
Trang 36Dropbox, kiến trúc và mã nguồn mở cho phép thay đổi, thêm chức năng bổ sung vào nền tảng này
Hình 2.3: Logo Nextcloud
2.4.2 Tính năng và ứng dụng
Nextcloud, một nền tảng lưu trữ và làm việc cộng tác dựa trên đám mây nguồn mở, đáp ứng nhu cầu đa dạng của người dùng bằng việc cung cấp loạt tính năng phong phú và linh hoạt Tính đa năng và khả năng tùy chỉnh cao của Nextcloud giúp nó trở nên phổ biến không chỉ trong giới doanh nghiệp mà còn với cộng đồng giáo dục, đặc biệt là sinh viên công nghệ thông tin Dưới đây là một số tính năng chính và ứng dụng của Nextcloud:
Đồng bộ hóa và chia sẻ File: Tính năng cốt lõi của Nextcloud là cho phép người dùng đồng bộ hóa dữ liệu giữa các thiết bị và chia sẻ chúng một cách an toàn Sinh viên có thể dễ dàng truy cập tài liệu học tập, dự án, và phần mềm từ bất kỳ đâu, trên bất kỳ thiết bị nào có kết nối internet, đồng thời chia sẻ nhanh chóng với bạn bè đồng nghiệp và giáo viên
Quản lý Lịch và Công việc: Nextcloud tích hợp công cụ quản lý lịch, giúp sinh viên dễ dàng sắp xếp lịch học, thời gian biểu cho các dự án nhóm, và các cuộc họp trực tuyến Tính năng này hỗ trợ sinh viên quản lý thời gian một cách hiệu quả, từ đó nâng cao hiệu suất học tập và làm việc
Gọi trực tiếp Video Call: Với Nextcloud Talk, nền tảng hỗ trợ việc tổ chức video call, chat nhóm, và giao tiếp trực tiếp, sinh viên có thể thảo luận và làm việc nhóm một cách linh hoạt, không bị giới hạn bởi không gian Điều này cực kỳ quan trọng trong môi trường giáo dục hiện đại, nơi mà học tập từ xa và hợp tác trực tuyến ngày càng trở nên phổ biến
Trang 37 An Toàn và Bảo mật: Nextcloud đặt ưu tiên hàng đầu vào việc bảo vệ dữ liệu của người dùng Tính năng mã hóa dữ liệu, quản lý quyền truy cập, và các công
cụ bảo mật khác đảm bảo thông tin cá nhân và tài liệu học tập của sinh viên được bảo vệ một cách nghiêm ngặt
Khả năng mở rộng và tích hợp: Khả năng mở rộng của Nextcloud thông qua các ứng dụng và plugin cho phép sinh viên tùy chỉnh nền tảng theo nhu cầu cá nhân hoặc nhóm Từ ứng dụng chỉnh sửa trực tiếp tài liệu Office trực tuyến đến công
cụ quản lý dự án và theo dõi thời gian, Nextcloud cung cấp một loạt công cụ để
hỗ trợ học tập và nghiên cứu
Tự quản lý và Tùy chỉnh: Một trong những điểm mạnh lớn nhất của Nextcloud
là khả năng tự quản lý Sinh viên và các tổ chức giáo dục có thể tự cài đặt và quản lý nền tảng của mình trên server riêng, tùy chỉnh tính năng theo yêu cầu, đảm bảo sự linh hoạt và độc lập cao nhất
2.4.3 Lợi ích cho Sinh viên CNTT
Nextcloud, với tính linh hoạt và bảo mật cao, đem lại cho sinh viên công nghệ thông tin một loạt lợi ích thiết thực, từ việc quản lý dữ liệu cá nhân đến hợp tác và làm việc nhóm Dưới đây là những lợi ích chính mà Nextcloud mang lại cho sinh viên trong lĩnh vực công nghệ thông tin:
Tăng cường khả năng quản lý dữ liệu: Sinh viên CNTT thường xuyên phải làm việc với lượng lớn dữ liệu, từ mã nguồn, tài liệu dự án đến dữ liệu nghiên cứu Nextcloud cung cấp một giải pháp lưu trữ trực tuyến, giúp họ tổ chức và truy cập dữ liệu mọi lúc, mọi nơi mà không lo sợ mất mát do lỗi phần cứng
Hỗ trợ làm việc nhóm và hợp tác: Đối với các dự án nhóm, Nextcloud là công cụ không thể thiếu, cho phép các sinh viên dễ dàng chia sẻ tài liệu, lập lịch trình công việc, và thảo luận trực tuyến Tính năng chỉnh sửa tài liệu trực tuyến cùng lúc giúp tăng hiệu quả hợp tác, đồng thời tiết kiệm thời gian và nâng cao chất lượng công việc
Trang 38 Bảo mật và quyền riêng tư dữ liệu: Trong ngành CNTT, bảo mật là một yếu tố quan trọng Nextcloud cung cấp các tính năng bảo mật tiên tiến như mã hóa dữ liệu cuối-cuối, xác thực hai yếu tố, và kiểm soát quyền truy cập dữ liệu Điều này đảm bảo rằng dữ liệu cá nhân và dự án của sinh viên được bảo vệ một cách
an toàn nhất
Tự do phần mềm và tính mở: Với cộng đồng mã nguồn mở mạnh mẽ, Nextcloud không chỉ cho phép sinh viên sử dụng phần mềm miễn phí mà còn cung cấp cơ hội để họ học hỏi, thử nghiệm và phát triển kỹ năng lập trình của mình thông qua việc đóng góp vào dự án Đây là một phần quan trọng trong việc đào tạo và phát triển kỹ năng cho sinh viên CNTT
Kết luận chương
Trong chương này, chúng ta đã xem xét sâu rộng về công nghệ Web Ngữ Nghĩa, Ontology và nhấn mạnh đặc biệt vào nền tảng Nextcloud, một giải pháp đám mây linh hoạt và mạnh mẽ Từ khả năng đồng bộ hóa và chia sẻ dữ liệu đến quản lý lịch và nhiệm vụ, Nextcloud cung cấp một loạt công cụ hỗ trợ sinh viên công nghệ thông tin trong việc quản lý và tương tác với kho tài liệu học tập cá nhân
Xây dựng các động cơ suy diễn và tìm kiếm dựa trên Nextcloud cho phép sinh viên không chỉ lưu trữ và truy cập tài liệu một cách thuận tiện mà còn tận dụng khả năng phân tích, suy diễn để tìm kiếm thông tin một cách hiệu quả Sự tích hợp của công nghệ Web Ngữ Nghĩa trong Nextcloud mở ra khả năng phát triển các công
cụ tìm kiếm thông minh, giúp sinh viên nhanh chóng tìm kiếm và lọc ra thông tin chính xác và có giá trị từ một lượng lớn dữ liệu
Trang 39CHƯƠNG 3: THIẾT KẾ
Giới thiệu chương
Chương này tập trung vào việc áp dụng mô hình giải pháp dựa trên những nghiên cứu từ Chương 2, nhằm tổ chức và lưu trữ dữ liệu theo ngữ nghĩa, sử dụng ontology để biểu diễn,xử lý tri thức và dựa nên những tính năng có sẵn của nền tảng Nextcloud để phát triển một tính năng tìm kiếm theo ngữ nghĩa hiệu quả cho sinh viên ngành CNTT, qua việc phát triển ontology, tính năng tìm kiếm theo ngữ nghĩa, phát triển giải pháp xử lý truy vấn, và thuật toán đánh giá độ tương đồng ngữ nghĩa, nhằm tối ưu hóa kết quả tìm kiếm Keyphrase giúp giảm sự phức tạp và tăng chính xác trong truy vấn thông tin, mang lại lợi ích đáng kể cho quá trình tìm kiếm
Nội dung chương
3.1 Xây dựng Ontology cho lĩnh vực Công nghệ thông tin
3.1.1 Mô hình ontology cho ngữ nghĩa tài liệu
Nghiên cứu được trích từ tài liệu số [3] giới thiệu mô hình CK_ONTO, viết tắt cho "Ontology dựa trên việc phân loại keyphrase", bao gồm tổng cộng sáu phần
tử Tuy nhiên, do bộ dữ liệu sử dụng trong nghiên cứu này không chứa cấu trúc phân cấp rõ ràng, phần tử gán nhãn đã được bỏ qua Điều này dẫn đến việc mô hình
chỉ còn bao gồm năm phần tử chính là: (K, C, R KC , R CC , R KK ) mỗi phần tử đều có
vai trò và mô tả cụ thể như sau:
Trang 40liệu trong lĩnh vực công nghệ thông tin
2) Một tập hợp C các lớp keyphrase
Mỗi lớp keyphrase c ∈ C đều tập hợp những keyphrase liên quan dựa trên một đặc tính hoặc ý nghĩa nhất định Những nhóm này có thể bao gồm keyphrase, các nhóm khác, hoặc sự kết hợp của cả hai Do đó, một nhóm có khả năng chứa đựng nhiều nhóm con hoặc được tích hợp vào nhóm khác, từ đó tạo nên một cấu trúc phân cấp giữa nhóm mẹ và nhóm con Các nhóm này có thể có nhiều nhóm
mẹ Đối với tài liệu liên quan đến ngành CNTT, mỗi keyphrase được xác định thuộc về một nhóm duy nhất Sự phân nhóm keyphrase theo ngữ nghĩa được chia thành nhiều tầng, tăng dần theo độ cụ thể của khái niệm Việc tạo ra một hệ thống phân lớp chất lượng cao là quan trọng nhưng không hề đơn giản; không có một phương pháp duy nhất để xác định các nhóm Trong khuôn khổ của nghiên cứu này, việc phân loại keyphrase vào những nhóm chủ đề phù hợp dựa trên ý nghĩa của chúng được thực hiện một cách thủ công, sử dụng các kỹ thuật điều khiển thủ công và dưới sự giám sát cùng với ý kiến từ các chuyên gia tri thức trong lĩnh vực đang được khảo sát
Hình 3.1: Không gian các keyphrase [3]
Do đó, chúng ta định nghĩa C = {c P(K) | c đại diện cho một lớp từ khóa
mô tả các chủ đề hoặc lĩnh vực con}
Ví dụ: lớp Danh_mục, bao gồm các từ khóa liên quan đến các loại tài liệu
như: Danh_mục = { Algorithms, Database, Computer Networks, .}, bên trong
này lại chứa các lớp nhỏ hơn như SQL, Sorting và nhiều hơn nữa
Sức mạnh chính của ontology được thể hiện qua khả năng mô tả các mối