Chươn g3 Ứng dụng công nghệ web ngữ nghĩa trong E-Learning
3.2.2 Xây dựng, cập nhật ontology và chú thích ngữ nghĩa
Các ontology mô tả quan hệ giữa các khái niệm, chủ đề của bài giảng điện tử được xây dựng và chỉnh sửa trong suốt quá trình sử dụng hệ thống. Xây dựng ontology một cách tự động từ các thành phần nội dung của các gói bài giảng là một công việc phức tạp liên quan đến nhiều hướng nghiên cứu như xử lý ngôn ngữ tự nhiên, phân loại văn bản, học máy…
Ở bước đầu phát triển mô hình xây dựng và khai thác nội dung đào tạo điện tử áp dụng công nghệ web ngữ nghĩa, chúng tôi đề xuất một số giải pháp đơn giản cho xây dựng và cập nhật ontology và chú thích ngữ nghĩa.
Các chú thích ngữ nghĩa liên quan đến cấu trúc bài giảng được xây dựng trực tiếp nhờ phân tích và biến đổi các thành phần cơ bản trong siêu dữ liệu của gói bài giảng điện tử tuân theo chuẩn SCORM thành các đối tượng chú thích tương ứng.
Các chú thích ngữ nghĩa liên quan đến học viên và ngữ cảnh học tập cũng được trực tiếp biến đổi tương ứng từ dữ liệu của hệ quản lý đào tạo về học viên và quá trình học tập và từ các thông tin mô tả chi tiết về thành phần nội dung học điện tử có trong siêu dữ liệu sang thành các đối tượng mô tả ngữ cảnh. Ví dụ các thuộc tính trong siêu dữ liệu chuẩn SCORM có thể sử dụng là Semantic Density, Education Context, Difficulty, Interactivity Level, Interactivity Type, Purpose…
Chúng tôi nhận thấy các tiêu đề, đề mục của các thành phần nội dung bài giảng thường không thay đổi nhiều khi cùng nói về một chủ đề hay khái niệm. Do đó, các ontology mô tả các khái niệm cũng có thể được rút ra bằng cách so sánh, phân tích và xử lý đơn giản các thông tin như tiêu đề, từ khóa và mô tả ngắn của thành phần cấu trúc và thành phần tài nguyên tương ứng.
Các quan hệ giữa các khái niệm như quan hệ cha con, quan hệ phụ thuộc, được xác định dựa vào cấu trúc phân lớp hình cây của các thành phần nội dung trong gói bài giảng tuân theo chuẩn SCORM.
Quá trình phân tích và xử lý thông tin để rút ra các khái niệm được thực hiện chủ yếu dựa vào so sánh xâu ký tự và áp dụng một số luật đơn giản. Việc so sánh xâu ký được thực hiện trên hai hàm so sánh sau:
Hàm so sánh độ tương tự của hai văn bản ngắn (ví dụ như thuộc tính title trong siêu dữ liệu):
2 ( ( ) | & ) ( , ) ( ) ( ) Max Length s s u s v ssim u v totals u totals v (1)
trong đó u, v là hai đoạn văn bản ngắn, s là sâu con bất kỳ có mặt trong cả hai đoạn văn bản u và v, totals(u) là số từ có trong đoạn văn bản u, Length(s) là độ dài xâu ký tự s.
Hàm so sánh độ tương tự của hai đoạn văn bản dài (ví dụ như thuộc tính description trong siêu dữ liệu):
: |
2 ( ( , ), ( , ))
( , )
( ) ( )
x x u x v
Min numof x u numof x v lsim u v totals u totals v (2)
trong đó u, v là hai đoạn văn bản dài, numof(x,u) là số lần từ x xuất hiện trong đoạn văn bản u, và totals(u) là số từ có trong đoạn văn bản u.
Các kỹ thuật tiên tiến về phân loại văn bản, nhận dạng cũng có thể áp dụng nhằm nâng cao tính chính xác trong việc xác định chủ đề của thành phần nội dung. Ngoài ra, các công cụ hỗ trợ cho việc chia sẻ, hợp tác xây dựng chủ đề dựa trên web ngữ nghĩa cũng góp phần nâng cao tính chính xác khi định nghĩa các khái niệm.