Mơ hình đề xuất

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (building models for searching and recommending learning resources) (Trang 81 - 83)

CHƯƠNG 4 MƠ HÌNH TÌM KIẾM TÀI NGUYÊN HỌC TẬP

4.2. Tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản

4.2.1. Mơ hình đề xuất

Để tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản, phương pháp kết hợp độ tương đồng ngữ nghĩa của văn bản với độ tương đồng thứ tự của từ trong văn bản được đề xuất. Mơ hình đề xuất được mơ tả như Hình 4.1.

Hình 4.1: Mơ hình tìm kiếm dựa trên độ tương đồng văn bản

Mơ hình trên được mơ tả vắn tắt bằng Giải thuật 4.1. Dữ liệu đầu vào được tiền xử lý, rút trích thơng tin, véc-tơ hĩa và biểu diễn dưới dạng TF-IDF và thứ tự từ, sau đĩ, tính độ tương đồng cosine và tương tự về thứ tự từ của tài liệu. Cuối cùng, hai độ tương đồng này được kết hợp để tính độ tương đồng văn bản dựa trên nghiên cứu trước đĩ của (Li et al., 2004) để áp dụng cho vấn đề tìm kiếm tài nguyên học tập.

Gi i thu t 4.1: SimilarityDetection (InputDocument d, corpus-of-Preprocessed-

2 WordSegmention(d) // seperate document to words

5 VectorizationTF-IDF(d)

8 Ở Return sets of documentsviệc từ which tương tự SimThresholdbày ở nghiên cứu về phân loại văn bản. Trong nghiên cứu này, văn bản được biểu diễn dưới dạng véc-tơ với hình thức là đặc trưng ngữ nghĩa và đặc trưng thứ tự từ (bước 5 và 6 của giải thuật).

Độ tương đồng về mặt ngữ nghĩa: Tập từ của hai văn bản d1 và d2 cĩ m1 và m2 số lượng từ vựng được biểu diễn như sau: T1 = {w11, w12, …, w1m1} và T2 = {w21, w22,…, w2m2}. T là phép hợp của hai tập từ (những từ phân biệt) T1 và T2:

Sau khi véc-tơ hĩa bằng phương pháp TF-IDF, véc-tơ đặc trưng ngữ nghĩa của văn bản T1 và T2 lần lượt là V1 = (v11, v12,…, v1m) và V2 = (v21, v22,…, v2m). Từ hai véc-tơ V1 và V2 như trên, độ tương đồng ngữ nghĩa (tương đồng cosine) của hai văn bản được tính dựa vào hệ số như biểu thức 4.1:

4.1

hai văn bản càng1cao. ) nằm trong khoảng (0, 1), giá trị này càng lớn thì độ tương đồng Độ tương đồng về thứ tự từ: Một vấn đề quan trọng là thứ tự từ trong các câu cĩ thể được xem xét. Ví dụ, hai câu “Minh thích Loan” và “Loan thích Minh” cĩ số lần xuất hiện giống nhau, nhưng ý nghĩa hồn tồn khác nhau. Do đĩ, thứ tự của các từ nên được véc-tơ hĩa và tính tốn. Độ tương đồng về thứ tự từ trong các câu được tính theo biểu thức dưới đây:

4.2 Trong đĩ, R1 = (r11, r12, …, r1m) và R2 = (r21, r22, …, r2m) lần lượt là véc-tơ đặc

trưng thứ tự từ của hai văn bản T1 và T2. Véc-tơ thứ tự từ biểu diễn thứ tự của mỗi từ wi thuộc T ở vị trí nào trong mỗi văn bản T1 và T2.

Sự tương tự về ngữ nghĩa thể hiện sự tương đồng về mặt từ vựng, cịn sự tương tự về thứ tự từ cung cấp thơng tin về mối quan hệ giữa các từ: từ nào xuất hiện trong câu,

Documents D, float , float SimThreshold){α

1 Convertion(d) // convert the input document (word/pdf) to text 3 WordNormalization(d) // change to lower cases, remove blanks,.. 4 RemovingStopWords(d)

6 VectorizationOrder(d) // the word-order in the sentences 7 sim * CosineSimilarity(d, D) + (1- ) * OrderSimilarity(d, D)α α

T = T1 ∪ T2 = {w1, w2, …, wm}, trong đĩ, m là số lượng từ. (��1 . ��2 ) ∑ ��1�� . ��2���� ���� (��1 , ��2 ) = = |��1 | . |��2| �∑ ��1�� 2��=1 �∑ ��2�� 2���� ��=1 ��=1 |��1 − ��2 | �∑ (��1�� − ��2�� )2�� ���� = 1 − =1 − |��1 + ��2 | �∑ ��1�� + ��2�� )2��=1(�� ��=1

Giải thuật 4.1, các cơng in D 1 đến 4have sim > như đã trình

và từ nào đứng trước hoặc sau các từ khác. Cả hai phần thơng tin ngữ nghĩa và thứ tự từ này đều đĩng vai trị quan trọng như nhau. Vì vậy, sự kết hợp hai độ đo này cần thiết để đảm bảo tính chính xác của phương pháp tính độ tương đồng văn bản, được tính tốn như biểu thức 4.3:

4.3

Trong đĩ, α ≤ 1 là siêu tham số xác định mức độ quan trọng của độ tương đồng ngữ nghĩa và độ tương đồng thứ tự từ của văn bản. Thơng thường, thứ tự từ đĩng vai trị phụ đối với vấn đề xử lý ngữ nghĩa của văn bản (Hastings, 2001) nên α phải cĩ giá trị độ quan trọng độ tương đồng về mặt ngữ nghĩa và độ tương đồng về thứ tự từ được xem là như nhau, vì thế gán α = 0,5. Thực tế, tùy tập dữ liệu và tùy mức độ quan trọng của độ tương đồng về mặt ngữ nghĩa hay độ tương đồng về thứ tự từ mà người dùng cĩ thể cài đặt α khác nhau thơng qua tìm kiếm siêu tham số.

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (building models for searching and recommending learning resources) (Trang 81 - 83)

Tải bản đầy đủ (DOCX)

(148 trang)
w