Mơ hình đề xuất

CHƯƠNG 4 MƠ HÌNH TÌM KIẾM TÀI NGUYÊN HỌC TẬP

4.2. Tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản

4.2.1. Mơ hình đề xuất

Để tìm kiếm tài nguyên học tập dựa trên độ tương đồng văn bản, phương pháp kết hợp độ tương đồng ngữ nghĩa của văn bản với độ tương đồng thứ tự của từ trong văn bản được đề xuất. Mơ hình đề xuất được mơ tả như Hình 4.1.

Hình 4.1: Mơ hình tìm kiếm dựa trên độ tương đồng văn bản

Mơ hình trên được mơ tả vắn tắt bằng Giải thuật 4.1. Dữ liệu đầu vào được tiền xử lý, rút trích thơng tin, véc-tơ hĩa và biểu diễn dưới dạng TF-IDF và thứ tự từ, sau đĩ, tính độ tương đồng cosine và tương tự về thứ tự từ của tài liệu. Cuối cùng, hai độ tương đồng này được kết hợp để tính độ tương đồng văn bản dựa trên nghiên cứu trước đĩ của (Li et al., 2004) để áp dụng cho vấn đề tìm kiếm tài nguyên học tập.

Giải thuật 4.1: SimilarityDetection (InputDocument d, corpus-of-Preprocessed-

Documents D, float α, float SimThreshold){

1 Convertion(d) // convert the input document (word/pdf) to text

2 WordSegmention(d) // seperate document to words

3 WordNormalization(d) // change to lower cases, remove blanks,..

4 RemovingStopWords(d)

5 VectorizationTF-IDF(d)

6 VectorizationOrder(d) // the word-order in the sentences

7 sim  α * CosineSimilarity(d, D) + (1- α) * OrderSimilarity(d, D)

8 Return sets of documents in D which have sim > SimThreshold

Ở Giải thuật 4.1, các cơng việc từ 1 đến 4 tương tự như đã trình bày ở nghiên cứu về phân loại văn bản. Trong nghiên cứu này, văn bản được biểu diễn dưới dạng véc-tơ với hình thức là đặc trưng ngữ nghĩa và đặc trưng thứ tự từ (bước 5 và 6 của giải thuật).

Độ tương đồng về mặt ngữ nghĩa: Tập từ của hai văn bản d1 và d2 cĩ m1 và m2 số lượng từ vựng được biểu diễn như sau: T1 = {w11, w12, …, w1m1} và T2 = {w21, w22,…, w2m2}. T là phép hợp của hai tập từ (những từ phân biệt) T1 và T2:

T = T1 ∪ T2 = {w1, w2, …, wm}, trong đĩ, m là số lượng từ.

Sau khi véc-tơ hĩa bằng phương pháp TF-IDF, véc-tơ đặc trưng ngữ nghĩa của văn bản T1 và T2 lần lượt là V1 = (v11, v12,…, v1m) và V2 = (v21, v22,…, v2m). Từ hai véc-tơ V1 và V2 như trên, độ tương đồng ngữ nghĩa (tương đồng cosine) của hai văn bản được tính dựa vào hệ số như biểu thức 4.1:

𝑆𝑆𝑠𝑠(𝑇𝑇1 ,𝑇𝑇2 ) =|𝑉𝑉(𝑉𝑉1 .𝑉𝑉2 ) 1 | . |𝑉𝑉2| = ∑ 𝑣𝑣𝑚𝑚 1𝑖𝑖 .𝑣𝑣2𝑖𝑖 𝑖𝑖=1 �∑𝑚𝑚 𝑣𝑣1𝑖𝑖2 𝑖𝑖=1 �∑ 𝑣𝑣2𝑖𝑖𝑚𝑚 2 𝑖𝑖=1 4.1 Giá trị 𝑆𝑆𝑠𝑠(𝑇𝑇1 ,𝑇𝑇2 ) nằm trong khoảng (0, 1), giá trị này càng lớn thì độ tương đồng

hai văn bản càng cao.

Độ tương đồng về thứ tự từ: Một vấn đề quan trọng là thứ tự từ trong các câu cĩ thể được xem xét. Ví dụ, hai câu “Minh thích Loan” và “Loan thích Minh” cĩ số lần xuất hiện giống nhau, nhưng ý nghĩa hồn tồn khác nhau. Do đĩ, thứ tự của các từ nên được véc-tơ hĩa và tính tốn. Độ tương đồng về thứ tự từ trong các câu được tính theo biểu thức dưới đây:

𝑆𝑆𝑟𝑟 = 1−|𝑅𝑅1 |𝑅𝑅1 − 𝑅𝑅2 | + 𝑅𝑅2 | = 1− �∑𝑚𝑚 (𝑟𝑟1𝑖𝑖 − 𝑟𝑟2𝑖𝑖)2 𝑖𝑖=1 �∑𝑚𝑚 (𝑟𝑟1𝑖𝑖 + 𝑟𝑟2𝑖𝑖)2 𝑖𝑖=1 4.2 Trong đĩ, R1 = (r11, r12, …, r1m) và R2 = (r21, r22, …, r2m) lần lượt là véc-tơ đặc trưng thứ tự từ của hai văn bản T1 và T2. Véc-tơ thứ tự từ biểu diễn thứ tự của mỗi từ wi thuộc T ở vị trí nào trong mỗi văn bản T1 và T2.

Sự tương tự về ngữ nghĩa thể hiện sự tương đồng về mặt từ vựng, cịn sự tương tự về thứ tự từ cung cấp thơng tin về mối quan hệ giữa các từ: từ nào xuất hiện trong câu,

và từ nào đứng trước hoặc sau các từ khác. Cả hai phần thơng tin ngữ nghĩa và thứ tự từ này đều đĩng vai trị quan trọng như nhau. Vì vậy, sự kết hợp hai độ đo này cần thiết để đảm bảo tính chính xác của phương pháp tính độ tương đồng văn bản, được tính tốn như biểu thức 4.3:

Sd = 𝛼𝛼 ∗ 𝑆𝑆𝑠𝑠+ (1− 𝛼𝛼)∗ 𝑆𝑆𝑟𝑟

= α ∗ (𝑉𝑉1 .𝑉𝑉2 )

|𝑉𝑉1 | . |𝑉𝑉2| + (1− α)∗(1−|𝑅𝑅1 − 𝑅𝑅2 |

|𝑅𝑅1 + 𝑅𝑅2 |) 4.3

Trong đĩ, α ≤ 1 là siêu tham số xác định mức độ quan trọng của độ tương đồng ngữ nghĩa và độ tương đồng thứ tự từ của văn bản. Thơng thường, thứ tự từ đĩng vai trị phụ đối với vấn đề xử lý ngữ nghĩa của văn bản (Hastings, 2001) nên α phải cĩ giá trị lớn hơn hoặc bằng 0,5 hay tức là α ∈ (0,5  1). Tuy nhiên, trong nghiên cứu này mức độ quan trọng độ tương đồng về mặt ngữ nghĩa và độ tương đồng về thứ tự từ được xem là như nhau, vì thế gán α = 0,5. Thực tế, tùy tập dữ liệu và tùy mức độ quan trọng của độ tương đồng về mặt ngữ nghĩa hay độ tương đồng về thứ tự từ mà người dùng cĩ thể cài đặt α khác nhau thơng qua tìm kiếm siêu tham số.

Hệ thống gợi ý tài nguyên học tập

Một số kỹ thuật phân loại văn bản