Sự thay đổi mô hình không gian vector truyền thống

Một phần của tài liệu giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa (Trang 25 - 27)

Trong mô hình không gian vector (VSM) dựa trên keyword, mỗi tài liệu được đại

diện bởi 1 vector. Thông thường trọng số tương thích tương ứng với từng term trong

vector là một hàm tần số xác suất của term trong tài liệu, gọi là tf và tần số xác suất đảo

ngược của term thông qua tất cả các tài liệu hiện có gọi là idf. Độ tương tự giữa 2 tài liệu

có thể được định nghĩa là khoảng cách giữa 2 vector.

Với term là keyword, VSM truyền thống không thỏa trong tài liệu ngữ nghĩa dùng

thực thể có tên.

Ví dụ: (1) tài liệu bàn về cities; (2) tài liệu bàn về People’s Republic of China; (3) tài liệu bàn về Shenyang University, (4) tài liệu bàn về Shenyang Red River. Trường hợp

1, tài liệu đích không cần thiết chứa keyword “city” mà chỉ cần một số thực thể có tên có loại là City. Trường hợp 2, tài liệu đích có lẽ đề cập về People’s Republic of China nhưng

chứa 1 tên khác như “China; trái lại những tài liệu chứa những thực thể có tên là

China town thì không phải là tài liệu đích. Trường hợp 3, những tài liệu có keyword là

Shenyang nhưng không phải là tài liệu đích mà nó có ý nghĩa khác như Shenyang city

hoặc Shenyang hotel. Trong khi đó, trường hợp 4 tài liệu đích là một định danh chính xác

của thực thể có tên, đó là Red river in Shenyang, không phải ở HaNoi VietNam…

Thay đổi VSM truyền thống cho thực thể có tên (tên, loại, tên-loại, định danh)

Giả thiết 1: Cho 1 bộ 3 (N, T, I) với N, T I là tập tương ứng tên, loại, định danh

của thực thể có tên. Lúc đó:

1. Mỗi tài liệu (hoặc query) d được mô hình như là tập con của (N ∪{nil})× (T∪{nil})×(I∪{nil}), với nil kí hiệu 1 “tên” không xác định, “loại” không xác định,

“định danh” không xác định của thực thể có tên d

2. dđược đại diện bởi bộ 4 (dN, dT, dNT, dI), với dN, dT, dNT, và dI tương ứng là

những vector N, T, N×TI.

Mỗi vector 4 thành phần ở trên cho 1 tài liệu có thể được định nghĩa như là 1

vector trong mô hình truyền thống tf.idf chỉ với sự khác biệt trong ý nghĩa 1 term. Một

term lúc này chứa 1 tên, 1 loại, 1 cặp tên-loại, 1 định danh của thực thể có tên, thay vì keyword.

Cho 1 đối tượng vector là dk = (w1d, w2d,…, wmd) với Km tương ứng đến N,

T, N x T, hoặc I. Trọng số term được suy ra như sau:

Cho N là tổng số tài liệu trong hệ thống, ni là số tài liệu mà term ki xảy ra, và freqid

là tần số thô ki’s (số lần ki xảy ra trong d). Tần số chuẩn hóa của ki trong d được định

nghĩa như sau:

tfid = freqid / maxj {freqjd}

Với maximum được tính toán là tất cả term xảy ra trong d. Nếu ki không xảy ra (adsbygoogle = window.adsbygoogle || []).push({});

trong d, thì tfid = 0.

Phụ thuộc KN, T, N x T hoặc I, ki xảy ra trong d khi và chỉ khi:

1. K = N, ki là tên và d chứa 1 thực thể có tên mà tên hay kí danh của nó là kihoặc

2. K = T, ki là loại và d chứa 1 thực thể có tên mà loại là giống nhau hoặc là 1

3. K = N x T,ki=(n,t) d chứa 1 thực thể có tên mà tên hay kí danh của nó là n

loại của nó là giống nhau hoặclà 1 trường hợp loại con của t hoặc

4. K = I,kilà định danh và d chứa 1 thực thể có tên mà định danh của nó là ki.

Trong trường hợp dựa trên keyword, tần số nghịch đảo của tài liệu là kithì:

idfi= log(N/ ni)

Trong khi tfid là số lượng xuất hiện của ki trong tài liệu cụ thể d, idfi đo độ quan

trọng xuất hiện của ki trong mỗi tài liệu, nếu càng nhiều số lượng tài liệu mà ki xuất hiện

thì mức độ quan trọng của ki càng ít hơn. Vì thế trọng số của ki trong d được tính như sau:

Wid = tfid x idfi

Một phần của tài liệu giải pháp tổ chức lưu trữ và xử lý tài liệu văn bản tiếng việt có ngữ nghĩa (Trang 25 - 27)