Xây dựng vector đặc trưng

Trong mô hình này, khóa luận coi mỗi nhận xét của người dùng là một tài liệụ Giả sử tập tài liệu là D = {d1, d2, …., dm}. Khóa luận sử dụng các đặc trưng TF.IDF trong quá trình phân lớp dữ liệu đa nhãn :

TF.IDF là một kỹ thuật thống kê đánh giá ý nghĩa, độ quan trọng của một cụm

đối với một văn bản, hoặc môt lớp.

•Term Frequency (TF) là độđo tần số : tần suất xuất hiện của cụm từ trong một văn bản:

1c4, = Z4, ∑ Z[ [,

Trong đó : Z4, là tần suất xuất hiện của từ khóa ti trong tài liệu j.

•Inverse Document Frequency (IDF) là độđo tổng quát độ quan trọng của cụm từ :

PSc4 = |O|

|{S: 14 ∈ S}| Trong đó :

|D| là số lượng tài liệu trong tập D

|{S: 14 ∈ S}| là số lượng tài liệu mà từ khóa ti xuất hiện Từđó TF.IDF được tính bằng công thức :

1c. PSc = 1c × PSc

Trọng số TF.IDF của một từ mục biểu diễn độ quan trọng của từ mục. TF.IDF của một từ mục trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các văn bản. Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá ít quan trọng hơn so với các từ xuất hiện cân bằng.

Khi đó, khóa luận thu được vector trọng số TF.IDF từ tập các từ khóa trong dữ

D(d) = (tfidf(d,1), tfidf(d,2), …., tfidf(d,n)) Với n là số lượng các từ khóa riêng biệt Vector đặc trưng cho chủđềNn đối với mỗi dữ liệu là :

T(d) = (pd1, pd2, …, pdk)

Kết hợp hai vector D(d) và T(d) ở trên, khóa luận thu được vector đại diện cho dữ liệu V(d) :

V(d) = (tfidf(t1,d), tfidf(t2,d), …., tfidf(tm,d), pd1, pd2, …., pdk)

Mô hình sinh trong LDA

Ước lượng tham số và suy luận