Tiền xử lý và xây dựng vector đặc trưng

Trong mô hình này, luận văn coi mỗi nhận xét của người dùng là một tài liệu. Giả sử tập tài liệu là D = {d1, d2, …., dm}. Luận văn sử dụng các đặc trưng TF.IDF trong quá trình phân lớp dữ liệu đa nhãn đa thể hiện :

TF.IDF là một kỹ thuật thống kê đánh giá ý nghĩa, độ quan trọng của một cụm đối với một văn bản, hoặc môt lớp.

Term Frequency (TF) là độ đo tần số : tần suất xuất hiện của cụm từ trong một văn bản:

𝑡𝑓𝑖,𝑗 = 𝑛𝑖,𝑗 𝑛𝑘 𝑘,𝑗

Trong đó : 𝑛𝑖,𝑗 là tần suất xuất hiện của từ khóa ti trong tài liệu j.

Tập kết quả Dữ liệu kiểm tra Dữ lệu học Tiền xử lý và xây dựng vector đặc trưng Phân cụm thể hiện Áp dụng 5 bộ phân lớp nhị phân SVM Mô hình phân lớp

Inverse Document Frequency (IDF) là độ đo tổng quát độ quan trọng của cụm từ :

𝑖𝑑𝑓𝑖 = 𝑙𝑜𝑔 |𝐷| |{𝑑: 𝑡𝑖 ∈ 𝑑}| Trong đó :

 |D| là số lượng tài liệu trong tập D

 | 𝑑: 𝑡𝑖 ∈ 𝑑 | là số lượng tài liệu mà từ khóa ti xuất hiện Từ đó TF.IDF được tính bằng công thức :

𝑡𝑓. 𝑖𝑑𝑓 = 𝑡𝑓 × 𝑖𝑑𝑓

Trọng số TF.IDF của một từ mục biểu diễn độ quan trọng của từ mục. TF.IDF của một từ mục trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các văn bản. Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá ít quan trọng hơn so với các từ xuất hiện cân bằng.

Khi đó, luận văn thu được vector trọng số TF.IDF từ tập các từ khóa trong dữ liệu học là :

D(d) = (tfidf(d,1), tfidf(d,2), …., tfidf(d,n)) Với n là số lượng các từ khóa riêng biệt

Tiền xử lý và xây dựng vector đặc trưng

Chuyển đổi từ SIML thành SISL