Chi tiết về các bước trong mỗi pha cũng như chi tiết về giải pháp đề xuất được trình bày ở mục dưới đây.
3.3. Pha 1: Huấn luyện mô hình
3.3.1. Tiền xử lý và xây dựng vector đặc trưng
Trong mô hình này, luận văn coi mỗi nhận xét của người dùng là một tài liệu. Giả sử tập tài liệu là D = {d1, d2, …., dm}. Luận văn sử dụng các đặc trưng TF.IDF trong quá trình phân lớp dữ liệu đa nhãn đa thể hiện :
TF.IDF là một kỹ thuật thống kê đánh giá ý nghĩa, độ quan trọng của một cụm đối với một văn bản, hoặc môt lớp.
Term Frequency (TF) là độ đo tần số : tần suất xuất hiện của cụm từ trong một văn bản:
∑
Tập kết quả Dữ liệu kiểm tra Dữ lệu học Tiền xử lý và xây dựng vector đặc trưng Phân cụm thể hiện Áp dụng 5 bộ phân lớp nhị phân SVM Mô hình phân lớp
Inverse Document Frequency (IDF) là độ đo tổng quát độ quan trọng của cụm từ :
* ∈ +
Trong đó :
|D| là số lượng tài liệu trong tập D
* ∈ + là số lượng tài liệu mà từ khóa ti xuất hiện
Từ đó TF.IDF được tính bằng công thức :
Trọng số TF.IDF của một từ mục biểu diễn độ quan trọng của từ mục. TF.IDF của một từ mục trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các văn bản. Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá ít quan trọng hơn so với các từ xuất hiện cân bằng.
Khi đó, luận văn thu được vector trọng số TF.IDF từ tập các từ khóa trong dữ liệu học là :
D(d) = (tfidf(d,1), tfidf(d,2), …., tfidf(d,n)) Với n là số lượng các từ khóa riêng biệt
3.3.2. Chuyển đổi từ MIML thành SIML
Để chuyển đổi từ bài toán phân lớp dữ liệu đa nhãn đa thể hiện thành bài toán phân lớp đa nhãn đơn thể hiện, luận văn áp dụng quá trình phân lớp cấu trúc của Zin- Hua Zhou và cộng sự [2]. Luận văn tiến hành phân cụm các đặc trưng thu được từ bước 3.3.1. Qua quá trình thực nghiệm, luận văn sử dụng số cụm 60 cho tập dữ liệu huấn luyện. Khi đó với mỗi vector đặc trưng T = {f1, f2, …, fn} (n là số đặc trưng) sau quá trình phân cụm 60 cụm thì sẽ thu được vector T = {d1, d2, …, d60} trong đó d1, d2, …, d60 lần lượt là khoảng cách từ vector T đến vector đại diện của cụm 1, cụm 2,…, cụm 60. Tập vector đặc trưng sau quá trình phân lớp cấu trúc sẽ là tập đầu vào cho quá trình học ở 3.3.3.
3.3.3. Chuyển đổi từ SIML thành SISL
Sau quá trình chuyển đổi từ MIML thành SIML, luận văn tiếp tục áp dụng phương pháp chuyển đổi nhị phân cho tập dữ liệu đa nhãn trên. Phương pháp nhị phân là phương pháp xây dựng |L| bộ phân lớp nhị phân: * + cho L nhãn khác
khác được gán nhãn – . Phương pháp này là phương pháp hiểu quả nhất để sử dụng bộ phân lớp nhị phân vào phân lớp đa nhãn. Hình 6, biểu diễn bốn tập dữ liệu kết quả thu được khi sử dụng phương pháp chuyển đổi nhị phân. Theo [11], nhiều công trình nghiên cứu của Boutell (2004) , Goncalves và Quaresma (2003) , Lauser và Hotho (2003) , Li và Ogihara (2003) đã chứng tỏ rằng phương pháp này có tính hiệu quả.