Trong lĩnh vực khai phá dữ liệu, bài tốn phân loại văn bản đã được thực hiện dựa trên nhiều thuật tốn như Nạve Bayes, K-Nearest Neighbor, Support Vector Machine… Những phương pháp này đã cho kết quả chấp nhận được và được sử dụng nhiều trong thực tế. Luận văn này sẽ trình bày một thuật tốn khác đã được mơ tả chi tiết trong bài báo khoa học “Best Topic Word Selection for Topic Labelling”[8]. Thuật tốn này là phương pháp phân loại văn bản dựa theo đánh giá khách quan của người dùng, nhãn của mỗi văn bản sẽ được người dùng quyết định bằng việc đưa ra một số lượng N keyword và thuật tốn sẽ xác định đâu là nhãn của một văn bản. Xét với các phương pháp phân lớp khác, khả năng phân lớp của thuật tốn này là khá tốt và hiệu quả.
Mơ tả chi tiết thuật tốn:
- Giả định rằng văn bản cần phân loại là rõ nghĩa và do đĩ, các từ trong tập keyword truyền vào là rõ ràng, cĩ ý nghĩa.
- Dữ liệu đầu vào là N keyword, trong N keyword truyền vào (N = 10), chúng ta cĩ thể chọn được một keyword để làm nhãn cho văn bản.
- Ta sẽ so sánh mức độ quan trọng giữa các keyword được truyền vào (dựa theo cơng thức được mơ tả), từ đĩ tìm ra từ nào cĩ trọng số cao nhất để xác định làm nhãn.
Cơng thức sử dụng:
- Xác suất cĩ điều kiện của một từ wi so với từ wj được tính theo cơng thức (CP1):
𝑃(𝜔𝑖|𝜔𝑗) =𝑃(𝜔𝑃(𝜔𝑖,𝜔𝑗)
𝑗) (2.10) Trong đĩ P(wi, wj ) là xác suất số lần xuất hiện của wi , wj trong cùng văn bản
P (wi) là xác suất của từ wi trong tập văn bản Từ đĩ tính được trung bình xác suất của từ wi theo cơng thức như sau:
𝑎𝑣𝑔 − 𝐶𝑃1(𝜔𝑖) = 19 ∑ 𝑃(𝜔𝑗 𝑖|𝜔𝑗) (2.11) Một từ được chọn làm nhãn thì mức độ quan trọng của từ đĩ so với các từ khác cũng sẽ rất lớn. cĩ nghĩa là thuật tốn cũng cần tính tốn mức độ quan trọng của một từ dựa trên xác suất của từ khác.
Do vậy, trung bình xác suất cĩ điều kiện của một từ wi so với từ wj cũng được tính theo cơng thức (CP2):
𝑎𝑣𝑔 − 𝐶𝑃2(𝜔𝑖) = 1
9 ∑ 𝑃(𝜔𝑗 𝑗|𝜔𝑖) (2.12) Thuật tốn cịn một hướng tiếp cận khác là tính xác suất cĩ điều kiện của các cặp từ dựa theo cơng thức PMI:
𝑃𝑀𝐼(𝜔𝑖, 𝜔𝑗) = 𝑙𝑜𝑔 𝑃(𝜔𝑖,𝜔𝑗)
𝑃(𝜔𝑖)𝑃(𝜔𝑗) (2.13) Từ đĩ tính trung bình xác suất PMI cho từ wi được dựa theo cơng thức:
𝑎𝑣𝑔 − 𝑃𝑀𝐼(𝜔𝑖) = 19 ∑ 𝑃𝑀𝐼(𝜔𝑗 𝑖, 𝜔𝑗) (2.14)
Từ các cơng thức trên (CP1, CP2, PMI) để tính trung bình xác suất của N keyword truyền vào (N = 10) và chọn ra từ cĩ trung bình xác suất là lớn nhất làm nhãn của văn bản. Trong phần thực nghiệm, luận văn sẽ trình bày thuật tốn dựa theo cơng thức PMI.
Sau khi nhận được kết quả thực hiện thuật tốn dựa theo cơng thức PMI, luận văn sẽ dựa vào lý thuyết độ tương đồng văn bản để thực hiện phân loại văn bản.