Là bước cần thiết trong xử lý văn bản. Mục đích của biểu diễn văn bản là gắn kết các từ, các chủ đề liên quan để phân biệt được từ ở các lĩnh vực khác nhau. Ngồi ra, dự đốn được độ liên quan của từ với yêu cầu người dùng, với lĩnh vực và chuyên ngành cụ thể.
Các nghiên cứu về biểu diễn văn bản:
Bảng 2.1 Các nghiên cứu về biểu diễn văn bản [6]
Researcg paper ref- erence Document Represen- tation Feature Se- lection Learning al- gorithm
Apté et al bag -of-words (freq)
stop list + fre-
quency Decision Rules
Armstrong et al bag -of-words informativity
TFIDF Winnow, WordStat
Balabanovie et al bag -of- worlds (freq)
stop list + stemming + keep 10 best
words TFIDF
Bartell et al bag -of- worlds (freq)
latent seman- tic indexing using SVD
Berry et al.
Foltz and Dumais bag -of- worlds (freq)
latent seman- tic indexing
Cohen bag - of - words
infrequent words pruned
Decision Rules ILP
Joachims bag - of - words (freq) infrequent words ++ in- formativity TFIDF, PrT- FIDF, Nạve Bayes
Lam et al bag - of - words (freq) mutual infor
Bayesian Net- work
Lewis et al bag - of - words
log likelihood ratio
logistic regres- sion with Nạve Bayes Maes bag - of - words + header info mail/news header + se- lecting key- words Memory - Based reason- ing
Pazzani et al bag - of - words
stop list + in- formativity TFIDF, Nạve Bayes, Nearest Neighbor, Neu- ral Network, Decision Trees
Sorensen and MC El- ligott
n - gram graph (only bigrams) weighting grap edges connectionist combined with genetic Algo- rithms
Yang bag - of - words stop list
adapted k- Nearest Neigh- bor