Biểu diễn văn bản

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng thuật toán multinomial bayes vào phân loại văn bản (Trang 27 - 28)

Là bước cần thiết trong xử lý văn bản. Mục đích của biểu diễn văn bản là gắn kết các từ, các chủ đề liên quan để phân biệt được từ ở các lĩnh vực khác nhau. Ngồi ra, dự đốn được độ liên quan của từ với yêu cầu người dùng, với lĩnh vực và chuyên ngành cụ thể.

Các nghiên cứu về biểu diễn văn bản:

Bảng 2.1 Các nghiên cứu về biểu diễn văn bản [6]

Researcg paper ref- erence Document Represen- tation Feature Se- lection Learning al- gorithm

Apté et al bag -of-words (freq)

stop list + fre-

quency Decision Rules

Armstrong et al bag -of-words informativity

TFIDF Winnow, WordStat

Balabanovie et al bag -of- worlds (freq)

stop list + stemming + keep 10 best

words TFIDF

Bartell et al bag -of- worlds (freq)

latent seman- tic indexing using SVD

Berry et al.

Foltz and Dumais bag -of- worlds (freq)

latent seman- tic indexing

using SVD TFIDF

Cohen bag - of - words

infrequent words pruned

Decision Rules ILP

Joachims bag - of - words (freq) infrequent words ++ in- formativity TFIDF, PrT- FIDF, Nạve Bayes

Lam et al bag - of - words (freq) mutual infor

Bayesian Net- work

Lewis et al bag - of - words

log likelihood ratio

logistic regres- sion with Nạve Bayes Maes bag - of - words + header info mail/news header + se- lecting key- words Memory - Based reason- ing

Pazzani et al bag - of - words

stop list + in- formativity TFIDF, Nạve Bayes, Nearest Neighbor, Neu- ral Network, Decision Trees

Sorensen and MC El- ligott

n - gram graph (only bigrams) weighting grap edges connectionist combined with genetic Algo- rithms

Yang bag - of - words stop list

adapted k- Nearest Neigh- bor

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng thuật toán multinomial bayes vào phân loại văn bản (Trang 27 - 28)

Tải bản đầy đủ (PDF)

(57 trang)