Luận văn nay đề xuất một phương pháp mới sử dụng phân cụm từ Wordcluster nhằm mục đích phân loại quan điểm chéo miền từ dữ liệu huấn luyện của một miền dữ liệu nguồn và dữ liệu thô unlab
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
a
Nguyễn Thái Thủy Chung
PHAN LOẠI QUAN DIEM NGƯỜI DUNG CHÉO MIEN
Chuyên ngành: KHOA HOC MAY TÍNH
Mã số: 60.48.01.01
TOM TAT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2015
Trang 2Người hướng dẫn khoa học: PGS TS TỪ MINH PHƯƠNG
Phản biện 1: PGS TS Đỗ Trung Tuan
Phản biện 2: TS Phạm Văn Cường
Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ
tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: 9 giờ 45 ngày 27 tháng 02 năm 2016
Có thê tìm hiéu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Hiện nay, nhiều ứng dụng và dịch vụ trực tuyến cho phép người dùng thểhiện những đánh giá, ý kiến của mình về những sản phẩm, dịch vụ mà người
dùng mua, sử dụng, trải nghiệm Ví dụ các trang thương mại điện tử cho phép
khách hàng đánh giá về các sản phẩm khách hàng đã mua, đánh giá về chất
lượng dịch vụ ban hang Các đánh giá của người dùng thường bay tỏ quan
điểm, đánh giá tong quan của người dùng về sản phẩm, dịch vụ Ví dụ khi đánhgiá về chiếc điện thoại “Iphone 6” được mua trên amazon.com, người dùngthường đưa những nhận xét về kiểu dang, tính năng, chất lượng, giá thành của
chiếc điện thoại Một số đánh giá còn đề cập đến chất lượng bán hàng, dịch vụ
hậu mãi của người bán.
Việc tự động phân loại quan điểm (Sentiment Classification) của người
đánh giá là “tích cực”, “trung tính”, hay “tiêu cực” có thể đưa ra những thông
tin tóm tắt ngắn gọn cho người dùng khi họ tham khảo sản phẩm, dịch vụ.Ngoài ra việc phân loại các đánh giá này cũng rất hữu ích cho các hệ tư vấn haycác hệ thống thông minh
Tuy nhiên quan điểm trong mỗi hoàn cảnh khác nhau lại được thể hiện
khác nhau Một đánh giá tốt với một sản phâm nhiều khi lại mang ý nghĩa đánhgiá xấu đối với một sản phẩm khác Ví dụ khi đánh giá “Âm thanh rất to” về
chiếc điện thoại Iphone 6 là một đánh giá tích cực về chất lượng loa của
smartphone, nhưng khi áp dụng đánh giá này cho máy giặt thì đánh giá này lại
mang một ý nghĩa tiêu cực khi nói về độ ồn khi hoạt động của máy và gần như
không mang nhiều ý nghĩa khi đánh giá về một cuốn sách
Dé giải quyết van dé này, người ta có thé sử dụng những tập dữ liệu huấn
luyện riêng biệt dé phuc vu viéc phan loai quan diém cho những miền dữ liệu
khác nhau Tuy nhiên việc này đòi hỏi chỉ phí rất lớn
Trang 4Vì vậy, đã có nhiều nghiên cứu về các phương pháp nhằm mục đích phânloại quan điểm chéo miền (Cross-domain sentiment analysis) trên miền dữ liệumới (target domain - miền dữ liệu đích) từ dữ liệu huấn luyện có sẵn của miền
dữ liệu cũ (source domain - miền dữ liệu nguồn)
Luận văn nay đề xuất một phương pháp mới sử dụng phân cụm từ (Wordcluster) nhằm mục đích phân loại quan điểm chéo miền từ dữ liệu huấn luyện
của một miền dữ liệu nguồn và dữ liệu thô (unlabeled data) rất sẵn có của miền
dữ liệu đích, nhằm đưa ra một giải pháp hiệu quả, tích kiệm chi phí và cài đặt
đơn giản.
Trang 5Chương 1: PHAN LOẠI QUAN DIEM
1.1 Giới thiệu bài toán phân loại quan điểm.
Phân loại quan điểm (sentiment classification) là sử dụng phương pháp
xử lý ngôn ngữ tự nhiên, thống kê hoặc các phương pháp hoc máy dé phân tích,
xác định, biêu diễn nội dung quan diém của một đoạn văn.
1.2 Các phương pháp giải quyết bài toán
1.2.1 Phương pháp hướng ngữ nghĩa
Phương pháp thô sơ đầu tiên được nói đến là đếm số từ mang ý nghĩa tích
cực (positive) và số từ mang ý nghĩa tiêu cực (negative) trong đoạn văn Đoạnvăn sẽ được cho là mang ý nghĩa tích cực nếu chứa nhiều từ mang ý nghĩa tích
cực hơn, và ngược lại Một đoạn văn là trung tính nếu nó có số từ mang ý nghĩa
tích cực băng với số từ mang ý nghĩa tiêu cực
1.2.2 Phương pháp sử dụng ham heuristic
Việc sử dụng bộ từ điển làm việc xác định các từ mang ý nghĩa tích cựchay tiêu cực trở nên cứng nhắc và sai số lớn Trước hết việc xác định quan điểm
của các từ đơn lẻ theo tri giác không phải lúc nào cũng chính xác Ngoài ra còn
có nhiều yếu tố ảnh hưởng đến ý nghĩa của một từ trong một đoạn văn Một từkhi đừng riêng lẻ có thể mang ý nghĩa tích cực nhưng khi đi cùng một từ khác
lại mang ý nghĩa tiêu cực Thậm chí cùng là một từ riêng lẻ nhưng ở những
miền dữ liệu (domain) khác nhau lại mang các quan điểm trái ngược nhau.Ngoài ra quan điểm nhiều khi được thé hiện trong cả đoạn văn chứ không phải
chỉ qua các từ đơn lẻ.
1.2.3 Phương pháp sử dụng Pointwise Mutual Information
Turney (2002) giới thiệu một phương pháp phân loại quan điểm sử dụngPointwise Mutual Information (PMI) Bước đầu tiên của phương pháp sử dụngnhãn Part-of-speech (POS) để xác định các cụm từ trong đánh giá muốn phân
Trang 6loại mà bao gồm các tinh từ va trang từ Bước thứ hai là ước lượng hướng ngữ
nghĩa (Semantic Orientation) của mỗi cụm từ thu được Một cụm từ mang ngữ
nghĩa tích cực (nhãn +) khi nó có các kết hợp mang ý nghĩa tốt và mang ý nghĩatiêu cực (nhãn -) khi nó có các kết hợp mang nghĩa xấu Bước thứ ba là gán
nhãn cho đánh giá đang xét là tích cực (nhãn +) hay tiêu cực (nhãn -) dựa trên
hướng ngữ nghĩa trung bình của tất cả các cụm từ thu được trong đánh giá Nếugiá trị trung bình là âm, đánh giá được gán nhãn tiêu cực (-), và ngược lại, nếu
giá trị trung bình là dương, đánh giá được gán nhãn tích cực (+).
1.2.4 Phương pháp sử dụng học máy
Một phương pháp khác là sử dụng học máy (machine learning) để xác
định quan điểm được thê hiện trong đoạn văn Phương pháp này đòi hỏi phải có
dữ liệu huấn luyện (labeled data - dữ liệu đã gan nhãn), là các đánh giá đã được
gán nhãn phân loại trước Sử dụng các phương pháp học máy với các thuật toán
học máy như Support Vector Machine hoặc Naive Bayes để huấn luyện bộ lọc
với dé liệu huấn luyện cho trước Các bộ lọc này sau khi được huấn luyện cóthé được sử dung dé xác định quan điểm thể hiện trong một mẫu đánh giá mới
1.3 Giới thiệu bài toán phân loại quan điểm chéo miền.
Dễ nhận thấy răng việc phân loại quan điểm phụ thuộc rất nhiều vào miền
dữ liệu huấn luyện Một bộ phân loại khi được huấn luyện trên một miền dữ
liệu thường cho kết quả kém hơn khi kiểm tra trên một miền dữ liệu khác Sở dĩnhư vậy bởi với mỗi miền dữ liệu khác nhau người ta lại có các xu hướng thê
hiện quan điểm rất khác nhau, đặc trưng cho từng miền quan điểm Vì thế mỗimiền dữ liệu thường có các từ đặc trưng cho từng miền dữ liệu, va các từ nàythường khác nhau với mỗi miền dé liệu khác nhau Thứ hai là các từ có liên hệcao với một nhãn trong miền dữ liệu này có thé không có liên hệ cao với nhãn
đó trong miền dữ liệu khác Ví dụ trong miền dữ liệu “Sách”, người ta thường
AAI? 66
dùng các từ như “lôi cuôn”, “sinh động” đê bay tỏ quan điêm tích cực, va các từ
Trang 7lệ chính xác thường bị giảm di rõ rệt.
Chính vì vậy các thuật toán phân loại quan điểm chéo miền (cross-domain
sentiment classification) nhằm mục đích huấn luyện bộ lọc phân loại quan điểm
trên một miền dữ liệu mà có thể áp dụng đề phân loại tốt trên miền dữ liệu khác
dành được rât nhiêu quan tâm.
1.4 Các phương pháp phân loại quan điểm chéo miền
1.4.1 Các phương pháp sử dụng dữ liệu huắn luyện trên miền đích
Một nghiên cứu của Yang, Si và Callan (2006) đề xuất một phương pháp
đơn giản dựa trên việc lựa chọn các đặc trưng Đầu tiên, sử dụng hoàn toàn dữ
liệu huấn luyện từ hai miền dữ liệu cho trước dé lựa chọn ra các đặc trưng được
xếp hạng cao trong cả hai miền dữ liệu Các đặc trưng này được coi như các đặc
trưng độc lập với miền dữ liệu Sau đó tiễn hành huấn luyện một bộ lọc sử dụngcác dac trưng này va dùng bộ lọc dé phan loai trén miền dữ liệu dich
Một phương pháp đơn giản khác được nghiên cứu bởi Tan (2007) Đầu
tiên dùng dữ liệu huấn luyện trong miền dữ liệu nguồn để huấn luyện một bộlọc phân loại quan điểm Sau đó sử dụng bộ lọc này dé phân loại (gan nhãn)một số mẫu có nhiều thông tin được lựa chọn trước trong miền dữ liệu đích
Dựa trên kết quả thu được, tiến hành huấn luyện một bộ lọc mới dé phân loại
trên toàn bộ miễn dữ liệu đích
1.4.2 Các phương pháp sử dụng dữ liệu chưa huấn luyện trên miền
dich
Blitzer (2007) sử dung phương pháp “học phù hop với cấu trúc”
(Structural Correspondence Learning — SCL) để thích ứng bộ lọc phân loại
Trang 8quan điểm trên miền dữ liệu đích Trước tiên, SCL chon ra một tập m đặc trưng
mà xuất hiện thường xuyên trong cả hai miền dữ liệu nguồn và đích và có dựđoán tốt với nhãn phân loại trên dữ liệu nguồn Blitzer sử dụng thông tin tương
hỗ (mutual information — MI) dé tính mức độ dự đoán tốt của đặc trưng vớinhãn phân loại Đặc trưng nào có điểm MI với nhãn phân loại trên miền dữ liệunguồn cảng cao thì cảng có xu hướng dự đoán tốt với nhãn phân loại đó Các
đặc trưng này được gọi là các đặc trưng đỉnh (pivot-features) Sử dụng các đặc
trưng đỉnh dé làm cầu nối giúp giảm sự sai khác giữa các miền dữ liệu
Sinno Jialin Pan đề xuất phương pháp tương tự như SCL nhưng ở mức độ
cao hơn Thuật toán sử dụng dữ liệu huấn luyện từ miền dữ liệu nguồn và dữliệu chưa huấn luyện từ miền dữ liệu đích Sử dụng một điều chỉnh phổ đặctrưng (Spectral Feature Alignment — SFA) nhằm bắc cầu giữa các khác biệt
giữa miền đữ liệu nguồn và miền dữ liệu đích SFA sử dụng một vài từ “độc lập
với miền dữ liệu” (domain-independent words) gần giống các đặc trưng đỉnhcủa Blitzer, như là cầu nối để xây dựng một đồ thị song phương dé biểu diễnmối quan hệ giữa các từ “đặc trưng của mién dit liệu” (domain-specific words)với các từ “độc lập với miền dir liệu” Y tưởng chính là nếu hai từ độc lập với
miền dữ liệu có liên kết tới nhiều từ đặc trưng chung trong đồ thị, thì hai từ đóthường có xu hướng xuất hiện cùng nhau hơn Phương pháp này sẽ sử dụngthuật toán phân cụm phổ (spectral clustering), dựa trên lý thuyết phố đồ thi để
sắp xếp các từ đặc trưng miền và các từ độc lập miền vào chung một tập các
cụm đặc trưng (feature-cluster) Từ đó biểu diễn các mẫu huấn luyện trongmiền dữ liệu nguồn và các mẫu kiểm tra trong miền dữ liệu đích bằng một tập
các đặc trưng và cụm đặc trưng tương ứng Bằng cách này, các cụm đặc trưng
có thé được sử dung dé giảm độ chênh lệch giữa các từ đặc trưng trong hai
miên dir liệu nguôn và đích.
Trang 9Chương 2: PHAN LOẠI QUAN DIEM CHÉO MIEN SỬ
DUNG CAC DAC TRUNG CUM TU
2.1 Phương pháp học bán giám sat
2.1.1 Giới thiệu học bán giám sát
Học bán giám sát nằm giữa học có giám sát (supervised learning) và họckhông giám sát (unsupervised learning) Trên thực tế, hầu hết các phương pháp
học bán giám sát là mở rộng của phương pháp học có giám sát hoặc học không
giám sát bằng cách bồ sung thêm thông tin từ phương pháp học còn lại
Học bán giám sát có một số loại chính:
- Phân loại bán giám sái.
- Phân cụm bắt buộc
2.1.2 Sự cần thiết của học bán giám sát
Học bán giám sát có giá tri lớn trong thực tiễn bởi sự khan hiếm của dữliệu huấn luyện trong nhiều miền dữ liệu khác nhau Việc gán nhãn cho mẫu dữliệu nhiều khi đòi hỏi công sức của con người, thiết bị đặc biệt, nhiều khí là chỉphí tốn kém và lâu dài
Học bán giám sát đã giải quyết được vấn đề này khi có thể kết hợp cả dữliệu huấn luyện và dữ liệu thô dé đạt được kết qua phân loại tốt hơn so với bộlọc phân loại sử dụng học có giám sát hoặc có thể đạt được hiệu quả tương
đương nhưng sử dụng ít dữ liệu huấn luyện hơn Việc này mang lại hiệu quảtong quát cao hơn, giảm chi phí và dé dàng triển khai
2.1.3 Nguyên tắc của học bán giám sát
Học bán giám sát sử dụng dữ liệu thô đê khoanh vùng các mẫu có cùng
nhãn phân loại, và các dữ liệu huân luyện đê xác định nhãn của khoang vùng
đó.
Trang 102.2 Phân cụm từ
Luận văn đề xuất một phương pháp sử dụng phân cụm từ để giảm sự saikhác giữa các từ biểu diễn quan điểm trong hai miền dữ liệu nguồn và đích Vềmặt ý tưởng, phân cụm từ sẽ nhóm các từ có ý nghĩa tương đồng vào trong một
cụm từ Ví dụ các từ “London”, “Paris”, “Tokyo”, “Hà Nội” có thé được nhóm
trong một cụm từ biểu diễn địa danh, các từ “tốt”, “hấp dẫn”, “sinh động” có
thé được nhóm trong một cụm từ khác
Nhờ các cụm từ được sinh ra từ tập một tập các tập dữ liệu đủ lớn, có thể
tạo thành các cầu nói dé kết nối các đặc trưng xuất hiện trong tập dữ liệu đích
ma không có trong tap dit liệu nguồn tới một đặc trưng trong tập dữ liệu nguồn
có ý nghĩa tương đồng đề tạo thành một đặc trưng mới, gọi là đặc trưng cụm từ
(cluster feature) Qua đó sinh ra một mẫu huấn luyện mới dé huấn luyện bộ lọcphân loại trên miền dữ liệu nguồn có khả năng phân loại tốt hơn trên miền dir
liệu đích.
2.2.1 Giới thiệu phân cụm từ
Một trong những mục tiêu của phân cụm từ là nhằm hạn chế phân mảnh
dữ liệu bằng cách cung cấp một cách biểu diễn các từ ít chiều hơn Trong hệ
thống ngôn ngữ tự nhiên, các từ thường chỉ là một thành phần của một tập các
từ tạo thành một câu mà không có thêm thông tin gì khác Không có những
thông tin dé biểu diễn sự tương tự của các từ với nhau Ví dụ với từ “mèo”, takhông có thêm thông tin gì để biết “mèo” và “chó” cùng là một loại động vật
Vì vậy phân cụm từ biểu diễn các từ băng một vec tơ nhị phân dé có thé tính
được sự tương tự giữa các từ thông qua độ tương tự của các vec tơ.
2.2.2 Thuật toán Brown
Trang 11Thuật toán Brown phân cụm từ hội tụ từ dưới lên dé sinh ra một cây phâncấp các phân cụm từ, trong đó mỗi cụm từ sẽ chứa các từ có ngữ nghĩa tương tự
nhau.
Thuật toán Brown có độ phức tạp Ø(&”), do đó không thé phan cum cho
những miền dữ liệu có số lượng từ vung lớn
2.2.3 Tối ưu hóa thuật toán theo Percy Liang
Đầu tiên Liang đề xuất thay đổi công thức tính chất lượng cụm từ bằng
cách sử dụng MI giữa các phan cụm liên kê nhau.
Tối ưu bằng tiền tính toán
Sử dụng một bảng chứa các thay đôi về chất lượng của phân cụm trong
mỗi bước kết hợp Với mỗi cạnh (c,c') , ta có L(c,c') là một phần tử trong bảng
L chứa thay đôi của tổng trọng số nếu c vac’ được nhóm lại thành một nút
Tổng độ phức tap của thuật toán giảm còn O(k’)
Tối ưu bằng cách sử dụng kích thước cửa số cỗ định
Liang dé xuất bước tiếp theo dé tối ưu quá trình phân cụm là cố định kíchthước cửa số Với việc cô định kích thước cửa số w và chỉ chọn w từ phổ biếnnhất vào phân cụm thì việc tiền tính toán L(c,c`) chỉ phải thực hiện với độ phức
tạp O(w’) Sau đó k— w từ còn lại được được đưa vào phân cụm c,,,, Sau do cần
tính lại trong sô và giá tri của bảng L(c,c') bao gôm cả phân cụm c,,,, mới.
Trang 12Quá trình tối ưu giảm độ phức tạp tính toán xuống còn Ó(kw” +7) trong
đó k là số lượng từ cần phân cụm và w là sỐ lượng khởi tạo các từ xuất hiệnthường xuyên nhất
2.3 Phân loại quan điểm chéo miền sử dụng đặc trưng cụm từ
Ví dụ sau sẽ làm rõ hơn phương pháp sử dụng cụm từ trong phân loại quan điêm chéo miên Gia sử răng ta có một bộ phân loại quan diém chạy trên miên dir liệu các đánh giá vê “Sách”, cân sử dụng bộ phân loại nay đê phân loại
`
^
các đánh giá về “DVD” Có nhiều đặc trưng đánh giá tích cực về sách cũngxuất hiện trong các đánh giá về DVD như: “hay”, “tuyệt vời”, “sinh động”.Nhưng cũng có nhiều đặc trưng có ý nghĩa trong các đánh giá về sách như “dễđọc” lại không có nhiều ý nghĩa khi đánh giá về DVD, trong khi các đặc trưng
như “đễ xem” thường không xuất hiện trong các đánh giá về sách
Sử dụng phân cụm từ ta có thể nhóm từ “xem” và “đọc” lại thành 1 cụm
dựa theo sự tương tự giữa hai từ được thể hiện qua vec tơ biểu diễn hai từ
“xem” và “đọc” Từ đó, từ một mẫu huấn luyện trong miền dữ liệu sách có từ
“dé đọc” và được gan nhãn “tích cực”, ta có thé xác định được mẫu kiểm thử
trong miền dữ liệu dvd có từ “dễ xem” là tích cực
Cụ thé, các mẫu huấn luyện sẽ được biểu diễn dưới dạng vec tơ các đặc
trưng, bao gồm các unigrams và bigrams Các đặc trưng này được lựa chọn là
các từ tập các đặc trưng có thông tin cao của miền dit liệu nguồn (high
information features hay good features) Cách lựa chọn các đặc trưng sẽ được
trình bày trong mục sau.
Từ các đặc trưng này có thể chọn ra các phân cụm từ tương ứng với các
đặc trưng gọi là các đặc trưng cụm từ có thông tin cao (high information cluster
hay good clusters) Các cụm từ đặc trưng được lựa chon bằng phép ánh xạ „—
từ các đặc trưng tới các cụm từ có chứa đặc trưng đó Nhiều đặc trưng có thé
cùng ánh xa tới một cum từ Các cụm từ đặc trưng sẽ được bô sung vào vec to
Trang 13các đặc trưng của mẫu huấn luyện va dùng dé huấn luyện bộ loc phân loại quan
điểm trên miền dữ liệu nguồn
Từ bộ lọc phân loại được huấn luyện, ta có thé tiễn hành phân loại dữ liệutrên miền dữ liệu dich bằng cách biểu diễn mẫu kiêm thử dưới dang vec tơ các
từ đặc trưng và các cụm từ đặc trưng theo miền dữ liệu nguồn dé bộ lọc có thé
hiểu được
2.4 Lựa chọn các đặc trưng tốt
Một từ là đặc trưng tốt (hay đặc trưng có thông tin cao) của miền dữ liệu
nếu nó xuất hiện nhiều trong miền dit liệu đó và có nhiều ý nghĩa dé phân loại
Hiểu một cách đơn giản là khi xuất hiện đặc trưng F trong mẫu huấn luyện ta
thường thu được nhãn L tức là đặc trưng # là một đặc trưng tốt dé phân loại
nhãn L.
2.4.1 Lựa chọn đặc trưng tốt sử dụng tân số
Cách đầu tiên để lựa chọn các đặc trưng tốt là dựa theo tần số xuất hiện
của đặc trưng đó Nếu một từ xuất hiện nhiều trong các đánh giá tích cực mà lạixuất hiện ít trong các đánh giá tiêu cực thì từ đó có thê là một đặc trưng tốt củamiền dữ liệu để phân loại nhãn tích cực và ngược lại
2.4.2 Lựa chọn đặc trưng tốt sử dụng MI
Luận văn sử dụng thông tin phụ thuộc (mutual information — MI) có thể
tính toán được mức độ phụ thuộc lẫn nhau của một đặc trưng và một nhãn phânloại Ý nghĩa của nó nhằm xác định đặc trưng này có phải yếu tố quyết định
nhiều đến nhãn phân loại của mẫu huấn luyện hay không, hay nhãn phân loại
nảy có xu hướng xuất hiện cùng với đặc trưng nay hay không Các đặc trưng có
MI càng cao càng có ý nghĩa phân loại nhãn, gọi là các đặc trưng có thông tin
cao (high information features) Các đặc trưng cũng phải xuất hiện nhiều trong
Trang 14miền dữ liệu, nên ta sử dụng công thức tinh MI’ có thêm tần số xuất hiện như
Sau:
MI(ƒ.L)= Dlog ED MD) =D PF Mos op
2.5 Huan luyện bộ loc sử dung hoc máy
Có nhiều thuật toán học máy có thể dùng dé huấn luyện bộ lọc phân loại
quan điểm Luận văn tìm hiểu về ba thuật toán cơ bản là: thuật toán phân loại
Naive Bayes, thuật toán phân loại maximum entropy và thuật toán phân loại sử
dụng Support Vector Machines (SVM).
Đề sử dụng với ba thuật toán này, luận văn biểu diễn các mẫu huấn luyệndưới dạng “túi đặc trưng” (bag-of-features) Với tập các đặc trưng tốt
F={ƒ.ƒ, ƒ„} và tập các cụm từ tốt C={c,,c,, ¢,} ta có thé biểu diễn mộtmẫu đ dưới dạng vec tơ các đặc trưng tốt và cụm từ tốt như sau:
d =(n,(d),n,(d), n,,(d),h,(d),h,(d), h,(d)) Trong đó n,(d) là số lần xuất hiệnđặc trưng f, trong mẫu d và h,(d) là số lần xuất hiện phân cụm từ c, trong mẫu
d.
2.5.1 Thuật toán Naive Bayes
Theo lý thuyết hoc Bayes, nhãn phân loại được xác định bằng cách tinh
xác suất điều kiện của nhãn khi quan sát thấy tập các đặc trưng (x,,x,, X,).Nhãn được chon, kí hiệu là C,,,, là nhãn có xác suất điều kiện cao nhất (MAP
là viết tắt của maximum a posterior)
PQ, x„ 1e;) = P(X Le,) PG, Lc,)
2.5.2 Thuật toán maximum entropy
2.5.3 Thuật toán SVM