1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân Loại Quan Điểm Người Dùng Chéo Miền

28 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Loại Quan Điểm Người Dùng Chéo Miền
Tác giả Nguyễn Thái Thủy Chung
Người hướng dẫn PGS. TS. Từ Minh Phương
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Khoa học máy tính
Thể loại luận văn thạc sĩ
Năm xuất bản 2015
Thành phố Hà Nội
Định dạng
Số trang 28
Dung lượng 5,8 MB

Nội dung

Luận văn nay đề xuất một phương pháp mới sử dụng phân cụm từ Wordcluster nhằm mục đích phân loại quan điểm chéo miền từ dữ liệu huấn luyện của một miền dữ liệu nguồn và dữ liệu thô unlab

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

a

Nguyễn Thái Thủy Chung

PHAN LOẠI QUAN DIEM NGƯỜI DUNG CHÉO MIEN

Chuyên ngành: KHOA HOC MAY TÍNH

Mã số: 60.48.01.01

TOM TAT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2015

Trang 2

Người hướng dẫn khoa học: PGS TS TỪ MINH PHƯƠNG

Phản biện 1: PGS TS Đỗ Trung Tuan

Phản biện 2: TS Phạm Văn Cường

Luận văn sẽ được bảo vệ trước Hội đông châm luận văn thạc sĩ

tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: 9 giờ 45 ngày 27 tháng 02 năm 2016

Có thê tìm hiéu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Hiện nay, nhiều ứng dụng và dịch vụ trực tuyến cho phép người dùng thểhiện những đánh giá, ý kiến của mình về những sản phẩm, dịch vụ mà người

dùng mua, sử dụng, trải nghiệm Ví dụ các trang thương mại điện tử cho phép

khách hàng đánh giá về các sản phẩm khách hàng đã mua, đánh giá về chất

lượng dịch vụ ban hang Các đánh giá của người dùng thường bay tỏ quan

điểm, đánh giá tong quan của người dùng về sản phẩm, dịch vụ Ví dụ khi đánhgiá về chiếc điện thoại “Iphone 6” được mua trên amazon.com, người dùngthường đưa những nhận xét về kiểu dang, tính năng, chất lượng, giá thành của

chiếc điện thoại Một số đánh giá còn đề cập đến chất lượng bán hàng, dịch vụ

hậu mãi của người bán.

Việc tự động phân loại quan điểm (Sentiment Classification) của người

đánh giá là “tích cực”, “trung tính”, hay “tiêu cực” có thể đưa ra những thông

tin tóm tắt ngắn gọn cho người dùng khi họ tham khảo sản phẩm, dịch vụ.Ngoài ra việc phân loại các đánh giá này cũng rất hữu ích cho các hệ tư vấn haycác hệ thống thông minh

Tuy nhiên quan điểm trong mỗi hoàn cảnh khác nhau lại được thể hiện

khác nhau Một đánh giá tốt với một sản phâm nhiều khi lại mang ý nghĩa đánhgiá xấu đối với một sản phẩm khác Ví dụ khi đánh giá “Âm thanh rất to” về

chiếc điện thoại Iphone 6 là một đánh giá tích cực về chất lượng loa của

smartphone, nhưng khi áp dụng đánh giá này cho máy giặt thì đánh giá này lại

mang một ý nghĩa tiêu cực khi nói về độ ồn khi hoạt động của máy và gần như

không mang nhiều ý nghĩa khi đánh giá về một cuốn sách

Dé giải quyết van dé này, người ta có thé sử dụng những tập dữ liệu huấn

luyện riêng biệt dé phuc vu viéc phan loai quan diém cho những miền dữ liệu

khác nhau Tuy nhiên việc này đòi hỏi chỉ phí rất lớn

Trang 4

Vì vậy, đã có nhiều nghiên cứu về các phương pháp nhằm mục đích phânloại quan điểm chéo miền (Cross-domain sentiment analysis) trên miền dữ liệumới (target domain - miền dữ liệu đích) từ dữ liệu huấn luyện có sẵn của miền

dữ liệu cũ (source domain - miền dữ liệu nguồn)

Luận văn nay đề xuất một phương pháp mới sử dụng phân cụm từ (Wordcluster) nhằm mục đích phân loại quan điểm chéo miền từ dữ liệu huấn luyện

của một miền dữ liệu nguồn và dữ liệu thô (unlabeled data) rất sẵn có của miền

dữ liệu đích, nhằm đưa ra một giải pháp hiệu quả, tích kiệm chi phí và cài đặt

đơn giản.

Trang 5

Chương 1: PHAN LOẠI QUAN DIEM

1.1 Giới thiệu bài toán phân loại quan điểm.

Phân loại quan điểm (sentiment classification) là sử dụng phương pháp

xử lý ngôn ngữ tự nhiên, thống kê hoặc các phương pháp hoc máy dé phân tích,

xác định, biêu diễn nội dung quan diém của một đoạn văn.

1.2 Các phương pháp giải quyết bài toán

1.2.1 Phương pháp hướng ngữ nghĩa

Phương pháp thô sơ đầu tiên được nói đến là đếm số từ mang ý nghĩa tích

cực (positive) và số từ mang ý nghĩa tiêu cực (negative) trong đoạn văn Đoạnvăn sẽ được cho là mang ý nghĩa tích cực nếu chứa nhiều từ mang ý nghĩa tích

cực hơn, và ngược lại Một đoạn văn là trung tính nếu nó có số từ mang ý nghĩa

tích cực băng với số từ mang ý nghĩa tiêu cực

1.2.2 Phương pháp sử dụng ham heuristic

Việc sử dụng bộ từ điển làm việc xác định các từ mang ý nghĩa tích cựchay tiêu cực trở nên cứng nhắc và sai số lớn Trước hết việc xác định quan điểm

của các từ đơn lẻ theo tri giác không phải lúc nào cũng chính xác Ngoài ra còn

có nhiều yếu tố ảnh hưởng đến ý nghĩa của một từ trong một đoạn văn Một từkhi đừng riêng lẻ có thể mang ý nghĩa tích cực nhưng khi đi cùng một từ khác

lại mang ý nghĩa tiêu cực Thậm chí cùng là một từ riêng lẻ nhưng ở những

miền dữ liệu (domain) khác nhau lại mang các quan điểm trái ngược nhau.Ngoài ra quan điểm nhiều khi được thé hiện trong cả đoạn văn chứ không phải

chỉ qua các từ đơn lẻ.

1.2.3 Phương pháp sử dụng Pointwise Mutual Information

Turney (2002) giới thiệu một phương pháp phân loại quan điểm sử dụngPointwise Mutual Information (PMI) Bước đầu tiên của phương pháp sử dụngnhãn Part-of-speech (POS) để xác định các cụm từ trong đánh giá muốn phân

Trang 6

loại mà bao gồm các tinh từ va trang từ Bước thứ hai là ước lượng hướng ngữ

nghĩa (Semantic Orientation) của mỗi cụm từ thu được Một cụm từ mang ngữ

nghĩa tích cực (nhãn +) khi nó có các kết hợp mang ý nghĩa tốt và mang ý nghĩatiêu cực (nhãn -) khi nó có các kết hợp mang nghĩa xấu Bước thứ ba là gán

nhãn cho đánh giá đang xét là tích cực (nhãn +) hay tiêu cực (nhãn -) dựa trên

hướng ngữ nghĩa trung bình của tất cả các cụm từ thu được trong đánh giá Nếugiá trị trung bình là âm, đánh giá được gán nhãn tiêu cực (-), và ngược lại, nếu

giá trị trung bình là dương, đánh giá được gán nhãn tích cực (+).

1.2.4 Phương pháp sử dụng học máy

Một phương pháp khác là sử dụng học máy (machine learning) để xác

định quan điểm được thê hiện trong đoạn văn Phương pháp này đòi hỏi phải có

dữ liệu huấn luyện (labeled data - dữ liệu đã gan nhãn), là các đánh giá đã được

gán nhãn phân loại trước Sử dụng các phương pháp học máy với các thuật toán

học máy như Support Vector Machine hoặc Naive Bayes để huấn luyện bộ lọc

với dé liệu huấn luyện cho trước Các bộ lọc này sau khi được huấn luyện cóthé được sử dung dé xác định quan điểm thể hiện trong một mẫu đánh giá mới

1.3 Giới thiệu bài toán phân loại quan điểm chéo miền.

Dễ nhận thấy răng việc phân loại quan điểm phụ thuộc rất nhiều vào miền

dữ liệu huấn luyện Một bộ phân loại khi được huấn luyện trên một miền dữ

liệu thường cho kết quả kém hơn khi kiểm tra trên một miền dữ liệu khác Sở dĩnhư vậy bởi với mỗi miền dữ liệu khác nhau người ta lại có các xu hướng thê

hiện quan điểm rất khác nhau, đặc trưng cho từng miền quan điểm Vì thế mỗimiền dữ liệu thường có các từ đặc trưng cho từng miền dữ liệu, va các từ nàythường khác nhau với mỗi miền dé liệu khác nhau Thứ hai là các từ có liên hệcao với một nhãn trong miền dữ liệu này có thé không có liên hệ cao với nhãn

đó trong miền dữ liệu khác Ví dụ trong miền dữ liệu “Sách”, người ta thường

AAI? 66

dùng các từ như “lôi cuôn”, “sinh động” đê bay tỏ quan điêm tích cực, va các từ

Trang 7

lệ chính xác thường bị giảm di rõ rệt.

Chính vì vậy các thuật toán phân loại quan điểm chéo miền (cross-domain

sentiment classification) nhằm mục đích huấn luyện bộ lọc phân loại quan điểm

trên một miền dữ liệu mà có thể áp dụng đề phân loại tốt trên miền dữ liệu khác

dành được rât nhiêu quan tâm.

1.4 Các phương pháp phân loại quan điểm chéo miền

1.4.1 Các phương pháp sử dụng dữ liệu huắn luyện trên miền đích

Một nghiên cứu của Yang, Si và Callan (2006) đề xuất một phương pháp

đơn giản dựa trên việc lựa chọn các đặc trưng Đầu tiên, sử dụng hoàn toàn dữ

liệu huấn luyện từ hai miền dữ liệu cho trước dé lựa chọn ra các đặc trưng được

xếp hạng cao trong cả hai miền dữ liệu Các đặc trưng này được coi như các đặc

trưng độc lập với miền dữ liệu Sau đó tiễn hành huấn luyện một bộ lọc sử dụngcác dac trưng này va dùng bộ lọc dé phan loai trén miền dữ liệu dich

Một phương pháp đơn giản khác được nghiên cứu bởi Tan (2007) Đầu

tiên dùng dữ liệu huấn luyện trong miền dữ liệu nguồn để huấn luyện một bộlọc phân loại quan điểm Sau đó sử dụng bộ lọc này dé phân loại (gan nhãn)một số mẫu có nhiều thông tin được lựa chọn trước trong miền dữ liệu đích

Dựa trên kết quả thu được, tiến hành huấn luyện một bộ lọc mới dé phân loại

trên toàn bộ miễn dữ liệu đích

1.4.2 Các phương pháp sử dụng dữ liệu chưa huấn luyện trên miền

dich

Blitzer (2007) sử dung phương pháp “học phù hop với cấu trúc”

(Structural Correspondence Learning — SCL) để thích ứng bộ lọc phân loại

Trang 8

quan điểm trên miền dữ liệu đích Trước tiên, SCL chon ra một tập m đặc trưng

mà xuất hiện thường xuyên trong cả hai miền dữ liệu nguồn và đích và có dựđoán tốt với nhãn phân loại trên dữ liệu nguồn Blitzer sử dụng thông tin tương

hỗ (mutual information — MI) dé tính mức độ dự đoán tốt của đặc trưng vớinhãn phân loại Đặc trưng nào có điểm MI với nhãn phân loại trên miền dữ liệunguồn cảng cao thì cảng có xu hướng dự đoán tốt với nhãn phân loại đó Các

đặc trưng này được gọi là các đặc trưng đỉnh (pivot-features) Sử dụng các đặc

trưng đỉnh dé làm cầu nối giúp giảm sự sai khác giữa các miền dữ liệu

Sinno Jialin Pan đề xuất phương pháp tương tự như SCL nhưng ở mức độ

cao hơn Thuật toán sử dụng dữ liệu huấn luyện từ miền dữ liệu nguồn và dữliệu chưa huấn luyện từ miền dữ liệu đích Sử dụng một điều chỉnh phổ đặctrưng (Spectral Feature Alignment — SFA) nhằm bắc cầu giữa các khác biệt

giữa miền đữ liệu nguồn và miền dữ liệu đích SFA sử dụng một vài từ “độc lập

với miền dữ liệu” (domain-independent words) gần giống các đặc trưng đỉnhcủa Blitzer, như là cầu nối để xây dựng một đồ thị song phương dé biểu diễnmối quan hệ giữa các từ “đặc trưng của mién dit liệu” (domain-specific words)với các từ “độc lập với miền dir liệu” Y tưởng chính là nếu hai từ độc lập với

miền dữ liệu có liên kết tới nhiều từ đặc trưng chung trong đồ thị, thì hai từ đóthường có xu hướng xuất hiện cùng nhau hơn Phương pháp này sẽ sử dụngthuật toán phân cụm phổ (spectral clustering), dựa trên lý thuyết phố đồ thi để

sắp xếp các từ đặc trưng miền và các từ độc lập miền vào chung một tập các

cụm đặc trưng (feature-cluster) Từ đó biểu diễn các mẫu huấn luyện trongmiền dữ liệu nguồn và các mẫu kiểm tra trong miền dữ liệu đích bằng một tập

các đặc trưng và cụm đặc trưng tương ứng Bằng cách này, các cụm đặc trưng

có thé được sử dung dé giảm độ chênh lệch giữa các từ đặc trưng trong hai

miên dir liệu nguôn và đích.

Trang 9

Chương 2: PHAN LOẠI QUAN DIEM CHÉO MIEN SỬ

DUNG CAC DAC TRUNG CUM TU

2.1 Phương pháp học bán giám sat

2.1.1 Giới thiệu học bán giám sát

Học bán giám sát nằm giữa học có giám sát (supervised learning) và họckhông giám sát (unsupervised learning) Trên thực tế, hầu hết các phương pháp

học bán giám sát là mở rộng của phương pháp học có giám sát hoặc học không

giám sát bằng cách bồ sung thêm thông tin từ phương pháp học còn lại

Học bán giám sát có một số loại chính:

- Phân loại bán giám sái.

- Phân cụm bắt buộc

2.1.2 Sự cần thiết của học bán giám sát

Học bán giám sát có giá tri lớn trong thực tiễn bởi sự khan hiếm của dữliệu huấn luyện trong nhiều miền dữ liệu khác nhau Việc gán nhãn cho mẫu dữliệu nhiều khi đòi hỏi công sức của con người, thiết bị đặc biệt, nhiều khí là chỉphí tốn kém và lâu dài

Học bán giám sát đã giải quyết được vấn đề này khi có thể kết hợp cả dữliệu huấn luyện và dữ liệu thô dé đạt được kết qua phân loại tốt hơn so với bộlọc phân loại sử dụng học có giám sát hoặc có thể đạt được hiệu quả tương

đương nhưng sử dụng ít dữ liệu huấn luyện hơn Việc này mang lại hiệu quảtong quát cao hơn, giảm chi phí và dé dàng triển khai

2.1.3 Nguyên tắc của học bán giám sát

Học bán giám sát sử dụng dữ liệu thô đê khoanh vùng các mẫu có cùng

nhãn phân loại, và các dữ liệu huân luyện đê xác định nhãn của khoang vùng

đó.

Trang 10

2.2 Phân cụm từ

Luận văn đề xuất một phương pháp sử dụng phân cụm từ để giảm sự saikhác giữa các từ biểu diễn quan điểm trong hai miền dữ liệu nguồn và đích Vềmặt ý tưởng, phân cụm từ sẽ nhóm các từ có ý nghĩa tương đồng vào trong một

cụm từ Ví dụ các từ “London”, “Paris”, “Tokyo”, “Hà Nội” có thé được nhóm

trong một cụm từ biểu diễn địa danh, các từ “tốt”, “hấp dẫn”, “sinh động” có

thé được nhóm trong một cụm từ khác

Nhờ các cụm từ được sinh ra từ tập một tập các tập dữ liệu đủ lớn, có thể

tạo thành các cầu nói dé kết nối các đặc trưng xuất hiện trong tập dữ liệu đích

ma không có trong tap dit liệu nguồn tới một đặc trưng trong tập dữ liệu nguồn

có ý nghĩa tương đồng đề tạo thành một đặc trưng mới, gọi là đặc trưng cụm từ

(cluster feature) Qua đó sinh ra một mẫu huấn luyện mới dé huấn luyện bộ lọcphân loại trên miền dữ liệu nguồn có khả năng phân loại tốt hơn trên miền dir

liệu đích.

2.2.1 Giới thiệu phân cụm từ

Một trong những mục tiêu của phân cụm từ là nhằm hạn chế phân mảnh

dữ liệu bằng cách cung cấp một cách biểu diễn các từ ít chiều hơn Trong hệ

thống ngôn ngữ tự nhiên, các từ thường chỉ là một thành phần của một tập các

từ tạo thành một câu mà không có thêm thông tin gì khác Không có những

thông tin dé biểu diễn sự tương tự của các từ với nhau Ví dụ với từ “mèo”, takhông có thêm thông tin gì để biết “mèo” và “chó” cùng là một loại động vật

Vì vậy phân cụm từ biểu diễn các từ băng một vec tơ nhị phân dé có thé tính

được sự tương tự giữa các từ thông qua độ tương tự của các vec tơ.

2.2.2 Thuật toán Brown

Trang 11

Thuật toán Brown phân cụm từ hội tụ từ dưới lên dé sinh ra một cây phâncấp các phân cụm từ, trong đó mỗi cụm từ sẽ chứa các từ có ngữ nghĩa tương tự

nhau.

Thuật toán Brown có độ phức tạp Ø(&”), do đó không thé phan cum cho

những miền dữ liệu có số lượng từ vung lớn

2.2.3 Tối ưu hóa thuật toán theo Percy Liang

Đầu tiên Liang đề xuất thay đổi công thức tính chất lượng cụm từ bằng

cách sử dụng MI giữa các phan cụm liên kê nhau.

Tối ưu bằng tiền tính toán

Sử dụng một bảng chứa các thay đôi về chất lượng của phân cụm trong

mỗi bước kết hợp Với mỗi cạnh (c,c') , ta có L(c,c') là một phần tử trong bảng

L chứa thay đôi của tổng trọng số nếu c vac’ được nhóm lại thành một nút

Tổng độ phức tap của thuật toán giảm còn O(k’)

Tối ưu bằng cách sử dụng kích thước cửa số cỗ định

Liang dé xuất bước tiếp theo dé tối ưu quá trình phân cụm là cố định kíchthước cửa số Với việc cô định kích thước cửa số w và chỉ chọn w từ phổ biếnnhất vào phân cụm thì việc tiền tính toán L(c,c`) chỉ phải thực hiện với độ phức

tạp O(w’) Sau đó k— w từ còn lại được được đưa vào phân cụm c,,,, Sau do cần

tính lại trong sô và giá tri của bảng L(c,c') bao gôm cả phân cụm c,,,, mới.

Trang 12

Quá trình tối ưu giảm độ phức tạp tính toán xuống còn Ó(kw” +7) trong

đó k là số lượng từ cần phân cụm và w là sỐ lượng khởi tạo các từ xuất hiệnthường xuyên nhất

2.3 Phân loại quan điểm chéo miền sử dụng đặc trưng cụm từ

Ví dụ sau sẽ làm rõ hơn phương pháp sử dụng cụm từ trong phân loại quan điêm chéo miên Gia sử răng ta có một bộ phân loại quan diém chạy trên miên dir liệu các đánh giá vê “Sách”, cân sử dụng bộ phân loại nay đê phân loại

`

^

các đánh giá về “DVD” Có nhiều đặc trưng đánh giá tích cực về sách cũngxuất hiện trong các đánh giá về DVD như: “hay”, “tuyệt vời”, “sinh động”.Nhưng cũng có nhiều đặc trưng có ý nghĩa trong các đánh giá về sách như “dễđọc” lại không có nhiều ý nghĩa khi đánh giá về DVD, trong khi các đặc trưng

như “đễ xem” thường không xuất hiện trong các đánh giá về sách

Sử dụng phân cụm từ ta có thể nhóm từ “xem” và “đọc” lại thành 1 cụm

dựa theo sự tương tự giữa hai từ được thể hiện qua vec tơ biểu diễn hai từ

“xem” và “đọc” Từ đó, từ một mẫu huấn luyện trong miền dữ liệu sách có từ

“dé đọc” và được gan nhãn “tích cực”, ta có thé xác định được mẫu kiểm thử

trong miền dữ liệu dvd có từ “dễ xem” là tích cực

Cụ thé, các mẫu huấn luyện sẽ được biểu diễn dưới dạng vec tơ các đặc

trưng, bao gồm các unigrams và bigrams Các đặc trưng này được lựa chọn là

các từ tập các đặc trưng có thông tin cao của miền dit liệu nguồn (high

information features hay good features) Cách lựa chọn các đặc trưng sẽ được

trình bày trong mục sau.

Từ các đặc trưng này có thể chọn ra các phân cụm từ tương ứng với các

đặc trưng gọi là các đặc trưng cụm từ có thông tin cao (high information cluster

hay good clusters) Các cụm từ đặc trưng được lựa chon bằng phép ánh xạ „—

từ các đặc trưng tới các cụm từ có chứa đặc trưng đó Nhiều đặc trưng có thé

cùng ánh xa tới một cum từ Các cụm từ đặc trưng sẽ được bô sung vào vec to

Trang 13

các đặc trưng của mẫu huấn luyện va dùng dé huấn luyện bộ loc phân loại quan

điểm trên miền dữ liệu nguồn

Từ bộ lọc phân loại được huấn luyện, ta có thé tiễn hành phân loại dữ liệutrên miền dữ liệu dich bằng cách biểu diễn mẫu kiêm thử dưới dang vec tơ các

từ đặc trưng và các cụm từ đặc trưng theo miền dữ liệu nguồn dé bộ lọc có thé

hiểu được

2.4 Lựa chọn các đặc trưng tốt

Một từ là đặc trưng tốt (hay đặc trưng có thông tin cao) của miền dữ liệu

nếu nó xuất hiện nhiều trong miền dit liệu đó và có nhiều ý nghĩa dé phân loại

Hiểu một cách đơn giản là khi xuất hiện đặc trưng F trong mẫu huấn luyện ta

thường thu được nhãn L tức là đặc trưng # là một đặc trưng tốt dé phân loại

nhãn L.

2.4.1 Lựa chọn đặc trưng tốt sử dụng tân số

Cách đầu tiên để lựa chọn các đặc trưng tốt là dựa theo tần số xuất hiện

của đặc trưng đó Nếu một từ xuất hiện nhiều trong các đánh giá tích cực mà lạixuất hiện ít trong các đánh giá tiêu cực thì từ đó có thê là một đặc trưng tốt củamiền dữ liệu để phân loại nhãn tích cực và ngược lại

2.4.2 Lựa chọn đặc trưng tốt sử dụng MI

Luận văn sử dụng thông tin phụ thuộc (mutual information — MI) có thể

tính toán được mức độ phụ thuộc lẫn nhau của một đặc trưng và một nhãn phânloại Ý nghĩa của nó nhằm xác định đặc trưng này có phải yếu tố quyết định

nhiều đến nhãn phân loại của mẫu huấn luyện hay không, hay nhãn phân loại

nảy có xu hướng xuất hiện cùng với đặc trưng nay hay không Các đặc trưng có

MI càng cao càng có ý nghĩa phân loại nhãn, gọi là các đặc trưng có thông tin

cao (high information features) Các đặc trưng cũng phải xuất hiện nhiều trong

Trang 14

miền dữ liệu, nên ta sử dụng công thức tinh MI’ có thêm tần số xuất hiện như

Sau:

MI(ƒ.L)= Dlog ED MD) =D PF Mos op

2.5 Huan luyện bộ loc sử dung hoc máy

Có nhiều thuật toán học máy có thể dùng dé huấn luyện bộ lọc phân loại

quan điểm Luận văn tìm hiểu về ba thuật toán cơ bản là: thuật toán phân loại

Naive Bayes, thuật toán phân loại maximum entropy và thuật toán phân loại sử

dụng Support Vector Machines (SVM).

Đề sử dụng với ba thuật toán này, luận văn biểu diễn các mẫu huấn luyệndưới dạng “túi đặc trưng” (bag-of-features) Với tập các đặc trưng tốt

F={ƒ.ƒ, ƒ„} và tập các cụm từ tốt C={c,,c,, ¢,} ta có thé biểu diễn mộtmẫu đ dưới dạng vec tơ các đặc trưng tốt và cụm từ tốt như sau:

d =(n,(d),n,(d), n,,(d),h,(d),h,(d), h,(d)) Trong đó n,(d) là số lần xuất hiệnđặc trưng f, trong mẫu d và h,(d) là số lần xuất hiện phân cụm từ c, trong mẫu

d.

2.5.1 Thuật toán Naive Bayes

Theo lý thuyết hoc Bayes, nhãn phân loại được xác định bằng cách tinh

xác suất điều kiện của nhãn khi quan sát thấy tập các đặc trưng (x,,x,, X,).Nhãn được chon, kí hiệu là C,,,, là nhãn có xác suất điều kiện cao nhất (MAP

là viết tắt của maximum a posterior)

PQ, x„ 1e;) = P(X Le,) PG, Lc,)

2.5.2 Thuật toán maximum entropy

2.5.3 Thuật toán SVM

Ngày đăng: 07/04/2024, 12:23

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w