Phân loại tweet sử dụng phân phối Naive Bayes

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 47 - 50)

Bộ phân lớp Naive Bayes thừa nhận một giả thuyết mạnh (strong assumption) là các đặc trưng (feature) là độc lập với nhau. Sau đó bộ phân lớp xác suất lựa chọn một vài dạng giả định cho phân phối của mối đặc trưng trong một lớp. Những mô hình xác suất phổ biến nhất là mô hình phân phối đa thức (multinomial distribution), mô hình độc lập nhị phân (binary independence model).

Xét bài toán phân lớp dữ liệu gán nhãn c ∈ {1,…C} cho một văn bản chưa xác định

d=(w1,…wN). Để chọn nhãn cho văn bản d thì bộ phân lớp Naive Bayes sẽ tính xác

suất để chọn ra lớp có xác suất cao nhất

𝐶𝑚𝑎𝑝 = 𝑎𝑟𝑔 𝑚𝑎𝑥

𝑐=𝐶 𝑃(𝑐|𝑑)

Nhưng biểu thức này thường khó tính trực tiếp nên áp dụng quy tắc Bayes vào ta sẽ có 𝐶𝑚𝑎𝑝 = 𝑎𝑟𝑔 𝑚𝑎𝑥 𝑐=𝐶 𝑃(𝑑|𝑐). 𝑃(𝑐) 𝑃(𝑑) 𝐶𝑚𝑎𝑝 = 𝑎𝑟𝑔 𝑚𝑎𝑥 𝑐=𝐶 𝑃(𝑑|𝑐). 𝑃(𝑐)

ở bước cuối chúng ta có thể loại bỏ p(d) là hằng số đối với tất cả các lớp nên không phụ thuộc vào c. Xác suất có thể được phân tích tiếp thành

𝐶𝑚𝑎𝑝 = 𝑎𝑟𝑔 𝑚𝑎𝑥

𝑐=𝐶 𝑃(𝑥1, 𝑥2… , 𝑥𝑛, |𝑐). 𝑃(𝑐)

Với xn là những đặc trưng đã được trích xuất của văn bản ở đây là các tập hợp các từ trong văn bản đã được biểu diễn dưới mô hình bag of word. Thuật toán này có một nhược điểm là nếu một đặc trưng của văn bản không tồn tại trong bất cứ một lớp nào thì giá trị P(c|d) sẽ bằng 0. Để xử lý vấn đề này, kỹ thuật Laplace smoothing được áp dụng

𝑃(𝑤𝑖|𝑐) =(∑ 𝑐𝑜𝑢𝑛𝑡(𝑤𝑖, 𝑐) + 1

𝑐𝑜𝑢𝑛𝑡(𝑤, 𝑐)

𝑤∈𝑉 ) + |𝑉|

Với w là một đặc trưng của lớp c và V là toàn bộ từ điển hoặc số tổng số đặc trưng riêng biệt của một lớp.

Chúng ta sẽ tiến hành phân loại tweet theo các nhóm khác nhau theo thuật toán như

sau:

2.3 Kết luận chương

Xuất phát từ nhu cầu thực tế, việc đưa ra các hệ thống trích xuất và phân loại sự kiện từ Twitter là cần thiết, trong đó trích xuất các thông tin về chính trị, công nghệ, thể thao là chủ đề được quan tâm nhiều. Trong luận văn này, em đã tìm hiểu và sử dụng kỹ thuật trường điều kiện ngẫu nhiên (Conditional Random Fields) để đánh dấu thành phần tin nhắn tweet. Từ đó tiếp dụng sử dụng phương pháp phân lớp sử dụng mô hình Naive Bayes để phân loại các sự kiện trích xuất được theo những chủ đề cụ thể được xác định trước.

Với một số đặc thù của mạng xã hội Twitter như lượng người dùng nhiều, thông tin liên tục được cập nhật nhưng gặp một số giới hạn về nội dung, không thể chứa nhiều thông tin như các bài báo hoặc văn bản, việc trích xuất và phân loại sự kiện này bước đầu là nền tảng của việc xây dựng hệ thống quản lý thông tin sự kiện từ Twitter hiệu quả giúp giảm thiểu tình trạng quá tải thông tin.

Nhằm mục đích thực nghiệm độ hiệu quả của thuật toán đã nghiên cứu em sẽ áp dụng thuật toán trên tập dữ liệu và đánh giá mức độ chính xác cũng như hiệu năng trong tập dữ liệu lớn như Twitter. Phương pháp và kết quả đánh giá sẽ được trình bày chi tiết trong chương 3, Thử nghiệm và đánh giá.

CHƯƠNG 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ

Sử dụng các thư viện có sẵn do Twitter cung cấp, thực hiện xây dựng bộ dữ liệu từ dữ liệu thực tế hiện có của Twitter cho một số lượng người dùng, sử dụng kỹ thuật trích xuất và phân loại sự kiện đã đề xuất ở chương 2 bảng tổng hợp về các thành phần của một sự kiện trong nội dung tin nhắn tweet và đánh giá kết quả phương pháp đã áp dụng.

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng hệ thống trích xuất và phân loại sự kiện từ twitter (Trang 47 - 50)

Tải bản đầy đủ (PDF)

(65 trang)