Pha 2: Khai phá quan điểm cộng đồng trên mạng xã hội

Một phần của tài liệu Phát hiện cộng đồng sử dụng thuật toán GONGA và khai phá quan điểm cộng đồng trên mạng xã hội (Trang 41 - 44)

1. Từ dữ liệu người dùng đã có trong mạng xã hội được xây dựng ở Pha 1, ta tiến hành thu thập những tweet về các sự kiện được nhắc đến tại @linkhay.

2. Tiền xử lý dữ liệu: Để lọc nhiễu cho dữ liệu huấn luyện, chúng ta phải loại bỏ đi những thông tin dưới dạng hình ảnh, âm thanh, thông tin không nằm trong nội dung của trang web, các thẻ html,… Sau khi làm sạch, dữ liệu sẽ được đưa qua module tách câu. Mỗi câu được biểu diễn trên một dòng. Module tách câu sẽ lọc dữ liệu, loại bỏ những câu cảm thán, những câu không có nghĩa.

3. Tập dữ liệu sau khi được tách câu và loại bỏ các câu không có giá trị, mỗi câu thu được sẽ được biểu diễn dưới dạng câu đặc trưng đầu vào cho bộ phân lớp. Lựa chọn đặc trưng là quá trình chọn ra những từ mang nhiều thông tin nhất trong tập từ vựng thu được từ tập dữ liệu. Tức là tìm ra và chỉ giữ lại những từ khóa có giá trị về thông tin. Khóa luận sử dụng phương pháp lựa chọn từ khóa theo tần suất văn bản (Document Frequency) và đo độ thông tin qua lại (Mutual Infomation)

a. Tần suất văn bản: là số tài liệu mà một từ khóa xuất hiện. Để lựa chọn từ khóa theo phương pháp tần suất văn bản thì cần phải tính tần suất văn bản với mỗi từ khóa trong tập tài liệu học và sau đó loại bỏ những từ khóa có tần suất nhỏ hơn ngưỡng.

b. Độđo thông tin qua lại: là phương pháp được sử dụng để lựa chọn tập đặc trưng dựa vào mô hình thống kê. Với mỗi cặp từ khóa t và lớp c, độ đo thông tin qua lại được tính theo công thức:

9(, ) = log Pr ( ? ) Pr () × Pr () Và được ước lượng:

9(, ) ≈ log(B + 5) × (B + E)B × C Trong đó :

i. A là số lần từ khóa t và lớp c đồng thời xuất hiện ii. B là số lần từ khóa t xuất hiện mà không thuộc c iii. C là số lần c xuất hiện mà không chứa t.

I(t,c) nhận giá trị 0 nếu từ khóa và lớp c độc lập với nhau. Giá trị I(t,c) càng cao càng thể hiện độ quan trọng của đặc trưng t với lớp c.

Qua bước 3, kết quả thu được vector đặc trưng là tập các từ xuất hiện phổ biến (từ khóa) của văn bản T = {T1, T2, …., Tn}

4. Chọn ra tập dữ liệu học, qua bộ phân lớp nhị phân, từ đó cho ra mô hình huấn luyện. Tại bộ phân lớp nhị phân, vector đặc trưng của tập dữ liệu học sẽ được sử dụng để tính toán cho ra mô hình huấn luyện. Trong đó, mỗi đặc trưng trong vector sẽ được xem xét và phân lớp thuộc positive (đồng tình) hay negative (không đồng tình). Để giải quyết vấn đề này, tôi sử dụng đọ đo TFIDF [15] để tính toán giá trị tượng trưng Wi cho giá trị lớp phù hợp của từng đặc trưng Ti :

Wi = TF(Ti,d) * IDF(ti) Trong đó:

TF(t,d) là số lần xuất hiện của đặc trưng t trong văn bản d

Và nghịch đảo tần suất xuất hiện của văn bản IDF(t) được tính như sau: IDF(t) = log 0F|| 1

Với DF(t) là số lượng văn bản mà đặc trưng t có xuất hiện ít nhất 1 lần. |6| là tổng số lượng văn bản được xem xét.

5. Tập dữ liệu kiểm tra, cho qua mô hình huấn luyện, ta được kết quả của đánh giá cộng đồng trên mạng xã hội. Dựa vào mô hình huấn luyện được hình thành tại bước 4, ta tính toán và phân lớp cho từng câu trong tập dữ liệu kiểm tra (với đầu vào là các vector đặc trưng), sau đó tổng hợp đánh giá của từng cộng đồng. Đánh giá kết quả phương pháp phân lớp văn bản có thểđược tính toán theo nhiều cách khác nhau. Khóa luận này tôi sử dụng hai độđo khá phổ biến: độ hồi tưởng và độ chính xác Bảng 1: Bảng ký hiệu Dữ liệu thực Positive Negative Dựđoán Positive TP TN Negative FP FN

Trong đó :

o TP (true positives): số lượng ví dụ positive được thuật toán phân đúng vào lớp positive

o TN (true negatives): số lượng ví dụ negative được thuộc toán phân đúng vào lớp negative.

o FP (false positives): số lượng ví dụ positive được thuật toán phân sai vào negative.

o FN (false negatives): số lượng ví dụ negative được thuật toán phân sai vào positive.

Độ chính xác Pr (Precision) là tỷ số ví dụ positive được thuật toán phân lớp cho giá trịđúng trên tổng số ví dụđược thuật toán phân lớp vào lớp positive:

4G =4 + C4

Độ hồi tưởng Re (Recall) là tỷ lệ số ví dụ positive được thuật toán phân lớp cho giá trịđúng trên tổng số ví dụ positive thực sự thuộc lớp positive:

Một phần của tài liệu Phát hiện cộng đồng sử dụng thuật toán GONGA và khai phá quan điểm cộng đồng trên mạng xã hội (Trang 41 - 44)