Tiền xử lý dữ liệu và rút trích đặc trƣng

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy (Trang 48 - 50)

Sau khi lấy đƣợc dữ liệu là những bình luận trên mạng xã hội, tơi tiến hành tiền xử lý dữ liệu bởi vì dữ liệu này chƣa phải là dữ liệu chuẩn tiếng Việt.

Trong quá trình thực hiện đề tài, tơi nhận thấy cĩ 02 vấn đề dẫn tới lỗi trong chƣơng trình, đĩ là việc gán nhãn trong câu văn cĩ iểu tƣợng cảm xúc và một lỗi khác liên quan đến lỗi tiếng Việt cĩ dấu.

Đây là dữ liệu dạng mã UNICODETH. Do đĩ, trƣớc tiên tơi tiến hành chuyển mã của tất cả dữ liệu về dạng mã UNICODE.

Sau khi loại bỏ những vấn đề dẫn tới lỗi, hệ thống sẽ tự động thực hiện các chức năng sau:

- Cắt dữ liệu thành câu. - Gán nhãn từ loại.

Tơi sử dụng thƣ viện mã nguồn mở vnTagger [19] để gán nhãn từ loại tiếng Việt cho dữ liệu.

Ví dụ: Đối với một bình luận nhƣ sau: “Bạn thật tuyệt. Tơi thích bạn. Một con người tốt bụng :D.”.

- Tiền xử lý, cắt dữ liệu thành câu:

Hình 3-6 Ví dụ dữ liệu dạng mã UNICODETH

Bạn thật tuyệt Tơi thích bạn Một con người tốt bụng - Gán nhãn từ loại: <doc> <s> <w pos="N">Bạn</w> <w pos="A">thật</w> <w pos="A">tuyệt</w> </s> <s> <w pos="P">Tơi</w> <w pos="V">thích</w> <w pos="N">bạn</w> </s> <s> <w pos="M">Một</w> <w pos="N">con người</w> <w pos="A">tốt bụng</w> </s> </doc>

Kết quả của quá trình tiền xử lý là một tập tin cĩ cấu trúc html mơ tả sự gán nhãn từ loại. Tơi gọi tập tin này là tập tin tagger, tức là tập tin đã đƣợc gán nhãn. Từ tập tin này, chƣơng trình tiếp tục quá trình rút trích các đặc trƣng của từng câu văn để phân tích trong các ƣớc tiếp theo.

Sau khi thực hiện việc gán nhãn từ loại cho câu, cơng việc kế tiếp cần thực hiện đĩ là từ dữ liệu hiện tại chƣơng trình cần rút trích đặc trƣng cho từng câu theo danh sách đặc trƣng đƣợc lựa chọn trƣớc đĩ. Danh sách đặc trƣng đƣợc tơi trình bày trong phần kế tiếp. Ở đây, tơi sẽ chỉ trình bày kết quả của quá trình rút trích đặc trƣng này đối với ví dụ bên trên.

quá trình phân tích chủ quan là:

1:6.0 2:3.0 3:6.0 4:0.0 5:0.0 6:0.0

Và kết quả rút đặc trƣng đối với quá trình phân tích cảm xúc là:

1:6.0 2:0.0 3:0.0 4:0.0 5:6.0 6:6.0 7:6.0 8:6.0 9:6.0 10:6.0

Tƣơng tự, đối với câu “Tơi thích bạn”, kết quả lần lƣợt là:

1:2.0 2:3.0 3:0.0 4:0.0 5:0.0 6:2.0

Và:

1:0.0 2:0.0 3:0.0 4:2.0 5:2.0 6:2.0 7:2.0 8:2.0 9:2.0 10:2.0

Cịn đối với câu “Một con người tốt bụng”, kết quả lần lƣợt là:

1:2.0 2:3.0 3:2.0 4:0.0 5:0.0 6:0.0

Và:

1:2.0 2:0.0 3:0.0 4:0.0 5:2.0 6:2.0 7:2.0 8:2.0 9:2.0 10:2.0

Một phần của tài liệu (LUẬN văn THẠC sĩ) xây dựng mô hình phân tích cảm xúc người dùng đánh giá sản phẩm bằng phương pháp phân tích từ vựng kết hợp với học máy (Trang 48 - 50)

Tải bản đầy đủ (PDF)

(84 trang)