Nhận định về các nghiên cứu và phương pháp phân loại quan điểm

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích quan điểm cho các bài viết chính trị từ mạng xã hội (Trang 31 - 35)

một sản phẩm phần mềm.

2.3.4.5. Phân lớp chủ đề và đánh giá cảm xúc cho tiếng Việt

Hung T. Vo và cộng sự (2016) [5] đã thu thập những phản hồi và đánh giá của các công ty về những sinh viên của trường thực tập tại đó để tiến hành phân lớp chủ đề và đánh giá cảm xúc, từ đó giúp cải thiện chất lượng đào tạo của trường. Nghiên cứu phân loại thành các chủ đề là lập trình, thiết kế, giao tiếp, ngoại ngữ, thuyết trình, ... và phân thành hai lớp cảm xúc (tích cực, tiêu cực). Nhận định:

- Tiến hành thực nghiệm các thuật toán Naive Bayes, IBk (K Nearest Neighbors), SMO (Support Vector Machine) và so sánh kết quả thực nghiệm.

- Phương pháp đề xuất tập trung vào cụm tính từ và cụm động từ để trích xuất cấu trúc của nhận xét.

2.4. Nhận định về các nghiên cứu và phương pháp phân loại quan điểm điểm

Việc giải quyết bài toàn phân tích quan điểm cho từng lĩnh vực cụ thể theo những hướng tiếp cận khác nhau để đạt được kết quả tối ưu nhất là vấn để được giới chuyên môn quan tâm. Các phương pháp nghiên cứu nhìn chung là đang phân tích tổng quát ngôn ngữ tiếng Việt hoặc chỉ đang tập trung ở một khía cạnh nhỏ như bình luận trong tin tức, bình luận thể thao, thương mại, văn hóa – giáo dục, du lịch….

Trong các nghiên cứu liên quan nêu trên, dễ nhận thấy nghiên cứu tại phần 2.3.4.3 là gần với các bài toán đặt ra cho luận văn này tuy nhiên nó đang chỉ ứng dụng cho mô hình của trường đại học. Trước tình hình cũng như nhu cầu quản lý trong nhiều lĩnh vực trong đó lĩnh vực mà được nhiều tầng lớp người dân, cũng như của các nhà quản lý chính là tình hình chính trị. Vì vậy, mô hình phân tích quan điểm trong lĩnh vực chính trị là cần thiết và luôn nhận được sự quan tâm cùa cộng đồng chuyên môn cũng như các nhà quản lý chính trị.

2.5. Kết chương

Mỗi nghiên cứu phương pháp phân tích đề có những ưu, nhược điểm hoặc thế mạnh riêng. Các nghiên cứu phân tích với ngôn ngữ tiếng Anh mặc dù phổ biến và có độ chính xác cao trong công đồng nghiên cứu quốc tế nhưng kho phù hợp để triển khai với ngôn ngữ tiếng Việt. Các phương pháp phân tích ngôn ngữ tiếng Việt có kết quả tốt nhưng chưa đi sâu vào khía cạnh mà đề tài quan tâm là quan điểm chính trị. Phương pháp phân tích có sử dụng từ điển có nhiều ưu điểm nổi bật, nhưng với những văn bản mang tính chính quy, chính thống chưa phù hợp với dữ liệu từ mạng xã hội.

Ngoài ra việc xây dựng bộ từ điển này cần được chứng thực bởi các tổ chức giám định về ngôn ngữ để đảm bảo tính khách quan của kết quả. Phương pháp học máy giám sát được đánh giá cao và sẽ được ứng dụng trong đề tài vì phù hợp với nhiều đặc tính của bài toán về khả năng ứng dụng, cải thiện độ chính xác và tính mở rộng cao.

Chương 3 . TIẾP CẬN DÙNG WORD EMBEDING 3.1. Mở đầu

Việc lựa chọn một hướng tiếp cận xử lý bài toán Phân tích quan điểm để đạt được kết quả tối ưu nhất là vấn đề cần cân nhắc đầu tiên của bất cứ nhà nghiên cứu nào. Hướng tiếp cận đóng một vai trò quan trọng trong việc quyết định thành bại của một nghiên cứu nhất định.

Chúng ta thấy có nhiều cách để tiếp cận bài toán Phân tích quan điểm. Tuy nhiên trong phạm vi giới hạn của đề cương này, ta sẽ tập trung vào hướng tiếp cận học máy sử dụng RNN (Recurrent Neural Network) và mô hình LSTM (Long Short Term Memory) bởi sự phù hợp đối với dữ liệu đầu vào dưới dạng văn bản/ chuỗi ký tự (có thể là câu văn hoặc đoạn văn) và hứa hẹn độ chính xác cao (căn cứ trên các nghiên cứu từ trước).

Tổng quan về quá trình theo hướng tiếp cận sử dụng phương pháp học, gồm các bước được mô tả theo thứ tự như sau:

- Thu thập dữ liệu: Kết hợp giữa thao tác thủ công và ứng dụng giữa các framework tự động hóa (Selenium, Puppeteer, ...) để thực hiện thu thập các bình luận từ các trang diễn đàn, trang mạng xã hội. Các đối tượng được nhắm đến thu thập là các diễn đàn, chuyên trang đăng tải thông tin về chính trị - xã hội, các trang thông tin về chính trị, từ đó dữ liệu được thu thập sẽ cô đọng và được sử dụng tốt hơn.

- Gán nhãn dữ liệu: Sau khi có dữ liệu được thu thập, dữ liệu sẽ được kiểm tra lại và tiến hành gán nhãn dựa trên phát biểu bài toán, gồm các nhãn Tích cực, Tiêu cực và Trung lập.

- Tiền xử lý: Dữ liệu sau khi được gán nhãn, chia thành các tệp tin với nhãn tương ứng, sẽ được đưa vào quá trình tiền xử lý dữ liệu. Đây là quá trình gồm nhiều công đoạn nhỏ: tách từ, loại bỏ hư từ, chuẩn hóa,…

- Mã hóa dữ liệu: Tuy dữ liệu đã có, được tiền xử lý và gán nhãn đầy đủ, nhưng những quá trình học máy vẫn chưa thể hiểu được dữ liệu dưới dạng câu từ này. Chính vì vậy, ta phải mã hóa dữ liệu này để máy tính có thể hiểu được thông qua quá trình mã hóa (vector hóa). Có nhiều phương pháp mã hóa dữ liệu ngôn ngữ, nhưng phương pháp được đánh giá cao và hiệu quả, được sử dụng để mã hóa là Word2Vec. Thông qua mô hình Word2Vec, từng từ vựng được ánh xạ vào một không gian vector và qua đó có thể được biểu diễn dưới dạng một vector số thực mà vẫn có khả năng giữ được ngữ nghĩa với các từ khác.

- Xây dựng mô hình học sâu sử dụng LSTM: Ứng dụng mô hình học sâu, mà cụ thể là mô hình mạng LSTM. Mạng LSTM là một mô hình cải tiến từ mô hình mạng RNN đã cho thấy nhiều hiệu quả tốt trong việc cải thiện các tác vụ ở các câu văn, đoạn văn dài trong xử lý ngôn ngữ. Đầu vào của mạng LSTM này là các tập vector từ vựng (qua Word2Vec) và nhãn của chúng, mô hình sẽ tiến hành huấn luyện, rút trích và phân tích đặc trưng của dữ liệu. Đầu ra mạng LSTM này sẽ là một mô hình học sâu, đã được huấn luyện và có khả năng dự đoán nhãn quan điểm từ một câu đầu vào được mã hóa.

Hình 3-1 Các bước thực hiện

Nội dung chính của chương sẽ trình bày cụ thể về các bước hiện thực bài toán Phân tích quan điểm từ giai đoạn thu thập dữ liệu đến xử lý dữ liệu và đánh giá kết quả. Chi tiết về cách thực hiện, triển khai của từng bước được trình bày chi tiết ở các đề mục theo sau.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích quan điểm cho các bài viết chính trị từ mạng xã hội (Trang 31 - 35)

Tải bản đầy đủ (PDF)

(86 trang)