Phân chia dữ liệu huấn luyện, kiểm tra và kiểm thử- 123docz.net

4.2 Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy rằng các phương pháp học sâu kết hợp như CNN- LSTM, MultiCNN-LSTM cho kết quả tốt hơn phương pháp truyền thống CNN hay LSTM trên tập kiểm tra.

4.2.1 Công nghệ sử dụng

Trong thực nghiệm, chúng tơi sử dụng ngơn ngữ lập trình Python, xây dựng các phương thức làm sạch dữ liệu kết hợp với các thư viện xử lý dữ liệu pyvi, ftfy để tiền xử lý dữ liệu, sử dụng thư viện mã nguồn mở Tensorflow - Keras do Google phát triển để xây dựng các mơ hình học sâu thực hiện việc huấn luyện mơ hình phân tích ý kiến người dùng theo khía cạnh. Việc huấn luyện mơ hình gồm 2 cơng đoạn: Tiền xử lý dữ liệu và huấn luyện mơ hình học sâu nhiều lớp.

Mơi trường thực nghiệm huấn luyện trên máy PC sử dụng hệ điều hành Windows 10 Pro bản 64 bit với RAM 16Gb, Intel(R) Core(TM) i5-8400 CPU @ 2.80GHz, GPU NVIDIA GeForce GTX 1070Ti 8Gb.

4.2.2 Trích xuát đặc trưng

Word embedding: để thực hiện word embedding cho dữ liệu đầu vào của mơ hình

chiều. Tuy nhiên, đề tài khơng thực hiện biến đổi trực tiếp dữ liệu đầu vào mà sử dụng bộ dữ liệu này như ma trận trọng số cho lớp Embedding trong mơ hình mạng. Việc này tạo điều kiện thuận lợi cho phép dễ dàng điều chỉnh các tham số phục vụ tunning cho mơ hình sau này.

Trích xuất đặc trưng: đề tài thực hiện lọc giữ lại các từ trong văn bản cho mơ hình

xác định khía cạnh và giữ lại danh từ, động từ, tính từ và trạng từ (gọi tắt là cụm danh từ) cho mơ hình phân tích quan điểm theo khía cạnh để tính giá trị Tf-Idf, từ đó xác định các từ quan trọng nhất dùng làm vector đặc trưng. Sau khi thực hiện trích xuất và tính giá trị Tf-Idf tương ứng thì thu được 569 từ (được sắp xếp theo mức độ quan trọng giảm dần) để làm đặc trưng bổ sung cho mơ hình CNN.

Phân chia dữ liệu huấn luyện, kiểm tra và kiểm thử

Mơ hình Long short-term Memory

Ví dụ minh họa lớp Pooling