3. Bố cục luận văn
3.3.2. Gán nhãn dữ liệu
Để thực hiện quá trình gán nhãn dữ liệu trước khi đưa vào huấn luyện, nghiên cứu áp dụng phương pháp phân lớp cảm xúc theo điểm số đánh giá của khách hàng để phân chia tập dữ liệu đã thu thập được thành 2 bộ dữ liệu được gán
nhãn theo quy tắc những bình luận nào đánh giá dưới 3 sao sẽ được dán nhãn là tiêu cực (negative), những bình luận nào đánh giá trên 3 sao sẽ được dán nhãn là tích cực (positive).
Trong phạm vi luận văn này học viên đã sử dụng cơng cụ WebAnno1 để gán nhãn thủ cơng 15926 bình luận về thức ăn trẻ em, tương đương 5 mức chi tiết ứng với các giá trị rất tích cực (5 sao), tích cực (4 sao), trung tính (3 sao), tiêu cực (2 sao) và rất tiêu cực (1 sao). Với mỗi trường bình luận trước khi gán nhãn sẽ xác định tồn bộ câu thiên hướng như thế nào: tích cực hồn tồn? tiêu cực hồn tồn? tích cực là chủ yếu? tiêu cực là chủ yếu? lẫn lộn, khơng rõ bên nào nhiều hơn.
Các bước thực hiện gán nhãn như sau:
Bước 1: Nhập các dữ liệu cần gán nhãn: Trong mục Layers chọn Sentence_Sentiment chọn File to import
Hình 3. 3: Nhập dữ liệu cần gán nhãn
Bước 2: Thực hiện gán nhãn dữ liệu. Lựa chọn Home chọn Annotation
Các bình luận trong file sẽ cách nhau bằng một dịng trống, để mỗi dịng trong WebAnno tương đương một bình luận thực. Với mỗi câu cĩ rating chúng ta cĩ thể bơi tồn bộ câu và tag nĩ bằng layer đã tạo ở trên, và chỉnh giá trị sentiment phù hợp.
1 https://webanno.github.io
Hình 3. 4: Thực hiện gán nhãn dữ liệu
Bước 3: Sau khi gán nhãn xong tồn bộ tập dữ liệu ta sẽ Export cho tập dữ liệu
đĩ sang file csv hoặc cv
Tập dữ liệu sau khi được gán nhãn:
Hình 3. 5: Tập dữ liệu thức ăn trẻ em sau khi được gán nhãn
Kết quả gán nhãn cho thấy tập dữ liệu chủ yếu là các bình luận tích cực. Dưới đây là biểu đồ tỷ lệ tập dữ liệu thức ăn trẻ em sau khi đã gán nhãn