Chương 4 PHƯƠNG PHÁP ĐỀ XUẤT
4.3. Mơ hình đề xuất
4.3.1. Xây dựng câu phụ trợ
Trong nghiên cứu tham khảo của Chi Sun và các cộng sự, nhóm tác giả đề xuất bốn phương pháp để chuyển đổi bài tốn "Phân tích cảm xúc dựa trên khía cạnh" thành bài tốn phân loại cặp câu.
Các câu phụ trợ được xây dựng bằng các phương pháp này sẽ cùng với câu đầu vào ban đầu trở thành một cặp câu đầu vào của một mơ hình phân loại với số lớp phân loại khác nhau cho từng phương pháp xây dựng câu phụ trợ.
Để giải quyết bài tốn "Phân tích cảm xúc dựa trên khía cạnh" cho ngơn ngữ tiếng Việt, tơi đã chuyển đổi bốn phương pháp đã được đề xuất trong cơng trình tham khảo thành bốn phương pháp mới tương ứng như sau:
− Câu cho QA-M: Câu phụ trợ được tạo ra từ các khía cạnh trong tập các khía cạnh ban đầu. Đó là các câu hỏi với cấu trúc như nhau. Ví dụ, đối với khía cạnh giá cả, câu phụ trợ được tạo ra là "Bạn nhận xét
thế nào về giá cả ?". Phương pháp này chuyển đổi bài toán gốc thành bài toán phân loại nhiều lớp, với các nhãn phân loại là tập các thái cực cảm xúc cùng với một nhãn mới là "không đề cập". Đối với mẫu huấn luyện trong ví dụ phần 4.1, phương pháp này sẽ tạo ra ba câu phụ trợ với các nhãn phân loại như sau:
+ "Bạn nhận xét thế nào về giá cả ?" - tiêu cực + "Bạn nhận xét thế nào về chất lượng ?" - tiêu cực + "Bạn nhận xét thế nào về hình thức ?" - khơng đề cập
Nhãn phân loại "không đề cập" được thêm vào để phân loại các khía cạnh khơng được đề cập đến trong câu.
− Câu cho NLI-M Câu phụ trợ được tạo ra từ các khía cạnh trong tập các khía cạnh ban đầu. Đó là các câu giả chỉ chứa chính khía cạnh đó. Ví dụ, đối với khía cạnh giá cả, câu phụ trợ được tạo ra là "giá
cả". Phương pháp giống với phương pháp "Câu cho QA-M", chuyển đổi bài toán gốc thành bài toán phân loại nhiều lớp. Đối với mẫu huấn luyện trong ví dụ phần 4.1, phương pháp này sẽ tạo ra ba câu phụ trợ với các nhãn phân loại như sau:
+ "giá cả" - tiêu cực + "chất lượng" - tiêu cực + "hình thức" - khơng đề cập
− Câu cho QA-BTrong phương pháp này, nhãn phân loại cảm xúc được thêm vào câu phụ trợ, từ đó đưa bài tốn gốc về bài toán phân loại nhị phân với hai nhãn phân loại là "yes" và "no".
Đối với mẫu huấn luyện trong ví dụ phần 4.1, phương pháp này sẽ tạo ra 12 câu phụ trợ với các nhãn phân loại như sau:
+ "Nhận xét về giá cả là tích cực ?" - no + "Nhận xét về giá cả là trung tính ?" - no + "Nhận xét về giá cả là tiêu cực ?" - yes + "Nhận xét về giá cả là không đề cập ?" - no + "Nhận xét về chất lượng là tích cực ?" - yes + "Nhận xét về chất lượng là trung tính ?" - no + "Nhận xét về chất lượng là tiêu cực ?" - no + "Nhận xét về chất lượng là không đề cập ?" - no + "Nhận xét về hình thức là tích cực ?" - no
+ "Nhận xét về hình thức là trung tính ?" - no + "Nhận xét về hình thức là tiêu cực ?" - no
+ "Nhận xét về hình thức là khơng đề cập ?" - yes
− Câu cho NLI-BPhương pháp này khác vớiCâu cho QA-B là câu phụ trợ đổi thành một câu giả. Đối với mẫu huấn luyện trong ví dụ phần 4.1, phương pháp này sẽ tạo ra 12 câu phụ trợ với các nhãn phân loại như sau:
+ "giá cả - tích cực" - no + "giá cả - trung tính" - no + "giá cả - tiêu cực" - yes + "giá cả - không đề cập" - no + "chất lượng - tích cực" - yes + "chất lượng - trung tính" - no + "chất lượng - tiêu cực" - no + "chất lượng - không đề cập" - no + "hình thức - tích cực" - no + "hình thức - trung tính" - no + "hình thức - tiêu cực" - no + "hình thức - khơng đề cập" - yes
Mỗi phương pháp xây dựng câu phụ trợ nêu trên sẽ tạo ra một tập dữ liệu huấn luyện và đánh giá mới từ tập dữ liệu huấn luyện và đánh giá ban đầu.