Đánh giá thông qua con người

Để thực hiện phương pháp, tôi lấy mẫu ngẫu nhiên một tập hợp 200 ví dụ từ kết quả chạy của từng mô hình, sau đó cho 30 người Việt Nam có trình độ tiếng anh tối thiểu B2 đánh giá theo các tiêu chí đã đặt ra, kết quả cuối cùng sẽ được lấy trung bình và phân tích. Mỗi ví dụ trong tập dữ liệu sẽ bao gồm những thông tin về sản phẩm như ảnh, nhãn phân loại, tiêu đề, nhãn hiệu, các thuộc tính và những mô tả sinh ra từ mô hình. Những người tham gia được yêu cầu đánh giá một cách độc lập và trung thực theo các tiêu chí sau:

● Tính lưu loát: Mô tả có độ lưu loát ở mức nào.

● Tính liên hệ: Mô tả được tạo ra có liên quan đến sản phẩm ở mức nào.

● Tính thông tin: Mô tả có cung cấp những thông tin hữu ích về sản phẩm ở

mức độ nào.

● Chất lượng tổng thể: Mô tả có thể áp dụng trong điều kiện thực tế ở mức độ

Mỗi tiêu chí đều được áp dụng thang đo Likert với 5 mức đánh giá bao gồm: Hoàn toàn không đồng ý, Không đồng ý, Đồng ý, Trung lập, Hoàn toàn đồng ý với số điểm tăng dần từ 1 đến 5. Điểm của tiêu chí càng cao thì có nghĩa là chất lượng của mô tả xét trên tiêu chí đó càng tốt.

Bên cạnh việc sử dụng tập ví dụ trên được coi là một tập kiểm thử có thể quan sát, tôi cũng chuẩn bị thêm một tập ví dụ thử nghiệm khác chứa 200 ví dụ lấy từ các kết quả chạy của từng mô hình đối với những danh mục sản phẩm không có trong dữ liệu đào tạo, cụ thể là từ các nhãn phân loại “Toys and Games” và “Food, Household & Pets”, đây được coi là tập thử nghiệm không quan sát được.

Sinh mô tả sản phẩm với GPT-2

Viết lại văn bản bằng mô hình dịch