CHƯƠNG 4 THỰC NGHIỆM VÀ KẾT QUẢ
4.2 Phương pháp đánh giá và cài đặt thực nghiệm
Phương pháp đánh giá
Như đã trình bày ở trên, mục tiêu của bài tốn là xếp hạng các bình luận, do đó đầu ra của mơ hình là danh sách bình luận được xếp hạng theo điểm số tin cậy của chúng. Để đánh giá chất lượng xếp hạng, ta sử dụng hai độ đo ranking-based là Mean Average Precision (MAP) và Normalized Discounted Cumulative Gain (NDCG@N)[24].
Trong truy hồi thông tin, MAP được sử dụng để kiểm tra xem tất cả item có liên quan đến truy vấn có được xếp hạng cao hay khơng. Tương tự với bài toán xếp hạng độ tin cậy, MAP được sử dụng để đánh giá chất lượng kết quả xếp hạng độ tin cậy bình luận. Trước khi đi sâu vào MAP, ta xem xét AP (Average Precision) là một độ đo khác dùng để đánh giá bao nhiêu item có liên quan được xếp hạng lên đầu trong một truy vấn.
𝐴𝑃 =
𝑘
∑(𝑅𝑒𝑐𝑎𝑙𝑙@𝑘 − 𝑅𝑒𝑐𝑎𝑙𝑙@𝑘 − 1) * 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛@𝑘
Precision hay Độ chính xác thể hiện có bao nhiêu nhãn thực sự là 1 trong các nhãn được dự đoán là 1 và Recall hay độ hồi tưởng đánh giá có bao nhiêu nhãn được dự đốn là 1 trong các nhãn thực sự là 1. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛@𝑘 𝑣à 𝑅𝑒𝑐𝑎𝑙𝑙@𝑘 ở đây đơn giản là đánh giá tại vị trí thứ k. MAP được tính bằng cách tính tổng giá trị AP cho mỗi ví dụ trong tập dữ liệu sau đó chia số lượng ví dụ.
Với MAP, độ đo này tập trung vào trả lời cho câu hỏi: liệu những bình luận tin cậy có xuất hiện ở vị trí cao hay khơng. Sau q trình chuẩn hố voting của khách hàng trên mỗi bình luận, có 5 mức tin cậy theo thứ tự cao dần là {0, 1, 2, 3, 4}. Lấy ngưỡng là 0, ta giả sử những bình luận có nhãn độ tin cậy bằng 0 là những bình luận khơng có sự tin cậy (0), 2 nhãn cịn lại là có sự tin cậy (1). Khi
đó ta có kết quả xếp thành trở thành như sau, ví dụ [0, 1, 1]. Xét từng vị trí trong danh sách xếp hạng, với số lượng bình luận tin cậy là 2 (tương ứng với 2 giá trị 1) ta có:
Vị trí thứ 1: Độ tin cậy là 0 => Precision@1 = 01 Vị trí thứ 2: Độ tin cậy là 1 => Precision@2 = 12 Vị trí thứ 3: Độ tin cậy là 1 => Precision@3 = 23 Như vậy AP = 12 * (12 + 23 ) = 0. 38
Có thể thấy, giá trị của MAP nằm trong khoảng [0, 1]. Nếu càng nhiều giá trị 1 xuất hiện ở đầu danh sách, kết quả MAP càng lớn, thể hiện mơ hình hoạt động càng tốt, tối đa đạt đến 1.
Khi đã đánh giá được những review có sự tin cậy đã được xếp hạng lên đầu hay chưa, câu hỏi khác được đặt ra là trong những bình luận tin cậy đó, mức độ tin cậy của chúng đã được sắp xếp đúng chưa. Nói cách khác, với những bình luận có mức độ thuộc {1, 2, 3, 4}, chúng đã được sắp xếp chính xác chưa. Để trả lời câu hỏi này, ta sử dụng độ đo NDCG@N với N thể hiện top N bình luận trong bối cảnh người dùng chỉ đọc một số lượng nhất định bình luận, trong trường hợp này ta xét N = 3 và N = 5. Để định lượng NDCG, cần xem xét một số khái niệm sau. Với danh sách độ tin cậy của bình luận, CG là tổng tất cả giá trị đó: 𝐶𝐺@𝑁 = 𝑖=1 𝑁 ∑ 𝑟𝑒𝑙 𝑖
với 𝑟𝑒𝑙 là mức độ tin cậy của bình luận tại vị trí i. Vấn đề của CG là nó 𝑖
khơng xem xét đến xếp hạng của kết quả khi đánh giá độ tin cậy của tập đầu ra. Nói cách khác, cùng một tập độ tin cậy, nếu xáo trộn thứ tự xếp hạng đi, ta vẫn thu được 2 danh sách có cùng CG. Ví dụ danh sách A = [3, 1, 2, 3, 2] và B = [3, 3, 2, 2, 1] có cùng CG = 11. Để giải quyết vấn đề này, ta sử dụng DCG. DCG đưa ra cơ chế phạt những bình luận có độ tin cậy cao nhưng lại xuất hiện ở vị trí
thấp trong danh sách bằng cách giảm giá trị mức tin cậy tỷ lệ thuận với vị trí của nó: 𝐷𝐶𝐺@𝑁 = 𝑖=1 𝑁 ∑ 2 𝑟𝑒𝑙𝑖 − 1 𝑙𝑜𝑔2(𝑖 + 1)
Dùng DCG đánh giá 2 tập A và B ở trên, nếu phép đo hiệu quả thì B sẽ có DCG cao hơn A và B có nhiều bình luận điểm cao ở xếp hạng cao hơn. Tuy nhiên, có một vấn đề nảy sinh với DCG khi ta muốn so sánh hiệu quả của xếp hạng của hai danh sách có độ dài khác nhau. Dễ thấy DCG tăng theo giá trị của N hoặc giữ nguyên. Do đó, những danh sách có độ dài lớn hơn sẽ có khả năng cho kết quả DCG cao hơn bất chấp chất lượng so với những danh sách ít phần tử hơn. Một cách để làm công bằng hơn giá trị phép đo là chuẩn hố DCG ở mỗi vị trí cho một giá trị N đã chọn. Ta thực hiện điều này bằng cách sắp xếp tất cả những bình luận có độ tin cậy lớn hơn bằng 1 và tính DCG của chúng thu được:
𝐼𝐷𝐶𝐺@𝑁 = 𝑖=1 𝑅𝑒𝑙 𝑁 ∑ 2 𝑟𝑒𝑙𝑖 − 1 𝑙𝑜𝑔2(𝑖 + 1) Như vậy, công thức của NDCG là:
𝑁𝐷𝐶𝐺@𝑁 = 𝐼𝐷𝐶𝐺@𝑁𝐷𝐶𝐺@𝑁
Giá trị của NDCG@N luôn thuộc khoảng [0,1] với 1 cho kết quả tốt nhất rằng DCG giống với IDCG, tức xếp hạng cho kết quả chính xác nhất theo độ giảm của mức tin cậy.
Cài đặt thực nghiệm
Các cài đặt thực nghiệm dưới đây được tiến hành dựa trên các cài đặt trong nghiên cứu của mơ hình cơ sở với cùng các giá trị tham số. Việc chỉnh sửa thay đổi được thực hiện ở phần học thông tin mạng đồ thị giữa các bình luận, cụ thể là thay thế 1 lớp mạng MLP bằng một lớp tích chập GCN như trong phần đề xuất. Điều này nhằm hướng đến việc đánh giá ảnh hưởng của việc sử dụng mạng GCN đến chất lượng mơ hình khi so sánh với mơ hình MCR cơ sở.
Sau khi thu được dữ liệu sau quá trình tiền xử lý, với dữ liệu văn bản, chúng sẽ được đưa qua bộ tách từ để phục vụ cho q trình trích xuất đặc trưng sau
này. Vì dữ liệu văn bản là ngôn ngữ tiếng Anh, do vậy công cụ tách từ được sử dụng là NLTK toolkit [13]. Sau đó, các từ được đưa qua lớp nhúng từ (word embedding) để chuyển sang khơng gian đặc trưng ma trận. Tại đây, có 3 mơ hình word embedding được sử dụng nhằm so sánh sự ảnh hưởng của chúng để chất lượng mơ hình: 300D GloVe [18], fasttext [1], word2vec [31]. Với bộ encoder của văn bản, sử dụng n-gram với số nhân là 1, 3, 5 và số chiều 128. Với loại dữ liệu ảnh, mỗi ảnh được trích xuất đặc trưng vùng quan tâm với số chiều là 2048. Số chiều đặc trưng ảnh sẽ được giảm xuống 128 khi đưa qua bộ encoder. Tại bước chiếu đặc trưng văn bản và hình ảnh xuống cùng một khơng gian, số chiều không gian được thiết đặt là 128. Mạng MLP có cấu hình bao gồm đầu vào là 128 ứng với số chiều dữ liệu được thiết đặt ở trên, bên trong là lớp Linear(128, 64), ReLu, Linear(64, 1). Cài đặt lớp phân tích mạng đồ thị đánh giá của MCR bao gồm 2 lớp mạng MLP, do vậy, trong cài đặt thực nghiệm mạng GCR, chỉ sử dụng 1 lớp MLP đầu tiên và lớp thứ 2 sẽ được thay thế bằng một lớp GCN. Khi này, mỗi nút mạng là một vectơ đánh giá, với các cạnh được khởi tạo sau khi qua lớp MLP đầu tiên. Với một lớp GCN, mỗi nút khi đó tổng hợp thơng tin từ các nút lân cận liên kết trực tiếp với nút đó với bước nhảy là 1. Hàm kích hoạt được sử dụng trong lớp GCN là hàm ReLu. Với quá trình huấn luyện, phương pháp tối ưu Adam [12] được sử dụng với hệ số học tập (learning rate) là 0.0001, batch size là 32. Các bộ siêu tham số được tham khảo theo cài đặt thực nghiệm của mơ hình cơ sở.
Mơ hình sử dụng dữ liệu trong tập huấn luyện đã được chia ở trên để học các tham số sau đó đánh giá chất lượng thơng qua tập kiểm thử. Các bước chạy thực nghiệm được tiến hành như sau:
Hình 4.3 Các bước huấn luyện và đánh giá mơ hình GCR
Nếu tham số (parameter) là các giá trị của mơ hình được sinh ra từ dữ liệu huấn luyện giúp thể hiện mối liên hệ giữa các đại lượng trong dữ liệu, thì siêu tham số hồn tồn khơng phụ thuộc vào dữ liệu huấn luyện mà được lựa chọn thủ công từ người huấn luyện. Siêu tham số dùng để giúp mơ hình tìm ra được các tham số hợp lý nhất. Tập dữ liệu huấn luyện được chia thành nhiều tập nhỏ với kích thước mỗi tập là 32. Sau khi chọn các siêu tham số, mơ hình sẽ liên tục lấy mẫu các tập nhỏ đó và tự học cho đến khi đạt điều kiện hội tụ. Mỗi lần lấy mẫu gọi là một iteration. Khi mơ hình dùng hết dữ liệu của tập huấn luyện, đó là khi hồn thành một epoch và mơ hình tiếp tục lặp lại việc lấy mẫu từng tập nhỏ lại cho đến khi hết tập train. Sau mỗi epoch, mơ hình thực hiện đánh giá trên tập valid sử dụng độ đo MAP. Nếu MAP của epoch hiện tại lớn hơn epoch trước đó, mơ hình tiếp tục học thêm epoch nữa. Nếu MAP của 3 epoch liên tiếp đều nhỏ hơn epoch trước đó, mơ hình sẽ dừng lại và lưu lại tham số tại epoch đạt MAP
cao nhất trên tập đánh giá. Với mỗi bộ siêu tham số, thực hiện huấn luyện mơ hình 5 lần trên 5 seed khác nhau và lấy kết quả trung bình cho mỗi độ đo.