= 2.�−𝑀𝑎�(�)−𝑀𝑖�(�)𝑀𝑎�(�)−𝑀𝑖�(�) (26)
Từ 39 đặc trưng đã nêu trên, sau khi đã chuẩn hố chúng, chúng tơi tiến hành bước chọn lọc đặc trưng bằng việc đánh giá mức độ quan trọng của từng chỉ số trong việc phân loại cảm xúc theo phương pháp hệ số tương quan Kendall’s Tau [50]. Phương pháp này sử dụng hệ số tương quan Tau (kí hiệu là �) để làm giá trị đại diện cho mức độ quan trọng của một thơng số đặc trưng. Do hệ số tương quan thì gồm cả âm và dương nên để so sánh mức độ quan trọng thì chúng tơi se dùng trị tuyệt đối của hệ số tương quan.
Hệ số tương quan Kendall’s Tau kí hiệu là �. Hệ số Kendall’s Tau � được tính tốn dựa trên việc đếm số lượng các cặp hiệu số (Xj-Xi ) và (Yj-Yi) cĩ cùng dấu trong hai chuơi X và Y cĩ độ dài n, với i=1,2, …n-1 và j=i+1 sau đĩ chia cho tổng tất cả các cặp điểm của chuơi. Điều kiện để tính là X và Y phải cĩ cùng độ dài.
Gọi C là tổng số cặp điểm đồng biến của X và Y, D là tổng số cặp điểm nghịch biến của X và Y, khi đĩ dựa vào [51] và [52] ta cĩ cơng thức tính hệ số �:
� = �(�−1)2𝐾 (27)
Với: 𝐾 = ∑�−1 ∑� �∗(�𝑖, �𝑗, �𝑖, �𝑗) (28)
𝑖=1 𝑗=𝑖+1
Trong đĩ, hàm số �∗(�𝑖, �𝑗, �𝑖, �𝑗) được định nghĩa:
1 �ế� (�𝑖 − �𝑗)(�𝑗 − �𝑖) > 0 �∗(�𝑖, �𝑗, �𝑖, �𝑗) = { 0 �ế� (�𝑖 − �𝑗)(�𝑗 − �𝑖) = 0 −1 �ế� (�𝑖 − �𝑗)(�𝑗 − �𝑖) < 0
(29)
Kết quả � được đánh giá như sau: Giá trị � nằm trong đoạn [-1 ; 1], nếu � bằng 0 thì X và Y khơng cĩ sự tương quan, cịn nếu trị tuyệt đối � bằng 1 (� = ±1) thì X và Y là cĩ mối tương quan mạnh với nhau. Nếu � giữa X và Y dương cĩ nghĩa X và Y là tương quan thuận, �
là tương quan nghịch. Như vậy nếu xem mơi thơng số đặc trưng là X, kết quả phân loại đã chuyển về dạng số là Y thì |�| se thể hiện mức độ tương quan của một đặc trưng với kết quả phân loại, |�| càng cao thì đặc trưng đĩ càng quan trọng.
Tuy nhiên trong bước này, ngồi giá trị |�| ta cịn quan tâm đến giá trị p, đây là xác suất để chấp nhận giả thiết khơng trong bài tốn kiểm định H0: |�| ≤ 0. Để tính được giá trị p, trước tiên tính giá trị kiểm định Zqs cho giá trị |�|. Cơng thức tính Zqs cho |�| [51]:
�𝑞𝑠
= 3|�| . �(�−1)2(2�+5) (30)
Trong đĩ n là chiều dài của 2 chuơi dữ liệu cần tính giá trị tương quan. Khi đĩ, p được tính bằng cơng thức:
𝑝 = 0.5 − �0(�𝑞𝑠) (31)
Với Φ0 làm hàm phân phối xác suất một phía của phân phối chuẩn.
Với giá trị p, theo lý thuyết về kiểm định trong thống kê, ta cĩ thể biết |�| cĩ lớn hơn 0 một cách cĩ ý nghĩa hay khơng. Trong nghiên cứu này, chúng tơi chọn mức ý nghĩa để |�| > 0 là 95% nên giá trị p được chọn là p <0.05. Như vậy, nếu p ≥ 0.05 thì mức ý nghĩa 𝛼 của gải thiết |�| lớn hơn 0 là 𝛼 = (1 − 𝑝) × 100% = 95% , tức tương quan giữa đặc trưng đĩ với việc phân loại là khơng cĩ nghĩa. Ghi chú: Giá trị |�| > 0 đồng nghĩa � ≠ 0.