Phân tích biệt số [1] là một kỹ thuật phân tích dữ liệu khi biến phụ thuộc (biến tiêu chuẩn) là biến phân loại và biến độc lập (biến dự đoán) là biến định lượng (thang do khoảng cách hay ti lệ). Các mục tiêu của phân tích biệt số là:
- Xây dựng các hàm phân tích phân biệt (discriminant functions) hay một hàm tuyến tính kết hợp các biến dộc lập sao cho phân biệt rõ nhất các biểu hiện của biến phụ thuộc.
- Nghiên cứu xem có tồn tại sự khác biệt có ý nghĩa giữa các nhóm xét theo các biến độc lập.
- Xác định những biến độc lập nào là nguyên nhân lớn nhất gây ra những sự khác biệt giữa các nhóm.
Trường Đại học Bách khoa Hà Nội Viện Dệt may – Da giầy và Thời trang
biệt độc lập
- Đánh giá tính chính xác của việc phân loại
Có hai trường hợp phân tích biệt số là:
- Phân tích biệt số hai nhóm (two-group discriminant analysis): khi biến độc lập chỉ cố hai biểu hiện.
- Phân tích biệt số bội (multiple discriminant analysis): khi biến độc lập có ba hay nhiều biểu hiện.
Mô hình phân tích biệt số:
Mô hình phân tích biệt số có dạng tuyến tính như sau: D = b0 + b1X1 + b1X1 + b1X1 + ...+ bkXk Trong đó:
D: biệt số
b: hệ số hay trọng số phân biệt X: biến độc lập
Các hệ số hay trọng số (b) được tính toán sao cho các nhóm có các giá trị của hàm phân biệt (biệt số D) khác nhau càng nhiều càng tốt.
Các tham số thống kê trong phân tích biệt số:
- Canonical correlation: hệ số tương quan canonical đo lường mức độ liên hệ giữa các biệt số và các nhóm.
- Centroid: là trung bình của các giá trị biệt số trong mỗi nhóm. Số centroid bằng với số nhóm vì mỗi nhóm có một centroid.
- Discriminant function coefficients: các hệ sế hàm phân biệt (chưa chuẩn hóa) là các quyền số (trọng số) của các biến khi các biến được đo lường bằng đơn vị tính nguyên thủy.
- Eigenvalue: Đối với mỗi hàm phân biệt thì eigenvalue là tỉ số giữa tổng các độ lệch bình phương giữa các nhóm và tổng các độ lệch bình phương trong nội bộ nhóm (SSG/SSW, SSG: tổng các chênh lệch bình phương giữa các nhóm, SSW: tổng các chênh lệch bình phương trong nội bộ nhóm). Eigenvalue càng lớn thì hàm phân biệt càng tốt.
Trường Đại học Bách khoa Hà Nội Viện Dệt may – Da giầy và Thời trang
- F value and their significane: giá trị F được tính từ ANOVA một yếu tố, trong đó biến phân loại được sử dụng như biến độc lập, và mỗi biến dự đoán được sử dụng như biến phụ thuộc kiểu định lượng.
- Group means and group Standard deviations: Trung bình nhóm và độ lệch chuẩn nhóm được tính cho mỗi biến dự đoán cho mỗi nhóm.
- Standardized discriminant function coefficients: Các hệ số hàm phân biệt chuẩn hóa là các hệ số hàm phân biệt được sử dụng như quyền số khi các biến được chuẩn hóa có trung bình là 0 và phương sai là 1.
- Wilks’X: được gọi là đại lượng thống kê U (U statistic), Wilks’X, đối với mỗi biến dự đoán là tỉ số giữa tổng các độ lệch bình phương trong nội bộ các nhóm và tổng các độ lệch bình phương toàn bộ. Giá trị của nó nằm trong khoảng từ 0 đến 1. λ lớn hơn (gần 1) cho biết các trung bình nhóm dường như không khác nhau. λ nhỏ (gần 0) cho biết các trung bình nhóm dường như giống nhau.