Chương 2: Phân tích dữ liệu mô tả với các công cụ phân tích dữ liệu
2.3 Các kỹ thuật khai phá dữ liệu
Dưới đây là một số kỹ thuật khai phá dữ liệu mô tả :
Số học trung bình là biện pháp phổ biến nhất của xu hướng trung tâm. Giá trị trung bình có thể gợi ý một giá trị điển hình trung tâm và đóng vai trò như một "điểm cân bằng" trong một bộ dữ liệu. Tổng giá trị tất cả các biến/tổng số biến :
Trung vị (giá trị giữa) là giá trị giữa trong mảng dữ liệu được sắp xếp xếp hạng từ nhỏ nhất đến lớn nhất. Một nửa các giá trị nhỏ hơn hoặc bằng trung vị, và một nửa giá trị lớn hơn hoặc bằng với trung vị. Trung vị không bị ảnh hưởng bởi các giá trị cực trị: lớn nhất và nhỏ nhất, vì vậy bạn có thể sử dụng trung vị khi có các giá trị cực trị.
Ví dụ sau đây sẽ làm các bạn hiểu rõ :
Hoặc
Mode là giá trị trong một bộ dữ liệu xuất hiện thường xuyên nhất. Giống như trung bình và không giống như trung vị. Đối với một bộ dữ liệu, có thể có nhiều mode hoặc không có mode nào cả nếu không có giá trị nào xuất hiện thường xuyên. Ví dụ, đối với mẫu 10 lần để thời gian ăn vào buổi sáng, ta có hai mode là 39 và 44:
29 31 35 39 39 40 43 44 44 52
Phạm vi -range là sự khác biệt giữa giá trị lớn nhất và nhỏ nhất và là thước đo mô tả số liệu đơn giản nhất về sự biến thiên trong tập hợp dữ liệu. Ví dụ, đối với mẫu 10 lần để thời gian ăn vào buổi sáng, ta có phạm vi là 52-29=23 vậy 23 phút là sự khác nhau lớn giữa thời gian ăn sáng :
Phương sai là một phép đo độ lệch bình phương trung bình từ giá trị trung tâm. Thực hiện theo các bước sau để tính toán phương sai mẫu:
Tính trung bình mẫu
Tính độ lệch của mỗi giá trị dữ liệu từ trung bình
Bình phương những độ lệch này (để tránh các sai lệch tích cực và tiêu cực loại bỏ nhau khi chúng được tổng hợp)
Tổng những sai lệch bình phương
Cuối cùng, trung bình các độ lệch bình phương bằng cách chia cho (n - 1).
hoặc
Độ lệch chuẩn - standard deviation là căn bậc hai của phương sai.
Hệ phương sai đo sức mạnh của mối quan hệ tuyến tính giữa hai biến số (X và Y). Phương trình định nghĩa hệ phương sai mẫu, và Ví dụ tiếp theo sẽ minh họa việc sử dụng nó.
Trong Hình 2.3A, ta có một sơ đồ cho thấy mối quan hệ giữa giá trị và doanh thu hàng năm của 30 đội bóng rổ chuyên nghiệp của NBA (lưu trữ trong Values). Bây giờ, bạn muốn đo mối liên hệ giữa doanh thu hàng năm và giá trị của một đội bằng cách xác định hiệp phương sai mẫu.
Hình 2.3A
Vậy ta có hệ số phương sai là :
Hệ số biến thiên - coefficient of variation (CV) là một chỉ số về sự thay đổi tương đối. Nó được tính như sau:
Đánh điểm Z của một giá trị bằng sự khác biệt giữa giá trị và giá trị trung bình, chia cho độ lệch chuẩn:
Quartiles - Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu. Tứ phân vị có 3 giá trị, đó là tứ phân vị thứ nhất (Q1), thứ nhì (Q2), và thứ ba (Q3). Ba giá trị này chia một tập hợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sát đều nhau.
Ví dụ :
Ranked values: 29 31 35 39 39 40 43 44 44 52 Ranks: 1 2 3 4 5 6 7 8 9 10
Ta có Q1 là : và Q3 là :
Và ta có thước đo sự phân tán của số liệu mẫu cho ví dụ trên là :
Thước đo sự phân tán - Interquartile range = Q3 – Q1 = 8.25 – 2.75 = 5.5
Đồ thị hộp một bản tóm lược năm số, từ đó giúp xác định hình dạng của phân phối gắn với tóm tắt năm số. Hình dưới chứa một ô vuông cho mẫu 10 lần thời gian chuẩn bị công việc vào buổi sáng.
Đường dọc được vẽ trong hộp biểu thị trung vị. Đường thẳng đứng ở phía bên trái hộp biểu thị vị trí của Q1. Và đường thẳng đứng phía bên phải hộp biểu thị vị trí của Q3. Như vậy, hộp chứa 50% giữa các giá trị. 25% dữ liệu thấp hơn được biểu diễn bởi một đường nối phía bên trái của hộp đến vị trí của giá trị nhỏ nhất, X nhỏ nhất. Tương tự, trên 25% dữ liệu được đại diện bởi một đường nối phía bên phải của hộp với X lớn nhất.
Trung bình quần thể là tổng các giá trị trong quần thể chia cho quy mô quần thể, N.
μ = trung bình quần thể Xi = giá trị thứ i của biến X
= tổng của tất cả các giá trị Xi trong quần thể N = số giá trị trong quần thể
Ví dụ : Ta có bảng như sau một quỹ đầy tư Noah
Để tính toán lợi tức trung bình một năm cho quỹ "Noah" trong hình trên, sử dụng phương trình cho trên thì lợi nhuận trung bình một năm cổ phiếu cho "Noah" là 7,657.
Phương sai của quần thể là tổng các bình phương khác biệt quanh trung bình quần thể chia cho kích thước quần thể, N:
μ = trung bình quần thể Xi = giá trị thứ i của biến X
Độ lệch chuẩn của quần thể là:
Với ví dụ trên về quỹ đầu tư Noah, ta có Phương sai và Độ lệch chuẩn của quần thể như sau
Do đó, tỷ lệ phần trăm chi trả khác với trung bình 7,657 và xấp xỉ 9,21. Số lượng lớn của biến thể này cho thấy rằng các cổ phiếu "Noah" đầu sinh lợi kết quả khác nhau rất nhiều.
Những kỹ thuật khác sẽ được học trong các môn chuyên sâu hơn về nghiên cứu marketing và cũng được trình bày trên lớp khi làm bài tập thực hành trên SPSS hoặc Excel. Cũng như cách tính như nào các phương trình trên cũng được chỉ dẫn trong từ bài tập trên lớp, ví dụ trong Excel có các hàm tính Mean, Median, Mode sau :
AVERAGE(variable cell range) MEDIAN(variable cell range)