Giới thiệu phân phối chuẩnmột phân phối xác suất rất quan trọng trong nhiều lĩnh vực Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn với các tham số m kỳ vọng, σ2 phương sai nếu nó c
Trang 1Chương 3 Các thống kê cơ bản, tương quan và hồi quy
Thống kê mô tả (Desriptive Statistics)
Tổ chức đồ (Histogram)
Tương quan và hồi qui
Trang 2Giới thiệu phân phối chuẩn
một phân phối xác suất rất quan trọng trong nhiều lĩnh vực
Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn với các tham số m (kỳ vọng), σ2 (phương sai) nếu
nó có hàm mật độ:
Trang 3Đồ thị hàm mật độ phân phối chuẩn
Trang 4Đồ thị hàm phân bố trong phân phối chuẩn
Trang 5Thống kê mô tả (Descriptive Statistics)
giá trị thống kê mẫu như trung bình, độ lệch chuẩn, sai số chuẩn, trung vị, mode…Số liệu tính toán được bố trí theo cột hoặc theo dòng
bình của DLNN
(phương sai mẫu): đặc trưng cho độ phân tán các giá trị của DLNN xung quanh giá trị trung bình
Trang 6Thống kê mô tả (Descriptive Statistics)
P(X<Me)=P(X>Me)
đại hay giá trị có tần suất xuất hiện trong mẫu lớn nhất
dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc Nếu trong [-2,2] thì coi xấp xỉ chuẩn
Trang 7Thống kê mô tả (Descriptive Statistics)
hay lệch phải Nếu trong [-2,2] thì coi số liệu cân đối gần như số liệu trong phân phối chuẩn
Trang 8Kurtosis > 0 đường màu đỏ, Kurtosis <0 đường màu xanh phía dưới, =0 đường màu xanh ở giữa (chuẩn)
Trang 9Nếu Kurtosis > 0, kurtosis càng lớn đồ thị càng nhọn Nếu kurtosis <0, kurtosis càng bé đồ thị càng tù
Trang 10Skewness > 0 là lệch phải, <0 là lệch trái
Trang 11Các bước thực hiện
Tools -> Data Analysis
Trang 14Tổ chức đồ
Chuẩn bị:
Dể số liệu ở một cột, một hàng hay một bảng chữ nhật
Tìm giá trị lớn nhất (hàm Max), nhỏ nhất (hàm Min)
Tính khoảng biến thiên R=Max-Min
Chọn số khoảng k của miền phân tổ (thực tế chọn k từ 20-30, ví dụ minh họa chọn k từ 6-10), có thể lấy bằng công thức 6*log(n) trong đó n là số giá trị của DLNN X (lấy giá trị nguyên xấp xỉ)
Tìm giá trị bước tăng trong miền phân tổ h = R/k (Sử dụng hàm Round(R/k,số chữ số lẻ)
Tạo cột bin (Edit->Fill->Series)
Trang 15Tổ chức đồ
Vẽ tổ chức đồ
Chọn Tool -> Data Analysis-> Histogram để khai báo các mục:
Input range: Miền dữ liệu
Input Bin: Miền phân tổ
Labels: Nhãn ở dòng đầu nếu có
Output range: Miền kết quả
Pareto: Tần số sắp xếp trong tổ chức đồ là giảm dần
Cumulative Percentage: Hiển thị đường tần suất cộng dồn
%
Chart output: Hiển thị biểu đồ
Trang 17Tổ chức đồ
Phân tích kết quả từ biểu đồ
độ trong phân phối chuẩn không (có tính đối xứng, nhô cao ở giữa-> dạng đường cong chuông) Nếu có thì kết luận dữ liệu có thể tuân theo luật chuẩn
Trang 18Hình ảnh về tổ chức đồ
Histogram
0 1 2 3 4 5 6 7
Trang 19Xem xét các đỉnh của các HCN xấp xỉ đường cong hàm mật độ trong phân phối chuẩn hay không?
Trang 20Xem xét trường hợp sau
Trang 21Tương quan và hồi quy
Tính hệ số tương quan
Tìm phương trình hồi quy
Trang 22Tính hệ số tương quan
Tính hệ số tương quan giữa các biến sắp xếp thành một bảng gồm n hàng, n cột (mỗi cột là một biến)
Vào Tools → Data Analysis → Correlation
Trang 23Tính hệ số tương quan
Trang 25Kết quả
Trang 27Hồi quy tuyến tính
thuộc y để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc được xếp trên cùng một hàng
vào độ dài bông, trọng lượng 1000 hạt, và số bông
Trang 28Cách thực hiện
Data → Analysis → Regression
Trang 29Hiện phần dư hay sai lệch giữa y
thực nghiêm và y theo hồi quy
Hiện đồ thị đường dự báo Hiện đồ thị phần dư
Trang 30Kết quả
Trang 31Phân tích kết quả
Nếu hệ số tương quan bội (Multiple R) >= 0.75 thì
mô hình qui hoạch tuyến tính là thích hợp
Ví dụ: Multiple R = 0.8589 → mô hình tuyến tính coi là thích hợp
Hệ số tương quan (R Square) cho biết sự biến động
y do x1, x2, x3 … gây nên Hệ số Adjusted R Square không sát R Square → không phải tất cả các biến đưa vào là cần thiết.
R Square =0.7377 cho biết 73.77% sự biến động của y do x1, x2, x3 gây nên
Adjusted R Square = 66.62% không sát R Square
Trang 32Phân tích kết quả
F thực nghiệm = 10.31281 với xác suất 0.00158 nhỏ hơn xác suất ý nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận
Dựa vào các hệ số ta viết được đường hồi quy dự báo
y = -4.06364 + 0.1116x1 + 0.075684x2 + 0.02011x3
Hệ số x1 không đáng tin cậy vì P -value = 0.093621 > 0.05 (mức ý nghĩa đã chọn) → cần tiến hành lọc bớt biến x1 để đường hồi quy với các hệ số đều có ý nghĩa
Trang 33Hồi quy phi tuyến
Các dạng hồi quy phi tuyến như hàm mũ, hàm logarit, hàm đa thức, hàm căn bậc hai …
Trang 34Cách 1
Thông qua biến đổi ta đưa về dạng hồi quy tuyến tính bội như hàm mũ, hàm logarit, hàm đa thức, hàm căn bậc hai …
Ví dụ
tìm đường hồi quy bội tuyến tính với các biến độc lập
X, X2 và hàm là Y
Trang 35Tương tự mục 5
Trang 36Phân tích kết quả
Trang 37Cách 2
Vẽ đồ thị XY (Scatter) biểu diễn tương quan giữa y
và x, đồ thị dạng điểm, sau đó tìm đường ngoại suy và hiện ra phương trình hồi quy
Sau khi vẽ xong đồ thị dạng XY, vào Menu Chart
→ Add Trendline…
Trang 38Ví dụ
Trang 39Hộp thoại Add Trendline
Trang 41Kết quả