1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Chương 3 - Các thống kê cơ bản, tương quan và hồi quy ppt

41 1,3K 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 1,07 MB

Nội dung

Giới thiệu phân phối chuẩnmột phân phối xác suất rất quan trọng trong nhiều lĩnh vực  Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn với các tham số m kỳ vọng, σ2 phương sai nếu nó c

Trang 1

Chương 3 Các thống kê cơ bản, tương quan và hồi quy

 Thống kê mô tả (Desriptive Statistics)

 Tổ chức đồ (Histogram)

 Tương quan và hồi qui

Trang 2

Giới thiệu phân phối chuẩn

một phân phối xác suất rất quan trọng trong nhiều lĩnh vực

 Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn với các tham số m (kỳ vọng), σ2 (phương sai) nếu

nó có hàm mật độ:

Trang 3

Đồ thị hàm mật độ phân phối chuẩn

Trang 4

Đồ thị hàm phân bố trong phân phối chuẩn

Trang 5

Thống kê mô tả (Descriptive Statistics)

giá trị thống kê mẫu như trung bình, độ lệch chuẩn, sai số chuẩn, trung vị, mode…Số liệu tính toán được bố trí theo cột hoặc theo dòng

bình của DLNN

(phương sai mẫu): đặc trưng cho độ phân tán các giá trị của DLNN xung quanh giá trị trung bình

Trang 6

Thống kê mô tả (Descriptive Statistics)

P(X<Me)=P(X>Me)

đại hay giá trị có tần suất xuất hiện trong mẫu lớn nhất

dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc Nếu trong [-2,2] thì coi xấp xỉ chuẩn

Trang 7

Thống kê mô tả (Descriptive Statistics)

hay lệch phải Nếu trong [-2,2] thì coi số liệu cân đối gần như số liệu trong phân phối chuẩn

Trang 8

Kurtosis > 0 đường màu đỏ, Kurtosis <0 đường màu xanh phía dưới, =0 đường màu xanh ở giữa (chuẩn)

Trang 9

Nếu Kurtosis > 0, kurtosis càng lớn đồ thị càng nhọn Nếu kurtosis <0, kurtosis càng bé đồ thị càng tù

Trang 10

Skewness > 0 là lệch phải, <0 là lệch trái

Trang 11

Các bước thực hiện

 Tools -> Data Analysis

Trang 14

Tổ chức đồ

 Chuẩn bị:

 Dể số liệu ở một cột, một hàng hay một bảng chữ nhật

 Tìm giá trị lớn nhất (hàm Max), nhỏ nhất (hàm Min)

 Tính khoảng biến thiên R=Max-Min

 Chọn số khoảng k của miền phân tổ (thực tế chọn k từ 20-30, ví dụ minh họa chọn k từ 6-10), có thể lấy bằng công thức 6*log(n) trong đó n là số giá trị của DLNN X (lấy giá trị nguyên xấp xỉ)

 Tìm giá trị bước tăng trong miền phân tổ h = R/k (Sử dụng hàm Round(R/k,số chữ số lẻ)

 Tạo cột bin (Edit->Fill->Series)

Trang 15

Tổ chức đồ

 Vẽ tổ chức đồ

 Chọn Tool -> Data Analysis-> Histogram để khai báo các mục:

 Input range: Miền dữ liệu

 Input Bin: Miền phân tổ

 Labels: Nhãn ở dòng đầu nếu có

 Output range: Miền kết quả

 Pareto: Tần số sắp xếp trong tổ chức đồ là giảm dần

 Cumulative Percentage: Hiển thị đường tần suất cộng dồn

%

 Chart output: Hiển thị biểu đồ

Trang 17

Tổ chức đồ

 Phân tích kết quả từ biểu đồ

độ trong phân phối chuẩn không (có tính đối xứng, nhô cao ở giữa-> dạng đường cong chuông) Nếu có thì kết luận dữ liệu có thể tuân theo luật chuẩn

Trang 18

Hình ảnh về tổ chức đồ

Histogram

0 1 2 3 4 5 6 7

Trang 19

Xem xét các đỉnh của các HCN xấp xỉ đường cong hàm mật độ trong phân phối chuẩn hay không?

Trang 20

Xem xét trường hợp sau

Trang 21

Tương quan và hồi quy

 Tính hệ số tương quan

 Tìm phương trình hồi quy

Trang 22

Tính hệ số tương quan

 Tính hệ số tương quan giữa các biến sắp xếp thành một bảng gồm n hàng, n cột (mỗi cột là một biến)

 Vào Tools → Data Analysis → Correlation

Trang 23

Tính hệ số tương quan

Trang 25

Kết quả

Trang 27

Hồi quy tuyến tính

thuộc y để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc được xếp trên cùng một hàng

vào độ dài bông, trọng lượng 1000 hạt, và số bông

Trang 28

Cách thực hiện

 Data → Analysis → Regression

Trang 29

Hiện phần dư hay sai lệch giữa y

thực nghiêm và y theo hồi quy

Hiện đồ thị đường dự báo Hiện đồ thị phần dư

Trang 30

Kết quả

Trang 31

Phân tích kết quả

 Nếu hệ số tương quan bội (Multiple R) >= 0.75 thì

mô hình qui hoạch tuyến tính là thích hợp

 Ví dụ: Multiple R = 0.8589 → mô hình tuyến tính coi là thích hợp

 Hệ số tương quan (R Square) cho biết sự biến động

y do x1, x2, x3 … gây nên Hệ số Adjusted R Square không sát R Square → không phải tất cả các biến đưa vào là cần thiết.

 R Square =0.7377 cho biết 73.77% sự biến động của y do x1, x2, x3 gây nên

 Adjusted R Square = 66.62% không sát R Square

Trang 32

Phân tích kết quả

 F thực nghiệm = 10.31281 với xác suất 0.00158 nhỏ hơn xác suất ý nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận

 Dựa vào các hệ số ta viết được đường hồi quy dự báo

 y = -4.06364 + 0.1116x1 + 0.075684x2 + 0.02011x3

 Hệ số x1 không đáng tin cậy vì P -value = 0.093621 > 0.05 (mức ý nghĩa đã chọn) → cần tiến hành lọc bớt biến x1 để đường hồi quy với các hệ số đều có ý nghĩa

Trang 33

Hồi quy phi tuyến

 Các dạng hồi quy phi tuyến như hàm mũ, hàm logarit, hàm đa thức, hàm căn bậc hai …

Trang 34

Cách 1

 Thông qua biến đổi ta đưa về dạng hồi quy tuyến tính bội như hàm mũ, hàm logarit, hàm đa thức, hàm căn bậc hai …

 Ví dụ

tìm đường hồi quy bội tuyến tính với các biến độc lập

X, X2 và hàm là Y

Trang 35

Tương tự mục 5

Trang 36

Phân tích kết quả

Trang 37

Cách 2

 Vẽ đồ thị XY (Scatter) biểu diễn tương quan giữa y

và x, đồ thị dạng điểm, sau đó tìm đường ngoại suy và hiện ra phương trình hồi quy

 Sau khi vẽ xong đồ thị dạng XY, vào Menu Chart

→ Add Trendline…

Trang 38

Ví dụ

Trang 39

Hộp thoại Add Trendline

Trang 41

Kết quả

Ngày đăng: 10/07/2014, 05:21

HÌNH ẢNH LIÊN QUAN

Đồ thị hàm mật độ phân phối chuẩn - Chương 3 - Các thống kê cơ bản, tương quan và hồi quy ppt
th ị hàm mật độ phân phối chuẩn (Trang 3)
Đồ thị hàm phân bố trong phân phối chuẩn - Chương 3 - Các thống kê cơ bản, tương quan và hồi quy ppt
th ị hàm phân bố trong phân phối chuẩn (Trang 4)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w