Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 3 - TS. Nguyễn Duy Long

30 84 0
Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 3 - TS. Nguyễn Duy Long

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phần 3 - Khám phá về các mối quan hệ giữa các biến. Nội dung chính trong chương này gồm: Biểu đồ phân tán, sự liên hợp và sự tương quan; phân tích hồi qui tuyến tính. Mời các bạn cùng tham khảo để biết thêm các nội dung chi tiết.

9/7/2010 Phần 03 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Cơng QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ   Biểu đồ phân tán, liên hợp tương q quan Phân tích hồi qui tuyến tính ©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ   Đồ thị phân tán (scatter-plots) biểu thị phổ biến hiểu cho liệu Đồ thị phân tán cách tốt để bắt đầu quan sát mối liên hệ cách lý tưởng để xem liên hợp hai biến định lượng ©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010   Với đồ thị phân tán, xem hướng (direction), dạng (form), độ chặt (strength), đặc điểm bất thường (unusual features) (1) Hướng: ◦ Hướng âm: giá trị liệu theo chiều từ trái qua phải từ xuống ◦ Hướng dương: theo chiều ngược lại ©2010, Nguyễn Duy Long, Tiến Sỹ % trả lời “Có”   Mối liện hợp dương ( (positive i i association) i i ) năm (từ 1900) % số người sẵn sàng bầu phụ nữ làm tổng thổng Mỹ Nhận h xét é Năm (từ 1900) ©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 Ch hi phí đầu người ($/người/năm)  Tốc độ lúc cao điểm xa lộ (dặm/giờ)  Mối liện hợp âm (negative association) tốc độ lúc cao điểm xa lộ chi phí đầu người chậm trễ giao thơng xét Nhận xét  (2) Dạng: ◦ Nếu liên hệ đường thẳng (tuyến tính): đám mây hay đám chấm phân tán có dạng thẳng Ch hi phí đầu người ($/người/năm) ©2010, Nguyễn Duy Long, Tiến Sỹ Tốc độ lúc cao điểm xa lộ (dặm/giờ) ©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010  Dạng: ◦ Nếu mối liên hệ ệ không g thẳng, g, g cong g cong, g, tăng hay giảm dần… … có cách để làm thẳng ©2010, Nguyễn Duy Long, Tiến Sỹ  Dạng: ◦ Nếu mối liên hệ cong, cong … nói liên hợp khơng tuyến tính ©2010, Nguyễn Duy Long, Tiến Sỹ 10 9/7/2010  (3) Độ chặt: ◦ Các điểm theo ộ dòng g thẳng g (dù thẳng, cong, hay uốn) ©2010, Nguyễn Duy Long, Tiến Sỹ  11 Độ chặt: ◦ Các điểm trông g ộ đám mây y mờ mà khơng g có hướng xác định nào: ◦ Ghi chú: định lượng phân tán “scatter” sau ©2010, Nguyễn Duy Long, Tiến Sỹ 12 9/7/2010  (4) Các đặc điểm bất thường: ◦ Tìm điều khơng kỳ vọng ◦ Điều thú vị quan sát đồ thị phân tán thấy điều không mong đợi tìm thấy ◦ Ví dụ: giá trị ngoại lệ đứng tách ◦ Nên nghi vấn với cụm (clusters) hay nhóm phụ (subgroups) ©2010, Nguyễn Duy Long, Tiến Sỹ    13 Xác định biến trục x, biến trục y Việc ệ xác định ị dựa ự vai trò biến Khi vai trò rõ ràng ◦ Biến khám phá hay dự đoán (explanatory hay predictor variable) trục x, ◦ Biến hưởng ứng (response variable) trục y ©2010, Nguyễn Duy Long, Tiến Sỹ 14 9/7/2010    Chọn vai trò cho biến phần nhiều việc suy nghĩ biến ế ề biến ế Chỉ đặt biến trục hồnh khơng thiết có nghĩa giả thích hay dự báo đó… … Biến trục tung khơng hưởng ứng cách ©2010, Nguyễn Duy Long, Tiến Sỹ  Dữ liệu thu thập từ sinh viên lớp thống kê ọ g gồm chiều cao ((in.)) cân nặng ặ g ((lb): ) học Mối liên hợp dương (positive association) thẳng, có trị ngoại lệ Cân nặng (lb)  15 Chiều cao (in.) ©2010, Nguyễn Duy Long, Tiến Sỹ 16 9/7/2010   ặng (kg) Cân nặ  Sự liên hợp chiều cao cân nặng sinh viên lớp thống kê học chặt (strong) sao? Nếu đinh lượng độ chặt, muốn khơng phụ thuộc vào loại đơn vị Biểu đồ phân tán chiều cao (cm) cân nặng (kg) không thay đổi dạng phân tán Chiều cao (in.) ©2010, Nguyễn Duy Long, Tiến Sỹ    Vì đơn vị khơng quan ọ g, khơng g trọng, bỏ nó? Có thể chuẩn hóa biến viết tọa độ điểm (zx, zy) Biểu đồ phân tán chiều cao cân nặng chuẩn hóa 17 Zchiều cao Zcân nặng ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9/7/2010     Dạng tuyến tính biều đồ chuẩn hóa dốc biểu đồ phân tán ban đầu Vì hai trục có tỷ lệ giống Tỷ lệ tạo khách quan cho biểu đồ phân tán độ chặt liện hợp Giá trị chuẩn hóa xác định sau: ( z x , z y )  ( xsxx , ysy y ) ©2010, Nguyễn Duy Long, Tiến Sỹ    19 Các điểm màu xanh ự liên hợp ợp làm mạnh dương chiều cao cân nặng Các điểm màu nâu có khuynh hướng làm yếu liên hợp dương Các điểm màu xanh dương có điểm z Zchiều cao khơng khơng theo cách liên hợp Zcân nặng ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10 9/7/2010  Chú ý biến ẩn (lurking variables) ◦ Biến ẩn đứng sau liên hệ xác định cách tác động đồng thời hai biến biến  Ví dụ- Bài tập 26 (tr.163): Điều tra năm 2004 quốc gia giới thấy có độ tương quan dương phần trăm dân số dùng điện thoại di động tuổi thọ trung bình quốc gia ◦ Điều có nghĩa dùng điện thoại di động tốt cho sức khỏe? ◦ Hay ngược lại, bạn sống lâu khả gọi di động nhiều hơn? ◦ Cái giải thích độ tương quan dương này? ©2010, Nguyễn Duy Long, Tiến Sỹ 31 Linear Regression ©2010, Nguyễn Duy Long, Tiến Sỹ 32 16 9/7/2010  Từ biểu đồ phân tán bên dưới: ◦ Có liên hợp chặt (mạnh)? ◦ Sự liên hợp có vẽ tuyến tính? Dữ liệu từ 30 menu Burger King Chất b béo (g) Lượng chất béo đạm cho thức ăn Burger King Đạm (g) ©2010, Nguyễn Duy Long, Tiến Sỹ    33 Sự tương quan lớn (âm hay dương) cho biết “có vẻ có liên hợp tuyến tính hai biến,” khơng cho biết xác liên hợp gì Chúng ta biết nhiều liên hợp tuyến tính hai biến định lượng với mơ hình Mơ hình tuyến tính (linear model) phương trình đường thẳng qua liệu ©2010, Nguyễn Duy Long, Tiến Sỹ 34 17 9/7/2010 C Chất béo (g) • Bằng mắt thường, vẽ đường thẳng qua liệu? • Phương pháp để xác định mơ hình phù hợp (“best fit”) Đạm (g) 35    Mơ hình khơng bao g hoàn hảo vẽ đường Một số điểm nằm số nằm đường thẳng Sự ước lượng từ mơ hình gọi giá trị dự báo (predicted value) (ký hiệu ŷ) Chất béo (g) ©2010, Nguyễn Duy Long, Tiến Sỹ (số dư) Đạm (g) ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18 9/7/2010   Sự khác giá trị quan sát (observed value) giá trị dự báo tương ứng (predicted value) gọi số ố (phần) ầ dư (residual) Tìm số dư: Số dư = quan sát – dự báo = y – ŷ ©2010, Nguyễn Duy Long, Tiến Sỹ      37 Một số số dư dương, số âm nên triệt tiêu lẫn Vì khơng khơ thể đánh đá h giá iá đường đườ thẳ thẳng vừa hợp h cách cộng số dư lại Tương tự độ lệch chuẩn, bình phương số dư cộng lại Tổng nhỏ vừa hợp Đường phù hợp đường có tổng bình phương số dư nhỏ ©2010, Nguyễn Duy Long, Tiến Sỹ 38 19 9/7/2010  Thông số thứ mơ hình, b1, độ nghiêng (slope): b1  r  s y sx Thông số thứ hai mơ hình, b0, điểm chặn (intercept): b0  y  b1 x  Với ví dụ Burger King trên… ©2010, Nguyễn Duy Long, Tiến Sỹ Đường hồi qui cho liệu Burger King: yˆ (chatbeo)  6.8  0.97 x(dam) Chất béo (g) C  39 Đạm (g) ©2010, Nguyễn Duy Long, Tiến Sỹ 40 20 9/7/2010  Dịch độ lệch chuẩn từ trị trung bình x dịch r lần độ lệch chuẩn từ trị trung bình y ◦ Biể Biểu đồ phân hâ tán tá theo th điểm điể z cho chất béo đạm: ©2010, Nguyễn Duy Long, Tiến Sỹ   41 r lớn hơn1, giá trị dự báo y có khuynh hướng tiến gần trị trung bình giá trị tương đối ố x Đặc điểm mơ hình tuyến tính gọi hồi qui đến trị trung bình (regression to the mean); đường thẳng gọi đường hồi qui (regression line) ©2010, Nguyễn Duy Long, Tiến Sỹ 42 21 9/7/2010  Mơ hình tuyến tính giả định liên hệ hai biến đường thẳng hoàn hảo Các số dư phần liệu mà khơng mơ hình hay… hay… Dữ liệu = Mơ hình + Số dư Số dư = Dữ liệu – Mơ hình e  y  yˆ ©2010, Nguyễn Duy Long, Tiến Sỹ    43 Số dư giúp xem mơ hình có hợp lý khơng Khi mơ hình hồi qui hợp lý, khơng có điều lý thú cịn lại Sau có mơ hình hồi qui, thường biểu diển số dư với hy vọng khơng tìm thấy ◦ Khơng có đường cong hay đường thẳng ◦ Khơng có biến thiên tăng hay giảm di chuyển dọc trục x ©2010, Nguyễn Duy Long, Tiến Sỹ 44 22 9/7/2010 Các số dư cho hồi qui menu Burger King “chán”– khơng có dạng Số dư (g chất béo)  Đạm (g) 45 ©2010, Nguyễn Duy Long, Tiến Sỹ    Sự biến đổi số dư chìa khóa để đánh giá mơ hình phù hợp Trong menu Burger King, chất béo có độ lệch chuẩn 16.4 gam Độ lệch chuẩn số dư từ dự báo chất béo mơ hình 9.2 gam Cái biến đổi nhiều hơn? Chất béo ©2010, Nguyễn Duy Long, Tiến Sỹ Số dư 46 23 9/7/2010     Nếu độ tương quan là1.0 mơ hình dự báo giá trị chất béo hoàn hảo, tất số dư băng khơng khơng có biến đổi Với menu Burger King, độ tương quan 0.83 – khơng hồn hảo Tuy nhiên, thấy số dư mơ hình biến đổi so với chất béo Chúng ta xác định biến đổi mơ hình cịn lại số dư ©2010, Nguyễn Duy Long, Tiến Sỹ    47 Bình phương độ tương quan, R2, (“R-squared”) cho biết phần biến đổi xét mơ hình R2 phần biến đổi cịn lại số dư 1– dư Khi diễn tả mơ hình hồi qui, cần cho biết ý nghĩa R2 ◦ Với mơ hình Burger King, R2 = 0.832 = 0.69, ◦ 69% biến đổi chất béo xác định mơ hình ◦ 31% (100% - 69%) biến đổi chất béo lại g số dư ©2010, Nguyễn Duy Long, Tiến Sỹ 48 24 9/7/2010   R2 0% 100% Giá trị R2 tốt phụ thuộc vào loại liệu phân tích í muốn ố làm gìì với kết ế ©2010, Nguyễn Duy Long, Tiến Sỹ   49 Điều kiện biến định lượng: ◦ Các thống kê học cao cho ta biết kết hợp liệu định tính Điều kiện thẳng: ◦ Mơ hình tuyến tính giả định liên hệ hai biến tuyến tính ◦ Biểu đồ phân tán giúp kiểm tra giả định hợp p lý ý khơng g ©2010, Nguyễn Duy Long, Tiến Sỹ 50 25 9/7/2010  Điều kiện giá trị ngoại lệ: ◦ Để ý đến giá trị ngoại lệ ◦ Các Cá điểm điể ngoạii lệ có ó thể hể thay h đổi mơ hình hì h ◦ Các trị ngoại lệ chí thay đổi dấu góc nghiêng, làm sai lệch liên hệ hai biến ©2010, Nguyễn Duy Long, Tiến Sỹ      51 Khơng dùng đường thẳng cho liên hệ khơng tuyến tính Chú ý điểm điể ngoạii lệ lệ Đừng ngoại suy ngồi liệu – mơ hình phi tuyến khơng cịn giá trị ngồi khoảng giá trị có liệu Đừng suy x gây y có mơ hình tuyến tính tốt cho mối quan hệ chúng – sư liên hợp q p quan hệ ệ nhân q Đừng chọn mơ hình dựa R2 ©2010, Nguyễn Duy Long, Tiến Sỹ 52 26 9/7/2010 Hồi qui tuổi trung bình kết đàn ơng năm phù hợp cho thập niên đầu kỷ 20 không cho giai đoạn sau: Tuổi đàn ơng lúc kết lần đầu  Năm ©2010, Nguyễn Duy Long, Tiến Sỹ    53 Mô hình tuyến tính khơng làm tốt với điểm với số dư lớn Bởi chúng khác với trường hợp khác, đặc biệt ý đến điểm có số dư lớn lớn Một điểm liệu bất thường giá trị x xa so với trị trung bình Các điểm có địn bẩy lớn (high leverage) ©2010, Nguyễn Duy Long, Tiến Sỹ 54 27 9/7/2010 ‣ Mộ điểm có địn bẩy lớn có khả thay đổi đường hồi qui ‣ Điểm gọi ảnh hưởng loại bỏ khỏi liệu cho mơ hình hồi qui khác hẳn ẳ Chỉ s số IQ Chỉỉ số IQ ‣ Ảnh hưởng Bozo (Bozo’s effect) vào mơ hình “Chỉ số IQ cỡ giày” Cở giày Cở giày ©2010, Nguyễn Duy Long, Tiến Sỹ   55 Sự liên hợp chặt đến đâu, R2 lớn đến đâu, quan hệ g đến đâu nữa,, không g thể kết luận ậ từ p phân thẳng tích hồi qui biến gây biến Với liệu quan sát (observational), khác với liệu từ thí nghiệm thiết kế (designed experiment), khơng có cách để chắn biến ẩn (lurking variable) nguyên nhân liên ợp hợp ©2010, Nguyễn Duy Long, Tiến Sỹ 56 28 9/7/2010 Biểu đồ phân tán tuổi thọ trung bình quốc gia có liên hệ với số bác sỹ đầu người quốc ố gia i đó Tuổi thọ tru ung bình (năm)  Bacsy / daunguoi ©2010, Nguyễn Duy Long, Tiến Sỹ  57 Biểu đồ phân tán cho biết liên hệ tuổi thọ số ti vi đầu người quốc gia ◦ Sự liên hệ chí chặt hơn: R2 of 72% thay 62% Vì ti vi rẻ bác sỹ, khơng gởi ti vi tới nước có tuổi thọ thấp để có tuổi thọ cao hơn? Tuổi thọ trun ng bình (năm)  Tivi / daunguoi ©2010, Nguyễn Duy Long, Tiến Sỹ 58 29 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ 59 30 ... ©2010, Nguyễn Duy Long, Tiến Sỹ (số dư) Đạm (g) ©2010, Nguyễn Duy Long, Tiến Sỹ 36 18 9/7/2010   Sự khác giá trị quan sát (observed value) giá trị dự báo tương ứng (predicted value) gọi số ố (phần) ... ©2010, Nguyễn Duy Long, Tiến Sỹ     25 Dấu hệ số tương quan hướng liên hợp Hệ số tương quan khoảng [-1 , +1] Sự tương quan đối xử x y giống Khơng có đơn vị ©2010, Nguyễn Duy Long, Tiến Sỹ 26 13. .. ©2010, Nguyễn Duy Long, Tiến Sỹ 30 15 9/7/2010  Chú ý biến ẩn (lurking variables) ◦ Biến ẩn ? ?ứng sau liên hệ xác định cách tác động đồng thời hai biến biến  Ví d? ?- Bài tập 26 (tr.1 63) : Điều

Ngày đăng: 10/02/2020, 11:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan