Sau khi học xong Bài giảng 6sigma: Phân tích tương quan và hồi quy sẽ giúp bạn hiểu được hệ số tương quan và mối quan hệ qua lại giữa các biến số thông qua phân tích tính tương quan; dự đoán biến số đầu ra với biến số đầu vào bằng cách sử dụng hệ xác định và phương trình hồi quy được tính từ phân tích hồi quy và thực hiện phân tích tương quan và phân tích hồi quy thông qua các ví dụ khác nhau trên Minitab. Mời các bạn tham khảo!
Phân tí ch tương quan & hồ i quy Phân tích tương quan Phân tích hồi quy Muc tiêu hoc tâp ̣ ̣ ̣ * Hiểu được hê sơ ̣ ́ tương quan và mới quan hê qua l ̣ ại giữa các biến số thơng qua phân tích tính tương quan * Dự đốn biến số đầu ra với biến số đầu vào bằng cách sử dụng hệ xác định và phương trình hồi quy được tính từ phân tích hồi quy * Thực hiện phân tích tương quan và phân tích hồi quy thơng qua các ví dụ khác nhau trên Minitab Phân tí ch tương quan và hồ i quy? Phân tí ch tương quan Môt ky ̣ ̃ thuât ma ̣ ̀ chi ra đ ̉ ược mức đô cua s ̣ ̉ ự liên kết giữa 2 biến số trong trong số những hang muc đ ̣ ̣ ược sử dung hê sô ̣ ̣ ́ tương quan Ví du) ̣ IQ ( Chỉ số thơng minh) so với thành tích hoc tâp, nghiên c ̣ ̣ ứu, hút thuốc ngược với biểu hiện ung thư phổi, chiều cao ngược với cân nặng, nhiệt độ quy trình ngược với phát triển sản phẩm, viêc tâp thê duc so v ̣ ̣ ̉ ̣ ới dung lượng phổi Phân tí ch hồ i quy Kỹ thuât phân ti ̣ ́ch thớng kê mà cho phép chúng ta dự đốn biến thiên đầu ra với biến thiên đầu vào bắng cách xác định mối quan hệ chức năng giữa các biến thiên đó X Y Proprietary to Samsung Electronics Company Y X X Y XY XY X Y Correlation and Regression Analysis 2 Rev 7.0 Tổng qt về phân tích tính tương quan Phân tích tính tương quan Phương pháp phân tích mức liên kết giữa các biến sớ. Có thể phân tích sử dụng biểu đồ phân tán và hệ sớ tương quan Biểu đồ phân tán Trình bày các điêm biêu thi điêm d ̉ ̉ ̣ ̉ ữ liêu trên bang phô ̣ ̉ ́i hợp. Biểu đồ phân tán chỉ ra mối quan hệ giữa hai biến thiên đó Hê sơ ̣ ́ tương quan Đây là sự trưng bày tún tính giữa 2 biến sớ trong các sớ hang. ̣ (Khơng đề cập đến mối quan hệ chức năng ) Mẫu của hệ số tương quan r > Có giá tri gi ̣ ữa 1 và 1 > Nếu r có giá tri (+) : t ̣ ương quan dương giá tri ( ) : t ̣ ương quan âm giá trị gần tới 0 (không): không tương quan giá trị gần hơn 1 hoặc đến 1: tương quan chặt chẽ Proprietary to Samsung Electronics Company Correlation and Regression Analysis 3 Rev 7.0 Mối quan hệ giữa biểu đồ phân tá n và hệ số tương quan Tương quan dương manh mẽ ̣ Tương quan dương yếu Tương quan âm manh mẽ ̣ Tương quan âm yếu Proprietary to Samsung Electronics Company Correlation and Regression Analysis 4 Rev 7.0 Trì nh tự phân tí ch tương quan Ví dụ Thực hiên môt phân ti ̣ ̣ ́ch đê nhân biê ̉ ̣ ́t mối liên hê hiên co ̣ ̣ ́ giữa chi phí quang ̉ cáo (X) và doanh số bán hàng (Y)cua san phâm đ ̉ ̉ ̉ ược san xuâ ̉ ́t tai công ty A. ̣ (Tên file : CorrelationRegression.mtw ) Chi phí Doanh số quang ca ̉ ́o bán hàng 336 325 418 375 355 367 445 385 365 375 455 395 395 395 405 365 346 355 429 385 365 365 Proprietary to Samsung Electronics Company Chi phí quang ca ̉ ́o Doanh số bán hàng 445 405 395 375 465 405 346 335 417 395 365 345 445 395 388 353 459 415 435 365 Correlation and Regression Analysis 5 Rev 7.0 Bướ c 1 Nhâp d ̣ ữ liêu ̣ Bướ c 2 Vẽ biêu đô ̉ ̀ phân tá n Graph > Scatterplot Biêu thi côt ch ̉ ̣ ̣ ứa dữ liêu ̣ cua truc X va ̉ ̣ ̀ truc Y ̣ Chon hi ̣ ̀nh dang ̣ cua biêu đồ ̉ ̉ S c atte rplo t o f S ale Vo lume v s Ex pe nditure 420 S a le Vo lu me 400 380 360 340 320 350 Proprietary to Samsung Electronics Company Correlation and Regression Analysis 6 375 400 Ex p e n d itu re 425 450 475 Rev 7.0 Bướ c 3 Tiế n hà nh phân tí ch tương quan Stat > Basic Statistics > Correlation Chon côt v ̣ ̣ ới dữ liêụ Correlations: Expenditure, SaleVolume Pearson correlation of Expenditure and SaleVolume = 0.834 PValue = 0.000 PValue Hê sơ ̣ ́ tương quan Hệ tương quan là 0,834 chỉ ra rằng tương quan dương và Pgiá trị là 0,000 là nhỏ hơn mức tương đối của 0,05. Do đó, chúng ta có thể kết luận rằng tương quan chi phí quang ca ̉ ́o và doanh sớ bán hàng là đáng kể Proprietary to Samsung Electronics Company Correlation and Regression Analysis 7 Rev 7.0 Sự lam dung va ̣ ̣ ̀ sử dung sai hê sơ ̣ ̣ ́ tương quan Ngay cả nếu có tương quan giữa hai biến sớ, điều đó khơng có nghĩa là trung bình cua mơt bi ̉ ̣ ến sớ đó là ngun nhân cua cái kia ̉ Biến sớ thứ ba có thể ẩn mà ảnh hưởng đến cả hai biến sớ kia Càng bi mu ̣ ỗi cắn thì doanh thu bán kem càng lớn có phải khơng????? Mù a Anh h ̉ ưởng cua biê ̉ ́ n số thứ 3 Sự tương quan không có nghĩ a là tao ra kê ̣ ́ t qua! ̉ Proprietary to Samsung Electronics Company Correlation and Regression Analysis 8 Rev 7.0 Phân tích tương quan chỉ ra sức manh liên k ̣ ết giữa hai biến sớ nhưng khơng chỉ ra mối quan hệ chức năng chính xác Nếu trong trường hợp này, điều gì bạn phải làm để ước lượng kết quả cua bi ̉ ến sớ đầu ra vớ i biến sớ đầu vào ? Điều gì nên làm? Proprietary to Samsung Electronics Company Correlation and Regression Analysis 9 Rev 7.0 Tổng quan về phân tích hồi quy Phân tí ch hờ i quy Kỹ thuật phân tích thớng kê cho phép chúng ta dự đốn biến sớ đầu ra với biến sớ đầu vào bằng cách nhận dạng mối liên hệ chức năng giữa hai biến sớ sử dụng phương trình hồi quy. Phương trì nh hờ i quy Một phương trình mà dự đốn các giá trị đầu ra tương ứng với các giá trị đầu vào Cá c loai cua phân ti ̣ ̉ ́ ch hờ i quy Phân loai biê ̣ ́ n số đầ u và o ( y i β0 β1x i εi ) Phân tích hồi quy đơn giản : Khi chỉ có một biến sớ đầu vào Phân tích hồi quy phức tạp( : Khi có hai ho u hơε in các bi ến số y i β0 β1x1i ặ βc nhi ) x 2i ề Phân loại bằng mối liên hệ giữa biến sớ đầu ra và biế n sớ đầu vào Phân tích hồi quy tuyến : Một phân tích mơ hình giả định một mối quan hệ tuyến tính Proprietary to Samsung Electronics Company Correlation and Regression Analysis 10 Rev 7.0 Bướ c 2 Xác minh mơ hình hồi quy Phân tích các mơ hình hồi quy để kiểm tra xem có hay khơng mơt mơ hình h ̣ ồi quy trình tự cao là cần thiết Stat > Regression > Fitted Line Plot Lưu trữ số dư và giá trị phù hợp trong bảng làm việc Xác định loại mơ hình hồi quy Tuyến tính: hồi quy tuyến tính Bình phương: hồi quy đường cong bình phương Lập phương: hồi quy đường cong lập phương Proprietary to Samsung Electronics Company Correlation and Regression Analysis 17 Rev 7.0 Kết qua th ̉ ực hiên t ̣ ừ Minitab Fitte d Line P lo t [ Tuyế n tí nh ] S a le Vo lu me = 182.8 + 0.4763 Exp e n d itu re 420 13.557 69.5 % 67.9 % S R Sq R Sq(a dj) 13.867 69.8 % 66.4 % S R Sq R Sq(a dj) 13.085 74.6 % 70.1 % 400 S a le Vo lu me The regression equation is SaleVolume = 182.807 + 0.476288 Expenditure S = 13.5571 RSq = 69.5 % RSq(adj) = 67.9 % S R Sq R Sq(a dj) 380 360 340 320 350 [ Bì nh phương ] 375 400 425 Ex p e n d itu re 450 475 Fitte d Line P lo t 420 400 S a le Vo lu m e The regression equation is SaleVolume = 37.3209 + 1.20943 Expenditure 0.0009140 Expenditure **2 S = 13.8674 RSq = 69.8 % RSq(adj) = 66.4 % S a le Vo lu me = 37.3 + 1.209 Exp e n d itu re 0.000914 Exp e n d itu re **2 380 360 340 320 350 [ Lâp ph ̣ ương ] 400 425 Ex p e n d itu re 450 475 Fitte d Line P lo t S a le Vo lu me = 7213 + 56.04 Exp e n d itu re 0.1383 Exp e n d itu re **2 + 0.000114 Exp e n d itu re **3 420 400 S a le Vo lu me The regression equation is SaleVolume = 7212.82 + 56.0416 Expenditure 0.138346 Expenditure **2 + 0.0001142 Expenditure **3 S = 13.0853 RSq = 74.6 % RSq(adj) = 70.1 % 380 360 340 320 350 Proprietary to Samsung Electronics Company 375 Correlation and Regression Analysis 18 375 400 425 Ex p e n d itu re 450 475 Rev 7.0 Polynomial Regression Analysis: SaleVolume versus Expenditure The regression equation is SaleVolume = 7212.82 + 56.0416 Expenditure 0.138346 Expenditure**2 + 0.0001142 Expenditure**3 S = 13.0853 RSq = 74.6 % RSq(adj) = 70.1 % Analysis of Variance Source DF SS MS F P Regression 3 8537.2 2845.72 16.6197 0.000 Error 17 2910.8 171.23 Total 20 11448.0 Source DF Seq SS F P Linear 1 7955.91 43.2871 0.000 Quadratic 1 30.59 0.1591 0.695 Cubic 1 550.66 3.2160 0.091 Mặc dù R2adj mô hình lập phương ở trang trước, kết cho biết giá trị p- cho mơ hình bình phương mơ hình lập phương là lớn 0,05, ảnh hưởng khơng đáng kể Đó là, ảnh hưởng bình phương lập phương là không đáng kể mô hình tuyến tính xác nhất Proprietary to Samsung Electronics Company Correlation and Regression Analysis 19 Rev 7.0 Bướ c 3 Thực hiện phân tích thừa dư Xác đinh co ̣ ́ hay khơng ‘mơ hình hời quy là phù hợp’ ? Stat > Regression > Regression > Residual Plots Dữ liêu đ ̣ ược hình thành mới khi thực hiên: ̣ “Storage>Residuals, Fits” trong bước 3 “Nhận dạng mẫu hồi quy” Chon sô ̣ ́ dư chuân ho ̉ ́a tông qua ̉ ́t Tiêu chuân ho ̉ ́a số dư = (Số dư) / (đô lêch chuân cua sô ̣ ̣ ̉ ̉ ́ d ư) Chon ca ̣ ́c hang muc va ̣ ̣ ̀o đồ thi (plot) ̣ Vẽ tất ca hang muc na ̉ ̣ ̣ ̀y Proprietary to Samsung Electronics Company Correlation and Regression Analysis 20 Rev 7.0 Kết qua th ̉ ực hiên t ̣ ừ Minitab Xác nhân sô ̣ ́ dư có phân bố chuân hay không (Sô ̉ ́ dư tuân theo phân bố chuân va ̉ ̀ hầu hết các chấm đều nằm theo đường thăng) ̉ Re s idual P lo ts fo r S ale Vo lume N o rm a l P ro b a b ility P lo t o f th e Re s id u a ls Pe rc e n t 90 50 10 2 1 S ta n d a rd iz e d Re s id u a l Re s id u a ls Ve rs u s th e Fitte d Va lu e s S ta n d a rd iz e d Re s id u a l 99 Fre q u e n c y 4.8 3.6 2.4 1.2 0.0 Proprietary to Samsung Electronics Company 1 S ta n d a rd iz e d Re s id u a l 1 2 340 360 380 Fitte d Va lu e 00 Re s id u a ls Ve rs u s th e Ord e r o f th e Da ta S ta n d a rd iz e d Re s id u a l His to g m o f th e Re s id u a ls Xác nhân s ̣ ự phân bố cua ̉ những số dư thông qua biêu đô ̉ ̀ Những số dư là những điêm ngâ ̉ ̃u nhiên xung quanh số 0 (zero) 1 2 Correlation and Regression Analysis 21 Như không 10 2̃ng sô 14 1́ d ư18 20 O b s e rva tio ́nt hiên theo môt mô O rd ̣ e r x ̣ hình nào. Rev 7.0 Sớ dư là gì ? Sớ dư ngụ ý chỉ sự khác nhau giữa giá trị thực tế và giá trị dự đốn mơ hình hồi quy. Một mơ hình phù hợp có thể được xác nhận thơng qua phân tích sớ dư eˆi y i yˆ i (i 1, n) Biế n sớ đầ u ra ˆi y eˆi yi Sớ dư càng nhỏ, thì phương trình hồi quy ước tính tính tốt hơn cho việc quan sát thực tế Số dư ước lượng tốt nhất về lỗi Sớ dư phải đối xứng qua số 0 (không) và không được chỉ hướng cụ thể Biế n số đầ u và o Proprietary to Samsung Electronics Company Correlation and Regression Analysis 22 Rev 7.0 Cầ n thiế t cho phân tí ch số dư Thực hiên phân ti ̣ ́ch hồi quy với dữ liêu sau. ̣ (Tên file : CorrResidual.mtw) Proprietary to Samsung Electronics Company Y X1 X2 10 8.04 9.14 6.95 8.14 13 7.58 8.74 8.81 8.77 11 8.33 9.26 14 9.96 8.10 7.24 6.13 4.26 3.10 12 10.84 9.13 4.82 7.26 5.68 4.74 Correlation and Regression Analysis 23 Rev 7.0 Regression Analysis: Y versus X1 Regression Analysis: Y versus X2 The regression equation is Y = 1.00 + 1.33 X1 The regression equation is Y = 0.99 + 1.33 X2 Predictor Coef SE Coef T P Constant 0.998 2.434 0.41 0.692 X1 1.3328 0.3142 4.24 0.002 Predictor Coef SE Coef T P Constant 0.995 2.435 0.41 0.692 X2 1.3325 0.3144 4.24 0.002 S = 2.01881 RSq=66.7% RSq(adj)=62.9% S = 2.01972 RSq=66.6% RSq(adj)=62.9% Số dư Y-X1 thì ngẫu nhiên số dư cho Y-X2 khơng Proprietary to Samsung Electronics Company Correlation and Regression Analysis 24 Rev 7.0 Kết qua phân ti ̉ ́ch > Khơng có sự khác nhau giữa YX1 R2=66,7% và YX2 R2= 66.6% > Tuy nhiên, từ việc phân tích sớ dư, chúng ta biết là rằng phương trình hồi quy YX1 là đúng nhưng phương trình hồi quy YX2 là khơng chính xác > Trong trường hợp YX2, chúng ta cần xem xét việc áp dụng mơ hình bình phương. Ví dụ này chỉ rõ ra tính rủi ro khi áp dụng cơng thức mơt ca ̣ ́ ch mù qng trong việc phân tích hồi quy và việc quan trọng cua đ ̉ ồ thị phân tán và phân tích sớ dư Proprietary to Samsung Electronics Company Correlation and Regression Analysis 25 Rev 7.0 Phịng ngừa đối với phân tích hồi quy Phương trình hồi quy được sử dụng để dự đốn trong pham vi cua ̣ ̉ cá c biế n sớ được thử nghiêm ̣ Xác định nếu các biến sớ mà bạn muốn ước tính là phải nằm trong pham vi b ̣ ạn đã chọn. Nếu chúng lệch ra khỏi pham vi , thì ph ̣ ải thực hiện thử nghiệm để xác nhận Khơng được ngoại suy nó, ln xác định lại nó ! Proprietary to Samsung Electronics Company Correlation and Regression Analysis 26 Rev 7.0 Tó m tắ t Phân tí ch tương quan và phân tí ch hồ i quy Được sử dụng để phân tích các mức liên kết giữa các biến sớ đầu vào và biến sớ đầu ra. Phân tích tương quan chỉ ra có bao nhiêu liên kết tồn tại giữa các biến sớ, trong đó Phân tích hồi quy suy ra phương trình giữa chúng. Cá c loai cua phân ti ̣ ̉ ́ ch hờ i quy Phân loại hồi quy đơn giản và phức tạp theo số lượng biến sớ đầu vào Phân loại theo tuyến tính và khơng tuyến tính theo mối quan hệ giữa các biến sớ đầu vào và đầu ra Ghi chú Hệ số xác định (R2) Hệ số xác định là ti lê cua ph ̉ ̣ ̉ ương sai được giải thích bởi phương trình hồi quy khỏi tổng các phương sai. Đối với hồi quy phức tạp và hồi quy khơng tuyến tính, R2adj phải được kiểm tra Phân tí ch sớ dư Phương trình hời quy phùCorrelation and Regression Analysis 27 hợp có thê đ ̉ ược xác đinh thơng qua phân ti ̣ ́ch sôRev 7.0 ́ Proprietary to Samsung Electronics Company Bà i tâp ̣ 1. Dữ liêu thu đ ̣ ược theo sau là sự nghiên cứu về bô nh ̣ ớ cua con ng ̉ ười (X) và sự phán đoán (Y) Bô nh ̣ ớ (X) 11 10 14 18 10 6 12 8 15 16 Sự phán đoán (Y) 6 4 6 10 2 3 5 4 6 9 Phân tích dữ liêu theo môt trât t ̣ ̣ ̣ ự sau đây (Tên file : CorrRegression_Ex1.mtw) 1)Mô ta mô ̉ ́i liên hê gi ̣ ữa X và Y. (Cho ví du, X giam va ̣ ̉ ̀ Y tăng) Thút minh các sớ dư ① Các thơng số dư tn theo phân bổ thơng thường khơng? ② Dựa vào kết quả phân tích sớ dư, mơ hình có xuất hiện chính xác khơng? Proprietary to Samsung Electronics Company Correlation and Regression Analysis 28 Rev 7.0 Bà i tâp ̣ 2) Thuyết minh kết quả ① Phương trình hồi quy là gì? ② Các giá trị đối với R2 and R2adj là gì ? ③ Giá tri R ̣ 2 là gì ? 2. Để xác định mối liên hệ giữa số năm sử dụng (X) và chi phí bao tri ̉ ̀ (Y), Đội đổi cai tiê ̉ ́n đã phân tích ghi chép bao tri ̉ ̀ trên cùng 1 loai ma ̣ ́y photo copy, và thu được dữ liêu nh ̣ ư sau : Từ dữ liêu này, nh ̣ ận dạng phương trình hồi quy đơn giản với giải thích mối liên hệ giữa X và Y (Tên file : CorrRegression_Ex2.mtw) Giai đoan s ̣ ử dung ̣ 3 1 5 8 1 4 2 6 9 3 5 7 2 6 (Years) Chi phí bao tri ̉ ̀ 39 24 115 105 50 86 67 90 140 112 70 186 43 126 (USD) Proprietary to Samsung Electronics Company Correlation and Regression Analysis 29 Rev 7.0 3. Để điều tra khối lượng tiêu thụ nước hàng tháng, Cơng ty S thu thập các dữ liêu v ̣ ề tiêu thụ nước hàng tháng (y), nhiệt độ trung bình (x1), số ngày làm việc (x2) và cường đơ làm vi ̣ ệc (x3), như sau. (Tên file: CorrRegression_Ex3.mtw) 1) Miêu tả mối quan hệ giữa các biến sớ X và Y . 2) Phương trình hồi quy là gì? 3) Các giá trị đối với R2 and R2adj là gì ? Proprietary to Samsung Electronics Company X1 X2 X3 Y 10 27 64 2.8 24 26 72 3.9 25 28 80 3.9 28 26 88 4.4 15 30 81 3.1 18 24 45 3.1 22 27 46 3.5 22 25 69 3.6 12 27 54 3.0 15 25 39 3.3 Correlation and Regression Analysis 30 Rev 7.0 Tra l ̉ ờ i 1. 1) Y tăng khi X tăng 2) ① Với PValue=0.093 thì dữ liêu co ̣ ́ phân bớ chn ̉ ② Các sớ dư tn theo phân bố chn. Sơ ̉ ́ dư khơng vượt ra ngồi dịng giới hạn kiểm sốt trong bảng đờ I và khơng x́t hiên theo mơt mơ hi ̣ ̣ ̀nh nào. Và chúng được phân bố ngẫu nhiên quanh số 0 (không) trong các số dư ngược với biểu đồ Dựa vào kết qua phân ti ̉ ́ch số dư, mô hình phù hợp sẽ được Fit. quyết đinh. ̣ 3) ①Y = 1.55 + 0.587 X ② R2:76.9%, R2adj:74.0% ③ Tỷ lê ph ̣ ương sai được giải thích bởi phương trình hồi quy nằm ngoài tổng các phương sai 2 Chi phí bao tri ̉ ̀ = 29.1 + 13.6* Số năm sử dung ̣ 3. 1) Y tăng là X1 tăng, X2 giam, va ̉ ̀ X3 tăng Correlation and Regression Analysis 31 2) y = 2.41 + 0.0698 x1 0.0248 x2 + 0.00586 x3 Proprietary to Samsung Electronics Company Rev 7.0 ... Tổng qt về? ?phân? ?tích tính? ?tương? ?quan ? ?Phân? ?tích tính? ?tương? ?quan? ? Phương pháp? ?phân? ?tích mức liên kết giữa các biến sớ. Có thể? ?phân? ?tích sử dụng biểu đồ? ?phân? ?tán? ?và? ?hệ sớ? ?tương? ?quan Biểu đồ? ?phân? ?tán... Hê sơ ̣ ́? ?tương? ?quan Hệ? ?tương? ?quan? ?là 0,834 chỉ ra rằng? ?tương? ?quan? ?dương? ?và? ?Pgiá trị là 0,000 là nhỏ hơn mức? ?tương? ?đối của 0,05. Do đó, chúng ta có thể kết luận rằng? ?tương? ?quan? ?chi phí quang ca... Rev 7.0 Tó m tắ t ? ?Phân? ?tí ch? ?tương? ?quan? ?và ? ?phân? ?tí ch hờ i? ?quy Được sử dụng để? ?phân? ?tích các mức liên kết giữa các biến sớ đầu vào? ?và? ?biến sớ đầu ra. Phân? ?tích? ?tương? ?quan? ?chỉ ra có bao nhiêu liên kết tồn tại giữa các biến sớ, trong đó