Hồi quy tuyến tính thích hợp với: •2 loại vấn đề nghiên cứu: •Dự đoán (Prediction) – Dự đoán sự biến thiên của biến phụ thuộc vào các biến độc lập – So sánh các mô hình cạnh tranh với nhau •Giải thích (Explanation) – Khảo sát hệ số hồi quy của từng biến độc lập (dấu, độ lớn – Trị trung bình, mức ý nghĩa về mặt thống kê) vào biến phụ thuộc – Giải thích về mặt lý thuyết sự phụ thuộc tuyến tính và độ lớn của các hệ số hồi quy này •Xác định quan hệ thống kê giữa các biến độc lập biến phụ thuộc
Trang 1Multiple Regression
n Multiple regression introduction
n Multiple Regression Model
n Least Squares Method
n Multiple Coefficient of Determination
n Model Assumptions
n Testing for Significance
n Using the Estimated Regression Equation
for Estimation and Prediction
Trang 2Hô ̀ i quy đa biê ́ n
Tính thích hợp của hồi quy đa biến đối với các nghiên
cứu:
Hồi quy đa biến là một kỹ thuật thống kê được dùng để
phân tích quan hệ giữa một biến độc lập và nhiều biến
phụ thuộc (biến dự báo)
Mục tiêu của hồi quy đa biến là sử dụng các biến độc lập
với giá trị đã biết để tiên đoán giá trị của biến phụ
thuộc
Trang 3Hô ̀ i quy đa biê ́ n
– Giải thích về mặt lý thuyết sự phụ thuộc tuyến tính và độ lớn của các hệ số hồi quy này
Trang 4Hô ̀ i quy đa biê ́ n
Trang 5Hô ̀ i quy đa biê ́ n
Trang 6Hô ̀ i quy đa biê ́ n
Trang 7The equation that describes how the dependent variable y is related to the independent variables x1,
x2, x p and an error term is called the multiple
regression model
Multiple Regression Model
y = β0 + β1x1 + β2x2 + + β p x p + ε
where:
β0, β1, β2, , β p are the parameters, and
ε is a random variable called the error term
Trang 8The equation that describes how the mean value
of y is related to x1, x2, x p is called the multiple
regression equation
Multiple Regression Equation
E(y) = β0 + β1x1 + β2x2 + + β p x p
Trang 9A simple random sample is used to compute sample statistics b0, b1, b2, , b p that are used as the
point estimators of the parameters β0, β1, β2, , β p
Estimated Multiple Regression Equation
^
y = b0 + b1x1 + b2x2 + + b p x p
The estimated multiple regression equation is:
Trang 10Sample statistics are
b , b , b , , b
b0, b1, b2, , b p
provide estimates of
β0, β1, β2, , β p
Trang 11L ự a cho ̣ n biê ́ n đô ̣ c lâ ̣ p
n Phương pháp hierarichal entry
• Dựa trên các nghiên cứu trước hay kinh nghiệm
của người nghiên cứu để chọn biến đưa vào
• Các biến số đã biết được đưa vào mô hình theo thứ
tự tầm quan trọng trong việc dự báo biến phụ
thuộc
Trang 12L ự a cho ̣ n biê ́ n đô ̣ c lâ ̣ p
n Phương pha ́ p hierarichal entry
• Ca ́ c biê ́ n co ́ thê ̉ đ ượ c đưa va ̀ o mô hi ̀ nh theo mô ̣ t trong ca ́ c
ca ́ ch sau:
• Đưa hê ́ t va ̀ o mô ̣ t lâ ̀ n (Enter - SPSS )
• Bă ́ t đâ ̀ u tư ̀ mô hi ̀ nh chi ̉ co ́ hê ̣ sô ́ gô ́ c va ̀ thêm t ừ ng biê ́ n
va ̀ o Mô ̃ i lâ ̀ n thêm se ̃ kiê ̉ m tra m ứ c đô ̣ gia ̉ i thi ́ ch cu ̉ a mô
hi ̀ nh đê ̉ cho ̣ n biê ́ n co ́ m ứ c gia ̉ i thi ́ ch cao nhâ ́ t đưa va ̀ o
tr ướ c (Forward)
• Đưa va ̀ o mô ̃ i lâ ̀ n mô ̣ t biê ́ n va ̀ kiê ̉ m tra la ̣ i tâ ́ t ca ̉ ca ́ c biê ́ n
va ̀ loa ̣ i biê ́ n i ́ t h ữ u du ̣ ng nhâ ́ t (Stepwise – SPSS)
• Đưa va ̀ o hê ́ t mô ̣ t lâ ̀ n va ̀ loa ̣ i t ừ ng biê ́ n mô ̣ t d ự a va ̀ o t test (Backward)
à Backward du ̀ ng phô ̉ biê ́ n va ̀ cho kê ́ t qua ̉ tô ́ t h ơ ơ n n Forward
Trang 13Least Squares Method
n Least Squares Criterion
2
ˆmin∑(y i − yˆi)2
min∑(y i − y i)
n Computation of Coefficient Values
The formulas for the regression coefficients
b0, b1, b2, b p involve the use of matrix algebra
We will rely on computer software packages to
perform the calculations
Trang 14The years of experience, score on the aptitude
test, and corresponding annual salary ($1000s) for a
sample of 20 programmers is shown on the next
slide
n Example: Programmer Salary Survey
Multiple Regression Model
A software firm collected data for a sample
of 20 computer programmers A suggestion
was made that regression analysis could
be used to determine if salary was related
to the years of experience and the score
on the firm’s programmer aptitude test
Trang 1588737581748779947089
244323.734.335.83822.223.130
3826.636.231.6293430.133.928.230Exper Score Salary Exper Score Salary
Multiple Regression Model
Trang 16Suppose we believe that salary (y) is
related to the years of experience (x1) and the score on
the programmer aptitude test (x2) by the following
Trang 17Solving for the Estimates of β0, β1, β2
x1 x2 y
4 78 24
7 100 43
3 89 30
ComputerPackagefor SolvingMultipleRegressionProblems
b0 =
b1 =
b2 =
R2 =etc
Trang 18n Excel Worksheet (showing partial data entered)
Note: Rows 10-21 are not shown.
Solving for the Estimates of β0, β1, β2
Trang 19n Excel’s Regression Dialog Box
Solving for the Estimates of β0, β1, β2
Trang 20n Excel’s Regression Equation Output
Note: Columns F-I are not shown.
Solving for the Estimates of β0, β1, β2
Trang 21Estimated Regression Equation
SALARY = 3.174 + 1.404(EXPER) + 0.251(SCORE)
Note: Predicted salary will be in thousands of dollars
Trang 22Hô ̀ i quy đa biê ́ n
Ý nghĩa của các hệ số hồi quy
• Thể hiện độ mạnh, chiều hướng của ảnh hưởng
của từng biến độc lập đến biến phụ thuộc
• Thể hiện mức độ tăng của biến phụ thuộc khi biến
độc lập nhận giá trị bằng 1 hay tăng lên 1 đơn vị
và các biến khác không thay đổi giá trị
Ý nghĩa của hệ số tung độ gốc:
Giá trị của tung độ gốc chỉ đúng với các giá trị tươngứng của biến độc lập
Thể hiện giá trị của biến phụ thuộc khi các biến độc
lập nhận giá trị bằng 0
Trang 23Salary is expected to increase by $1,404 for
each additional year of experience (when the variable
score on programmer attitude test is held constant)
b1 = 1 404
b1 = 1 404
Interpreting the Coefficients
Trang 24Salary is expected to increase by $251 for each
additional point scored on the programmer aptitude
test (when the variable years of experience is held
Trang 25Multiple Coefficient of Determination
n Relationship Among SST, SSR, SSE
where:
SST = total sum of squaresSSR = sum of squares due to regressionSSE = sum of squares due to error
Trang 26n Excel’s ANOVA Output
Trang 27Multiple Coefficient of Determination
R2 = 500.3285/599.7855 = .83418
R2 = SSR/SST
R2 increased as independent variables added
à Problem in explaination
Trang 28Adjusted Multiple Coefficient
Trang 29n Excel’s Regression Statistics
Trang 30The variance of ε , denoted by σ 2, is the same for all
values of the independent variables
The variance of ε , denoted by σ 2, is the same for all
values of the independent variables
The error ε is a normally distributed random variable
reflecting the deviation between the y value and the
expected value of y given by β0 + β1x1 + β2x2 + + β p x p
The error ε is a normally distributed random variable
reflecting the deviation between the y value and the
expected value of y given by β0 + β1x1 + β2x2 + + β p x p
Assumptions About the Error Term ε
The error ε is a random variable with mean of zero.
The error ε is a random variable with mean of zero
The values of ε are independent.
The values of ε are independent
Trang 31In simple linear regression, the F and t tests provide
the same conclusion
In simple linear regression, the F and t tests provide
the same conclusion
Testing for Significance
In multiple regression, the F and t tests have different
purposes
In multiple regression, the F and t tests have different
purposes
Trang 32Testing for Significance: F Test
The F test is referred to as the test for overall
significance
The F test is referred to as the test for overall
significance
The F test is used to determine whether a significant
relationship exists between the dependent variable
and the set of all the independent variables
The F test is used to determine whether a significant
relationship exists between the dependent variable
and the set of all the independent variables
Trang 33A separate t test is conducted for each of the
independent variables in the model
A separate t test is conducted for each of the
independent variables in the model
If the F test shows an overall significance, the t test is
used to determine whether each of the individual
independent variables is significant
If the F test shows an overall significance, the t test is
used to determine whether each of the individual
independent variables is significant
Testing for Significance: t Test
We refer to each of these t tests as a test for individual
significance
We refer to each of these t tests as a test for individual
significance
Trang 34Testing for Significance: F Test
Hypotheses
Rejection Rule
Test Statistics
H0: β1 = β2 = = β p = 0
Ha: One or more of the parameters
is not equal to zero
Trang 35F Test for Overall Significance
Hypotheses H0: β1 = β2 = 0
Ha: One or both of the parameters
is not equal to zero
Rejection Rule For α = 05 and d.f = 2, 17; F.05 = 3.59
Reject H0 if p-value < 05 or F > 3.59
Trang 36n Excel’s ANOVA Output
F Test for Overall Significance
p-value used to test foroverall significance
Trang 37F Test for Overall Significance
Test Statistics F = MSR/MSE
= 250.16/5.85 = 42.76Conclusion p-value < 05, so we can reject H0
(Also, F = 42.76 > 3.59)
Trang 38Testing for Significance: t Test
Trang 39t Test for Significance
Trang 40n Excel’s Regression Equation Output
Note: Columns F-I are not shown.
t Test for Significance
of Individual Parameters
t statistic and p-value used to test for the
individual significance of “Experience”
Trang 41n Excel’s Regression Equation Output
Note: Columns F-I are not shown.
t Test for Significance
of Individual Parameters
t statistic and p-value used to test for the
Trang 42t Test for Significance
Conclusions Reject both H0: β1 = 0 and H0: β2 = 0
Both independent variables aresignificant