Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010... Snee, Validation of Regression Models: Methods and Examples, Technometrics , Vol.. Giudici, Ap[r]
(1)1
Ch
Chươươngng 3: 3: HHồồii qui qui ddữữ liliệệuu
Học kỳ – 2011-2012
Cao
Cao HHọcọc NgànhNgành KhoaKhoa HHọcọc MáyMáy TínhTính Giáo
Giáo trìnhtrình đđiiệnện ttửử
Biên
Biên sosoạnạn bbởiởi: TS : TS VõVõ ThThịị NgNgọcọc ChâuChâu (
(2)2
Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001
[3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008
[4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009
[6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
(3)3
Nội dung
Chương 1: Tổng quan về khai phá dữ liệu Chương 2: Các vấn đề tiền xử lý dữ liệu Chương 3: Hồi qui dữ liệu
Chương 4: Phân loại dữ liệu Chương 5: Gom cụm dữ liệu Chương 6: Luật kết hợp
Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ
liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứu khai phá dữ
liệu
(4)4
Chương 3: Hồi qui dữ liệu
3.1 Tổng quan về hồi qui 3.2 Hồi qui tuyến tính
3.3 Hồi qui phi tuyến 3.4 Ứng dụng
3.5 Các vấn đề với hồi qui
(5)5
3.0 Tình 1
(6)6
3.0 Tình 2
x y
y = x + 1
X1 Y1
Y1’
(7)7
3.0 Tình 3
Bài tốn phân tích giỏ hàng thị
trường (market basket analysis)
(8)8
3.0 Tình 4
Khảo sát yếu tố tác động đến xu hướng
sử dụng quảng cáo trực tuyến tại Việt Nam
Sự giải trí cảm nhận (+0.209) Chất lượng thông tin (+0.261)
Chất lượng thông tin cảm nhận (+0.199) Sự khó chịu cảm nhận (-0.175)
Sự tin cậy cảm nhận
Thái độ về tính riêng tư
Sự tương tác (+0.373)
Chuẩn chủ quan (+0.254)
(9)9
3.0 Tình …
Hồi qui (regression)
Khai phá dữ liệu có tính dự báo (Predictive data
mining)
Tình huống ???
Khai phá dữ liệu có tính mô tả (Descriptive data
mining)
(10)10
3.1 Tổng quan về hồi qui
Định nghĩa - Hồi qui (regression)
J Han et al (2001, 2006): Hồi qui kỹ thuật thống
kê cho phép dự đoán trị (số) liên tục.
Wiki (2009): Hồi qui (Phân tích hồi qui – regression
analysis) kỹ thuật thống kê cho phép ước lượng các mối liên kết giữa biến
R D Snee (1977): Hồi qui (Phân tích hồi qui) kỹ
thuật thống kê lĩnh vực phân tích dữ liệu và xây dựng mơ hình từ thực nghiệm, cho phép mơ hình hồi qui vừa được khám phá được dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo dữ liệu.
(11)11 11
3.1 Tổng quan về hồi qui
Mơ hình hồi qui (regression model): mơ hình mơ
tả mối liên kết (relationship) giữa một tập các biến dự báo (predictor variables/independent variables) một hay nhiều đáp ứng
(responses/dependent variables).
Y = f(X, β)
X: biến dự báo (predictor/independent variables)
Y: đáp ứng (responses/dependent variables)
(12)12
3.1 Tổng quan về hồi qui
Phương trình hồi qui: Y = f(X, β)
X: biến dự báo (predictor/independent
variables)
Y: các đáp ứng (responses/dependent variables) β: hệ số hồi qui (regression coefficients)
Ỉ X dùng để giải thích sự biến đổi của các đáp ứng Y. Ỉ Y dùng đề mơ tả các hiện tượng (phenomenon)
được quan tâm/giải thích.
Ỉ Quan hệ giữa Y X được diễn tả bởi sự phụ thuộc
hàm của Y đối với X.
(13)13 13
3.1 Tổng quan về hồi qui
Phân loại
Hồi qui tuyến tính (linear) phi tuyến
(nonlinear)
Hồi qui đơn biến (single) và đa biến (multiple) Hồi qui có thơng số (parametric), phi thông số
(nonparametric), thông số kết hợp (semiparametric)
Hồi qui đối xứng (symmetric) bất đối xứng
(14)14
3.1 Tổng quan về hồi qui
Phân loại
Hồi qui tuyến tính
(linear) phi tuyến (nonlinear)
Linear in parameters:
kết hợp tuyến tính các thông số tạo nên Y
Nonlinear in
parameters: kết hợp phi tuyến thông số
tạo nên Y
(15)15 15
3.1 Tổng quan về hồi qui
Phân loại
Hồi qui đơn biến (single) và đa biến (multiple)
Single: X = (X1)
Multiple: X = (X1, X2, …, Xk)
1
ˆ 2 2
y = + x + x yˆ 26.89 4.06= + x
(16)16
3.1 Tổng quan về hồi qui
Phân loại
Hồi qui có thơng số (parametric), phi thông số (nonparametric),
và thông số kết hợp (semiparametric)
Parametric: mơ hình hồi qui với hữu hạn thơng số Nonparametric: mơ hình hồi qui với vô hạn thông số
Semiparametric: mô hình hồi qui với hữu hạn thơng số quan tâm
[Wikipedia]
[GAM - nonparameteric regression technique.ppt]
P Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003 Y = β0 + β1*X1 + f(X2)
Semiparametric
Y = β0 + f(X) Nonparametric
Y = β0 + β1*X Parametric
(17)17 17
3.1 Tổng quan về hồi qui
Phân loại
Hồi qui đối xứng (symmetric) bất đối xứng
(asymmetric)
Symmetric: mơ hình hồi qui có tính mơ tả (descriptive) (eg
log-linear models)
The objective of the analysis is descriptive – to describe
the associative structure among the variables
Asymmetric: mơ hình hồi qui có tính dự báo (predictive)
(eg linear regression models, logistic regression models )
The variables are divided in two groups, response and explanatory – to predict the responses on the basis of the explanatory variables
Ỉ Generalized linear models: symmetric vs asymmetric
(18)18
3.2 Hồi qui tuyến tính
Hồi qui tuyến tính đơn biến
Đường hồi qui (regression line)
Hồi qui tuyến tính đa biến
(19)19 19
3.2.1 Hồi qui tuyến tính đơn biến
Cho N đối tượng đã được quan sát, mơ hình hồi qui tuyến tính đơn biến được cho dưới dạng sau với εi dùng giữ phần biến thiên của đáp ứng Y khơng được giải thích từ X:
-Dạng đường thẳng
(20)20
3.2.1 Hồi qui tuyến tính đơn biến
•Y= β0 + β1*X1 → Y = 0.636 + 2.018*X