Hồi quy dữ liệu khai phá dữ liệu
Trang 1Chương 3: Hồi qui dữ liệu
Khai phá dữ liệu (Data mining)
Học kỳ 1 – 2009-2010
Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh
Trang 2Nội dung
3.1 T ổng quan về hồi qui
3.2 H ồi qui tuyến tính
3.3 H ồi qui phi tuyến
3.4 Ứng dụng
3.5 C ác vấn đề với hồi qui
3.6 Tóm tắt
Trang 3Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining:
Concepts and Techniques”, Second Edition, Morgan
Kaufmann Publishers, 2006.
[2] David Hand, Heikki Mannila, Padhraic Smyth,
“Principles of Data Mining”, MIT Press, 2001.
[3] David L Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.
[4] Graham J Williams, Simeon J Simoff, “Data Mining:
Theory, Methodology, Techniques, and Applications”,
Springer-Verlag, 2006.
[5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005.
[6] Oracle, “Data Mining Concepts”, B28129-01, 2008.
[7] Oracle, “Data Mining Application Developer’s Guide”,
B28131-01, 2008
Trang 43.0 Tình huống 1
Ngày mai giá
cổ phiếu STB
sẽ là bao nhiêu???
Trang 5Mô hình phân bố dữ liệu của y theo x???
Trang 63.0 Tình huống 3
Bài toán phân tích giỏ hàng thị
trường (market basket analysis)
sự kết hợp giữa các mặt hàng?
Trang 73.0 Tình huống 4
Khảo sát các yếu tố tác động đến xu hướng
sử dụng quảng cáo trực tuyến tại Việt Nam
Sự giải trí cảm nhận (+0.209)
Chất lượng thông tin (+0.261)
Chất lượng thông tin cảm nhận (+0.199)
Trang 83.0 Tình huống …
Hồi qui (regression)
Khai phá dữ liệu có tính dự báo (Predictive data mining)
Tình huống ???
Khai phá dữ liệu có tính mô tả (Descriptive data mining)
Tình huống ???
Trang 93.1 Tổng quan về hồi qui
Định nghĩa - Hồi qui (regression)
J Han et al (2001, 2006): Hồi qui là kỹ thuật
thống kê cho phép dự đoán các trị (số) liên tục
Wiki (2009): Hồi qui (Phân tích hồi qui –
regression analysis) là kỹ thuật thống kê cho phép ước lượng các mối liên kết giữa các biến
R D Snee (1977): Hồi qui (Phân tích hồi qui) là
kỹ thuật thống kê trong lĩnh vực phân tích dữ liệu
và xây dựng các mô hình từ thực nghiệm, cho
phép mô hình hồi qui vừa được khám phá được
dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo ra dữ liệu
Trang 103.1 Tổng quan về hồi qui
Mô hình hồi qui (regression model): mô hình mô tả mối liên kết (relationship) giữa một tập các biến dự báo
(predictor variables/independent variables) và một hay
nhiều đáp ứng (responses/dependent variables).
Phân loại
Hồi qui tuyến tính (linear) và phi tuyến (nonlinear)
Hồi qui đơn biến (single) và đa biến (multiple)
Trang 113.1 Tổng quan về hồi qui
Phương trình hồi qui: Y = f(X, β)
X: các biến dự báo (predictor/independent
variables)
Y: các đáp ứng (responses/dependent variables)
β: các hệ số hồi qui (regression coefficients)
X dùng để giải thích sự biến đổi của các đáp ứng Y
Y dùng đề mô tả các hiện tượng (phenomenon)
được quan tâm/giải thích
Quan hệ giữa Y và X được diễn tả bởi sự phụ thuộc hàm của Y đối với X
β mô tả sự ảnh hưởng của X đối với Y
Trang 123.1 Tổng quan về hồi qui
Phân loại
Hồi qui tuyến tính (linear) và phi tuyến (nonlinear)
Linear in parameters: kết hợp tuyến tính các thông số tạo nên Y
Nonlinear in parameters: kết hợp phi tuyến các thông số tạo nên Y
Hồi qui đơn biến (single) và đa biến (multiple)
Single: X = (X1)
Multiple: X = (X1, X2, …, Xk)
Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric)
Parametric: mô hình hồi qui với hữu hạn thông số
Nonparametric: mô hình hồi qui với vô hạn thông số
Semiparametric: mô hình hồi qui với hữu hạn thông số được quan tâm
Trang 133.2 Hồi qui tuyến tính
Hồi qui tuyến tính đơn biến
Hồi qui tuyến tính đa biến
Trang 143.2.1 Hồi qui tuyến tính đơn biến
Cho N đối tượng đã được quan sát, mô hình hồi qui tuyến
tính đơn biến được cho dưới dạng sau v ới εi dùng giữ phần
biến thiên của đáp ứng Y không được giải thích từ X :
-D ạng đường thẳng
Trang 153.2.1 Hồi qui tuyến tính đơn biến
•Y= β0 + β1*X1 Y = 0.636 + 2.018*X→
•Dấu của β1 cho biết sự ảnh hưởng của X đối với Y.
Trang 163.2.1 Hồi qui tuyến tính đơn biến
Ước lượng bộ thông số β ( ) để đạt được mô
hình hồi qui tuyến tính đơn biến
Trang 173.2.2 Hồi qui tuyến tính đa biến
Hồi qui tuyến tính đa biến: phân tích mối
quan hệ giữa biến phụ thuộc
(response/dependent variable) và hai hay
nhiều biến độc lập (independent variables)
yi = b0 + b1xi1 + b2xi2 + … + bkxik
i = 1 n với n là số đối tượng đã quan sát
k = số biến độc lập (số thuộc tính/tiêu chí/yếu tố…)
Trang 183.2.2 Hồi qui tuyến tính đa biến
k k
Trị ước lượng của Y
Trị ước lượng của
bộ thông số b
Trang 193.2.2 Hồi qui tuyến tính đa biến
Example: a sales manager of Tackey Toys, needs to predict sales of Tackey products in selected market area He believes that
advertising expenditures and the population
in each market area can be used to predict sales He gathered sample of toy sales,
advertising expenditures and the population
as below Find the linear multiple regression equation which the best fit to the data.
Trang 203.2.2 Hồi qui tuyến tính đa biến
400 600
10.0 F
100 100
3.0 E
200 400
6.0 D
400 800
8.0 C
300 700
5.0 B
100 200
1.0 A
Toy sales
(Thousands of Dollars) y
Population (Thousands) x2
Advertising Expenditures (Thousands of Dollars) x1
Market Area
Trang 213.2.2 Hồi qui tuyến tính đa biến
ˆ 6.3972 20.4921 0.2805
Trang 223.3 Hồi qui phi tuyến
Trang 233.4 Ứng dụng
Quá trình khai phá dữ liệu
Giai đoạn tiền xử lý dữ liệu
Giai đoạn khai phá dữ liệu
Khai phá dữ liệu có tính mô tả
Khai phá dữ liệu có tính dự báo
Các lĩnh vực ứng dụng: sinh học (biology), nông nghiệp (agriculture), xã hội (social
issues), kinh tế (economy), kinh doanh
(business), …
Trang 243.5 Các vấn đề với hồi qui
Các giả định (assumptions) đi kèm với bài
toán hồi qui.
Lượng dữ liệu được xử lý.
Đánh giá mô hình hồi qui.
Các kỹ thuật tiên tiến cho hồi qui:
Artificial Neural Network (ANN)
Trang 253.6 Tóm tắt
Hồi qui
Kỹ thuật thống kê, được áp dụng cho các thuộc tính liên tục
(continuous attributes/features)
Có lịch sử phát triển lâu đời
Đơn giản nhưng rất hữu dụng, được ứng dụng rộng rãi
Cho thấy sự đóng góp đáng kể của lĩnh vực thống kê trong lĩnh vực khai phá dữ liệu
Các dạng mô hình hồi qui: tuyến tính/phi tuyến, đơn
biến/đa biến, có thông số/phi thông số/thông số kết hợp, đối xứng/bất đối xứng
Trang 26Hỏi & Đáp …