1. Trang chủ
  2. » Hóa học

Bài giảng Khai phá dữ liệu: Chương 3 - TS. Võ Thị Ngọc Châu

20 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 580,93 KB

Nội dung

Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010... Snee, Validation of Regression Models: Methods and Examples, Technometrics , Vol.. Giudici, Ap[r]

(1)

1

Ch

Chươươngng 3: 3: HHii qui qui dd liliuu

Học kỳ – 2011-2012

Cao

Cao HHọcọc NgànhNgành KhoaKhoa HHọcọc MáyMáy TínhTính Giáo

Giáo trìnhtrình đđiiệnện ttửử

Biên

Biên sosoạnạn bbởiởi: TS : TS VõVõ ThThịị NgNgọcọc ChâuChâu (

(2)

2

Tài liệu tham khảo

‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006 ‡ [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data

Mining”, MIT Press, 2001

‡ [3] David L Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008

‡ [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006 ‡ [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and

Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009

‡ [6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006

‡ [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine learning tools and techniques”, Second Edition, Elsevier Inc, 2005 ‡ [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,

“Successes and new directions in data mining”, IGI Global, 2008 ‡ [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge

(3)

3

Nội dung

‡ Chương 1: Tổng quan về khai phá dữ liệu ‡ Chương 2: Các vấn đề tiền xử lý dữ liệu ‡ Chương 3: Hi qui d liu

‡ Chương 4: Phân loại dữ liệu ‡ Chương 5: Gom cụm dữ liệu ‡ Chương 6: Luật kết hợp

‡ Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ

liệu

‡ Chương 8: Ứng dụng khai phá dữ liệu

‡ Chương 9: Các đề tài nghiên cứu khai phá dữ

liệu

(4)

4

Chương 3: Hồi qui dữ liệu

‡ 3.1 Tổng quan về hồi qui ‡ 3.2 Hồi qui tuyến tính

‡ 3.3 Hồi qui phi tuyến ‡ 3.4 Ứng dụng

‡ 3.5 Các vấn đề với hồi qui

(5)

5

3.0 Tình 1

(6)

6

3.0 Tình 2

x y

y = x + 1

X1 Y1

Y1’

(7)

7

3.0 Tình 3

Bài tốn phân tích giỏ hàng thị

trường (market basket analysis)

(8)

8

3.0 Tình 4

‡ Khảo sát yếu tố tác động đến xu hướng

sử dụng quảng cáo trực tuyến tại Việt Nam

„ Sự giải trí cảm nhận (+0.209) „ Chất lượng thông tin (+0.261)

„ Chất lượng thông tin cảm nhận (+0.199) „ Sự khó chịu cảm nhận (-0.175)

„ S tin cy cm nhn

„ Thái độ v tính riêng tư

„ Sự tương tác (+0.373)

„ Chuẩn chủ quan (+0.254)

(9)

9

3.0 Tình …

‡ Hồi qui (regression)

„ Khai phá dữ liệu có tính dự báo (Predictive data

mining)

‡ Tình huống ???

„ Khai phá dữ liệu có tính mô tả (Descriptive data

mining)

(10)

10

3.1 Tổng quan về hồi qui

‡ Định nghĩa - Hồi qui (regression)

„ J Han et al (2001, 2006): Hồi qui kỹ thuật thống

kê cho phép dự đoán trị (số) liên tục.

„ Wiki (2009): Hồi qui (Phân tích hồi qui – regression

analysis) kỹ thuật thống kê cho phép ước lượng các mối liên kết giữa biến

„ R D Snee (1977): Hồi qui (Phân tích hồi qui) kỹ

thuật thống kê lĩnh vực phân tích dữ liệu và xây dựng mơ hình từ thực nghiệm, cho phép mơ hình hồi qui vừa được khám phá được dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo dữ liệu.

(11)

11 11

3.1 Tổng quan về hồi qui

‡ Mơ hình hồi qui (regression model): mơ hình mơ

tả mối liên kết (relationship) giữa một tập các biến dự báo (predictor variables/independent variables) một hay nhiều đáp ứng

(responses/dependent variables).

Y = f(X, β)

X: biến dự báo (predictor/independent variables)

Y: đáp ứng (responses/dependent variables)

(12)

12

3.1 Tổng quan về hồi qui

‡ Phương trình hồi qui: Y = f(X, β)

„ X: biến dự báo (predictor/independent

variables)

„ Y: các đáp ứng (responses/dependent variables) „ β: hệ số hồi qui (regression coefficients)

Ỉ X dùng để giải thích sự biến đổi của các đáp ứng Y. Ỉ Y dùng đề mơ tả các hiện tượng (phenomenon)

được quan tâm/giải thích.

Ỉ Quan hệ giữa Y X được diễn tả bởi sự phụ thuộc

hàm của Y đối với X.

(13)

13 13

3.1 Tổng quan về hồi qui

‡ Phân loại

„ Hồi qui tuyến tính (linear) phi tuyến

(nonlinear)

„ Hồi qui đơn biến (single) và đa biến (multiple) „ Hồi qui có thơng số (parametric), phi thông số

(nonparametric), thông số kết hợp (semiparametric)

„ Hồi qui đối xứng (symmetric) bất đối xứng

(14)

14

3.1 Tổng quan về hồi qui

‡ Phân loại

„ Hồi qui tuyến tính

(linear) phi tuyến (nonlinear)

‡Linear in parameters:

kết hợp tuyến tính các thông số tạo nên Y

‡Nonlinear in

parameters: kết hợp phi tuyến thông số

tạo nên Y

(15)

15 15

3.1 Tổng quan về hồi qui

‡ Phân loại

„ Hồi qui đơn biến (single) và đa biến (multiple)

‡Single: X = (X1)

‡Multiple: X = (X1, X2, …, Xk)

1

ˆ 2 2

y = + x + x yˆ 26.89 4.06= + x

(16)

16

3.1 Tổng quan về hồi qui

‡ Phân loại

„ Hồi qui có thơng số (parametric), phi thông số (nonparametric),

và thông số kết hợp (semiparametric)

‡ Parametric: mơ hình hồi qui với hữu hạn thơng số ‡ Nonparametric: mơ hình hồi qui với vô hạn thông số

‡ Semiparametric: mô hình hồi qui với hữu hạn thơng số quan tâm

[Wikipedia]

[GAM - nonparameteric regression technique.ppt]

P Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003 Y = β0 + β1*X1 + f(X2)

Semiparametric

Y = β0 + f(X) Nonparametric

Y = β0 + β1*X Parametric

(17)

17 17

3.1 Tổng quan về hồi qui

‡ Phân loại

„ Hồi qui đối xứng (symmetric) bất đối xứng

(asymmetric)

‡Symmetric: mơ hình hồi qui có tính mơ tả (descriptive) (eg

log-linear models)

ƒ The objective of the analysis is descriptive – to describe

the associative structure among the variables

‡Asymmetric: mơ hình hồi qui có tính dự báo (predictive)

(eg linear regression models, logistic regression models )

ƒ The variables are divided in two groups, response and explanatory – to predict the responses on the basis of the explanatory variables

Ỉ Generalized linear models: symmetric vs asymmetric

(18)

18

3.2 Hồi qui tuyến tính

‡ Hồi qui tuyến tính đơn biến

„ Đường hồi qui (regression line)

‡ Hồi qui tuyến tính đa biến

(19)

19 19

3.2.1 Hồi qui tuyến tính đơn biến

Cho N đối tượng đã được quan sát, mơ hình hồi qui tuyến tính đơn biến được cho dưới dạng sau với εi dùng giữ phần biến thiên của đáp ứng Y khơng được giải thích từ X:

-Dạng đường thẳng

(20)

20

3.2.1 Hồi qui tuyến tính đơn biến

•Y= β0 + β1*X1 → Y = 0.636 + 2.018*X

Ngày đăng: 10/03/2021, 14:38