1. Trang chủ
  2. » Công Nghệ Thông Tin

Hồi quy dữ liệu khai phá dữ liệu

26 1,5K 28
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 1,14 MB

Nội dung

Hồi quy dữ liệu khai phá dữ liệu

Trang 1

Chương 3: Hồi qui dữ liệu

Khai phá dữ liệu (Data mining)

Học kỳ 1 – 2009-2010

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh

Trang 2

Nội dung

 3.1 T ổng quan về hồi qui

 3.2 H ồi qui tuyến tính

 3.3 H ồi qui phi tuyến

 3.4 Ứng dụng

 3.5 C ác vấn đề với hồi qui

 3.6 Tóm tắt

Trang 3

Tài liệu tham khảo

[1] Jiawei Han, Micheline Kamber, “Data Mining:

Concepts and Techniques”, Second Edition, Morgan

Kaufmann Publishers, 2006.

[2] David Hand, Heikki Mannila, Padhraic Smyth,

“Principles of Data Mining”, MIT Press, 2001.

 [3] David L Olson, Dursun Delen, “Advanced Data Mining

Techniques”, Springer-Verlag, 2008.

 [4] Graham J Williams, Simeon J Simoff, “Data Mining:

Theory, Methodology, Techniques, and Applications”,

Springer-Verlag, 2006.

[5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005.

[6] Oracle, “Data Mining Concepts”, B28129-01, 2008.

 [7] Oracle, “Data Mining Application Developer’s Guide”,

B28131-01, 2008

Trang 4

3.0 Tình huống 1

Ngày mai giá

cổ phiếu STB

sẽ là bao nhiêu???

Trang 5

Mô hình phân bố dữ liệu của y theo x???

Trang 6

3.0 Tình huống 3

Bài toán phân tích giỏ hàng thị

trường (market basket analysis)

 sự kết hợp giữa các mặt hàng?

Trang 7

3.0 Tình huống 4

 Khảo sát các yếu tố tác động đến xu hướng

sử dụng quảng cáo trực tuyến tại Việt Nam

 Sự giải trí cảm nhận (+0.209)

 Chất lượng thông tin (+0.261)

 Chất lượng thông tin cảm nhận (+0.199)

Trang 8

3.0 Tình huống …

 Hồi qui (regression)

 Khai phá dữ liệu có tính dự báo (Predictive data mining)

 Tình huống ???

 Khai phá dữ liệu có tính mô tả (Descriptive data mining)

 Tình huống ???

Trang 9

3.1 Tổng quan về hồi qui

 Định nghĩa - Hồi qui (regression)

 J Han et al (2001, 2006): Hồi qui là kỹ thuật

thống kê cho phép dự đoán các trị (số) liên tục

 Wiki (2009): Hồi qui (Phân tích hồi qui –

regression analysis) là kỹ thuật thống kê cho phép ước lượng các mối liên kết giữa các biến

 R D Snee (1977): Hồi qui (Phân tích hồi qui) là

kỹ thuật thống kê trong lĩnh vực phân tích dữ liệu

và xây dựng các mô hình từ thực nghiệm, cho

phép mô hình hồi qui vừa được khám phá được

dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo ra dữ liệu

Trang 10

3.1 Tổng quan về hồi qui

 Mô hình hồi qui (regression model): mô hình mô tả mối liên kết (relationship) giữa một tập các biến dự báo

(predictor variables/independent variables) và một hay

nhiều đáp ứng (responses/dependent variables).

 Phân loại

 Hồi qui tuyến tính (linear) và phi tuyến (nonlinear)

 Hồi qui đơn biến (single) và đa biến (multiple)

Trang 11

3.1 Tổng quan về hồi qui

Phương trình hồi qui: Y = f(X, β)

X: các biến dự báo (predictor/independent

variables)

Y: các đáp ứng (responses/dependent variables)

β: các hệ số hồi qui (regression coefficients)

 X dùng để giải thích sự biến đổi của các đáp ứng Y

 Y dùng đề mô tả các hiện tượng (phenomenon)

được quan tâm/giải thích

 Quan hệ giữa Y và X được diễn tả bởi sự phụ thuộc hàm của Y đối với X

 β mô tả sự ảnh hưởng của X đối với Y

Trang 12

3.1 Tổng quan về hồi qui

 Phân loại

 Hồi qui tuyến tính (linear) và phi tuyến (nonlinear)

 Linear in parameters: kết hợp tuyến tính các thông số tạo nên Y

 Nonlinear in parameters: kết hợp phi tuyến các thông số tạo nên Y

 Hồi qui đơn biến (single) và đa biến (multiple)

 Single: X = (X1)

 Multiple: X = (X1, X2, …, Xk)

 Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric)

 Parametric: mô hình hồi qui với hữu hạn thông số

 Nonparametric: mô hình hồi qui với vô hạn thông số

 Semiparametric: mô hình hồi qui với hữu hạn thông số được quan tâm

Trang 13

3.2 Hồi qui tuyến tính

 Hồi qui tuyến tính đơn biến

 Hồi qui tuyến tính đa biến

Trang 14

3.2.1 Hồi qui tuyến tính đơn biến

Cho N đối tượng đã được quan sát, mô hình hồi qui tuyến

tính đơn biến được cho dưới dạng sau v ới εi dùng giữ phần

biến thiên của đáp ứng Y không được giải thích từ X :

-D ạng đường thẳng

Trang 15

3.2.1 Hồi qui tuyến tính đơn biến

•Y= β0 + β1*X1 Y = 0.636 + 2.018*X

•Dấu của β1 cho biết sự ảnh hưởng của X đối với Y.

Trang 16

3.2.1 Hồi qui tuyến tính đơn biến

 Ước lượng bộ thông số β ( ) để đạt được mô

hình hồi qui tuyến tính đơn biến

Trang 17

3.2.2 Hồi qui tuyến tính đa biến

 Hồi qui tuyến tính đa biến: phân tích mối

quan hệ giữa biến phụ thuộc

(response/dependent variable) và hai hay

nhiều biến độc lập (independent variables)

yi = b0 + b1xi1 + b2xi2 + … + bkxik

i = 1 n với n là số đối tượng đã quan sát

k = số biến độc lập (số thuộc tính/tiêu chí/yếu tố…)

Trang 18

3.2.2 Hồi qui tuyến tính đa biến

k k

Trị ước lượng của Y

Trị ước lượng của

bộ thông số b

Trang 19

3.2.2 Hồi qui tuyến tính đa biến

 Example: a sales manager of Tackey Toys, needs to predict sales of Tackey products in selected market area He believes that

advertising expenditures and the population

in each market area can be used to predict sales He gathered sample of toy sales,

advertising expenditures and the population

as below Find the linear multiple regression equation which the best fit to the data.

Trang 20

3.2.2 Hồi qui tuyến tính đa biến

400 600

10.0 F

100 100

3.0 E

200 400

6.0 D

400 800

8.0 C

300 700

5.0 B

100 200

1.0 A

Toy sales

(Thousands of Dollars) y

Population (Thousands) x2

Advertising Expenditures (Thousands of Dollars) x1

Market Area

Trang 21

3.2.2 Hồi qui tuyến tính đa biến

ˆ 6.3972 20.4921 0.2805

Trang 22

3.3 Hồi qui phi tuyến

Trang 23

3.4 Ứng dụng

 Quá trình khai phá dữ liệu

 Giai đoạn tiền xử lý dữ liệu

 Giai đoạn khai phá dữ liệu

 Khai phá dữ liệu có tính mô tả

 Khai phá dữ liệu có tính dự báo

 Các lĩnh vực ứng dụng: sinh học (biology), nông nghiệp (agriculture), xã hội (social

issues), kinh tế (economy), kinh doanh

(business), …

Trang 24

3.5 Các vấn đề với hồi qui

 Các giả định (assumptions) đi kèm với bài

toán hồi qui.

 Lượng dữ liệu được xử lý.

 Đánh giá mô hình hồi qui.

 Các kỹ thuật tiên tiến cho hồi qui:

 Artificial Neural Network (ANN)

Trang 25

3.6 Tóm tắt

 Hồi qui

 Kỹ thuật thống kê, được áp dụng cho các thuộc tính liên tục

(continuous attributes/features)

 Có lịch sử phát triển lâu đời

 Đơn giản nhưng rất hữu dụng, được ứng dụng rộng rãi

 Cho thấy sự đóng góp đáng kể của lĩnh vực thống kê trong lĩnh vực khai phá dữ liệu

 Các dạng mô hình hồi qui: tuyến tính/phi tuyến, đơn

biến/đa biến, có thông số/phi thông số/thông số kết hợp, đối xứng/bất đối xứng

Trang 26

Hỏi & Đáp …

Ngày đăng: 17/01/2013, 11:11

HÌNH ẢNH LIÊN QUAN

Hình hồi qui tuyến tính đơn biến - Hồi quy dữ liệu khai phá dữ liệu
Hình h ồi qui tuyến tính đơn biến (Trang 16)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w