1. Trang chủ
  2. » Giáo án - Bài giảng

Chương 3 hồi qui dữ liệu

26 292 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 1,14 MB

Nội dung

1 Chương 3: Hồi qui dữ liệu Chương 3: Hồi qui dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật Máy Tính Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp. Hồ Chí Minh Trường Đại Học Bách Khoa Tp. Hồ Chí Minh 2 Nội dung  3.1. Tổng quan về hồi qui  3.2. Hồi qui tuyến tính  3.3. Hồi qui phi tuyến  3.4. Ứng dụng  3.5. Các vấn đề với hồi qui  3.6. Tóm tắt 3 Tài liệu tham khảo  [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.  [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001.  [3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008.  [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006.  [5] ZhaoHui Tang, Jamie MacLennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005.  [6] Oracle, “Data Mining Concepts”, B28129-01, 2008.  [7] Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008. 4 3.0. Tình huống 1 Ngày mai giá cổ phiếu STB sẽ là bao nhiêu??? 5 3.0. Tình huống 2 x y y = x + 1 X1 Y1 Y1’ Mô hình phân bố dữ liệu của y theo x??? 6 3.0. Tình huống 3 Bài toán phân tích giỏ hàng thị trường (market basket analysis)  sự kết hợp giữa các mặt hàng? 7 3.0. Tình huống 4  Khảo sát các yếu tố tác động đến xu hướng sử dụng quảng cáo trực tuyến tại Việt Nam  Sự giải trí cảm nhận (+0.209)  Chất lượng thông tin (+0.261)  Chất lượng thông tin cảm nhận (+0.199)  Sự khó chịu cảm nhận (-0.175)  Sự tin cậy cảm nhận  Thái độ về tính riêng tư  Sự tương tác (+0.373)  Chuẩn chủ quan (+0.254)  Nhận thức kiểm soát hành vi (+0.377) 8 3.0. Tình huống …  Hồi qui (regression)  Khai phá dữ liệu có tính dự báo (Predictive data mining)  Tình huống ???  Khai phá dữ liệu có tính mô tả (Descriptive data mining)  Tình huống ??? 9 3.1. Tổng quan về hồi qui  Định nghĩa - Hồi qui (regression)  J. Han et al (2001, 2006): Hồi qui là kỹ thuật thống kê cho phép dự đoán các trị (số) liên tục.  Wiki (2009): Hồi qui (Phân tích hồi qui – regression analysis) là kỹ thuật thống kê cho phép ước lượng các mối liên kết giữa các biến  R. D. Snee (1977): Hồi qui (Phân tích hồi qui) là kỹ thuật thống kê trong lĩnh vực phân tích dữ liệu và xây dựng các mô hình từ thực nghiệm, cho phép mô hình hồi qui vừa được khám phá được dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo ra dữ liệu. 10 3.1. Tổng quan về hồi qui  Mô hình hồi qui (regression model): mô hình mô tả mối liên kết (relationship) giữa một tập các biến dự báo (predictor variables/independent variables) và một hay nhiều đáp ứng (responses/dependent variables).  Phân loại  Hồi qui tuyến tính (linear) và phi tuyến (nonlinear)  Hồi qui đơn biến (single) và đa biến (multiple)  Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric)  Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric) [...]... residuals) 22 3. 4 Ứng dụng  Quá trình khai phá dữ liệu  Giai đoạn tiền xử lý dữ liệu  Giai đoạn khai phá dữ liệu    Khai phá dữ liệu có tính mô tả Khai phá dữ liệu có tính dự báo Các lĩnh vực ứng dụng: sinh học (biology), nông nghiệp (agriculture), xã hội (social issues), kinh tế (economy), kinh doanh (business), … 23 3.5 Các vấn đề với hồi qui  Các giả định (assumptions) đi kèm với bài toán hồi qui ... mô hình hồi qui với hữu hạn thông số Nonparametric: mô hình hồi qui với vô hạn thông số Semiparametric: mô hình hồi qui với hữu hạn thông số được quan tâm Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric)   Symmetric: mô hình hồi qui có tính mô tả (descriptive) (eg log-linear models) Asymmetric: mô hình hồi qui có tính dự báo (predictive) (eg generalized linear models) 12 3. 2 Hồi qui tuyến... 3. 2 Hồi qui tuyến tính  Hồi qui tuyến tính đơn biến  Hồi qui tuyến tính đa biến 13 3.2.1 Hồi qui tuyến tính đơn biến Cho N đối tượng đã được quan sát, mô hình hồi qui tuyến tính đơn biến được cho dưới dạng sau với εi dùng giữ phần biến thiên của đáp ứng Y không được giải thích từ X : -Dạng đường thẳng -Dạng parabola 14 3. 2.1 Hồi qui tuyến tính đơn biến •Y= β0 + β1*X1 → Y = 0. 636 + 2.018*X •Dấu của β1... equation which the best fit to the data 19 3. 2.2 Hồi qui tuyến tính đa biến Market Area Advertising Expenditures (Thousands of Dollars) x1 Population (Thousands) x2 Toy sales (Thousands of Dollars) y A 1.0 200 100 B 5.0 700 30 0 C 8.0 800 400 D 6.0 400 200 E 3. 0 100 100 F 10.0 600 400 20 3. 2.2 Hồi qui tuyến tính đa biến ˆ y = 6 .39 72 + 20.4921x1 + 0.2805 x2 21 3. 3 Hồi qui phi tuyến  Y = f(X, β)    Y là... 0. 636 + 2.018*X •Dấu của β1 cho biết sự ảnh hưởng của X đối với Y 15 3. 2.1 Hồi qui tuyến tính đơn biến  Ước lượng bộ thông số β ( ) để đạt được mô hình hồi qui tuyến tính đơn biến Thặng dư (residual) Tổng thặng dư bình phương (sum of squared residuals)  tối thiểu hóa Trị ước lượng của β 16 3. 2.2 Hồi qui tuyến tính đa biến  Hồi qui tuyến tính đa biến: phân tích mối quan hệ giữa biến phụ thuộc (response/dependent... giữa Y và X được diễn tả bởi sự phụ thuộc hàm của Y đối với X β mô tả sự ảnh hưởng của X đối với Y 11 3. 1 Tổng quan về hồi qui  Phân loại  Hồi qui tuyến tính (linear) và phi tuyến (nonlinear)    Hồi qui đơn biến (single) và đa biến (multiple)    Single: X = (X1) Multiple: X = (X1, X2, …, Xk) Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric) ... doanh (business), … 23 3.5 Các vấn đề với hồi qui  Các giả định (assumptions) đi kèm với bài toán hồi qui  Lượng dữ liệu được xử lý  Đánh giá mô hình hồi qui  Các kỹ thuật tiên tiến cho hồi qui:  Artificial Neural Network (ANN)  Support Vector Machine (SVM) 24 3. 6 Tóm tắt  Hồi qui   Có lịch sử phát triển lâu đời  Đơn giản nhưng rất hữu dụng, được ứng dụng rộng rãi   Kỹ thuật thống kê, được... Y khi X = 0 b = trị của các hệ số hồi qui 17 3. 2.2 Hồi qui tuyến tính đa biến Trị ước lượng của Y Trị ước lượng của bộ thông số b ˆ y = b0 + b1 x1 + b2 x2 + K + bk xk ( b= X X 1  Y1  1 Y  Y =  2, X =  M M     Yn  1 T ) −1 T X Y x1,1 x1,2 K x2,1 x2,2 K M M xn ,1 xn ,2 K x1,k  b0  b  x2, k   , b =  1 M M     xn ,k  bk  18 3. 2.2 Hồi qui tuyến tính đa biến  Example:.. .3. 1 Tổng quan về hồi qui  Phương trình hồi qui: Y = f(X, β)  X: các biến dự báo (predictor/independent variables)  Y: các đáp ứng (responses/dependent variables)  β: các hệ số hồi qui (regression coefficients) X dùng để giải thích sự biến đổi của các đáp ứng Y Y dùng đề mô tả các hiện tượng... dụng rộng rãi   Kỹ thuật thống kê, được áp dụng cho các thuộc tính liên tục (continuous attributes/features) Cho thấy sự đóng góp đáng kể của lĩnh vực thống kê trong lĩnh vực khai phá dữ liệu Các dạng mô hình hồi qui: tuyến tính/phi tuyến, đơn biến/đa biến, có thông số/phi thông số/thông số kết hợp, đối xứng/bất đối xứng 25 Hỏi & Đáp … 26 . Chí Minh 2 Nội dung  3. 1. Tổng quan về hồi qui  3. 2. Hồi qui tuyến tính  3. 3. Hồi qui phi tuyến  3. 4. Ứng dụng  3. 5. Các vấn đề với hồi qui  3. 6. Tóm tắt 3 Tài liệu tham khảo  [1] Jiawei. 1 Chương 3: Hồi qui dữ liệu Chương 3: Hồi qui dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009-2010 Khoa Khoa Học & Kỹ Thuật. hình hồi qui có tính mô tả (descriptive) (eg. log-linear models)  Asymmetric: mô hình hồi qui có tính dự báo (predictive) (eg. generalized linear models) 13 3.2. Hồi qui tuyến tính  Hồi qui

Ngày đăng: 27/01/2015, 15:46

TỪ KHÓA LIÊN QUAN

w