1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai-Pha-Du-Lieu_Truong-Hai_Chapter-3-Data-Regression - [Cuuduongthancong.com].Pdf

26 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 0,97 MB

Nội dung

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh Chương 3: Hồi qui liệu Khai phá liệu (Data mining) Học kỳ – 2016-2017 Nội dung  3.1 Tổng quan hồi qui  3.2 Hồi qui tuyến tính  3.3 Hồi qui phi tuyến  3.4 Ứng dụng  3.5 Các vấn đề với hồi qui  3.6 Tóm tắt Tài liệu tham khảo [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006  6.11 Prediction (pp 354 -> pp 359)  6.12 Accuracy and Error Measures (pp 359 -> pp.363)  6.13 Evaluating the Accuracy of Classifier, Predictor (pp 363 -> 366) 3.0 Tình Ngày mai giá cổ phiếu STB bao nhiêu??? 3.0 Tình y Y1 Y1’ y=x+1 X1 Mơ hình phân bố liệu y theo x??? x 3.0 Tình Bài tốn phân tích giỏ hàng thị trường (market basket analysis)  kết hợp mặt hàng? Challenge Giải thích, phân biệt, nêu lên mối quan hệ khái niệm sau: Predictive data mining Descriptive data Supervised mining learning Unsupervised learning 3.1 Tổng quan hồi qui  Định nghĩa - Hồi qui (regression)  J Han et al (2001, 2006): Hồi qui kỹ thuật thống kê cho phép dự đoán trị (số) liên tục  Wiki (2009): Hồi qui (Phân tích hồi qui – regression analysis) kỹ thuật thống kê cho phép ước lượng mối liên kết biến  R D Snee (1977): Hồi qui (Phân tích hồi qui) kỹ thuật thống kê lĩnh vực phân tích liệu xây dựng mơ hình từ thực nghiệm, cho phép mơ hình hồi qui vừa khám phá dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) chế tạo liệu 3.1 Tổng quan hồi qui  Mơ hình hồi qui (regression model): mơ hình mơ tả mối liên kết (relationship) tập biến dự báo (predictor variables/independent variables) hay nhiều đáp ứng (responses/dependent variables)  Phân loại  Hồi qui tuyến tính (linear) phi tuyến (nonlinear)  Hồi qui đơn biến (single) đa biến (multiple)  Cây hồi quy (regression trees) 3.1 Tổng quan hồi qui  Phương trình hồi qui: Y = f(X, β)  X: biến dự báo (predictor/independent variables)  Y: đáp ứng (responses/dependent variables)  β: hệ số hồi qui (regression coefficients) X dùng để giải thích biến đổi đáp ứng Y Y dùng đề mô tả tượng (phenomenon) quan tâm/giải thích Quan hệ Y X diễn tả phụ thuộc hàm Y X β mô tả ảnh hưởng X Y 3.2 Hồi qui tuyến tính  Hồi qui tuyến tính đơn biến  Hồi qui tuyến tính đa biến 3.2.1 Hồi qui tuyến tính đơn biến Cho N đối tượng quan sát, mơ hình hồi qui tuyến tính đơn biến cho dạng sau: 3.2.1 Hồi qui tuyến tính đơn biến •Y= β0 + β1*X1 → Y = 0.636 + 2.018*X •Dấu β1 cho biết ảnh hưởng X Y 3.2.1 Hồi qui tuyến tính đơn biến  Ước lượng thơng số để đạt mơ hình hồi qui tuyến tính đơn biến 3.2.1 Hồi qui tuyến tính đơn biến (example) 3.2.2 Hồi qui tuyến tính đa biến  Hồi qui tuyến tính đa biến: phân tích mối quan hệ biến phụ thuộc (response/dependent variable) hai hay nhiều biến độc lập (independent variables) yi = b0 + b1xi1 + b2xi2 + … + bkxik i = n với n số đối tượng quan sát k = số biến độc lập (số thuộc tính/tiêu chí/yếu tố…) Y = biến phụ thuộc X = biến độc lập b0 k = trị hệ số hồi qui 3.2.2 Hồi qui tuyến tính đa biến yˆ Trị ước lượng Y Trị ước lượng thông số b Y b0 b1 x 1 T b b2 x X X  bk x k T X Y Y1 x ,1 x1,  x1, k b0 Y2 x ,1 x ,2  x ,k b1 , X     Yn x n ,1 x n ,2   x n ,k , b  bk 3.2.2 Hồi qui tuyến tính đa biến Example: a sales manager of Tackey Toys, needs to predict sales of Tackey products in selected market area He believes that advertising expenditures and the population in each market area can be used to predict sales He gathered sample of toy sales, advertising expenditures and the population as below Find the linear multiple regression equation which the best fit to the data 3.2.2 Hồi qui tuyến tính đa biến Market Area Advertising Expenditures (Thousands of Dollars) x1 Population (Thousands) x2 Toy sales (Thousands of Dollars) y A 1.0 200 100 B 5.0 700 300 C 8.0 800 400 D 6.0 400 200 E 3.0 100 100 F 10.0 600 400 3.2.2 Hồi qui tuyến tính đa biến yˆ 2 x x 2 3.3 Hồi qui phi tuyến  Y = f(X, β)  Y hàm phi tuyến cho việc kết hợp thông số β  Ví dụ: hàm mũ, hàm logarit, hàm Gauss, …  Biến đổi sang hàm tuyến tính 2 3.4 Ứng dụng   Quá trình khai phá liệu  Giai đoạn tiền xử lý liệu  Giai đoạn khai phá liệu  Khai phá liệu có tính mơ tả  Khai phá liệu có tính dự báo Các lĩnh vực ứng dụng: sinh học (biology), nông nghiệp (agriculture), xã hội (social issues), kinh tế (economy), kinh doanh (business), … 3.5 Các vấn đề với hồi qui  Các giả định (assumptions) kèm với toán hồi qui  Lượng liệu xử lý  Đánh giá mơ hình hồi qui  Các kỹ thuật tiên tiến cho hồi qui:  Artificial Neural Network (ANN)  Support Vector Machine (SVM) 3.6 Tóm tắt   Hồi qui  Kỹ thuật thống kê, áp dụng cho thuộc tính liên tục (continuous attributes/features)  Có lịch sử phát triển lâu đời  Đơn giản hữu dụng, ứng dụng rộng rãi  Cho thấy đóng góp đáng kể lĩnh vực thống kê lĩnh vực khai phá liệu Các dạng mơ hình hồi qui: tuyến tính/phi tuyến, đơn biến/đa biến, đối xứng/bất đối xứng Hỏi & Đáp … ... 2006  6.11 Prediction (pp 354 -> pp 359)  6.12 Accuracy and Error Measures (pp 359 -> pp.363)  6.13 Evaluating the Accuracy of Classifier, Predictor (pp 363 -> 366) 3.0 Tình Ngày mai giá cổ... Descriptive data Supervised mining learning Unsupervised learning 3.1 Tổng quan hồi qui  Định nghĩa - Hồi qui (regression)  J Han et al (2001, 2006): Hồi qui kỹ thuật thống kê cho phép dự đoán trị

Ngày đăng: 10/03/2023, 22:15