Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 52 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
52
Dung lượng
735,35 KB
Nội dung
1
1
Ch
Ch
ươ
ươ
ng
ng
3:
3:
Hồi
Hồi
qui
qui
dữ
dữ
liệu
liệu
Họckỳ 1 – 2011-2012
Khoa
Khoa
Khoa
Khoa
Học
Học
&
&
Kỹ
Kỹ
Thuật
Thuật
Máy
Máy
Tính
Tính
Tr
Tr
ư
ư
ờng
ờng
Đ
Đ
ại
ại
Học
Học
Bách
Bách
Khoa
Khoa
Tp
Tp
.
.
Hồ
Hồ
Chí
Chí
Minh
Minh
Cao
Cao
Học
Học
Ngành
Ngành
Khoa
Khoa
Học
Học
Máy
Máy
Tính
Tính
Giáo
Giáo
trình
trình
đ
đ
iện
iện
tử
tử
Biên
Biên
soạn
soạn
bởi
bởi
: TS.
: TS.
Võ
Võ
Thị
Thị
Ngọc
Ngọc
Châu
Châu
(
(
chauvtn@cse.hcmut.edu.vn
chauvtn@cse.hcmut.edu.vn
)
)
2
2
Tài liệuthamkhảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001.
[3] David L. Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.
[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis
Group, LLC, 2009.
[6] Daniel T. Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006.
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005.
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
Discovery Handbook”, Second Edition, Springer Science + Business
Media, LLC 2005, 2010.
3
3
Nộidung
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Các vấn đề tiềnxử lý dữ liệu
Chương3: Hồiqui dữ liệu
Chương 4: Phân loạidữ liệu
Chương 5: Gom cụmdữ liệu
Chương 6: Luậtkếthợp
Chương 7: Khai phá dữ liệuvàcôngnghệ cơ sở dữ
liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứutrongkhaiphádữ
liệu
Chương 10: Ôn tập
4
4
Chương 3: Hồiqui dữ liệu
3.1. Tổng quan về hồiqui
3.2. Hồiqui tuyếntính
3.3. Hồiqui phi tuyến
3.4. Ứng dụng
3.5. Các vấn đề vớihồiqui
3.6. Tóm tắt
5
5
3.0. Tình huống 1
Ngày mai
giá cổ phiếu
STB sẽ là
bao nhiêu???
6
6
3.0. Tình huống 2
x
y
y = x + 1
X1
Y1
Y1’
Mô hình phân bố dữ liệucủa y theo x???
7
7
3.0. Tình huống 3
Bàitoánphântíchgiỏ hàng thị
trường (market basket analysis)
Æ sự kếthợpgiữacácmặthàng?
8
8
3.0. Tình huống 4
Khảosátcácyếutố tác động đếnxuhướng
sử dụng quảng cáo trựctuyếntạiViệtNam
Sự giảitrícảmnhận (+0.209)
Chấtlượng thông tin (+0.261)
Chấtlượng thông tin cảmnhận (+0.199)
Sự khó chịucảmnhận (-0.175)
Sự tin cậycảmnhận
Thái độ về tính riêng tư
Sự tương tác (+0.373)
Chuẩnchủ quan (+0.254)
Nhậnthứckiểm soát hành vi (+0.377)
9
9
3.0. Tình huống …
Hồiqui (regression)
Khai phá dữ liệucótínhdự báo (Predictive data
mining)
Tình huống ???
Khai phá dữ liệucótínhmôtả (Descriptive data
mining)
Tình huống ???
10
10
3.1. Tổng quan về hồiqui
Định nghĩa-Hồi qui (regression)
J. Han et al (2001, 2006): Hồiqui làkỹ thuậtthống
kê cho phép dựđoán các trị (số) liên tục.
Wiki (2009): Hồiqui (Phân tích hồiqui –regression
analysis) là kỹ thuậtthống kê cho phép ướclượng
các mốiliênkếtgiữacácbiến
R. D. Snee (1977): Hồiqui (Phân tích hồiqui) làkỹ
thuậtthống kê trong lĩnh vựcphântíchdữ liệuvà
xây dựng các mô hình từ thựcnghiệm, cho phép
mô hình hồiqui vừa được khám phá được dùng cho
mục đích dự báo (prediction), điềukhiển (control),
hay học (learn) cơ chếđãtạoradữ liệu.
R. D. Snee, Validation of Regression Models: Methods and Examples, Technometrics,
Vol. 19, No. 4. (Nov., 1977), pp. 415-428.
[...]... 3.2 Hồiqui tuyến tính Hồiqui tuyến tính đơn biến Đường hồiqui (regression line) Hồiqui tuyến tính đa biến Mặt phẳng hồiqui (regression plane) 18 18 3.2.1 Hồiqui tuyến tính đơn biến Cho N đối tượng đã được quan sát, mô hình hồiqui tuyến tính đơn biến được cho dưới dạng sau với εi dùng giữ phần biến thiên của đáp ứng Y không được giải thích từ X: -Dạng đường thẳng -Dạng parabola 19 19 3.2.1 Hồi qui. .. của X đối với Y 12 12 3.1 Tổng quan về hồiqui Phân loại Hồiqui tuyến tính (linear) và phi tuyến (nonlinear) Hồiqui đơn biến (single) và đa biến (multiple) Hồiqui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric) Hồiqui đối xứng (symmetric) và bất đối xứng (asymmetric) 13 13 3.1 Tổng quan về hồiqui Phân loại Hồiqui tuyến tính (linear) và phi tuyến (nonlinear)... quan về hồiqui Phân loại Hồiqui đơn biến (single) và đa biến (multiple) Single: X = (X1) Multiple: X = (X1, X2, …, Xk) ˆ y = 6 3 9 7 2 + 2 0 4 9 2 1 x 1 + 0 2 8 0 5 x 2 ˆ y = 26.89 + 4.06 x 15 [Chapter 6 Regression and Correlation.ppt] 15 3.1 Tổng quan về hồiqui Phân loại Hồiqui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric) Parametric: mô hình hồi qui. .. 26 3.3 Hồiqui phi tuyến Y = f(X, β) Y là hàm phi tuyến cho việc kết hợp các thông số β Ví dụ: hàm mũ, hàm logarit, hàm Gauss, … Xác định bộ thông số β tối ưu: các giải thuật tối ưu hóa Tối ưu hóa cục bộ Tối ưu hóa toàn cục cho tổng thặng dư bình phương (sum of squared residuals) 27 27 3.4 Ứng dụng Quá trình khai phá dữliệu Giai đoạn tiền xử lý dữliệu Giai đoạn khai phá dữliệu Khai phá dữliệu có... phá dữliệu có tính dự báo Các lĩnh vực ứng dụng: sinh học (biology), nông nghiệp (agriculture), xã hội (social issues), kinh tế (economy), kinh doanh (business), … P Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003 28 28 3.5 Các vấn đề với hồiqui Các giả định (assumptions) đi kèm với bài toán hồiqui Lượng dữliệu được xử lý Đánh giá mô hình hồi. .. Industry, John Wiley & Sons Ltd, 2003 16 16 3.1 Tổng quan về hồiqui Phân loại Hồiqui đối xứng (symmetric) và bất đối xứng (asymmetric) Symmetric: mô hình hồiqui có tính mô tả (descriptive) (eg log-linear models) The objective of the analysis is descriptive – to describe the associative structure among the variables Asymmetric: mô hình hồiqui có tính dự báo (predictive) (eg linear regression models,... 2.018*X •Dấu của β1 cho biết sự ảnh hưởng của X đối với Y 20 20 3.2.1 Hồiqui tuyến tính đơn biến Ước lượng bộ thông số β ( ) để đạt được mô hình hồiqui tuyến tính đơn biến Thặng dư (residual) xi, yi: trị của x, y từ tập dữliệu huấn luyện Tổng thặng dư bình phương (sum of squared residuals) tối thiểu hóa x, y: trị trung bình từ tập dữliệu huấn luyện ŷi: trị ước lượng với bộ thông số β Trị ước lượng... được ứng dụng rộng rãi Cho thấy sự đóng góp đáng kể của lĩnh vực thống kê trong lĩnh vực khai phá dữliệu Các dạng mô hình hồi qui: tuyến tính/phi tuyến, đơn biến/đa biến, có thông số/phi thông số/thông số kết hợp, đối xứng/bất đối xứng 30 30 Hỏi & Đáp … 31 31 Chương3:Hồiquidữliệu Phần 2 32 32 Nội dung Generalized linear models [2], section 11.3, pp 384-390 Logistic regression [2], section 10.7,... mô hình hồiqui Các kỹ thuật tiên tiến cho hồi qui: Artificial Neural Network (ANN) Support Vector Machine (SVM) 29 29 3.6 Tóm tắt Hồiqui Kỹ thuật thống kê, được áp dụng cho các thuộc tính liên tục (continuous attributes/features) Có lịch sử phát triển lâu đời Đơn giản nhưng rất hữu dụng, được ứng dụng rộng rãi Cho thấy sự đóng góp đáng kể của lĩnh vực thống kê trong lĩnh vực khai phá dữliệu Các dạng... về hồiqui Mô hình hồiqui (regression model): mô hình mô tả mối liên kết (relationship) giữa một tập các biến dự báo (predictor variables/independent variables) và một hay nhiều đáp ứng (responses/dependent variables) Y = f(X, β) X: các biến dự báo (predictor/independent variables) Y: các đáp ứng (responses/dependent variables) β: các hệ số hồiqui (regression coefficients) 11 11 3.1 Tổng quan về hồi . 2010.
3
3
Nộidung
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Các vấn đề tiềnxử lý dữ liệu
Chương 3: Hồiqui dữ liệu
Chương 4: Phân loạidữ liệu
Chương. nghiên cứutrongkhaiph dữ
liệu
Chương 10: Ôn tập
4
4
Chương 3: Hồiqui dữ liệu
3.1. Tổng quan về hồiqui
3.2. Hồiqui tuyếntính
3.3. Hồiqui phi tuyến
3.4.