NỘI DUNG CHÍNH Phần I: Tổng quan về khai phá dữ liệu Phần II: Giới thiệu chung về dự báo thời tiết Phần III: Giới thiệu phương pháp học Bayes và phân lớp Naive Bayes Phần IV: Chương
Trang 1GVHD: TS Hoàng Thị Lan Giao
HVTH: Nguyễn Thị Thu Hòa
TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA CÔNG NGHỆ THÔNG TIN
- -
ỨNG DỤNG PHƯƠNG PHÁP HỒI QUY BAYES
VÀO VIỆC DỰ BÁO THỜI TIẾT
Trang 2NỘI DUNG CHÍNH
Phần I: Tổng quan về khai phá dữ liệu
Phần II: Giới thiệu chung về dự báo thời tiết
Phần III: Giới thiệu phương pháp học Bayes và phân
lớp Naive Bayes
Phần IV: Chương trình thực nghiệm và hướng phát triển
Trang 3TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Trang 41 Khái niệm khai phá dữ liệu
có tính dự đoán, những thông tin có nhiều ý nghĩa, hữu ích từ những cơ sở dữ liệu lớn
Trang 52 Kiến trúc của một hệ thống khai phá dữ liệu
Trang 63 Quy trình thực hiện khai phá dữ liệu
Thống kê,
báo cáo
Giải thuật Data Mining
Tri thức
Trang 74 Một số phương pháp khai phá dữ liệu
a) Phân lớp bằng cây quyết định
Cây quyết định là cấu trúc biễu diễn dưới dạng
cây Trong đó, mỗi nút trong (internal node) biễu diễn một thuộc tính, nhánh (branch) biễu diễn giá trị
có thể có của thuộc tính, mỗi lá (leaf node) biểu
diễn các lớp quyết định và đỉnh trên cùng của cây
gọi là gốc (root) Cây quyết định có thể được dùng
để phân lớp bằng cách xuất phát từ gốc của cây và
di chuyển theo các nhánh cho đến khi gặp nút lá Trên cơ sở phân lớp này chúng ta có thể chuyển đổi
về các luật quyết định
Trang 8Xây dựng cây quyết định dựa trên thuật toán ID3
Thuật toán ID3 biểu diễn các khái niệm (concept) ở dạng các cây quyết định (decision tree) Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó
Ý tưởng của thuật toán ID3:
ID3(D, target, Atts) Trong đó:
D: tập dữ liệu huấn luyện đầu vào
Target: những thuộc tính mà giá trị được dự đoán bởi cây quyết định
Atts: tập các thuộc tính cần kiểm thử trong quá trình xây dựng cây
Kết quả trả về: 1 cây quyết định được xây dựng theo những giá trị đầu vào
Trang 9Ưu điểm của ID3
- Sử dụng thuật toán tìm kiếm leo đồi (hill - climbing) dựa trên giá trị Gain để tìm kiếm các thuộc tính trong toàn bộ cây quyết định
- Đầu ra (Output) chỉ là một giả thuyết đơn (1 kết quả duy nhất)
- Không bao giờ gặp hiện tượng quay lui – tính hội
tụ cao
-
Trang 10Khuyết điểm của ID3
- Chỉ thích hợp với mô hình có lượng dữ liệu ít, rời rạc
- Không thích ứng được với những tập dữ liệu tạp (dễ phát sinh lỗi)
- Không hiệu quả khi xuất hiện những dữ liệu không mong muốn
- Cây quyết định khi dựng ra vẫn còn có thể lớn, rườm
rà, chưa được tối ưu ở mức tối đa có thể
Trang 11b) Phương pháp gom nhóm K - Means
Thuật toán K – Means chia dữ liệu thành k nhóm với k là một
số cho trước Thuật toán này dùng giá trị trung bình của các điểm trong cùng một nhóm làm tâm của nhóm đó
Tiêu chuẩn để đánh giá trong giải thuật là hàm sai số bình phương được định nghĩa như sau:
với x là các điểm thuộc nhóm Ci và mi là giá trị trung bình của nhóm Ci
Khoảng cách được sử dụng là khoảng cách Euclide:
với i = (xi1, …, xiN), j = (xj1, …, xjN) là hai điểm trong không gian N chiều
2 1
( , ) | |
N
ik jk k
d i j x x
Trang 12GIỚI THIỆU CHUNG VỀ
DỰ BÁO THỜI TIẾT
Trang 131.Khái niệm về thời tiết và dự báo thời tiết
- Thời tiết
nhất định và trong một khoảng thời gian nhất định, được đặc trưng bởi một số yếu tố khí tượng và hiện tượng khí tượng điển hình
- Dự báo thời tiết
sau một khoảng thời gian và tại một khu vực địa lý xác định
Trang 142.Các nhân tố ảnh hưởng đến thời tiết
- Nhiệt độ không khí trung bình
phương pháp bình quân số học đơn giản từ kết quả của 4 lần quan trắc chính trong ngày tại các thời điểm 1h, 7h, 13h, 19h
- Độ ẩm không khí trung bình
quân số học đơn giản từ kết quả 4 lần quan trắc chính trong ngày tại các thời điểm 1h, 7h, 13h và 19h
Trang 15- Mây
nào đó sẽ bão hòa hơi nước, tiếp tục lên cao, hơi nước ngưng tụ thành những hạt nước nhỏ và nhẹ, các hạt nước tụ thành đám gọi là mây
- Mưa
với nhau, ngưng tụ thêm, kích thước lớn hơn và rơi xuống thành mưa
Trang 163 Các phương pháp dự báo thời tiết
- Phương pháp dự báo thời tiết truyền thống – Phương pháp Synốp
- Phương pháp dự báo số trị
- Phương pháp dự báo theo dấu hiệu địa phương
Trang 17PHƯƠNG PHÁP HỌC BAYES VÀ THUẬT TOÁN PHÂN LỚP NAIVE BAYES
Trang 181 Định lý Bayes
của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B Xác suất này được kí hiệu là P(A|B) và được
tính bởi công thức:
( | ) ( ) ( | )
Trang 192 Thuật toán phân lớp Naive Bayes
- Mỗi mẫu được biểu diễn bằng X=(x1, x2, …, xn) với
các thuộc tính a1, a2 ,…, an
- Các lớp C1, C2, …, Cm Cho trước mẫu chưa biết X X được phân loại vào Ci nếu và chỉ nếu:
Với (theo định lý Bayes)
- Phân lớp Naive Bayes giả định độc lập thuộc tính:
- Để phân lớp mẫu chưa biết X, ta tính P(X|Ci)P(Ci) cho từng Ci NBC gán X vào lớp Ci sao cho P(X|Ci)P(Ci) là
Trang 20Ví dụ: xét bảng 1: bảng dữ liệu về thời tiết
Lượng mưa (t)
Lượng mưa (s)
Trang 21-Biến nhiệt độ (kí hiệu ND), có các khoảng giá trị sau: + Thấp nếu ND nằm trong khoảng (0 – 25.5)
+ Trung bình nếu ND nằm trong khoảng (25.5 – 27.0) + Cao nếu ND (27.0 - + )
Tương tự ta có:
-Biến độ ẩm (kí hiệu ĐA):
+ Thấp nếu ĐA nằm trong khoảng (0 – 80)
+ Cao nếu ĐA nằm trong khoảng (80 - + )
-Biến lượng mây (kí hiệu MA):
+ Ít nếu MA nằm trong khoảng (0 – 20)
+ Nhiều nếu MA nằm trong khoảng (20 – 30)
+ Rất nhiều nếu MA nằm trong khoảng (30 - + ) -Biến lượng mưa (kí hiệu M):
+ Rải rác nếu M nằm trong khoảng (0 – 2)
+ Nhỏ nếu M nằm trong khoảng (2 – 50)
+ Lớn nếu M nằm trong khoảng (50 - + )
Trang 22Sau khi phân lớp ta có bảng dữ liệu mới như sau:
Ngày Nhiệt độ (t) Độ ẩm (t) Lượng mây (t) Lượng mưa (t) Nhiệt độ (s) Độ ẩm (s) Lượng mây (s) Lượng mưa (s)
1 TB Thấp Nhiều Rải rác Thấp Thấp Ít Rải rác
2 Thấp Thấp Ít Rải rác Thấp Thấp Rất nhiều Rải rác
3 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
4 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
5 Thấp Thấp Rất nhiều Rải rác TB Thấp Nhiều Rải rác
6 TB Thấp Nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
7 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
8 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
9 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
10 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
11 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Nhiều Rải rác
12 Thấp Thấp Nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
13 Thấp Thấp Rất nhiều Rải rác TB Thấp Ít Rải rác
14 TB Thấp Ít Rải rác TB Thấp Rất nhiều Nhỏ
15 TB Thấp Rất nhiều Nhỏ TB Cao Nhiều Rải rác
16 TB Cao Nhiều Rải rác TB Cao Rất nhiều Rải rác
17 TB Cao Rất nhiều Rải rác TB Cao Ít Rải rác
18 TB Cao Ít Rải rác Cao Thấp Nhiều Rải rác
19 Cao Thấp Nhiều Rải rác TB Thấp Ít Rải rác
20 TB Thấp Ít Rải rác TB Thấp Nhiều Rải rác
21 TB Thấp Nhiều Rải rác Thấp Thấp Nhiều Rải rác
22 Thấp Thấp Nhiều Rải rác TB Thấp Rất nhiều Rải rác
23 TB Thấp Rất nhiều Rải rác TB Thấp Ít Rải rác
24 TB Thấp Ít Rải rác Thấp Cao Rất nhiều Lớn
25 Thấp Cao Rất nhiều Lớn Thấp Thấp Rất nhiều Rải rác
26 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
27 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
28 Thấp Thấp Rất nhiều Rải rác Cao Thấp Rất nhiều Rải rác
29 Cao Thấp Rất nhiều Rải rác TB Thấp Ít Rải rác
30 TB Thấp Ít Rải rác Thấp Thấp Rất nhiều Rải rác
31 Thấp Thấp Rất nhiều Rải rác TB Thấp Nhiều Rải rác
Trang 25Nhiệt độ Thấp|RR=17/29
TB|RR=12/29
Cao|RR=2/29
Thấp|nhỏ=17 TB|nhỏ=12 Cao|nhỏ=2
Thấp|lớn=17 TB|lớn=12 Cao|lớn=2
Độ ẩm Thấp|RR=27/29
Cao|RR=4/29
Thấp|nhỏ=27 Cao|nhỏ=4
Thấp|lớn=27 Cao|lớn=4 Lượng mây
Ít|RR=6/29
Nhiều|RR=7/29
Rất nhiều|RR=18/29
Ít|nhỏ=6 Nhiều|mhỏ=7 Rất nhiều|nhỏ=18
Ít|lớn=6 Nhiều|lớn=7 Rất nhiều|lớn 18 Lượng mưa
RR|RR=29/29
Nhỏ|RR=1/29
Lớn|RR=1/29
RR|nhỏ=29 Nhỏ|nhỏ=1 Lớn|nhỏ=1
RR|lớn=29 Nhỏ|lớn=1 Lớn|lớn=1
Trang 26Bước 2: Phân lớp cho mẫu mới:
X1=<Cao, cao, ít, nhỏ>
P(X1|RR)=2/29*4/29*6/29*1/29*29/31=0.00006 P(X1|Nhỏ)=2*4*6*7*1/31=10.839
P(X1|Lớn)=2*4*6*1*1/31=1.548
CNB=max(P(X1|RR), P(X1|Nhỏ), P(X1|Lớn))=
P(X1|Nhỏ)
X1 thuộc lớp Nhỏ nghĩa là với nhiệt độ cao, độ
ẩm cao, trời ít mây, và có mưa nhỏ thì thời tiết của ngày kế tiếp có thể là có mưa và mưa nhỏ
Trang 27CHƯƠNG TRÌNH THỰC NGHIỆM VÀ
HƯỚNG PHÁT TRIỂN
Trang 281.Bài toán
Bài toán dự báo thời tiết với bộ dữ liệu đầu vào
gồm có nhiệt độ, độ ẩm, lượng mây và lượng mưa
Yêu cầu: Đưa ra dự báo thời tiết một ngày bất kì trong
tháng
Trang 292.Xây dựng chương trình dự báo
Bước 1: Thu thập dữ liệu từ thực tế để xây dựng tập
dữ liệu huấn luyện bao gồm các yếu tố: nhiệt độ, độ
ẩm, lượng mây và lượng mưa
Bước 2: Dự báo thời tiết
Kiểm tra dữ liệu đầu vào nếu trùng với tập dữ liệu huấn luyện thì đưa ra kết quả ngược lại sử dụng thuật toán Naive Bayes để dự đoán
Trang 30CHƯƠNG TRÌNH DEMO
Trang 31KẾT QUẢ ĐẠT ĐƯỢC
- Phân lớp dữ liệu, phát hiện các yếu tố liên quan đến thời tiết, từ đó tạo cơ sở cho các nhà chuyên môn đi sâu nghiên cứu, đánh giá tầm quan trọng của các yếu tố này trong thực tế
- Xây dựng được chương trình dự báo thời tiết dựa trên các yếu tố chính: nhiệt độ, độ ẩm, lượng mây, lượng mưa Tuy nhiên chương trình chỉ có thể dự báo thời tiết của từng địa phương do các yếu tố đầu vào còn hạn chế
Trang 32HƯỚNG PHÁT TRIỂN
- Mở rộng số yếu tố liên quan đến dự báo thời tiết để đưa ra dự báo chính xác hơn
- Phát triển ứng dụng tự động, xây dựng hệ thống tự động cập nhật dữ liệu và dưới sự trợ giúp của các hệ thống các thiết bị chuyên dụng có thể cung cấp thông tin về dự báo thới tiết một cách chính xác, nhanh chóng và đầy đủ nhất
Trang 33Cảm ơn quý Thầy Cô, các anh chị
và các bạn đã lắng nghe