1. Trang chủ
  2. » Luận Văn - Báo Cáo

ứng dụng phương pháp hồi quy bayes vào việc dự báo thời tiết

33 600 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 1,42 MB

Nội dung

NỘI DUNG CHÍNH Phần I: Tổng quan về khai phá dữ liệu Phần II: Giới thiệu chung về dự báo thời tiết Phần III: Giới thiệu phương pháp học Bayes và phân lớp Naive Bayes Phần IV: Chương

Trang 1

GVHD: TS Hoàng Thị Lan Giao

HVTH: Nguyễn Thị Thu Hòa

TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA CÔNG NGHỆ THÔNG TIN

 - -

ỨNG DỤNG PHƯƠNG PHÁP HỒI QUY BAYES

VÀO VIỆC DỰ BÁO THỜI TIẾT

Trang 2

NỘI DUNG CHÍNH

Phần I: Tổng quan về khai phá dữ liệu

Phần II: Giới thiệu chung về dự báo thời tiết

Phần III: Giới thiệu phương pháp học Bayes và phân

lớp Naive Bayes

Phần IV: Chương trình thực nghiệm và hướng phát triển

Trang 3

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Trang 4

1 Khái niệm khai phá dữ liệu

có tính dự đoán, những thông tin có nhiều ý nghĩa, hữu ích từ những cơ sở dữ liệu lớn

Trang 5

2 Kiến trúc của một hệ thống khai phá dữ liệu

Trang 6

3 Quy trình thực hiện khai phá dữ liệu

Thống kê,

báo cáo

Giải thuật Data Mining

Tri thức

Trang 7

4 Một số phương pháp khai phá dữ liệu

a) Phân lớp bằng cây quyết định

Cây quyết định là cấu trúc biễu diễn dưới dạng

cây Trong đó, mỗi nút trong (internal node) biễu diễn một thuộc tính, nhánh (branch) biễu diễn giá trị

có thể có của thuộc tính, mỗi lá (leaf node) biểu

diễn các lớp quyết định và đỉnh trên cùng của cây

gọi là gốc (root) Cây quyết định có thể được dùng

để phân lớp bằng cách xuất phát từ gốc của cây và

di chuyển theo các nhánh cho đến khi gặp nút lá Trên cơ sở phân lớp này chúng ta có thể chuyển đổi

về các luật quyết định

Trang 8

Xây dựng cây quyết định dựa trên thuật toán ID3

Thuật toán ID3 biểu diễn các khái niệm (concept) ở dạng các cây quyết định (decision tree) Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó

Ý tưởng của thuật toán ID3:

ID3(D, target, Atts) Trong đó:

D: tập dữ liệu huấn luyện đầu vào

Target: những thuộc tính mà giá trị được dự đoán bởi cây quyết định

Atts: tập các thuộc tính cần kiểm thử trong quá trình xây dựng cây

Kết quả trả về: 1 cây quyết định được xây dựng theo những giá trị đầu vào

Trang 9

Ưu điểm của ID3

- Sử dụng thuật toán tìm kiếm leo đồi (hill - climbing) dựa trên giá trị Gain để tìm kiếm các thuộc tính trong toàn bộ cây quyết định

- Đầu ra (Output) chỉ là một giả thuyết đơn (1 kết quả duy nhất)

- Không bao giờ gặp hiện tượng quay lui – tính hội

tụ cao

-

Trang 10

Khuyết điểm của ID3

- Chỉ thích hợp với mô hình có lượng dữ liệu ít, rời rạc

- Không thích ứng được với những tập dữ liệu tạp (dễ phát sinh lỗi)

- Không hiệu quả khi xuất hiện những dữ liệu không mong muốn

- Cây quyết định khi dựng ra vẫn còn có thể lớn, rườm

rà, chưa được tối ưu ở mức tối đa có thể

Trang 11

b) Phương pháp gom nhóm K - Means

Thuật toán K – Means chia dữ liệu thành k nhóm với k là một

số cho trước Thuật toán này dùng giá trị trung bình của các điểm trong cùng một nhóm làm tâm của nhóm đó

Tiêu chuẩn để đánh giá trong giải thuật là hàm sai số bình phương được định nghĩa như sau:

với x là các điểm thuộc nhóm Ci và mi là giá trị trung bình của nhóm Ci

Khoảng cách được sử dụng là khoảng cách Euclide:

với i = (xi1, …, xiN), j = (xj1, …, xjN) là hai điểm trong không gian N chiều

2 1

( , ) | |

N

ik jk k

d i j x x

Trang 12

GIỚI THIỆU CHUNG VỀ

DỰ BÁO THỜI TIẾT

Trang 13

1.Khái niệm về thời tiết và dự báo thời tiết

- Thời tiết

nhất định và trong một khoảng thời gian nhất định, được đặc trưng bởi một số yếu tố khí tượng và hiện tượng khí tượng điển hình

- Dự báo thời tiết

sau một khoảng thời gian và tại một khu vực địa lý xác định

Trang 14

2.Các nhân tố ảnh hưởng đến thời tiết

- Nhiệt độ không khí trung bình

phương pháp bình quân số học đơn giản từ kết quả của 4 lần quan trắc chính trong ngày tại các thời điểm 1h, 7h, 13h, 19h

- Độ ẩm không khí trung bình

quân số học đơn giản từ kết quả 4 lần quan trắc chính trong ngày tại các thời điểm 1h, 7h, 13h và 19h

Trang 15

- Mây

nào đó sẽ bão hòa hơi nước, tiếp tục lên cao, hơi nước ngưng tụ thành những hạt nước nhỏ và nhẹ, các hạt nước tụ thành đám gọi là mây

- Mưa

với nhau, ngưng tụ thêm, kích thước lớn hơn và rơi xuống thành mưa

Trang 16

3 Các phương pháp dự báo thời tiết

- Phương pháp dự báo thời tiết truyền thống – Phương pháp Synốp

- Phương pháp dự báo số trị

- Phương pháp dự báo theo dấu hiệu địa phương

Trang 17

PHƯƠNG PHÁP HỌC BAYES VÀ THUẬT TOÁN PHÂN LỚP NAIVE BAYES

Trang 18

1 Định lý Bayes

của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B Xác suất này được kí hiệu là P(A|B) và được

tính bởi công thức:

( | ) ( ) ( | )

Trang 19

2 Thuật toán phân lớp Naive Bayes

- Mỗi mẫu được biểu diễn bằng X=(x1, x2, …, xn) với

các thuộc tính a1, a2 ,…, an

- Các lớp C1, C2, …, Cm Cho trước mẫu chưa biết X X được phân loại vào Ci nếu và chỉ nếu:

Với (theo định lý Bayes)

- Phân lớp Naive Bayes giả định độc lập thuộc tính:

- Để phân lớp mẫu chưa biết X, ta tính P(X|Ci)P(Ci) cho từng Ci NBC gán X vào lớp Ci sao cho P(X|Ci)P(Ci) là

Trang 20

Ví dụ: xét bảng 1: bảng dữ liệu về thời tiết

Lượng mưa (t)

Lượng mưa (s)

Trang 21

-Biến nhiệt độ (kí hiệu ND), có các khoảng giá trị sau: + Thấp nếu ND nằm trong khoảng (0 – 25.5)

+ Trung bình nếu ND nằm trong khoảng (25.5 – 27.0) + Cao nếu ND (27.0 - + )

Tương tự ta có:

-Biến độ ẩm (kí hiệu ĐA):

+ Thấp nếu ĐA nằm trong khoảng (0 – 80)

+ Cao nếu ĐA nằm trong khoảng (80 - + )

-Biến lượng mây (kí hiệu MA):

+ Ít nếu MA nằm trong khoảng (0 – 20)

+ Nhiều nếu MA nằm trong khoảng (20 – 30)

+ Rất nhiều nếu MA nằm trong khoảng (30 - + ) -Biến lượng mưa (kí hiệu M):

+ Rải rác nếu M nằm trong khoảng (0 – 2)

+ Nhỏ nếu M nằm trong khoảng (2 – 50)

+ Lớn nếu M nằm trong khoảng (50 - + )

Trang 22

Sau khi phân lớp ta có bảng dữ liệu mới như sau:

Ngày Nhiệt độ (t) Độ ẩm (t) Lượng mây (t) Lượng mưa (t) Nhiệt độ (s) Độ ẩm (s) Lượng mây (s) Lượng mưa (s)

1 TB Thấp Nhiều Rải rác Thấp Thấp Ít Rải rác

2 Thấp Thấp Ít Rải rác Thấp Thấp Rất nhiều Rải rác

3 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

4 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

5 Thấp Thấp Rất nhiều Rải rác TB Thấp Nhiều Rải rác

6 TB Thấp Nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

7 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

8 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

9 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

10 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

11 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Nhiều Rải rác

12 Thấp Thấp Nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

13 Thấp Thấp Rất nhiều Rải rác TB Thấp Ít Rải rác

14 TB Thấp Ít Rải rác TB Thấp Rất nhiều Nhỏ

15 TB Thấp Rất nhiều Nhỏ TB Cao Nhiều Rải rác

16 TB Cao Nhiều Rải rác TB Cao Rất nhiều Rải rác

17 TB Cao Rất nhiều Rải rác TB Cao Ít Rải rác

18 TB Cao Ít Rải rác Cao Thấp Nhiều Rải rác

19 Cao Thấp Nhiều Rải rác TB Thấp Ít Rải rác

20 TB Thấp Ít Rải rác TB Thấp Nhiều Rải rác

21 TB Thấp Nhiều Rải rác Thấp Thấp Nhiều Rải rác

22 Thấp Thấp Nhiều Rải rác TB Thấp Rất nhiều Rải rác

23 TB Thấp Rất nhiều Rải rác TB Thấp Ít Rải rác

24 TB Thấp Ít Rải rác Thấp Cao Rất nhiều Lớn

25 Thấp Cao Rất nhiều Lớn Thấp Thấp Rất nhiều Rải rác

26 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

27 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác

28 Thấp Thấp Rất nhiều Rải rác Cao Thấp Rất nhiều Rải rác

29 Cao Thấp Rất nhiều Rải rác TB Thấp Ít Rải rác

30 TB Thấp Ít Rải rác Thấp Thấp Rất nhiều Rải rác

31 Thấp Thấp Rất nhiều Rải rác TB Thấp Nhiều Rải rác

Trang 25

Nhiệt độ Thấp|RR=17/29

TB|RR=12/29

Cao|RR=2/29

Thấp|nhỏ=17 TB|nhỏ=12 Cao|nhỏ=2

Thấp|lớn=17 TB|lớn=12 Cao|lớn=2

Độ ẩm Thấp|RR=27/29

Cao|RR=4/29

Thấp|nhỏ=27 Cao|nhỏ=4

Thấp|lớn=27 Cao|lớn=4 Lượng mây

Ít|RR=6/29

Nhiều|RR=7/29

Rất nhiều|RR=18/29

Ít|nhỏ=6 Nhiều|mhỏ=7 Rất nhiều|nhỏ=18

Ít|lớn=6 Nhiều|lớn=7 Rất nhiều|lớn 18 Lượng mưa

RR|RR=29/29

Nhỏ|RR=1/29

Lớn|RR=1/29

RR|nhỏ=29 Nhỏ|nhỏ=1 Lớn|nhỏ=1

RR|lớn=29 Nhỏ|lớn=1 Lớn|lớn=1

Trang 26

Bước 2: Phân lớp cho mẫu mới:

X1=<Cao, cao, ít, nhỏ>

P(X1|RR)=2/29*4/29*6/29*1/29*29/31=0.00006 P(X1|Nhỏ)=2*4*6*7*1/31=10.839

P(X1|Lớn)=2*4*6*1*1/31=1.548

CNB=max(P(X1|RR), P(X1|Nhỏ), P(X1|Lớn))=

P(X1|Nhỏ)

 X1 thuộc lớp Nhỏ nghĩa là với nhiệt độ cao, độ

ẩm cao, trời ít mây, và có mưa nhỏ thì thời tiết của ngày kế tiếp có thể là có mưa và mưa nhỏ

Trang 27

CHƯƠNG TRÌNH THỰC NGHIỆM VÀ

HƯỚNG PHÁT TRIỂN

Trang 28

1.Bài toán

Bài toán dự báo thời tiết với bộ dữ liệu đầu vào

gồm có nhiệt độ, độ ẩm, lượng mây và lượng mưa

Yêu cầu: Đưa ra dự báo thời tiết một ngày bất kì trong

tháng

Trang 29

2.Xây dựng chương trình dự báo

Bước 1: Thu thập dữ liệu từ thực tế để xây dựng tập

dữ liệu huấn luyện bao gồm các yếu tố: nhiệt độ, độ

ẩm, lượng mây và lượng mưa

Bước 2: Dự báo thời tiết

Kiểm tra dữ liệu đầu vào nếu trùng với tập dữ liệu huấn luyện thì đưa ra kết quả ngược lại sử dụng thuật toán Naive Bayes để dự đoán

Trang 30

CHƯƠNG TRÌNH DEMO

Trang 31

KẾT QUẢ ĐẠT ĐƯỢC

- Phân lớp dữ liệu, phát hiện các yếu tố liên quan đến thời tiết, từ đó tạo cơ sở cho các nhà chuyên môn đi sâu nghiên cứu, đánh giá tầm quan trọng của các yếu tố này trong thực tế

- Xây dựng được chương trình dự báo thời tiết dựa trên các yếu tố chính: nhiệt độ, độ ẩm, lượng mây, lượng mưa Tuy nhiên chương trình chỉ có thể dự báo thời tiết của từng địa phương do các yếu tố đầu vào còn hạn chế

Trang 32

HƯỚNG PHÁT TRIỂN

- Mở rộng số yếu tố liên quan đến dự báo thời tiết để đưa ra dự báo chính xác hơn

- Phát triển ứng dụng tự động, xây dựng hệ thống tự động cập nhật dữ liệu và dưới sự trợ giúp của các hệ thống các thiết bị chuyên dụng có thể cung cấp thông tin về dự báo thới tiết một cách chính xác, nhanh chóng và đầy đủ nhất

Trang 33

Cảm ơn quý Thầy Cô, các anh chị

và các bạn đã lắng nghe

Ngày đăng: 27/11/2014, 09:28

HÌNH ẢNH LIÊN QUAN

Ví dụ: xét bảng 1: bảng dữ liệu về thời tiết - ứng dụng phương pháp hồi quy bayes vào việc dự báo thời tiết
d ụ: xét bảng 1: bảng dữ liệu về thời tiết (Trang 20)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w