Phương pháp thống kê phi tham số K điểm gần nhất

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu dự báo xác suất mưa lớn ở bắc bộ sử dụng mô hình k điểm gần nhất (1) (Trang 29 - 34)

2.2 Phương pháp

2.2.2 Phương pháp thống kê phi tham số K điểm gần nhất

K điểm gần nhất là một thuật tốn học có điều kiện. Mục đích của phương pháp là trả lời được câu hỏi: một giá trị mới sẽ thuộc nhóm nào dựa vào tập mẫu sẵn có. Chương trình phân loại khơng dựa vào bất cứ mơ hình nào mà chỉ dựa vào sự “nhớ lại” tập mẫu đó.

Khi người sử dụng đưa vào một điểm dự báo, chúng ta sẽ tìm ra k điểm trong cơ sở dữ liệu gần nhất tới điểm đó. Thuật tốn k điểm gần nhất sử dụng phân nhóm của các điểm lân cận làm giá trị dự báo cho điểm đó.

Thuật tốn k điểm gần nhất dựa trên ý tưởng nào?

Có thể nói, cơ sở đầu tiên cho bài toán k điểm gần nhất đó là thừa nhận: Những điểm gần nhau (theo khoảng cách) thì được xếp cùng một loại, hay tổng quát hơn, chúng có cùng một đặc điểm.

2.2.2.1 Các loại khoảng cách thường được sử dụng trong mơ hình k điểm gần nhất

 Khoảng cách Ơclit (Euclidean distance)

Là công thức khoảng cách được sử dụng rộng rãi nhất, khi người ta nói đến khoảng cách nói chung thì chính là nói đến khoảng cách Ơclit.

𝑑𝑖𝑗 = √∑𝑛 (𝑥𝑖𝑚− 𝑥𝑗𝑚)2

𝑚=1 (8)

Trong đó: i: chỉ số ngày hiện tại

j: chỉ số ngày trong quá khứ

m: chỉ số tương ứng với với số thứ tự của nhân tố dự báo được lựa chọn phụ thuộc và có giá trị từ 1, 2, … , n

n: tổng số nhân tố dự báo được lựa chọn

𝑥𝑗𝑚: trị số của nhân tố dự báo m, ngày thứ j

Khoảng cách Manhattan hay còn được gọi là khoảng cách giá trị tuyệt đối, giúp mô phỏng khoảng cách giữa các điểm trong một ô lưới.

𝑑𝑖𝑗 = ∑𝑛 |(𝑥𝑖𝑚 − 𝑥𝑗𝑚)|

𝑚=1 (9)

Trong đó: i: chỉ số ngày hiện tại

j: chỉ số ngày trong quá khứ

m: chỉ số tương ứng với với số thứ tự của nhân tố dự báo được lựa chọn phụ thuộc và có giá trị từ 1, 2, … , n

n: tổng số nhân tố dự báo được lựa chọn

𝑥𝑗𝑚: trị số của nhân tố dự báo m, ngày thứ j

 Khoảng cách Chebyshev

Khoảng cách Chebyshev hay còn gọi là khoảng cách cực đại. Khoảng cách này xác định giá trị tuyệt đối của độ lệch giữa các trục của mỗi cặp số. Khoảng cách này có thể dùng cho cả biến định lượng và biến số thứ tự.

𝑑𝑖𝑗 = |𝑥𝑖𝑚 − 𝑥𝑗𝑚|

𝑚 𝑚𝑎𝑥

(10) Trong đó: i: chỉ số ngày hiện tại

j: chỉ số ngày trong quá khứ

m: chỉ số tương ứng với với số thứ tự của nhân tố dự báo được lựa chọn phụ thuộc và có giá trị từ 1, 2, … , n

n: tổng số nhân tố dự báo được lựa chọn

𝑥𝑗𝑚: trị số của nhân tố dự báo m, ngày thứ j

 Khoảng cách Mikowski

Đây là cơng thức tính khoảng cách tổng qt, khi  = 1, nó trở thành cơng thức khoảng cách Manhattan, và khi  = 2, nó chính là cơng thức khoảng cách

Ơclit. Khoảng cách Chebyshev là trường hợp đặc biệt của công thức khoảng cách Mikowski khi  = . Khoảng cách này cũng dùng được cho cả biến định lượng và biến phân lớp.

j: chỉ số ngày trong quá khứ

m: chỉ số tương ứng với với số thứ tự của nhân tố dự báo được lựa chọn phụ thuộc và có giá trị từ 1, 2, … , n

n: tổng số nhân tố dự báo được lựa chọn

𝑥𝑗𝑚: trị số của nhân tố dự báo m, ngày thứ j

 Khoảng cách Canberra

Khoảng cách Canberra lại được tính bằng tổng của tỷ số giữa độ lệch giữa các trục của mỗi cặp điểm, mỗi tỷ số này có giá trị nằm trong khoảng từ 0 đến 1.

𝑑𝑖𝑗 = ∑ |𝑥𝑖𝑚−𝑥𝑗𝑚|

|𝑥𝑖𝑚|+|𝑥𝑗𝑚|

𝑛

𝑚=1 (12) Trong đó: i: chỉ số ngày hiện tại

j: chỉ số ngày trong quá khứ

m: chỉ số tương ứng với với số thứ tự của nhân tố dự báo được lựa chọn phụ thuộc và có giá trị từ 1, 2, … , n

n: tổng số nhân tố dự báo được lựa chọn

𝑥𝑗𝑚: trị số của nhân tố dự báo m, ngày thứ j

 Khoảng cách Bray Crutis

Đôi khi khoảng cách này còn được gọi là khoảng cách Sorensen, đây là khoảng cách được dùng phổ biến trong sinh học, kinh tế và khoa học môi trường. Công thức này cho kết quả tốt khi mà tất cả các thành phần đều dương, khoảng cách Bray Crutis có giá trị nằm trong khoảng từ 0 đến 1.

𝑑𝑖𝑗 = ∑ |𝑥𝑖𝑚−𝑥𝑗𝑚| 𝑛

𝑚=1

∑𝑛𝑚=1(𝑥𝑖𝑚+𝑥𝑗𝑚) (13) Trong đó: i: chỉ số ngày hiện tại

j: chỉ số ngày trong quá khứ

m: chỉ số tương ứng với với số thứ tự của nhân tố dự báo được lựa chọn phụ thuộc và có giá trị từ 1, 2, … , n

n: tổng số nhân tố dự báo được lựa chọn

 Ưu điểm:

- Thể hiện ưu điểm nổi bật đối với tập số liệu xây dựng mơ hình có chứa nhiễu (Điều mà các phương pháp thống kê khác không đạt được).

- Phương pháp là rất hiệu quả với kích thước tập mẫu lớn.

- Phương pháp khơng phải xây dựng một phương trình dự báo sau đó sử dụng trong nghiệp vụ mà thực tế là “nhớ lại” các dữ liệu trong “bộ nhớ” nên mỗi thành phần trong bộ dữ liệu ban đầu chỉ mang tính “bộ nhớ” tương đối, vì ta vẫn hồn tồn có thể sử dụng chúng như các số liệu độc lập. Phương pháp khơng địi hỏi có một tập mẫu kiểm tra riêng.

 Nhược điểm

- Một hạn chế lớn nhất từ mơ hình K điểm gần nhất là chúng khơng tạo ra các giá trị mới, chỉ đơn giản là sắp xếp lại dữ liệu lịch sử để tạo ra trình tự thời tiết thực tế.

- Một trong những nhược điểm đầu tiên, ta có thể thấy từ trong tên của phương pháp, đó là việc xác định giá trị tham số K? Về vấn đề này, nhiều tác giả khác nhau đưa ra những thuật tốn khác nhau, nhưng hiệu quả thì khơng rõ ràng. Và có lẽ phương pháp vẫn được nhiều người áp dụng nhất trong trường hợp này là sử dụng phương pháp kiểm chứng chéo để tìm ra giá trị K tối ưu.

- Chi phí cho việc tính tốn là khá lớn, do phải tính khoảng cách tới tất cả các điểm trong tập mẫu, đặc biệt khi muốn hiệu quả cao, tập mẫu càng phải lớn.

- Phương pháp địi hỏi một khơng gian lưu trữ số liệu lớn.

Trong các công thức trên cơng thức tính khoảng cách ở trên phương pháp tính khoảng cách Ơclit là được sử dụng rộng rãi nhất. Trong khuôn khổ luận văn này,tôi sẽ sử dụng công thức khoảng cách Ơclitđể dự báo xác suất mưa lớn ở Bắc Bộ. Có 6 yếu tố phụ thuộc dựa trên dị thường xoáy thế và xoáy tương đối của các tầng khí quyển ở độ cao 1500m, 3000m và 5000m được lựa chọn để tính khoảng cách, với hai năm lựa chọn dự báo lại: năm 2014, năm 2015 và thời kỳ 2001-2013

là thời kỳ quá khứ.Trong luận văn, khoảng cách Ơclit được tính tốn dựa trên cơng thức: 𝒅𝒊𝒋= √ (𝑷𝑽𝟖𝟓𝟎𝒊− 𝑷𝑽𝟖𝟓𝟎𝒋) 𝟐 + (𝑷𝑽𝟕𝟎𝟎𝒊− 𝑷𝑽𝟕𝟓𝟎𝒋)𝟐+ (𝑷𝑽𝟓𝟎𝟎𝒊− 𝑷𝑽𝟓𝟎𝟎𝒋)𝟐 +(𝑿𝒕đ𝟖𝟓𝟎𝒊− 𝑿𝒕đ𝟖𝟓𝟎𝒋)𝟐+ (𝑿𝒕đ𝟕𝟎𝟎𝒊− 𝑿𝒕đ𝟕𝟎𝟎𝒋)𝟐+(𝑿𝒕đ𝟓𝟎𝟎𝒊− 𝑿𝒕đ𝟓𝟎𝟎𝒋)𝟐 Trong đó: PV là xốy thế

𝑋𝑡đ là xoáy tương đối

Phương pháp thực nghiệm được sử dụng để xác định giá trị K tối ưu. Theo đó, K sẽ được chọn là các số lẻ lớn hơn hoặc bằng 1, sau đó chọn ra giá trị K cho đánh giá cao nhất trên tập số liệu phụ thuộc. Đối với phương pháp K điểm gần nhất, K càng có giá trị lớn thì mức độ giảm thiểu xác suất của phân bố phi của điểm dự báo càng lớn. Mặt khác, với giá trị K nhỏ (khi so sánh với dung lượng mẫu) sẽ đảm bảo các điểm được chọn là “đủ gần” điểm dự báo, để kết quả dự báo có thể tin cậy được.

Tham khảo thêm một khảo sát của tác giả Hoàng Phúc Lâm trong nghiên cứu sử dụng phương pháp kNN dự báo mưa dông cho khu vực Hà Nội trong các tháng mùa hè [5] đã chứng minh: dung lượng mẫu càng lớn, chất lượng dự báo càng cao. Từ đó đi đến kết luận, cũng như các bài toán thống kê khác, dung lượng mẫu luôn phải lớn để đảm bảo tính đặc trưng cũng như tính ổn định thống kê; do đó, tồn bộ 4748 mẫu (số liệu trong 13 năm từ 2001-2013) sẽ được sử dụng để xây dựng và sử dụng 730 mẫu (số liệu trong hai năm 2014-2015)để kiểm định đánh giá chất lượng của việc dự báo xác suất mưa lớn tại khu vực Bắc Bộ.

CHƯƠNG 3 -KẾT QUẢ & NHẬN XÉT

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu dự báo xác suất mưa lớn ở bắc bộ sử dụng mô hình k điểm gần nhất (1) (Trang 29 - 34)

Tải bản đầy đủ (PDF)

(79 trang)