Để minh họa cho thuật toán nêu trên, Sitanggang và các cộng sự nêu ra bài toán thực tế [13] về hỗ trợ dự báo nguy cơ cháy rừng tại huyện Rokan Hilir tại tỉnh Riau
Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ thuộc Indonesia.Hai loại dữ liệu là dữ liệu không gian và phi không gian. Dữ liệu phi không gian là dữ liệu kinh tế xã hội các vùng miền tại Rokan Hilir lƣu trữ ở định dạng DBF. Dữ liệu bao gồm mật độ dân cƣ, nguồn thu của cƣ dân và số lƣợng các trƣờng học. Để khai phá sử dụng cây quyết định không gian, những dữ liệu phi không gian này đƣợc chuyển đổi vào dữ liệu không gian ở định dạng Shape File bằng cách gắn vào các Shape File quản trị ranh giới vùng, khu vực trong Rokan Hilir. Dữ liệu không gian bao gồm dữ liệu tự nhiên (đƣờng, sông, thành phố) và thời tiết (lƣợng mƣa, nhiệt độ, tốc độ gió và độ cao bề mặt). Tiền xử lý dữ liệu sắp xếp các điểm nóng để tạo ra các đối tƣợng đích, các dữ liệu tự nhiên và kinh tế xã hội. Tiền xử lý là bƣớc quan trọng để cải thiện chất lƣợng dữ liệu, do đó, nó sẽ nâng độ chính xác của mô hình kết quả thu đƣợc cũng nhƣ hiệu quả của khai phá dữ liệu.
Để đơn giản dễ hiểu cho trình bày thuật toán, Sitanggang và các cộng sự đƣa ra một ví dụ đơn giản sau: xét một tập dữ liệu về cháy rừng gồm ba Layer mô tả: land cover (Layer phủ bề mặt, ký hiệu là Lland_cover), population density (Layer mật độ dân số, ký hiệu là Lpopulation_density) và river (Layer sông, ký hiệu là Lriver) và một Layer mục tiêu (Ltarget) (xem hình 2.7).
Layer phủ bề mặt đƣợc biểu diễn là tập hợp các Features dạng vùng cho loại phủ bề mặt. Nó có một thuộc tính dự báo chứa đựng thông tin loại phủ bề mặt trong vùng nghiên cứu. Loại thông tin phủ bề mặt đó là: dryland forest (rừng đất khô cằn), paddy field (cánh đồng lúa), mix garden (vƣờn cây hỗn hợp), shrubs (cây bụi)(xem hình 2.7a).
Layer dân số chứa đựng các Features dạng vùng cho mật độ dân số. Layer có một thuộc tính dự báo là một độ dân số, đƣợc biểu diễn nhƣ sau:
- Low (thấp): Mật độ dân số ≤ 50
Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ - High (cao): Mật độ dân số > 150
Hình 2.7:Các Layer dự báo cháy rừng:
(a) land cover, (b) population density, (c) river (d) Các điểm mục tiêu
Layer sông chỉ có hai thuộc tính: Một là thuộc tính Object ID định danh đối tƣợng và cấu trúc hình học biểu diễn cho dạng đƣờng.
Layer mục tiêu biểu diễn các Feature cảnh báo cháy rừng đúng (True) và sai (False). Cảnh báo True (T) là những cảnh báo cho những điểm nóng thực tế và cảnh báo False là những điểm đƣợc tạo ngẫu nhiên gần điểm cảnh báo True.
Thuật toán đòi hỏi độ đo không gian trong quan hệ kết nối không gian (SJR) giữa Layer mục tiêu và một Layer mô tả.
Bảng dƣới đây cung cấp một quan hệ không gian và độ đo không gian, ta sử dụng để tạo SJRs:
Bảng 2.8: Bảng quan hệ không gian
Layer mục tiêu
Quan hệ không gian Layer mô tả Độ đo không gian
Điểm mục tiêu nằm trong Phủ bề mặt Đếm
Điểm mục tiêu nằm trong Mật độ dân số Đếm
Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ Quan hệ không gian "nằm trong" và hàm 'sum'- tính tổng số là đƣợc áp dụng để tính toán tất cả các đối tƣợng trong Layer mục tiêu mà định vị bên trong của một loại phủ bề mặt (nhƣ hình 2.8a) và bên trong loại mật độ dân số (hình 2.8b).
Quan hệ "khoảng cách" và hàm tính 'min'- tính giá trị nhỏ nhất đƣợc áp dụng để tính khoảng cách từ một điểm mục tiêu tới một con sông gần nhất. Khoảng cách từ điểm mục tiêu đến một con sông gần nhất đƣợc thể hiện là một giá trị số.
Hình 2.8: Layer mục tiêu và Layer phủ bởi phủ bề mặt (a) và mật độ dân số (b)
Phải chuyển đổi khoảng cách tối thiểu này từ số sang thuộc tính rời rạc vì thuật toán đòi hỏi các thuộc tính mục tiêu và dự đoán có giá trị rời rạc. Do đó, khoảng cách tối thiểu đƣợc phân chia thành ba lớp trên cơ sở điều kiện sau:
- Low (thấp): khoảng cách tối thiểu (km) ≤ 1,5
- Medium (trung bình) 1.5 < khoảng cách tối thiểu (km) ≤ 3 - High (cao): Khoảng cách tối thiểu (km) > 3
Thuật toán cây quyết định không gian bắt đầu xây dựng một cây bằng chọn một nút gốc cho cây. Nút gốc đƣợc chọn từ Layer mô tả dựa trên giá trị của độ lợi thông tin không gian cho mỗi Layer (các Layer trong ví dụ là: phủ bề mặt, mật độ dân số, khoảng cách đến sông gần nhất). Trong trƣờng hợp này, ta tính toán độ lợi thông tin không gian cho phủ bề mặt Layer Lland_cover. Một cách tính toán tƣơng tự có thể áp dụng cho các Layer mô tả khác. Entropy của Layer phủ bề mặt cho mỗi loại phủ bề mặt đƣợc tính toán lần lƣợt nhƣ sau:
Đối với Layer phủ bề mặt:
H(Lland_cover(dryland_forest, C)) =-(3/10)*log2(3/10) - (7/10)*log2(7/10) = 0,8812909
Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ H(Lland_cover(mix_garden, C)) = -(3/12)*log2(3/12) - (9/12)*log2(9/12) = 0,8112781
H(Lland_cover(Paddy_field, C)) = -(6/6)*log2(6/6) - (0/0)*log2(0/0) = 0 H(Lland_cover(Shrubs, C)) = -(0/2)*log2(0/2) - (2/2)*log2(2/2) = 0
Giá trị Entropy mong đợi cho việc phân tách theo Layer phủ bề mặt là:
H(S|L) = *H(L(vi, S))
= (10/30)* 0,8812909 + (12/30)*0,8112781 + (6/30)*0 + (2/30)*0 = 0,618274833
Entropy cho Layer mục tiêu S:
H(S) = - *log2
= - (12/30)*log2(12/30) - (18/30)*log2(18/30) = 0,970950594 Độ lợi thông tin cho Layer phủ bề mặt:
Gain(L) = H(S) - H(S|Lland_cover) = 0,352675712
Tƣơng tự tính đƣợc độ lợi thông tin không gian cho các Layer khác nhƣ sau:
Mật độ dân số:Gain(Lpopulation_density) = 0,18538127
Khoảng cách đến sông gần nhất(theo số liệu tính toán của Sitanggang và các
cộng sự):Gain(Lriver) = 0,097717695
Từ kết quả tính toán, thấy Lland_cover có độ lợi thông tin không gian cao nhất so sánh với hai Layer còn lại. Do đó, Lland_cover đƣợc chọn nhƣ là gốc của cây. Có bốn giá trị có thể có của loại phủ bề mặt: dryland forest, mix garden, paddy field và shrubs, các giá trị này sẽ đƣợc dùng ký hiệu nhãn cho cạnh kết nối từ gốc cây đến các nút bên trong.
Thuật toán Generate_SDT sau đó tiếp tục đƣợc áp dụng chomột tập các Layer mô tả mới và Layer mục tiêu để xây dựng một nhánh cây con gắn với nút gốc. Các Layer mô tả mới đƣợc tạo từ các Layer mô tả đang tồn tại, Layer phân lớp tốt nhất và những giá trị vj của thuộc tính dự đoán, cách tạo nhƣ một truy vấn có điều kiện từ quan hệ giữa Layer mô tả và Layer tốt nhất chọn phân nhánh.Cây sẽ dừng phát triển nếu nó gặp một trong số các điều kiện kết thúc sau:
1. Chỉ còn duy nhất một Layer mô tả trong L. Tình huống này, thuật toán trả về một nút lá đƣợc gán nhãn thông quabầu chọn ra (majority) tính toán từ SJR trong số Layer tốt nhất và Layer mô tả.
2. SJR cho một Layer tốt nhất phân nhánh và một Layer mô tả chứa đựng các đối tƣợng trong Tuple thuộc cùng một lớp c. Khi đó, thuật toán trả về một nút lá đƣợc gán nhãn với lớp c.
Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ Một mô tả biểu diễn dạng đồ họa cho cây quyết định không gian đƣợc tạo ra từ P={Lland_cover, Lpopulation_density, Lriver, điểm mục tiêu (S)} đƣợc biểu diễn nhƣ hình 2.9. Cây quyết định không gian của Sitanggang và các cộng sự cuối cùng chứa đựng 8 nút lá và 3 nút với thuộc tính tốt nhất đầu tiên là land cover.
Hình 2.9: Cây quyết định không gian
Dƣới đây là các luật trích xuất ra từ cây:
1. IF land cover is dryland forest AND population density is low THEN Điểm nóng = True
2. IF land cover is dryland forest AND population density is medium THEN điểm nóng = True 3. IF land cover is dryland forest AND population density is high THEN điểm nóng = False.
4. IF land cover is mix garden AND distance to nearest river is low THEN điểm nóng = True
5. IF land cover is mix garden AND distance to nearest river is medium THEN điểm nóng = True
6. IF land cover is mix garden AND distance to nearest river is high THEN điểm nóng = False
7. IF land cover is paddy field THEN điểm nóng = False 8. IF land cover is shrubs field THEN điểm nóng = True
Cây quyết định có tỷ lệ lỗi khi phân lớp trên tập huấn luyện: 16,67% và lỗi trên một tập kiểm thử là 20%. Độ chính xác của cây trên tập kiểm thử là 80%. Số các đối tƣợng mục tiêu trong tập kiểm thử là 30%và số đối tƣợng phân lớp đúng là 24.