Xây dựng câyquyết định trong khai phádữ liệu không- 123docz.net

2.3.1. Tư tưởng xây dựng thuật toán

Các phƣơng pháp khai phá dữ liệu phân lớp truyền thống không hỗ trợ phân lớp đối với dữ liệu biểu dạng dạng tọa độ và quan hệ không gian tiềm ẩn giữa các đối tƣợng địa lý [14]. Do đó, các phƣơng pháp phân lớp dữ liệu truyền thống không đƣợc sử dụng để khai phá tri thức từ dữ liệu không gian. Vị trí của đối tƣợng xác định quan hệ của đối tƣợng với láng giềng của chúng. Theo Koperski và các cộng sự (1998), có ba loại quan hệ giữa một đối tƣợng với láng giềng: quan hệ về Topology, quan hệ Metric (quan hệ theo khoảng cách) và quan hệ về hƣớng [9].

Để nghiên cứu dữ liệu không gian và quan hệ đối với láng giềng tồn tại trong dữ liệu không gian, một phƣơng pháp khai phá dữ liệu mới cần đƣợc phát triển. Một trong những thuật toán khai phá dữ liệu không gian đƣợc giới thiệu trong nhiều nghiên cứu là phân lớp dữ liệu không gian. Các phƣơng pháp phân lớp dữ liệu không gian đƣợc mở rộng từ các phƣơng pháp phân lớp dữ liệu phi không gian bằng cách kéo thuộc tính có quan hệ không gian với đối tƣợng láng giềng, thêm vào và tạo thành thuộc tính của đối tƣợng cần phân lớp [6], [9]. Trong nhiệm vụ phân lớp không gian, cần tạo ra các luật để phân tách một bộ dữ liệu không gian chứa đựng những đối tƣợng phân lớp thành các lớp trên cơ sở các thuộc tính không gian, thuộc tính phi không gian và quan hệ giữa đối tƣợng phân lớp và các đối tƣợng khác [9], [14].

Luận văn nghiên cứu một phƣơng pháp xây dựng cây quyết định của Sitanggang và các cộng sự đề xuất năm 2011 [13], mở rộng từ thuật toán cây quyết định ID3 (Quinlan, 1986)[10]. Thuật toánsử dụng độ lợi thông tin cho dữ liệu không gian, gọi là độ lợi thông tin không gian, để chọn một Layer làm Layer phân lớp. Thay vì sử dụng số lƣợng các Tuple trong một phân vùng, độ lợi thông tin không gian đƣợc tính toán dựa trên những độ đo không gian. Nghiên cứu năm 2011 của Sitanggang và các cộng sự [13]tập trung vào công thức tính độ lợi thông tin không gian nhƣ mô tả bởi Rinzvillo và Turini, 2004 [11].

Quan hệ không gian đƣợc thực hiện bằng sự mở rộng của những chỉ mục kết nối đƣợc đánh giá tốt [12]. Kết quả của kết nối chỉ mục giữa hai quan hệ là một quan hệ mới gồm có một cặp chỉ mục tham chiếu đến Tuple của mỗi quan hệ. Cấu trúc chỉ mục kết nối không gian - Spatial Join Index (SJI) là sự mở rộng của các chỉ mục kết nối [12] trong cơ sở dữ liệu quan hệ đƣợc Zeitouni và các cộng sự giới thiệu năm 2000. Các chỉ mục kết

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ nối có thể đƣợc xử lý giống nhƣ thao tác trên các bảng và đƣợc thao tác sử dụng ngôn ngữ truy vấn SQL [14]. Bên cạnh hai cột ID định danh, một chỉ mục kết nối không gian SJI có một cột thứ ba chứa quan hệ không gian giữa hai Layer. Nghiên cứu này kéo theo một khái niệm chỉ mục kết nối không gian SJI nhƣ mô tả trong [14] để lƣu trữ quan hệ giữa hai lớp khác nhau trong cơ sở dữ liệu không gian. Thay vì quan hệ không gian, đó có thể là giá trị số, giá trị Boolean hoặc giá trị xác định nào đó trong cột thứ ba của SJI và gọi là độ đo không gian của cácFeature nhận đƣợc từ quan hệ không gian giữa hai lớp.

Xétbộ dữ liệu đầu vào thuật toán là một tập các Layer L. Mỗi Layer trong L là một tập hợp các đối tƣợng không gian chỉ có một dạng cấu trúc hình học sau: vùng, đƣờng, điểm. Giả thiết rằng mỗi đối tƣợng trong một Layer là khác biệt nhau. Gọi L là tập hợp các Layer; Li và Lj là hai Layer khác nhau trong L. Một quan hệ không gian giữa Li và Lj

biểu diễn là SpatRel(Li, Lj) có thể là quan hệ Topology hoặc quan hệMetric. Trƣờng hợp quan hệ Topology, SpatRel(Li, Lj) là quan hệ đƣợc mở rộng từ phƣơng pháp đề xuất bởi Clementini và các cộng sự năm 1993. Trong khi đó, trƣờng hợp quan hệ dạng Metric, SpatRel(oi, oj) là quan hệ khoảng cách đƣợc đề xuất bởi [7], trong đó, oi là một đối tƣợng không gian trong Li và oj là một đối tƣợng không gian trong Lj.

Quan hệ giữa hai Layer trong bộ dữ liệu không gian có thể trả về giá trị nhƣ khoảng cách giữa hai điểm hay diện tích vùng giao giữa hai vùng. Giá trị này gọi là độ đo không gian (nhƣ trong [11]), đƣợc dùng để tính toán độ lợi thông tin tại thuật toán đề xuất. Trƣờng hợp quan hệ dạng Topology, độ đo không gian của một Feature đƣợc định nghĩa nhƣ sau. Gọi Li và Lj là một tập trong tập các Layer Li khác Lj với mỗi Feature ri thuộc R=SpatRel(Li, Lj), một độ đo không gian của riđƣợc biểu diễn là SpatMes(ri) đƣợc định nghĩa nhƣ sau:

- Diện tích của ri, nếu <Li, in, Lj> hoặc <Li, overlap, Lj>chứa tất cả các Feature trong Li và Lj đƣợc biểu diễn ở dạng vùng.

- Số lƣợng ri, nếu <Li, in, Lj>chứa tất cả các Feature trong Li đƣợc mô tả ở dạng điểm và tất cả các Feature trong Lj đƣợc mô tả dạng vùng.

Cho trƣờng hợp quan hệ dạng Metric, chúng ta định nghĩa một hàm khoảng cách từ p đến q là dist(p, q), khoảng cách từ một điểm (hay đƣờng) p trong Li tới một điểm (hay đƣờng) q trong Lj.

Độ đo không gian của R biểu diễn là SpatMes(R) định nghĩa nhƣ sau: SpatMes(R) = f(SpatMes(r1), SpatMes(r2), ..., SpatMes(rn))

Cho ri trong R, i = 1, 2, ..., n và n là số các Feature trong R. f là một hàm số tập hợp mà có thể là tổng, min, max hay trung bình.

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ Một quan hệ không gian giữa Li và Lj tạo ra một Layer mới trong R.Định nghĩa một SJR(Spatial Join Relation - Quan hệ kết nối không gian) cho tất cả các feature p trong Li và q trong Lj nhƣ sau:

SJR = {(p, SpatMes(r), q) | r là một feature trong R liên quan tới p và q}

Hình2.6:Chỉ mục kết nối không gian

Nhƣ ví dụ hình 2.6trên, một SJI là một bảng đƣợc tạo ra bằng cách tham chiếu kết hợp hai Layer R và S bằng cách lấy về Object ID của 02 đối tƣợng và sinh ra một cột SpatRel chứa giá trị biểu diễn quan hệ không gian giữa R và S. Trƣờng hợp này, quan hệ không gian là quan hệ Topology thuộc một trong các dạng bao gồm (inclusion), liền kề (adjacency) hay xếp chồng (overlapping), thì thuộc tính SpatRel sẽ chứa một mã số âm, nhƣ quan hệ (R2, S4). Mặt khác, nó sẽ lƣu trữ giá trị là khoảng cách.

2.3.2. Thuật toán cây quyết định không gian mở rộng từ ID3

Bộ dữ liệu không gian bao gồm một tập các Layer, tất cả các Feature trong một Layer có cùng một cấu trúc hình học. Có hai nhóm Layer: Các Layer mô tả và một Layer mục tiêu (hay còn gọi là Layer tham chiếu). Layer mục tiêu có một số thuộc tính bao gồm một thuộc tính mục tiêu lƣu trữ các lớp mục tiêu. Mỗi một Layer mô tả có một vài thuộc tính. Một trong số những thuộc tính là một thuộc tính dự đoán phân loại các Tuple trong bộ dữ liệu thành các lớp mục tiêu. Thuộc tính mục tiêu và thuộc tính dự đoán là ở dạng phi số (các giá trị rời rạc). Các Feature (vùng, đƣờng hay điểm) trong Layer mục tiêu cùng với các Feature trong các Layermô tả để tạo ra tập hợp các Tuble. Mỗi giá trị trong một Tuple tƣơng ứng với giá trị của các Layer này. Hai Layer khác nhau đƣợc liên kết để tạo một Layer mới sử dụng một quan hệ không gian. Một quan hệ giữa hai Layer tạo ra một độ đo không gian cho Layer mới. Những giá trị đo đạc không gian đƣợc sử dụng trong công thức tính cho độ lợi thông tin không gian.

Xây dựng cây quyết định không gian nhƣ mô tả sau dựa trên cơ sở học thuật toán ID3 do Quinlan đề xuất năm 1986 [10]. Thuật toán ID3 tính độ lợi thông tin để định nghĩa lớp phân chia cho bộ dữ liệu. Trong thuật toán cây quyết định không gian, định nghĩa độ lợi thông tin không gian để chọn một Layer mô tả L mà cho phân chia tốt

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ nhất bộ dữ liệu không gian tùy theo giá trị của thuộc tính dự đoán trong Layer L. Với mục tiêu này, nhƣ[11], ta vận dụng độ đo đạc không gian để tính toán.

Cho một bộ dữ liệu D là một tập huấn luyện các Tuple đã đƣợc gán nhãn lớp. Trong thuật toán cây quyết định phi không gian, chúng ta tính toán khả năng một tuple nào đó trong D thuộc về lớp Ci và nó đƣợc đánh giá bởi giá trị |Ci, D| / |D| trong đó, |D| là số các Tuple trong D và |Ci, D| là số các Tuple của lớp Ci trong D ([8]).

Trong bộ dữ liệu nghiên cứu của Sitanggang và các cộng sự năm 2011, chứa một số lớp trong đó có một lớp mục tiêu chứa các nhãn lớp. Tất cả các đối tƣợng trong Layer mục tiêu đƣợc biểu diễn dạng điểm. Số các Tuple trong bộ dữ liệu tƣơng đƣơng với số các đối tƣợng trong Layer mục tiêu bởi mỗi Tuple đƣợc tạo bởi quan hệ giữa các Feature trong Layer mục tiêu với các Feature trong các Layer mô tả. Một Feature trong Layer mục tiêu liên kết đúng một Tuple trong bộ dữ liệu.

Entropy:

Gọi một thuộc tính mục tiêu C trong Layer mục tiêu S có l class (ví dụ: c1, c2,, ..., cl). Entropy cho S biểu diễn thông tin mong đợi cần để xác định lớp trong số cácTuple và đƣợc định nghĩa nhƣ sau:

H(S) = - *log2

SpatMes(S) biểu diễn độ đo không gian của Layer S.

Gọi một thuộc tính mô tả V trong một Layer mô tả L có q giá trị (ví dụ, v1, v2, ..., vq). Ta phân vùng các đối tƣợng trong Layer mục tiêu S theo Layer Ltheo đó ta có một tập các Layer L(vi, S) cho mỗi giá trị của vi trong L. Giá trị Entropy mong đợi cho việc phân chia theo thuộc tính mô tả V trong Layer L có q giá trịđƣợc cho bởi công thức sau:

H(S|L) = *H(L(vi, S))

H(S|L) mô tả lƣợng thông tin cần (sau khi phân vùng) để đạt đƣợc một sự phân lớp chính xác.

Độ lợi thông tin không gian:

Độ lợi thông tin không gian cho Layer L đƣợc cho bởi biểu thức sau: Gain(L) = H(S) - H(S|L)

Gain(L) cho biết mức độ thông tin mà đạt đƣợc từ phân nhánh trên Layer L. Layer L với độ lợi thông tin cao nhất (Gain(L)), đƣợc chọn là Layer phân lớp ở nút N. Những đối tƣợng trong một bộ dữ liệu đƣợc phân vùng tùy theo Layer L.

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/

Thuật toán cây quyết định không gian:

Thuật toán: Generate_SDT Input:

a. Bộ dữ liệu không gian D, là một tập các Tuple huấn luyện và các nhãn lớp liên kết. Những Tuple này đƣợc tạo từ tập các Layer,P, sử dụng quan hệ không gian.

b. Một Layer mục tiêu S∊P với một thuộc tính mục tiêu C.

c. Một tập khác rỗng các Layer mô tả L⊆P và L ∊L có một thuộc tính dự

đoán V.P = S ∪L.

d. SJR trên tập hợp Layer P, SJR(P). Output: Một cây quyết định không gian Method:

1. Tạo một node N;

2. Iftồn tại duy nhất một Layer mô tả trong Lthen

3. return N nhƣ một nút lá đƣợc gán nhãn với một lớp bầu chọn trong D; // bầu ra lớp từ lớp có số lƣợng nhiều nhất trong tập dữ liệu D 4. endif

5. If các đối tƣợng trong D thuộc cùng một lớp c then 6. return N nhƣ một nút lá đƣợc gán nhãn với lớp c; 7. endif

8. Sử dụng layer_selection_method(D, L, SJR(P)) để tìm Layer phân lớp

"tốt nhất", L*;

9. Gán nhãn Node N với L*;

10. Phân chia D theo Layer L* thành {D(v1), ..., D(vm)}, D(vi) là nhánh thứ i của Layer L* và vi, ..., vm là các giá trị của thuộc tính dự đoán V trong L*; 11. L = L - {L*};

12. for each D(vi), i = 1, 2, ..., m do

13. let Ni = Generate_SDT(D(vi), L, SJR(P));

14. Gắn Node Ni vào N và gán nhãn cạnh với một giá trị đƣợc chọn của thuộc tính dự đoán V trong L*.

endfor.

Đầu vào của thuật toán đƣợc chia thành 2 nhóm:

- Một tập hợp các Layer chứa đựng một số Layer mô tả và một Layer mục tiêu có lớp gán nhãn cho các Tuple trong một bộ dữ liệu.

- SJRs lƣu giữ thông tin đo đạc không gian cho các Features giữa hai Layer. Thuật toán tạo ra một cây bằng cách chọn Layer tốt nhất để tách bộ dữ liệu thành các phân vùng nhỏ hơn, tinh khiết hơn (Tinh khiết nhất khi các Tuple trong phân vùng đều thuộc về cùng một lớp).

2.3.3. Ví dụ xây dựng cây quyết định không gian

Để minh họa cho thuật toán nêu trên, Sitanggang và các cộng sự nêu ra bài toán thực tế [13] về hỗ trợ dự báo nguy cơ cháy rừng tại huyện Rokan Hilir tại tỉnh Riau

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ thuộc Indonesia.Hai loại dữ liệu là dữ liệu không gian và phi không gian. Dữ liệu phi không gian là dữ liệu kinh tế xã hội các vùng miền tại Rokan Hilir lƣu trữ ở định dạng DBF. Dữ liệu bao gồm mật độ dân cƣ, nguồn thu của cƣ dân và số lƣợng các trƣờng học. Để khai phá sử dụng cây quyết định không gian, những dữ liệu phi không gian này đƣợc chuyển đổi vào dữ liệu không gian ở định dạng Shape File bằng cách gắn vào các Shape File quản trị ranh giới vùng, khu vực trong Rokan Hilir. Dữ liệu không gian bao gồm dữ liệu tự nhiên (đƣờng, sông, thành phố) và thời tiết (lƣợng mƣa, nhiệt độ, tốc độ gió và độ cao bề mặt). Tiền xử lý dữ liệu sắp xếp các điểm nóng để tạo ra các đối tƣợng đích, các dữ liệu tự nhiên và kinh tế xã hội. Tiền xử lý là bƣớc quan trọng để cải thiện chất lƣợng dữ liệu, do đó, nó sẽ nâng độ chính xác của mô hình kết quả thu đƣợc cũng nhƣ hiệu quả của khai phá dữ liệu.

Để đơn giản dễ hiểu cho trình bày thuật toán, Sitanggang và các cộng sự đƣa ra một ví dụ đơn giản sau: xét một tập dữ liệu về cháy rừng gồm ba Layer mô tả: land cover (Layer phủ bề mặt, ký hiệu là Lland_cover), population density (Layer mật độ dân số, ký hiệu là Lpopulation_density) và river (Layer sông, ký hiệu là Lriver) và một Layer mục tiêu (Ltarget) (xem hình 2.7).

Layer phủ bề mặt đƣợc biểu diễn là tập hợp các Features dạng vùng cho loại phủ bề mặt. Nó có một thuộc tính dự báo chứa đựng thông tin loại phủ bề mặt trong vùng nghiên cứu. Loại thông tin phủ bề mặt đó là: dryland forest (rừng đất khô cằn), paddy field (cánh đồng lúa), mix garden (vƣờn cây hỗn hợp), shrubs (cây bụi)(xem hình 2.7a).

Layer dân số chứa đựng các Features dạng vùng cho mật độ dân số. Layer có một thuộc tính dự báo là một độ dân số, đƣợc biểu diễn nhƣ sau:

- Low (thấp): Mật độ dân số ≤ 50

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ - High (cao): Mật độ dân số > 150

Hình 2.7:Các Layer dự báo cháy rừng:

(a) land cover, (b) population density, (c) river (d) Các điểm mục tiêu

Layer sông chỉ có hai thuộc tính: Một là thuộc tính Object ID định danh đối tƣợng và cấu trúc hình học biểu diễn cho dạng đƣờng.

Layer mục tiêu biểu diễn các Feature cảnh báo cháy rừng đúng (True) và sai (False). Cảnh báo True (T) là những cảnh báo cho những điểm nóng thực tế và cảnh báo False là những điểm đƣợc tạo ngẫu nhiên gần điểm cảnh báo True.

Thuật toán đòi hỏi độ đo không gian trong quan hệ kết nối không gian (SJR) giữa Layer mục tiêu và một Layer mô tả.

Bảng dƣới đây cung cấp một quan hệ không gian và độ đo không gian, ta sử dụng để tạo SJRs:

Bảng 2.8: Bảng quan hệ không gian

Layer mục tiêu

Quan hệ không gian Layer mô tả Độ đo không gian

Điểm mục tiêu nằm trong Phủ bề mặt Đếm

Điểm mục tiêu nằm trong Mật độ dân số Đếm

Số hóa bởi trung tâm học liệu http://www.lrc-tnu.edu.vn/ Quan hệ không gian "nằm trong" và hàm 'sum'- tính tổng số là đƣợc áp dụng để tính toán tất cả các đối tƣợng trong Layer mục tiêu mà định vị bên trong của một loại phủ bề mặt (nhƣ hình 2.8a) và bên trong loại mật độ dân số (hình 2.8b).

Quan hệ "khoảng cách" và hàm tính 'min'- tính giá trị nhỏ nhất đƣợc áp dụng để tính khoảng cách từ một điểm mục tiêu tới một con sông gần nhất. Khoảng cách từ điểm mục tiêu đến một con sông gần nhất đƣợc thể hiện là một giá trị số.

Hình 2.8: Layer mục tiêu và Layer phủ bởi phủ bề mặt (a) và mật độ dân số (b)

Phải chuyển đổi khoảng cách tối thiểu này từ số sang thuộc tính rời rạc vì thuật toán đòi hỏi các thuộc tính mục tiêu và dự đoán có giá trị rời rạc. Do đó, khoảng cách tối thiểu đƣợc phân chia thành ba lớp trên cơ sở điều kiện sau:

- Low (thấp): khoảng cách tối thiểu (km) ≤ 1,5

Xây dựng câyquyết định trong khai phádữ liệu không gian

Câyquyết định ứng dụng trong phânlớp dữliệu

Ví dụ xây dựng câyquyết định không gian