Sơ đồ nguyên lý quá trình tạo cây quyết định

Một phần của tài liệu (Luận văn thạc sĩ) Xây dựng mô hình phối hợp các mạng Nơrôn nhận dạng tín hiệu điện tim (ECG) (Trang 66 - 72)

Cây quyết đinh

(cho mơ hình kết hợp)

Thuật tốn ID3

3.3.3. Cây quyết định

Cây quyết định là một mơ hình xử lý tín hiệu kinh điển đã được sử dụng rất rộng rãi trong nhiều ứng dụng thực tế. Cây là một đồ thị khơng có chu trình. Đồ thị G được định nghĩa chung bởi hai tập hợp G = (V, E), trong đó V là tập hợp các nút

(vertex) còn E là tập hợp các cạnh (edge) nối hai nút của tập V. Đối với các cây, ta sử dụng trường hợp cạnh có hướng. Khi đó nếu đồ thị G khơng có chu trình kín thì được gọi là cây. Với mỗi cây ta có [3]:

- Tồn tại một nút được gọi là nút gốc;

- Các nút được nối với nhau bởi các nhánh có hướng cịn gọi là cành. Với mỗi cành, nút gốc được gọi nút cha/mẹ, nút ngọn là nút con;

Mỗi nút trong cây có thể có từ một đến nhiều nút con. Các nút khơng có nút con cịn được gọi là (nút) lá/ngọn của cây.

Cây quyết định là một trường hợp đặc biệt của cây, khi được thiết kế với mỗi nút sẽ có một điều kiện phân nhánh. Tại các nút lá sẽ có một giá trị tương ứng với kết quả nhận dạng. Trên hình 3.15 là mơ hình của một cây quyết định đơn giản.

Trong các phương pháp xây dựng cây quyết định ta thường sử dụng cây nhị phân (bậc hai) để đơn giản hóa việc mơ tả các thuật tốn. Giả thiết này khơng làm giảm tính tổng quát của cây do một cây bậc bất kỳ đều có thể chuyển về một cây nhị phân tương đương. Hình 3.16 minh họa phương pháp chuyển một nút bậc 3 về thành 2 nút bậc hai trong một cây. Đồng thời các điều kiện phân nhánh tại mỗi nút ta sẽ sử dụng các điều kiện đơn (ở dạng x op A với op là toán tử so sánh cơ bản , , , , , )

Hình 3.16. Mơ hình cây quyết định dạng nhị phân [3] Đối tượng nhận dạng

Điều kiện phân chia

Điều kiện phân chia/KQ nhận

dạng

Điều kiện phân chia/KQ nhận

Hình 3.17. Chuyển một nút bậc cao (a) thành một nút nhị phân (b) [3]

Để xây dựng một cây quyết định cho một bộ mẫu số liệu cho trước, ta có thể sử dụng nhiều phương pháp khác nhau, trong đó phương pháp phổ biến nhất là ID3.

Nội dung cơ bản của phương pháp này dựa trên công thức lượng thay đổi entropy của một nút cây. Theo đó, với một bộ số liệu cho trước, nếu như tại một nút V ta có N số liệu x1, x2,..., xN thuộc M nhóm C1, C2,..., CM thì entropy của nút này sẽ là:

E(V) = Mi1plog (2 pi) (3.19) với pi= là xác suất số liệu của các nút thuộc về nhóm Ci. Với định nghĩa trên ta sẽ tiếp tục định nghĩa độ giảm entropy của nút khi sử dụng một điều kiện phân nhánh S này đó. Với nút V, khi sử dụng điều kiện phân nhánh S thì các số liệu được phân chia về các nút con SVi với số lượng là Ni ( Sử dụng công thức entropy cho từng nút, ta có độ giảm entropy của V khi sử dụng điều kiện S là:

Gain(V,S) = E(V) - i ( ) i i N E SV N  (3.20) Đối với nút tất cả các điều kiện phân nhánh có thể sẽ được xem xét và kiểm tra

(với một biến x có K giá trị khác nhau ta có thể tạo được K+1 điều kiện so sánh đơn để phân chia khác nhau). Điều kiện phân nhánh được lựa chọn sẽ là điều kiện phân nhánh ứng với độ giảm entropy lớn nhất. Quá trình phân nhánh sẽ được dừng lại khi tại mỗi nút lá tất cả các mẫu số liệu đều thuộc về cùng một nhóm.

Ví dụ 1: Xây dựng mơ hình nhận dạng bằng cây quyết định

Xây dựng cây quyết định theo các bộ số liệu điện tâm đồ từ cơ sở dữ liệu MGH/MF. trong bảng 3.1 bộ số liệu học có 90 mẫu với ba nhóm bệnh là bình thường - N (30 nhịp, mã nhóm là 1), loạn nhịp trên thất - S (30 nhịp, mã nhóm là 2)

véc-tơ đặc tính với 11 thành phần (10 giá trị đầu khai triển theo các hàm Hermite, giá

trị cuối là khoảng cách R-R). Từ các véc-tơ đặc tính này, ta xây dựng cây quyết định

nhị phân theo thuật toán ID3 và thu được kết quả được thể hiện trên hình 3.18. Bảng 3.1. Bảng phân chia số lượng mẫu học và mẫu kiểm tra của 3 loại nhịp

Loại nhịp Số mẫu học Số mẫu kiểm tra

N 30 6

S 30 6

V 30 6

Tổng 90 18

Bảng 3.2. Ví dụ số liệu cụ thể của sáu mẫu học (từ 1 6) và ba mẫu kiểm tra (từ 7 9)

TT x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 d 1 -409.8 89.2 -28.6 -12.7 -19 -31.7 -35.5 -15.3 -19.6 -8.9 215.1 1 2 -426.4 111.2 -12.5 -23.4 0 -41.1 -11.2 -18.8 -1.5 -16.9 214 1 3 -377.6 91.8 6.1 -30 -24.4 -50.1 -23.1 -22.8 -12.8 -23.2 229.5 2 4 -340.1 68.1 9.9 -24.4 -21.8 -53.1 -28.8 -26 -14.9 -19.7 228.4 2 5 8.2 -119.2 -37.6 -63 -11.6 -38.6 -20.4 -20 -4.7 -29.2 209 3 6 -122.3 123.3 -129.1 100 -83.2 56.1 -76.2 45.5 -47.3 22.2 206.2 3 7 -398.6 121.0 -40.5 -27.3 6.7 -54.6 -1.3 -28.3 5.3 -24.8 214.7 ? 8 -365.8 76.7 17.7 -30.7 -21.6 -47.7 -29.6 -25.3 -18.1 -21.2 221.6 ? 9 32.8 -202.9 -2.4 -131.8 4.3 -80.1 7.8 -37.8 21.0 -26.6 209.1 ?

Hình 3.18. Cây quyết định xây dựng từ bộ số liệu có 90 mẫu (ví dụ 1)

Kết quả của cây nhị phân phân loại trọn vẹn ba loại nhịp bệnh được biểu diễn như trên hình 3.18 với chiều cao là bốn, có sáu lá. Các luật phân loại như sau:

Bảng 3.3 là kết quả thử nghiệm nhận dạng 18 mẫu mới, ta thấy chỉ có một mẫu bị nhận dạng nhầm từ S thành V.

Bảng 3.3. Ma trận phân bố kết quả nhận dạng ba loại mẫu nhịp bằng cây quyết định

Mẫu Kết quả N V S N 6 0 0 V 0 6 1 S 0 0 5 Tổng sai số 0 0 1

Ví dụ 2: Tổng hợp kết quả bằng cây quyết định từ ba mơ hình nhận dạng cơ sở:

MLP, SVM, TSK, thử nghiệm với các mẫu số liệu lấy từ bộ cơ sở dữ liệu MGH/MF trong bảng 3.4.

Bảng 3.4. Bảng phân chia số lượng mẫu học và mẫu kiểm tra của 3 loại nhịp

Loại nhịp Số mẫu học Số mẫu kiểm tra

N 8 2

S 8 2

V 8 2

Tổng 24 6

Thực hiện theo quy trình đã trình bày ở mục trên (3.3.1. Xây dựng mơ hình kết

hợp), cụ thể:

- Kết quả nhận dạng của ba mơ hình đơn MLP là y1, TSK là y2, SVM là y3; - Số mơ hình M=3, số lớp K=3, số mẫu dùng để học là 28 (theo bảng 3.4), nên kết quả của mơ hình nhận dạng đơn có dạng: yi = [yi1 yi2... yi3]

- Véc-tơ tổng có kích thước là 9 (M x K), thể hiện trong bảng 3.5: Số mẫu học là từ dòng 1-24, số mẫu kiểm tra từ dòng 25-30.

Ylearn = [y1 y2 y3] = [y11 y12 y13 y21 y22 y23 y31 y32 y33]

- Như vậy, bộ số liệu học cho cây quyết định DT là (Ylearn, dlearn) - dlearn là các mã loại nhịp tim đã biết trước, trong bảng 3.5 là dòng cuối cùng (Type d) có các mã (1-

Loại nhịp bình thường N, 2- Loạn nhịp trên thất S, 3- Ngoại tâm thu thất S);

- Từ bộ số liệu trên ta tiến hành xây dựng cấu trúc cây quyết định, kết quả thể hiện trong hình 3.19.

Bảng 3.5. Bảng số liệu học và kiểm tra cho ví dụ 2

ID

Véc-tơ tổng Y có kích thước (1x3*3) Type d

y1 y2 y3

y11 y12 y13 y21 y22 y23 y31 y31 y32

1 0.624 0.087 0.290 0.378 -0.053 0.901 0.579 0.210 0.211 1 2 0.612 0.151 0.237 0.439 0.031 0.682 0.581 0.210 0.209 1 3 0.432 0.502 0.067 0.610 0.210 0.123 0.775 0.178 0.047 1 4 1.083 0.081 -0.165 0.556 0.470 0.083 0.462 0.493 0.045 1 5 0.468 0.512 0.019 0.542 0.510 -0.130 0.400 0.565 0.035 1 6 0.082 0.877 0.042 0.264 0.697 -0.158 0.471 0.454 0.075 1 7 0.857 0.029 0.114 0.205 -0.181 0.337 0.936 0.032 0.032 1 8 0.587 -0.319 0.731 0.759 -0.090 0.378 0.707 0.112 0.181 1 9 0.205 0.723 0.072 0.426 0.619 -0.067 0.716 0.214 0.070 2 10 0.353 0.723 -0.076 0.095 1.085 -0.097 0.578 0.387 0.035 2 11 -0.006 0.952 0.053 0.260 0.836 -0.068 0.633 0.326 0.041 2 12 0.140 0.774 0.086 0.451 0.553 -0.073 0.684 0.249 0.066 2 13 0.104 0.855 0.040 0.409 0.180 -0.086 0.278 0.621 0.101 2 14 -0.077 1.385 -0.308 0.363 0.238 0.163 0.106 0.841 0.053 2 15 -0.197 0.839 0.358 -0.067 0.372 0.509 0.180 0.639 0.181 2 16 0.170 0.768 0.062 0.419 0.345 0.485 0.295 0.535 0.170 2 17 0.218 0.416 0.366 -0.013 0.098 0.975 0.096 0.102 0.802 3 18 0.457 0.136 0.407 0.016 0.191 1.187 0.083 0.088 0.829 3 19 0.194 0.399 0.407 0.364 0.221 0.316 0.218 0.194 0.588 3 20 0.035 0.110 0.854 0.163 0.190 0.145 0.210 0.221 0.568 3 21 0.181 -0.128 0.947 0.422 0.160 0.045 0.293 0.191 0.516 3 22 0.076 0.123 0.801 0.451 0.265 0.030 0.269 0.214 0.517 3 23 0.208 0.162 0.631 0.634 0.174 0.177 0.401 0.170 0.430 3

ID

Véc-tơ tổng Y có kích thước (1x3*3) Type d

y1 y2 y3

y11 y12 y13 y21 y22 y23 y31 y31 y32

24 -0.272 0.301 0.972 0.210 0.136 0.145 0.088 0.073 0.839 3 25 0.952 -0.023 0.072 0.143 0.260 0.600 0.677 0.115 0.208 ? 26 0.674 -0.097 0.424 0.085 0.287 0.293 0.544 0.254 0.202 ? 27 0.157 0.746 0.096 -0.007 0.431 0.445 0.212 0.574 0.214 ? 28 -0.101 0.655 0.447 0.178 0.221 0.656 0.242 0.554 0.203 ? 29 0.076 0.286 0.638 0.234 0.437 0.086 0.109 0.162 0.730 ? 30 0.236 0.204 0.560 0.271 0.366 0.351 0.324 0.181 0.495 ?

Một phần của tài liệu (Luận văn thạc sĩ) Xây dựng mô hình phối hợp các mạng Nơrôn nhận dạng tín hiệu điện tim (ECG) (Trang 66 - 72)

Tải bản đầy đủ (PDF)

(94 trang)