Một hệ quyết định trong “chuẩn đoán bệnh Cảm cúm”- 123docz.net

Trong Bảng 2.4, U = {p1; p2; p3; p4; p5; p6}, A = {Đau đầu, Đau cơ, Nhiệt độ} và d = Cảm cúm.

2.2.2.3.3 Xấp xỉ tập hợp

Trong lý thuyết tập thô, để biểu diễn một tập hợp bằng tri thức được cho xác định bởi một tập thuộc tính, người ta định nghĩa hai phép xấp xỉ: xấp xỉ dưới (lower approximation) và xấp xỉ trên (upper approximation).

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 25 Xét hệ thông tin IS = (U, A), với R ⊆ A và X ⊆ U:

- Xấp xỉ R-dưới của X (R-lower approximation of X): là tập hợp các đối tượng chắc chắn được phân lớp như là các thành viên của X theo tập thuộc tính R.

R = { |[ ] ⊆ } (2.4)

- Xấp xỉ R-trên của X (R-upper approximation of X): là tập hợp các đối tượng chỉ có

thể phân lớp là các thành viên có kết quả dương tính của tập X theo tập thuộc tính R

= { |[ ] ∩ ≠ ∅} (2.5)

- Vùng R-biên của X (R-boundary region of X): là tập hợp chứa các đối tượng mà không thể phân lớp chắc chắn vào X theo tập thuộc tính R

( ) = − R (2.6)

- Nếu vùng biên khác rỗng ( ≠ ∅) thì tập X đang xét được gọi là tập Thô.

2.2.2.3.4 Ma trận phân biệt và thuật toán quyết định

a. Ma trận phân biệt (Discernibility Matrix)

Ma trận phân biệt là một khái niệm trong tập thô dùng để xác định và loại bỏ các thuộc tính thừa, không cần thiết (superfluous attributes) khi tính toán. Với một hệ thông tin có n đối tượng cần xem xét, ma trận phân biệt của hệ quyết định đó là một ma trận đối xứng n x n:

= ( )

trong đó:

= { ∈ | ( )≠ ( )}nếu ( ) ≠ ( ), ngược lại = ∅ (2.7) Đặc điểm chính của ma trận phân biệt là tính đối xứng và có đường chéo rỗng.

= ∅

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 26 Dựa vào Bảng 2.4, ta có ma trận phân biệt sau:

p1 p2 p3 p4 p5 p6 p1 p2 p3 p4 c a, b, c p5 a, b b, c p6 c a, b, c

Bảng 2.5: Ma trận phân biệt của hệ quyết định “Cảm cúm”

Trong ma trận phân biệt này, a đại diện cho thuộc tính Đau đầu; b đại diện cho Đau cơ; c đại diện cho Nhiệt độ; ô trống là giá trị ∅. Do tính chất đối xứng của ma trận phân biệt nên bỏ qua không xét tới nửa trên của ma trận (đặt giá trị ∅ cho các ô này).

b. Hàm phân biệt (Discernibility Function)

Ma trận phân biệt chỉ ra các thuộc tính khác nhau đối với từng cặp đối tượng khách hàng. Dựa vào ma trận phân biệt, ta có thể xác định được các thuộc tính quan trọng và các thuộc tính không quan trọng bằng cách xây dựng hàm phân biệt.

Hàm phân biệt chính là một hàm bool suy ra từ ma trận phân biệt. Hàm phân biệt được tính theo công thức sau:

=∧{∨ | ≠ ∅} (2.8)

Hàm phân biệt của Bảng 2.5 có sẽ dạng như sau:

= ∧( ∨ )∧( ∨ ∨ )∧( ∨ )

Sử dụng các định luật của đại số bool (Boolean algebra) để phân tích hàm f trên thành các đơn thức rút gọn. Mỗi đơn thức rút gọn của hàm f là một trường hợp của dữ liệu cho phép loại bỏ các thuộc tính không có trong đơn thức đó:

= ( ∨ )∧( ∨ )

Như vậy, {a,c} và {b,c} chính là hai rút gọn của Hệ quyết định “chuẩn đoán Cảm cúm” trong Bảng 2.4.

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 27 Một số định luật đại số bool được sử dụng để thu gọn hàm f [16]:

∨ = ∧ = ∨ = ∨ ∧ = ∧ ∨( ∨ ) = ( ∨ )∨ ∧( ∧ ) = ( ∧ )∧ ∨( ∧ ) = ∧( ∨ ) = ∨( ∧ ) = ( ∨ )∧( ∨ ) , , là các biểu thức logic.

Bệnh nhân Đau đầu Nhiệt độ Cảm cúm

p1 không cao có

p2 có cao có

p3 có rất cao có

p4 không bình thường không

p5 có cao không

p6 không rất cao có

Bảng 2.6: Hệ quyết định rút gọn thuộc tính Đau cơ {a, c}

Bệnh nhân Đau cơ Nhiệt độ Cảm cúm

p1 có cao có

p2 không cao có

p3 có rất cao có

p4 có bình thường không

p5 không cao không

p6 có rất cao có

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 28 c. Thuật toán quyết định (Decision Algorithm)

Hai rút gọn tìm được đều ra dạng thu gọn tối ưu của Hệ quyết định Bảng 2.4. Xem xét dạng rút gọn {a, c} và Bảng 2.6, có thể biểu diễn kết quả của Bảng 2.6 theo một dạng gọi là thuật toán quyết định như sau:

p1: if (Đau đầu=không) and (Nhiệt độ=cao) then (Cảm cúm=có) p2: if (Đau đầu=có) and (Nhiệt độ=cao) then (Cảm cúm=có) p3: if (Đau đầu=có) and (Nhiệt độ=rất cao) then (Cảm cúm=có)

p4: if (Đau đầu=không) and (Nhiệt độ=bình thường) then (Cảm cúm=không) p5: if (Đauđầu=có) and (Nhiệt độ=cao) then (Cảm cúm=không)

p6: if (Đau đầu=không) and (Nhiệt độ=rất cao) then (Cảm cúm=có)

Đây chính là các luật quyết định (decision rules) rút ra từ Hệ quyết định “chuẩn đoán Cảm cúm”. Dựa vào nó, ta có thể dễ dàng xác định được một bệnh nhân có bị Cảm cúm hay không dựa vào các triệu chứng của bện nhân đó.

Tập hợp các luật quyết định gọi là thuật toán quyết định (decision algorithm). Nó cho thấy quy luật tổng quát của tập dữ liệu đang sử dụng. Các luật quyết định trong thuật toán quyết định là duy nhất và có biểu thức điều kiện luôn khác nhau.

Ngoài việc rút gọn thuộc tính, bài toán trên lý thuyết tập thô còn có thể rút gọn các giá trị thuộc tính để làm tăng tính hiệu quả của thuật toán quyết định. Nhưng việc rút gọn giá trị thuộc tính thường không đơn giản và đôi khi chi phí bỏ ra rút gọn giá trị của thuộc tính còn lớn hơn nhiều chi phí khi không xử lý rút gọn giá trị thuộc tính.

2.2.2.3.5 Bài toán rút gọn thuộc tính trong lý thuyết tập thô

Một vấn đề then chốt trong nghiên cứu lý thuyết tập thô chính là rút gọn thuộc tính. Khi xử lý với dữ liệu lớn, một hệ thống máy tính sẽ tốn thời gian rất lâu hoặc có thể bị treo, tắt, thiếu tài nguyên dẫn tới trì trệ toàn hệ thống. Bên cạnh đó, việc thu thập thông tin về một số thuộc tính thừa sẽ gây lãng phí, tốn nhiều thời gian, công sức. Rút gọn thuộc tính, hay còn gọi là việc lựa chọn đặc trưng, loại bỏ những thuộc tính không thật sự cần thiết trong hệ thông tin và cải tiến hiệu quả của tiến trình phân tích dữ liệu. Nhưng việc giải quyết bài toán

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 29 rút gọn thuộc tính là một vấn đề vô cùng khó khăn và thuộc lớp bài toán NP-khó (NP-hard problem).

NP (nondeterministic polynomial) là lớp các bài toán quyết định mà để xác định câu trả lời của nó chúng ta có thể đưa ra các bằng chứng ngắn gọn dễ kiểm tra.

Ví dụ: Bài toán kiểm tra tính hợp số: “Có phải n là hợp số không?” là một bài toán lớp NP. Để xác nhận câu trả lời ‘yes’ cho đầu vào n ta có thể đưa ra một ước số b (1<b<n) của n. Để kiểm tra xem b có phải là ước số của n hay không ta có thể thực hiện phép chia n cho b sau thời gian đa thức. Trong ví dụ này dễ thấy b là bằng chứng ngắn gọn (b<n) và dễ kiểm tra (có thuật toán thời gian tính đa thức để kiểm tra xem b có là ước số của n).

NP-khó là lớp bài toán không có thuật toán để giải nó theo thời gian đa thức mà chỉ có những thuật toán giải trong thời gian hàm mũ [20] (xem thêm Phụ lục B)

Nhiều nghiên cứu hiện nay về lý thuyết tập thô đều tập trung vào giải quyết bài toán rút gọn thuộc tính này một cách có hiệu quả. Kỹ thuật rút gọn sử dụng ma trận phân biệt (discernibility function) chính là kỹ thuật cơ bản nhất và được nhiều nhà nghiên cứu hiện nay sử dụng.

Việc rút trích ra hàm phân biệt từ mà trận phân biệt và đơn giản hàm phân biệt để tìm ra một tập rút gọn các thuộc tính của hệ quyết định là phương pháp phổ biến. Nhưng rút gọn hàm phân biệt cũng là một bài toán dạng NP-khó.

Bên cạnh việc rút gọn hàm phân biệt gặp không ít khó khăn, nhiều nhà nghiên cứu quan tâm đến việc biến đổi ma trận phân biệt thành những dạng đơn giản. Với một ma trận đơn giản, ta có thể dễ dàng lấy được hàm phân biệt tối tiểu và tìm ra những thuộc tính quan trọng trong một hệ quyết định.

Vấn đề chính của các phương pháp về ma trận phân biệt là chúng yêu cầu không gian bộ nhớ quá lớn |U|x|U|, U là không gian hữu hạn khác rỗng các đối tượng. Gần như là không thể áp dụng trực tiếp các phương pháp này trên các tập dữ liệu có chứa một lượng lớn đối tượng. Người ta cũng nghiên cứu nhiều phương án thay thế nhằm tránh phải dùng ma trận phân biệt trong phân tích dữ liệu trên lý thuyết tập thô. Hai cách tiếp cận không sử dụng ma trận phân biệt được nhiều nhà nghiên cứu sử dụng nhất là sử dụng sự phụ thuộc giữa các thuộc tính (dependency of attributes) và sử dụng các thuật toán tìm kiếm ngẫu nhiên.

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 30

2.2.2.3.6 Tập thô và công thức Bayes

Những đối tượng nằm ở vùng biên của tập thô thường mang những giá trị không chắc chắn và cần có một phương pháp phân tích, thống kê để có thể xây dựng thuật toán quyết định phù hợp cho các đối tượng này. Trong thống kê, công thức Bayes luôn chứng tỏ là công cụ hữu hiệu để phân tích và dự đoán dữ liệu. Việc áp dụng công thức Bayes vào lý thuyết tập thô, được cha đẻ Tập thô là Pawlak giới thiệu, đã giải quyết được một số vấn đề khó khăn còn tồn đọng và gia tăng mức độ chính xác của thuật toán quyết định [22].

Xem xét một ví dụ sau:

Đối tượng Bệnh Tuổi Giới tính Kiểm tra Support Certainty

1 có già nam + 400 0.91

2 có trung niên nữ + 80 0.57

3 không già nam – 100 1.00

4 có già nam – 40 0.09

5 không trẻ nữ – 220 1.00

6 có trung niên nữ – 60 0.43

Bảng 2.8: Bảng chuẩn đoán kết quả Bệnh tật

Giá trị Support thể hiện tần số xuất hiện của đối tượng x có giá trị thuộc tính điều kiện là A(x) và giá trị thuộc tính quyết định là D(x) trong tập dữ liệu.

( , ) = | ( )∩ ( )| (2.9)

supp1(A,D) = supp1(<Bệnh=có, Tuổi=già, Giới tính=nam>,<Kiểm tra=+>) = 400: mẫu <Bệnh=có, Tuổi=già, Giới tính=nam, Kiểm tra=+> xuất hiện 400 lần trong bảng dữ liệu.

supp2(A,D) = supp2(<Bệnh=có, Tuổi=trung niên, Giới tính=nữ>,<Kiểm tra=+>) = 80: mẫu <Bệnh=có, Tuổi=trung niên, Giới tính=nữ, Kiểm tra=+> xuất hiện 80 lần trong bảng dữ liệu.

supp3(A,D) = supp3(<Bệnh=không, Tuổi=già, Giới tính=nam>,<Kiểm tra=–>) = 100: mẫu <Bệnh=không, Tuổi=già, Giới tính=nam, Kiểm tra=–> xuất hiện 100 lần trong bảng dữ liệu.

supp4(A,D) = supp4(<Bệnh=có, Tuổi=già, Giới tính=nam>,<Kiểm tra=–>) = 40: mẫu <Bệnh=có, Tuổi=già, Giới tính=nam, Kiểm tra=–> xuất hiện 40 lần trong bảng dữ liệu.

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 31 supp5(A,D) = supp5(<Bệnh=không, Tuổi=trẻ, Giới tính=nữ>,<Kiểm tra=–>) = 220: mẫu <Bệnh=không, Tuổi=trẻ, Giới tính=nữ, Kiểm tra=–> xuất hiện 220 lần trong bảng dữ liệu.

supp6(A,D) = supp6(<Bệnh=có, Tuổi=trung niên, Giới tính=nữ>,<Kiểm tra=–>) = 60: mẫu (<Bệnh=có, Tuổi=trung niên, Giới tính=nữ, Kiểm tra=–>) xuất hiện 60 lần trong bảng dữ liệu.

Giá trị Certainty factor của Bảng 2.8 thể hiện mức độ chắc chắn của luật quyết định suy ra từ dữ liệu. Thực chất, giá trị Certainty factor chính là xác suất hậu nghiệm suy ra từ

công thức Bayes nhằm dự đoán khả năng xảy ra của thuộc tính quyết định D khi đối tượng

có giá trị thuộc tính là A(x).

( , ) = ( | ) = ( , )

| ( )| (2.10)

|A(Bệnh=có, Tuổi=già, Giới tính=nam)| = supp1(A,D) + supp4(A,D) = 400 + 40 = 440 |A(Bệnh=có, Tuổi=trung niên, Giới tính=nữ)| = supp2(A,D) + supp6(A,D) = 80 + 60 = 140

|A(Bệnh=không, Tuổi=già, Giới tính=nam)| = supp3(A,D) = 100

|A(Bệnh=không, Tuổi=trẻ, Giới tính=nữ)| = supp5(A,D) = 220

( , ) = ( , ) | ( ệ ó, ổ à, ớ í )|= = 0.91 ( , ) = ( , ) | ( ệ ó, ổ ê , ớ í ữ)|= = 0.57 ( , ) = ( , ) | ( ệ ô , ổ à, ớ í )| = = 1 ( , ) = ( , ) | ( ệ ó, ổ à, ớ í )| = = 0.09 ( , ) = ( , ) | ( ệ ô , ổ ẻ, ớ í ữ)| = = 1 ( , ) = ( , ) | ( ệ ó, ổ ê , ớ í ữ)| = = 0.43

Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 32 Dựa vào các giá trị Bảng 2.8, có thể xây dựng các luật quyết định như sau:

if: (Bệnh=có) and (Tuổi=già) and (Giới tính=nam) then Kiểm tra= 91% + 9%−

if: (Bệnh=có) and (Tuổi=trung niên) and (Giới tính=nữ) then Kiểm tra= 57% + 43%−

if: (Bệnh=không) and (Tuổi=già) and (Giới tính=nam) then Kiểm tra=100% –

if: (Bệnh=không) and (Tuổi=trẻ) and (Giới tính=nữ) then Kiểm tra=100% –

Thuật toán quyết định này thể hiện mức độ chính xác của các luật để người dùng có thể hạn chế rủi ro mắc phải trong việc đưa ra các quyết định không chắc chắn.

Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 33

CHƯƠNG 3: MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG

3.1 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG CỦA GREEN

Để giải quyết bài toán ra quyết định phức tạp, Paul E. Green – Giáo sư danh dự

chuyên ngành marketing của Đại học Pennsylvania, Philadelphia –, trong một nghiên cứu của mình, đã xây dựng thành công một mô hình phân tích đặc trưng khách hàng đơn giản dựa trên lý thuyết phân lớp Bayes [23]. Mô hình của ông áp dụng được trong tình huống có

2 phương án và 2 loại khách hàng cần xem xét. (xem thêm Phụ lục A)

Tác giả dựa chủ yếu vào giá trị EOL đểước lượng rủi ro cho từng phương án áp dụng, kết hợp với việc sử dụng một số thông tin về thuộc tính khách hàng để gia tăng tính chính

xác cho bài toán quyết định. Kỹ thuật phân lớp Bayes được sử dụng như là công cụ hữu hiệu trong phân loại khách hàng. Tuy khá đơn giản nhưng kết quả quá trình phân tích đặc trưng

khách hàng của mô hình này lại tốt hơn nhiều so với kỹ thuật lựa chọn phương án dựa trên Minimize Expected Opportunity Loss. Mô hình của Green cũng đã chứng tỏđược tính hiệu quả của việc sử dụng thêm các thông tin khách hàng vào bài toán phân tích đặc trưng.

Mặc dù thu được hiệu quả tích cực nhưng mô hình G(2,2) (mô hình phân tích đặc

trưng khách hàng với 2 phương án đề xuất và 2 loại khách hàng của Paul E. Green) vẫn bộc lộ một số hạn chế. Các hệ sốCritical Probability và Likelihood Ratio được tác giả giới thiệu nhằm giải quyết bài toán phân tích đặc trưng trong hoàn cảnh mô hình chỉ có 2 phương án đề

xuất và 2 loại khách hàng. Hai hệ số này hoàn toàn không thể áp dụng được trong việc phát triển mô hình lên nhiều loại khách hàng khác nhau và nhiều phương án đề xuất.

Bên cạnh đó việc xác định số lượng thuộc tính tối ưu của nghiên cứu này cũng chưa

thực sự tổng quát và tốt, một phần cũng vì nguyên nhân là các công cụ kỹ thuật hỗ trợ lúc bấy giờ chưa đáp ứng được đầy đủ nhu cầu tính toán, phân tích các bài toán phức tạp.

Ngoài ra, việc chưa xác định được các loại khách hàng mới cũng là một thiếu sót của Green và mô hình G(2,2). Trong thực tế, các đặc trưng khách hàng nhiều và đa dạng, xác

định và dự đoán thị hiếu của những khách hàng mới thường rất khó khăn nhưng vô cùng

quan trọng, góp phần quyết định trong hoạt động marketing, mở rộng kinh doanh và nâng cao lợi nhuận cho doanh nghiệp.

Khắc phục thành công những hạn chế của mô hình G(2,2) và áp dụng các kỹ thuật tiên tiến hiện nay vào mô hình sẽ góp phần giúp cho mô hình phân tích đặc trưng khách

Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 34

hàng này cải thiện được đáng kể về mặt hiệu suất và cung cấp một công cụ tốt cho nhà quản lý trong việc đưa ra các quyết định rủi ro cao.

3.2 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG G(M,N)

Nghiên cứu đề xuất mô hình G(m,n) là một phát triển của mô hình phân tích đặc

trưng khách hàng của Paul E. Green. Mô hình phát triển nhằm áp dụng cho bài toán ra quyết

định có nhiều hơn 2 phương án lựa chọn và nhiều loại khách hàng. Đồng thời, xác định số lượng thuộc tính tối ưu và đề xuất giải pháp xử lý đối với các khách hàng mới không có trong dữ liệu.

Mô hình G(m,n) sẽ gồm 4 thành phần với những chức năng riêng biệt: - Bộ phận tiền xử lý dữ liệu (Data Preprocessor Module)

- Bộ phận phân tích dữ liệu (Data Analyzer Module) - Bộ phận khuyến nghị (Recommendation Module)

- Bộ phận xử lý mẫu không xác định (Unknown Patterns Processor Module)

3.2.1 Bộ phận tiền xử lý dữ liệu

Bộ phận tiền xử lý dữ liệu có vai trò chuẩn bị dữ liệu cho các bộ phận sau xử lý. Nhiệm vụ cơ bản của bộ phận này là làm sạch dữ liệu, loại bỏ các dữ liệu lỗi, thừa và tổ

chức lại dữ liệu cho phù hợp với đặc trưng của bài toán. a. Dữ liệu đầu vào:

i. Sốlượng phương án đề xuất: m { } = 1,2, … ,

ii. Số loại khách hàng: n { }, ( ) = 1,2, … ,

Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 35

Hình 3.1: Kiến trúc mô hình G(m,n)

Data Analyzer Module

Unknown Patterns Processor Module Recommendation Module

G (m, n)