Nghiên cứu mỗi quan hệ giữa phụ thuộc hàm và bảng quyết định trong chẩn đoán bệnh

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Trang 2

LỜI CẢM ƠN

Em xin chân thành bày tỏ lòng biết ơn sâu sắc đến TS Lê Văn Phùng,người thầy đã hết lòng giúp đỡ và tạo điều kiện tốt nhất để em hoàn thànhluận văn này.

Em xin chân thành cảm ơn toàn thể các Thầy, cô công tác tại ViệnCNTT và Trường Đại học Công Nghệ Thông Tin và Truyền Thông - Đại HọcThái Nguyên đã luôn tận tình chỉ bảo, giúp đỡ, tạo điều kiện và truyền đạtkiến thức cho em trong suốt quá trình học tập và thực hiện luận văn.

Xin chân thành cảm ơn Ban Giám Hiệu Trường THPT Định Hóa, giađình, bạn bè và đồng nghiệp đã không ngừng quan tâm, động viên, giúp đỡ vàtạo mọi điều kiện tốt nhất cho tôi trong suốt thời gian học tập và thực hiệnluận văn.

Mặc dù đã cố gắng rất nhiều, nhưng do thời gian có hạn và bản thân cònnhững hạn chế nhất định nên luận văn không tránh khỏi thiếu sót Em rấtmong nhận được các ý kiến phê bình, góp ý của Hội đồng bảo vệ luận văn,các thầy cô giáo và đồng nghiệp để luận văn được hoàn chỉnh hơn.

Thái Nguyên, ngày 09 tháng 05 năm 2015Học viên

Chử Thị Quỳnh Hoa

Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là sản phẩm do tôi tổng hợp và nghiêncứu Trong luận văn có sử dụng một số định nghĩa, bổ đề, hệ quả, thuật toánlấy từ nguồn tài liệu có trích dẫn tên tài liệu và tên tác giả rõ ràng như đã nêutrong phần tài liệu tham khảo Tôi xin chịu trách nhiệm về sản phẩm nghiêncứu của mình.

Học viên

Chử Thị Quỳnh Hoa

Trang 4

1.2.1 Khai phá dữ liệu và phát hiện tri thức 15

1.2.2 Các chức năng khai phá dữ liệu 17

1.2.3 Các hệ thống khai phá dữ liệu và kiến trúc tổng quát của chúng 18

1.2.4 Các loại dữ liệu có thể khai phá được 22

1.2.5 Khai phá dữ liệu theo hướng tiếp cận tập thô 22

1.3 Bài toán chẩn đoán bệnh 23

1.3.1 Vai trò của phương pháp chẩn đoán lâm sàng trong y học 23

1.3.2 Giá trị thực tiễn của việc xác định quan hệ giữa phụ thuộc hàm vàbảng quyết định trong chẩn đoán bệnh 24

Trang 5

2.1.1 Thuộc tính rút gọn và các thuật toán tìm chúng 27

2.1.2 Thuật toán tìm họ tất cả các tập rút gọn trong bảng quyết định 36

2.1.3 Tập lõi trong bảng quyết định 38

2.1.4 Thuật toán xác định các phụ thuộc hàm từ bảng quyết định 42

2.2 Xây dựng bảng quyết định từ tập phụ thuộc hàm 44

2.2.1 Sự phụ thuộc giữa các thuộc tính trong bảng quyết định 44

2.2.2 Một số thuật toán cơ bản liên quan đến phụ thuộc hàm 45

2.2.3 Thuật toán xây dựng bảng quyết định từ tập phụ thuộc hàm 50

2.3 Kết luận chương 2 54

Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM 55

3.1 Bài toán chẩn đoán bệnh cúm 55

3.1.1 Yêu cầu nghiệp vụ 55

3.1.2 Yêu cầu công nghệ 57

3.2 Thiết kế chương trình 57

3.2.1 Thiết kế cơ sở dữ liệu 57

3.2.2 Thiết kế xử lý 59

3.2.3 Thiết kế các mô-đun và lược đồ chương trình 60

3.3 Cài đặt và thực hiện chương trình 63

Trang 7

Danh mục các thuật ngữ

Quan hệ không phân biệt đượcIndiscernibility Relation

Rút gọn thuộc tínhAttribute Reduction

Tập tối thiểu của thuộc tính aMinimal set of the attribute aHọ các tập tối thiểu của thuộc tính

Trang 8

Danh mục các ký hiệu, các từ viết tắt

S  U , A Hệ thông tin

T  U ,C  D Bảng quyết định

C Số thuộc tính điều kiện trong bảng quyết định

u a  Giá trị của đối tượng u tại thuộc tính a

IND  B  Quan hệ B  không phân biệt

u BLớp tương đương chứa u của quan hệ IND  B 

U / BPhân hoạch của U sinh bởi tập thuộc tính B

 B (u)Hàm quyết định suy rộng của đối tượng u đối với B

PCORE C  Tập lõi dựa trên miền dương

HCORE C  Tập lõi dựa trên entropy Shannon có điều kiện

SCORE C  Tập lõi dựa trên ma trận phân biệt

ECORE C  Tập lõi dựa trên entropy Liang có điều kiện

MCORE C  Tập lõi dựa trên metric

Trang 10

Bảng 2.6 Bảng quyết định minh họa Ví dụ 2.4 41

Bảng 2.7 Bảng quyết định được xây dựng từ Thuật toán 2.16 54

Trang 11

Danh sách hình vẽ

Hình 1.1 Quá trình phát hiện tri thức 16

Hình 1.2 Kiến trúc của một hệ thống khai phá dữ liệu điển hình .20

Hình 2.1 Sơ đồ thuật toán xây dựng các phụ thuộc hàm từ bảng quyết định 43

Hình 2.2 Sơ đồ thuật toán xây dựng bảng quyết định từ tập phụ thuộc hàm 51

Hình 3.1 Màn hình giao diện chương trình .65

Trang 12

MỞ ĐẦU

Lý thuyết tập thô (Rough Set Theory) do Zdzislaw Pawlak (1926-2006)đề xuất vào năm 1982 đã được ứng dụng ngày càng rộng rãi trong lĩnh vựckhoa học máy tính Lý thuyết tập thô được phát triển trên một nền tảng toánhọc vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phântích dữ liệu, phát hiện luật, nhận dạng… Đặc biệt thích hợp với các bài toánphân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắcchắn Mục đích chính của phân tích dữ liệu dựa trên lý thuyết tập thô nhằmđưa ra các xấp xỉ để biểu diễn các đối tượng không thể được phân lớp mộtcách chắc chắn bằng tri thức có sẵn Theo quan điểm của lý thuyết tập thô,mọi tập thô đều liên kết với hai tập “rõ” là xấp xỉ dưới và xấp xỉ trên của nó.Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc tập đó, còn xấp xỉ trênchứa tất cả các đối tượng có khả năng thuộc về tập đó Các tập xấp xỉ là cơ sởđể rút ra các kết luận (tri thức) từ cơ sở dữ liệu.

Trong lý thuyết tập thô, mô hình biểu diễn dữ liệu được trình bày thôngqua hệ thông tin hay bảng quyết định.

Bảng quyết định là một hệ thông tin có dạng T = (U,A), với U là tậpcác đối tượng và A là tập các thuộc tính, trong đó tập thuộc tính A được chiathành hai tập thuộc tính con khác rỗng rời nhau là C và D, C được gọi là tậpthuộc tính điều kiện và D là tập thuộc tính quyết định Tức là T = (U, C  D)với C  D =  Bảng quyết định là mô hình thường gặp trong thực tế, khimà

giá trị dữ liệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin vềgiá trị của thuộc tính quyết định Bảng quyết định là nhất quán khi phụ thuộchàm C → D là đúng, trái lại là không nhất quán.

Với bảng quyết định nhất quán T = (U,C  D) , tập thuộc tính R 

được gọi là một tập rút gọn của tập thuộc tính điều kiện C nếu R là tập tối

Trang 13

Trang 14

thiểu thỏa mãn phụ thuộc hàm R  D Giả sử D chỉ chứa một thuộc tính

nhất d , nếu xem bảng quyết định T là quan hệ r trên tập thuộc tính C  d

thì khái niệm tập rút gọn tương đương với khái niệm tập tối thiểu của thuộctính d  trên quan hệ Khi đó, một số bài toán trong bảng quyết định liênquan đến tập rút gọn có thể được giải quyết bằng một số kết quả liên quan đếntập tối thiểu của một thuộc tính trong lý thuyết cơ sở dữ liệu quan hệ; baogồm bài toán tìm tập tất cả các thuộc tính rút gọn, bài toán trích lọc các phụthuộc hàm từ bảng quyết định, bài toán xây dựng bảng quyết định thỏa mãntập phụ thuộc hàm cho trước.

Do tính hấp dẫn và tính thời sự của khai phá dữ liệu, đặc biệt là mốiquan hệ giữa phụ thuộc hàm và bảng quyết định để từ bảng quyết định tríchlọc các phụ thuộc hàm và xây dựng bảng quyết định thỏa mãn tập phụ thuộchàm cho trước nên tôi lựa chọn đề tài “Nghiên cứu mối quan hệ giữa phụthuộc hàm và bảng quyết định trong chẩn đoán bệnh” là luận văn cao học củamình Trong đó vận dụng kiến thức nghiên cứu này vào chẩn đoán bệnh lâmsàng trong lĩnh vực y học.

Trang 15

Trang 16

có thể đo được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung

cấp) Bảng này được gọi là một hệ thông tin Một cách hình thức, hệ thông tin

được định nghĩa như sau:

Định nghĩa 1.1 Hệ thông tin (Information System) là một cặp S = (U, A).

Bây giờ, nếu B=b1,b2 , , bk   A , ta ký hiệu bộ các giá trị

u(bi) bởi u(B) Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B)

nếu u(bi)= v(bi), với mọi i = 1, 2, , k [6]

Định nghĩa 1.2 Quan hệ không phân biệt được

Xét hệ thông tin S = (U, A), với mỗi tập thuộc tính B 

quan hệ hai ngôi trên U, ký hiệu IND(B)

IND(B) =u,v  U  U | u a   v a , a  B

Trang 17

Trang 18

tượng u và v giống nhau (không phân biệt được) nếu chỉ xem xét giá trị tại cácthuộc tính trong B Quan hệ tương đương IND(B) xác định một phân hoạchtrên U, ký hiệu U/IND(B) hay U/B, tức là U/IND(B) = U/B = uB | u 

U.Với mọi đối tượng u 

ký hiệu bởi [u]B Khi đó [u]B = {vU|(u,v) IND(B)} [6]

Ví dụ 1.1 Xét hệ thông tin cho ở bảng 1.1

A = {Đau đầu, Đau cơ, Thân nhiệt, Cúm}

Trong bảng, các bệnh nhân u2, u4 và u6 không phân biệt được đối vớithuộc tính Đau đầu; bệnh nhân u5 và u6 không phân biệt được đối với thuộctính Đau cơ, Cúm và bệnh nhân u2, u4 không phân biệt được đối với thuộctính Đau đầu, Đau cơ và Thân nhiệt.

Do đó:

IND({Đau đầu}) = {{u1, u3, u5},{u2, u4, u6}}

IND({Đau cơ}) = {{u1, u3, u5, u6},{u2, u4}}

IND({Thân nhiệt}) = {{u2, u3, u4},{u5, u6}, {u1}}

IND({Cúm}) = {{u3, u4, u5, u6},{ u1, u2}}

IND({Đau đầu, Đau cơ}) = {{u1, u3, u5},{u2, u4}, { u6}}

Trang 19

Trang 20

Xét hệ thông tin S = (U, A), một quan hệ bộ phận xác định trên họ

U/B | B  Ađược định nghĩa: U/P nếu và chỉnếu

Pi  U / P, Q j  U / Q : Pi  Q j Khi đó ta nói Q là thô hơn Phay P là mịn

U / B Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp

tương đương của U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), ngườita xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của U / B Cóhai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B, được gọi là B-xấp

xỉ dưới và B-xấp xỉ trên của X, ký hiệu lần lượt là B X và BX , được xác định

nghĩa các tập:

BNB  X   BX  B X : B-miền biên của

X, POSB ( X )  B X : B-vùng dương của X

NEGB  X   U  BX : B-miền ngoài của

Dễ thấy B-miền biên của X là tập chứa các đối tượng có thể thuộc X, còn

B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng

các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại:

Trang 21

Trang 22

Rõ ràng POSB (D) là tập tất cả các đối tượng u sao cho với mọi v Umà u  B  v 

Thuật toán 1.1 [2] Xác định xấp xỉ dưới, xấp xỉ trên

Đầu vào: Hệ thông tin S = (U, A), tập thuộc tính B  A , tập đối

Trang 23

BX : BX  X

Thuật toán 1.1 có độ phức tạp là O(k|U|log|U|), trong đó |B|  |A| = k [2]

Ví dụ 1.2 Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân

Trang 24

 BX  7

u1,u4 ,u2 ,u5 ,u6,u3 ,u7 ,u8u1,u4 ,u5 ,u7 ,u2 ,u3 ,u6 ,u8

Khi đó: B X  u2 ,u3 và BX  u2,u3 ,u5 ,u6 ,u7 ,u8 Như vậy, B-miền

biên của X là tập hợp BNB  X   u5 ,u6 ,u7 ,u8 Nếu đặt D = {Cảm cúm} thì

U / D  X1  u1,u4 ,u5 ,u7 ; X 2  u2,u3 ,u6,u8,

Trang 25

Trang 26

Với các khái niệm của tập xấp xỉ đối với phân hoạch U / B , các tập thô

được chia thành bốn loại như sau:

1) Tập X là B-xác định thô nếu B X   và BX  U 2) Tập X là B-không xác định trong nếu B X   và BX  U 3) Tập X là B-không xác định ngoài nếu B X   và BX  U 4) Tập X là B-không xác định hoàn toàn nếu B X   và BX  U [1]



Trong trường hợp không sợ bị nhầm lẫn người ta còn ký hiệu T  U ,C, D

Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữliệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị củathuộc tính quyết định.

Bảng quyết định T được gọi là nhất quán (consistent) khi và chỉ khi phụthuộc hàm CD nghiệm đúng, nghĩa là với mọi u, v U , u C   v

C 

theo u  D  v  D Ngược lại T là không nhất quán (inconsistent) hay

Dễ thấy bảng quyết định T là nhất quán khi và chỉ khi POSC  D  U

Trong trường hợp bảng không nhất quán thì POSC 

chính là tập con cực

Trang 27

đại của U sao cho phụ thuộc hàm C 

Trang 28

U / D

U / C,

Ví dụ 1.3 Hệ thông tin S = (U, A) biểu diễn cơ sở tri thức về bệnh cúm

được thể hiện trong bảng 1.3 là một bảng quyết định T  U ,C  D

Trong đó:

U  x1, x2 , x3 , x4 , x5 , x6

A = {Đau đầu, Đau cơ, Thân nhiệt, Cúm}

Tập thuộc tính điều kiện C = {Đau đầu, Đau cơ, Thân nhiệt}Tập thuộc tính quyết định D = {Cúm}

Trang 29

Trang 30

D ai

1.1.4 Cơ sở dữ liệu quan hệ

Mục này trình bày các khái niệm cơ bản nhất về mô hình dữ liệu quanhệ của E.F Codd Các khái niệm này có thể xem trong [5].

Cho R  a1, , an là một tập hữu hạn, khác rỗng các thuộc tính Mỗi

thuộc tính aicó miền giá trị là D ai  Quan hệ r trên R là tập các

Cho r  h1, , hmlà một quan hệ trên tập thuộc tính R  a1, , an Phụ

thuộc hàm (PTH) trên R là một dãy ký tự có dạng A 

là họ đầy đủ các PTH thỏa mãn quan hệ r Ký

hiệu P 

R  là tập các tập con của R Cho F  P F là  R  P  R Ta nói rằng

một họ f trên R nếu với mọi

Trang 31

Rõ ràng là Fr là một họ f trên R Nếu F là một họ f trên R thì có mộtquan hệ r trên R sao cho Fr = F Ký hiệu F  là tập tất cả các PTH được dẫnxuất từ F bằng việc áp dụng các quy tắc 1  4 .

Trang 32

Sơ đồ quan hệ (SĐQH) s là một cặp  R, F  với R là tập thuộc tính và

F là tập các phụ thuộc hàm trên R Ký hiệu A  a : A  a F  , A

được gọi là bao đóng của A trên s Dễ thấy A  B 

A  được gọi là bao

đóng của A trên quan hệ r.

Cho r là một quan hệ, s   R, F  là một SĐQH, F là một họ f trên Rvà A  R Khi đó A là một khóa của r (tương ứng của s)

Trang 33

một hệ Sperner trên R, ta định nghĩa tập

K

1 như sau:

Trang 34

1 là họ tất cả các tập không phải khóa lớn nhất của r (hoặc của s), gọi là

Trang 35

phải là tập tối thiểu của thuộc tính a, được định nghĩa như sau

được gọi là hệ bằng nhau

Trong bảng quyết định, các thuộc tính điều kiện được phân thành thuộc

tính lõi và thuộc tính không cần thiết Thuộc tính lõi là thuộc tính cốt yếu,

không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính khôngcần thiết là thuộc tính dư thừa mà việc loại bỏ thuộc tính này không ảnhhưởng đến việc phân lớp dữ liệu Các thuộc tính không cần thiết được phân

thành hai nhóm: Thuộc tính dư thừa thực sự và thuộc tính rút gọn Thuộc tính

dư thừa thực sự là những thuộc tính dư thừa mà việc loại bỏ tất cả các thuộc

tính như vậy không ảnh hưởng đến việc phân lớp dữ liệu Thuộc tính rút gọn,

với một tổ hợp thuộc tính nào đó nó là thuộc tính dư thừa và với một tổ hợpcác thuộc tính khác nó có thể là cốt yếu.

Định nghĩa 1.3 [11] (Tập lõi dựa trên miền dương) Cho bảng quyết định

Trang 36

T  U ,C  D Thuộc tính c

Trang 37

trong bảng quyết định T dựa trên miền dương nếu

POSC  D  POS(C c)  D ; Nói cách khác, cC

là không cần thiết khi và

chỉ khi trên POSC 

Cđều cần thiết Tập tất cả các thuộc tính cần thiết trong T được gọi

là tập lõi dựa trên miền dương và được ký hiệu làtính cần thiết còn được gọi là thuộc tính lõi.

PCORE C  Lúc đó, thuộc

Định nghĩa 1.4 [11] (Tập rút gọn dựa trên miền dương) Cho bảng quyết định

T  U ,C  D  và tập thuộc tính R  C Nếu1) POSR (D)  POSC (D)

2) r  R, POSRr (D)  POSC (D) (Nghĩa là: T   U , R

Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Rõ ràng

là có thể có nhiều tập rút gọn của C Ký hiệu PRED C

Trang 39

Trang 40

Ví dụ 1.4 Xét bảng quyết định về bệnh cúm cho ở Bảng 1.4.

Bảng 1.4 Bảng quyết định về bệnh cúm

Bảng này có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} và R2 = {Đauđầu, Thân nhiệt} Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và Thân nhiệt

là thuộc tính cần thiết duy nhất Các thuộc tính không cần thiết bao gồm:

 Thuộc tính Mệt mỏi là thuộc tính dư thừa thực sự vì không tham

vào rút gọn nào.

 Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có

mặt trong một tập rút gọn Hai thuộc tính này đều không cần thiếttheo nghĩa là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tínhnày mà vẫn chẩn đoán đúng bệnh Tức là

POS{Đau cơ, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}) [1]

X i  Yj   , ký hiệu

des(Xi), des(Yj) lần lượt là các mô tả của các lớp tương đương ứng với Xi, Yj.

Một luật quyết định xác định bởi Xi, Yj có dạng:

Định dạng
Số trang	135
Dung lượng	3,07 MB