ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 2LỜI CẢM ƠN
Em xin chân thành bày tỏ lòng biết ơn sâu sắc đến TS Lê Văn Phùng,người thầy đã hết lòng giúp đỡ và tạo điều kiện tốt nhất để em hoàn thànhluận văn này.
Em xin chân thành cảm ơn toàn thể các Thầy, cô công tác tại ViệnCNTT và Trường Đại học Công Nghệ Thông Tin và Truyền Thông - Đại HọcThái Nguyên đã luôn tận tình chỉ bảo, giúp đỡ, tạo điều kiện và truyền đạtkiến thức cho em trong suốt quá trình học tập và thực hiện luận văn.
Xin chân thành cảm ơn Ban Giám Hiệu Trường THPT Định Hóa, giađình, bạn bè và đồng nghiệp đã không ngừng quan tâm, động viên, giúp đỡ vàtạo mọi điều kiện tốt nhất cho tôi trong suốt thời gian học tập và thực hiệnluận văn.
Mặc dù đã cố gắng rất nhiều, nhưng do thời gian có hạn và bản thân cònnhững hạn chế nhất định nên luận văn không tránh khỏi thiếu sót Em rấtmong nhận được các ý kiến phê bình, góp ý của Hội đồng bảo vệ luận văn,các thầy cô giáo và đồng nghiệp để luận văn được hoàn chỉnh hơn.
Thái Nguyên, ngày 09 tháng 05 năm 2015Học viên
Chử Thị Quỳnh Hoa
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là sản phẩm do tôi tổng hợp và nghiêncứu Trong luận văn có sử dụng một số định nghĩa, bổ đề, hệ quả, thuật toánlấy từ nguồn tài liệu có trích dẫn tên tài liệu và tên tác giả rõ ràng như đã nêutrong phần tài liệu tham khảo Tôi xin chịu trách nhiệm về sản phẩm nghiêncứu của mình.
Học viên
Chử Thị Quỳnh Hoa
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 41.2.1 Khai phá dữ liệu và phát hiện tri thức 15
1.2.2 Các chức năng khai phá dữ liệu 17
1.2.3 Các hệ thống khai phá dữ liệu và kiến trúc tổng quát của chúng 18
1.2.4 Các loại dữ liệu có thể khai phá được 22
1.2.5 Khai phá dữ liệu theo hướng tiếp cận tập thô 22
1.3 Bài toán chẩn đoán bệnh 23
1.3.1 Vai trò của phương pháp chẩn đoán lâm sàng trong y học 23
1.3.2 Giá trị thực tiễn của việc xác định quan hệ giữa phụ thuộc hàm vàbảng quyết định trong chẩn đoán bệnh 24
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 52.1.1 Thuộc tính rút gọn và các thuật toán tìm chúng 27
2.1.2 Thuật toán tìm họ tất cả các tập rút gọn trong bảng quyết định 36
2.1.3 Tập lõi trong bảng quyết định 38
2.1.4 Thuật toán xác định các phụ thuộc hàm từ bảng quyết định 42
2.2 Xây dựng bảng quyết định từ tập phụ thuộc hàm 44
2.2.1 Sự phụ thuộc giữa các thuộc tính trong bảng quyết định 44
2.2.2 Một số thuật toán cơ bản liên quan đến phụ thuộc hàm 45
2.2.3 Thuật toán xây dựng bảng quyết định từ tập phụ thuộc hàm 50
2.3 Kết luận chương 2 54
Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM 55
3.1 Bài toán chẩn đoán bệnh cúm 55
3.1.1 Yêu cầu nghiệp vụ 55
3.1.2 Yêu cầu công nghệ 57
3.2 Thiết kế chương trình 57
3.2.1 Thiết kế cơ sở dữ liệu 57
3.2.2 Thiết kế xử lý 59
3.2.3 Thiết kế các mô-đun và lược đồ chương trình 60
3.3 Cài đặt và thực hiện chương trình 63
Trang 7Danh mục các thuật ngữ
Quan hệ không phân biệt đượcIndiscernibility Relation
Rút gọn thuộc tínhAttribute Reduction
Tập tối thiểu của thuộc tính aMinimal set of the attribute aHọ các tập tối thiểu của thuộc tính
Trang 8Danh mục các ký hiệu, các từ viết tắt
S U , A Hệ thông tin
T U ,C D Bảng quyết định
C Số thuộc tính điều kiện trong bảng quyết định
u a Giá trị của đối tượng u tại thuộc tính a
IND B Quan hệ B không phân biệt
u BLớp tương đương chứa u của quan hệ IND B
U / BPhân hoạch của U sinh bởi tập thuộc tính B
B (u)Hàm quyết định suy rộng của đối tượng u đối với B
PCORE C Tập lõi dựa trên miền dương
HCORE C Tập lõi dựa trên entropy Shannon có điều kiện
SCORE C Tập lõi dựa trên ma trận phân biệt
ECORE C Tập lõi dựa trên entropy Liang có điều kiện
MCORE C Tập lõi dựa trên metric
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 10Bảng 2.6 Bảng quyết định minh họa Ví dụ 2.4 41
Bảng 2.7 Bảng quyết định được xây dựng từ Thuật toán 2.16 54
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 11Danh sách hình vẽ
Hình 1.1 Quá trình phát hiện tri thức 16
Hình 1.2 Kiến trúc của một hệ thống khai phá dữ liệu điển hình .20
Hình 2.1 Sơ đồ thuật toán xây dựng các phụ thuộc hàm từ bảng quyết định 43
Hình 2.2 Sơ đồ thuật toán xây dựng bảng quyết định từ tập phụ thuộc hàm 51
Hình 3.1 Màn hình giao diện chương trình .65
Trang 12MỞ ĐẦU
Lý thuyết tập thô (Rough Set Theory) do Zdzislaw Pawlak (1926-2006)đề xuất vào năm 1982 đã được ứng dụng ngày càng rộng rãi trong lĩnh vựckhoa học máy tính Lý thuyết tập thô được phát triển trên một nền tảng toánhọc vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phântích dữ liệu, phát hiện luật, nhận dạng… Đặc biệt thích hợp với các bài toánphân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắcchắn Mục đích chính của phân tích dữ liệu dựa trên lý thuyết tập thô nhằmđưa ra các xấp xỉ để biểu diễn các đối tượng không thể được phân lớp mộtcách chắc chắn bằng tri thức có sẵn Theo quan điểm của lý thuyết tập thô,mọi tập thô đều liên kết với hai tập “rõ” là xấp xỉ dưới và xấp xỉ trên của nó.Xấp xỉ dưới bao gồm các đối tượng chắc chắn thuộc tập đó, còn xấp xỉ trênchứa tất cả các đối tượng có khả năng thuộc về tập đó Các tập xấp xỉ là cơ sởđể rút ra các kết luận (tri thức) từ cơ sở dữ liệu.
Trong lý thuyết tập thô, mô hình biểu diễn dữ liệu được trình bày thôngqua hệ thông tin hay bảng quyết định.
Bảng quyết định là một hệ thông tin có dạng T = (U,A), với U là tậpcác đối tượng và A là tập các thuộc tính, trong đó tập thuộc tính A được chiathành hai tập thuộc tính con khác rỗng rời nhau là C và D, C được gọi là tậpthuộc tính điều kiện và D là tập thuộc tính quyết định Tức là T = (U, C D)với C D = Bảng quyết định là mô hình thường gặp trong thực tế, khimà
giá trị dữ liệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin vềgiá trị của thuộc tính quyết định Bảng quyết định là nhất quán khi phụ thuộchàm C → D là đúng, trái lại là không nhất quán.
Với bảng quyết định nhất quán T = (U,C D) , tập thuộc tính R
được gọi là một tập rút gọn của tập thuộc tính điều kiện C nếu R là tập tối
Trang 13Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 14thiểu thỏa mãn phụ thuộc hàm R D Giả sử D chỉ chứa một thuộc tính
nhất d , nếu xem bảng quyết định T là quan hệ r trên tập thuộc tính C d
thì khái niệm tập rút gọn tương đương với khái niệm tập tối thiểu của thuộctính d trên quan hệ Khi đó, một số bài toán trong bảng quyết định liênquan đến tập rút gọn có thể được giải quyết bằng một số kết quả liên quan đếntập tối thiểu của một thuộc tính trong lý thuyết cơ sở dữ liệu quan hệ; baogồm bài toán tìm tập tất cả các thuộc tính rút gọn, bài toán trích lọc các phụthuộc hàm từ bảng quyết định, bài toán xây dựng bảng quyết định thỏa mãntập phụ thuộc hàm cho trước.
Do tính hấp dẫn và tính thời sự của khai phá dữ liệu, đặc biệt là mốiquan hệ giữa phụ thuộc hàm và bảng quyết định để từ bảng quyết định tríchlọc các phụ thuộc hàm và xây dựng bảng quyết định thỏa mãn tập phụ thuộchàm cho trước nên tôi lựa chọn đề tài “Nghiên cứu mối quan hệ giữa phụthuộc hàm và bảng quyết định trong chẩn đoán bệnh” là luận văn cao học củamình Trong đó vận dụng kiến thức nghiên cứu này vào chẩn đoán bệnh lâmsàng trong lĩnh vực y học.
Trang 15Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 16có thể đo được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung
cấp) Bảng này được gọi là một hệ thông tin Một cách hình thức, hệ thông tin
được định nghĩa như sau:
Định nghĩa 1.1 Hệ thông tin (Information System) là một cặp S = (U, A).
Bây giờ, nếu B=b1,b2 , , bk A , ta ký hiệu bộ các giá trị
u(bi) bởi u(B) Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B)
nếu u(bi)= v(bi), với mọi i = 1, 2, , k [6]
Định nghĩa 1.2 Quan hệ không phân biệt được
Xét hệ thông tin S = (U, A), với mỗi tập thuộc tính B
quan hệ hai ngôi trên U, ký hiệu IND(B)
IND(B) =u,v U U | u a v a , a B
Trang 17Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 18tượng u và v giống nhau (không phân biệt được) nếu chỉ xem xét giá trị tại cácthuộc tính trong B Quan hệ tương đương IND(B) xác định một phân hoạchtrên U, ký hiệu U/IND(B) hay U/B, tức là U/IND(B) = U/B = uB | u
U.Với mọi đối tượng u
ký hiệu bởi [u]B Khi đó [u]B = {vU|(u,v) IND(B)} [6]
Ví dụ 1.1 Xét hệ thông tin cho ở bảng 1.1
A = {Đau đầu, Đau cơ, Thân nhiệt, Cúm}
Trong bảng, các bệnh nhân u2, u4 và u6 không phân biệt được đối vớithuộc tính Đau đầu; bệnh nhân u5 và u6 không phân biệt được đối với thuộctính Đau cơ, Cúm và bệnh nhân u2, u4 không phân biệt được đối với thuộctính Đau đầu, Đau cơ và Thân nhiệt.
Do đó:
IND({Đau đầu}) = {{u1, u3, u5},{u2, u4, u6}}
IND({Đau cơ}) = {{u1, u3, u5, u6},{u2, u4}}
IND({Thân nhiệt}) = {{u2, u3, u4},{u5, u6}, {u1}}
IND({Cúm}) = {{u3, u4, u5, u6},{ u1, u2}}
IND({Đau đầu, Đau cơ}) = {{u1, u3, u5},{u2, u4}, { u6}}
Trang 19Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 20Xét hệ thông tin S = (U, A), một quan hệ bộ phận xác định trên họ
U/B | B Ađược định nghĩa: U/P nếu và chỉnếu
Pi U / P, Q j U / Q : Pi Q j Khi đó ta nói Q là thô hơn Phay P là mịn
U / B Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp
tương đương của U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), ngườita xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của U / B Cóhai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B, được gọi là B-xấp
xỉ dưới và B-xấp xỉ trên của X, ký hiệu lần lượt là B X và BX , được xác định
nghĩa các tập:
BNB X BX B X : B-miền biên của
X, POSB ( X ) B X : B-vùng dương của X
NEGB X U BX : B-miền ngoài của
Dễ thấy B-miền biên của X là tập chứa các đối tượng có thể thuộc X, còn
B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng
các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại:
Trang 21Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 22Rõ ràng POSB (D) là tập tất cả các đối tượng u sao cho với mọi v Umà u B v
Thuật toán 1.1 [2] Xác định xấp xỉ dưới, xấp xỉ trên
Đầu vào: Hệ thông tin S = (U, A), tập thuộc tính B A , tập đối
Trang 23BX : BX X
Thuật toán 1.1 có độ phức tạp là O(k|U|log|U|), trong đó |B| |A| = k [2]
Ví dụ 1.2 Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 24 BX 7
u1,u4 ,u2 ,u5 ,u6,u3 ,u7 ,u8u1,u4 ,u5 ,u7 ,u2 ,u3 ,u6 ,u8
Khi đó: B X u2 ,u3 và BX u2,u3 ,u5 ,u6 ,u7 ,u8 Như vậy, B-miền
biên của X là tập hợp BNB X u5 ,u6 ,u7 ,u8 Nếu đặt D = {Cảm cúm} thì
U / D X1 u1,u4 ,u5 ,u7 ; X 2 u2,u3 ,u6,u8,
Trang 25Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 26Với các khái niệm của tập xấp xỉ đối với phân hoạch U / B , các tập thô
được chia thành bốn loại như sau:
1) Tập X là B-xác định thô nếu B X và BX U 2) Tập X là B-không xác định trong nếu B X và BX U 3) Tập X là B-không xác định ngoài nếu B X và BX U 4) Tập X là B-không xác định hoàn toàn nếu B X và BX U [1]
Trong trường hợp không sợ bị nhầm lẫn người ta còn ký hiệu T U ,C, D
Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữliệu tại các thuộc tính điều kiện có thể cung cấp cho ta thông tin về giá trị củathuộc tính quyết định.
Bảng quyết định T được gọi là nhất quán (consistent) khi và chỉ khi phụthuộc hàm CD nghiệm đúng, nghĩa là với mọi u, v U , u C v
C
theo u D v D Ngược lại T là không nhất quán (inconsistent) hay
Dễ thấy bảng quyết định T là nhất quán khi và chỉ khi POSC D U
Trong trường hợp bảng không nhất quán thì POSC
chính là tập con cực
Trang 27đại của U sao cho phụ thuộc hàm C
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 28U / D
U / C,
Ví dụ 1.3 Hệ thông tin S = (U, A) biểu diễn cơ sở tri thức về bệnh cúm
được thể hiện trong bảng 1.3 là một bảng quyết định T U ,C D
Trong đó:
U x1, x2 , x3 , x4 , x5 , x6
A = {Đau đầu, Đau cơ, Thân nhiệt, Cúm}
Tập thuộc tính điều kiện C = {Đau đầu, Đau cơ, Thân nhiệt}Tập thuộc tính quyết định D = {Cúm}
Trang 29Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 30D ai
1.1.4 Cơ sở dữ liệu quan hệ
Mục này trình bày các khái niệm cơ bản nhất về mô hình dữ liệu quanhệ của E.F Codd Các khái niệm này có thể xem trong [5].
Cho R a1, , an là một tập hữu hạn, khác rỗng các thuộc tính Mỗi
thuộc tính aicó miền giá trị là D ai Quan hệ r trên R là tập các
Cho r h1, , hmlà một quan hệ trên tập thuộc tính R a1, , an Phụ
thuộc hàm (PTH) trên R là một dãy ký tự có dạng A
là họ đầy đủ các PTH thỏa mãn quan hệ r Ký
hiệu P
R là tập các tập con của R Cho F P F là R P R Ta nói rằng
một họ f trên R nếu với mọi
Trang 31Rõ ràng là Fr là một họ f trên R Nếu F là một họ f trên R thì có mộtquan hệ r trên R sao cho Fr = F Ký hiệu F là tập tất cả các PTH được dẫnxuất từ F bằng việc áp dụng các quy tắc 1 4 .
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 32Sơ đồ quan hệ (SĐQH) s là một cặp R, F với R là tập thuộc tính và
F là tập các phụ thuộc hàm trên R Ký hiệu A a : A a F , A
được gọi là bao đóng của A trên s Dễ thấy A B
A được gọi là bao
đóng của A trên quan hệ r.
Cho r là một quan hệ, s R, F là một SĐQH, F là một họ f trên Rvà A R Khi đó A là một khóa của r (tương ứng của s)
Trang 33một hệ Sperner trên R, ta định nghĩa tập
K
1 như sau:
Trang 341 là họ tất cả các tập không phải khóa lớn nhất của r (hoặc của s), gọi là
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 35phải là tập tối thiểu của thuộc tính a, được định nghĩa như sau
được gọi là hệ bằng nhau
Trong bảng quyết định, các thuộc tính điều kiện được phân thành thuộc
tính lõi và thuộc tính không cần thiết Thuộc tính lõi là thuộc tính cốt yếu,
không thể thiếu trong việc phân lớp chính xác tập dữ liệu Thuộc tính khôngcần thiết là thuộc tính dư thừa mà việc loại bỏ thuộc tính này không ảnhhưởng đến việc phân lớp dữ liệu Các thuộc tính không cần thiết được phân
thành hai nhóm: Thuộc tính dư thừa thực sự và thuộc tính rút gọn Thuộc tính
dư thừa thực sự là những thuộc tính dư thừa mà việc loại bỏ tất cả các thuộc
tính như vậy không ảnh hưởng đến việc phân lớp dữ liệu Thuộc tính rút gọn,
với một tổ hợp thuộc tính nào đó nó là thuộc tính dư thừa và với một tổ hợpcác thuộc tính khác nó có thể là cốt yếu.
Định nghĩa 1.3 [11] (Tập lõi dựa trên miền dương) Cho bảng quyết định
Trang 36T U ,C D Thuộc tính c
Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 37trong bảng quyết định T dựa trên miền dương nếu
POSC D POS(C c) D ; Nói cách khác, cC
là không cần thiết khi và
chỉ khi trên POSC
Cđều cần thiết Tập tất cả các thuộc tính cần thiết trong T được gọi
là tập lõi dựa trên miền dương và được ký hiệu làtính cần thiết còn được gọi là thuộc tính lõi.
PCORE C Lúc đó, thuộc
Định nghĩa 1.4 [11] (Tập rút gọn dựa trên miền dương) Cho bảng quyết định
T U ,C D và tập thuộc tính R C Nếu1) POSR (D) POSC (D)
2) r R, POSRr (D) POSC (D) (Nghĩa là: T U , R
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Rõ ràng
là có thể có nhiều tập rút gọn của C Ký hiệu PRED C
Trang 39Số hóa bởi Trung tâm Học liệu – ĐHTN ht t p : / / www lrc.tnu e du v n
Trang 40Ví dụ 1.4 Xét bảng quyết định về bệnh cúm cho ở Bảng 1.4.
Bảng 1.4 Bảng quyết định về bệnh cúm
Bảng này có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} và R2 = {Đauđầu, Thân nhiệt} Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và Thân nhiệt
là thuộc tính cần thiết duy nhất Các thuộc tính không cần thiết bao gồm:
Thuộc tính Mệt mỏi là thuộc tính dư thừa thực sự vì không tham
vào rút gọn nào.
Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có
mặt trong một tập rút gọn Hai thuộc tính này đều không cần thiếttheo nghĩa là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tínhnày mà vẫn chẩn đoán đúng bệnh Tức là
POS{Đau cơ, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}) [1]
X i Yj , ký hiệu
des(Xi), des(Yj) lần lượt là các mô tả của các lớp tương đương ứng với Xi, Yj.
Một luật quyết định xác định bởi Xi, Yj có dạng: