1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu lý thuyết tập thô và ứng dụng trong xử lý dữ liệu (tt)

20 33 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 807,96 KB

Nội dung

1 MỞ ĐẦU Cùng với phát triển Công nghệ thông tin, khai phá tri thức sở liệu lớn lĩnh vực nhiều nhà nghiên cứu ứng dụng tin học đặc biệt quan tâm Việc nghiên cứu phương pháp tự động phát tri thức sở liệu máy tính tỏ thực hữu ích việc hỗ trợ định cho người Hiện nay, giới có nhiều thuật tốn khai phá tri thức cách phân lớp rời rạc liệu như: sử dụng định, phương pháp thống kê, mạng nơron, thuật toán di truyền, Trong thời gian gần đây, lý thuyết tập thơ nhiều nhóm nghiên cứu lĩnh vực tin học nói chung khai phá tri thức nói riêng nghiên cứu triển khai ứng dụng thực tế Lý thuyết tập thô xây dựng tảng toán học vững giúp cung cấp cơng cụ hữu ích để giải toán phân lớp liệu khai phá luật, Với đặc tính xử lý liệu mơ hồ, không chắn tập thơ tỏ hữu ích việc giải toán thực tế Từ bảng liệu lớn với liệu dư thừa, khơng hồn hảo, liệu liên tục hay liệu dạng ký hiệu, phương pháp tiếp cận dựa lý thuyết tập thô cho phép khai phá tri thức từ khối liệu nhằm phát luật tiềm ẩn Đó lý học viên chọn đề tài: “Nghiên cứu lý thuyết tập thô ứng dụng xử lý liệu ” làm luận văn tốt nghiệp cao học Trong thời gian gần đây, để xử lý hệ thống thông tin bao hàm yếu tố mơ hồ, không đầy đủ rời rạc, nhà nghiên cứu đề xuất nhiều phương pháp khác với phương pháp logic cổ điển, ví dụ lý thuyết tập mờ(Fuzzy set theory), lý thuyết tập thơ (Rough set theory), tính tốn hạt (Granular computing) hay phân tích khái niệm hình thức(Formal concept analysis)… Trong phương pháp này, phương pháp tập thơ nhiều nhóm khoa học giới quan tâm nghiên cứu phát triển Điều lý giải lý thuyết tập thơ xây dựng toán học vững chắc, cung cấp cơng cụ hữu ích để giải toán phân lớp liệu, phát luật,… , đặc biệt phục vụ cho việc nghiên cứu hệ thống thông minh, khai phá liệu 2 Ý tưởng lý thuyết tập thơ lần nhà toán học Ba Lan Z.Pawlak đề xuất Bài báo kinh điển tiếng ông Rough Sets, xuất vào năm 1982 Tiếp theo sau đó, nhà khoa học khắp nơi giới đóng góp nhiều thành tựu quan trọng nhằm phát triển lý thuyết tập thơ ứng dụng Một số tốn lĩnh vực ngân hàng, tài chính, y học, … giải thành công nhờ công cụ tập thô Kiến thức sở lý thuyết tập thơ cổ điển phép tốn xấp xỉ trên, xấp xỉ dựa phân hoạch tạo quan hệ tương đương.Trên sở đó, kỹ thuật tập thơ tập trung vào hai hướng chính: (1) Nghiên cứu thuật toán hữu hiệu để rút gọn tập thuộc tính nhằm hạn chế số chiều khơng gian liệu (2) Nghiên cứu thuật tốn hữu hiệu sinh luật định nhằm phân lớp liệu để làm giảm độ phức tạp không gian liệu Trong luận văn này, học viên tập trung nghiên cứu hướng tiếp cận tập thô ứng dụng xử lý liệu Ngoài phần mở đầu, kết luận, tài liệu tham khảo, luận văn bao gồm ba chương sau: Chƣơng 1: Tổng quan tập thơ Chương luận văn trình bày khái niệm hệ thông tin vấn đề liên quan, xấp xỉ trên, xấp xỉ khái niệm tập thô Các khái niệm ma trận phân biệt hàm phân biệt được, hệ định luật định đề cập nội dung chương Chƣơng 2: Nghiên cứu số kỹ thuật tập thô Chương luận văn tập trung khảo sát số kỹ thuật tập thô thường sử dụng xử lý liệu bao gồm: thuật tốn rút gọn tập thuộc tính dựa tập thơ thuật tốn sinh luật định dựa tập thô Chƣơng 3: Ứng dụng tập thơ xử lý liệu Nội dung chương khảo sát ứng dụng tập thô trích chọn đặc trưng phân lớp liệu Trên sở đó, luận văn xây dựng ứng dụng tập thơ hỗ trợ chẩn đốn bệnh sốt rét.Trong chương luận văn trình bày kết thử nghiệm liệu cụ thể Chƣơng 1: TỔNG QUAN VỀ TẬP THÔ Chương luận văn trình bày số khái niệm lý thuyết tập thô khảo sát vấn đề liên quan Nội dung chương bao gồm kiến thức tảng để nghiên cứu phương pháp rút gọn thuộc tính sinh luật định nghiên cứu chương 1.1 Hệ thông tin vấn đề liên quan 1.1.1 Hệ thông tin Định nghĩa: Hệ thông tin cặp IS = (U, A) Trong đó: U tập hữu hạn khác rỗng đối tượng (tập vũ trụ hay tập phổ dụng) A tập hữu hạn khác rỗng thuộc tính Với u U a A ta ký hiệu u(a) giá trị đối tượng u thuộc tính a Nếu gọi Ia tập tất giá trị thuộc tính a u(a) {b1, b2, ,bk} Ia với u U Nếu B = A, ta ký hiệu giá trị u(bi) u(B) Như vậy, u v hai đối tượng, ta viết u(B) = v(B) u(bi) = v(bi) với i = 1,2,…,k 1.1.2 Quan hệ không phân biệt Cho tập thuộc tính B A hệ thơng tin IS = (U, A) Quan hệ B không phân biệt ký hiệu INDA(B) định nghĩa sau: INDA(B) = {(x,x’) U2 | a B, a(x) = a(x’)} Khi INDA(B) quan hệ tương đương U Lớp tương đương chứa x quan hệ không phân biệt B ký hiệu [x]B Hai đối tượng x, x’ mà (x, x’) INDA(B) gọi khơng phân biệt thuộc tính B Khi xét hệ thống thông tin xác định ta viết IND(B) thay cho INDA(B) 1.2 Khái niệm tập thô 1.2.1 Xấp xỉ xấp xỉ Cho hệ thông tin IS = ( U, A), với tập X IND(B) ta có hai tập sau: (X) = {u U | [u]B X}; (X) = {u U | [u]B X } U B A, ký hiệu R = (X), (X) gọi R-xấp xỉ R-xấp xỉ tập X Tập (X) bao gồm tất phần tử U có khả phân loại vào phần tử thuộc X ứng với quan hệ R Từ hai tập xấp xỉ người ta định nghĩa tập: BNB(X) = (X) - (X): B- miền biên X POSB(X) = (X): B- vùng dương X NEGB(X) = U - (X): B- vùng âm X Ký hiệu tập thương IND(B) U U/B, xấp xỉ X viết lại: (X) = {W U/B | W X (X) = {W U/B | W X} Trong trường hợp BNB(X) } , X gọi tập thô, ngược lại X gọi tập rõ Đối với hệ thông tin IS = ( U, A), B, D A, ký hiệu R = IND(B), người ta gọi B- miền khẳng định dương D tập xác định sau: POSB(D) = ⋃ (V)) (1) Rõ ràng POSB(D) tập tất đối tượng u cho với v U mà u(B) = v(B) ta có u(D) = v(D) 1.2.2 Các tính chất xấp xỉ Cho hệ thông tin IS = (U, A), X, Y (1L) (U) = U (1H) (U) = U (2L) ( ) = (2H) ( ) = (3L) (X) X (3H) (X) X (4L) (X Y) = (X) (Y) (4H) (X Y) = (X) (Y) (5L) (X) = (X) U B A, đặt R = IND(B) đó: (5H) (X) = (X) (6L) (U – X) = U - X (6H) (U – X) = U - X (7L) X Y => (X) (Y) (7H) X Y => (X) (Y) (8L) (U - (X)) = U - (X) (8H) (U - (X)) = U - (X) (9L) K U/R, (K) = K (9H) K U/R, (K) = K Tính chất (3L), (4L) (8L) tính chất đặc trưng cho phép xấp xỉ dưới, điều có nghĩa tính chất khác phép xấp xỉ suy dẫn từ ba tính chất Tương tự với (3H), (4H) (8H) tính chất đặc trưng phép xấp xỉ Sự xác tập xấp xỉ X phân hoạch B giá trị sau: αR(X) = )) =| )) ) ) | (2) Trong Card(X) = |X| lực lượng (số phần tử) tập X Rõ ràng αR 1, αR(X) = 1, ta nói X xác R cịn αR(X) , (X) xấp xỉ (X) xấp xỉ Độ xác thô việc biểu diễn X cho (Pawlak 1991): ≤ αB(X) = (X)/ (X) ≤1 Nếu αB(X) = X tập cổ điển, ngược lại αB(X) < X tập thơ 1.3 Ma trận phân biệt đƣợc hàm phân biệt đƣợc 1.3.1 Ma trận phân biệt Xét hệ thông tin IS = (U, A), giả sử B A Ta định nghĩa ma trận B phân biệt được, kí hiệu M(B), ma trận đối xứng cấp n×n mà phần tử xác định sau : cij = { a B: a(xi) ≠ a(xj)}, i,j = Do phần tử cij tập tất thuộc tính phân biệt đối tượng xi xj 1.3.2 Hàm phân biệt Tất rút gọn hệ thơng tin tìm thơng qua hàm phân biệt Với hệ thông tin IS = (U, A), B với (cij) = {aB: a(xi)  a(xj)} i,j = A, có ma trận phân biệt M(B) = cij Hàm phân biệt fs hàm Boolean m biến Boolean a*1, a*2, …,a*m (ứng với thuộc tính a1, a2, …, am) xây dựng dạng chuẩn tắc tuyển sau: fs(a*1, a*2, …,a*m) =  {  cij |  j  i  n, cij} Trong đó: c*ij = {a* | a  cij} Tập đơn thức fs xác định tập rút gọn S 1.4 Hệ định luật định 1.4.1 Hệ định Một trường hợp đặc biệt hệ thông tin gọi hệ định tập thuộc tính A phân thành hai tập rời C D, C tập thuộc tính điều kiện, D tập thuộc tính định cho C ∩ D = định ký hiệu là: DS = (U, C , C D = A Hệ D) 1.4.2 Luật định Cho hệ định DS = (U, C D),giả sử U/C = {X1, X2, …, Xm} vàU/D = {Y1, Y2, …, Yn} phân hoạch sinh C, D Với Xi U/C,Yj U/D Xi ∩ Yj = , ký hiệu des  X i  des Y j  mô tả lớp tương đương X i Y j bảng định DS Một luật định đơn có dạng Zij: des(Xi) → des(Yj) Tổng quát, luật định luật kết hợp Φ Ψ, hay "nếu Φ Ψ" (“if Φ then Ψ”), Φ Ψ biểu thức logic Khi Φ gọi điều kiện Ψ gọi định luật định tương ứng 7 Như vậy, hệ định DS sinh nhiều luật định Để đánh giá hiệu các luật định, người ta thường sử dụng ba độ đo: độ hỗ trợ, độ xác độ bao phủ 1.4.3 Các độ đo đánh giá luật định Nội dung trình bày mục dựa [10] Để đơn giản, độ đo đánh giá luật định trình bày cho luật định tổng quát dạng Φ Ψ Ký hiệu |Φ| số lượng phần tử tập hợp tất đối tượng U, có giá trị Φ Độ hỗ trợ luật định Độ hỗ trợ (còn gọi độ mạnh) luật định Φ Ψ, ký hiệu supp(Φ,Ψ), định nghĩa tỷ số |Φ ^ Ψ| |U|: Ψ supp(Φ,Ψ) = (3) Độ chắn luật định Độ chắn luật định Φ Ψ, ký hiệu cer(Φ,Ψ), định nghĩa tỷ số |Φ ^ Ψ| |Φ|: cer(Φ,Ψ) = Ψ Thông thường, cer(Φ,Ψ) = luật định Φ (4) Ψ gọi chắn, ngược lại, gọi không chắn Độ bao phủ luật định Độ hỗ trợ luật định Φ Ψ, ký hiệu cov(Φ,Ψ) định nghĩa tỷ số |Φ ^ Ψ| |Ψ|: cov(Φ,Ψ) = Ψ (5) Thuật toán định Một tập hợp luật định Dec(Φ,Ψ) = {ΦiΨi | i = 1, 2, …, k; k  2} gọi thuật toán định hệ định DS thỏa mãn ba điều kiện sau: (1) Điều kiện chấp nhận đƣợc: với i ( ≤ i ≤ k) supp(ΦiΨi) > (2) Điều kiện độc lập: với cặp luật (ΦiΨi) (ΦjΨj) có Φi = Φj |Ψi^Ψj| = 0, có Ψi = Ψj |Φi^Φj| = 8 (3) Điều kiện phủ U: Mỗi đối tượng thuộc U thỏa mãn Φi thỏa mãn Ψj số k luật định Trong ví dụ 4, tập hợp gồm luật (1)-(6) tạo thành thuật toán định hệ định DS = (U, {X1, X2, X3}  {Y1, Y2}) 1.5 Ứng dụng tập thô Lý thuyết tập thô cung cấp phương pháp có hiệu áp dụng nhiều ngành trí tuệ nhân tạo, ưu điểm lý thuyết tập thơ chương trình triển khai thực phương pháp dễ dàng chạy máy tính song song, cịn số vấn đề cần giải Gần đây, nhiều nghiên cứu thực tập thô kết hợp với phương pháp trí tuệ nhân tạo logic mờ, mạng nơtron, hệ chuyên gia số kết quan trọng tìm thấy Lý thuyết tập thơ cho phép mơ tả đặc tính tập đối tượng nhóm giá trị thuộc tính; tìm tồn phần phụ thuộc thuộc tính; giảm thuộc tính thừa; tìm thấy thuộc tính có ý nghĩa sinh luật định Các ứng dụng tập thô giải vấn đề phức tạp, tạo nên hấp dẫn cho nhà nghiên cứu năm gần đây, áp dụng thành công số lĩnh vực đầy thách thức phương pháp tính tốn mềm,… 1.6 Kết luận chƣơng Chương luận văn trình bày số khái niệm lý thuyết tập thô, khái niệm hệ thông tin vấn đề liên quan, xấp xỉ trên, xấp xỉ dưới, ma trận hàm phân biệt được, hệ định luật định Chương khảo sát kiến thức tảng để nghiên cứu phương pháp rút gọn thuộc tính sinh luật định nghiên cứu chương 9 CHƢƠNG 2: NGHIÊN CỨU MỘT SỐ KỸ THUẬT TẬP THÔ Trong chương này, luận văn khảo sát số thuật tốn rút gọn tập thuộc tính sinh luật định dựa lý thuyết tập thô 2.1 Kỹ thuật rút gọn tập thuộc tính dựa tập thơ 2.1.1 Thuật tốn tìm tập rút gọn thuộc tính sử dụng ma trận phân biệt Nội dung mục tham khảo từ tài liệu [1] 2.1.1.1 Các khái niệm liên quan a, Khái niệm Cho hệ thông tin IS = (U,A), B A a B Ta có định nghĩa tập rút gọn tập lõi Định nghĩa 1: i, Thuộc tính a không quan trong B IND(B) = IND(B|{a}), ngược lại a gọi quan trọng B ii, Tập thuộc tính B độc lập tất thuộc tính quan trọng iii, Tập B’ B tập rút gọn( B’= R(B)) B B’ độc lập IND(B’) = IND(B) Định nghĩa 2: Cho B tập A, lõi tập B (Core(B) giao tất tập rút gọn B: Core( B) = Red(B) Trong đó, Red(B) tập tất rút gọn B Định lí 1: Core(B) = {b B: cij = {b}} Định lí 2: Nếu B độc lập A D(B) = B = R(A) b, Quan hệ tương đương: Mối quan hệ nhị phânR X Xđược gọi quan hệ tương đương thỏa mãn: + Tính phản xạ: xRx + Tính đối xứng: xRy yRx + Tính bắc cầu: xRy yRx xRz Lớptươngđươngtheoquanhệtươngđương R phần tử x X phần tử y 2.1.1.2 Mô tả thuật toán X cho xRy 10 Dựa định lý 2, thuật toán đề xuất Thuật tốn 2.1:Tìm lõi Core(B) Input: Hệ thông tin IS = (U, A), // A = {a1, a2, …, am}, B A Output: M(B) and Core(B) 1.Core(B) = ; cij:= ; Index: = ; tij = ; Sign(i,j) = -1; //i,j=1,.,n 2.For i: = to n For j: = to i-1 For k: = to m If ak(xj) ≠ ak(xi) then cij: = cij {ak}, tij:= tij + else cij: = cij; tij: = tij If tij = then Core(B):= Core(B) Index:= Index cij and [k]; Sign(i,j):=1; Đánh giá độ phức tạp: Độ phức tạp tính tốn thuật tốn O( U A) Thuật tốn 2.2: Tìm rút gọn R(A) A Input: Hệ thông tin IS = (U , A) // A = {a1, a2 , , am} Output: R(A) Sử dụng thuật toán 2.1, ta tìm Core(A) Đặt B = Core(A); T = , // if ak Nếu B B then k Index chuyển sang bước 2, ngược lại chuyển sang bước Nếu D(B)= chuyển sang bước4, ngược lại chuyển sang bước3 For k: = to m If k Index For i:= to n For j:=1 i- If Sign(i,j) = -1 If ak cij and cij B = then B = B [ak] and Sign((i,j) = 1; quay lại bước R(A) = B Đánh giá độ phức tạp: Độ phức tạp tính tốn thuật tốn O( U A) 11 2.1.2 Thuật tốn tìm tập rút gọn thuộc tính với phương pháp đại số Nội dung mục tham khảo từ tài liệu [6] 2.1.2.1 Các khái niệm liên quan Cho hệ định DS =( U,C,D,V,f,d) Trong đó, U = {x1, x2, …, xn} tập gồm n đối tượng; C = {c1, c2, …, cr} tập thuộc tính điều kiện gồm r thuộc tính; D tập gồm thuộc tính định, CD =  Đặt F = CD, V = Va, a  F (Va miền giá trị thuộc tính a) Khi đó, f : UxC V d: UxD  V hàm thông tin Ma trận định dược M = (mij) hệ định DS xác định sau: mij = {ck| ck C, f(xi, ck) ≠ f(xj, ck, d(xi, D) ≠ d(xj, D) U, đặt X/{a} = {X1, X2, …., Xr Giả sử B tập F Đặt U/B = {B1, B2, …, Bt}; p(Bj) = |Bj|/|U|; U/D = {D1, …, Dk} Đặt g(X, a) =∑ ∑ sigB(a) = ∑ | - (6) ) (7) 2.1.2.2 Mơ tả thuật tốn Thuật tốn 2.3: Rút gọn thuộc tính cho hệ định Thủ tục 1: Tính g(X, a); Input: Hệ định DS = ( U, C, D,V,f, d), X U, a C Output: g(X,a) Tính X/{a} Tính X/D, Xi/D Tính g(X,a) Độ phức tạp thủ tục 1: Độ phức tạp tính tốn bước thuật toán O(| X |), độ phức tạp bước thứ hai O(| X |) Do độ phức tạp thuật tốn O(| X |) Thủ tục 2: Tính sigB(a); Input: Hệ định DS = (U,C,D,V,f,d), U/B = {B1, B2, , Bt}, a Output: Tính sigB(a) C-B 12 Tính g(Bi,a) với thủ tục 1; Tính sigB(a) với (7) Độ phức tạp thủ tục : Độ phức tạp tính tốn bước thuật tốn O(| Bi |), nên độ phức tạp trường hợp xấu thời gian ∑ i )=O( U ) Thủ tục 3: Rút gọn thuộc tính Input: Hệ định DS =(U,C,D,V,f,d) Output: Tập thuộc tính rút gọn R; R = ; Với a C - R, tính SigR(a) với thủ tục sig R (b)  max │sigR(a)│,nếu sigR(b) R = R {b}, quay lại bước aC R duyệt hết a; Xuất tâp rút gọn thuộc tính R; Độ phức tạp thủ tục 3: ) Vì Độ phức tạp tính tốn bước thứ hai thủ tục độ phức tạp tính tốn thủ tục là: ∑ ∑ ) U) Đánh giá độ phức tạp thuật tốn 2.3: Độ phức tạp tính tốn thuật toán O(|C|2|U|) 2.2 Kỹ thuật sinh luật định dựa tập thơ 2.2.1 Thuật tốn sinh luật định dựa tập rút gọn hệ định 2.2.1.1 Các khái niệm Cho hệ định DS = (U, C D),giả sử U/C = {X1, X2, …, Xm} U/D = {Y1, Y2, …, Yn} Với Xi U/C, Yj U/D Xi ∩ Yj= Thuật toán RuleExtract sinh luật định dạng Zij: des(Xi) → des(Yj) với độ hỗ trợ supp = supp(Zij) = Xi Yj| / |U|; độ chắn cer = cer(Zij) = Xi Yj| / |Xi| độ bao phủ cov = cov(Zij) = Xi Yj| / |Yj| 13 2.2.1.2 Mô tả thuật toán Thuật toán 2.4 RuleExtract Input: Hệ định DS = (U, CD, V, f) Output: Danh sách luật với độ hỗ trợ supp, độ chắn cer độ bao phủ cov; Tính phân hoạchU/C; For each Xi U/C{ TínhXi/D; For each Yj Xi/D Sinh luật Zij: des(Xi) → des(Yj) Tính supp Zij; Tính cer Zij; Tính cov Zij; Xuất luật Zij, độ hỗ trợ sup, độ chắn cer, độ bao phủ cov; }; } 2.2.2 Thuật tốn sinh luật định có bổ sung thêm thuộc tính theo yêu cầu ngƣời dùng[5] Nội dung mục trình bày dựa theo [5] 2.2.2.1 Các khái niệm liên quan Trong phần này, ta xem xét vấn đề việc cập nhật xấp xỉ tập X U thêm loại bỏ thuộc tính Định lý1: Cho thuộc tính a A a P Xấp xỉ X cách thêm thuộc tính a vào P cập nhật theo X, pX, {a}X { } {a}X { }  Với Y = {x pX {a}X sau: (8) ‫׀‬ { } b } (9) Định lý 2: Cho thuộc tính a cập nhật theo X, Với p – {a}X = { x in P, xấp xỉ X cách bớt phần tử a P p – {a}X sau : { } {b}X I Chú ý: Thuộc tính a khơng xét { }X = X { } b⊄ p – {a}X( X) = p – {a}X X} (10) (11) 14 Định lý3: Cho thuộc tính a A a cập nhật theo pX P Xấp xỉ X cách thêm a vào P { }X = x ( sau: pX – Z) (12) Trong Z tập đối tượng bổ sung mà xác định cách thêm thuộc tính a vào P định nghĩa là: = { x in { } ̅ {b}X | { } { } b ̅{b}X } (13) Định lý 4: Cho thuộc tính a thể cập nhật theo P, Xấp xỉ X cách loại bỏ thuộc tính a từ P có pX Với Z’ = {x in sau: { } bX | { }X = X { } pX b⊄ Z’ { } (14) {b}X } (15) 2.2.2.2 Mô tả thuật tốn Từ khái niệm, tính chất mục 2.2.2.1, ta có thuật tốn sau Thuật tốn 2.5 Input: Cho hệ định với tập thuộc tính A dA thuộc tính định; // d gồm k lớp có nhãn d1, d2, …, dk; Thuộc tính điều kiện a thuộc tính bổ sung người dùng; Output: Danh sách luật định thêm thuộc tính điều kiện a; { for each { ; ; ; ; ; } do{ 15 < Xét a thuộc tính cung cấp người dùng>; if (a R) { ; ;} else { ;} ; while (Dừng theo yêu cầu người dùng); } 2.3 Kết luận chƣơng Chương luận văn khảo sát số kỹ thuật tập thô giải hai vấn đề: rút gọn tập thuộc tính sinh luật định Các thuật tốn trình bày chương ứng dụng để giải vấn đề xử lý liệu toán thực tế Việc ứng dung thuật toán xử lý liệu nghiên cứu chương luận văn 16 CHƢƠNG : ỨNG DỤNG TẬP THÔ TRONG XỬ LÝ DỮ LIỆU Trong chương luận văn khảo sát ứng dụng tập thô để trích chọn đặc trưng phân lớp liệu, đưa luật định Từ đề xuất mơ hình ứng dụng tập thơ hỗ trợ chẩn đốn bệnh sốt rét Các kết thử nghiệm đề cập đến chương luận văn 3.1 Xử lý liệu theo hƣớng tiếp cận tập thô Dữ liệu tập hợp kiện (số, chữ, hình ảnh, âm thanh, văn bản,…) khơng có tổ chức, khơng có ý nghĩa rõ ràng xếp để tạo thành thơng tin hữu ích Xử lý liệu dãy hành động thao tác chuyển đổi liệu đầu vào thành liệu đầu hữu ích 3.1.1 Quá trình xử lý liệu Quá trình xử lý liệu thường tiến hành qua giai đoạn [16]: (1) Gom liệu (2) Trích lọc liệu (3) Làm sạch, tiền xử lý chuẩn bị trước liệu (4) Chuyển đổi liệu (5) Khai phá liệu (6) Đánh giá luật biểu diễn tri thức 3.1.2 Trích chọn đặc trưng dựa lý thuyết tập thơ Lựa chọn thuộc tính (Feature Selection, Feature Extraction) nhiệm vụ quan trọng giai đoạn tiền xử lý liệu triển khai mơ hình xử lý liệu khác Một vấn đề gặp phải thực tế tập liệu cần xử lý thường chứa nhiều thơng tin khơng cần thiết (thậm chí gây nhiễu) cho việc xây dựng mơ hình làm giảm độ xác mơ hình gây khó khăn việc phát tri thức 3.1.3 Phân lớp liệu dựa lý thuyết tập thô Phân lớp(classification) liệu tiến trình xử lý nhằm xếp mẫu liệu hay đối tượng vào lớp định nghĩa trước Các mẫu liệu hay đối tượng xếp lớp dựa vào giá trị thuộc tính(attributes) cho mẫu liệu hay đối tượng Sau xếp tất đối 17 tượng biết trước vào lớp tương ứng, lúc lớp đặc trưng tập thuộc tính đối tượng chứa lớp đó.[16] 3.2 Xây dựng ứng dụng tập thơ hỗ trợ chẩn đốn sớm bệnh sốt rét dựa triệu chứng 3.2.1 Tổng quan bệnh sốt rét Sốt rét bệnh truyền nhiễm lây theo đường máu, ký sinh trùng sốt rét Plasmodium gây ra, truyền từ người bệnh sang người lành muỗi Anopheles Bệnh sốt rét gây thành dịch.Sốt rét bệnh truyền nhiễm phổ biến vấn đề nghiêm trọng sức khoẻ cộng đồng 3.2.2 Xây dựng toán ứng dụng 3.2.3 Đề xuất mơ hình giải tốn 3.3 Thử nghiệm Kết 3.3.1 Dữ liệu thử nghiệm 3.3.2 Cài đặt thử nghiệm 3.3.3 Kết đánh giá 3.4 Kết luận chƣơng Chương luận văn khảo sát trình xử lý liệu theo hướng tiếp cận tập thơ bao gồm: q trình trích chọn đặc trưng dựa lý thuyết tập thô,và trình phân lớp liệu dựa tập thơ Trên sở xem xét bệnh sốt rét, luận văn xây dựng mơ hình ứng dụng tập thơ hỗ trợ chẩn đoán bệnh sốt rét dựa triệu chứng Các kết thử nghiệm chứng tỏ phù hợp với lý thuyết nghiên cứu chương 18 KẾT LUẬN Luận văn đạt số kết sau: Luận văn khảo sát tổng quan tập thơ: trình bày khái niệm liên quan đến hệ thông tin, hệ định, khái niệm, tính chất tập thơ, thông tin xấp xỉ trên, xấp xỉ dưới, cách tìm tập xấp xỉ dưới, xấp xỉ tập thô;các khái niệm luật định, ma trận phân biệt được, hàm phân biệt Luận văn đề cập đến độ đo đánh giá luật định thuật toán định khảo sát ứng dụng tập thơ trích chọn đặc trưng phân lớp liệu Luận văn nghiên cứu thuật tốn việc tìm tập rút gọn thuộc tính hệ thơng tin dựatrên tập thơ thuật toán sinh luật định hệ định dựa trênlý thuyết tập thô Luận văn khảo sát tổng quan bệnh sốt rét Trên sở liệu trích rút từ thực tế, luận văn xây dựng cài đặt ứng dụng tập thô để chẩn đoán sớm bệnh sốt rét dựa triệu chứng Hướng phát triển tương lai: Học viên tiếp tục nghiên cứu, tìm hiểu thuật tốn, cácphương pháp rút gọn tập thuộc tính, phương pháp sinh tập luật địnhtrong hệ định dựa lý thuyết tập thơ Học viên tiếp tục hồn thiện cài đặt hệ thống xây dựng bước đầu luận văn để áp dụng thực tế, kể việc thu thập liệu đầu vào từ thực tế diện rộng 19 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Ngọc Minh Châu, Nguyễn Xuân Thảo (2013) -“Một thuật tốn tìm tập rút gọn thuộc tính sử dụng ma trận phân biệt được” - Tạp chí Khoa học Phát triển, T 11, S 5, Tr 729-734 [2] Lê Thị Luyến (2010) -“Bệnh học”–Nhà xuất Y học, Hà Nội [3] Vũ Thanh Nguyên, Nguyễn Đại Hữu, Trần Đức Tốt (2015) -“Sử dụng lý thuyết tập thô cho việc tạo cấu trúc HAH phân đa lớp” - Tạp chí Khoa học ĐHSP Tp Hồ Chí Minh, S (70), Tr 97-106 Tiếng Anh [4] Allam A.A., BakeirM.Y and Abo-Tabl E.A (2008) -“ Some Methods for Generating Topologies by Relations”, Bull Malays Maths.Soc, V 2, No 31, pp 3545 [5] ChanCC1998 – “A rough Sets approach to attribute genneralization in data mining” – Juonal of Information Science V 107, pp.69-176 [6] Gao J., Ma H., Han Zh (2015) - “Atribute Reduction Algorithm Based on Discernibility Matrix with Algegebraic Method” - IIICEC, pp 349-353 [7] Ge H., Li L.S and Yang C.J (2009) - “Improvement to Quicsck Attribution Reduction Algorithm” - Journal of Computers, V.30, No2, pp 308-312 [8] Jensen, Richart, Qiang Shen (2007) -“Rough set based feature selection: A rewiew” - Rough Computing [9] Li B., Chow W.S., Tang P (2014) -“Analyzing Rough Set Based Attribute Reductions by Extension Rule” - NeuroComputing, 123, pp 185-196 [10] Pawlak Z (1998) –“Rough Set Theory and Its Application to Data Analysis” Cybernetics and Systems: An International Journal 29, pp 661-688 [11] Ranpure V., Tiwari A (2014) –“A Rough Set Based Classification Model for The Generation of Decision Rules” - International Journal of Database Theory and Application, V 7, No 5, pp 95-108 [12] Ranpure V., Tiwari A (2015) – “A Rough Set Based Feature Selection on KDD CUP 99 Data Set” - International Journal of Database Theory and Application, V 8, No 1, pp 149-156 20 [13] Vashist R., Gang M.L (2011) –“Rule Generation based on Reduct and Core: A Rough Set Approach” - International Journal of Computer Applicasion, V 29, No 9, pp 1-5 [14] Wang C.R and Ou F.F (2008) - “An Attribute Reduction Algorithm in Rough Set Theory Based on Information Entropy” - International Symposium on Computational Intelligence and Design, IEEE ISCID, pp 3-6 [15] Zhao W., Zhang Z (2005) –“An Email Classification Model Based on Rough Set Theory” - IEEE, pp 403-408 Trang WEB [16] https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3% ... 16 CHƢƠNG : ỨNG DỤNG TẬP THÔ TRONG XỬ LÝ DỮ LIỆU Trong chương luận văn khảo sát ứng dụng tập thơ để trích chọn đặc trưng phân lớp liệu, đưa luật định Từ đề xuất mơ hình ứng dụng tập thơ hỗ trợ... luật định dựa tập thô Chƣơng 3: Ứng dụng tập thô xử lý liệu Nội dung chương khảo sát ứng dụng tập thơ trích chọn đặc trưng phân lớp liệu Trên sở đó, luận văn xây dựng ứng dụng tập thơ hỗ trợ... thuật tập thô giải hai vấn đề: rút gọn tập thuộc tính sinh luật định Các thuật tốn trình bày chương ứng dụng để giải vấn đề xử lý liệu toán thực tế Việc ứng dung thuật toán xử lý liệu nghiên cứu

Ngày đăng: 19/03/2021, 18:00

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w