Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 21 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
21
Dung lượng
162,35 KB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Tiểu luận: LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC HVTH: Võ Thành Nhân MSHV: CH1301103 GVPT: TS. Dương Tôn Đảm Thành phố Hồ Chí Minh 11 – 2014. ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Tiểu luận môn học: Toán cho Công nghệ thông n Tiểu luận: LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC HVTH: Võ Thành Nhân MSHV: CH1301103 GVPT: TS. Dương Tôn Đảm Thành phố Hồ Chí Minh 11 – 2014. Mục lục 2 Tiểu luận môn học: Toán cho Công nghệ thông n 3 Tiểu luận môn học: Toán cho Công nghệ thông n 1. Mở đầu Có lẽ ai trong chúng ta cũng biết rằng lý thuyết tập hợp là một trong những lý thuyết toán học được sử dụng rông rãi nhất, sớm nhất trong công nghệ thông tin. Vì lý thuyết tập hợp là nền móng xây dựng nên lý thuyết cơ sở dữ liệu quan hệ, một lĩnh vực mà số lượng ứng dụng chiếm đến 80% các ứng dụng của công nghệ thông tin và tồn tại chủ yếu trong các tổ chức, xí nghiệp. Ngày nay khi mà khối lượng dữ liệu trong các kho dữ liệu của các tổ chức, xí nghiệp ngày càng phình to với một tốc độ chóng mặt với nhiều loại dữ liệu khác nhau thì các công cụ xử lý dữ liệu cũng phát triển với một tốc độ chóng mặt đến nỗi trở thành một lĩnh vực nghiên cứu chuyên sâu, riêng biệt trong công nghệ thông tin đó là Data mining(Khai phá dữ liệu). Đó là điều tất yếu bởi công nghệ thông tin sinh ra và phát triển là để phục vụ cho các nhu cầu phát triển kinh tế, xã hội của con người. Nếu nguồn dữ liệu đầu vào không đầy đủ(incomplete) hoặc không chính xác thậm chí là mâu thuẫn(inconsistent) các kết quả thu được từ các công cụ Data mining có thể trở nên mâu thuẫn và không có nghĩa. Vấn đề là trong thực tế những nguồn dữ liệu như thế không phải là ít nếu không nói là nó còn nhiều hơn loại đầy đủ và thống nhất. Lấy ví dụ trong các mẫu điều tra thống kê các vấn đề xã hội, những dữ liệu mà người ta thu thập được thường là không đầy đủ, hoặc trong các dữ liệu lưu trữ của một bệnh viện về triệu chứng của một căn bệnh, cùng một tập các triệu chứng thế nhưng có người thì bị bệnh có người lại không Và đó là nơi mà một khái niệm toán học mới được đề xuất để giải quyết những trường hợp như thế: lý thuyết tập thô(rough set theory). Lý thuyết tập thô là một cách tiếp cận mới trong việc phân tích, xử lý dữ liệu không đầy đủ, không chắc chắn. Vì vậy nó có một vai trò vô cùng quan trọng trong khoa học Trí tuệ nhân tạo(Artificial Intelligent), khoa học về nhận thức(Cognitive Science) và đặc biệt là trong Máy học(Machine Learning), hệ Hỗ trợ quyết định(Decision Support System), hệ Chuyên gia(Expert System) và Suy luận dựa trên quy nạp (Inductive Reasoning). 4 Tiểu luận môn học: Toán cho Công nghệ thông n 1.1. Giới thiệu tập thô Lý thuyết tập thô được Zdzislaw Pawlak đề xuất vào đầu những năm 1980 với triết lý là: mọi đối tượng trong vũ trụ đều gắn với một loại thông tin(dữ liệu, tri thức) nào đó. Vì vậy có thể mô hình hóa các đối tượng trong vũ trụ bằng một tập các thông tin quan tâm. Khi các đối tượng mà được đặc trưng bởi cùng thông tin thì từ góc độ thông tin sẵn có trên các đối tượng ta không thể phân biệt giữa chúng với nhau được. Lý thuyết tập thô định nghĩa một quan hệ như thế giữa các đối tượng là quan hệ bất khả phân biệt. Một cách tự nhiên ta thấy rằng quan hệ này chia tách vũ trụ ban đầu thành các lớp rời nhau mà các đối tượng trong mỗi lớp là không thể phân biệt được. Vì vậy về mặt trực giác, ta thấy rằng đó là một quan hệ tương đương và đó là cơ sở toán học của tập thô. Tập thô gọi các lớp tương đương đó là các tập cơ bản hay các hạt(nguyên tử) tri thức trong vũ trụ (granule(atom) of knowledge). Trong thế giới của tập thô, một tập hợp bất kì được biểu diễn bằng cặp xấp xỉ trên/xấp xỉ dưới(upper approximation/lower approximation). Xấp xỉ dưới là những phần tử mà chắc chắn là thuộc về tập đang quan tâm(ví dụ tập các bệnh nhân có bệnh), xấp xỉ trên gồm các phần tử có thể thuộc hay không thuộc về tập đang quan tâm. Vậy tại sao không mô tả tập hợp với các phần tử chắc chắn thuộc về nó mà lại còn thêm các phần tử có thể thuộc hoặc không ? Ý nghĩa của tập thô là ở chỗ thay vì dùng một số lớn các tính chất để mô hình hóa, phân loại các đối tượng thì sử dụng tập thô ta có thể sử dụng một số ít các tính chất, thông tin mà vẫn xấp xỉ được một tập ban đầu. Để đơn giản, ta cứ hình dung, bác sĩ “rõ”(đại diện cho tập rõ) phải hỏi 10 câu mới biết là người bệnh có bệnh hay không. Còn bác sĩ “thô”(đại diện cho tập thô) chỉ cần hỏi 3 câu là phân loại được 90% người có bệnh hay không. Như vây bác sĩ “thô” chỉ sữ dụng có 3 “tính chất” để phân loại 100 người, dẫu rằng còn khoảng 10 người là cần hỏi kĩ hơn. Về mặt hiệu suất, tính hiệu quả, tính tiết kiệm chi phí thì bác sĩ “thô” làm việc tốt hơn bác sĩ “rõ”. Quan hệ bất khả phân biệt và khái niệm xấp xỉ trên/xấp xỉ dưới là hai hòn đá tảng của lý thuyết tập thô. 1.2. Ví dụ minh họa trong tiểu luận Để dễ dàng mô tả các khái niệm của lý thuyết tập thô, sau đây ta sẽ xét một ví dụ minh họa. Đây là bảng dữ liệu về các triệu chứng bệnh của các bệnh nhân và kết luận là có bị 5 Tiểu luận môn học: Toán cho Công nghệ thông n cảm cúm hay không. Các ví dụ trong các phần lý thuyết sau đây đều dựa trên bảng dữ liệu này và ta thống nhất gọi bảng này là Bảng triệu chứng cúm. Bệnh nhân Thân nhiệt Đau đầu Mệt mỏi Buồn nôn Cảm cúm B1 rất cao có có không có B2 cao có không có có B3 bình thường không không không không B4 bình thường có có có có B5 cao không có không có B6 cao không không không không B7 bình thường không có không không B8 bình thường không có không có Bảng dữ liệu này cũng được dùng để trả lời câu hỏi: với triệu chứng bệnh gì thì sẽ kết luận là bị cảm cúm hay không trong phần tìm các luật quyết định(decision rule). Ta thấy đây là loại dữ liệu mâu thuẫn bởi hai bệnh nhân B7 và B8 có cùng triệu chứng bệnh nhưng B7 thì không bị cảm cúm còn B8 thì lại bị cảm cúm. 2. Các khái niệm nền tảng của tập thô Nếu như về mặt trực giác chúng ta có thể cảm nhận rằng quan hệ bất khả phân biệt là một quan hệ tương đương, một khái niệm quen thuộc trong lý thuyết tập hợp thì khái niệm xấp xỉ trên/xấp xỉ dưới lại khá mơ hồ và mới mẻ. Nên trong phần này ta sẽ tìm hiểu kĩ hơn về khái niệm xấp xỉ trên/xấp xỉ dưới để từ đó đi đến tính chất quan trọng của tập thô trong Data mining: các tập rút gọn(reducts, sử dụng ít thông tin hơn nguồn dữ liệu ban đầu) và một ứng dụng quan trọng, cơ bản của lý thuyết tập thô: sinh luật quyết định từ bảng quyết định. Như ta đã biết công dụng chủ yếu của lý thuyết tập thô là phân tích, xử lý dữ liệu không chắc chắn, không đầy đủ. Vì vậy, đầu tiên ta sẽ mô hình hóa các tính chất của các tập dữ liệu này bằng khái niệm: hệ thông tin. 6 Tiểu luận môn học: Toán cho Công nghệ thông n 2.1. Hệ thông tin - Hệ thông tin (information system) là một bộ bốn: trong đó: • , U ≠ , là một tập hữu hạn các đối tượng (objects) gọi là vũ trụ (univerce). • A hữu hạn và A ≠ , là tập thuộc tính và được chia thành 2 tập con. Các thuộc tính điều kiện (condition attribute) C và các thuộc tính quyết định (decision attribute) D; • V là tập hữu hạn các giá trị thuộc tính trong đó : với là miền giá trị (domain value) của thuộc tính a . • là hàm thông tin (information function) trong đó Ví dụ: Bảng triệu chứng cúm là một hệ thông tin với: U = { B1, B2, B3, B4, B5, B6, B7, B8 } C = { Thân Nhiệt, Đau đầu, Mệt mỏi, Buồn nôn }, D = { Cảm cúm }, V Thân nhiệt = {bình thường, cao, rất cao}, V Đau đầu = {có, không}, V Mệt mỏi = { có, không }, V Buồn nôn = { có, không }, V Cảm cúm = { có, không } f(B1, Thân nhiệt) = rất cao, f(B2, Cảm cúm) = có,… - Nếu và lúc đó hệ thông tin được gọi là bảng quyết định. Khi đó hệ thông tin sẽ được kí hiệu là . Một bảng quyết định gọi là có tính quyết định nếu: ngược lại thì nó không có tính quyết định. Ví dụ: Xét các bảng dữ liệu trong cơ sở dữ liệu quan hệ có thuộc tính khóa chính(primary keys). Trong đó các cột biểu diễn cho các thuộc tính, các hàng biểu diễn cho các đối tượng. Đặt A = {các thuộc tính của bảng dữ liệu}, C = {các thuộc tính khóa chính chính}, D = { các thuộc tính còn lại }. Ta có: và . Vậy bảng dữ liệu này là một bảng quyết định. Mặt khác, theo định nghĩa vể thuộc tính khóa chính thì ta có 1 phụ thuộc hàm , 7 Tiểu luận môn học: Toán cho Công nghệ thông n nghĩa là : . Vậy bảng dữ liệu trong các cơ sở dữ liệu quan hệ là bảng quyết định có tính quyết định. Ví dụ: Bảng triệu chứng cúm là một bảng quyết định vì và . Tuy nhiên nó là bảng không có tính quyết định do B7 và B8 giống nhau trên C nhưng khác nhau trên D. 2.2. Quan hệ bất khả phân biệt - Xét hệ thông tin , B A, x, y ta lập một quan hệ như sau: x y f(x, b) = f (y, b), là một quan hệ 2 ngôi và thỏa: Tính phản xạ: x x, hiển nhiên vì f(x, b) = f (x, b), Tính đối xứng x y f(x, b) = f (y, b) f(y, b) = f (x, b), Tính bắc cầu: Vậy là một quan hệ tương đương, ta kí hiệu là IND(B) và gọi là quan hệ bất khả phân biệt với tập thuộc tính B. Vậy IND(B) = {(x, y) U x U | f(x, b) = f (y, b), }. Quan hệ IND(B) chia tập U thành các lớp tương đương, ta kí hiệu sự phân lớp này là U|IND(B). , lớp tương đương của x trong quan hệ IND(B) được kí hiệu là [x] IND(B) . - Nếu muốn nhấn mạnh đến các thuộc tính khác biệt của các đối tượng hơn là giá trị các thuộc tính thì có thể biểu diễn hệ thông tin bằng ma trận phân biệt D (discernibility matrix), được định nghĩa như sau: Ví dụ: Xét bảng triệu chứng cúm, đặt P = {Thân nhiệt, Mệt mỏi}, Q = {Đau đầu, Buồn nôn}. Ta có quan hệ bất khả phân biệt trên P và Q như sau: IND(P) = {(B2, B6), (B4, B7), (B4, B8), (B7, B8)} 8 Tiểu luận môn học: Toán cho Công nghệ thông n U|IND(P) = {{B2, B6}, {B4, B7, B8}} IND(Q) = {(B2, B4), (B3, B5), (B3, B6), (B3, B7) , (B3, B8) , (B5, B6) , (B5, B7) , (B5, B8), (B6, B7) , (B6, B8) , (B7, B8)} U|IND(Q) = {{B1 }, {B2, B4}, {B3, B5, B6, B7, B8}} Và ma trận phân biệt như sau: B1 B2 B3 B4 B5 B6 B7 B8 B1 B2 {T ,M, B } B3 {T, Đ, M, C} {T, Đ, B, C} B4 {T, B} {T, M} {Đ, M, B , C} B5 {T, Đ, M} {Đ, M, B} {T, M, C} {T, Đ, B} B6 {T, Đ, M, C} {Đ, B, C} {T} {T, Đ, M, B, C} {M, C} B7 {T, Đ, C} {T, Đ, M, B, C} {M} {Đ, B, C} {T, C} {T, M} B8 {T, Đ} {T, Đ, M, B} {M, C} {Đ, B} {T} {T, M, C} {C} (T: Thân nhiệt, Đ: Đau đầu, M: Mệt mỏi, C: Cảm cúm) 2.3. Xấp xỉ một tập hợp - Ý tưởng cơ bản của tập thô là mô tả hay xấp xỉ một tập hợp rõ bằng cặp xấp xỉ trên/xấp xỉ dưới. Với một tập thuộc tính P bất kì(P ⊆ A), nếu không thể dùng nó để mô tả chính xác một tập hợp X, thì cặp xấp xỉ trên/xấp xỉ dưới được dùng đến. Cho hệ thông tin , P A, X U. Bây giờ chúng ta muốn sử dụng tập thuộc tính P để mô tả tập các đối tượng X(được đặc trưng bằng một số tính chất nào đó), khi đó X được sinh ra bởi cặp xấp xỉ trên/xấp xỉ dưới kí hiệu bởi như định nghĩa dưới đây: và gọi là P – xấp xỉ dưới của X gọi là P – xấp xỉ trên của X Theo định nghĩa trên ta thấy rằng: • là tập các đối tượng mà sử dụng tập thuộc tính mô tả P ta chắc chắn chúng là thành viên của X. • là tập các đối tượng mà sử dụng tập thuộc tính mô tả P ta chỉ có thể nói rằng các đối tượng đó có thể là thành viện của X. 9 Tiểu luận môn học: Toán cho Công nghệ thông n • - Nếu thì X là tập rõ hay tập P - chính xác(P – exact), ngược lại thì X là tập P – thô(P – though). Đặt , ta gọi là vùng P – biên(P – boundary) gồm các đối tượng mà sử dụng tập thuộc tính P ta không thể xác định chúng có thuộc X hay không. Tập hợp U gọi là vùng P – ngoài của X(P – outside region of X) gồm các đối tượng mà sử dụng tập thuộc tính mô tả P chắc chắn chúng không là thành viên của X. Một hình ảnh trực quan về các tập hợp được thể hiện qua hình sau: Ví dụ: Xét Bảng triệu chứng cúm Đặt P = { Đau đầu, buồn nôn }, X = { x | f(x, Cảm cúm) = có }. Ta có: X = { B1, B2, B4, B5, B8 } U|IND(P) = { {B1 }, {B2, B4}, {B3, B5, B6, B7, B8} } , , U = - Một số tính chất của xấp xỉ trên/xấp xỉ dưới: 1) . 10 [...]... Discovery in Database – KDD) Phát hiện tri thức trong cơ sở dữ liệu(hay nói vắn tắt là phát hiện tri thức) là lĩnh vực nghiên cứu và ứng dụng tập trung vào dữ liệu, thông tin và tri thức Về mặt hình thức thì có thể định nghĩa phát hiện tri thức là: Một quá trình có nhiều pha, mang tính tương tác và lặp nhằm phát hiện ra những hình mẫu hay những mô hình dữ liệu có thể hiểu được, hợp lệ và mới lạ có tiềm năng... mining(Transformation) • sử dụng các phương pháp Data mining để trích rút ra các dạng và các mô hình ẩn trong dữ liệu(Data mining) • biểu diễn các tri thức được phát hiện và đưa tri thức được phát hiện sử dụng trong thực tế(Interpretation Evaluation) Hình sau đây minh họa các pha của quá trình phát hiện tri thức: 19 Tiểu luận môn học: Toán cho Công nghệ thông tin 2.2 Vai trò, vị trí của tập thô trong Data mining... năng mang lại giá trị sử dụng từ một nguồn dữ liệu lớn Phát hiện tri thức là một lĩnh vực rộng lớn liên quan đến nhiều ngành khác nhau của khoa học máy tính và hệ thống thông tin như: Trí tuệ nhân tạo, Cơ sở dữ liệu, Tính toán hiệu năng cao, Tính toán mềm, Thống kê…như minh họa trong hình sau đây: 18 Tiểu luận môn học: Toán cho Công nghệ thông tin Như vậy chúng ta thấy ngay là trong KDD đã bao hàm luôn... khái niệm luật quyết định, một ứng dụng của tập thô trong Data mining, cũng như nêu một ví dụ cụ thể cho một bảng quyết định • Trình bày sơ lược về Data mining và tiến trình phát hiện tri thức qua đó làm rõ hơn vai trò, vị trí cụ thể của tập thô trong lĩnh vực phát hiện tri thức Tài liệu tham khảo [1] Dương Tôn Đảm, Bài giảng Toán cho Công nghệ thông tin: Lý thuyết tập thô [2] Andrzej Skowron, Ning... conclusions, trong đó conditions là tập các điều kiện và conclusions là tập kết luận( sự kiện) sẽ xảy ra nếu tập điều kiện của luật được thỏa mãn Nói chung đây là dạng tri thức tìm kiếm mong muốn của đa số các hệ phát hiện tri thức( knowledge discovery system) bởi vì nó phản ánh mối quan hệ nhân quả ẩn bên trong các dữ liệu Trong lý thuyết tập thô, dạng tri thức này được giới hạn trong các bảng quyết định và các... then chốt quá trình phát hiện tri thức bởi hệ thống có thu được tri thức mới hay không là phục thuộc vào kết quả của pha này Từ kết quả của pha này hệ thống tiến hành biểu diễn tri thức vừa thu nhận được và sau đó đưa vào đánh giá, sử dụng Một quá trình phát hiện tri thức có thể bao gồm các pha sau đây: • khảo sát miền ứng dụng và xác định, phát biểu vấn đề • thu thập và tiền xử lý dữ liệu(Selection... kiện A và tập thuộc tính quyết định B thỏa mãn một số tiêu chí về độ mạnh và độ chính xác của luật 4 Kết luận Tiểu luận đã tập trung làm những việc sau đây: • Nêu một cái nhìn tổng quan về ý nghĩa, vai trò của tập thô trong công nghệ thông tin • Cố gắng làm rõ một số khái niệm căn bản của tập thô thông qua các định nghĩa, các diễn giải và các ví dụ, chứng minh một số tính chất của hàm thuộc thô • Trình... Khi đó hàm được gọi là hàm thuộc thô của tập P – thô X - Từ định nghĩa của hàm thuộc thô, ta rút ra một số tính chất sau: 1) 2) 3) 0 X 11 Tiểu luận môn học: Toán cho Công nghệ thông tin 4) Nếu 5) = 1-, 6) 7) 2.5 Rút gọn các thuộc tính Cho hệ thông tin ; P, Q 2.5.1 Sự phụ thuộc các thuộc tính - Ta nói rằng tập thuộc tính Q phụ thuộc hoàn toàn vào tập thuộc tính P và kí hiệu là P → Q ⇔ IND(P) IND(Q) hay... xỉ tập X tốt hơn P 2.4 Hàm thuộc thô - Trong lý thuyết tập hợp cổ điển, mỗi một tập hợp X có thể được mô tả bởi một hàm số : U {0,1} (X gọi là hàm đặc trưng hay hàm thuộc của tập X, sao cho ∀ u , = 1 thì u X, ngược lại = 0 thì u ∉ X Một cách tương ứng, trong lý thuyết tập thô ta cũng định nghĩa một hàm thuộc thô như sau: Cho hệ thông tin , X U, P A, hàm U , ∀ x : Khi đó hàm được gọi là hàm thuộc thô. .. xếp vào hàng công cụ của Data mining Từ đó chúng ta thấy vị trí của tập thô trong Data mining là dùng để giải các bài toán của Data mining cho những trường hợp dữ liệu không đầy đủ, không chắc chắn, thậm chí mâu thuẫn Ở đây, xin nêu cụ thể về hai bài toán trong Datamining mà chỉ cần giải bài toán tương ứng trong tập thô là đạt được kết quả cho 2 bài toán này Xét bài toán tìm luật kết hợp và bài toán . 2014. ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Tiểu luận môn học: Toán cho Công nghệ thông n Tiểu luận: LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC . 2 Tiểu luận môn học: Toán cho Công nghệ thông n 3 Tiểu luận môn học: Toán cho Công nghệ thông n 1. Mở đầu Có lẽ ai trong chúng ta cũng biết rằng lý thuyết tập hợp là một trong những lý thuyết toán. ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Tiểu luận: LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC HVTH: Võ Thành Nhân MSHV: