Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
111,01 KB
Nội dung
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN PHÒNG ĐÀO TẠO SĐH-KHCN&QHĐN BÀI THU HOẠCH MÔN TOÁN KHOA HỌC MÁY TÍNH TÌM HIỂU LÝ THUYẾT TẬP THÔ VÀ TIẾP CẬN TẬP THÔ ĐỂ KHÁM PHÁ LUẬT KẾT HỢP HỌC VIÊN: VŨ THỊ HƯỜNG (CH1301089) HÀ THANH NHẤT (CH1301104) GIẢNG VIÊN: TS. DƯƠNG TÔN ĐẢM TP. HỒ CHÍ MINH, THÁNG 11/2014 LỜI CẢM ƠN Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm Nhóm xin chân thành cảm ơn sâu sắc đến TS. Dương Tôn Đảm , người thầy đã truyền đạt cho nhóm những kiến thức về lý thuyết tập thô, cung cấp những tài liệu qúy báu trong suốt quá trình học. Nhóm xin cảm ơn đến PGS.TS Đỗ Phúc đã dành thời gian một buổi lên lớp để hướng dẫn cũng như trình bày những ứng dụng liên quan đến tập thô. Xin được cảm ơn các anh/chị học cùng khóa đã đóng góp và chia sẻ tài liệu về môn học, giúp nhóm hoàn thành tốt bài thu hoạch này. Xin chân thành cảm ơn MỤC LỤC Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm LỜI NÓI ĐẦU Theo xu hướng mới đây, để xử lý các hệ thống thông tin bao hàm yếu tố mơ hồ, không đầy đủ và rời rạc, các nhà nghiên cứu đã đề xuất nhiều phương pháp khác với phương pháp logic cổ điển, ví dụ lý thuyết tập mờ (Fuzzy set theory), lý thuyết tập thô (Rough set theory), tính toán hạt (Granular computing) hay phân tích khái niệm hình thức (Formal concept analysis) … Trong các phương pháp này, phương pháp tập thô được nhiều nhóm khoa học trên thế giới quan tâm nghiên cứu và phát triển. Điều này có thể lý giải là do lý thuyết tập thô được xây dựng trên một nền toán học vững chắc, cung cấp những công cụ hữu ích để giải quyết các bài toán phân lớp dữ liệu, phát hiện luật …, đặc biệt là phục vụ cho việc nghiên cứu các hệ thống thông minh, khai phá dữ liệu. Lý thuyết tập thô do Z.Pawlak đề xuất vào đầu những năm 80 của thế kỷ XX đã được áp dụng ngày càng rộng rãi trong lĩnh vực khám phá tri thức. Trong những năm gần đây, lý thuyết tập thô được nhiều nhóm nghiên cứu hoạt động trong lĩnh vực tin học nói chung và khai phá tri thức từ cơ sở dữ liệu nói riêng nghiên cứu và áp dụng vào thực tế. Những phương pháp dựa trên lý thuyết tập thô đặc biệt hữu ích đối với những bài toán mà dữ liệu không rõ ràng, không chắc chắn. Ngoài ra, lý thuyết tập thô cho phép trình diễn một mô hình hình thức về tri thức. Mô hình này được xác định như họ các mối quan hệ “không phân biệt được”. Nhờ đó, tri thức được định nghĩa một cách rõ ràng theo nghĩa toán học, có thể phân tích và xử lý bằng những công cụ toán học. Trong lý thuyết tập thô, dữ liệu được biểu diễn thông qua hệ thông tin hay bảng quyết định. Ý tưởng chính trong việc phân tích dữ liệu theo tiếp cận tập thô xuất phát từ những khái niệm về sự xấp xỉ tập, về quan hệ “không phân biệt được”. Từ những bảng dữ liệu lớn với dữ liệu dư thừa, không hoàn hảo, dữ liệu liên tục hay dữ liệu biểu diễn dưới dạng ký hiệu. Lý thuyết tập thô cho phép khai thác từ những loại dữ liệu như vậy nhằm phát hiện ra những quy luật tiềm ẩn. Tri thức được biểu diễn dưới dạng các luật, mẫu mô tả mối quan hệ bị che giấu trong dữ liệu. Chất lượng thông tin trong việc vận dụng lý thuyết tập thô được đo bằng tập Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm xấp xỉ trên và tập xấp xỉ dưới. Nhằm thu hẹp nhiều nhất chính xác thông tin, loại bỏ những thông tin dư thừa không cần thiết mà vẫn giữ được ý nghĩa. Khi tìm được những quy luật chung nhất, người ta có thể tính toán độ mạnh, độ phụ thuộc giữa các thuộc tính trong hệ thông tin. Việc tiếp cận tập thô để khám phá luật có rất nhiều những lợi ích như: Cho phép xử lý hiệu quả bảng dữ liệu lớn, loại bỏ dữ liệu dư thừa, dữ liệu bị thiếu, dữ liệu liên tục. Hiệu quả cao trong việc tìm kiếm những mẫu tiềm ẩn trong dữ liệu. Sử dụng được các kinh nghiệm về tri thức. Nhận ra các mối quan hệ mà khi sử dụng các phương pháp thống kê khác không phát hiện được. Sử dụng quan hệ thứ lỗi trong quá trình phát hiện mẫu. Làm việc hiệu quả trên tập dữ liệu rút gọn. Với những ưu điểm trên, nhóm đã thống nhất tìm hiểu về lý thuyết tập thô đồng thời cũng vận dụng trong việc khám phá tri thức luật. Bài thu hoạch được trình bày thành hai phần chính: Tìm hiểu về lý thuyết tập thô. Vận dụng tập thô trong việc khám phá luật kết hợp. Đánh giá các luật dựa vào các độ đo. Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm 1 LÝ THUYẾT TẬP THÔ 1.1 Các khái niệm cơ bản 1.1.1 Hệ thông tin Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi hàng biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được của mỗi đối tượng (do các chuyên gia hay người sử dụng cung cấp). Bảng này được gọi là một hệ thông tin. Hình thức hơn, hệ thông tin là một cặp S = (U, A), U là một tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ hay là tập phổ dụng, A là một tập hữu hạn khác rỗng các thuộc tính. Với mỗi u∈U và a∈A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a. Nếu gọi I a là tập tất cả giá trị của thuộc tính a, thì u(a)∈I a với mọi u∈U. Bây giờ, nếu B = {b 1 , b 2 , ,b k } ⊂ A, ta ký hiệu bộ các giá trị u(b i ) bởi u(B). Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu u(b i )= v(b i ), với mọi i =1, 2, , k. 1.1.2 Quan hệ không phân biệt được Xét hệ thông tin S = (U, A), với mỗi tập thuộc tính B ⊂ A tạo ra một mối quan hệ hai ngôi trên U, ký hiệu là IND(B). IND(B) = {(u,v)∈U x U | u(a) = v(a), ∀a∈B} IND(B) được gọi là B_không phân biệt được. Ví dụ: Xét hệ thông tin cho bên dưới U Đau đầu Đau cơ Nhiệt độ Cúm x 1 Không Có Cao Có x 2 Có Không Cao Có x 3 Có Có Rất cao Có x 4 Không Có Bình thường Không x 5 Có Không Cao Không x 6 Không Có Rất cao Có Bảng 1-1: Bảng dữ liệu bệnh cúm Trong đó: U = {x1, x2, x3, x4, x5, x6}. A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm}. Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm Trong bảng, các bệnh nhân x 2 , x 3 và x 5 không phân biệt được đối với thuộc tính Đau đầu, bệnh nhân x 3 và x 6 không phân biệt được đối với thuộc tính Đau cơ, Cúm và bệnh nhân x 2 , x 5 không phân biệt được đối với thuộc tính Đau đầu, Đau cơ và Nhiệt độ. Do đó: IND( {Đau đầu}) = {{x 1 , x 4 , x 6 },{x 2 , x 3 , x 5 }} IND( {Đau cơ}) = {{x 1 , x 3 , x 4 , x 6 }, {x 2 , x 5 }} IND( {Nhiệt độ}) = {{x 1 , x 2 , x 5 }, {x 3 , x 6 }, {x 4 }} IND( {Cúm}) = {{x 1 , x 2 , x 3 , x 6 }, {x 4 , x 5 }} IND( {Đau đầu, Đau cơ}) = {{x 1 , x 4 , x 6 }, {x 2 , x 5 }, {x 3 }} 1.1.3 Tập thô Trong lý thuyết tập thô, để biểu diễn một tập hợp bằng tri thức được cho xác định bởi một tập thuộc tính, người ta định nghĩa hai phép xấp xỉ: Cho một hệ thống thông tin S = (U, A), với mỗi tập con X ⊆ U và B ⊆ A, ký hiệu R = IND(B), ta có 2 tập con sau: lần lượt được gọi là R-xấp xỉ dưới và R-xấp xỉ trên của tập X. Tập bao gồm tất cả các phần tử của U chắc chắn thuộc vào X. Tập bao gồm các phần tử của U có khả năng phân loại vào những phần tử thuộc X ứng với quan hệ R. Từ hai tập xấp xỉ, người ta định nghĩa các tập sau: : B-miền biên của X. : B-vùng dương của X. : B-vùng âm của X. Ký hiệu tập thương của IND(B) trên U là U/B, các xấp xỉ trên và dưới của X có thể viết lại: Trong trường hợp BN B (X) ≠ ∅, X được gọi là tập thô, ngược lại X được gọi là tập rõ. Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm Đối với một hệ thông tin S = (U,A), B, D ⊆ A, ký hiệu R = IND(B), người ta gọi B-miền dương của D là tập được xác định như sau: Rõ ràng, là tập tất cả các đối tượng u sao cho ∀v∈U mà u(B) = v(B) ta đều có u(D) = v(D). Nói cách khác, = {u∈U | [u] B ⊆ [u] D }. 1.1.4 Các tính chất của xấp xỉ Định lý: Cho một hệ thông tin S = (U, A), ∀X, Y ⊆ U và B ⊆ A, đặt R = IND(B). Khi đó: 1.1.5 Độ đo chính xác của xấp xỉ Cho một hệ thông tin S = (U, A), với mỗi tập con X ⊆ U và B ⊆ A, đặt R=IND(B), đại lượng đo sự chính xác của tập xấp xỉ X đối với phân hoạch trên B là giá trị: Trong đó, Card(X) = |X| là lực lượng của tập X. Rõ ràng 0 ≤ ≤ 1, nếu ta nói là chính xác đối với R, còn ta nói là thô đối với R. 1.1.6 Bảng quyết định Bảng quyết định là một hệ thông tin có dạng T = (U, A), trong đó tập thuộc tính A được chia thành hai tập thuộc tính rời nhau C và D, C được gọi là tập thuộc tính điều kiện, còn D là tập thuộc tính quyết định. Tức là T = (U, C ∪ D), với C∩D = ∅. Ngoài ra, ta có thể ký hiệu T = (U, C, D). Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm Ví dụ: sử dụng lại Bảng 1-1: Bảng dữ liệu bệnh cúm là một bảng quyết định T=(U,C ∪ D). Trong đó: U = {x 1 , x 2 , x 3 , x 4 , x 5 , x 6 } A = {Đau đầu, Đau cơ, Nhiệt độ, Cúm} Tập thuộc tính điều kiện C = {Đau đầu, Đau cơ, Nhiệt độ} Tập thuộc tính quyết định D = {Cúm} Cho một bảng quyết định T = (U, C ∪ D), giả sử U/C = {X 1 , X 2 , …, X m } và U/D = {Y 1 , Y 2 , …, Y n }. Một lớp X i ∈ U/C được gọi là nhất quán nếu u(d) = v(d), ∀u,v ∈ X i , ∀d ∈ D. Một lớp Y j ∈ U/D được gọi là nhất quán ngược nếu u(a)=v(a), ∀u,v ∈ Y j , ∀a ∈ C. Một bảng quyết định T = (U, C ∪ D) là nhất quán nếu mọi lớp X i ∈ U/C là nhất quán, ngược lại T được gọi là không nhất quán. Dễ thấy, nếu U/C ≤ U/D thì T=(U, C ∪ D) là nhất quán.Tương tự, nếu U/D ≤ U/C thì T là nhất quán ngược. Ta có thể thấy, bảng quyết định là nhất quán khi và chỉ khi POS C (D) = U. Trong trường hợp bảng không nhất quán thì POS C (D) chính là tập con cực đại của U sao cho phụ thuộc hàm C→D đúng. 1.1.7 Rút gọn và nhân Xét một bảng quyết định T = (U, C ∪ D). Tập thuộc tính R ⊆ C được gọi là một rút gọn của C nếu POS R (D) = POS C (D). Nhân của tập thuộc tính điều kiện C, ký hiệu CORE(C) được định nghĩa: Ở đây, RED(C) là tập hợp tất cả rút gọn của C. Ngoài ra, người ta cũng định nghĩa rút gọn C-miền khẳng định dương của D: Nếu B ⊆ C thỏa POS B (D) = POS C (D) ∀a ∈ B, POS C (D) ≠ POS C-{a} (D) Thì B được gọi là rút gọn C-miền khẳng định dương của D Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm 1.1.8 Ma trận phân biệt được và hàm phân biệt được Xét bảng quyết định T = (U, C ∪ D), với U = {u 1 , u 2 , …, u n }. Ma trận phân biệt của T, ký hiệu là M(T) = (m ij ) nxn là một ma trận đối xứng, trong đó mỗi phần tử của nó là một tập thuộc tính được xác định như sau: Hàm phân biệt được f T là một hàm boole, được xác định từ ma trận phân biệt M(T) như sau: Trong đó, mỗi thuộc tính được đặt tương ứng một biến logic cùng tên và ∨ m ij là biểu thức tuyển của tất cả các biến c ∈ m ij , nếu m ij ≠ ∅ ∨ m ij = true, nếu m ij = ∅ và ∨ m ij = false, nếu m ij = ∅ và 1.1.9 Luật quyết định Cho một bảng quyết định T = (U, C ∪ D), giả sử U/C = {X 1 , X 2 , …, X m } và U/D= {Y 1 , Y 2 , …, Y n }. Nếu X i ∩ Y i ≠ ∅, ký hiệu des(X i ), des(Y j ) lần lượt là các mô tả của các lớp tương đương ứng với X i , Y j . Một luật quyết định xác định bởi X i , Y j có dạng: Độ đo chắc chắn và độ hỗ trợ của luật quyết định Z ij được định nghĩa như sau: Dễ nhận thấy rằng, giá trị của của luật quyết định Z ij rơi vào đoạn . 1.1.10 Phụ thuộc độ k Cho hệ thông tin S = (U, A), X, Y ⊆ A. Ta nói rằng, tập thuộc tính Y phụ thuộc độ k ∈[0,1] vào tập thuộc tính X, ký hiệu với k được xác định như sau: Dễ thấy rằng, phụ thuộc độ k là sự tổng quát hóa của phụ thuộc hàm và là phụ thuộc hàm đã biết trong cơ sở dữ liệu quan hệ. Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm 1.2 Phủ tập thô 1.2.1 Định nghĩa các loại phủ và không gian xấp xỉ phủ 1.2.1.1 Định nghĩa “phủ” Cho U là một tập phổ dụng, ζ là họ các tập con khác rỗng của U, khi ∪ζ = U, ζ được gọi là một phủ của U. Từ định nghĩa trên, ta suy ra một phân hoạch của U là một phủ của U. Vì vậy, khái niệm phủ là mở rộng của khái niệm phân hoạch. 1.2.1.2 Định nghĩa “không gian xấp xỉ phủ” Cho U là một tập phổ dụng, ζ là 1 phủ của U. Cặp thứ tự (U, ζ) được gọi là một không gian xấp xỉ phủ (CAS). 1.2.1.3 Định nghĩa “mô tả tối tiểu” Cho một không gian xấp xỉ phủ (U, ζ), họ các tập hợp được xác định bởi x∈ U: Md(x) = {K∈ζ | x∈K ∧ (∀S∈ζ ∧ x∈S ∧ S⊆K ⇒K=S)} được gọi là mô tả tối thiểu của x. 1.2.1.4 Định nghĩa “phủ nửa thu gọn” Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là (phủ) nửa thu gọn hay nửa không dư thừa nếu nó thỏa điều kiện sau: 1.2.1.5 Định nghĩa “phủ đơn vị” Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là phủ đơn vị nếu ∀x∈U,| Md(x)| = 1. 1.2.1.6 Định nghĩa “phủ tựa điểm” Cho một không gian xấp xỉ phủ (U, ζ), ζ được gọi là phủ tựa điểm nếu ∀K∈ζ và x∈K thì K ⊆ ∪Md(x). [...]... trong quá trình khám phá luật dựa trên tập thô Từ một số cơ sở lý thuyết: khái niệm về mẫu và luật, quá trình phát hiện mẫu và luật theo tiếp cận tập thô, nhóm đã đưa ra được mối liên hệ giữa mẫu và luật để từ đó thấy được luật trong bảng quyết định là một trường hợp đặc biệt của mẫu Tìm hiểu các phương pháp đánh giá tập luật dựa trên độ đo thông qua tập thô Lĩnh vực khám phá tri thức đã và đang được... Toán khoa học máy tính GVHD: TS Dương Tôn Đảm KẾT LUẬN Lý thuyết tập thô ngày càng được nhiều người quan tâm nghiên cứu, phát triển về mặt lý thuyết cũng như ứng dụng Chính vì thế, trong bài thu hoạch này, nhóm đã tập trung nghiên cứu về lý thuyết này đồng thời vận dụng trong việc tìm luật kết hợp để khai phá dữ liệu Bài thu hoạch đã đạt được những kết quả sau: Trình bày lý thuyết cơ bản về tập thô. .. nghiệp tiên tiến và là một trong những nội dung trọng tâm của công nghệ tri thức Việc tiếp cận tập thô trong lĩnh vực này có vẻ rất hiệu quả Vì vậy, hướng phát triển trong thời gian sắp tới của nhóm như sau: Tìm hiểu về công cụ hỗ trợ tìm luật kết hợp dựa trên tập thô để từ đó có thể làm một ứng dụng thực tế Tiếp tục tìm hiểu các độ đo khác kết hợp giữa độ đo chủ quan và khách quan để đưa ra các kỹ... đánh giá luật tốt hơn trong ứng dụng cụ thể Toán khoa học máy tính GVHD: TS Dương Tôn Đảm TÀI LIỆU THAM KHẢO [1] Phủ tập thô và độ đo đánh giá hiệu năng tập luật quyết định Tác giả: Nguyễn Đức Thuần [2] Đánh giá luật dựa trên tập thô Tác giả: Nguyễn Thị Ly Sa [3] Ứng dụng lý thuyết tập thô trong khai phá dữ liệu Tác giả: Nguyễn Văn Chức [4] Một số vấn đề về không gian xấp xỉ, tập thô đối với hệ thông... một tập các luật trong trường hợp tập luật đó không chứa kết quả Mẫu là kết quả của việc tính toán trên tập rút gọn khi người ta không quan tâm đến thuộc tính quyết định Luật quyết định phản ánh một quan hệ hay một xác suất có thể giữa tập thuộc tính điều kiện và tập thuộc tính quyết định Với mẫu người ta sử dụng các độ đo là độ phù hợp fitness S(T) biểu thị số đối tượng trong tập tổng thể phù hợp. .. luật nào từ tập luật phát hiện được Càng nhiều các rút gọn, càng dễ phân biệt được tầm quan trọng của các luật kết hợp Các luật có tất cả các thuộc tính vế trái thuộc lõi đều có độ đo RIM = 100%, điều này hoàn toàn hợp lý vì các thuộc tính lõi là các thuộc tính quan trọng nhất Độ đo RIM khá đơn giản và tính toán dễ dàng, cung cấp một cái nhìn rõ ràng và trực diện về sự quan trọng của một luật kết hợp. .. quyết định gốc, trong đó các luật thuộc lõi của bảng quyết định mới chính là các luật lõi – luật quan trọng nhất 2.4.2.4 So sánh độ đo RIM và độ đo RAM Cả hai độ đo đều được ứng dụng để đánh giá luật dựa vào lý thuyết tập thô (cụ thể là dựa trên các rút gọn và lõi) Cả hai thuộc loại độ đo khách quan Toán khoa học máy tính GVHD: TS Dương Tôn Đảm Đầu ra của độ đo RIM là tập các luật được sắp xếp theo thứ... trực tiếp trong quá trình phát sinh luật Giai đoạn đầu là phát sinh trực tiếp từ dữ liệu gốc, sau đó tiến hành xây dựng lại bảng quyết định mới tương ứng với tập luật bằng cách xem mỗi luật phát hiện được như là một thuộc tính điều kiện và thuộc tính quyết định trong bảng quyết định mới là thuộc tính quyết định trong bảng quyết định gốc Với ý nghĩa của rút gọn trong lý thuyết tập thô, rút gọn là tập. .. các tập luật Có thể tổng quát hóa công thức về độ đo RIM như sau: Toán khoa học máy tính GVHD: TS Dương Tôn Đảm Trong đó n là số lượng các rút gọn, RIM i là tầm quan trọng của luật rulei, rulesetj là tập luật thứ j phát sinh từ rút gọn thứ j và RuleSets là các tập luật phát sinh từ các rút gọn Nhận xét về độ đo RIM Độ đo tầm quan trọng luật đã phân biệt được các luật với nhau bằng cách chỉ ra luật. .. điều kiện và bao phủ số các trường hợp giống nhau Mối liên hệ giữa mẫu và luật theo hướng tiếp cận tập thô Trong quá trình khám phá tri thức, một trong những mục tiêu chính của việc phân tích dữ liệu theo hướng tiếp cận tập thô là tìm ra những mẫu hay từ dữ liệu (các dữ liệu này được biểu diễn dưới dạng hệ thông tin hay bảng quyết định) Như vậy, luật quyết định là một kiểu đặc biệt của mẫu Một tập các . TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN PHÒNG ĐÀO TẠO SĐH-KHCN&QHĐN BÀI THU HOẠCH MÔN TOÁN KHOA HỌC MÁY TÍNH TÌM HIỂU LÝ THUYẾT TẬP THÔ VÀ TIẾP CẬN TẬP THÔ ĐỂ KHÁM PHÁ LUẬT KẾT HỢP HỌC VIÊN:. chính: Tìm hiểu về lý thuyết tập thô. Vận dụng tập thô trong việc khám phá luật kết hợp. Đánh giá các luật dựa vào các độ đo. Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm 1 LÝ THUYẾT TẬP THÔ 1.1. hữu hạn của các tập thuộc σ là một cơ sở của τ: Toán khoa học máy tính GVHD: TS. Dương Tôn Đảm 2 KHÁM PHÁ TRI THỨC TIẾP CẬN TẬP THÔ 2.1 Khám phá luật trong bảng quyết định 2.1.1 Luật trong bảng