Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
1,35 MB
Nội dung
Đại Học Quốc Gia TP.HCM Trường Đại Học Công Nghệ Thông Tin BÁO CÁO MÔN HỌC Khai phá dữ liệu và kho dữ liệu ĐỀ TÀI: Ứng dụng tập thô để tìm xấp xỉ tập hợp, rút gọn thuộc tính và độ phụ thuộc tính GVHD: PGS.TS. Đỗ Phúc Người thực hiện: Trần Duy Hùng Mã số: CH1001105 Lớp: Cao học khóa 5 TP.HCM – 10/2012 Báo cáo môn Cơ sở dữ liệu nâng cao MỤC LỤC MỤC LỤC 1 DANH MỤC HÌNH ẢNH 2 LỜI MỞ ĐẦU 3 Phần I. Giới thiệu về Tập thô 4 Phần II. Chương trình ứng dụng tập thô tìm xấp xỉ tập hợp và rút gọn thuộc tính11 KẾT LUẬN 17 TÀI LIỆU THAM KHẢO 18 HVTH: Trần Duy Hùng – CH1001105 Trang 1/20 Báo cáo môn Cơ sở dữ liệu nâng cao DANH MỤC HÌNH ẢNH Hình I.1. Bảng hệ thống thông tin 4 Hình I.2. Bảng quyết định 5 Hình II.1. Giao diện khởi động chương trình 11 Hình II.2. Tạo bảng dữ liệu quyết định 12 Hình II.3. Chọn tập tin dữ liệu để xử lý 12 Hình II.4. Bảng dữ liệu quyết định sau khi chọn tập tin 13 Hình II.5. Kết quả tính MTPB, hàm PB và rút gọn thuộc tính 13 Hình II.6. Tính xấp xỉ tập hợp 14 Hình II.7. Tính xấp xỉ tập hợp 14 Hình II.8. Giao diện tính độ phụ thuộc thuộc tính 15 Hình II.9. Kết quả tính độ phụ thuộc thuộc tính P => k Q 16 HVTH: Trần Duy Hùng – CH1001105 Trang 2/20 Báo cáo môn Cơ sở dữ liệu nâng cao LỜI MỞ ĐẦU Dữ liệu ngày càng lớn, cơ sở dữ liệu ngày càng được tích hợp thành các cơ sở dữ liệu lớn; sự phụ thuộc của kinh tế, xã hội vào hệ thống thông tin ngày càng cao; sự tích hợp mang tính đa ngành, đa lĩnh vực con người luôn mong muốn tìm kiếm được tri thức mang tính chất trực quan, dễ hiểu, dễ vận dụng nhất từ những cái phức tạp đó. Trong những năm gần đây, khám phá tri thức được xem là một hướng tiếp cận tốt cho việc giải quyết các bài toán nêu trên, khám phá tri thức luôn thu hút nhiều nhà nghiên cứu vận dụng các phương pháp khác nhau nhằm đạt kết quả cao nhất với chi phí thời gian thấp nhất. Tập thô được xem là phương pháp tiếp cận có cơ sở toán học vững chắc cho việc thực hiện khám phá tri thức. Lý thuyết tập thô tỏ ra rất hiệu quả để hoàn thiện quá trình khai phá dữ liệu. Trong lý thuyết tập thô, dữ liệu được biễu diễn thông qua hệ thông tin hay bảng quyết định và chất lượng của thông tin được đo bằng cách sử dụng khái niệm xấp xỉ trên, xấp xỉ dưới. Từ những bảng dữ liệu lớn và dữ liệu thừa, không hoàn hảo, dữ liệu liên tục hay dữ liệu ở dạng ký hiệu, lý thuyết tập thô cho phép khám phá tri thức từ những loại dữ liệu như vậy nhằm phát hiện các quy luật từ khối dữ liệu này. Bài thu hoạch của em thực hiện việc vận dụng lý thuyết của tập thô để khám phá tri thức để tìm ra các thuộc tính cần thiết nhất, đáng quan tâm nhất từ một tập hợp rất nhiều thuộc tính trong dữ liệu, đồng thời phát hiện mức độ phụ thuộc giữa các thuộc tính đó. Dù đã có nhiều cố gắng tìm tòi tài liệu nhưng do vấn đề thời gian và kiến thức nên trong bài thu hoạch chắc chắn sẽ còn có những điều thiếu sót. Em kính mong nhận được sự thông cảm cũng như những nội dung góp ý từ Thầy. Xin chân thành cảm ơn Thầy! Học viên thực hiện Trần Duy Hùng HVTH: Trần Duy Hùng – CH1001105 Trang 3/20 Báo cáo môn Cơ sở dữ liệu nâng cao Phần I. Giới thiệu về Tập thô I. Lý thuyết Tập thô 1. Hệ thống thông tin: Một hệ thống thông tin là một biểu diễn của tập hợp dữ liệu đo lường các hiện tượng vật lý như: giọng nói, văn bản, chuổi ảnh, các tín hiệu xử lý trong công nghiệp, v.v Một hệ thống thông tin bao gồm bốn thành phần: S = <U,Q,V,f> Trong đó: - S: là hệ thống thông tin - U: là tập vũ trụ đóng, tập xác định N đối tượng {x 1 ,x 2 , x 3 , ,x N }, U không là tập rỗng. - Q: là tập xác định n thuộc tính {q 1 ,q 2 , q 3 , ,q N }, Q không là tập rỗng. - V = U q ∈ Q V q , trong đó V q là miền giá trị của thuộc tính q. - f: UV V là tập các hàm quyết định hay còn gọi là hàm biểu diễn thông tin sao cho f(x,q) ∈ V q với mọi q ∈ Q, x ∈ U. Các dòng trong bảng thông tin được gọi là các thực thể hay là các đối tượng. Dưới đây là một bảng thông tin đơn giản với U = {x1, x2, x3, x4, x5, x6, x7, x8} và Q = {Account, Balance, Employed, Monthly going}. ACCOUNT BALANCE EMPLOYED MONTHLY GOING X1 Bank Medium Yes Low X2 Bank Low Yes High X3 None Low Yes Medium X4 Other High Yes High X5 Other Medium Yes High X6 Other High Yes Low X7 Bank High No Medium X8 None Low No Low Hình I.1. Bảng hệ thống thông tin 2. Bảng quyết định Bảng quyết định gồm cặp A = (U, A U {d}), trong đó: • U là tập hữu hạn các đối tượng khác rỗng. • A là tập các thuộc tính điều kiện. • D là tập các thuộc tính quyết định (A ∩ D = φ ). ACCOUNT BALANCE EMPLOYED MONTHLY GOING DECISION X1 Bank Medium Yes Low Accept X2 Bank Low Yes High Reject HVTH: Trần Duy Hùng – CH1001105 Trang 4/20 Báo cáo môn Cơ sở dữ liệu nâng cao X3 None Low Yes Medium Reject X4 Other High Yes High Accept X5 Other Medium Yes High Reject X6 Other High Yes Low Accept X7 Bank High No Medium Accept X8 None Low No Low Reject Hình I.2. Bảng quyết định 3. Quan hệ bất khả phân biệt Gọi S = <U,Q,V,f> là một hệ thống thông tin, A ⊆ Q là tập con của tập thuộc tính Q; x,y ∈ U là các đối tượng trong hệ thống thông tin S. Hai đối tượng x và y được gọi là có quan hệ tương đương trên tập thuộc tính A trong S nếu như: f(x,a) = f(y,a) mọi a ∈A. Ký hiệu: x ___ A y: x quan hệ tương đương với y trên tập thuộc tính A. Một quan hệ tương đương R ⊆ X Y thỏa 3 điều kiện sau. • Phản xạ (xRx) • Đối xứng (Nếu xRy thì yRx) • Bắc cầu (Nếu xRy và yRz thì xRz) Lớp tương đương của x ∈ X bao gồm tất cả y ∈ X sao cho xRy Cho A = {U,A} là bảng thông tin và B ⊆ A , ta có quan hệ tương đương INDA (B) = {(x,x’) ∈ U 2 | ∀a ∈ B, a(x) = a(x’)} IND A (B) được gọi là quan hệ bất khả phân biệt B. Nếu (x,x’) ∈ IND A (B) thì đối tượng x và x’ là bất khả phân biệt với nhau bởi thuộc tính B. Lớp tương đương của quan hệ bất khả phân biệt B được kí hiệu là [x] B . Tìm lớp tương đương của các tập thuộc tính từ hệ thông tin +IND{MONTHLY OUTGOING}: {X1,X6,X8} {X2,X4,X5} {X3,X7} +IND{EMPLOYED}: {X1,X2,X3,X4,X5,X6} {X7,X8} +IND{EMPLOYED,MONTHLY OUTGOING}: {X1,X6} {X2,X4,X5} {X3} {X7} {X8} +IND{BALANCE}: {X1,X5} {X2,X3,X8} {X4,X6,X7} +IND{BALANCE,MONTHLY OUTGOING}: {X1,X3,X8} {X2,X4,X6,X8} {X5,X7} +IND{BALANCE, EMPLOYED}: {X1,X5} {X2,X3} {X4,X6} {X7} {X8} +IND{BALANCE, EMPLOYED, MONTHLY OUTGOING}: {X1,X3} {X2,X4,X6} {X5} {X7} {X8} +IND{ACCOUNT}: {X1,X2,X7} {X3,X8} {X4,X5,X6} +IND{ACCOUNT,MONTHLY OUTGOING}: {X1} {X2} {X3} {X4,X5} {X6} {X7} {X8} +IND{ACCOUNT,EMPLOYED}: {X1,X2} {X3} {X4,X5,X6} {X7} {X8} HVTH: Trần Duy Hùng – CH1001105 Trang 5/20 Báo cáo môn Cơ sở dữ liệu nâng cao +IND{ACCOUNT,EMPLOYED,MONTHLY OUTGOING}: {X1} {X2} {X3} {X4,X5} {X6} {X7} {X8} +IND{ACCOUNT,BALANCE}: {X1} {X2} {X3,X8} {X4,X6} {X5} {X7} +IND{ACCOUNT,BALANCE,MONTHLY OUTGOING}: {X1} {X2} {X3,X8} {X4} {X5} {X6} {X7} +IND{ACCOUNT,BALANCE,EMPLOYED}: {X1} {X2} {X3} {X4,X6} {X5} {X7} {X8} +IND{ACCOUNT,BALANCE,EMPLOYED,MONTHLY OUTGOING}: {X1} {X2} {X3} {X4} {X5} {X6} {X7} {X8} 4. Xấp xỉ tập hợp Gọi T = (U , A) là bảng thông tin và B ⊆ A và X ⊆ U. Ta có thể xấp xỉ X dùng các thông tin chứa trong B bằng cách tạo các xấp xỉ B dưới và B trên của X, kí hiệu lần lượt là BX và ___ B X với: BX = {x/ [x] B ∈ X } ___ B X = {x/ [x] B ∩ X ≠ φ } Xấp xỉ dưới (BX) luôn là tập con của xấp xỉ trên ( ___ B X). Đối tượng trong B(X) chắc chắn được phân lớp là thành viên của X theo tri thức cơ sở từ tập B, tập B(X) còn gọi là tập chắc chắn, trong khi đối tượng trong ___ B X chỉ có khả năng được phân lớp là thành viên của X theo tri thức cơ sở trong B, tập ___ B X được gọi là tập khả năng. Tập BN B (X) = ___ B X / BX được gọi là B - vùng biên của X. Tập U \ ___ B X được gọi là vùng B - vùng ngoài của X bao gồm các đối tượng chắc chắn không thuộc X. Một tập được gọi là thô hoàn toàn nếu vùng biên của nó khác rỗng. Tìm xấp xỉ trên và xấp xỉ dưới của từ hệ thông tin trên + B{MONTHLY OUTGOING} có các lớp tương đương: {{X1,X6,X8,} {X2,X4,X5,} {X3,X7,} - B lower = {} - B upper = {X1,X6,X8,X2,X4,X5,X3,X7,} + B{EMPLOYED} có các lớp tương đương: {{X1,X2,X3,X4,X5,X6,} {X7,X8,} - B lower = {} - B upper = {X1,X2,X3,X4,X5,X6,X7,X8,} + B{EMPLOYED,MONTHLY OUTGOING} có các lớp tương đương: {{X1,X6,} {X2,X4,X5,} {X3,} {X7,} {X8,} - B lower = {X1,X6,X7,} - B upper = {X1,X6,X2,X4,X5,X7,} HVTH: Trần Duy Hùng – CH1001105 Trang 6/20 Báo cáo môn Cơ sở dữ liệu nâng cao + B{BALANCE} có các lớp tương đương: {{X1,X5,} {X2,X3,X8,} {X4,X6,X7,} - B lower = {X4,X6,X7,} - B upper = {X1,X5,X4,X6,X7,} + B{BALANCE,MONTHLY OUTGOING} có các lớp tương đương: {{X1,X3,X8,} {X2,X4,X6,X8,} {X5,X7,} - B lower = {} - B upper = {X1,X3,X8,X2,X4,X6,X8,X5,X7,} + B{BALANCE,EMPLOYED} có các lớp tương đương: {{X1,X5,} {X2,X3,} {X4,X6,} {X7,} {X8,} - B lower = {X4,X6,X7,} - B upper = {X1,X5,X4,X6,X7,} + B{BALANCE,EMPLOYED,MONTHLY OUTGOING} có các lớp tương đương: {{X1,X3,} {X2,X4,X6,} {X5,} {X7,} {X8,} - B lower = {X7,} - B upper = {X1,X3,X2,X4,X6,X7,} + B{ACCOUNT} có các lớp tương đương: {{X1,X2,X7,} {X3,X8,} {X4,X5,X6,} - B lower = {} - B upper = {X1,X2,X7,X4,X5,X6,} + B{ACCOUNT,MONTHLY OUTGOING} có các lớp tương đương: {{X1,} {X2,} {X3,} {X4,X5,} {X6,} {X7,} {X8,} - B lower = {X1,X6,X7,} - B upper = {X1,X4,X5,X6,X7,} + B{ACCOUNT,EMPLOYED} có các lớp tương đương: {{X1,X2,} {X3,} {X4,X5,X6,} {X7,} {X8,} - B lower = {X7,} - B upper = {X1,X2,X4,X5,X6,X7,} + B{ACCOUNT,EMPLOYED,MONTHLY OUTGOING} có các lớp tương đương: {{X1,} {X2,} {X3,} {X4,X5,} {X6,} {X7,} {X8,} - B lower = {X1,X6,X7,} - B upper = {X1,X4,X5,X6,X7,} + B{ACCOUNT,BALANCE} có các lớp tương đương: {{X1,} {X2,} {X3,X8,} {X4,X6,} {X5,} {X7,} - B lower = {X1,X4,X6,X7,} - B upper = {X1,X4,X6,X7,} + B{ACCOUNT,BALANCE,MONTHLY OUTGOING} có các lớp tương đương: {{X1,} {X2,} {X3,X8,} {X4,} {X5,} {X6,} {X7,} HVTH: Trần Duy Hùng – CH1001105 Trang 7/20 Báo cáo môn Cơ sở dữ liệu nâng cao - B lower = {X1,X4,X6,X7,} - B upper = {X1,X4,X6,X7,} + B{ACCOUNT,BALANCE,EMPLOYED} có các lớp tương đương: {{X1,} {X2,} {X3,} {X4,X6,} {X5,} {X7,} {X8,} - B lower = {X1,X4,X6,X7,} - B upper = {X1,X4,X6,X7,} + B{ACCOUNT,BALANCE,EMPLOYED,MONTHLY OUTGOING} có các lớp tương đương: {{X1,} {X2,} {X3,} {X4,} {X5,} {X6,} {X7,} {X8,} - B lower = {X1,X4,X6,X7,} - B upper = {X1,X4,X6,X7,} 5. Độ chính xác của xấp xỉ tập hợp |)(| |)(| )( ___ XB XB X B −−− = α Với |X| là lực lượng của X ≠ 0 Ta thấy rõ ràng 0 ≤ α ≤ 1 Nếu α B (X) = 1, X là rõ so với B. Nếu α B (X) < 1, X là thô so với B. Ý nghĩa : nhờ độ chính xác của xấp xỉ, ta có thể đặc trưng được giá trị của thuộc tính quyết định bằng tập thuộc tính B tuy nhiên có thể có sai số. 6. Phụ thuộc thuộc tính trong hệ thông tin Giả sử D và C là các tập con của A, ta nói rằng D phụ thuộc vào C với mức k (k [0, ,1]) biểu thị C => k D nếu như: k= ),( Dc γ = || |)(| U DPos C , với Pos C (D) = DUx /∈ C(X) Được gọi là một C - vùng dương của phân hoạch U/D đối với C, là tập tất cả các phần tử của U mà có thể được phân loại duy nhất thành khối của phân hoạch U/D với các thành phần thuộc tính trong C. ),( Dc γ = DUx /∈ ∑ || |)(| U XC −−− Nếu k = 1 ta nói là D phụ thuộc hoàn toàn vào C và nếu k < 1, ta nói là D phụ thuộc một phần vào C. Hệ số k diễn tả tỷ lệ của các thành phần trong tập tổng thể, với sự phân loại thành khối của phân hoạch U/D, các thuộc tính sử dụng trong C gọi là mức phụ thuộc. 7. Tập thuộc tính rút gọn và tập thuộc tính lõi Reduct là tập nhỏ nhất trong tập các thuộc tính điều kiện nhưng có khả năng phân lớp như toàn bộ thuộc tính. Điều đó có nghĩa là: thay vì ta phải xét tất cả các thuộc tính HVTH: Trần Duy Hùng – CH1001105 Trang 8/20 Báo cáo môn Cơ sở dữ liệu nâng cao điều kiện để có thể rút ra được quyết định, thì ta chỉ xét các thuộc tính điều kiện đặc trưng nhất mà không làm ảnh hưởng gì đến quyết định cuối cùng. Điều này làm giảm khối lượng xem xét thuộc tính điều kiện và ta sẽ phát hiện ra các thuộc tính điều kiện dư thừa. 7.1. Ma trận phân biệt Cho T = (U,C,D) là bảng quyết định với U là các đối tượng trong bảng Ma trận bất khả phân biệt của T được kí hiệu là M(T) là ma trận đối xứng nn với các phần tử M ij được định nghĩa như sau: =∈∀ ≠∈∃≠∈ = )]()([ )]()([)}()(:{ ji jiji ududDdif ududDdifucucCc Mij λ Với i,j = 1,2,…,n sao cho u i hay u j thuộc về vùng C-dương của D M ij là tập tât cả thuộc tính điều kiện để phân lớp các đối tượng u i và u j vào các lớp khác nhau. Tạo ma trận phân biệt từ hệ thông tin X1 X2 X3 X4 X5 X6 X7 X2 Y2,Y4 X3 Y1 Y2 Y4 λ X4 λ Y1 Y2 Y1 Y2 Y4 X5 Y1 Y4 λ λ Y2 X6 λ Y1 Y2 Y4 Y1 Y2 Y4 λ Y2 Y4 X7 λ Y2 Y3 Y4 Y1 Y2 Y3 λ Y1 Y2 Y3 Y4 λ X8 Y1 Y2 Y3 λ λ Y1 Y2 Y3 Y4 λ Y1 Y2 Y3 Y1 Y2 Y4 Y1 = ''ACCOUNT'' Y2 = ''BALANCE'' Y3 = ''EMPLOYED'' Y4 = ''MONTHLY OUTGOING'' 7.2. Hàm phân biệt Hàm phân biệt f T cho một hệ thông tin T là một hàm boole của m biến logic u * 1 , u * 2 , u * m (tương ứng với các thuộc tính u 1 , u 2 , u m ) được xác định như sau với m ij = {u * \u ∈m ij } f T (u * 1 , u * 2 , u * m ) = ∧ {∨ m ij | 1 ≤ j ≤ i ≤ n, m ij ≠ φ } với: - ∨ m ij = (false), nếu m ij ≠ φ HVTH: Trần Duy Hùng – CH1001105 Trang 9/20 [...]... khung "Các thuộc tính điều kiện" Ta chọn thuộc tính cho tập con P và tập con Q - Tập con P là tập con thuộc tính cơ sở Tập con Q là tập con thuộc tính cần tính độ phụ thuộc vào P Để tính được độ phụ thuộc thuộc tính P=> kQ Em áp dụng công thức tính sau: k = γ P (Q) = ∑ N 1 | P Qi | −−− |U | (với Qi là các phân hoạch trong lớp tương đương của tập con Q) Hình II.8 Giao diện tính độ phụ thuộc thuộc tính -... trình để trực quan hóa từng bước trong nội dung lý thuyết tập thô (tìm MT và hàm phân biệt, rút gọn thuộc tính, tính xấp xỉ tập hợp, tính độ phụ thuộc thuộc tính) + Tìm hiểu tổng quát mối quan hệ giữa lý thuyết tập mờ và lý thuyết tập thô Hàm thuộc thô được xem như là một kiểu đặc biệt của hàm thuộc mờ Mối quan hệ giữa những hàm thuộc mờ và những hàm thuộc thô, giữa lõi và giá của lý thuyết tập mờ và xấp. .. trị của thuộc tính quyết định trong combo box, sau đó nhấp vào "TÍNH XẤP XỈ TẬP HỢP" Hình II.6 Tính xấp xỉ tập hợp Hình II.7 Tính xấp xỉ tập hợp 3 Tính toán và diễn giải độ phụ thuộc thuộc tính - Để thực hiện tính độ phụ thuộc thuộc tính, ta chọn sang tab "Phụ thuộc thuộc tính" HVTH: Trần Duy Hùng – CH1001105 Trang 14/20 Báo cáo môn Cơ sở dữ liệu nâng cao - Tại đây, sẽ xuất hiện danh sách thuộc tính điều... chọn nút "Tính độ phụ thuộc thuộc tính" , kết quả của việc tính toán sẽ xuất hiện trong khung "Tính độ phụ thuộc thuộc tính P==>Q" Trong ví dụ này, em tính kết quả độ phụ thuộc thuộc tính của thuộc tính "MONTHLY OUTGOING" so với tập con thuộc tính "ACCOUNT" và "BALANCE" HVTH: Trần Duy Hùng – CH1001105 Trang 15/20 Báo cáo môn Cơ sở dữ liệu nâng cao Hình II.9 Kết quả tính độ phụ thuộc thuộc tính P =>kQ... trình ứng dụng tập thô tìm xấp xỉ tập hợp và rút gọn thuộc tính II Giới thiệu chương trình Hình II.1 Giao diện khởi động chương trình Trong đó bao gồm các chức năng: - Tạo mới bảng dữ liệu: cho phép nhập tay để khởi tạo bảng dữ liệu - Mở tập tin dữ liệu - Xử lý tính toán ma trận phân biệt, hàm phân biệt, rút gọn thuộc tính và tính xấp xỉ tập hợp 1 Tính toán ma trận phân biệt, hàm phân biệt và rút gọn. .. Hình II.4 Bảng dữ liệu quyết định sau khi chọn tập tin Tính toán Ma trận phân biệt, hàm phân biệt và rút gọn thuộc tính - Sau khi chọn tập tin hoặc tạo mới bảng dữ liệu, ta chọn nút "XỬ LÝ" Hình II.5 Kết quả tính MT phân biệt, hàm phân biệt và rút gọn thuộc tính 2 Tính toán và diễn giải xấp xỉ tập hợp - Để tính toán xấp xỉ tập hợp, ta chọn sang tab "Xấp xỉ tập hợp" HVTH: Trần Duy Hùng – CH1001105 Trang... trình và hướng phát triển 1 Ưu điểm chương trình - Trực quan, dễ theo dõi với các tab chức năng phân biệt - Chạy tốt với tập dữ liệu có số lượng record vừa phải cỡ 150 record, tốc độ thực hiện chấp nhận được Cho đến hiện tại vẫn chưa phát hiện lỗi chương trình - Tìm được kết quả của những nội dung quan trọng trong Tập thô (MT phân biệt, hàm phân biệt, rút gọn thuộc tính, xấp xỉ tập hợp với độ xấp xỉ lớn... Lý thuyết tập thô tỏ ra rất hiệu quả và đầy đủ để hoàn thiện quá trình khám phá tri thức, các khái niệm về ma trận khả phân, quan hệ tương đương và rút gọn là các khái niệm rất thích hợp trong khai phá dữ liệu Tập thô tạo nên cơ sở toán học vững chắc để áp dụng vào khai phá dữ liệu Thông qua bài tiểu luận, em đã đạt được những mục tiêu sau: + Hiểu rõ các vấn đề quan trọng trong lý thuyết tập thô + Xây... độ phụ thuộc thuộc tính) 2 Khuyết điểm - Chương trình xử lý chậm với các bảng dữ liệu với số lượng record lớn 3 Hướng phát triển - Tìm phương pháp cải tiến về thuật toán để có thể xử lý các tập tin dữ liệu có số lượng dòng lớn Việc cải tiến này hết sức cần thiết để có thể thích hợp áp dụng vào các cơ sở dữ liệu thực tế - Cải tiến chương trình để làm việc với tập dữ liệu không hoàn chỉnh Thông qua độ. .. Tính toán ma trận phân biệt, hàm phân biệt và rút gọn thuộc tính a Trường hợp tự tạo mới bảng dữ liệu - Nhấp chọn nút "TẠO MỚI" - Nhập vào Danh sách thuộc tính (mỗi tên thuộc tính nằm trên một dòng riêng biệt) và nhập tên thuộc tính quyết định - Nhấp chọn "LƯU" để chương trình ghi tên cột vào Bảng dữ liệu quyết định - Sau đó nhập từng dòng dữ liệu vào bảng HVTH: Trần Duy Hùng – CH1001105 Trang 11/20 . TP.HCM Trường Đại Học Công Nghệ Thông Tin BÁO CÁO MÔN HỌC Khai phá dữ liệu và kho dữ liệu ĐỀ TÀI: Ứng dụng tập thô để tìm xấp xỉ tập hợp, rút gọn thuộc tính và độ phụ thuộc tính GVHD: PGS.TS. Đỗ Phúc Người. chọn tập tin 13 Hình II.5. Kết quả tính MTPB, hàm PB và rút gọn thuộc tính 13 Hình II.6. Tính xấp xỉ tập hợp 14 Hình II.7. Tính xấp xỉ tập hợp 14 Hình II.8. Giao diện tính độ phụ thuộc thuộc tính. của thuộc tính quyết định trong combo box, sau đó nhấp vào "TÍNH XẤP XỈ TẬP HỢP" Hình II.6. Tính xấp xỉ tập hợp Hình II.7. Tính xấp xỉ tập hợp 3. Tính toán và diễn giải độ phụ thuộc thuộc