Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
246,33 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MINH HUY LUẬN VĂN THẠC SĨ Hà Nội – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MINH HUY PHỤ THUỘC HÀM XẤP XỈ VÀ ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC : GS.TS Vũ Đức Thi Hà Nội – 2011 MỤC LỤC Lời cam đoan Mục lục Danh mục từ viết tắt Danh mục bảng biểu Danh mục phụ lục MỞ ĐẦU Chƣơng - Phụ thuộc hàm phụ thuộc hàm xấp xỉ 1.1Khai phá liệu 1.2Phụ thuộc hàm 1.3Phụ thuộc hàm xấp xỉ Chƣơng - Xây dựng định 2.1Đặt vấn đề 2.2Bảng định 2.2.2 Bảng định 2.3Cây định 2.4Ảnh hưởng phụ thuộc hàm định Chƣơng - Thử nghiệm đánh giá 3.1Thuật toán TANE 3.2Thuật toán AFDMCEC KẾT LUẬN TÀI LIỆU THAM KHẢO PHỤ LỤC a) Giao diện chương trình b) Thủ tục tính phụ thuộc hàm xấp xỉ c) Thủ tục phân hoạch „ DANH MỤC CÁC CHỮ VIẾT TẮT CSDL FDs AFDs AFDMCEC DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Quy trình phát tri thức Bảng 1.2 Bảng sở liệu quan hệ Bảng 1.3 Cây khai phá AFDs(ví dụ với thuộc tính) Bảng 1.4 Bảng sở liệu quan hệ số Bảng 1.5 Bảng sở liệu kiểm tốn(ví dụ tháng) Bảng 2.1 Bảng liệu đồ chơi Bảng 2.2 Bảng triệu chứng bệnh nhân Bảng 2.3 Bảng định cúm Bảng 2.4 Bảng rút gọn thứ bảng định cúm Bảng 2.5 Bảng rút gọn thứ hai bảng định cúm Bảng 2.6 Bảng chọn ứng cử viên vào ngạch giảng dạy Bảng 2.7 Bảng liệu điều tra khách hàng mua ôtô Bảng 2.8 Cây định bước thuộc tính phụ cấp Bảng 2.9 Cây định bước MỞ ĐẦU Cơ sở liệu (CSDL) lĩnh vực tập trung nghiên cứu phát triển công nghệ thông tin, nhằm giải tốn quản lý, tìm kiếm thông tin hệ thống lớn, đa dạng, phức tạp cho nhiều người sử dụng máy tính điện tử Mơ hình liệu quan hệ đặt trọng điểm hàng đầu khác thác tiềm máy mà mô tả trực quan liệu theo quan điểm người dùng, cung cấp mơ hình liệu đơn giản, sáng, chặt chẽ, dễ hiểu tạo khả tự động hoá thiết kế CSDL quan hệ Có thể nói lý thuyết thiết kế cài đặt CSDL, mơ hình liệu quan hệ phát triển mức độ cao đạt kết sâu sắc Ngày việc khai phá liệu coi việc khai phá tri thức từ liệu (knowlegde mining from databases), trích lọc tri thức(knowlegde extraction), phân tích liệu mẫu (data-partent analysis), khảo cứu liệu(data archaeology), đào xới nạo vét liệu(data dredging) Với ngành khoa học, kinh tế - xã hội nơi có kho liệu khổng lồ việc tìm kiếm, truy xuất đưa thông tin cần thiết phù hợp với thời gian yêu cầu không dễ dàng hế hệ phương pháp tiếp cận, phương pháp nghiên cứu, kỹ thuật, cơng cụ cho phép phân tích, tổng hợp, khai phá tri thức từ liệu cách thông minh hiệu nhà khoa học quan tâm nghiên cứu Trong năm gần đây, việc tìm kiếm thuật toán cho phép khai phá phụ thuộc hàm xấp xỉ quan tâm nghiên cứu, hững thuật tốn TANE - thuật toán tương đối hiệu khai phá phụ thuộc hàm xấp xỉ CHƢƠNG 1: PHỤ THUỘC HÀM VÀ PHỤ THUỘC HÀM XẤP XỈ Khai phá liệu Phát tri thức khai phá liệu Phát tri thức sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu Cịn khai thác liệu bước qui trình phát tri thức gồm có thuật tốn khai thác liệu chuyên dùng số qui định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu Nói cách khác, mục đích phát tri thức khai phá liệu tìm mẫu và/hoặc mơ hình tồn sở liệu bị che khuất hàng núi liệu Qui trình phát tri thức Qui trình phát tri thức mơ tả tóm tắt : Bảng 1.1 Quy trình phát tri thức Bước thứ tìm hiểu lĩnh vực ứng dụng hình thành tốn, bước định cho việc rút tri thức hữu ích cho phép chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu Bước thứ hai thu thập xử lý thơ, cịn gọi tiền xử lý liệu nhằm loại bỏ nhiễu, xử lý việc thiếu liệu, biến đổi liệu rút gọn liệu cần thiết, bước thường chiếm nhiều thời gian tồn qui trình phát tri thức Bước thứ ba khai phá liệu, hay nói cách khác trích mẫu hoặc/và mơ hình ẩn liệu Bước thứ tư hiểu tri thức tìm được, đặc biệt làm sáng tỏ mô tả dự đốn Các bước lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực Các phƣơng pháp khai phá liệu Với hai đích khai phá liệu Dự đốn Mô tả , người ta thường sử dụng phương pháp sau cho khai phá liệu: -Phương pháp quy nạp -Phát luật kết hợp -Sử dụng định -Các phương pháp phân lớp hồi quy phi tuyến: -Phân nhóm phân đoạn -Các phương pháp dự mẫu -Mơ hình phụ thuộc dựa đồ thị xác suất -Mơ hình học quan hệ -Mạng neuron -Thuật giải di truyền 1.2 Phụ thuộc hàm 1.2.1 Định nghĩa Trong CSDL tồn nhiều mối liên hệ thuộc tính, bộ; liên hệ xảy quan hệ quan hệ lược đồ CSDL Các mối liên hệ điều kiện bất biến mà tất quan hệ có liên quan CSDL phải thoả mãn thời điểm Những điều kiện bất biến gọi buộc tồn vẹn Phụ thuộc hàm công cụ dùng để biểu diễn cách hình thức số buộc tồn vẹn Các phụ thuộc hàm tương quan thuộc tính quan hệ: Một phụ thuộc hàm giá trị thuộc tính xác định số thuộc tính khác Vấn đề phát phụ thuộc hàm từ quan hệ nhận mối quan tâm đáng kể Việc phân tích CSDL tự động, đương nhiên, thú vị cho mục tiêu khai phá tri thức khai phá liệu , phụ thuộc hàm có nhiều ứng dụng lĩnh vực quản lý CSDL, tối ưu hóa truy vấn… Một cách hình thức, phụ thuộc hàm lược đồ quan hệ R biểu diễn X A với X R A R.Phụ thuộc quan hệ r R cho trước với cặp hàng t,u R, ta có t[B] = u[B] B t[A] = u[A] (ta nói t u thoả X A) X Ví dụ : Ta có phụ thuộc hàm sau A B, A C, A D, A E,C B,C D, C E Phụ thuộc hàm X A tối thiểu r A không phụ thuộc hàm vào tập thực X Ví dụ Y Phụ thuộc hàm X A không thoả r với Y X A tầm thường A X 1.2.2 Hệ tiên đề Armstrong Gọi F tập tất phụ thuộc hàm lược đồ quan hệ r(U) X -> Y phụ thuộc hàm với X, Y U, ta nói X -> Y suy diễn logic từ F quan hệ r(U) thỏa mãn phụ thuộc hàm F thỏa X -> Y Sau tập quy tắc hệ tiên đề Armstrong đề xuất vào năm 1974, gọi hệ tiên đề Armstrong Hệ tiên đề Armstrong 35 Bảng 2.8: Cây định bước thuộc tính phụ cấp Hình : Cây định sau bước Bảng 2.9: Cây định bước Kết luận định giúp ta biến biểu diễn liệu phức tạp thành cấu trúc đơn giản nhiều 2.3.2 Ƣu điểm định So với phương pháp khai phá liệu khác, định phương pháp có số ưu điểm: Cây định dễ hiểu Người ta hiểu mơ hình định sau giải thích ngắn Việc chuẩn bị liệu cho định không cần thiết Các kỹ thuật khác thường địi hỏi chuẩn hóa liệu, cần tạo biến phụ (dummy variable) loại bỏ giá trị rỗng Cây định xử lý liệu có giá trị số liệu có giá trị tên thể loại Các kỹ thuật khác thường chuyên để phân tích liệu gồm loại biến Chẳng hạn, luật quan hệ dùng cho biến tên, mạng nơ-ron dùng cho biến có giá trị số 36 Cây định mơ hình hộp trắng Nếu quan sát tình cho trước mơ hình, dễ dàng giải thích điều kiện logic Boolean Mạng nơ-ron ví dụ mơ hình hộp đen, lời giải thích cho kết phức tạp để hiểu Có thể thẩm định mơ hình kiểm tra thống kê Điều làm cho ta tin tưởng vào mơ hình Cây định xử lý tốt lượng liệu lớn thời gian ngắn Có thể dùng máy tính cá nhân để phân tích lượng liệu lớn thời gian đủ ngắn phép nhà chiến lược đưa định dựa phân tích định Mở rộng định thành đồ thị định Trong định, đường từ nút gốc đến nút tiến hành phép hội (AND) Trong đồ thị định, dùng phép tuyển (OR) để kết nối ghép hai hay nhiều đường lại với Phần bù định phân tích hình thái học (Morphological Analysis) 2.4 Ảnh hƣởng phụ thuộc hàm, phụ thuộc hàm xấp xỉ xây dựng định Cho mẫu huấn luyện M gồm có m thuộc tính, n Mỗi thuộc tính X M có giá trị {x1, x2, ,xn} Thuộc tính định mẫu đánh dấu Y cịn thuộc tính cịn lại gọi thuộc tính dự đốn Với thuộc tính X = {x1, x2, ,xn}, ta ký hiệu |X| số giá trị khác của tập {x1, x2, ,xn} gọi lực lượng X; số lần xuất giá trị xi X ký hiệu |xi| Giá trị r thuộc tính X ký hiệu r|X Mệnh đề Trên mẫu M với thuộc tính định Y, có phụ thuộc hàm X1 -> X2 chọn X1 làm nút phân tách nút khơng nhận X2 làm nút phân tách Mệnh đề Trên mẫu M với thuộc tính định Y, có phụ thuộc hàm X1→ X2 lượng thông tin nhận X1 không nhỏ lượng thông tin nhận X2 Mệnh đề 3: Nếu thuộc tính X khố mẫu M loại X khỏi M để thu 37 định có khả dự đốn tốt Chƣơng : Thử nghiệm đánh giá 3.1 Thuật toán TANE 3.1.1 Mơ tả thuật tốn Với L cần khai phá AFD L1:= {{A} | A R}, L2 tính từ L1, L3 tính từ L2 C tất tổ hợp mức Ll C+(X) = { A R | B X, X \ {A, B} → B không suy diễn} L0:= {Ө} C+( Ө):= R 3.L1:= {{A} | A R} ℓ:=1 while Ll ≠ Ө COMPUTE-DEPENDENCIES(Ll ) PRUNE(Ll) Ll+1:= GENERATE-NEXT-LEVEL(Ll ) ℓ:=ℓ+1 L0 khởi tạo rỗng C+(0) R L1 tất thuộc tính R ℓ:=1 38 while Ll # rỗng Tính tốn phụ thuộc hàm (Ll) Prune(Ll) lọc Ll để tìm kiếm xố phụ thuộc hàm ko cần thiết Ll+1 xây dựng phụ thuộc hàm cho mức l := l + Thủ tục Procedure COMPUTE-DEPENDENCIES(Lℓ ) for each X Ll C+(X):=∩AX C+(X \ {A}) for each X Ll for each A X ∩ C+(X) if X \ {A} → A is valid then output X \ {A} → A remove A from C+(X) remove all B in R \ X from C+(X) Thủ tục Procedure PRUNE(L) for each X Lℓ if C+(X) = Ө delete X from Lℓ if X is a (super)key for each A C+(X) \ X if A :=∩ bX C+(X {A} \ {B}) then output X → A delete X from Lℓ 3.1.2 Độ phức tạp 39 Với bảng sở liệu quan hệ R có |R| thuộc tính |r| ghi Thời gian để khai phá phụ thuộc hàm xấp xỉ theo thuật toán Tane ban đầu đề xuất phụ thuộc vào số thuộc tính |R|, số ghi |r| Độ phức tạp theo hàm mũ O(2| r |) 3.2 Thuật toán AFDMCEC (phát triển từ thuật toán TANE) Thuật toán AFDMCED(Approximate Functional Dependency using Mininal Conver and Equivalent Classes) :Khai phá phụ thuộc hàm xấp xỉ sử dụng Phủ tối thiểu lớp tương đương Với bảng sở liệu quan hệ R với |R| thuộc tính tập thuộc tính X, Y tập R Nếu có hàm lỗi g 3(X Y) < ε phụ thuộc hàm xấp xỉ X Y g3(Y X) < ε X Y tương đương Ta loại bỏ tập thuộc tính Y Thuật tốn đề xuất qt tồn bảng có kích thước | r | liệu để tìm thấy tất lớp tươg đương cho phức tạp thời gian | r | Sau thuật tốn AFDMCEC có vịng lặp lặp | R | lần Do đó, thể có độ phức tạp thời gian | R | Trong lần lặp vịng lặp này, có gọi cho thủ tục sau đây: ComputeMinimalApproximate_FD()- FD gọi thủ tục có | R | lần lặp lại Trong lặp lặp lại có vịng lặp qt tất ứng cử viên mức độ kích thước = | R | Do tổng thời gian bước s * | R | GeneratNextLevelCandidates (Candidate_Set) thủ tục thực hai vòng lặp lồng nhau, với |R| lặp lặp lại thời gian tổng cộng | R|2 Do đó, tổng thời gian cần thiết thuật toán AFDMCEC yêu cầu là: O( |r| + |R| (s |R|+ |R|2 )) = O(|r| + s |R| + |R|3 ) 3.2.1 Phân tích thử nghiệm Theo kết hai thuật toán chạy (Tane AFDMCEC), đặt AFDs từ liệu UCI tạo Cho thấy kết lần thực tế thay đổi thuật toán cần thiết cho TANE cho FDMCEC thuật toán cho liệu với UCI số thuộc tính khác liệu với ngưỡng khác ε giá trị cho khám phá tất AFDs 40 Bảng 3.1: Thời gian thực tế cho hai thuật toán ( TANE AFDMCEC thuật toán) số liệu UCI cho ε ngưỡng khác nhau) Từ Bảng 3.1, AFDs tìm thấy hiệu cách sử dụng thuật toán AFDMCEC với thuật toán Tane 3.2.2 Những so sánh độ phức tạp Thời gian Bảng trình bày so sánh phức tạp thời gian tính tốn trước cho AFDMCEC thuật toán thuật toán TANE Bảng 3.2: Thời gian phức tạp so sánh dựa T (n) cho hai thuật toán Cách tiếp cận dựa xem xét phân vùng mối quan hệ phát sinh phụ thuộc giá trị từ phân vùng tìm kiếm thuật toán cho phụ thuộc vào chiều rộng cách Khơng gian tìm kiếm cắt tỉa cách hiệu làm phân vùng phụ thuộc tính hiệu Thử nghiệm so sánh kết chứng minh thuật tốn nhanh chóng thực tế quy mơ tính chất lên cao phương pháp trước Phương pháp hoạt động tốt với mối quan hệ lên đến hàng trăm ngàn liệu 41 Ngồi cịn có ứng dụng khai thác liệu khác thú vị cho phân vùng Các quy tắc cặp thuộc tính-giá trị tính với thay đổi nhỏ thuật toán Một lớp tương đương tương ứng sau đến kết hợp đặc biệt giá trị thuộc tính thiết lập Bằng cách so sánh lớp học tương đương thay phân vùng đầy đủ, tìm luật kết hợp KẾT LUẬN Trong thời đại ngày nay, việc khám phá tri thức Cơ sở liệu hướng quan trọng CNTT giới Nó có khả ứng dụng vào nhiều toán thực tế khác Bước quan trọng trình Khai phá liệu, người sử dụng thu tri thức hữu ích từ CSDL nguồn khác Chính thế, trước nhu cầu thực tế mà nghiên cứu không ngừng cải tiến phương pháp khai phá liệu nhằm đáp ứng ngày tốt nhằm ứng dụng phương pháp khai phá liệu cho đời sống kinh tế, xã hội Sự phụ thuộc liệu có ảnh hưởng lớn đến việc trích trọn mẫu huấn luyện nhằm xây dựng xây dựng định có hiệu Việc nhận phụ thuộc liệu góp phần làm cải thiện hiệu toán phân lớp Việc khai phá liệu ứng dụng phụ thuộc hàm xấp xỉ quan tâm nghiên cứu nhiều năm trở lại đây, với TANE, ta tìm phụ thuộc hàm xấp xỉ liệu hiệu Một ứng dụng việc tìm phụ thuộc hàm xấp xỉ xây dựng bảng định Từ xây dựng định 42 TÀI LIỆU THAM KHẢO [1] Codd E.F(1970),”A relational model for large shared data banks”, Communication ACM12,pp.377-387 [2] Demetrovics J.,Thi V.D Relations and minimal keys Acta Cybernetica 8,3(1988), 279-285 [3] Demetrovics J.,Thi V.D On keys in the Relations Datamodel, Inform.Process Cybern.EIK 24,10 (1988), 515-519 [4] Giannella, Chris and Robertson, Edward, 2004 “On Approximation Measures for Functional Dependencies”, Inform Action Systems Archive 29(6), 483-507 [5] Huhtala, Y., Karkkainen, J., Porkka P., and Toivonen, H., 1999 “Tane: An efficient algorithm for discovering functional and approximate dependencies” The Computer Journal, 42(2):100-111 [6] Kivinen, J., and Mannila, H., 1995 “Approximate Inference of Functional Dependencies From Relations” Theoretical Computer Science, 149:129-149 [7] Kwok-Wa Lam, Victor C.S.Lee, Building Decision Trees Using Functional Dependencies, Processdings, of the International Conference on Information Technology: Coding and Computing(ITCC‟04), 2004 43 PHỤ LỤC Thủ tục Tính phụ thuộc hàm xấp xỉ double tinh_phuthuochamxapxi() { double tong_phan_hoach = 0; double sobanghi = 0; int [] a = new int [100002]; int vt, j, dem = 0, k, dem_1 = 0, max = 0; 44 string tam = ""; for (int i = 0; i