Phương pháp khai phá dữ liệu bằng cây quyết định và ứng dụng

83 19 0
Phương pháp khai phá dữ liệu bằng cây quyết định và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phạm quang phong giáo dục đào tạo trường đại học bách khoa hà nội - luận văn thạc sĩ khoa học ngành : công nghệ thông tin công nghệ thông tin Phương pháp Khai phá liệu định Và ứng dụng Phạm quang phong 2006 - 2008 Hà Nội 2008 Hà Nội 2008 giáo dục đào tạo trường đại học bách khoa hà néi - luận văn thạc sĩ khoa học PHƯƠNG PHáP KHAI PHá Dữ LIệU BằNG CÂY QUYếT ĐịNH Và ứng dụng ngành : công nghệ thông tin 04.3898 Phạm quang phong Người hướng dẫn khoa học: PGS.TS Vũ ĐứC THI Hà néi 2008 LỜI CẢM ƠN Em xin trân thành cảm ơn PGS.TS Vũ Đức Thi, Thầy tận tình hướng dẫn bảo em trình thực luận van tốt nghiệp Sự bảo, dạy dỗ Thầy giúp em có nhiều kinh nghiệm, kiến thức nghiên cứu học tập Em tin rằng, điều thuận lợi to lớn để giúp em có nhiều kết công tác nghiên cứ, học tập cho thân giai đoạn Em xin trân thành cảm ơn Thầy, Cô trường Đại học Bách khoa Hà Nội, người giúp đỡ em suốt thời gian học tập Xin gửi lời cảm ơn tới tất người thân, đồng nghiệp, bạn bè giúp đỡ thời gian qua! MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU CHƯƠNG I: I.1 TỔNG QUAN VỀ KHAI PHÁ TRÍ THỨC SƠ LƯỢC VỀ KHAI PHÁ TRI THỨC I.1.1 Dữ liệu tri thức I.1.2 Khai phá tri thức I.1.3 Các trình khai phá tri thức 11 I.2 KHAI PHÁ DỮ LIỆU 14 I.2.1 Khái niệm khai phá liệu 14 I.2.2 Mục tiêu khai phá liệu 15 I.2.3 Chức khai phá liệu 16 I.2.4 Phương pháp khai phá liệu 19 I.3 CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU 23 I.3.1 Kỹ thuật khai phá liệu dự đoán 24 I.3.2 Phân cụm liệu 24 I.3.3 Phân lớp liệu qui hồi 24 I.3.4 Khai phá luật kết hợp 25 I.3.5 Khai phá liệu sử dụng mạng Neural 26 I.3.6 Khai phá liệu sử dụng thuật giải di truyền 27 I.3.7 Khai phá liệu sử dụng định 28 I.4 CÁC CÁCH THỨC KHAI PHÁ DỮ LIỆU 29 I.4.1 Các yêu cầu khai phá liệu 31 I.4.2 Đánh giá, kết luận 34 CHƯƠNG II: CÁC KHÁI NIỆM CƠ BẢN 36 II.1 CÂY QUYẾT ĐỊNH 36 II.1.1 Khái niệm chung 36 II.1.2 Xây dựng định 39 II.1.3 Cắt tỉa định 39 II.1.4 Đánh giá định 40 II.2 CƠ SỞ DỮ LIỆU QUAN HỆ 40 II.2.1 Quan hệ 40 II.2.2 Cơ sở liệu quan hệ 41 II.2.3 Đại số quan hệ 42 II.2.4 Phụ thuộc hàm 42 II.2.5 Phụ thuộc hàm xấp xỉ 46 CHƯƠNG III: III.1 III.1.1 MỘT SỐ PHƯƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH 50 THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 50 Thuật toán CLS - Concept Learning System 50 III.1.1.1 Giới thiệu thuật toán CLS 50 III.1.1.2 Ví dụ minh họa 51 III.1.2 Thuật toán ID3 (interactive Dichotomizer) 55 III.1.2.1 Giới thiệu thuật toán ID3: 55 III.1.2.2 Ví dụ: 59 III.1.3 Thuật toán C4.5 62 III.1.4 Thuật toán xây dựng định dựa phụ thuộc hàm 68 III.1.4.1 Tổng quan: 68 III.1.4.2 Thuật toán TANE 68 III.1.4.3 Xây dựng định 69 III.1.4.4 Ví dụ minh họa 70 III.2 CẮT TỈA CÂY QUYẾT ĐỊNH 71 III.3 ĐÁNH GIÁ THUẬT TOÁN VÀ KẾT LUẬN 73 III.3.1 Đánh giá thuật toán 73 III.3.2 Kết luận 74 CHƯƠNG IV: ỨNG DỤNG THỬ NGHIỆM 76 IV.1.1 BÀI TOÁN THỬ NGHIỆM 76 IV.1.2 KẾT QUẢ ĐẠT ĐƯỢC 76 IV.1.3 MỘT SỐ GIAO DIỆN CỦA CHƯƠNG TRÌNH 77 IV.1.3.1 Giao diện 77 IV.1.3.2 Cây định dựa theo thuật toán CLS 78 IV.1.3.3 Cây định dựa theo thuật toán ID3 79 IV.1.3.4 Cây định dựa theo thuật toán C4.5 79 CHƯƠNG V: KẾT LUẬN 80 TÀI LIỆU THAM KHẢO 81 MỞ ĐẦU Ngày nay, công nghệ thông tin trở thành lĩnh vực nghiên cứu, ứng dụng triển khai có hiệu đời sống kinh tế, xã hội Việc ứng dụng công nghệ thông tin ngành khoa học, kinh tế, xã hội mang lại hiệu kinh tế to lớn Cùng với phát triển khoa học công nghệ, bùng nổ thơng tin ngày việc tìm kiếm khai thác thông tin từ nguồn thông tin khổng lồ có sẵn để có thơng tin cần thiết, hiệu đáp ứng nhu cầu người khai thác khơng phải dễ dàng Chính vậy, khai phá liệu trở thành lĩnh vực nhà khoa học quan tâm ứng dụng thực tiễn vào đời sống, với phát triển xã hội Một lĩnh vực nghiên cứu phương pháp ứng dụng khai phá liệu, tìm kiếm tri thức, kết xuất tri thức… từ liệu phương pháp sử dụng định (Decision Tree) nhà khoa học nghiên cứu từ nhiều năm trước cho kết khả quan có tính ứng dụng cao Ngày nay, kỹ thuật khai phá liệu dựa định áp dụng cho nhiều ngành, nhiều lĩnh vực như: kinh tế, tài chính, khoa học –kỹ thuật, ngân hàng, y tế,… Các kỹ thuật khai phá liệu định đa dạng phong phú kỹ thuật dựa thuật toán Hunt, ID3, C4.5,… kỹ thuật xây dựng định dựa phụ thuộc hàm sở liệu quan hệ Với mong muốn tìm hiểu làm rõ kỹ thuật khai phá tri thức từ liệu sử dụng định nên lựa chọn đề tài “Phương pháp khai phá liệu định ứng dụng” làm đề tài cho luận văn tốt nghiệp Mục đích thực đề tài tổng hợp kiến thức kỹ thuật xây dựng định dựa số thuật tốn có Nội dung luận văn gồm có chương, đó: Chương I: Tổng quan khai phá tri thức, chương trình bày cách khái quát vấn đề khai phá liệu, thách thức gặp phải sử dụng kỹ thuật khai phá liệu, ứng dụng khai phá liệu,tình hình nghiên cứu khai phá liệu nói chung kỹ thuật khai phá liệu sử dụng định nói riêng Chương II: Các khái niệm bản, bao gồm khái niệm khai phá liệu, định, khái niệm sở liệu quan hệ Chương III: Một số phương pháp xây dựng định, chương trọng tâm luận văn Nội dung chương đề cập đến phương pháp xây dựng định dựa thuật toán khai phá liệu định bao gồm thuật toán CLS (Concept Learning System), ID (Interactive Dichotomizer), thuật toán C4.5 phương pháp xây dựng định dựa phụ thuộc hàm xấp xỉ sở liệu quan hệ Chương IV: Ứng dụng thử nghiệm, chương đưa toán ứng dụng thử nghiệm, áp dụng thuật toán để thực xây dựng ứng dụng khai phá liệu cho toán nêu Chương V: Kết luận, nội dung chương đưa đánh giá, kết luận số phân tích sau thực luận văn CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ TRÍ THỨC I.1 SƠ LƯỢC VỀ KHAI PHÁ TRI THỨC I.1.1 Dữ liệu tri thức Ngày nay, với phát triển mạnh mẽ khoa học công nghệ, đặc biệt ngành cơng nghệ thơng tin truyền thơng khối lượng liệu cần lưu trữ ngày trở nên khổng lồ Do đặc trưng liệu thơng tin, có thơng tin có nghĩa có liệu Trong lĩnh vực khác có dạng liệu khác nhau, liệu lĩnh vực khác lại có mối quan hệ tương đối mật thiết với Tuy nhiên, khai thác liệu liệu thu thu tri thức cần thiết theo yêu cầu người vấn đề cụ thể lĩnh vực cụ thể Tri thức lại động lực quan trọng trình phát triển tiến người nói riêng văn minh nhân loại nói chung, khái niệm xác tri thức, chất tri thức, trình hình thành tri thức mối quan hệ đối tượng giới tri thức… tranh luận chưa có câu trả lời thỏa đáng Nhưng lĩnh vực, từ khoa học, công nghệ, kỹ thuật,… đến kinh tế, văn hóa, xã hội tri thức ln ln tìm kiếm, phát tác động ngày lớn đến phát triển loài người Sự phong phú thông tin, liệu với khả kịp thời khai thác chúng mạng lại suất chất lượng cao công tác quản lý, hoạt động kinh tế, phát triển sản xuất du lịch… Tuy nhiên, yêu cầu thông tin, tri thức liệu đặc biệt cơng tác định ngày địi hỏi chất lượng cao hơn, kịp thời nhiều tri thức nhằm hỗ trợ việc định để định vấn đề Trong thực tế thấy, ngẫu nhiên mà John Naisbett cảnh báo: “Chúng ta ngập chìm liệu đói tri thức”, điều báo trước việc ứng dụng công nghệ thông tin chuyển sang thời kỳ mà mục đích chủ yếu của công nghệ thông tin giúp người nhiều trình khai phá tri thức từ liệu, biến đổi từ giàu có liệu thành giàu có tri thức Các khái niệm thơng tin, liệu tri thức ln có quan hệ chặt chẽ, mật thiết với khó phân biệt định nghĩa rõ ràng Ta hiểu thơng tin khái niệm chung bao gồm hiểu biết vật, tượng, quan hệ,… mà người thu nhận thông qua giác quan, giao tiếp, khảo sát, thực nghiệm, nghiên cứu, lý giải… Dữ liệu mô tả giá trị cho kiện, tượng cụ thể xem hiểu biết có mức độ khái quát, mối quan hệ có quy luật thuộc tính đối tượng, vật, tượng mà người thu sau “chân lý hóa” kinh nghiệm có, phân tích liệu hay qua nghiên cứu, lý giải, suy luận Hoạt động nhận thức người bao gồm việc tìm kiếm tri thức để tăng cường hiểu biết xã hội sống, từ tạo nên kỹ thuật cơng nghệ giải pháp nhằm cải thiện đời sống Dưới trợ giúp cơng nghệ thơng tin, phương pháp khai phá tri thức từ liệu bước nghiên cứu công cụ, giải pháp nhằm hỗ trợ giúp định kiến trúc khách hàng, phục vụ thích hợp, với việc sử dụng phương pháp khai phá liệu phát tri thức nghiên cứu rộng rãi giới Việt Nam 67 tính đạt giá trị nhỏ Ngồi ra, trường hợp thuộc tính X có giá trị SplitInfor Gain(X,T) GainRatio(X,T) khơng ln xác định Quinlan khuyến cáo chọn thuộc tính cho có GainRatio lớn số thuộc tính có Gain(X,T) trung bình tốt c Cách tính Gian GainRatio liệu có thuộc tính bị thiếu giá trị Giả sử, T tập mẫu cần phân loại, U tập mẫu bị thiếu giá trị thuộc tính X (X có S giá trị xác định) Thì hàm Gain(X,T) GainRation(X,T) tính sau: Gain(X,T)=F Trong đó: 𝐹𝐹 = |𝑇𝑇|−|𝑈𝑈| |𝑇𝑇| (Gain’(X’,T)) Gain’(X,T’) giá trị Gain thuộc tính X’ xét mẫu có giá trị xác định thuộc tính X 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝑋𝑋, 𝑇𝑇) = − 𝑠𝑠+1 � 𝑖𝑖∈𝑣𝑣𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎(𝑋𝑋) |𝑇𝑇𝑖𝑖 | |𝑇𝑇𝑖𝑖 | log |𝑇𝑇| − |𝑈𝑈| |𝑇𝑇| − |𝑈𝑈| Trong đó, |Ts+1| số mẫu ứng với X có giá trị khơng xác định Tập |Ts+1| gồm mẫu có giá trị khơng xác định thuộc tính X Khi hàm GainRatio(X,T) tính cơng thức InForgain với Gain(X,T) tính theo cơng thức… Và SplitInfo(X,T) tính theo cơng thức 68 III.1.4 Thuật toán xây dựng định dựa phụ thuộc hàm III.1.4.1 Tổng quan: Phụ thuộc hàm (FDs) nghiên cứu nhiều phân tích, thiết kế sở liệu Phụ thuộc hàm thuộc tính quan hệ cho phép xác định xác mối quan hệ sở liệu Các ràng buộc phụ thuộc hàm quy định sơ đồ quan hệ tương đối độc lập với liệu Khái niệm phụ thuộc hàm xem xét Chương Một vấn đề quan tâm nghiên cứu cho trước sơ đồ quan hệ s= R tập thuộc tính F tập phụ thuộc hàm, làm xác định tất phụ thuộc hàm sơ đồ quan hệ s (tức tập F+) Phụ thuộc hàm hiểu nhiều lĩnh vực Quản trị thiết kế sở liệu, khai phá kho liệu khai phá liệu,… Một số thuật toán hiệu nhằm phát phụ thuộc hàm sở liệu TANE, FDEP, DEP-MINER FUN nghiên cứu rộng rãi mang lại hiệu Một phụ thuộc hàm xấp xỉ phụ thuộc hàm mà hầu hết trường hợp, tính tốn trường hợp xem xét định nghĩa phụ thuộc hàm xấp xỉ III.1.4.2 Thuật toán TANE Là thuật toán cho phép xác định phụ thuộc hàm xấp xỉ tập sở liệu lớn, thuật toán phát biểu sau: Lo=(⨂) C+(⨂)=R L1={A| A∈ R} l=1 69 While Ll (⨂) COMPUTE_DEPENDENCIES(Ll) PRUNE(Ll) Ll+1=GENERATE_NEXT_LEVEL(Ll) l=l+1 Ở đây, việc tính GENERATE_NEXT_LEVEL(Ll) Ll+1={X| |X|= l+1 ∀ 𝑌𝑌 ⊂ 𝑋𝑋 𝑣𝑣à |𝑌𝑌| = 𝑙𝑙 𝑐𝑐ℎú𝑛𝑛𝑛𝑛 𝑡𝑡𝑡𝑡 𝑐𝑐ó 𝑌𝑌 ∈ L l } III.1.4.3 Xây dựng định Đầu vào thuật toán xác định ác phụ thuộc hàm xấp xỉ tính tập liệu mẫu Sau hàm cho phép xây dựng định dựa phụ thuộc hàm tìm Function Build_Dec_Tree(examples, attributes, default) return a_decision_tree IF examples is empty THEN return default ELSE IF all examples have the same classification THEN return the_classification ELSE IF attributes is empty THEN return MajorityClass(examples) ELSE minCFD  ChooseMinApproxCFD(attributes,examples) tree  a new decision tree with root test minCFD FOR EACH value vi of minCFD DO 70 Examplei {elements of examples with minCFD =vi} SubTree  BuildDecisionTree(Examplei,attribures- MinCFD,MajorityClass(Examples)) ADD (a branch to tree with label vi and subtree) END DO NEXT FOR END IF return tree End Function Trong đó, hàm MajorityClass hàm tìm nhiễu liệu mẫu có đặc tính khác lớp hàm ChooseMinApproxCFD hàm chọn phụ thuộc hàm xấp xỉ với số lỗi nhỏ III.1.4.4 Ví dụ minh họa Với toán xây dựng định với tập liệu huấn luyện Bảng 2.1.1 Tập mẫu liệu huấn luyện cán bộ, công chức với thuộc tính STT dùng làm thuộc tính định danh, thuộc tính: Tuổi, Bậc lương, Ngạch cơng chức, Học vị cá thuộc tính ứng viên dùng để xét, thuộc tính Chức danh dùng làm thuộc tính khẳng định, phân lớp Chúng ta xây dựng phục thuộc hàm xấp xỉ sau: Ta thấy, thuộc tính tuổi, bậc lương có mối tương quan với chức danh Với 𝛿𝛿 = 0.05 ta kiểm tra điều kiện phụ thuộc hàm xấp xỉ: Với cặp hàng 1, ta có: 𝜌𝜌(𝑡𝑡1 (𝑡𝑡𝑡𝑡ổ𝑖𝑖, 𝑏𝑏ậ𝑐𝑐 𝑙𝑙ươ𝑛𝑛𝑛𝑛), 𝑡𝑡2 (𝑇𝑇𝑇𝑇ổ𝑖𝑖, 𝑏𝑏ậ𝑐𝑐 𝑙𝑙ươ𝑛𝑛𝑛𝑛)) = < 0.05 Tương tự ta có: 𝜌𝜌(𝑡𝑡1 (𝑐𝑐ó 𝑐𝑐ℎứ𝑐𝑐 𝑑𝑑𝑑𝑑𝑑𝑑ℎ), 𝑡𝑡2 (𝑐𝑐ó 𝑐𝑐ℎứ𝑐𝑐 𝑑𝑑𝑑𝑑𝑑𝑑ℎ)) = < 0.05 71 Với thuộc tính cịn lại, ta có phụ thuộc hàm Tuổi, bậc lương ≈>0.05 có chức danh Sau thực tìm với tất phụ thuộc hàm xấp xỉ phù hợp với trình xây dựng định, ta xây dựng định Học vị sau: Kỹ sư Thạc sỹ Có Khơng Tuổi 30-40 40 Có Có Bậc lương Trung bình Ngạch Giảng viên Không III.2 CẮT TỈA CÂY QUYẾT ĐỊNH Khi xây dựng định cách phát triển nhánh đầy đủ theo chiều sâu để phân lớp hoàn tồn mẫu huấn luyện thuật tốn CLS ID3, đơi gặp khó khăn trường hợp liệu bị nhiễu số lượng mẫu huấn luyện nhỏ không đủ để đại diện cho quy luật Nghĩa tạo nên nút có số lượng mẫu q nhỏ, khơng đủ tốt cho định nên xẩy tượng over-fitting 72 Để giải vấn đề này, người ta thường phải tiến hành cắt tỉa định, với cách thức sử dụng cắt tỉa trước (prepruning) cắt tỉa sau (postpruning) Chiến thuật cắt tỉa trước chiến thuật dừng việc phát triển trước phát triển đến điểm hồn thành phân lớp liệu Chiến thuật cắt tỉa sau ngược lại, thực phát triển đầy đủ thực cắt bỏ nhánh không hợp lý gây tượng over-fitting Thơng thường người ta sử dụng phương pháp cắt tỉa sau để tìm giả thiết có độ xác cao Chiến thuật tiến hành thơng qua việc tính tốn lỗi nút sau: Bước 1: Lập giả thuyết cho trường hợp lỗi tĩnh E(S), lỗi từ nút nút S (BackupError(S)) lỗi nút S (Error(S)) Bước 2: Tính tốn lỗi xác định: Error(S)=Min(E(S),BackupError(S)) Trong đó, E(S)=(N-n+1)/(N+2) với N tổn số mẫu nút S, n số mẫu lớp phổ biến S Trường hợp tổng quát, thuộc tính lớp có k giá trị giá trị tính sau: E(S)=(N-n+1)/(N+k) Và 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵(𝑆𝑆) = ∑ 𝑃𝑃𝑖𝑖 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸(𝑆𝑆𝑖𝑖 ), Si nút S Pi tỷ lệ số mẫu Si số mẫu S Như vậy, nút có lỗi Error(Si)=E(Si) nút khơng có nút dẫn đến nên khơng có BackupError Và chiến thuạt cắt tỉa sau định thực cắt tỉa nút S BackupError(S)≥ E(S) 73 III.3 ĐÁNH GIÁ THUẬT TOÁN VÀ KẾT LUẬN III.3.1 Đánh giá thuật toán Qua vấn đề xem xét trên, thấy rằng: Mỗi thuật tốn có ưu điểm nhược điểm riêng Thuật toán CLS xây dựng ý tưởng giải nhiệm vụ cách thu nhận khái niệm đơn giản, nhiên thuật toán CLS đời ngành công nghệ thông tin giai đoạn khởi đầu đặc biệt vấn đề lưu trữ liệu xử lý liệu tương đối đơn giản Chính thế, giải thuật CLS đủ để đáp ứng cho trường hợp sở liệu nhỏ giá trị rời rạc Khi gặp liệu lớn có thuộc tính liên tục thuật tốn khơng mang lại kết mong muốn Mặt khác, sử dụng thuật tốn mẫu liệu, cho nhiều kết khác Đặc biệt trình xây dựng định, việc lựa chọn thuộc tính chưa có tiêu chí cụ thể, nên chọn thứ tự thuộc tính khác cho kết khác Thuật toán đơn giản, việc cài đặt dễ dàng Thuật toán ID3 Quinlan đưa để khắc phục số hạn chế CLS, xem cải tiến CLS ID3 cho kết tốt so với kết CLS, thực xây dựng định, ID3 sử dụng tiêu chí để lựa chọn thuộc tính phù hợp ứng viên bước tạo Khi áp dụng ID3 tập liệu mẫu cho kết Tuy nhiên, giải thuật ID3 lại gặp khó khăn áp dụng cho tập liệu có thuộc tính có nhiều giá trị giá trị thuộc tính có tính liên tục đặc biệt liệu bị thiếu hay bị nhiễu 74 Với nhược điểm thuật toán ID3, Quinlan lại tiếp tục đưa thuật toán C4.5 để khắc phục nhược điểm mà ID3 gặp phải Giải thuật C4.5 thực phân lớp thuộc tính số thuộc tính có giá trị liên tục phép tách nhị phân Quinlan đưa thêm vào hàm GrainRatio Gain để giải trường hợp thuộc tính có nhiều giá trị, thuật tốn C4.5 cịn có bước xác định lỗi tính lỗi cho nút có phương pháp cắt tỉa Tuy C4.5 cải tiến nhiều vấn đề cịn có vấn đề khó khăn phức tạp liệu bị nhiễu Vấn đề sở liệu nghiên cứu từ sớm q trình phát triển ngành cơng nghệ thơng tin Các khái niệm, tính chất sở liệu đặc biệt phụ thuộc hàm sở liệu quan hệ chứng minh cách chặt chẽ Khác với việc lựa chọn cảm tính phương pháp lựa chọn thuộc tính để phát triển khác Tuy nhiên, với định nghĩa chặt chẽ phụ thuộc hàm nêu trên, gặp sở liệu lớn phức tạp, việc xác định phụ thuộc hàm khó khăn Chính vậy, Kwok-Wa Lam Victor C.S Lee đưa phương pháp xây dựng định dựa phụ thuộc hàm xấp xỉ phần khắc phục vấn đề III.3.2 Kết luận Trên số trình bày khái quát phân lớp, giới thiệu số thuật toán xây dựng định số vấn đề xây dựng định sử dụng phụ thuộc hàm sở liệu quan hệ, đặc biệt phụ thuộc hàm xấp xỉ, khái niệm xu nghiên cứu khai phá liệu Trong đó, việc tìm kiếm phụ thuộc hàm xấp xỉ sử dụng thuật toán TANE sở liệu lớn có sẵn tương đối dễ dàng chấp nhận thời gian kết 75 Tuy nhiên, để đặt yêu cầu hệ thống khai phá liệu đáp ứng đầy đủ mong muốn phải cần nhiều thời gian nghiên cứu phát triển 76 CHƯƠNG IV: IV.1.1 ỨNG DỤNG THỬ NGHIỆM BÀI TỐN THỬ NGHIỆM Với ví dụ sở liệu bảng 2.1.1 Thực xây dựng chương trình sử dụng định dựa theo số thuật toán CLS, ID3 C4.5 để thực khai phá liệu theo tiêu chí quản lý sau: - Các thuộc tính mẫu là: STT; Tuổi, Bậc lương; Ngạch cơng chức; Học vị - Thuộc tính kiểm tra thuộc tính chức danh, đẻ thực kiểm tra cán công chức có chức danh hay chưa IV.1.2 KẾT QUẢ ĐẠT ĐƯỢC Chương trình xây dựng ngơn ngữ lập trình Visual Basic Net 2005, sử dụng hệ quản trị sở liệu SQL 2005 Thiết kế chương trình sau: - Cho người dùng thực kết nối với sở liệu định khai phá liệu - Chọn bảng liệu mẫu - Lựa chọn thuộc tính thuộc tính kiểm tra - Lựa chọn thuộc tính làm thuộc tính mẫu - Lựa chọn xem kết theo thuật toán CLS, ID3 C4.5 77 IV.1.3 MỘT SỐ GIAO DIỆN CỦA CHƯƠNG TRÌNH IV.1.3.1 Giao diện 78 IV.1.3.2 Cây định dựa theo thuật toán CLS 79 IV.1.3.3 Cây định dựa theo thuật toán ID3 IV.1.3.4 Cây định dựa theo thuật toán C4.5 80 CHƯƠNG V: KẾT LUẬN Trong thời đại ngày nay, việc khám phá tri thức có sở liệu xu hướng quan lĩnh vực cơng nghệ thơng tin Nó có khả ứng dụng vào nhiều tốn thực tế khác Điều quan trọng trình người sử dụng thu nhiều tri thức hữu ích từ nguồn thơng tin khổng lồ có Chính vậy, nhà nghiên cứu thực cải tiến phương pháp khai phá liệu nhằm đáp ứng ngày tốt để ứng dụng khai phá liệu có cho đời sống kinh tế, xã hội Phương pháp sử dụng định để khai phá liệu phương pháp tốt để khai phá liệu phương pháp cho phép người sử dụng xây dựng hệ thống hỗ trợ định dựa thuật tốn chứng minh tính đắn Khai phá liệu coi trình tìm kiếm khám phá nhiều góc độ khác để tìm mối tương quan, mối liên hệ theo phương diện khác để tìm mẫu tồn sở liệu mà bị ẩn Trong khuôn khổ luận văn phân tích số thuật tốn tiêu biểu, nhiên để thực tốt hơn, đề tài cịn mở rộng hướng nghiên cứu liên quan đến xây dựng hệ thống định dựa phụ thuộc hàm xấp xỉ, ứng dụng số thuật toán thuật toán TANE, FUN, DEP-MINER,… nhằm xác định đánh giá phụ thuộc hàm xấp xỉ cho sở liệu thực tế có độ lớn liệu, xây dựng số phương pháp lựa chọn phụ thuộc hàm xấp xỉ tối ưu xây dựng hệ thống hỗ trợ định 81 TÀI LIỆU THAM KHẢO Nguyễn Thanh Thủy, Khai phá liệu – Kỹ thuật ứng dụng, Hà nội, 2001 Vũ Đức Thi, Cơ sở liệu – Kiến trúc thực hành, Nhà xuất Thống kê, 1997 Han J and Kamber M., Data Mining: Concept and Techniques, Morgan Kaufman, Academic Press, 2001 J.R, Quinlan, Machine Learning 1, 81-106, 1986, © 1986 Kluwer Academic Publishers, Boston – Manufactured in The Netherlands Joshi K.P., Paper: Analysis of Data Mining Algorithms, 1997 ... bày cách sơ lược số phương pháp khai phá liệu thơng dụng sử dụng, là: phương pháp khai phá liệu sử dụng phân cụm (data mining with Clustering), phương pháp khai phá liệu sủ dụng luật kết hợp (data... sử dụng hệ chuyên gia, phương pháp khai phá liệu sử dụng thống kê Tuy nhiên, phương pháp trọng tâm đề tài Phương pháp sử dụng định sử dụng làm trọng tâm đề tài a Phương pháp hệ chuyên gia Phương. .. Rules), phương pháp khai phá liệu sử dụng mạng neural (Data Mining with Neural Networks), phương pháp khai phá liệu sử dụng giải thuật di truyền (Genetic Algorithm –GA), phương pháp khai phá liệu

Ngày đăng: 27/02/2021, 23:58

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan