Phương pháp khai phá dữ liệu bằng cây quyết định và ứng dụng Phương pháp khai phá dữ liệu bằng cây quyết định và ứng dụng Phương pháp khai phá dữ liệu bằng cây quyết định và ứng dụng luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
Phạm quang phong giáo dục đào tạo trường đại học bách khoa hà nội - luận văn thạc sĩ khoa học ngành : công nghệ thông tin công nghệ thông tin Phương pháp Khai phá liệu định Và ứng dụng Phạm quang phong 2006 - 2008 Hà Nội 2008 Hà Nội 2008 giáo dục đào tạo trường đại học bách khoa hà nội - luận văn thạc sĩ khoa học PHƯƠNG PHáP KHAI PHá Dữ LIệU BằNG CÂY QUYếT ĐịNH Và ứng dụng ngành : công nghệ thông tin 04.3898 Phạm quang phong Người hướng dẫn khoa học: PGS.TS Vũ ĐứC THI Hà nội 2008 LỜI CẢM ƠN Em xin trân thành cảm ơn PGS.TS Vũ Đức Thi, Thầy tận tình hướng dẫn bảo em trình thực luận van tốt nghiệp Sự bảo, dạy dỗ Thầy giúp em có nhiều kinh nghiệm, kiến thức nghiên cứu học tập Em tin rằng, điều thuận lợi to lớn để giúp em có nhiều kết cơng tác nghiên cứ, học tập cho thân giai đoạn Em xin trân thành cảm ơn Thầy, Cô trường Đại học Bách khoa Hà Nội, người giúp đỡ em suốt thời gian học tập Xin gửi lời cảm ơn tới tất người thân, đồng nghiệp, bạn bè giúp đỡ thời gian qua! MỤC LỤC LỜI CẢM ƠN MỞ ĐẦU CHƯƠNG I: I.1 TỔNG QUAN VỀ KHAI PHÁ TRÍ THỨC SƠ LƯỢC VỀ KHAI PHÁ TRI THỨC I.1.1 Dữ liệu tri thức I.1.2 Khai phá tri thức I.1.3 Các trình khai phá tri thức 11 I.2 KHAI PHÁ DỮ LIỆU 14 I.2.1 Khái niệm khai phá liệu 14 I.2.2 Mục tiêu khai phá liệu 15 I.2.3 Chức khai phá liệu 16 I.2.4 Phương pháp khai phá liệu 19 I.3 CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU 23 I.3.1 Kỹ thuật khai phá liệu dự đoán 24 I.3.2 Phân cụm liệu 24 I.3.3 Phân lớp liệu qui hồi 24 I.3.4 Khai phá luật kết hợp 25 I.3.5 Khai phá liệu sử dụng mạng Neural 26 I.3.6 Khai phá liệu sử dụng thuật giải di truyền 27 I.3.7 Khai phá liệu sử dụng định 28 I.4 CÁC CÁCH THỨC KHAI PHÁ DỮ LIỆU 29 I.4.1 Các yêu cầu khai phá liệu 31 I.4.2 Đánh giá, kết luận 34 CHƯƠNG II: CÁC KHÁI NIỆM CƠ BẢN 36 II.1 CÂY QUYẾT ĐỊNH 36 II.1.1 Khái niệm chung 36 II.1.2 Xây dựng định 39 II.1.3 Cắt tỉa định 39 II.1.4 Đánh giá định 40 II.2 CƠ SỞ DỮ LIỆU QUAN HỆ 40 II.2.1 Quan hệ 40 II.2.2 Cơ sở liệu quan hệ 41 II.2.3 Đại số quan hệ 42 II.2.4 Phụ thuộc hàm 42 II.2.5 Phụ thuộc hàm xấp xỉ 46 CHƯƠNG III: III.1 III.1.1 MỘT SỐ PHƯƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH 50 THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH 50 Thuật toán CLS - Concept Learning System 50 III.1.1.1 Giới thiệu thuật toán CLS 50 III.1.1.2 Ví dụ minh họa 51 III.1.2 Thuật toán ID3 (interactive Dichotomizer) 55 III.1.2.1 Giới thiệu thuật toán ID3: 55 III.1.2.2 Ví dụ: 59 III.1.3 Thuật toán C4.5 62 III.1.4 Thuật toán xây dựng định dựa phụ thuộc hàm 68 III.1.4.1 Tổng quan: 68 III.1.4.2 Thuật toán TANE 68 III.1.4.3 Xây dựng định 69 III.1.4.4 Ví dụ minh họa 70 III.2 CẮT TỈA CÂY QUYẾT ĐỊNH 71 III.3 ĐÁNH GIÁ THUẬT TOÁN VÀ KẾT LUẬN 73 III.3.1 Đánh giá thuật toán 73 III.3.2 Kết luận 74 CHƯƠNG IV: ỨNG DỤNG THỬ NGHIỆM 76 IV.1.1 BÀI TOÁN THỬ NGHIỆM 76 IV.1.2 KẾT QUẢ ĐẠT ĐƯỢC 76 IV.1.3 MỘT SỐ GIAO DIỆN CỦA CHƯƠNG TRÌNH 77 IV.1.3.1 Giao diện 77 IV.1.3.2 Cây định dựa theo thuật toán CLS 78 IV.1.3.3 Cây định dựa theo thuật toán ID3 79 IV.1.3.4 Cây định dựa theo thuật toán C4.5 79 CHƯƠNG V: KẾT LUẬN 80 TÀI LIỆU THAM KHẢO 81 MỞ ĐẦU Ngày nay, công nghệ thông tin trở thành lĩnh vực nghiên cứu, ứng dụng triển khai có hiệu đời sống kinh tế, xã hội Việc ứng dụng công nghệ thông tin ngành khoa học, kinh tế, xã hội mang lại hiệu kinh tế to lớn Cùng với phát triển khoa học công nghệ, bùng nổ thơng tin ngày việc tìm kiếm khai thác thông tin từ nguồn thông tin khổng lồ có sẵn để có thơng tin cần thiết, hiệu đáp ứng nhu cầu người khai thác khơng phải dễ dàng Chính vậy, khai phá liệu trở thành lĩnh vực nhà khoa học quan tâm ứng dụng thực tiễn vào đời sống, với phát triển xã hội Một lĩnh vực nghiên cứu phương pháp ứng dụng khai phá liệu, tìm kiếm tri thức, kết xuất tri thức… từ liệu phương pháp sử dụng định (Decision Tree) nhà khoa học nghiên cứu từ nhiều năm trước cho kết khả quan có tính ứng dụng cao Ngày nay, kỹ thuật khai phá liệu dựa định áp dụng cho nhiều ngành, nhiều lĩnh vực như: kinh tế, tài chính, khoa học –kỹ thuật, ngân hàng, y tế,… Các kỹ thuật khai phá liệu định đa dạng phong phú kỹ thuật dựa thuật toán Hunt, ID3, C4.5,… kỹ thuật xây dựng định dựa phụ thuộc hàm sở liệu quan hệ Với mong muốn tìm hiểu làm rõ kỹ thuật khai phá tri thức từ liệu sử dụng định nên lựa chọn đề tài “Phương pháp khai phá liệu định ứng dụng” làm đề tài cho luận văn tốt nghiệp Mục đích thực đề tài tổng hợp kiến thức kỹ thuật xây dựng định dựa số thuật tốn có Nội dung luận văn gồm có chương, đó: Chương I: Tổng quan khai phá tri thức, chương trình bày cách khái quát vấn đề khai phá liệu, thách thức gặp phải sử dụng kỹ thuật khai phá liệu, ứng dụng khai phá liệu,tình hình nghiên cứu khai phá liệu nói chung kỹ thuật khai phá liệu sử dụng định nói riêng Chương II: Các khái niệm bản, bao gồm khái niệm khai phá liệu, định, khái niệm sở liệu quan hệ Chương III: Một số phương pháp xây dựng định, chương trọng tâm luận văn Nội dung chương đề cập đến phương pháp xây dựng định dựa thuật toán khai phá liệu định bao gồm thuật toán CLS (Concept Learning System), ID (Interactive Dichotomizer), thuật toán C4.5 phương pháp xây dựng định dựa phụ thuộc hàm xấp xỉ sở liệu quan hệ Chương IV: Ứng dụng thử nghiệm, chương đưa toán ứng dụng thử nghiệm, áp dụng thuật toán để thực xây dựng ứng dụng khai phá liệu cho toán nêu Chương V: Kết luận, nội dung chương đưa đánh giá, kết luận số phân tích sau thực luận văn 7 CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ TRÍ THỨC I.1 SƠ LƯỢC VỀ KHAI PHÁ TRI THỨC I.1.1 Dữ liệu tri thức Ngày nay, với phát triển mạnh mẽ khoa học công nghệ, đặc biệt ngành cơng nghệ thơng tin truyền thơng khối lượng liệu cần lưu trữ ngày trở nên khổng lồ Do đặc trưng liệu thơng tin, có thơng tin có nghĩa có liệu Trong lĩnh vực khác có dạng liệu khác nhau, liệu lĩnh vực khác lại có mối quan hệ tương đối mật thiết với Tuy nhiên, khai thác liệu liệu thu thu tri thức cần thiết theo yêu cầu người vấn đề cụ thể lĩnh vực cụ thể Tri thức lại động lực quan trọng q trình phát triển tiến người nói riêng văn minh nhân loại nói chung, khái niệm xác tri thức, chất tri thức, trình hình thành tri thức mối quan hệ đối tượng giới tri thức… tranh luận chưa có câu trả lời thỏa đáng Nhưng lĩnh vực, từ khoa học, công nghệ, kỹ thuật,… đến kinh tế, văn hóa, xã hội tri thức ln ln tìm kiếm, phát tác động ngày lớn đến phát triển loài người Sự phong phú thông tin, liệu với khả kịp thời khai thác chúng mạng lại suất chất lượng cao công tác quản lý, hoạt động kinh tế, phát triển sản xuất du lịch… Tuy nhiên, yêu cầu thông tin, tri thức liệu đặc biệt cơng tác định ngày đòi hỏi chất lượng cao hơn, kịp thời nhiều tri thức nhằm hỗ trợ việc định để định vấn đề Trong thực tế thấy, ngẫu nhiên mà John Naisbett cảnh báo: “Chúng ta ngập chìm liệu đói tri thức”, điều báo trước việc ứng dụng công nghệ thông tin chuyển sang thời kỳ mà mục đích chủ yếu của công nghệ thông tin giúp người nhiều trình khai phá tri thức từ liệu, biến đổi từ giàu có liệu thành giàu có tri thức Các khái niệm thơng tin, liệu tri thức ln có quan hệ chặt chẽ, mật thiết với khó phân biệt định nghĩa rõ ràng Ta hiểu thông tin khái niệm chung bao gồm hiểu biết vật, tượng, quan hệ,… mà người thu nhận thông qua giác quan, giao tiếp, khảo sát, thực nghiệm, nghiên cứu, lý giải… Dữ liệu mơ tả giá trị cho kiện, tượng cụ thể xem hiểu biết có mức độ khái quát, mối quan hệ có quy luật thuộc tính đối tượng, vật, tượng mà người thu sau “chân lý hóa” kinh nghiệm có, phân tích liệu hay qua nghiên cứu, lý giải, suy luận Hoạt động nhận thức người bao gồm việc tìm kiếm tri thức để tăng cường hiểu biết xã hội sống, từ tạo nên kỹ thuật cơng nghệ giải pháp nhằm cải thiện đời sống Dưới trợ giúp công nghệ thông tin, phương pháp khai phá tri thức từ liệu bước nghiên cứu công cụ, giải pháp nhằm hỗ trợ giúp định kiến trúc khách hàng, phục vụ thích hợp, với việc sử dụng phương pháp khai phá liệu phát tri thức nghiên cứu rộng rãi giới Việt Nam 9 Từ nhiều kỉ qua, khoa học hướng đến việc phát tri thức có giá trị phổ biến dạng nguyên lý, quy luật, định lý,… ngày thấy rõ ràng sống hàng ngày, việc quản lý, kinh doanh,… cần có tri thức đáp ứng phù hợp với nhu cần trực tiếp thơng tin người Tuy nhiên, để nhận biết tri thức lại điều đơn giản Một nguồn liệu quan trọng để từ khai phá, phân tích tổng hợp thơng tin kho thơng tin có đời sống, sở liệu phong phú mà người tích lũy Khai phá liệu phát tri thức hướng nghiên cứu quan trọng, phát triển mạnh phù hợp với công việc quan trọng I.1.2 Khai phá tri thức Ngày nay, lượng thơng tin mà người khám phá ngày trở nên khổng lồ, tốc độ phát triển liệu tích lũy ngày cao Và nhiều ngành nghề, lĩnh vực như: kinh tế, xã hội, quản lý, nghiên cứu đặc biệt ngành khoa học công nghệ phải đối mặt với thách thức to lớn thiếu thông tin liệu có tính chất then chốt có giúp cho cơng tác quản lí, điều hành nghiên cứu, mà thơng tin lại khai thác từ nguồn tài ngun thơng tin khổng lồ có sẵn Việc khai thác thông tin, tri thức tiềm ẩn mang tính chất dự đốn từ sở liệu lớn, khổng lồ trở thành lĩnh vực thiết yếu sống người Không phải đến ngày người nhận biết khả tư máy tính, mà từ năm 50 kỉ trước, cha đẻ ngành khoa học máy tính A.Turing, J.Von Neumann phân tích, so 10 sánh, đánh giá đưa nhận xét lạc quan khả thông qua thành tựu bước đầu máy tính như: tự động hóa chứng minh định lý logic tốn, trị chơi giải trí trí tuệ cao,… Cùng với phát triển khoa học máy tính, người hiểu sâu thân hoạt động nhận thức mình, hệ thống tri thức mà tích lũy được, đưa thuộc tính tri thức đồi hỏi tri thức hoạt động thực tiễn người môi trường ngày biến động, đồng thời thúc đẩy việc nghiên cứu phương pháp khoa học công nghệ đưa giải pháp công nghệ để biểu diễn, thu thập tìm kiếm tri thức, xử lý tri thức, quản trị tri thức nhằm đáp ứng nhu cầu người trình vận động phát triển Qua trình phát triển việc khai phá tri thức chia theo số bước sau: - Tri thức chắn phương pháp suy luận logic tất định - Tri thức khơng chắn việc tìm quy luật cho không chắn - Tri thức không chắn mơi trường biến động Chúng ta tổng hợp khái niệm khai phá tri thức sau: Khai phá tri thức (đơi cịn gọi khai phá liệu hay khám phá tri thức), cách chung q trình phân tích liệu từ nhiều nguồn liệu khác tổng hợp liệu thành tri thức 11 I.1.3 Các trình khai phá tri thức Việc khai phá tri thức thơng thường mơ tả sơ đồ quy trình sau: Xác định vấn đề không gian liệu để giải vấn đề Chuẩn bị liệu Khai phá liệu Tổng hợp kết đánh giá Triển khai tri thức khai phá Trong đó, bước quy trình có vai trị riêng có nhiệm vụ khác cho bước bao gồm sau: Quy trình 1: Xác định vấn đề không gian liệu để giải vấn đề (Problems Understanding and Data Understanding) Trong quy trình này, việc xác định vấn đề định không gian liệu để giải vấn đề bao gồm lựa chọn nguồn liệu, phạm vi ứng dụng khơng gian tốn để từ hình thành lên quy mơ tốn Việc xác định vấn đề không gian liệu để giải vấn đề chiến lược định thành công hay thất bại suốt trình khai phá liệu 12 Quy trình 2: Chuẩn bị liệu (Data Preparation) Đây quy trình thực thao tác làm liệu (Data Cleaning), tích hợp liệu (Data Integration), chọn liệu (Data Selection), biến đổi liệu (Data Transformation) Việc làm liệu việc thực trích lọc liệu cần thiết loại bỏ liệu nằm phạm vi toán nhằm khám phá tri thức theo số tiêu trí xác định trước Tích hợp liệu, chọn liệu biến đổi liệu mục đích để thực thao tác chuyển đổi, tính tốn xử lý để liệu có khn dạng khác dạng thống nhất, rút gọn liệu chỉnh sửa liệu sai lệch hầu hết sở liệu lớn thường dư thừa sai lệch liệu Sau bước chuẩn bị, liệu dùng cho khám phá tri thức làm mịn phù hợp cho bước khai phá liệu tiếp sau Quy trình 3: Khai phá liệu (Data Mining) Quá trình bắt đầu hệ thống liệu để khai phá xây dựng thực biến đổi Tại trình này, việc phân tích đưa định lựa chọn khai thác liệu, áp dụng kỹ thuật xây dựng, khai phá liệu để trích chọn mẫu, mơ hình, mối quan hệ ẩn liệu để từ khai phá tri thức cần thiết Các lớp mơ thình phổ biến phương pháp khai phá liệu là: - Mơ hình dự đốn bao gồm: Phân lớp (Classification); Hồi quy (Regression) phân cụm (Clustering) 13 - Mơ hình phụ thuộc, chẳng hạn mơ hình đồ thị ước lượng mật độ - Mơ hình tóm lược tìm mối quan hệ trường, mối liên kết - Mơ hình kiểm tra thay đổi để phát độ lệch liệu tri thức Quy trình 4: Tổng hợp kết đánh giá kết (Evaluation) Mục đích giai đoạn hiểu tri thức tìm việc khai phá liệu đặc biệt làm sáng tỏ dự đoán chúng Các kết khai phá tổng hợp dạng khác nhằm mục đích hỗ trợ định Nghĩa thơng tin hữu ích tìm từ việc thực khai phá chuyển thành liệu gần gũi với người sử dụng Kinh nghiệm nhà khoa học cho thấy mẫu hay mơ hình phát từ việc khai phá liệu lúc đáng tin cậy để trực tiếp sử dụng được, mà trình khai phá tri thức cần lặp lặp lại nhiều lần để có điều chỉnh, kết bước trước liệu đầu vào cho bước sau, kết bước sau hoàn chỉnh kết bước trước Các tri thức sau khai phá đánh giá theo tiêu chí định Và để đánh giá luật áp dụng vào quy trình khai phá tri thức, người ta thường chia liệu thành hai tập: Tập thứ dùng để huấn luyện; Tập thứ hai dùng để kiểm chứng Và thực áp dụng quy trình số lần với phần chia liệu khác nhau, sau lấy giá trị trung bình kết có sau lần áp dụng để ước lượng luật khả thi 14 Quy trình 5: Triển khai tri thức khai phá (Deployment) Giai đoạn thực áp dụng tri thức khai phá vào thực tế Trong số trường hợp, người ta sử dụng tri thức mà không cần đưa vào hệ thống máy tính Hoặc tri thức đưa vào hệ thống máy tính làm sở ứng dụng khác khai thác, ví dụ làm sở tri thức cho hệ chuyên gia, sau đưa kết để người dùng sử dụng để áp dụng cho thực tế Đây mục đích q trình thực khai phá tri thức Trong thực tế việc thực khai phá tri thức tuân thủ theo quy trình phân chia trên, mà có quy trình phải thực lặp lặp lại nhiều lần, lần cho kết hoàn kết lần trước Việc lặp lặp lại giúp cho kết trình thực khai phá tri thức có kết hồn thiện rõ ràng I.2 KHAI PHÁ DỮ LIỆU I.2.1 Khái niệm khai phá liệu Ngày nay, việc khai phá liệu coi việc khai phá tri thức từ liệu (Knowlegde mining from data), trích lọc tri thức (Knowlegde extraction), phân tích liệu mẫu (data –parent analysis), khảo cứu liệu (data archaeology)… Khai phá liệu định nghĩa q trình trích lọc thơng tin có giá trị ản khối lượng lớn liệu lưu trữ sở 15 liệu kho liệu,… Khai phá liệu coi trình tìm kiếm, khám phá nhiều góc độ để tìm mẫu hay mơ hình tồn bên sở liệu bị che khuất Để trích rút mẫu, mơ hình tiềm ẩn có tính “tri thức” ta phải tìm áp dụng phương pháp, kỹ thuật khai phá cho kỹ thuật phương pháp phù hợp với tính chất, phù hợp với đặc trưng liệu mục đích sử dụng Tuy khai phá liệu bước trình khai phá tri thức từ liệu lại bước tiên quyết, quan trọng ảnh hưởng đến kết tồn q trình Tóm lại, nói cách khái quát, khai phá liệu q trình tìm kiếm thơng tin “tri thức” tiềm ẩn sở liệu lớn, khổng lồ Vì thế, nói hai thuật ngữ khám phá tri thức khai phá liệu tương đương nhau, cịn xét theo góc độ chi tiết khai phá liệu giai đoạn có vai trị quan trọng q trình khám phá tri thức I.2.2 Mục tiêu khai phá liệu Qua nội dung trình bày trên, hiểu cách sơ lược khai phá liệu q trình tìm kiếm thơng tin hữu ích, tiềm ẩn mang tính dự báo sở liệu lớn Việc khai phá liệu nhằm mục đích sau: - Khai thác thơng tin tiềm ẩn mang tính dự đốn từ sở liệu lớn dựa công cụ khai phá liệu nhằm dự đoán xu hướng tương lai nhằm giúp đối tượng cần tri thức khai phá như: tổ chức, doanh nghiệp, nhà nghiên cứu… nhằm đưa 16 định kịp thời, định hướng tri thức khám phá mang lại - Thực phân tích xử lý, tính toán liệu cách tự động cho trình xử lý liệu để tìm tri thức I.2.3 Chức khai phá liệu Việc khai phá liệu thực nhiều dạng lưu trữ liệu nhiều hệ thống sở liệu khác Các chức khai phá liệu dựa dạng mơ hình từ sở liệu thơng qua hai loại loại khai phá liệu dựa công việc khai phá liệu mô tả khai phá liệu dự báo: - Khai phá liệu mơ tả mơ tả thuộc tính tổng quát liệu sở liệu dựa phân tích mơ tả tập mẫu biết khả nhận thức người, giúp hiểu rõ tri thức liệu họ - Khai phá liệu lại dự báo thực việc suy luận liệu để đưa dự báo nhằm phân tích tập liệu huấn luyện tạo mơ hình cho phép dự đốn mẫu, mơ hình chưa biết Trong số trường hợp đối tượng phân tích liệu nhằm tìm mơ hình cách song song khơng thể tìm mơ hình phù hợp Cũng có trường hợp, người sử dụng khơng xác định mơ hình liệu mình, họ thực tìm kiếm nhiều dạng mơ hình khác 17 cách song song để lấy mơ hình thực lựa chọn Chính vậy, vấn đề quan trọng khai phá liệu để có hệ thống khai phá liệu thực khai phá đa dạng mơ hình chứa đựng nhiều ứng dụng mong đợi khác người sử dụng Hơn nữa, hệ thống khai phá liệu nên khám phá mơ hình nhiều mức độ trừu tượng khác Mặt khác, hệ thống sở liệu nên cho phép người sử dụng xác định rõ gợi ý dẫn làm tập trung việc tìm kiếm mơ hình thú vị Vì mơ hình khơng nắm bắt tất liệu sở liệu nên tiêu chuẩn để đo độ chắn độ tin cậy thường gắn kết với mẫu khám phá Các chức khai phá liệu thể thơng qua bước phân tích xử lý liệu bao gồm phân tích kết hợp phân cụm, phân tích dự báo… phương pháp phân tích dùng để khai phá liệu xem xét đây: a Phân tích kết hợp (Association Analysis) Phân tích luật kết hợp việc khám phá luật kết hợp để thể điều kiện giá trị thuộc tính xảy thường xuyên tập liệu cho Phân tích luật kết hợp thường sử dụng lĩnh vực phân tích thương mại hay giỏ hàng b Phân cụm (Cluster Analysis) Cách thức phân cụm dựa đối tượng liệu mà không cần tới nhãn lớp biết Các nhãn lớp khơng có mặt liệu huấn luyện chúng xác định trước Sự phân cụm sử dụng để 18 sinh nhãn cách đơn điệu phục vụ cho khai phá Các đối tượng phân cụm dựa nguyên tắc làm “tăng tối đa giống lớp làm giảm thiểu khác lớp” -(maximizing the intrerclass similarity and minimizing the interclass similarity) Các cụm đối tượng hình thành cho đối tượng nhóm có giống cao đối tượng khác cụm khác khơng giống Mỗi cụm hình thành xem lớp đối tượng, từ lớp đối tượng luật trích chọn Sự phân cụm giúp cho cách thức phân loại cách dễ dàng thông tin thu thập thành hệ thống có thứ bậc c Phân lớp dự đốn (Classification and Prediction) Một phương pháp phân tích liệu dùng khai phá liệu phương pháp phân lớp dự đốn Phân lớp q trình tạo lập tập hợp mơ hình chức năng, nhiệm vụ Quá trình phân lớp bao gồm mô tả phân biệt khái niệm lớp liệu nhằm mục đích dự báo lớp đối tượng mà biết nhãn Mơ hình đối tượng rút dựa phân tích nhẫn tập liệu huấn luyện Dự đốn q trình liên quan đến việc dự đoán giá trị liệu dự đoán nhãn lớp Nó thường sử dụng để dự đoán giá trị liệu dự đoán nhãn lớp Sự phân lớp dự đoán cần phải định trước sau phân tích thích hợp Điều nhằm làm cố gắng nhận dạng loại bỏ thuộc tính khơng có tham vào q trình phân lớp dự đốn 19 I.2.4 Phương pháp khai phá liệu Hiện nay, có nhiều phương pháp khai phá liệu sử dụng phụ thuộc vào cách tiếp cận phương pháp phân tích, tổng hợp liệu lớn mơ hình thống kê, mạng neural, lý thuyết tập thô tập mờ, biểu diễn tri thức,… Phương pháp khai phá liệu so với số phương pháp khai phá tri thức khác có số lợi khai phá liệu sử dụng với liệu có nhiễu, liệu không đầy đủ liệu biến đổi liên tục Trong phần này, trình bày cách sơ lược số phương pháp khai phá liệu thông dụng sử dụng, là: phương pháp khai phá liệu sử dụng phân cụm (data mining with Clustering), phương pháp khai phá liệu sủ dụng luật kết hợp (data mining with Association Rules), phương pháp khai phá liệu sử dụng mạng neural (Data Mining with Neural Networks), phương pháp khai phá liệu sử dụng giải thuật di truyền (Genetic Algorithm –GA), phương pháp khai phá liệu sử dụng hệ chuyên gia, phương pháp khai phá liệu sử dụng thống kê Tuy nhiên, phương pháp trọng tâm đề tài Phương pháp sử dụng định sử dụng làm trọng tâm đề tài a Phương pháp hệ chuyên gia Phương pháp khác với khai phá liệu chỗ: ví dụ chuyên gia thường có chất lượng cao so với liệu sở liệu, chúng thường bao hàm trường hợp quan trọng Hơn chuyên gia xác định giá trị tính hữu ích mẫu phát triển 20 b Phương pháp thống kế Phương pháp thống kê tảng lý thuyết khai phá liệu, cách thức sử dụng phương pháp là; - Thống kê liệu, hoạt động hoàn tồn theo liệu - Cần có định hướng người dùng để xác định nguồn gốc liệu nơi lưu trữ liệu - Khơng sử dụng tri thức có sẵn lĩnh vực cần khai phá… c Phương pháp phân cụm Đây kỹ thuật nhóm mẫu liệu tương tự theo đặc trưng chúng Kỹ thuật cho phép phân chia liệu thành cụm cho cụm có tương đồng theo tiêu chuẩn Các luật ràng buộc thành viên cụm xây dựng từ mối quan hệ chúng tùy thuộc vào mức độ “giống nhau” thành viên tham gia cụm, số lượng cụm khơng xác định trước Kỹ thuật phân cụm dùng cách thức khác phân cụm phần phân cụm theo thứ bậc Kết thu tập mẫu trích chọn sở liệu lớn chúng chung số tính chất Kết coi tri thức, thơng tin hữu ích để sử dụng để tạo thành tập liệu nhỏ hơn, dễ hiểu hơn,… d Phương pháp luận kết hợp 21 Khai phá liệu phương pháp luật kết hợp xuất phát từ nhu cầu thực tiễn để phân tích liệu giao dịch thị trường, chẳng hạn phân tích đặc tính mặt hàng có xu hướng mua đồng thời… Khai phá luật kết hợp hình thành từ việc quan sát, thống kê mức độ thường xuyên xảy đồng thời tập thuộc tính sở liệu nhằm phát luật kết hợp thành phần liệu sở liệu lớn Kết kỹ thuật tập luật kết hợp, chúng dạng biểu diễn tri thức sử dụng cho hoạt động khác e Phương pháp mạng Neural Kỹ thuật khai phá liệu sử dụng mạng Neural ngày phổ biến ứng dụng rộng rãi ngành công nghiệp mở như: Chuẩn đoán bệnh y học, nhận dạng khác hàng sử dụng dịch vụ nhận diện thẻ giao dịch… Phương pháp dựa tảng toán học với khả huấn luyện dựa theo mơ hình thần hinh người Khi cho tập liệu huấn luyện vào hệ thống mạng, hệ thống mạng tự huấn luyện, tự điều chỉnh qua lớp mạng cho liệu kết đầu ra, q trình thực lặp lặp lại nhiều lần đến mạng học theo tập liệu mẫu thành công Huấn luyện liệu mạng Neural cho kết có ý nghĩa từ sở liệu lớn ẩn chứa nhiều lỗi thiếu sót bên trong, tức nhiều thời gian để gia công lại liệu trước đưa vào cho 22 mạng học, vấn đề khó phức tạp phương pháp khai thác khác Một mạng Neural hoạt động tốt có khả tự “học” qua lần huấn luyện mà không cần can thiệp hệ làm việc, khả tự điều chỉnh điểm mạnh so với phương pháp khác mạng Neural Các kết mạng có khả tạo mơ hình dự báo với độ xác cao có khả phát xu hướng phức tạp mà người kỹ thuật thông thường phát Do có khả tạo mơ hình có độ xác cao nên phương pháp đáp ứng nhiệm vụ đặt khai phá liệu phân lớp, dự báo, mơ hình hóa… Tuy nhiên, phương pháp có số mặt yếu việc chọn xây dựng hàm tính tốn cho mạng để phù hợp với u cầu tốn thường khơng đơn giản việc chọn mơ hình mạng gặp khó khăn, việc lựa chọn thời điểm để mạng dừng huấn luyện không đơn giản Kết thu thường khơng dễ hiểu người mà có ý nghĩa nhà chuyên môn Hơn nữa, vấn đề thời gian, mạng hoạt động đòi hỏi phải có thời gian phải huấn luyện liệu nhiều lần mà kinh tế thị trường đầy cạnh tranh địi hỏi phải có định ngồi xác cịn phải nhanh chóng kịp thời có hiệu f Phương pháp giải thuật di truyền 23 Phương pháp giải thuật di truyền phương pháp mơ q trình tiến hóa tự nhiên, ý tưởng phương pháp dựa vào quy luật chọn lọc, biến đổi tiến hóa tự nhiên sinh học Với phương pháp này, tập liệu ban đầu gọi quần thể xuất phát, sau qua thao tác giống việc lai ghép, thích nghi liệu xác định hàm đánh giá – thích nghi theo giai đoạn Q trình tiến hóa khiến cho liệu có tính chất “thích nghi” ngày cao g Phương pháp định Phương pháp định phương pháp lấy làm trọng tâm đề tài Phương pháp coi công cụ mạnh phổ biến việc phân lớp (Classification) dự báo (Prediction) liệu, tức đối tượng liệu phân thành lớp giá trị liệu chưa biết dự đoán Với phương pháp định, tri thức mô tả dạng đơn giản, trực quan, dễ hiểu người sử dụng Tuy nhiên, địi hỏi phải có khơng gian định để mơ tả tri thức giới hạn hiểu người Chi tiết phương pháp xin trình bày chương sau I.3 CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU Các kỹ thuật khai phá liệu bao gồm kỹ thuật sau: Kỹ thuật khai phá liệu mơ tả; Có nhiệm vụ mơ tả tính chất đặc tính chung liệu sở liệu có Các kỹ thuật gồm có: Phân cụm (Clustering); Tóm tắt (Summerization); trực quan hóa (Visualization); Phân tích phát triển độ lệch (Evolution and Deviation analyst); Phân tích luật kết hợp (Association Rules)… 24 I.3.1 Kỹ thuật khai phá liệu dự đoán Kỹ thuật khai phá liệu dự đốn có nhiệm vụ đưa dự đoán dựa vào suy diễn liệu thời Kỹ thuật bao gồm: Phân lớp (Classification); Hồi quy (Regression)… I.3.2 Phân cụm liệu Mục tiêu phương pháp phân cụm liệu nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng thuộc lớp tương đồng đối tượng thuộc cụm khác không tương đồng Phân cụm liệu ví dụ phương pháp học khơng có thầy Giống phân lớp liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu học quan sát (Learning by observation), phân lớp liệu học ví dụ (Learning by Example) Trong phương pháp này, biết trước kết cụm thu bắt đầu thực q trình Vì vậy, thơng thường cần có chuyên gia lĩnh vực để đánh giá cụm thu Phân cụm liệu sử dụng nhiều ứng dụng phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang web Ngồi ra, phân cụm liệu cịn sử dụng bước tiền xử lý cho thuật toán khai phá liệu khác I.3.3 Phân lớp liệu qui hồi Dự đoán nhãn lớp cho mẫu liệu mục tiêu phương pháp phân lớp liệu Quá trình phân lớp liệu thường gồm hai bước sau: Xây dựng sử dụng mơ hình để phân lớp liệu: 25 Bước 1: Một mơ hình xây dựng dựa việc phân tích mẫu liệu có sẵn Mỗi mẫu tương ứng với lớp, định thuộc tính gọi thuộc tính lớp Các mẫu liệu gọi tập liệu huấn luyện (Traning data set) Các nhãn lớp tập liệu huấn luyện phải xác định trước xây dựng mơ hình, phương pháp cịn gọi học có thầy (Supervised learning), khác với phâm cụm liệu học khơng có thầy (Unsupervised learning) Bước 2: Sử dụng mơ hình để phân lớp liệu Trước hết, phải tính độ xác mơ hình Nếu độ xác chấp nhận được, mơ hình sử dụng để dự đoán nhãn lớp cho mẫu liệu khác tương lai Phương pháp hồi qui khác với phân lớp liệu chỗ: Hồi qui dùng để dự đốn giá trị liên tục cịn phân lớp liệu dùng để dự đốn giá trị rời rạc I.3.4 Khai phá luật kết hợp Mục tiêu phương pháp phát đưa mối liên hệ giá trị liệu sở liệu Mẫu đầu giải thuật khai phá liệu tập luật kết hợp tìm Các luật kết hợp dạng biểu diễn tri thức, hay xác dạng mẫu hình thành tri thức Phương pháp nhằm phát luật kết hợp thành phần liệu sở liệu Tuy nhiên, phương pháp làm gia tăng nhanh chóng số lượng phép tính thơng số Điều làm ảnh hưởng định đến thời gian thực giải thuật tiêu tốn tài nguyên hệ thống 26 I.3.5 Khai phá liệu sử dụng mạng Neural Mạng Neural phương pháp khai phá liệu phát triển dựa cấu trúc toán học với khả học mơ hình hệ thần kinh người Mạng Neural đưa ý nghĩa liệu phức tạp khơng xác sử dụng để chiết suất mẫu phát xu hướng phức tạp mà người kỹ thuật máy tính khác phát Một ưu điểm mang Neural phải kể đến khả tạo mơ hình dự đốn có độ xác cao, áp dụng cho nhiều tốn khác nhau, đáp ứng nhiệm vụ đặt khai phá liệu như: Phân lớp; Phân nhóm; Mơ hình hóa; Dự báo… Mẫu chiết suất mạng Neural thể nút đầu mạng Mạng Neural sử dụng hàm số khơng sử dụng hàm biểu tượng để tính mức tích cực nút đầu cập nhật trọng số Đặc điểm mạng Neural không cần gia công liệu đầu vào nhiều, trước bắt đầu trình học kỹ thuật khác Tuy nhiên, để sử dụng mạng Neural có hiệu cần phải xác định yếu tố thiết kế mạng như: Mơ hình mạng gì? Mạng cần nút? 27 Số lớp ẩn sử dụng cho mạng nào? Khi việc học dừng? Ngồi ra, cịn có nhiều bước quan trọng cần phải làm để tiền xử lý liệu trước đưa vào mạng Neural để mạng hiểu Mạng Neural đóng gói với thơng tin trợ giúp chuyên gia đáng tin cậy họ đảm bảo mơ hình làm việc tốt Sau học, mạng coi chuyên gia lĩnh vực mà vừa học I.3.6 Khai phá liệu sử dụng thuật giải di truyền Khai phá liệu sử dụng thuật giải di truyền phương pháp khơng thực phát tri thức mà cịn phục vụ nhiều tốn khác Ví dụ như: tốn tối ưu hóa lập lịch Tư tưởng thuật toán áp dụng quy luật chọn lọc tự nhiên Người ta mô tập liệu ban đầu kí tự nhị phân gọi quần thể xuất phát Bằng thao tác lai ghép, đột biến biến đổi quần thể gene ban đầu loại bỏ số gene, làm cho số lượng gene quần thể không thay đổi Một hàm thích nghi xây dựng để xác định mức độ thích nghi ngày cao Về lý thuyết, giải thuật di truyền cho lời giải tối ưu toàn cục (khác với phương pháp mạng Neural) Tuy nhiên, người ta hạn chế lời giải với mức độ thích nghi để hạn chế số lượng bước xây dựng quần thể Nói theo nghĩa rộng, giải thuật di truyền mơ lại hệ thống tiến hóa tự nhiên, xác giải thuật tập cá thể 28 hình thành, ước lượng biến đổi Ví dụ như: xác định xem làm để lựa chọn cá thể tạo giống lựa chọn cá thể để loại bỏ Giải thuật di truyền giải thuật tối ưu hóa, sử dụng rộng rãi việc tối ưu hóa kỹ thuật khai phá liệu có kỹ thuật mạng Neural Sự kết hợp với giải thuật khai phá liệu chỗ tối ưu hóa cần thiết để xác định giá trị tham số tạo luật tốt I.3.7 Khai phá liệu sử dụng định Phân lớp khai phá liệu luật cách tiếp cận quan trọng trình khai phá liệu, mục tiêu tạo tập luật tương đối nhỏ có tính đắn cao từ sở liệu lớn Và định coi phương pháp tiếp cận truyền thống cho phép phân lớp luật Cây định đưa tiếp cận heuristic nhằm tìm kiếm thuộc tính tốt dẫn đến kết cao Tuy nhiên, định có số hạn chế triển khai lựa chọn thuộc tính xây dựng định Các hạn chế định trường hợp phân rã tái tạo cây, vấn đề phân rã định cần phân chia liệu nhiều lần để nhận biết toàn liệu mẫu; vấn đề tái tạo cần xây dựng lại nhiều lần làm cho định có độ sâu lớn khó hiểu Cây định mô tả tri thức dạng đơn giản nhằm phân loại đối tượng liệu thành số lớp định Các nút gán nhãn tên thuộc tính, cạnh (cung) gán giá trị thuộc tính, mơ tả lớp khác Các đối tượng 29 phân lớp theo đường cây, qua cạnh tương ứng với giá trị thuộc tính đối tượng tới Quá trình xây dựng định trình phát luật phân chia liệu cho thành lớp định nghĩa Trong thực tế, tập định có tốn lớn khó duyệt hết cách tường tận Có nhiều phương pháp xây dựng định khai phá liệu, phương pháp sử dụng thuật tốn CLS, ID3, C4.5, … phương pháp tương đối tiên tiến phương pháp xây dựng định dựa phụ thuộc hàm I.4 CÁC CÁCH THỨC KHAI PHÁ DỮ LIỆU Mặc dù phương pháp ứng dụng khai phá liệu phong phú đa dạng cho việc giải toán thực tế Tuy nhiên, vấn đề gặp khơng khó khăn thách thức từ việc chuẩn bị việc khai phá việc trình bày sử dụng tri thức tìm thấy • Khó khăn sở liệu Việc khai phá liệu thường dựa tập sở liệu lớn, liệu thực tế thường phức tạp, nhập nhằng, đa dạng, có tính chất thời gian, khơng đầy đủ bị nhiễu,… Ngồi ra, sở liệu lưu trữ phân tán, với số lượng thuộc tính số lượng ghi đa dạng phong phú dẫn đến độ phức tạp tốn q lớn, khơng gian tìm kiếm rộng 30 Vấn đề liệu phụ thuộc vào thời gian gây khơng khó khăn khai phá, liệu phụ thuộc vào thời gian tính chất liệu thay đổi vào thời điểm quan sát hay khai phá nên tính đắn hay tri thức khai phá phụ thuộc vào thời điểm sử dụng Có liệu thời điểm định nên điều gây nên hiệu ứng phụ khai phá liệu Một số khó khăn khai phá liệu liên quan đến sở liệu thuộc tính khơng phù hợp, giá trị không đầy đủ gây nên nhầm lẫn ảnh hưởng tới q trình khai phá Đơi khi, thuộc tính cịn thiếu gây nên giá trị liệu bị giảm Vấn đề nhập nhằng, không chắn liệu cần quan tâm với liệu dạng gây nên phát sinh lỗi tri thức không Mối quan hệ, liên quan thuộc tính phải xét đến, thuộc tính hay giá trị có cấu trúc phân cấp, phân lớp hay có mối liên quan với gây nên lỗi sở liệu phục vụ khai phá • Một số vấn đề cần quan tâm Khi khai phá liệu, vấn đề cần quan tâm suốt trình từ bắt đầu đền sử dụng lại tri thức khai phá là: Sự khổ (overfitting): Điều thường xuyên xảy hệ thống khai phá liệu Khi sử dụng thuật toán để đưa mơ hình kết mơ hình kết khơng phù hợp khơng có khả 31 đáp ứng cho tri thức liệu dạng dẫn đến mơ hình hoạt động khơng hiệu Để khắc phục khổ này, người ta thường dùng thuật toán kiểm tra chéo kết hợp với số nguyên tắc cụ thể thống kê, dự đốn, cắt tỉa,… Tính dễ hiểu mơ hình kết quả; Mơ hình kết đối tượng quan trọng suốt trình khai phá liệu, sản phẩm cuối q trình khai phá Mơ hình kết thu phải dễ hiểu cho người sử dụng như: thể dạng đồ họa, trực quan, có cấu trúc đơn giản, dễ biểu diễn ngôn ngữ tự nhiên hay kỹ thuật có… Sự tác động người sử dụng tri thức vào tri thức thu được: Vấn đề cốt yếu trình khai phá liệu, giai đoạn cuối mục đích cuối trình khai phá liệu Những tri thức sử dụng để phân tích, dự đốn phân bố xác suất liệu trước hay phục vụ cho công đoạn khai phá tri thức hỗ trợ cho người người sử dụng định lĩnh vực Hoặc tổng hợp lại dạng báo cáo để hỗ trợ cho định khác I.4.1 Các yêu cầu khai phá liệu Khai phá liệu lĩnh vực liên quan đến nhiều ngành khoa học khác nhau, coi hội tụ nhiều ngành khoa học, bao gồm công nghệ sở liệu, thống kê, học máy, khoa học thơng tin, trí tuệ nhân tạo,… Hơn nữa, phụ thuộc vào phương pháp khai phá liệu sử dụng, kỹ thuật từ ngành khác áp dụng như: mạng Neural, lý thuyết tập mờ (Fuzzy oi rough set theory), 32 biểu diễn tri thức (Knowledge representation), chương trình logic qui nạp (inductive logic-programming),… Tùy theo dạng liệu khai phá ứng dụng khai phá liệu cho, hệ thống khai phá liệu tích hợp kỹ thuật từ việc rút trích thơng tin, nhận dạng mẫu, xử lý tín hiệu, xử lý ảnh, cơng nghệ Web, sinh tin học, kinh tế… Do có nhiều dạng khác nhiều ngành tham gia vào việc khai phá liệu việc nghiên cứu khai phá liệu mong đợi tạo khác lớn hệ thống khai phá liệu Vì thế, việc phân lớp hệ thống khai phá liệu cần thiết Sự phân lớp giúp người dùng có khả phân biệt hệ thống khai phá liệu nhận quan trọng nhu cầu hộ Hệ thống khai phá liệu phân lớp dựa theo nhiều tiêu chí yêu cầu khác nhau, sau: - Một hệ thống khai phá liệu phân lớp dựa theo dạng sở liệu khai phá Bản thân hệ thống khai phá liệu phân lớp tiếp, dựa theo tiêu chí khác nhau, như: mơ hình hay dạng liệu, ứng dụng có liên quan Mỗi lớp yêu cầu kỹ thuật khai phá liệu riêng Ví dụ, phân lớp dựa theo mơ hình liệu có hệ thống khai phá liệu quan hệ, giao dịch, hướng đối tượng, quan hệ đối tượng, kho liệu Cịn phân lớp dựa theo dạng khơng gian liệu vận dụng có hệ thống khai phá liệu khơng gian, liệu chuỗi thời gian, liệu văn bản, 33 hệ thống khai phá liệu đa phương tiện hệ thống khai World Wide Web - Các hệ thống khai phá liệu phân lớp dựa theo dạng tri thức mà chúng khai phá Nghĩa dựa chức khai phá liệu như: Sự mô tả, phân biệt, phân lớp, phân nhóm, kết hợp, phân tích dư thừa phân tích tiến hóa Một hệ thống khai phá liệu toàn diện thường cung cấp nhiều chức khai phá liệu Ngoài ra, hệ thống khai phá liệu phân biệt dựa mức độ trừu tượng tri thức khai phá, bao gồm tri thức tổng quát (có độ trừu tượng cao), tri thức mức độ liệu thô, tri thức đa mức độ (quan tâm đến nhiều mức độ trừu tượng) Một hệ thống khai phá liệu nâng cao cho phép khai phá tri thức mức độ trừu tượng - Các hệ thống khai phá liệu phân lớp theo kỹ thuật khai phá liệu sử dụng Các kỹ thuật mô tả dựa theo mức độ tương tác người dùng liên quan (ví dụ như: hệ thống hoạt động độc lập, hệ thống khảo sát tương tác, hệ thống điểu khiển truy vấn) dựa vào phương pháp phân tích liệu sử dụng như: học máy, nhận biết mẫu, thống kê, mạng Neural,…) Thường hệ thống khai phá liệu tinh vi chấp nhận đa kỹ thuật khai phá liệu kỹ thuật tích hợp cách kết nối từ nhiều ưu điểm, thành vài phương pháp riêng lẻ khác - Các hệ thống khai phá liệu cịn phân lớp dựa theo ứng dụng đưa vào 34 I.4.2 Đánh giá, kết luận Khai phá liệu khâu trình phát tri thức từ liệu Để thực nhiệm vụ người ta sử dụng nhiều phương pháp khác từ phương pháp hồi quy, tương quan, kiểm định giả thuyết,… phương pháp quen thuộc phân tích thống kê phương pháp mơ q trình học tốn phân loại xếp nhóm mạng Neural nhân tạo, mơ q trình tiến hóa sinh học để xây dựng giải thuật “di truyền” giải toán phép lai ghép, chọn lọc, trao đổi chéo, đột biến “bắt trước” phép biến đổi gene sinh học, xây dựng định để rút luật định xác tri thức xác lĩnh vực Q trình khai phá tri thức liệu trình lâu dài phức tạp nhằm nhận biết mẫu mơ hình ẩn chứa liệu dựa kỹ thuật thiết kế, tổng hợp, thăm dị, phân tích để phát mẫu liệu thức hợp từ hợp thức hóa kết tìm cách áp dụng mẫu phát cho tập liệu Có thể thấy hầu hết lĩnh vực từ đời sống, kinh tế, xã hội đến khoa học kỹ thuật,… cần khối lượng lớn thơng tin, liệu Q trình khai phá liệu xuyên suốt qua nhiều giai đoạn từ xác định vấn đề, tiền xử lý (làm sáng liệu, tổng hợp liệu, chuyển đổi liệu,…), khai phá liệu, đánh giá mẫu khai phá đến trình bày tri thức khai phá Trong giai đoạn giai đoạn tiền xử lý liệu giai đoạn tốn thời gian giai đoạn khai phá liệu giai đoạn quan trọng Nhiệm vụ khai phá liệu tìm mẫu cần quan tâm phù hợp với yêu cầu đối tượng cần khai phá từ khối lượng khổng lồ 35 liệu Các mẫu sau khai phá tri thức nằm tiềm ẩn liệu khai phá từ nhiều mơ hình sở liệu khác như: sở liệu quan hệ, sở liệu hướng đối tượng, sở liệu không gian,… từ dạng lưu trữ thông tin khác sở liệu đa phương tiện, sở liệu thời gian thực,… Việc khai phá liệu phù hợp hiệu sở liệu lớn nhu cầu thách thức với nhà khoa học 36 CHƯƠNG II: CÁC KHÁI NIỆM CƠ BẢN II.1 CÂY QUYẾT ĐỊNH II.1.1 Khái niệm chung a Phân lớp dự đoán Trong sở liệu lớn thường có nhiều thơng tin hữu ích khơng thể rõ, mà thơng tin lại sử dụng để định giao dịch tiên đốn thơng minh nhiều lĩnh vực Đối với dạng thông tin thường phương pháp phân tích, tổng hợp thống kê truyền thống khó phát Sự phân lớp dự báo hai dạng phân tích liệu, chúng sử dụng để rút trích mơ hình mơ tả lớp liệu quan trọng để dự đoán xu hướng liệu tương lai Trong phân lớp (Classification) dùng để dự đoán nhãn rõ ràng, dự báo (prediction) sử dụng mơ hình từ hàm giá trị liên tục Sự dự báo xem xây dựng sử dụng mơ hình để truy cập tới lớp mẫu khơng có nhãn, để truy vập giá trị dùng giá trị thuộc tính, giá trị mong đợi có mẫu cho Với cách nói này, phân lớp hồi qui (Classification and Regression) hai dạng vấn đề dự đốn Trong đó, phân lớp sử dụng để dự đoán giá trị định danh giá trị rời rạc, cịn hồi qui sử dụng để dự đoán giá trị liên tục có thứ tự Tuy nhiên, khai phá liệu người ta thường chấp nhận: 37 phân lớp dùng để dự đốn nhãn lớp, cịn dự đoán dùng để tiên đoán giá trị liên tục (như việc sử dụng kỹ thuật hồi qui) Trong đề tài này, chọn phương pháp định để khai phá liệu nên chương chương luận văn trình bày nghiên cứu kỹ thuật phân lớp liệu sở liệu quan hệ, tính chất sở liệu quan hệ, phụ thuộc hàm xấp xỉ phân lớp định, số phương pháp xây dựng định b Cây định Cây định kiểu mơ hình dự báo (prediction model), nghĩa ánh xạ từ quan sát vật tượng tới kết luận giá trị mục tiêu vật tượng Cây định có cấu trúc hình tượng trưng phương thức định cho việc xác định lớp kiện cho Mỗi nút tên lớp phép thử cụ thể, phép thử chia không gian liệu nút thành kết đạt phép thử Mỗi tập chia không gian liệu tương ứng với vấn đề phân lớp Sự phân chia thông qua tương ứng Quá trình xây dựng định xem chiến thuật chia để trị cho phân lớp đối tượng Một định mơ tả khái niệm nút đường nối nút (gọi cung) Mỗi nút định là: 38 - Nút (leaft node) hay gọi nút trả lời (answer node), biểu thị cho lớp trường hợp, nhãn tên lớp - Nút khơng phải (Non-leaft node) hay gọi nút (inner node), nút xác định phép thử thuộc tính (attribute test), nhãn nút có tên thuộc tính có nhánh (hay đường đi) nối nút đến (sub tree) ứng với kết có phép thử Nhãn nhánh giá trị thuộc tính Nút khơng phải nút nằm gọi nút gốc (root node) Một định sử dụng để phân lớp liệu cách bắt đầu từ nút gốc xuyên qua theo nhánh gặp nút lá, ta có lớp kiện xét Ví dụ tập huấn luyện: STT Tuổi Bậc lương Nghạch Học vị Chức danh >40 Cao Giảng viên Tiến sỹ Có >40 Trung bình Giảng viên Thạc sỹ Có >40 Cao Kỹ sư Khơng >40 Trung bình Giảng viên Thạc sỹ Khơng 30-40 Trung bình Giáo viên TH Kỹ sư Khơng 30-40 Trung bình Giáo viên TH Thạc sỹ Có Giáo viên TH 39 30-40 Thấp Kỹ sư Khơng 𝐵𝐵 Chúng ta nói r thỏa mãn 𝑟𝑟 AB b Hệ tiền đề Armstrong Giả sử R tập thuộc tính hữu hạn Và giả sử P(R) tập tập R Cho Y=P(R) Khi ta nói Y họ f R với tập thuộc tính A,B,C,D ⊆ R; (A,A)∈ Y (A,B) ∈ Y, (B,C) ∈ Y⇒ (A,C) ∈ Y (A,B) ∈ Y, A ⊆C, D⊆B ⇒ (C,D) ∈ Y (A,B) ∈ Y, (C,D) ∈ Y ⇒ (A ⋃ C, B ⋃ D) ∈ Y c Bao đóng tập phụ thuộc hàm tập thuộc tính Giả sử F tập phụ thuộc hàm sơ đồ quan hệ s= Một tập tất phụ hàm suy diễn logic từ F luật hệ tiên đề 44 Armstrong Ký hiệu F+ F+ gọi bao đóng F d Khóa tối thiểu sơ đồ quan hệ quan hệ • Khóa: Giả sử r quan hệ, s= sơ đồ quan hệ Y họ f R, A∈ R Khi A khóa r (tương ứng khóa 𝑓𝑓 s, khóa Y) 𝐴𝐴 > 𝑅𝑅 (A → R ∈ F+, (A,R) ∈ F • Khóa tối thiểu 𝑟𝑟 Gọi A khóa tối thiểu r (tương ứng s, Y) nếu: - A khóa r (tương ứng s, Y) - Bất kỳ tập thực A khơng khóa r (tương ứng s, Y) Ký hiệu Kr (tương ứng Ks, KY) tập tất khóa tối thiểu r (tương ứng s, Y) e Các dạng chuẩn Thông thường, việc cập nhật sở liệu thực thông qua thao tác thêm, sửa, xóa Các thao tác dễ gây lên lỗi sở liệu mà ngun nhân q trình lặp lặp lại số liệu quan hệ Để làm giảm thiểu sai sót cập nhật liệu người ta thường tách quan hệ thành quan hệ nhỏ hay biến đổi chúng dạng chuẩn thích hợp Q trình gọi q trình chuẩn hóa 45 Một số khái niệm: • Phụ thuộc hàm đầy đủ phụ thuộc hàm phận Cho trước F tập phụ thuộc hàm R XY phụ thuộc hàm F Tập Y gọi phụ thuộc hàm đầy đủ vào X không tồn tập thực Z X mà ZY ∈ F+ Trong trường hợp ngược lại Y gọi phụ thuộc hàm phận vào X • Phụ thuộc hàm bắc cầu Cho F tập phụ thuộc hàm R X,Y ∈ R Tập Y gọi phụ thuộc bắc cầu vào X tồn tập thực Z X cho XZ ∈ F+, Z∉ F+ Y không tập thực Z Trong trường hợp ngược lại, Y gọi phụ thuộc hàm trực tiếp X • Dạng chuẩn Cho trước sơ đồ quan hệ s=, với R tập thuộc tính F tập phụ thuộc hàm s gọi là: (1) dạng chuẩn (1NF) toàn miền giá trị thuộc tính s khơng thể phân chia (2) Ở dạng chuẩn (2NF) s dạng chuẩn thuộc tính khơng s phụ thuộc đầy đủ vào khóa tối thiểu s (3) Ở dạng chuẩn (3NF) s dạng chuẩn khơng có thuộc tính s phụ thuộc vào khóa tối thiểu s 46 (4) Ở dạng chuẩn Boyce –Codd (BCNF) s dạng chuẩn khơng có thuộc tính s phụ thuộc bắc cầu vào khóa tối thiểu s Đối với quan hệ r tập thuộc tính R, r gọi dạng chuẩn (tương ứng dạng chuẩn 2, dạng chuẩn dạng chuẩn BCNF) II.2.5 Phụ thuộc hàm xấp xỉ Khái niệm phụ thuộc hàm xấp xỉ (approximate functional dependency) phương pháp phát phụ thuộc hàm xấp xỉ nhiều tác giả đề cập đến ứng dụng nhiều toán phân lớp data mining Theo tác giả phụ thuộc hàm xấp xỉ người ta cần xác định tỉ số số lượng không thỏa mãn luật với tổng số có quan hệ Một số trường hợp xấp xỉ khác có nhóm thuộc tính chúng khơng có phụ thuộc hàm theo kiểu tuyệt đối (theo cách định nghĩa phụ thuộc hàm thông thường), mà có phụ thuộc theo kiểu tương quan đến nhiều tốn thực tế Ví dụ, mã hàng hóa đơn giá, doanh thu chi… Để phân biệt với khái niệm phụ thuộc hàm xấp xỉ tác giả đưa (gọi phụ thuộc hàm xấp xỉ loại 1), phụ thuộc hàm xấp xỉ xây dựng gọi phụ thuộc hàm xấp xỉ loại Khái niệm phần tử ngoại lai (outliers) số tác Knorr, Arning, Hawkins đề xuất nghiên cứu theo hướng tiếp cận theo thống kê độ đo Theo hướng nghiên cứu này, phần tử ngoại 47 lai xác định dựa khác biệt nhóm phần tử đa số phần tử khác tập liệu (khác biệt khoảng cách, khác biệt phân phối…) Hướng tiếp cận xác định phần tử ngoại lai theo luật (Rules Base) đề xuất dựa việc phần tử quan hệ không theo ràng buộc, qui tắc cho trước Các (qui tắc) ràng buộc đề cập bao gồm ràng buộc cấu trúc sở liệu (phụ thuộc hàm, dạng chuẩn,…) ràng buộc ngữ nghĩa mà phần tử quan quan hệ phải tuân theo Việc nghiên cứu phần tử ngoại lai có nhiều ý nghĩa ứng dụng việc làm liệu; phát sai sót q trình xây dựng định khai phá liệu Các khái niệm tính chất phụ thuộc hàm xấp xỉ, giá trị ngoại lai khoảng cách giúp xác định phụ thuộc hàm xấp xỉ tính chất phụ thuộc hàm a Định nghĩa • Định nghĩa 1: Cho 𝜀𝜀, ≤ 𝜀𝜀 ≤ 1, X→Y phụ thuộc hàm xấp xỉ nếu: appro(X→Y) ≤ 𝜀𝜀, với appro (X→Y)=1-(max{|s|, s tập r X→Y s}/|r|) Ở |s|, |r| số phần tử s r • Định nghĩa 2: (phụ thuộc hàm xấp xỉ loại 2) Giả sử X,Y ⊆ R với số 𝛿𝛿 cho trước, 0≤ 𝛿𝛿 < 1, ta nói X xác định hàm Y mức 𝛿𝛿 (hoặc nói X,Y có phụ thuộc hàm xấp xỉ loại mức 𝛿𝛿), kí hiệu X ≈>𝛿𝛿 Y với cặp t1, t2 ∈ r, mà 𝜌𝜌(t1(X), t2(X)) ≤ 𝛿𝛿 ta có ρ(t1(Y), t2(Y)) ≤ 𝛿𝛿 48 Trong đó, ρ(t1(X), t2(X)) khoảng cách hai giá trị thuộc tính, ρ(t1(X), t2(X)) tính sau: Với t1,t2 ∈ r, ta kí hiệu ρ(t1(X), t2(X)) khoảng cách t1 t2 tập thuộc tính X ⊆ R, xác định sau: ρ(t1(X), t2(X))=max( |t1(Ai)-t2(Ai)| / max(|t1(Ai)|, |t2(Ai)|), Ai ∈ X); hàm max(x,y) hàm chọn số lớn số x,y; Trường hợp max((|t1(Ai)|, |t2(Ai)|)=0, tức t1(Ai)=t2(Ai)=0 ta qui ước: ( |t1(Ai)-t2(Ai)| / max(|t1(Ai)|, |t2(Ai)|)=0 b Một số tính chất phụ thuộc hàm xấp xỉ Tồn thuật tốn có độ phức tạp thời gian đa thức để xây dựng định từ tập phụ thuộc hàm xấp xỉ cho trước Xét tập X tập r, Error(X) đánh giá lỗi tập nhỏ cần phải loại bỏ tập r để X khóa r Nếu Error(X) < ε X gọi khóa xấp xỉ r Một số tính chất hàm khoảng cách ρ(t1(X),t2(X)): Định nghĩa khoảng cách ρ(t1(X),t2(X)) nêu thỏa mãn tính chất hàm khoảng cách: a1 ρ(t1(X),t2(X)) ≥0 với t1, t2, X tùy ý; a2 ρ(t1(X),t2(X))=0 ⇔ t1(X)=t2(X) 49 a3 ρ(t1(X),t2(X)) ρ(t1(X),t3(X)) + ρ(t2(X),t3(X)) a4 Nếu X ⊆ Y ρ(t1(X),t2(X)) (t1(Y),t2(Y)) a5 ρ(t1(XY),t2(XY)) max(ρ(t1(X),t2(X)) , ρ(t1(Y),t2(Y)) 50 CHƯƠNG III: MỘT SỐ PHƯƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH III.1 THUẬT TOÁN XÂY DỰNG CÂY QUYẾT ĐỊNH Hầu hết thuật toán xây dựng định có sử dụng phương pháp quy nạp Phương pháp cho phép xây dựng định từ số bước sở Sau số thuật toán xây dựng định tiêu biểu III.1.1 Thuật toán CLS - Concept Learning System III.1.1.1 Giới thiệu thuật tốn CLS Đây coi thuật toán xây dựng dựa ý tưởng cách thức xây dựng định Thuật tốn Hunt trình bày Concept Learning System (CLS) vào cuối thập niên 50 kỷ 20 Ý tưởng thuật toán gọi thuật toán CLS, theo cách thức chia để trị Thuật tốn trình bày sau: Bước 1: Tạo nút T, Nút chứa tất mẫu tập huấn luyện Bước 2: Nếu tất mẫu T có giá trị Yes (positive) thuộc tính định gán nhãn cho nút T Yes dừng thuật toán Bước Nếu tất mẫu T có giá trị No (Negative) thuộc tính định gán nhãn cho nút T No dừng thuật tốn Bước 4: Trường hợp ngược lại thì: 51 (a) Chọn thuộc tính X có giá trị v1, v2, v3,….,vn làm nhãn cho T (b) Chia T thành tập T1, T2, T3,… Tn dựa theo giá trị X (c) Tạo n nút Ti (i=1 n), với T cha nút (d) Tạo nhánh nói từ T đến Ti, nhánh có nhãn tương ứng giá trị vi thuộc X Bước Đệ quy cho nút Ti III.1.1.2 Ví dụ minh họa Để minh họa cho thuật tốn này, xây dựng định với tập liệu huấn luyện Bảng 2.1.1 Tập mẫu liệu huấn luyện cán giáo viên với thuộc tính STT dùng để định danh, thuộc tính Tuổi, Bậc lương, Ngạch cơng chức, Học vị thuộc tính ứng viên dùng để xét cịn thuộc tính Chức danh dùng làm thuộc tính khẳng định, dùng để phân lớp Cây định xây dựng dựa thuật toán tập huấn luyện cho thơng qua bước sau: B1 Chọn thuộc tính hệ số lương, ta có hình 3.1.1: Bậc lương [1,2,3,4,5,6,7,8,9] Cao [1,2,5] Thấp Trung bình [4,6,8,9] Hình 3.1.1 [3,7] 52 B2 Tiếp theo, ta chọn thuộc tính Học vị để mở rộng nhánh bên trái, ta Hình 3.1.2: Bậc lương [1,2,3,4,5,6,7,8,9] Thấp Cao Trung bình Học vị [1,2,5] Tiến sỹ Yes [1] Thạc sỹ Yes [2] [3,7] [4,6,8,9] Kỹ sư Yes [5] Hình 3.1.2 B3 Tiếp tục chọn thuộc tính Học vị để mở rộng nhánh giữa, ta Hình 3.1.3: Bậc lương [1,2,3,4,5,6,7,8,9] Thấp Cao Tiến sỹ Yes [1] Trung bình Học vị Học vị [1,2,5] [4,6,8,9] Thạc sỹ Yes [2] Kỹ sư Yes [5] Tiến sỹ No Thạc sỹ Nghạch CC [4,6,8] Hình 3.1.3 [3,7] Kỹ sư Yes [9] 53 B4 Tiếp tục chọn thuộc tính Học vị để mở rộng nhánh phải, ta Hình 3.1.4: Bậc lương [1,2,3,4,5,6,7,8,9] Thấp Cao Tiến sỹ Trung bình Học vị Học vị Học vị [1,2,5] [4,6,8,9] [3,7] Thạc sỹ Yes [1] Yes [2] Tiến sỹ Kỹ sư Yes [5] Thạc sỹ Kỹ sư Tiến sỹ Yes [9] No Thạc sỹ Kỹ sư No No [3,7] [4,6,8] Hình: 3.1.4 B5 Chọn thuộc tính Ngạch công chức để mở rộng ta hình minh họa Hình: 3.1.5 Bậc lương [1,2,3,4,5,6,7,8,9] Thấp Cao Tiến sỹ Yes [1] Trung bình Học vị Học vị Học vị [1,2,5] [4,6,8,9] [3,7] Thạc sỹ Yes [2] Kỹ sư Yes [5] Tiến sỹ Thạc sỹ Kỹ sư Yes [9] Ngạch CC No Yes [4] No Thạc sỹ Kỹ sư No [3,7] [4,6,8] Giảng viên Tiến sỹ Giáo viên TH Yes [6,8] Hình: 3.1.5 54 B6 Tiếp chọn thuộc tính Ngạch cơng chức để mở rộng ta hình ảnh Hình 3.1.6 Đây kết đạt sử dụng thuật toán CLS tập huấn luyện cho Bậc lương [1,2,3,4,5,6,7,8,9] Thấp Cao Tiến sỹ Yes [1] Trung bình Học vị Học vị Học vị [1,2,5] [4,6,8,9] [3,7] Thạc sỹ Yes [2] Thạc sỹ Kỹ sư Kỹ sư Yes [9] Ngạch CC No [5] Tiến sỹ No Thạc sỹ No Kỹ sư Ngạch CC [4,6,8] Giảng viên Yes [4] [3,7] Giáo viên TH Yes [6,8] Giảng viên Giáo viên TH No Hình:3.1.6 Nhận xét: Chúng ta thấy rằng, bước thuật tốn CLS, chọn thuộc tính khác cho định có hình dáng khác Điều có nghĩa việc chọn thuộc tính ảnh hưởng đến độ phức tạp cho kết khác Vấn đề đặt làm để chọn thuộc tính coi tốt cho lần chọn, để cuối ta có tối ưu Thuật toán sau giải vấn đề Yes [3,7] 55 III.1.2 Thuật tốn ID3 (interactive Dichotomizer) III.1.2.1 Giới thiệu thuật toán ID3: Thuật toán ID3 Quinlan đưa thuật tốn xây dựng định sử dụng thơng tin thu (information gain) để ước lượng, lựa chọn thuộc tính phân lớp Thuật tốn xây dựng theo cách tiếp cận từ xuống tập đối tượng đặc tả thuộc tính Tại đỉnh, thuộc tính có thơng tin thu lớn chọn để phân chia tập đối tượng Quá trình thực đệ quy tập đối tượng trở nên nghĩa chứa đối tượng thuộc lớp, tập trở thành Việc lựa chọn thuộc tính cho phép thử quan trọng, định thành công việc xây dựng Thông thường việc chọn thuộc tính sử dụng cho thuật tốn sử dụng độ đo gọi Entropy Information Gain thuộc tính để xếp thứ tự chọn thuộc tính bước Entropy thuộc tính tính tốn từ thuộc tính phân lớp Đối với thuộc tính rời rạc, cần phải có thơng tin phân lớp giá trị thuộc tính Thuật tốn ID3 xác định phân lớp đối tượng cách kiểm tra giá trị thuộc tính ID3 xây dựng định theo hướng từ xuống tập đối tượng đặc tả thuộc tính Tại nút cây, thuộc tính kiểm tra kết phép kiểm tra sử dụng để chia tập đối tượng thành phần theo kết Quy trình thực đệ quy tập đối tượng sinh theo tiêu chí phân 56 lớp Các lớp dạng trở thành nhãn nút Tại nút, thuộc tính dùng để kiểm tra chọn dựa vào lượng thông tin thu lớn thông qua hàm Entropy Information Gain (IG) đại lượng dùng để đưa độ ưu tiên chọn thuộc tính Chúng ta xét khái niệm hàm Entropy, Information Gain a Entropy Entropy cho phép xác định tính không khiết mẫu với liệu Giả sử S tập mẫu dương mẫu âm, mẫu mang giá trị: “Yes”, “Possitive”, “True”, “+” “Có” cho mẫu dương “No”, “Negative”, “False”, “-” cho mẫu âm P(+) tỷ lệ mẫu dương S P(-) tỷ lệ mẫu âm S Khi đó, ta tính Entropy S sau: Entropy(S)=-P(+)log2(P(+)) - P(-)log2(P(-)) Trong trường hợp tổng quát, S bao gồm t lớp Entropy S tính công thức: Entropy(S)=∑𝑡𝑡𝑖𝑖=0 −𝑃𝑃(𝑖𝑖) log 𝑃𝑃(𝑖𝑖) , Pi tỷ lệ mẫu thuộc lớp i tập S 57 Với ví dụ trên, bảng 2.1.1.1 Tập mẫu liệu huấn luyện cán công chức trường ĐH Công nghiệp ta tính tốn Entropy sau: Tập S bao gồm phần tử, có mẫu có giá trị dương “Có” giá trị âm “Khơng”, để đơn giản hóa ta ký hiệu [4+, 5-] Entropy tập S tính sau: 4 5 Entropy(S)=Entropy([4+,5-])=− � � log � � − � � log � �= 0.991 Nhận xét: 9 9 Entropy(S)=0 tất mẫu S thuộc lớp Thật vậy, tất mẫu đề dương P(+)=1 P(-)=0 Entropy(S)=1 tập S có số mẫu dương số mẫu âm Entropy(S) nằm khoảng [0,1] số mẫu khác b Information Gain Information Gian (thông tin thu được) độ đo mức độ hiệu thuộc tính tốn phân lớp liệu Đó rút gọn mà ta mong đợi phân chia mẫu theo thuộc tính này, tính theo công thức sau: Gain(S,A)=Entropy (S) -∑𝑣𝑣∈𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉(𝐴𝐴) |𝑆𝑆𝑣𝑣 | |𝑆𝑆| Entropy(𝑆𝑆(𝑣𝑣) ), Value(A) tập tất giá trị thuộc tính A S tập S mà A có giá trị v, 𝑆𝑆(𝑣𝑣) tập phần tử thứ v 58 c Thuật toán ID3 Thuật toán ID3 phát biểu sau: Đầu vào: Tập cá mẫu huẫn luyện samples (thể thuộc tính có giá trị rời rạc); Tập thuộc tính ứng viên ( attribute_list) Đầu ra: Một định Mơ tả thuật tốn: Function: Gen_Decision_Tree(Si, attribute_list,test_list) Bước 1: Tạo nút N; Bước 2: Nếu tất nút mẫu thuộc lớp C trả N nút với nhãn C; Bước 3: Nếu danh sách thuộc tính ứng viên attribute_list rỗng trả N nút gắn nhãn lớp phổ biến mẫu samples; Bước 4: Chọn thuộc tính kiểm tra – test_attribute, thuộc tính danh sách thuộc tính ứng viên attribute_list có giá trị Gain cao nhất; Bước 5: Gán nhãn cho nút N tên thuộc tính kiểm tra test_attribure; Bước 6: Với giá trị thuộc tính kiểm tra test_attribure Đâm chồi từ N ứng với giá trị thuộc tính test_attribute; 59 Gọi Si tập mẫu ứng với giá trị thuộc tính test_attribute: + Nếu Si rỗng thì: Gán vào nút với nhãn lớp phổ biến mẫu samples; nhãn gán rỗng (empty) + Ngược lại: gán vào nút nút trả cách gọi đệ qui Gen_Decision_Tree (Si, attribute_list,test_list); III.1.2.2 Ví dụ: Để minh họa cho thuật tốn ID3, xây dựng định với tập liệu huấn luyện Bảng 2.1.1.1 Tập mẫu liệu huấn liệu cán công chức trường ĐH Cơng nghiệp với STT chọn làm thuộc tính để định danh, thuộc tính Tuổi, Bậc lương, Ngạch cơng chức, Học vị cá thuộc tính ứng viên dùng để xét cịn thuộc tính chức danh dùng làm thuộc tính khẳng định, dùng để phân lớp Với ví dụ này, ta xác định giá trị Gain cho thuộc tính ứng viên (STT,Tuổi, Bậc lương, Ngạch công chức, Học vị) Gọi S tập huấn luyện, S gồm mẫu có phân bố sau: ([4+, 5-]) Với thuộc tính Tuổi có giá trị “>40”, “30-40” “40”; [1+, 2-] ứng với tuổi “30-40”; ứng với tuổi “40”, “30-40”, “40=[2+, 2-] S30-40=[1+, 2-] S40;30−40;40 ) − 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸(𝑆𝑆30−40 ) − 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸(𝑆𝑆40;30−40;40 ) − 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸(𝑆𝑆30−40 ) 9 − 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸(𝑆𝑆0.05 có chức danh Sau thực tìm với tất phụ thuộc hàm xấp xỉ phù hợp với q trình xây dựng định, ta xây dựng định Học vị sau: Kỹ sư Thạc sỹ Có Khơng Tuổi 30-40 40 Có Có Bậc lương Trung bình Ngạch Giảng viên Không III.2 CẮT TỈA CÂY QUYẾT ĐỊNH Khi xây dựng định cách phát triển nhánh đầy đủ theo chiều sâu để phân lớp hoàn toàn mẫu huấn luyện thuật tốn CLS ID3, đơi gặp khó khăn trường hợp liệu bị nhiễu số lượng mẫu huấn luyện nhỏ không đủ để đại diện cho quy luật Nghĩa tạo nên nút có số lượng mẫu q nhỏ, khơng đủ tốt cho định nên xẩy tượng over-fitting 72 Để giải vấn đề này, người ta thường phải tiến hành cắt tỉa định, với cách thức sử dụng cắt tỉa trước (prepruning) cắt tỉa sau (postpruning) Chiến thuật cắt tỉa trước chiến thuật dừng việc phát triển trước phát triển đến điểm hoàn thành phân lớp liệu Chiến thuật cắt tỉa sau ngược lại, thực phát triển đầy đủ thực cắt bỏ nhánh không hợp lý gây tượng over-fitting Thơng thường người ta sử dụng phương pháp cắt tỉa sau để tìm giả thiết có độ xác cao Chiến thuật tiến hành thơng qua việc tính tốn lỗi nút sau: Bước 1: Lập giả thuyết cho trường hợp lỗi tĩnh E(S), lỗi từ nút nút S (BackupError(S)) lỗi nút S (Error(S)) Bước 2: Tính tốn lỗi xác định: Error(S)=Min(E(S),BackupError(S)) Trong đó, E(S)=(N-n+1)/(N+2) với N tổn số mẫu nút S, n số mẫu lớp phổ biến S Trường hợp tổng quát, thuộc tính lớp có k giá trị giá trị tính sau: E(S)=(N-n+1)/(N+k) Và 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵(𝑆𝑆) = ∑ 𝑃𝑃𝑖𝑖 ∗ 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸(𝑆𝑆𝑖𝑖 ), Si nút S Pi tỷ lệ số mẫu Si số mẫu S Như vậy, nút có lỗi Error(Si)=E(Si) nút khơng có nút dẫn đến nên khơng có BackupError Và chiến thuạt cắt tỉa sau định thực cắt tỉa nút S BackupError(S)≥ E(S) 73 III.3 ĐÁNH GIÁ THUẬT TỐN VÀ KẾT LUẬN III.3.1 Đánh giá thuật tốn Qua vấn đề xem xét trên, thấy rằng: Mỗi thuật tốn có ưu điểm nhược điểm riêng Thuật toán CLS xây dựng ý tưởng giải nhiệm vụ cách thu nhận khái niệm đơn giản, nhiên thuật tốn CLS đời ngành cơng nghệ thông tin giai đoạn khởi đầu đặc biệt vấn đề lưu trữ liệu xử lý liệu tương đối đơn giản Chính thế, giải thuật CLS đủ để đáp ứng cho trường hợp sở liệu nhỏ giá trị rời rạc Khi gặp liệu lớn có thuộc tính liên tục thuật tốn khơng mang lại kết mong muốn Mặt khác, sử dụng thuật toán mẫu liệu, cho nhiều kết khác Đặc biệt trình xây dựng định, việc lựa chọn thuộc tính chưa có tiêu chí cụ thể, nên chọn thứ tự thuộc tính khác cho kết khác Thuật toán đơn giản, việc cài đặt dễ dàng Thuật toán ID3 Quinlan đưa để khắc phục số hạn chế CLS, xem cải tiến CLS ID3 cho kết tốt so với kết CLS, thực xây dựng định, ID3 sử dụng tiêu chí để lựa chọn thuộc tính phù hợp ứng viên bước tạo Khi áp dụng ID3 tập liệu mẫu cho kết Tuy nhiên, giải thuật ID3 lại gặp khó khăn áp dụng cho tập liệu có thuộc tính có nhiều giá trị giá trị thuộc tính có tính liên tục đặc biệt liệu bị thiếu hay bị nhiễu 74 Với nhược điểm thuật toán ID3, Quinlan lại tiếp tục đưa thuật toán C4.5 để khắc phục nhược điểm mà ID3 gặp phải Giải thuật C4.5 thực phân lớp thuộc tính số thuộc tính có giá trị liên tục phép tách nhị phân Quinlan đưa thêm vào hàm GrainRatio Gain để giải trường hợp thuộc tính có nhiều giá trị, thuật tốn C4.5 cịn có bước xác định lỗi tính lỗi cho nút có phương pháp cắt tỉa Tuy C4.5 cải tiến nhiều vấn đề cịn có vấn đề khó khăn phức tạp liệu bị nhiễu Vấn đề sở liệu nghiên cứu từ sớm trình phát triển ngành công nghệ thông tin Các khái niệm, tính chất sở liệu đặc biệt phụ thuộc hàm sở liệu quan hệ chứng minh cách chặt chẽ Khác với việc lựa chọn cảm tính phương pháp lựa chọn thuộc tính để phát triển khác Tuy nhiên, với định nghĩa chặt chẽ phụ thuộc hàm nêu trên, gặp sở liệu lớn phức tạp, việc xác định phụ thuộc hàm khó khăn Chính vậy, Kwok-Wa Lam Victor C.S Lee đưa phương pháp xây dựng định dựa phụ thuộc hàm xấp xỉ phần khắc phục vấn đề III.3.2 Kết luận Trên số trình bày khái quát phân lớp, giới thiệu số thuật toán xây dựng định số vấn đề xây dựng định sử dụng phụ thuộc hàm sở liệu quan hệ, đặc biệt phụ thuộc hàm xấp xỉ, khái niệm xu nghiên cứu khai phá liệu Trong đó, việc tìm kiếm phụ thuộc hàm xấp xỉ sử dụng thuật toán TANE sở liệu lớn có sẵn tương đối dễ dàng chấp nhận thời gian kết 75 Tuy nhiên, để đặt yêu cầu hệ thống khai phá liệu đáp ứng đầy đủ mong muốn phải cần nhiều thời gian nghiên cứu phát triển 76 CHƯƠNG IV: IV.1.1 ỨNG DỤNG THỬ NGHIỆM BÀI TOÁN THỬ NGHIỆM Với ví dụ sở liệu bảng 2.1.1 Thực xây dựng chương trình sử dụng định dựa theo số thuật toán CLS, ID3 C4.5 để thực khai phá liệu theo tiêu chí quản lý sau: - Các thuộc tính mẫu là: STT; Tuổi, Bậc lương; Ngạch cơng chức; Học vị - Thuộc tính kiểm tra thuộc tính chức danh, đẻ thực kiểm tra cán cơng chức có chức danh hay chưa IV.1.2 KẾT QUẢ ĐẠT ĐƯỢC Chương trình xây dựng ngơn ngữ lập trình Visual Basic Net 2005, sử dụng hệ quản trị sở liệu SQL 2005 Thiết kế chương trình sau: - Cho người dùng thực kết nối với sở liệu định khai phá liệu - Chọn bảng liệu mẫu - Lựa chọn thuộc tính thuộc tính kiểm tra - Lựa chọn thuộc tính làm thuộc tính mẫu - Lựa chọn xem kết theo thuật toán CLS, ID3 C4.5 77 IV.1.3 MỘT SỐ GIAO DIỆN CỦA CHƯƠNG TRÌNH IV.1.3.1 Giao diện 78 IV.1.3.2 Cây định dựa theo thuật toán CLS 79 IV.1.3.3 Cây định dựa theo thuật toán ID3 IV.1.3.4 Cây định dựa theo thuật toán C4.5 80 CHƯƠNG V: KẾT LUẬN Trong thời đại ngày nay, việc khám phá tri thức có sở liệu xu hướng quan lĩnh vực công nghệ thông tin Nó có khả ứng dụng vào nhiều toán thực tế khác Điều quan trọng q trình người sử dụng thu nhiều tri thức hữu ích từ nguồn thơng tin khổng lồ có Chính vậy, nhà nghiên cứu thực cải tiến phương pháp khai phá liệu nhằm đáp ứng ngày tốt để ứng dụng khai phá liệu có cho đời sống kinh tế, xã hội Phương pháp sử dụng định để khai phá liệu phương pháp tốt để khai phá liệu phương pháp cho phép người sử dụng xây dựng hệ thống hỗ trợ định dựa thuật toán chứng minh tính đắn Khai phá liệu cịn coi trình tìm kiếm khám phá nhiều góc độ khác để tìm mối tương quan, mối liên hệ theo phương diện khác để tìm mẫu tồn sở liệu mà bị ẩn Trong khn khổ luận văn phân tích số thuật tốn tiêu biểu, nhiên để thực tốt hơn, đề tài cịn mở rộng hướng nghiên cứu liên quan đến xây dựng hệ thống định dựa phụ thuộc hàm xấp xỉ, ứng dụng số thuật toán thuật toán TANE, FUN, DEP-MINER,… nhằm xác định đánh giá phụ thuộc hàm xấp xỉ cho sở liệu thực tế có độ lớn liệu, xây dựng số phương pháp lựa chọn phụ thuộc hàm xấp xỉ tối ưu xây dựng hệ thống hỗ trợ định 81 TÀI LIỆU THAM KHẢO Nguyễn Thanh Thủy, Khai phá liệu – Kỹ thuật ứng dụng, Hà nội, 2001 Vũ Đức Thi, Cơ sở liệu – Kiến trúc thực hành, Nhà xuất Thống kê, 1997 Han J and Kamber M., Data Mining: Concept and Techniques, Morgan Kaufman, Academic Press, 2001 J.R, Quinlan, Machine Learning 1, 81-106, 1986, © 1986 Kluwer Academic Publishers, Boston – Manufactured in The Netherlands Joshi K.P., Paper: Analysis of Data Mining Algorithms, 1997 ... bày cách sơ lược số phương pháp khai phá liệu thơng dụng sử dụng, là: phương pháp khai phá liệu sử dụng phân cụm (data mining with Clustering), phương pháp khai phá liệu sủ dụng luật kết hợp (data... sử dụng hệ chuyên gia, phương pháp khai phá liệu sử dụng thống kê Tuy nhiên, phương pháp trọng tâm đề tài Phương pháp sử dụng định sử dụng làm trọng tâm đề tài a Phương pháp hệ chuyên gia Phương. .. Rules), phương pháp khai phá liệu sử dụng mạng neural (Data Mining with Neural Networks), phương pháp khai phá liệu sử dụng giải thuật di truyền (Genetic Algorithm –GA), phương pháp khai phá liệu