Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
3,72 MB
Nội dung
Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc MỤC LỤC I. Tổng quan trình khai phá liệu 1. Khái niệm Data mining trình tự động tìm kiếm trích xuất mẫu thông tin có giá trị ẩn chứa từ tập tin liệu lớn (Data Set) thực tế. 2. Quá trình khai phá liệu Quá trình khai phá liệu tiến hàng qua giai đoạn: bắt đầu trình kho liệu thô kết thúc với tri thức chiết xuất ra. Trang /14 Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc Hình 1.1. Quá trình khai phá liệu Gom liệu (Gathering): tập hợp liệu bước trình khai phá liệu. Đây bước khai phá sở liệu, kho liệu chí liệu từ nguồn ứng dụng Web. Trích lọc liệu (Selection): giai đoạn liệu lựa chọn phân chia theo số tiêu chuẩn đó. Làm sạch, tiền xử lý chuẩn bị trước liệu (Cleansing, Pre-processing and Preparation): giai đoan thứ ba giai đoạn hay bị lãng, thực tế bước quan trọng trình khai phá liệu. Một số lỗi thường mắc phải gom liệu tính không đủ chặt chẻ, logíc. Vì vậy, liệu thường chứa giá trị vô nghĩa khả kết nối liệu. Chuyển đổi liệu (Transformation): giai đoạn chuyển đổi liệu, liệu đưa sử dụng điều khiển việc tổ chức lại nó. Dữ liệu chuyển đổi phù hợp với mục đích khai phá. Phát trích mẫu liệu (Pattern Extraction and Discovery): bước mang tính tư khai phá liệu. Ở giai đoạn nhiều thuật toán khác Trang /14 Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc sử dụng để trích mẫu từ liệu. Thuật toán thường dùng nguyên tắc phân loại, nguyên tắc kết hợp mô hình liệu tuần tự. v.v. Đánh giá kết mẫu (Evaluation of Result): giai đoạn cuối trình khai phá liệu. Ở giai đoạn này, mẫu liệu chiết xuất phần mềm khai phá liệu. Không phải mẫu liệu hữu ích, bị sai lệch. Vì vậy, cần phải ưu tiên tiêu chuẩn đánh giá để chiết xuất tri thức (Knowlege) cần chiết xuất ra. Trên giai đoạn trình khai phá liệu, giai đoạn giai đoạn quan tâm nhiều hay gọi Data Mining. 3. Nhiệm vụ khai phá liệu Khai phá liệu chiết xuất tri thức có lợi cho kinh doanh hay cho nghiên cứu khoa học. Do đó, ta xem mục đích khai phá liệu mô tả kiện dự đoán 4. Các phương pháp cho khai phá liệu 4.1. Phân lớp dự đoán Phân lớp liệu tiến trình có bước: + Huấn luyện: liệu huấn luyện phân tích thuật toán phân lớp ( có thuộc tính nhãn lớp) để tạo phân lớp. + Phân lớp: Dữ liệu kiểm tra dùng để ước lượng độ xác phân lớp. Nếu xác chấp nhận dùng phân lớp để phân lớp mẫu liệu mới. Chuẩn bị liệu: + Làm liệu: nhiễu, thiếu giá trị. + Phân tích liên quan (chọn đặc trưng): thuộc tính không liên quan, thuộc tính dư thừa. + Biến đổi liệu. Các kỹ thuật phân lớp: Trang /14 Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc + Cây định: Là cấu trúc cho. • Mỗi nút ứng với phép kiểm tra thuộc tính. • Mỗi nhánh biểu diễn kết phép kiểm tra. • Các nút biểu diễn lớp hay phân bố lớp. • Nút cao nút gốc. + Các phân lớp định: • Phân lớp Bayes: Có thể dự báo xác suất thành viên lớp, chẳng hạn xác suất mẫu cho trước thuộc lớp xác định. • Phân lớp Naïve Bayes: Có thể so sánh đuợc công với phân lớp định mạng nơron. Chúng giả định thuộc tính độc lập nhau. (độc lập điều kiện lớp) • Phân lớp NAÏVE BAYESIAN + Các thuật toán sinh luật trực tiếp (không tạo cây): • Thuật toán ILA. • Thuật toán CBA 4.2. Phân cụm phân đoạn Xếp đối tượng vào lớp biết trước. Ví dụ: phân lớp liệu bệnh nhân hồ sơ bệnh án. Hướng tiếp cận thường sử dụng số kỹ thuật học máy định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Phân lớp dự đoán gọi học có giám sát. 4.3. Luật kết hợp Là dạng luật biểu diễn tri thức dạng đơn giản. Ví dụ: “80% mua bánh mì có 60% số mua sữa”. Luật kết hợp ứng dụng nhiều lĩnh vực kinh doanh, y học, tin-sinh, tài thị trường chứng khoán, .v.v. 5. Các ứng dụng khai phá liệu Trang /14 Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc Khai phá liệu lĩnh vực thu hút quan tâm nhiều nhà nghiên cứu, nhờ có nhiều ứng dụng thực tiễn, ứng dụng điển sau: Phân tích liệu hỗ trợ định (Analysis & decition support). Điều trị y học (Medical): mối liên hệ triệu chứng, chuẩn đoán phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẫu thuật). Phân lớp văn bản, tóm tắt văn phân lớp trang Web (Text mining & Web mining). Tin sinh học (Bio-informatics): Tìm kiếm, đối sánh hệ gen thông tin di truyền, mối liên hệ số hệ gen số bệnh di truyền. Nhận dạng. Tài thị trường chứng khoán (Finance & stock market): Phân tích tình hình tài dự đoán giá cổ phiếu. Bảo hiểm (Insurance). Giáo dục (Education) II. Phân cụm liệu thuật toán K – Means 1. Tổng quan phân cụm liệu 1.1. Khái niệm phân cụm liệu Quá trình phân chia tập liệu ban đầu thành cụm liệu thỏa mãn đối tượng cụm có tính chất “tương tự” nhau. 1.2. Mục đích phân cụm liệu Xác định chất việc nhóm đối tượng tập liệu nhãn. Phân cụm không dựa tiêu chuẩn chung nào, mà dựa vào tiêu chí mà người dùng cung cấp trường hợp 1.3. Một số phương pháp phân cụm Phân cụm phân hoạch Phân cụm phân cấp Trang /14 Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc Phân cụm dựa mật độ Phân cụm dựa lưới Phân cụm dựa mô hình Phân cụm có ràng buộc Một số thuật toán phân cụm Thuật toán phân cụm K-Means Phân cụm phân cấp (Hierarchical Clustering) Phân cụm theo mật độ DBSCAN Phân cụm mô hình EM 2. Thuật toán phân cụm K – Means Khái quát thuật toán 1.4. Thuật toán hoạt động tập vectơ d chiều, tập liệu X gồm N phần tử: X = {xi | i = 1, 2,…N } K-Mean lặp lại nhiều lần trình: + Gán liệu. + Cập nhật lại vị trí trọng tâm. Quá trình lặp dừng lại trọng tâm hội tụ đối tượng phận cụm. Hàm đo độ tương tự sử dụng khoảng cách Euclidean N ∑∑ i =1 xi ∈C j (|| xi − c j ||2 ) E= cj trọng tâm cụm Cj Hàm không âm, giảm có thay đổi bước: gán liệu định lại vị trí tâm Các bước thuật toán Trang /14 Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc 1. Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm đại diện tâm cụm: {ci} (i = 1÷K). 2. Tính khoảng cách đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean): S_i^((t)) = { x_j:||x_j-c_i^((t) ) || ≤||x_j-c_(i^*)^((t) ) || 3. for alli^* = 1, …, k} Nhóm đối tượng vào nhóm gần 4. Xác định lại tâm cho nhóm c_i^((t+1))=1/(|S_i^((t) ) |) ∑_(x_j∈S_i^((t)))▒x_j 6. Thực lại bước thay đổi nhóm đối tượng. III. Giới thiệu phần mềm Weka Trang /14 Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc Weka công cụ phần mềm viết Java, phục vụ lĩnh vực học máy khai thác liệu. Các tính chính: - Một tập công cụ tiền xử lý liệu, giải thuật học máy, khai phá - liệu, phương pháp thí nghiệm đánh giá. Giao diện đồ họa (gồm tính hiển thị hóa liệu). Môi trường cho phép cho sánh giải thuật học máy khai phá liệu. Simple CLI Giao diện đơn giản kiểu dòng lệnh (như MS – DOS) Explorer Môi trường cho phép sử dụng tất tính weka để khám phá liệu. Experimenter Môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê mô hình học máy. KnowledgeFlow Môi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế bước thí nghiệm. IV. Gom cụm K – Means sử dụng giao diện Weka Mô tả toán Cả nước hầu hết tỉnh/TP có diện tích sản xuất lúa định. Cùng với việc sản xuất suất lúa địa phương đem lại khác nhau. Nhằm mục đích đánh giá hiệu sản lượng mà địa phương sản xuất lúa mang để có nhìn kế hoạch phát triển việc sản xuất địa phương. Trang /14 Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc Giải pháp gom cụm liệu để giúp đánh giá việc sản lượng lúa tỉnh/ TP. Qua có nhìn tổng thể đưa định hướng để phát triển việc sản xuất cho địa phương. Trang /14 Phân cụm liệu ứng dụng Weka minh họa PGS.TS Đỗ Phúc Bạn chọn số lượng cluster thuộc tính khác cho ba kích thước khác có sẵn (trục x, trục y, màu sắc) .Kết hợp khác lựa chọn dẫn đến hình ảnh mối quan hệ khác cụm. Trong ví dụ chọn trục x biểu diễn cluster, Trục y biểu diễn số trường hợp (gán WEKA) cuối chiều màu (color) biểu diễn thuộc tính “Production”. Điều dẫn đến nhìn trình độ sản xuất cụm. Ví dụ bạn thấy cụm bị chi phối trình độ sản xuất thấp. cụm bị tri phối trình độ sản xuất cao. V. Kết luận Qua đề tài này, nhóm nghiên cứu tìm hiểu nắm kiến thức gom cụm liệu thuật toán để gom cụm liệu, thực việc gom cụm liệu phần mềm Weka. Trang 10 /14 Phân cụm liệu ứng dụng Weka minh họa VI. Slide power point Trang 11 /14 PGS.TS Đỗ Phúc Phân cụm liệu ứng dụng Weka minh họa Trang 12 /14 PGS.TS Đỗ Phúc Phân cụm liệu ứng dụng Weka minh họa Trang 13 /14 PGS.TS Đỗ Phúc Phân cụm liệu ứng dụng Weka minh họa Trang 14 /14 PGS.TS Đỗ Phúc [...].. .Phân cụm dữ liệu và ứng dụng Weka minh họa VI Slide power point Trang 11 /14 PGS.TS Đỗ Phúc Phân cụm dữ liệu và ứng dụng Weka minh họa Trang 12 /14 PGS.TS Đỗ Phúc Phân cụm dữ liệu và ứng dụng Weka minh họa Trang 13 /14 PGS.TS Đỗ Phúc Phân cụm dữ liệu và ứng dụng Weka minh họa Trang 14 /14 PGS.TS Đỗ Phúc . việc gom cụm dữ liệu trên phần mềm Weka. Trang 10 /14 Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc VI. Slide power point Trang 11 /14 Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS. Weka minh họa PGS.TS Đỗ Phúc Trang 12 /14 Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc Trang 13 /14 Phân cụm dữ liệu và ứng dụng Weka minh họa PGS.TS Đỗ Phúc Trang 14 /14 . (Education) II. Phân cụm dữ liệu và thuật toán K – Means 1. Tổng quan về phân cụm dữ liệu 1.1. Khái niệm phân cụm dữ liệu Quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu thỏa mãn