Tài liệu khai phá dữ liệu

33 2.5K 47
Tài liệu khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai phá dữ liệu

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN SINH VIÊN NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH Giảng viên hướng dẫn: T.S Hồ Cẩm Hà Sinh viên thực : Nguyễn Thị Hạnh Lớp : K54C- CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học HÀ NỘI -2008 LỜI CẢM ƠN Trước tiên em xin gửi lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin - Trường đại học sư phạm Hà Nội tần tình giúp đỡ giảng dạy cho chúng em năm học vừa qua Đặc biệt, em xin gửi lời cảm ơn chân thành tới cô giáo - T.S Hồ Cẩm Hà thầy cô giáo tổ mơn Hệ thống thơng tin tận tình hướng dẫn, giúp đỡ em hoàn thành đề tài nghiên cứu khoa học Trong thời gian vừa qua em cố gắng nhiều để hoàn thành tốt đề tài nghiên cứu khoa học Song chắn kết nghiên cứu không tránh khỏi thiếu sót, em kính mong nhận bảo góp ý q thầy bạn Em xin chân thành cám ơn! Ký tên Hạnh Nguyễn Thị Hạnh Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học MỤC LỤC LỜI MỞ ĐẦU Chương 1: Tổng quan khai phá liệu 1.1 Khám phá tri thức khai phá liệu gì? .4 1.2 Quá trình phát tri thức 1.2.1 Hình thành định nghĩa tốn 1.2.2 Thu thập tiền xử lý liệu .6 1.2.3 Khai phá liệu rút tri thức 1.2.4 Phân tích kiểm định kết 1.2.5 Sử dụng tri thức phát 1.3 Quá trình khai phá liệu 1.3.1 Gom liệu (gatherin) 1.3.2 Trích lọc liệu (selection) 1.3.3 Làm tiền xử lý liệu (cleansing preprocessing) 1.3.4 Chuyển đổi liệu (transformation) 91.3.5 Phát trích mẫu liệu ( pattern extraction and discovery) 1.3.6 Đánh giá kết mẫu (evaluation of result ) .9 1.4 Chức khai phá liệu 1.5 Các kỹ thuật khai phá liệu .10 1.5.1 Phân lớp liệu: 10 1.5.2 Phân cụm liệu: 10 1.5.3 Khai phá luật kết hợp: 10 1.5.4 Hồi quy: 11 1.5.5 Giải thuật di truyền: 11 1.5.6 Mạng nơron: 11 1.5.7 Cây định 12 1.6 Các dạng liệu khai phá 12 1.7 Các lĩnh vực liên quan đến khai phá liệu ứng dụng khai phá liệu 12 1.7.1 Các lĩnh vực liên quan đến phát tri thức khai phá liệu 12 1.7.2 Ứng dụng khai phá liệu 12 1.8 Các thách thức hướng phát triển phát tri thức khai phá liệu 13 Chương 2: Khai phá liệu định 14 2.1 Cây định 14 2.1.1 Định nghĩa định 14 2.1.2 Ưu điểm định .15 2.1.3 Vấn đề xây dựng định 15 2.1.4 Rút luật từ định .16 Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học 2.2 Các thuật toán khai phá liệu định 16 2.2.1 Thuật toán CLS 16 2.2.2 Thuật toán ID3 17 2.2.3 Thuật toán C4.5 19 2.2.4 Thuật toán SLIQ[5] 23 2.2.5 Cắt tỉa định 26 2.2.6 Đánh giá kết luận thuật toán xây dựng định 28 Chương 3: Xây dựng chương trình dêmo 30 3.1 Mơ tả tốn 30 3.2 Thu thập tiền xử lý liệu 30 3.3 Chương trình 31 Chương KẾT LUẬN 32 4.1 Đánh Giá 32 4.1.1 Lý thuyết 32 4.1.2 Ứng dụng 32 4.2 Hướng Phát Triển .32 Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học LỜI MỞ ĐẦU Trong nhiều năm qua, với phát triển công nghệ thông tin ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống xã hội, lượng liệu quan thu thập lưu trữ ngày nhiều lên Người ta lưu trữ liệu cho ẩn chứa giá trị định Tuy nhiên theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) phân tích, số cịn lại họ khơng biết phải làm làm với liệu này, họ tiếp tục thu thập lưu trữ hy vọng liệu cung cấp cho họ thông tin quý giá cách nhanh chóng để đưa định kịp thời vào lúc Chính vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu bắt đầu đưa vào số ứng dụng thực tế Vì vậy, nước ta vấn đề phát tri thức khai phá liệu thu hút quan tâm nhiều người nhiều công ty phát triển ứng dụng công nghệ thông tin Trong phạm vi đề tài nghiên cứu khoa học em, em trình bày nội dung sau: Chương 1: Tìm hiểu kiến thức tổng quan khám phá tri thức khai phá liệu Chương 2: Nghiên cứu kỹ thuật khai phá liệu định Chương 3: Xây dựng ứng dụng demo cho kỹ thuật khai phá liệu định Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Chương 1: Tổng quan khai phá liệu 1.1 Khám phá tri thức khai phá liệu gì? Phát tri thức (Knowledge Discovery ) sở liệu qui trình nhận biết mẫu mơ hình liệu với tính năng: hợp thức, mới, khả ích, hiểu [4] Cịn khai thác liệu (data mining) ngữ tương đối mới, đời vào khoảng năm cuối của thập kỷ 1980 Có nhiều định nghĩa khác khai phá liệu Giáo sư Tom Mitchell đưa định nghĩa khai phá liệu sau: “Khai phá liệu việc sử dụng liệu lịch sử để khám phá qui tắc cải thiện định tương lai.” Với cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad phát biểu: ”Khai phá liệu thường xem việc khám phá tri thức sở liệu, q trình trích xuất thơng tin ẩn, trước chưa biết có khả hữu ích, dạng quy luật, ràng buộc, qui tắc sở liệu.” Cịn nhà thống kê xem " khai phá liệu trình phân tích thiết kế thăm dị lượng cực lớn liệu nhằm phát mẫu thích hợp và/ mối quan hệ mang tính hệ thống biến sau hợp thức hố kết tìm cách áp dụng mẫu phát cho tập liệu" Nói tóm lại: khai phá liệu bước quy trình phát tri thức gồm có thụât tốn khai thác liệu chuyên dùng số quy định hiệu tính tốn chấp nhận để tìm mẫu mơ hình liệu [4] 1.2 Q trình phát tri thức Quá trình khám phá tri thức tiến hành qua bước sau [5]: Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Hình 1.1 Quá trình khám phá tri thức 1.2.1 Hình thành định nghĩa tốn Đây bước tìm hiểu lĩnh vực ứng dụng hình thành toán, bước định cho việc rút tri thức hữu ích, đồng thời lựa chọn phương pháp khai phá liệu thích hợp với mục đích ứng dụng chất liệu 1.2.2.Thu thập tiền xử lý liệu Trong bước liệu thu thập dạng thô (nguồn liệu thu thập từ kho liệu hay nguồn thông tin internet) Trong giai đoạn liệu tiền xử lý để biến đổi cải thiện chất lượng liệu cho phù hợp với phương pháp khai phá liệu chọn lựa bước Bước thường chiếm nhiều thời gian trình khám phá tri thức Các giải thuật tiền xử lý liệu bao gồm : Xử lý liệu bị mất/ thiếu: Các dạng liệu bị thiếu thay giá trị thích hợp Khử trùng lắp: đối tượng liệu trùng lắp bị loại bỏ Kỹ thuật không sử dụng cho tác vụ có quan tâm đến phân bố liệu Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học Giảm nhiễu: nhiễu đối tượng tách rời khỏi phân bố chung bị loại khỏi liệu Chuẩn hoá: miền giá trị liệu chuẩn hoá Rời rạc hoá: dạng liệu số biến đổi giá trị rời rạc Rút trích xây dựng đặc trưng từ thuộc tính có Giảm chiều: thuộc tính chứa thơng tin loại bỏ bớt 1.2.3.Khai phá liệu rút tri thức Đây bước quan trọng tiến trình khám phá tri thức Kết bước trích mẫu và/hoặc mơ hình ẩn liệu Một mơ hình biểu diễn cấu trúc tổng thể thành phần hệ thống hay hệ thống sở liệu, hay miêu tả cách liệu nảy sinh Còn mẫu cấu trúc cục có liên quan đến vài biến vài trường hợp sở liệu 1.2.4 Phân tích kiểm định kết Bước thứ tư hiểu tri thức tìm được, đặc biệt làm sáng tỏ mơ tả dự đốn Trong bước này, kết tìm biến đổi sang dạng phù hợp với lĩnh vực ứng dụng dễ hiểu cho người dùng 1.2.5 Sử dụng tri thức phát Trong bước này, tri thức khám phá củng cố, kết hợp lại thành hệ thống, đồng thời giải xung đột tiềm tri thức Các mơ hình rút đưa vào hệ thống thông tin thực tế dạng môdun hỗ trợ việc đưa định Các giai đoạn q trình khám phá tri thức có mối quan hệ chặt chẽ với bối cảnh chung hệ thống Các kỹ thuật sử dụng giai đoạn trước ảnh hưởng đến hiệu giải thuật sử dụng giai đoạn Các bước trình khám phá tri Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học thức lặp lặp lại số lần, kết thu được lấy trung bình tất lần thực 1.3 Quá trình khai phá liệu Khai phá liệu hoạt động trọng tâm trình khám phá tri thức Thuật ngữ khai phá liệu số nhà khoa học gọi phát tri thức sở liệu ( knowledge discovery in database _KDD) ( theo Fayyad Smyth and PiatestkyShapiro 1989) Q trình gồm có bước [1]: Hình 1.2 Quá trình khai phá liệu Quá trình khai phá liệu bắt đầu với kho liệu thô kết thúc với tri thức chiết xuất Nội dung trình sau: 1.3.1 Gom liệu (gatherin) Tập hợp liệu bước khai phá liệu Bước lấy liệu từ sở liệu, kho liệu, chí liệu từ nguồn cung ứng web 1.3.2 Trích lọc liệu (selection) Ở giai đoạn liệu lựa chọn phân chia theo số tiêu chuẩn Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học 1.3.3 Làm tiền xử lý liệu (cleansing preprocessing) Giai đoạn thứ ba giai đoạn hay bị lãng, thực tế bước quan trọng trình khai phá liệu Một số lỗi thường mắc phải gom liệu liệu không đầy đủ không thống nhất, thiếu chặt chẽ Vì liệu thường chứa giá trị vơ nghĩa khơng có khả kết nối liệu Ví dụ Sinh viên có tuổi=200 Giai đoạn thứ ba nhằm xử lý liệu trên(dữ liệu vơ nghĩa, liệu khơng có khả kết nối) Những liệu dạng thường xem thơng tin dư thừa, khơng có giá trị Bởi trình quan trọng Nếu liệu không làm sạch- tiền xử lý - chuẩn bị trước gây nên kết sai lệch nghiêm trọng sau 1.3.4 Chuyển đổi liệu (transformation) Trong giai đoạn này, liệu tổ chức sử dụng lại Mục đích việc chuyển đổi liệu làm cho liệu phù hợp với mục đích khai phá liệu 1.3.5 Phát trích mẫu liệu ( pattern extraction and discovery) Đây bước tư khai phá liệu Ở giai đoạn nhiều thuật toán khác sử dụng để trích mẫu từ liệu Thuật tốn thường dùng để trích mẫu liệu thuật toán phân loại liệu, kết hợp liệu, thuật tốn mơ hình hố liệu 1.3.6 Đánh giá kết mẫu (evaluation of result ) Đây giai đoạn cuối trình khai phá liệu, giai đoạn mẫu liệu chiết xuất phần mềm khai phá liệu Không phải mẫu liệu hữu ích, đơi cịn bị sai lệch Vì cần phải đưa tiêu chuẩn đánh giá độ ưu tiên cho mẫu liệu để rút tri thức cần thiêt Sinh viên: Nguyễn Thị Hạnh – Lớp: C-K54-CNTT Trường đại học sư phạm Hà Nội Sinh viên nghiên cứu khoa học n Entropy(S)=  (- P log ( P )) i (2.2) i i=1 Trong Pi tỷ lệ mẫu thuộc lớp i tập hợp S mẫu kiểm tra Các trường hợp đặc biệt - Nếu tất mẫu thành viên tập S thuộc lớp Entropy(S) =0 - Nếu tập S có số mẫu phân bổ vào lớp Entropy(S) =1 - Các trường hợp lại 0< Entropy(S)

Ngày đăng: 15/08/2012, 10:56

Hình ảnh liên quan

Hình 1.1. Quá trình khám phá tri thức - Tài liệu khai phá dữ liệu

Hình 1.1..

Quá trình khám phá tri thức Xem tại trang 7 của tài liệu.
Hình 1.2. Quá trình khai phá dữ liệu - Tài liệu khai phá dữ liệu

Hình 1.2..

Quá trình khai phá dữ liệu Xem tại trang 9 của tài liệu.
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model ), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện  tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng - Tài liệu khai phá dữ liệu

rong.

lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model ), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Xem tại trang 15 của tài liệu.
Tiền xử lý dữ liệu: do một số lý do nào đó, trong bảng dữ liệu về sinh viên, có một số ô không có giá trị - Tài liệu khai phá dữ liệu

i.

ền xử lý dữ liệu: do một số lý do nào đó, trong bảng dữ liệu về sinh viên, có một số ô không có giá trị Xem tại trang 31 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan