1. Trang chủ
  2. » Luận Văn - Báo Cáo

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG

46 802 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 905 KB

Nội dung

Nội dung Chương I. Tổng quan về khám phá tri thức (KDD) và khai phá dữ liệu (DM) Chương II. Tiền xử lý dữ liệu Chương III. Một số phương pháp khai phá dữ liệu Chương IV. Lượng giá và sử dụng tri thức được khám phá Chương V. Ứng dụng I.1. Khám phá tri thức và khai phá dữ liệu là gì? Giáo sư Tom Mitchell 4 đã đưa ra định nghĩa của KPDL như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.” Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad 3 đã phát biểu: “KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG Nguyễn Thị Hương Giang Nội dung  Chương I. Tổng quan về khám phá tri thức (KDD) và khai phá dữ liệu (DM)  Chương II. Tiền xử lý dữ liệu  Chương III. Một số phương pháp khai phá dữ liệu  Chương IV. Lượng giá và sử dụng tri thức được khám phá  Chương V. Ứng dụng I. Tổng quan về khám phá tri thức (KDD) và khai phá dữ liệu (DM)  I.1. Khám phá tri thức và khai phá dữ liệu là gì? - Giáo sư Tom Mitchell [4] đã đưa ra định nghĩa của KPDL như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.” - Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [3] đã phát biểu: “KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.” II. Tiến trình khai phá tri thức Knowledge Pattern Discovery Transformed Data Cleansed Preprocessed Preparated Data Target Data Gathering Data Mining Selection Transformation Cleansing Pre-processing Preparation Envalution of Rule In t e r n e t , . In t e r n e t , . Hình 1. Quá trình khai phá dữ liệu II. Tiến trình khai phá tri thức  Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1 :  1. Gom dữ liệu (Gathering) - Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web.  2. Trích lọc dữ liệu (Selection) - Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những người có tuổi đời từ 25 – 35 và có trình độ đại học.  3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing and Preparation) - Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. - Ví dụ: tuổi = 673. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng. II. Tiến trình khai phá tri thức  4. Chuyển đổi dữ liệu (Transformation) - Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác.  5. Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery) - Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,. v.v.  6. Đánh giá kết quả mẫu (Evaluation of Result) - Đây là giai đoạn cuối trong quá trình khai phá dữ liệu. Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra.  Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là giai đoạn được quan tâm nhiều nhất hay còn gọi đó là Data Mining. II. Tiến trình KDD The KDD Process Data organized by function (accounting. etc.) Create/select target database Select sampling technique and sample data Supply missing values Normalize values Select DM task (s) Transform to different representation Eliminate noisy data Transform values Select DM method (s) Create derived attributes Extract knowledge Find important attributes & value ranges Test knowledge Refine knowledge Query & report generation Aggregation & sequences Advanced methods Data warehousing III. Các phương pháp KPDL (DM)  1. Dự đoán (Prediction) – Mô tả (Description) : - Dự đoán sử dụng các biến hoặc các trường trong cơ sở dữ liệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai của các biến đáng quan tâm - Mô tả tập trung vào việc tìm kiếm các mẫu mô tả dữ liệu mà con người có thể hiểu được. Debt Income have defaulted on their loans good status with the bank - Lớp bài toán Dự đoán sẽ học ra các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đưa ra một giá trị số học cho hàm cần dự đoán. - Ví dụ: Bài toán tiêu biểu của phương pháp này là dự đoán giá sản phẩm để lập kế hoạch trong kinh doanh.  2. Phân loại: - Ánh xạ (phân loại) một mục dữ liệu vào trong một trong nhiều lớp được định nghĩa trước. - Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ học ra bộ phân loại (classifier) dùng để phân các dữ liệu mới vào một trong những lớp (còn gọi là loại) đã được xác định trước. Nhận dạng cũng là một bài toán thuộc kiểu Phân loại. Ví dụ: nhận dạng tự động các đối tượng trong CSDL ảnh lớn III. Các phương pháp KPDL (DM) (tt)  3. Tìm luật liên kết (Association Rule): - Tìm kiếm các mối liên kết giữa các phần tử dữ liệu. - Ví dụ: nhóm các món hàng thường được mua kèm với nhau trong siêu thị. III. Các phương pháp KPDL (DM) (tt) [...]... nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu dạng số 6 Các hình thức tiền xử lý dữ liệu Làm sạch dữ liệu Tích hợp dữ liệu Biến đổi dữ liệu Thu nhỏ dữ liệu a Làm sạch dữ liệu  Các nhiệm vụ làm sạch dữ liệu  Thu nhận dữ liệu và siêu dữ liệu  Bổ sung các giá trị dữ liệu bị mất  Thống nhất định dạng ngày tháng  Chuyển đổi các giá trị sang dạng số  Xác định lệch và làm trơn nhiễu  Làm đúng dữ liệu. .. số Dữ liệu bị mất  Dữ liệu không luôn có sẵn  VD: nhiều bộ dữ liệu có các thuộc tính không có dữ liệu, như thu nhập khách hàng trong dữ liệu bán hàng  Dữ liệu bị mất do: Sự cố thiết bị  Mâu thuẫn với các bản ghi khác và do đó bị xóa  Dữ liệu không được nhập vào do hiểu nhầm  Không nhận thấy tầm quan trọng của dữ liệu nhập vào  Không ghi nhận lịch sử hoặc sự thay đổi dữ liệu  Giải quyết dữ liệu. .. cung cấp thông tin tuổi và cân nặng của họ Các thuộc tính không phù hợp trong mọi trường hợp Ví dụ: thu nhập hàng năm không áp dụng cho trẻ con 3 Các vấn đề dữ liệu Dữ liệu nào có sẵn cho nhiệm vụ khai phá?  Dữ liệu có phù hợp không?  Dữ liệu thích hợp bổ sung có sẵn không?  Dữ liệu lịch sử có sẵn được bao nhiêu?  Ai là chuyên gia dữ liệu ?  4 Các chiều đo chất lượng dữ liệu         Độ... xử lý dữ liệu  Làm sạch dữ liệu:   Tích hợp dữ liệu   Chuẩn hóa hoặc kết hợp Thu nhỏ dữ liệu   Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file Biến đổi dữ liệu   Bổ sung các giá trị bị mất, làm trơn nhiễu, nhận dạng hoặc khử lệch, giải quyết các vấn đề không nhất quán Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới kết quả phân tích Rời rạc hóa dữ liệu. .. sử dụng tỷ lệ số III Các phương pháp KPDL (DM) (tt)  8 Dò tìm và biến đổi độ lệch (Change and Deviation Detection): - Tập trung vào việc khám phá ra các thay đổi đáng kể nhất trong dữ liệu từ các dữ liệu được đo trước đó Chương II Tiền xử lý dữ liệu  1 Chất lượng dữ liệu  Mục tiêu chính của việc chuẩn bị dữ liệu: - Để sắp xếp dữ liệu thành ở dạng chuẩn sẵn sàng được xử lý bởi các chương trình khai. .. đảm bảo chất lượng thì kết quả khai phá không hiệu quả   Chất lượng các quyết định phải dựa trên chất lượng dữ liệu Kho dữ liệu cần dữ liệu cần sự tích hợp nhất quán của dữ liệu có chất lượng b Lệch  Lệch là các đối tượng dữ liệu có các đặc tính khác đáng kể với phần lớn các đối tượng dữ liệu khác trong tập dữ liệu c Các giá trị bị mất  Lý do bị mất giá trị dữ liệu Không thu thập được thông... khai phá dữ liệu - để chuẩn bị các đặc tính tốt nhất cho việc khai phá II Tiền xử lý dữ liệu  2 Tại sao phải tiền xử lý dữ liệu  Dữ    liệu trong thế giới thực là hỗn tạp Không đầy đủ: thiếu giá trị thuộc tính, thiếu các thuộc tính chắc chắn cần quan tâm, hoặc chỉ chứa dữ liệu chung Nhiễu: chứa dữ liệu bị lỗi hoặc bị lệch Không nhất quán (mâu thuẫn): chứa các mã hoặc các tên mâu thuẫn nhau  Dữ liệu. .. bài toán này thường được vận dụng trong vấn đề phân hoạch dữ liệu tiếp thị hay khảo sát sơ bộ các dữ liệu III Các phương pháp KPDL (DM) (tt)  6 Tổng hợp (Summarization) - Các phương pháp tìm kiếm một mô tả tóm tắt cho một tập con dữ liệu - Các kỹ thuật tóm tắt thường được áp dụng cho các phân tích dữ liệu tương tác có tính thăm dò và tạo báo cáo tự động III Các phương pháp KPDL (DM) (tt)  7 Mô hình... 21, 25, 25  -Bin 3: 26, 26, 26, 34  Tích hợp dữ liệu  Tích hợp dữ liệu:  Kết  hợp dữ liệu từ nhiều nguồn thành một kho lưu trữ Tích hợp lược đồ:  Tích hợp siêu dữ liệu từ nhiều nguồn khác nhau  Vấn đề định danh đối tượng: xác định các thực thể trong thế giới thực từ nhiều nguồn dữ liệu:  VD: A.cust-id ≡B.cust-#  Phát hiện và giải quyết mâu thuẫn dữ liệu:  Với cùng một thực thể trong thế giới... làm trơn nhiễu  Làm đúng dữ liệu không nhất quán Làm sạch dữ liệu: Thu nhận dữ liệu  Dữ liệu có trong các hệ quản trị CSDL:  Các  giao thức ODBC, JDBC Dữ liệu trong file:  Định dạng các cột cố định  Định dạng phân cách: tab, dấu “,”,  Phân biệt số lượng các trường trước khi làm sạch và sau khi làm sạch Làm sạch dữ liệu: Ví dụ   Dữ liệu gốc : 000000000130.06.19971979 10-3080145722 #000310 111000301.01.000100000000004 . phương pháp khai phá dữ liệu  Chương IV. Lượng giá và sử dụng tri thức được khám phá  Chương V. Ứng dụng I. Tổng quan về khám phá tri thức (KDD) và khai phá dữ liệu (DM)  I.1. Khám phá. tiên trong quá trình khai phá dữ liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web.  2. Trích lọc dữ liệu (Selection) -. KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG Nguyễn Thị Hương Giang Nội dung  Chương I. Tổng quan về khám phá tri thức (KDD) và khai phá dữ liệu (DM)  Chương II. Tiền xử lý dữ liệu  Chương

Ngày đăng: 10/11/2014, 10:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w