2.1. Tổng quan về khai phá dữ liệu
2.1.1. Các khái niệm cơ bản về khai phá dữ liệu
Khai phá dữ liệu (KPDL) là tập hợp các thuật tốn nhằm chiết xuất những thơng tin có ích từ kho dữ liệu khổng lồ.
Khai phá dữ liệu được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu, q trình này có thể là tự động hay bán tự động, song phần nhiều là bán tự động. Các mẫu được phát hiện thường hữu ích theo định nghĩa: các mẫu mang lại cho người sử dụng một lợi thế nào đó, thường là lợi ích về kinh tế.
Khai phá dữ liệu giống như q trình tìm ra và mơ tả mẫu dữ liệu. Dữ liệu như là một tập hợp các vật hay sự kiện, cịn đầu ra của q trình khai phá dữ liệu thường như là những dự báo của các sự vật hay sự kiện mới.
Khai phá dữ liệu được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, trong các kho dữ liệu phi cấu trúc mà điển hình là World Wide Web...
Khai phá tri thức là quá trình nhận biết các mẫu hoặc các mơ hình trong dữ liệu với các tính chất: đúng đắn, mới, có ích và có thể hiểu được. Khai phá dư liệu là một bước trong quá trình khám phá tri thức bao gồm các thuật tốn chấp nhận được để tìm ra các mẫu hoặc các mơ hình trong dữ liệu.
Như vậy, mục đích của khai phá dữ liệu là tìm ra các mẫu hoặc các mơ hình đang tồn tại trong các cơ sở dũ liệu nhưng vẫn còn bị khuất bởi số lượng dữ liệu khổng lồ.
Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge
Discovery Process), bao gồm:
- Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding).
- Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu
(data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation).
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
- Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa
chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
- Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.
- Triển khai (Deployment).
Quá trình khai thác tri thức khơng chỉ là một q trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một q trình lặp và có quay trở lại các bước đã qua. [13]
Một số phương pháp khai thác dữ liệu:
• Phân lớp (phân loại - classification)
Phân lớp dữ liệu là việc xác định một hàm ánh xạ từ một bộ dữ liệu vào một trong số các lớp đã được biết trước đó. Mục tiêu của thuật tốn phân lớp là tìm ra mối quan hệ nào đó giữa thc tính dự báo và thuộc tính phân lớp. Như thế q trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới. Các kiến thức được phát hiện biểu diễn dưới dạng các luật theo cách sau: “Nếu các thuộc tính dự báo của một mục đích thỏa mãn điều kiện của các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận”. Ví dụ: Một mục biểu diễn thơng tin về nhân viên về nhân viên có các thuộc tính dự báo là: họ tên, tuổi, giới tính, trình độ học vấn và thuộc tính phân loại là trình độ lãnh đạo của nhân viên đó. Đầu vào: một tập các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu. Đầu ra: mơ hình (bộ phân lớp) dựa trên tập huấn luyện và những nhãn phân lớp. Một số ứng dụng phân lớp tiêu biểu: Tín dụng, tiếp thị, chuẩn đốn y khoa, phân tích hiệu quả điều trị ... [10]
• Phân cụm (clustering)
Là q trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu thỏa mãn các đối tượng trong một cụm có tính chất tương tự nhau. Các nhóm có thể tách nhau hoặc gối lên nhau. Có nghĩa là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác. Mục đích: Xác định được bản chất của việc nhóm các đối tượng trong 1 tập dữ liệu khơng có nhãn. Phân cụm khơng dựa trên 1 tiêu chuẩn chung nào mà dựa vào tiêu chí mà người dùng cung cấp trong từng trường hợp. Các ứng dụng khai phá dữ liệu có nhiệm vụ phân nhóm như phát hiện các tập khách hàng có phản ứng giống nhau trong
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
CSDL tiếp thị, xác định các quang phổ từ các phương pháp đo tia hồng ngoại, .. .Một số phương pháp phân cụm: phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ, phân cụm dựa trên lưới, phân cụm dựa trên mơ hình, phân cụm có ràng buộc [10]
• Hồi quy (regression)
Là việc tìm ra một ánh xạ để đưa các bộ mẫu ngẫu nhiên vào một biến dự đoán nhận giá trị thực. Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ khơng phải rời rạc. Việc dự báo các giá trị số thường được làm bởi các phương pháp thống kê cổ điển, chẳng hạn như hồi quy tuyến tính. Ứng dụng của mơ hình hồi quy trong thực tế rất nhiều, ví dụ: dự đốn số lượng sinh vật phát quang hiện thời trong khu rừng bằng các thiết bị cảm biến từ xa, ước lượng xác suất người bệnh có thể chết bằng cách kiểm tra các triệu chứng, dự báo nhu cầu của người dùng đối với một sản phẩm,. Mơ hình hồi qui (regression model): mơ hình mơ tả mối liên kết (relationship) giữa một tập các biến dự báo (predictor variables/independent variables) và một hay nhiều đáp ứng.
Phương trình hồi qui: Y = f(X, β) „
X: các biến dự báo (predictor/independent variables). Y: các đáp ứng (responses / dependent variables). Β: các hệ số hồi qui (regression coefficients). X dùng để giải thích sự biến đổi của các đáp ứng Y. Y dùng đề mơ tả các hiện tượng được quan tâm/giải thích.
Quan hệ giữa Y và X được diễn tả bởi sự phụ thuộc hàm của Y đối với X. β mô tả sự ảnh hưởng của X đối với Y. [10]
• Phương pháp phát hiện luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được. Ta có thể lấy một ví dụ đơn giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong bản ghi đó: A => B. Chẳng hạn phân tích CSDL bán hàng nhận được thơng tin về những khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau:
Ứng dụng cây quyết định xếp hạng khách hàng cá nhân tại Maritime Bank chi nhánh Hà Nội Khóa luận tốt nghiệp
“Máy tính => Phần mềm quản lý tài chính” [Độ hỗ trợ: 2%, độ tin cậy: 60%]
Độ hộ trợ và độ tin cậy là hai độ đo của luật. Chúng tương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá. Độ hỗ trợ 2% có nghĩa là 2% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phần mềm quản lý tài chính đã được mua cùng nhau. Độ tin cậy 60% có nghĩa là 60% các khách hàng mua máy tính cũng mua phần mềm. Khai phá luật kết hợp được thực hiện qua 2 bước:
• Bước 1: tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua tính độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu
Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu. [10]