II- PHƢƠNG PHÁP TỔNG QUÁT XÂY DỰNG ỨNG DỤNG
4- Đánh giá chất lƣợng dữ liệu
Bước 5:Chọn hàm khai phá dữ liệu và thực hiện
Bước 6:Giải thích những kết quả và phát hiện thơng tin mới
Bước 7:Triển khai những kết quả và kiến thức mới vào doanh nghiệp
Những bƣớc này đƣợc mơ tả ( mở rộng ) bởi hình 11 dƣới đây:
1- Định nghĩa vấn đề doanh nghiệp hƣớng tới
Ở bƣớc này phải chỉ ra đƣợc vấn đề mà bài toán thực tế cần hƣớng vào, sau đó cần mơ tả đƣợc dƣới dạng một hay một tập hợp các câu hỏi để Data Mining hƣớng vào.
Và điều đặc biệt quan trọng là những câu trả lời phải nằm ở đâu đó ( tiềm ẩn ) trong kho dữ liệu có đƣợc, nghĩa là dữ liệu sẵn có phải đủ để trả lời vấn đề đặt ra thì bài tốn mới có ý nghĩa.
a) Mơ tả vấn đề ( Describing the problem )
Nếu ta chƣa chắc chắn khi đặt ra những câu hỏi mà khai phá dữ liệu hƣớng vào thì cách tiếp cận tốt nhất là học hỏi kinh nghiệm ở những bài toán tƣơng tự đã đƣợc áp dụng thực tiễn.
Việc mô tả tổng quát vấn đề cần phải nghĩ tới vấn đề cần xem xét dƣới dạng những mẫu và những mối quan hệ. Ví dụ để mô tả khách hàng gian lận chúng ta mô tả một số đặc trƣng mà khách hàng có thể tiềm tàng sự gian lận.
b) Tìm hiểu dữ liệu (Understanding data)
Trong khi chúng ta cơng thức hố câu hỏi cũng phải nghĩ tới những dữ liệu mà chúng ta có liệu có đủ để trả lời những câu hỏi mà ta đặt ra hay khơng. Ví dụ một câu hỏi đặt ra là tại sao chung ta mất khách hàng? Liệu có thể do đối thủ canh tranh giảm giá ? Nếu dữ liệu của chúng ta không chứa giá cả của đối thủ cạnh tranh thì hiển nhiên việc khai phá dữ liệu khơng thể cung cấp câu trả lời
2- Định nghĩa mơ hình dữ liệu
Bƣớc thứ hai trong khai phá dữ liệu là định nghĩa mơ hình dữ liệu dùng chung. Trong một tổ chức hay doanh nghiệp có thể sở hữu một khối lƣợng dữ liệu rất lớn, thông thƣờng những dữ liệu ấy đƣợc dùng cho những ứng dụng khác nhau.
Cách tốt nhất để lƣu trữ dữ liệu cho nhiều ứng dụng trong một tổ chức hay doanh nghiệp là sử dụng mơ hình dữ liệu dùng chung chẳng hạn dùng mơ hình của data warehouse.
Lợi thế của việc sử dụng mơ hình dữ liệu dùng chung trong khai phá dữ liệu là nó cho ta một cách tốt nhất để làm sao có thể sử dụng Khai phá dữ liệu cho doanh nghiệp hay tổ chức.
Khi đó mỗi ứng dụng của ngƣời dùng cuối sử dụng, cập nhật dữ liệu trong data warehouse dựa trên Data Mart của mình.
Việc thiết kế cấu trúc dữ liệu cho các ứng dụng là một cơng việc khó, việc định nghĩa mơ hình dữ liệu cho Data Mining cũng khơng ngoại lệ.
Với một tổ chức hay doanh nghiệp ngay từ ban đầu đã hƣớng tới những mơ hình dữ liệu dùng chung sẽ rất thuận lợi khi cần chỉ ra dữ liệu nào là thực sự cần thiết cho Data Mining
3- Chuẩn bị dữ liệu nguồn
Bƣớc thứ ba trong Data Mining là tập hợp và xử lý trƣớc dữ liệu nguồn, cơng việc chính của bƣớc này là: nhận dạng, tập hợp và lọc dữ liệu theo định dạng của hàm khai phá dữ liệu đƣợc chọn
a) Những nguồn dữ liệu (The data sources)
Đa số dữ liệu trong thực tế đƣợc lƣu trữ trong một tệp hoặc một bảng trong cơ sở dữ liệu quan hệ. Cách tốt nhất là tạo ra những View mới từ các nguồn phục vụ cho mục đích khai phá dữ liệu.
b) Xử lý trước dữ liệu ( Data preprocessing)
Nếu dữ liệu không đƣợc dẫn xuất từ một kho hàng dữ liệu thì cần thiết phải thực hiện tiền xử lý ( Tập hợp, làm sạch, lọc và biến đổi )
Thậm chí dữ liệu đƣợc lấy từ một kho hàng dữ liệu cũng cần phải đƣợc biến đổi sao cho phù hợp với kỹ thuật Data Mining sau này.
4- Đánh giá chất lƣợng dữ liệu
Để đảm bảo dữ liệu thoả mãn các tính chất : Chính xác và thích hợp chúng ta phải đánh giá dữ liệu.
Bƣớc đầu tiên cần kiểm tra trực quan dữ liệu bằng một công cụ xem dữ liệu trực quan.
Bƣớc thứ hai là thực hiện đánh giá ban đầu về dữ liệu nhằm phát hiện những mâu thuẫn tiềm tàng nhƣ mất ( thiếu ) dữ liệu hay khớp nối dữ liệu khơng đúng thứ tự, điều này có thể ngăn ngừa sự tiềm tàng những kết quả thiên lệch của hàm khai phá dữ liệu.
Bƣớc cuối cùng là lựa chọn những biến toàn cục cho hàm khai phá dữ liệu thực hiện. Việc lựa chọn các biến này phải sử dụng kết quả thống kê hoặc kinh nghiệm thực tiễn.