Chơng 8 Khảo nghiệm khai phá dữ liệu trong Oracle
8.4.3.3 Định hớng kết quả
Ta có thể cho Darwin biết định hớng dự báo đến đầu ra nào đó nếu muốn. Với định h- ớng nh vậy, Darwin tính toán các trọng số cho các trờng khác nhau. Định hớng không bắt buộc và có thể sử dụng các ngầm định của chúng của ứng dụng.
Định hớng đợc tính theo cách sau:
0 < định hớng < 0.5 thể hiện định hớng âm Giá trị 0.5 là trung tính (ngầm định)
0.5 < định hớng < 1.0 thể hiện định hớng dơng.
Có thể chọn giá trị định hớng trong các tình hớng sau:
- Nếu kết quả dơng sai tốn kém hơn nhiều kết quả âm sai, thì ta nên chọn định hớng âm.
- Nếu kết quả âm sai tốn kém hơn nhiều kết quả dơng sai thì ta nên chọn định hớng d- ơng.
- Khi kiểm tra mô hình, thấy sản sinh ra quá nhiều âm sai, ta đặt một định hớng d- ơng.
- Khi kiểm tra mô hình, thấy sản sinh ra quá nhiều dơng sai, ta đặt một định hớng âm. Nếu ta biết trờng nào cần sử dụng và muốn bỏ qua quá trình học (tối u trọng số), ta có thể làm dự báo với Darwin dựa trên thuật toán k ngời láng giềng gần nhất mà không nhất thiết phải có các trọng số tối u. Ta chỉ cung cấp tập dữ liệu lịch sử và một tập dữ liệu mới cho lệnh Predict with Match. Sau đó, Darwin sử dụng dữ liệu lịch sử để tìm các “hàng xóm” cho dữ liệu mới.
8.4.3.3 Quá trình xây dựng mô hình
Để xây dựng một mô hình đối sánh, ta cần bắt đầu với các việc sau:
- Một câu hỏi mà ta cần lời giải đợc chia thành các mệnh đề sao cho câu trả lời là giá trị của một trờng đơn (trờng đích) với mỗi bản ghi dữ liệu.
- Một nguồn dữ liệu lịch sử (nghĩa là các dữ liệu đã có sẵn các giá trị của trờng đích).
- Chia tập dữ liệu Darwin thành ba tập con: một cho dữ liệu mô hình, một cho tối u và một cho dự báo.
Nếu trờng đích là nhị phân thì cần chuẩn hoá dữ liệu. Sử dụng lệnh Randomize và Normalize từ dataset/Transform trớc khi dùng lệnh Split để chia.
- Xác định tên của trờng đích mà ta muốn dự báo. Sau đây là các bớc để xây dựng mô hình đối sánh:
- Xác định tập dữ liệu tạo mô hình và giá trị k ngời láng giềng gần nhất để tạo mô hình đối sánh.
- Cho mô hình học sử dụng tập dữ liệu học để xác định các trọng số đối sánh tối u.
- Dự báo với mô hình đợc tạo ra với tập dữ liệu dự báo
- Kết quả dự báo đợc đa vào phân tích và đa ra thông tin hiệu năng của mô hình. Trên đây là một số tìm hiểu ban đầu về ứng dụng Oracle Darwin. Do khuôn khổ của một luận văn, nên cha có dịp đi sâu về các vấn đề nh việc xác định bài toán nghiệp vụ, chuẩn bị dữ liệu cho khai phá, và phân tích kết quả khai phá. Ngoài ra, ở đây cũng cha có những khai thác thử nghiệm và đánh giá hiệu quả sử dụng của sản phẩm này. Tuy nhiên, qua tìm hiểu, hoàn toàn có thể hình dung rõ ràng hơn về khả năng thực sự áp
dụng các kỹ thuật khai phá dữ liệu, cũng nh tiềm năng ứng dụng to lớn cho sản phẩm này trong thực tế hiện nay tại Việt nam.
Kết luận
Tóm lại, khai phá dữ liệu bao gồm một tập các kỹ thuật cho phép truy cập dữ liệu bên trong CSDL để tìm ra các thông tin dới dạng ẩn. Đặc biệt, trong các CSDL lớn, điều vô cùng quan trọng là làm thế nào lọc ra thông tin thích hợp, chính xác và hữu dụng mà khó có thể tìm ra đợc bằng các công cụ SQL truyền thống. Ngoài việc phát hiện đợc các thông tin nh vậy, các kỹ thuật khai phá dữ liệu phải giải quyết đợc vấn đề hiệu năng khi quét một số lớn dữ liệu trong thời gian cho phép. Hơn nữa, công cụ khai phá dữ liệu chỉ có thể phát huy tốt phục vụ cho yêu cầu nghiệp vụ của ngời dùng khi dựa trên một nền tảng mô hình dữ liệu đợc thiết kế tốt. Và kiến trúc kho dữ liệu có thể đáp ứng tốt nhất cho việc này. Do việc khai phá dữ liệu không những cần đến các dữ liệu đang thay đổi, mà còn các dữ liệu lịch sử, nên một liên kết động đối với các nguồn dữ liệu của các hệ thống tác nghiệp hàng ngày và dữ liệu bên ngoài cũng là vấn đề quan trọng. Do vậy, ta thấy ở đây quá trình chuẩn bị dữ liệu của quá trình phát hiện tri thức trong CSDL (KDD) hầu nh chính là quá trình xây dựng kho dữ liệu.
Luận văn đã xét đến 10 nhiệm vụ của khai phá dữ liệu và đi sâu hơn về hai nhiệm vụ t- ơng đối quan trọng và có tiềm năng áp dụng rộng rãi. Đó là phân lớp dựa trên cây quyết định và phát hiện luật kết hợp trong CSDL lớn. Một thực nghiệm phát hiện luật kết hợp sử dụng thuật toán Apriori cho thấy tri thức đa ra rất bổ ích cho nghiên cứu và ứng dụng.
Qua khảo nghiệm sơ bộ một phần mềm khai phá dữ liệu Oracle Data Mining Suite, ta thấy đây là phần mềm tơng đối hoàn chỉnh, dựa trên các lý thuyết khai phá dữ liệu hiện đại và đợc thiết kế tốt, có tính khả thi để áp dụng ngay vào khai phá dữ liệu.
Qua đây ta thấy tiềm năng to lớn của các kỹ thuật khai phá dữ liệu. Tuy nhiên, để có thể tiếp tục các nghiên cứu tiếp theo cũng nh xây dựng một hệ thống phát hiện tri thức trong CSDL cụ thể, chắc chắn còn cần nhiều thời gian và công sức trên cơ sở những điều thu đợc ở đây. Luận văn cũng muốn chỉ ra mối liên quan giữa các kiến thức khác nh Cơ sở dữ liệu, kho dữ liệu, Thống kê, Trí tuệ nhân tạo, Hệ chuyên gia, vv...
Luận văn này là khởi điểm của quá trình nghiên cứu ứng dụng các công nghệ tiên tiến trong lĩnh vực quản lý thông tin hỗ trợ quyết định. Trên cơ sở này, sẽ tiếp tục phát triển theo một số hớng sau:
- Tiếp tục đi sâu nghiên cứu các kỹ thuật học máy để tìm ra các giải pháp kỹ thuật tốt trong lĩnh vực phát hiện tri thức. Nghiên cứu áp dụng các kỹ thuật Khai phá dữ liệu, đặc biệt về phát hiện luật kết hợp và các nhiệm vụ khác dựa trên các yêu cầu thực tế.
- Nghiên cứu các giải thuật Khai phá dữ liệu trong môi trờng đa xử lý và song song.
- Nghiên cứu về các kỹ thuật phân hoạch dữ liệu, trong đó việc xử lý dữ liệu đợc thực hiện song song trong các phân hoạch vật lý nhng vẫn là thống nhất ở mức lôgic ứng dụng.
- Cập nhật các thông tin nghiên cứu áp dụng mới nhất trong lĩnh vực Khai phá dữ liệu.
Do thời gian có hạn cũng nh khuôn khổ của một luận văn cao học, luận văn này chắc chắn còn nhiều thiếu sót, rất mong đợc các thầy cô giáo và những ai quan tâm nhận xét, góp ý.
Xin trân trọng cảm ơn
Hà nội – 10/2001