- CTDL làm giảm số chiều của không gian thuộc tính hay còn gọi là rút gọn thuộc tính (loại bỏ dữ liệu nhiễu, dữ liệu dư thừa). Kết quả rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Cải thiện chất lượng, tính dễ hiểu của các kết quả thu được. Đồng thời giúp cho các thuật toán trong khai phá thực thi nhanh hơn, chính xác hơn, mô hình dự đoán sinh ra cũng có độ chuẩn cao hơn, đáp ứng yêu cầu của ứng dụng.
- Phương pháp luận của CTDL là xác định bản chất tác động của các thuộc tính [4] trong KPDL nhằm giúp cho mục đích KPDL có hiệu quả hơn.
2.1.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu liệu
Trước khi đi vào thảo luận thêm khám phá tri thức và khai phá dữ liệu ta bàn luận về khái niệm “dữ liệu, thông tin và tri thức. Dữ liệu thường được cho bởi các giá trị mô tả các sự kiện, hiện tượng cụ thể. Còn tri thức
(knowledge) là gì? Có thể có những định nghĩa rõ ràng để phân biệt các khái niệm dữ liệu, thông tin và tri thức hay không? Khó mà định nghĩa chính xác, nhưng phân biệt chúng trong những ngữ cảnh nhất định là rất cần thiết và có thể làm được. Thông tin là một khái niệm rất rộng, khó có thể đưa ra một định nghĩa chính xác cho khái niệm này. Cũng không thể định nghĩa cho khái niệm tri thức cho dù chỉ hạn chế trong phạm vi những tri thức được chiết xuất từ các CSDL. Tuy nhiên, ta có thể hiểu tri thức là một biểu thức trong một ngôn ngữ nào đó diễn tả một (hoặc nhiều) mối quan hệ giữa các thuộc tính trong các DL đó. Các ngôn ngữ thường được dùng để biểu diễn tri thức (trong việc phát hiện tri thức từ các CSDL) là các khung (frames), các cây và đồ thị, các luật (rules), các công thức trong ngôn ngữ logic mệnh đề hoặc tân từ cấp một,
các hệ thống phương trình, v.v…, ví dụ như ta có các luật mô tả các thuộc tính của DL, các mẫu thường xuyên xảy ra, các nhóm đối tượng trong cơ sở dữ liệu, v.v…
2.1.3.1 Khám phá tri thức và khai phá dữ liệu
KDD là một qui trình nhận biết các mẫu hoặc các mô hình trong DL với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được. KDD mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức mà phát hiện những tri thức phục vụ tốt một nhiệm vụ đề ra. Vì vậy, quá trình phát hiện tri thức là một hoạt động tương tác giữa một người sử dụng hoặc một chuyên gia phân tích với các công cụ tin học.
Còn KPDL là một bước trong qui trình phát hiện tri thức, gồm có các thuật toán khai thác dữ liệu chuyên dùng, dưới một số qui định về hiệu quả tính toán chấp nhận được, để tìm ra các mẫu hoặc các mô hình trong DL.
Nói một cách khác, mục đích của KDD và DM chính là tìm ra các mẫu hoặc các mô hình đang tồn tại trong các CSDL nhưng vẫn còn bị che khuất bởi hàng núi DL.
2.1.3.2 Quy trình phát hiện tri thức và khai phá dữ liệu
KDD là một quá trình có sử dụng nhiều phương pháp và công cụ tin học, nhưng vẫn là một quá trình mà trong đó con người là trọng tâm. Do đó, nó không phải là một hệ thống phân tích tự động, mà là một hệ thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người và CSDL, tất nhiên là với sự hỗ trợ của các công cụ tin học. Người sử dụng hệ thống ở đây, phải là người có kiến thức cơ bản về lĩnh vực cần phát hiện tri thức, để có thể chọn được đúng các tập con DL, các lớp mẫu phù hợp và đạt tiêu chuẩn quan tâm so với mục đích. Tri thức mà ta nói ở đây là các tri thức rút ra từ các CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định. Do đó, quá trình phát hiện tri thức cũng mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà là
phát hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra. Vì vậy, quá trình phát hiện tri thức là một quá trình hoạt động tương tác giữa con người (người sử dụng hoặc chuyên gia phân tích) với các công cụ tin học và có thể tóm tắt các bước cơ bản sau:
Hình 2.1. Quá trình khám phá tri thức và khai phá dữ liệu
Bước thứ nhất: Là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán: Bước
này sẽ quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương pháp KPDL thích hợp với mục đích ứng dụng và bản chất của DL. Trong bước này tổ chức nhà kho dữ liệu (Data warehousing) nhằm thu thập DL nhiều nguồn để sử dụng cho một mục đích ứng dụng.
Bước thứ hai: Là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu
(Pre – processing): Nhằm loại bỏ D:L nhiễu, xử lý việc thiếu DL, biến đổi DL và rút gọn DL nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức.
Bước thứ ba: Là KPDL: Hay nói cách khác là trích ra các mẫu hoặc và các
mô hình ẩn dưới các DL. Sử dụng các kỹ thuật thông minh để khai phá.
Bước thứ tư: Giải thích và đánh giá tri thức đã được khám phá
Hình thành và định nghĩa bài toán
Thu thập và Tiền xử lý dữ liệu Khai phá dữ liệu Rút trích tri thức Phân tích và kiểm định kết quả Sử dụng tri thức đã phát hiện được
Bước thứ năm: Sử dụng tri thức đã phát hiện vào thực tế: là hiểu tri thức đã
tìm được, đặc biệt làm sáng tỏa và dự đoán. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên các lần thực hiện.
Lý luận và thực tiễn thực hiện các quá trình phát hiện tri thức mà ta xét ở đây là sự tiếp thu, sử dụng và phát triển nhiều thành tựu và công cụ của các lĩnh vực đã phát triển trước đó như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, v.v… Nhưng đặc điểm cơ bản của lý luận về phát hiện tri thức ở đây là phát hiện tri thức trực tiếp từ dữ liệu, do đặc điểm đó mà nó có những điểm mới, phân biệt với các ngành đã có từ trước. Thí dụ như với các hệ chuyên gia thì cơ sở tri thức được hình thành từ kinh nghiệm và kiến thức của các chuyên gia là chủ yếu, với nhiều bài toán nhận dạng thì thường là tập các dạng mẫu cho trước, v.v…, còn đối với lý thuyết phát hiện tri thức thì các tri thức, các dạng mẫu, các giả thuyết đều được phát hiện từ việc khai phá các kho dữ liệu. Ở đây tôi muốn cụ thể hơn là phát hiện tri thức từ CSDL bằng sự kết hợp giữa KPDL và tri thức chuyên gia chuyên ngành.
2.1.3.3 Vai trò canh tác dữ liệu trong khám phá tri thức và khai phá dữ liệu
Canh tác dữ liệu tác động trên 3 giai đoạn của quy trình khám phá tri thức và khai phá dữ liệu [4][9] (xem hình 2.2):
- Tiền xử lý - Khai phá dữ liệu - Hậu xử lý
(1) Trong giai đoạn tiền xử lý, các hoạt động bao gồm chọn lựa đặc tính (Feature Selection) và sử dụng các phương pháp, các công cụ CTDL. Các hoạt động này, giúp chọn lọc thuộc tính liên quan nhất cho mục đích KPDL, trong rất nhiều thuộc tính có sẵn của nhà kho dữ liệu. Việc chọn lọc đó, giảm kích thước DL phải thu thập theo chiều rộng. Hệ quả chọn lọc thuộc tính đó, sẽ giảm thiểu lượng DL cần thiết phải thu thập, đồng nghĩa với việc giảm kích thước DL theo chiều sâu. Hệ quả khác của chọn lọc thuộc tính là nâng cao chất lượng DL cung cấp cho khai phá, vì các DL nhiễu, DL không liên quan và DL dư thừa được loại bỏ.
(2) Trong giai đoạn KPDL, CTDL sẽ giúp cho các thuật toán KPDL có trọng tâm hơn và thực thi nhanh chóng hơn. Ngoài ra, trong quá trình KPDL, các kết quả trung gian nên lần lượt trình bày, để các chuyên gia tham gia các bước quyết định tiếp theo. Chọn được cái liên quan nhất để trình bày điều đó sẽ nâng cao chất lượng của các quyết định chuyên gia và cũng nâng cao công năng khai phái dữ liệu.
(3) Trong giai đoạn hậu xử lý, các hoạt động CTDL trong giai đoạn này bao gồm: chuyển dạng tri thức (Knowledge stransformation) được rút trích, kiểm chứng thuộc tính, định nghĩa kết xuất (Outcome definition). Trong các hoạt động này , chuyển dạng tri thức được rút trích giúp đánh giá , sắp xếp và phân loại kết quả khai phá, nhằm nâng cao tính dễ hiểu và tính trong suốt của tri thức được rút trích, tới người sử dụng.