Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin ở hầu hết các lĩnh vực trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được thu thập và lưu trữ ngày càng lớn. Các hệ quản trị cơ sở dữ liệu truyền thống cũng chỉ khai thác được một lượng thông tin nhỏ không còn đáp ứng đầy đủ những yêu cầu, những thách thức mới. Do vậy một khuynh hướng mới được ra đời đó là kỹ thuật phát hiện tri thức trong cơ sở dữ liệu. Xin giới thiệu một cách tổng quan về phát hiện tri thức và khai phá dữ liệu cùng một số kỹ thuật cơ bản để trong khai phá dữ liệu để phát hiện tri thức và một số ứng dụng trong thực tế nhằm hỗ trợ cho tiến trình ra quyết định.
khoa học công nghệ Diễn đàn Trao đổi TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU ThS Trần Hùng Cường, ThS Ngô Đức Vĩnh Khoa Công nghệ thông tin Trường Đại học Công nghiệp Hà Nội S ự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin hầu hết lĩnh vực nhiều năm qua đồng nghĩa với lượng liệu thu thập lưu trữ ngày lớn Các hệ quản trị sở liệu truyền thống khai thác lượng thơng tin nhỏ khơng đáp ứng đầy đủ yêu cầu, thách thức Do khuynh hướng đời kỹ thuật phát tri thức sở liệu Xin giới thiệu cách tổng quan phát tri thức khai phá liệu số kỹ thuật để khai phá liệu để phát tri thức số ứng dụng thực tế nhằm hỗ trợ cho tiến trình định TỔ CHỨC VÀ KHAI THÁC CƠ SỞ DỮ LIỆU TRUYỀN THỐNG Việc sử dụng kỹ thuật tin học để tổ chức khai thác sở liệu (CSDL) phát triển từ năm 60 Từ có nhiều sở liệu tổ chức, phát triển khai thác quy mô khắp lĩnh vực hoạt động người xã hội Với phát triển mạnh mẽ công nghệ điện tử tạo nhớ có dung lượng lớn, xử lý tốc độ cao với hệ thống mạng viễn thông, người ta xây dựng hệ thống thơng tin nhằm tự động hóa hoạt động kinh doanh giao dịch Điều tạo dòng liệu tăng lên khơng ngừng từ giao dịch đơn giản kiểm tra sức khỏe, sử dụng thẻ tín dụng,… 50 Tạp chí khoa học & cơng nghệ Số 5.2011 ghi vào máy tính Cho đến nay, số trở nên khổng lồ, bao gồm sở liệu cực lớn cỡ gigabytes chí terabytes, chẳng hạn liệu bán hàng, liệu tài khoản, khoản vay, sử dụng vốn,… Nhiều hệ quản trị sở liệu mạnh với công cụ phong phú thuận tiện giúp người khai thác có hiệu nguồn tài nguyên liệu Mơ hình sở liệu quan hệ ngơn ngữ truy vấn chuẩn (SQL) có vai trò quan trọng việc tổ chức khai thác sở liệu BƯỚC PHÁT TRIỂN CỦA VIỆC TỔ CHỨC VÀ KHAI THÁC CÁC CSDL Cùng với việc tăng không ngừng khối lượng liệu, hệ thống thông tin chuyên môn hóa, phân hoạch theo lĩnh vực ứng dụng sản xuất, tài chính, bn bán thị trường v.v Như vậy, bên cạnh chức khai thác liệu có tính chất tác nghiệp, thành cơng kinh doanh khơng suất hệ thống thơng tin mà tính linh hoạt sẵn sàng đáp lại yêu cầu thực tế, CSDL cần đem lại “tri thức” liệu Các định cần phải có nhanh tốt phải xác dựa liệu sẵn có Lúc mơ hình CSDL truyền thống ngơn ngữ SQL cho thấy khơng có khả thực công việc Để lấy tri thức khối liệu khổng lồ này, người ta tìm kỹ thuật có khả hợp liệu từ hệ thống giao dịch khác science technology infomation - exchange nhau, chuyển đổi thành tập hợp sở liệu ổn định, có chất lượng, sử dụng riêng cho vài mục đích Các kỹ thuật gọi chung kỹ thuật tạo kho liệu (data warehousing) mơi trường liệu có gọi kho liệu (data warehouse) Với thách thức vậy, nhà nghiên cứu đưa phương pháp kho liệu đáp ứng nhu cầu khoa học hoạt động thực tiễn Đó cơng nghệ phát tri thức từ sở liệu QUÁ TRÌNH PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU Một vấn đề quan trọng để dẫn đến thành công việc biết sử dụng thông tin cách có hiệu Điều có nghĩa từ liệu sẵn có phải tìm thơng tin tiềm ẩn có giá trị mà trước chưa phát hiện, phải tìm xu hướng phát triển yếu tố tác động lên chúng Thực cơng việc thực q trình phát tri thức sở liệu (Knowledge Discovery in Database – KDD) mà kỹ thuật cho phép ta lấy tri thức pha khai phá liệu (KPDL) Hình Quá trình phát tri thức Trước vào tìm hiểu giai đoạn KDD ta đưa số ví dụ để phân biệt ba khái niệm: liệu, thông tin tri thức Dữ liệu thường cho giá trị mô tả kiện, tượng cụ thể Còn tri thức (knowledge) gì? Có thể có định nghĩa rõ ràng để phân biệt khái niệm liệu, thông tin tri thức hay không? Tri thức khái niệm trừu tượng Do đó, khơng cố gắng đưa định nghĩa hình thức xác Thay vào đó, cảm nhận khái niệm tri thức cách so sánh với hai khái niệm khác thông tin liệu Nhà bác học tiếng Karan Sing nói “Chúng ta ngập chìm biển thơng tin lại khát tri thức” Câu nói làm bật khác biệt lượng lẫn chất hai khái niệm thông tin tri thức Cũng quan niệm thơng tin quan hệ liệu Các liệu xếp theo thứ tự tập hợp lại theo quan hệ chứa đựng thơng tin Nếu quan hệ cách rõ ràng tri thức Chẳng hạn Trong toán học: Bản thân số riêng lẻ 1, 1, 3, 5, 2, 8, 13, liệu Tuy nhiên, đặt chúng lại với theo trật tự 1, 1, 2, 3, 5, 8, 13, 21, 34, chúng bắt đầu có mối liên hệ Mối liên hệ biểu diễn công thức Un = Un-1 + Un-2 n ≥ Cơng thức nêu tri thức Trong vật lý: Từ bảng số liệu điện trở (R), điện (U) cường độ dòng điện (I) mạch điện Bản thân số cột bảng khơng có ý nghĩa ta tách rời Nhưng đặt kề nhau, chúng cho thấy có liên hệ Và mối liên hệ diễn tả cơng thức I = U/R, công thức tri thức Như vậy, so với liệu tri thức có số lượng nhiều Thuật ngữ khơng đơn giản dấu nhỏ bình thường mà kết tinh cô đọng lại Ta hình dung liệu điểm mặt phẳng tri thức phương trình đường cong nối tất điểm lại Chỉ cần phương trình đường cong ta biểu diễn vô số điểm [1] Tri thức Thông tin Dữ liệu Hình Mối quan hệ thơng tin, liệu tri thức Trong hình 1, ta thấy trình phát tri thức gồm nhiều giai đoạn Đầu giai đoạn đầu vào giai đoạn sau Trong tiến trình này, người ta đặc biệt quan tâm đến pha khai phá liệu (Data ming) Khai phá liệu sử dụng kỹ thuật, phương pháp để đưa thông tin có cấu trúc, tri thức tiềm ẩn lượng liệu Các kỹ thuật phát tri thức thực Số 5.2011 Tạp chí khoa học & cơng nghệ 51 khoa học công nghệ Diễn đàn Trao đổi qua nhiều giai đoạn sử dụng nhiều phương pháp như: phân lớp, gom cụm, phân tích tương tự, tổng hợp, phát luật kết hợp mẫu tuần tự, Qúa trình phát tri thức gồm bước sau: Chọn lọc liệu (selection): Đây giai đoạn tập hợp liệu khai thác từ CSDL, kho liệu, chí từ nguồn ứng dụng web vào CSDL riêng Chúng ta chọn liệu cần thiết cho giai đoạn sau Tuy nhiên, công việc thu gom liệu vào CSDL lớn thường khó khăn liệu nằm khắp nơi dạng tạo lập khác Tiền xử lý liệu (preprocessing): Phần lớn CSDL nhiều mang tính khơng qn Vì gom liệu mắc số lỗi liệu không đầy đủ, chặt chẽ không lôgic (bị trùng lặp, giá trị bị sai lệch, ) Do cần phải “tiền xử lý” trước khai phá liệu không gây nên kết sai lệch nghiêm trọng Chuyển đổi liệu (transformation): Trong giai đoạn liệu chuyển đổi dạng thuận tiện để tiến hành thuật toán khám phá liệu Khai phá liệu (Data ming): giai đoạn ta sử dụng kỹ thuật nhằm phát tri thức tiềm ẩn liệu Một số kỹ thuật sử dụng là: phân lớp, gom cụm, luật kết hợp,… Đánh giá kết mẫu: Đây giai đoạn cuối tiến trình KDD Trong giai đoạn này, mẫu liệu chiết xuất phần mềm khai phá liệu Không phải mẫu có ích, chí bị sai lệch Chính vậy, cần phải xác định lựa chọn tiêu chuẩn đánh giá cho chiết xuất tri thức cần thiết Nếu phát tri thức tồn q trình chiết xuất tri thức từ CSDL KPDL giai đoạn chủ yếu q trình Như trình bày, trình phát tri thức, khâu KPDL thực sau khâu tinh lọc tiền xử lý liệu, tức việc khai phá để tìm mẫu có ý nghĩa tiến hành tập liệu có hy vọng thích hợp với nhiệm vụ khai phá khai phá hết liệu với thời gian đủ dài để lấy mẫu không thực có ích khái niệm thống kê trước Vì vậy, KPDL thường bao gồm việc thử tìm mơ hình phù hợp với tập liệu tìm kiếm mẫu từ tập liệu theo mơ hình Chẳng hạn ta có mơ hình luật kết hợp mẫu yếu tố 52 Tạp chí khoa học & cơng nghệ Số 5.2011 tham gia với độ hỗ trợ (support) độ tin cậy (confidence) luật tương ứng Mặc dù mẫu trích lọc từ CSDL có mẫu xem đáng quan tâm xét theo phương diện coi tri thức Các mẫu đáng quan tâm chúng mới, có lợi, Một mẫu xem phụ thuộc vào khung tham chiếu cho trước, phạm vi tri thức hệ thống phạm vi tri thức người dùng Ví dụ việc KPDL tìm luật sau: “Nếu Gây_tai_nạn Thì Tuổi > 16” Đối với hệ thống, tri thức trước chưa biết có ích người sử dụng thử phân tích ghi yêu cầu bảo hiểm mẫu lại không cần thiết không đáng quan tâm khơng thể tri thức cần tìm Ví dụ cho thấy khái niệm tính hữu dụng Tri thức có ích giúp đạt mục đích hệ thống hay người sử dụng Ta coi KPDL giống trình phát mẫu đáp ứng yêu cầu trên, tương quan có ý nghĩa, xu hướng cách khai thác khối liệu kho liệu, sử dụng kỹ thuật khái niệm lĩnh vực nghiên cứu từ trước như: học máy, nhận dạng, thống kê, hồi quy, xếp loại, phân cụm, mơ hình đồ thị, mạng Bayes,… Nếu xét mặt ý tưởng mục đích ứng dụng, KPDL nhu cầu tất yếu, nhạy cảm đáp lại mong mỏi giới kinh doanh mặt kỹ thuật, thực khó khăn thách thức nhà khoa học KPDL xây dựng dựa việc sử dụng giải thuật mới, định hướng theo nhu cầu kinh doanh để giải tự động toán kinh doanh kỹ thuật dễ dùng hiểu Các kỹ thuật nghiên cứu sử dụng bao gồm định (CART, CHAID, AID), mạng neuron, phương pháp láng giềng gần nhất, luật suy diễn, v.v… KHAI PHÁ DỮ LIỆU Hiện sách báo, hội thảo, tiếp thị sản phẩm ứng dụng cơng nghệ thơng tin, người ta nói nhiều KPDL (data mining) Vậy KPDL gì? Và lại có nhiều người nói đến vấn đề cơng nghiệp máy tính lẫn hoạt động kinh doanh đến vậy? science technology infomation - exchange Diễn đàn Trao đổi 4.1 Khai phá liệu gì? KPDL khái niệm đời vào năm cuối thập kỷ 80 Nó bao hàm loạt kỹ thuật nhằm phát thông tin có giá trị tiềm ẩn tập liệu lớn (các kho liệu) Về chất, KPDL liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy (regularities) tập liệu Năm 1989, Fayyad, Piatestsky-Shapiro Smyth dùng khái niệm Phát tri thức sở liệu (Knowledge Discovery in Database – KDD) để toàn trình phát tri thức có ích từ tập liệu lớn Trong đó, KPDL bước đặc biệt tồn tiến trình, sử dụng giải thuật đặc biệt để chiết xuất mẫu (pattern) (hay mơ hình) từ liệu Khai phá liệu tiến trình sử dụng cơng cụ phân tích liệu khác để khám phá mẫu nhiều góc độ khác nhằm phát mối quan hệ kiện, đối tượng bên CSDL, kết việc khai phá xác định mẫu hay mô hình tồn bên trong, chúng nằm ẩn khuất CSDL Để từ rút trích mẫu, mơ hình hay thơng tin tri thức từ CSDL [4] 4.2 Các bước trình KPDL Các giải thuật KPDL thường mơ tả chương trình hoạt động trực tiếp tệp liệu Với phương pháp học máy thống kê trước đây, thường bước giải thuật nạp toàn tệp liệu vào nhớ Khi chuyển sang ứng dụng công nghiệp liên quan đến việc khai phá kho liệu lớn, mơ hình khơng thể đáp ứng Khơng khơng thể nạp hết liệu vào nhớ mà khó chiết xuất liệu tệp đơn giản để phân tích Q trình xử lý KPDL bắt đầu cách xác định xác vấn đề cần giải Sau xác định liệu liên quan dùng để xây dựng giải pháp Bước thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật KPDL hiểu Về lý thuyết đơn giản thực thực q trình khó khăn, gặp phải nhiều vướng mắc như: liệu phải nhiều (nếu chiết xuất vào tệp), quản lý tập tệp liệu, phải lặp lặp lại nhiều lần toàn trình (nếu mơ hình liệu thay đổi),… Bước chọn thuật tốn KPDL thích hợp thực việc KPDL để tìm mẫu (pattern) có ý nghĩa dạng biểu diễn tương ứng với ý nghĩa (thường biểu diễn dạng luật xếp loại, định, luật sản xuất, biểu thức hồi quy,…) Đặc điểm mẫu phải (ít hệ thống đó) Độ đuợc đo tương ứng với độ thay đổi liệu (bằng cách so sánh giá trị với giá trị trước giá trị mong muốn), tri thức (mối liên hệ phương pháp tìm phương pháp cũ nào) Thường độ mẫu đánh giá hàm logic hàm đo độ mới, độ bất ngờ mẫu Ngoài ra, mẫu phải có khả sử dụng tiềm tàng Các mẫu sau xử lý diễn giải phải dẫn đến hành động có ích đánh giá hàm lợi ích Mẫu khai thác phải có giá trị liệu với độ xác Thống kê tóm tắt Xác định nhiệm vụ Xác định liệu liên quan Giải thuật khai phá liệu Thu thập tiền xử lý liệu DL trực tiếp Mẫu Hình Q trình KPDL Số 5.2011 Tạp chí khoa học & công nghệ 53 khoa học công nghệ Kỹ thuật KPDL thực chất phương pháp khơng hồn tồn Nó kế thừa, kết hợp mở rộng kỹ thuật nghiên cứu từ trước máy học, nhận dạng, thống kê (hồi quy, xếp loại, phân cụm), mơ hình đồ thị, mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia, v.v… Tuy nhiên, với kết hợp tài tình KPDL, kỹ thuật có ưu hẳn phương pháp trước đó, đem lại nhiều triển vọng việc ứng dụng phát triển nghiên cứu khoa học 4.3 Khái quát kỹ thuật KPDL 4.3.1 Khai thác tập phổ biến luật kết hợp Đây tiến trình khám phá tập giá trị thuộc tính xuất phổ biến đối tượng liệu Từ tập phổ biến tạo luật kết hợp giá trị thuộc tính nhằm phản ánh khả xuất đồng thời giá trị thuộc tính tập đối tượng Một luật kết hợp X → Y phản ánh xuất tập X dẫn đến xuất đồng thời tập Y Chẳng hạn phân tích CSDL bán hàng nhận thông tin khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý nhân lần mua miêu tả luật kết hợp sau: “Máy tính Þ Phần mềm quản lý nhân sự” Luật kết hợp giúp nhà hoạch định hiểu rõ xu bán hàng, tâm lý khách hàng, từ đưa chiến lược bố trí mặt hàng, kinh doanh, tiếp thị, 4.3.2 Phân lớp liệu Phân lớp (Classification): Là tiến trình khám phá luật phân loại hay đặc trưng cho tập liệu xếp lớp Tập liệu học bao gồm tập đối tượng xác định lớp dùng để tạo mơ hình phân lớp dựa đặc trưng đối tượng tập liệu học Các luật phân lớp sử dụng để xây dựng phân lớp liệu Phân lớp liệu có vai trò quan trọng tiến trình dự báo khuynh hướng quy luật phát triển Áp dụng vào tiến trình phân lớp liệu khách hàng CSDL xây dựng luật phân lớp khách hàng [1] Một số kỹ thuật thường sử dụng phân lớp: - Cây định (Decision tree): Cấu trúc dạng hình biểu thị cho định Các định sinh quy tắc để phân lớp dự đoán (dự báo) tập liệu chưa phân lớp Tri thức rút kỹ thuật thường mô tả dạng tường minh, đơn giản, trực quan, dễ hiểu người sử dụng Tuy vậy, đòi hỏi 54 Tạp chí khoa học & công nghệ Số 5.2011 không gian định để mô tả tri thức phạm vi mà người hiểu [3] - Mạng Nơron (Neural Network): Đây kỹ thuật ứng dụng phổ biến kỹ thuật bắt chước khả tìm kiếm mẫu não người Việc huấn luyện theo phương pháp bắt đầu việc cho vào tập liệu (gọi tập liệu huấn luyện) mạng tự động điều chỉnh (học) qua lớp mạng cho kết quả, trình huấn luyện lặp lặp lại nhiều lần Sau mạng học thành cơng xem chuyên gia lĩnh vực [3] 4.3.3 Gom cụm Gom cụm (clustering): Là tiến trình nhận diện cụm tiềm ẩn tập đối tượng chưa xếp lớp Tiến trình phân cụm dựa mức độ tương tự đối tượng Các đối tượng gom cụm cho mức độ tương tự đối tượng cụm cực đại mức độ tương tự đối tượng nằm cụm khác cực tiểu Các cụm đặc trưng tính chất chung tất đối tượng cụm Do vậy, khảo sát cụm giúp khái quát, tổng kết nhanh chóng nội dung khối liệu lớn [2] Một số kỹ thuật dùng gom cụm: phương pháp phân cấp thuật giải k-means - Trong phương pháp phân cấp gồm hai giai đoạn: giai đoạn gộp đối tượng thuộc lớp, ngưỡng chúng gom lại tiếp tục tất đối tượng thuộc cụm; giai đoạn tách tiến hành ngược lại so với giai đoạn gộp Trong phương pháp này,để đưa ngưỡng người ta dựa vào liên kết đơn (khoảng cách gần nhất) liên kết đôi (khoảng cách xa nhất) hai cụm [3] - Trong thuật giai k-means: tiến hành gom cụm ta cần phải biết trước số cụm Với cụm ta chọn phần tử trọng tâm, tiếp đến tính khoảng cách từ đối tượng đến phần tử trọng tâm tất cụm gán vào cụm có khoảng cách nhỏ Q trình tiếp tục cụm khơng biến đổi thoả điều kiện đặt ỨNG DỤNG CỦA KPDL Mặc dù nhiều vấn đề mà KPDL cần phải tiếp tục nghiên cứu để giải tiềm khẳng định đời nhiều ứng dụng Các ứng dụng KPDL khoa science technology học phát triển Các công ty phần mềm lớn giới quan tâm trọng tới việc nghiên cứu phát triển kỹ thuật khai phá liệu: Oracle tích hợp cơng cụ khai phá liệu vào Oracle9i, IBM tiên phong việc phát triển ứng dụng khai phá liệu với ứng dụng Intelligence Miner, …Ta đưa số ứng dụng lĩnh vực như: Ngân hàng: Xây dựng mơ hình dự báo rủi ro tín dụng; tìm kiếm tri thức, quy luật thị trường chứng khoán đầu tư bất động sản,… Thương mại điện tử: Cơng cụ tìm hiểu, định hướng, thúc đẩy, giao tiếp với khách hàng; phân tích khách hàng duyệt web; Phân tích hành vi mua sắm mạng cho biết thông tin tiếp thị phù hợp vói loại khách hàng Thiên văn học: Hệ thống SKICAT JPL/Caltech phát triển sử dụng cho nhà thiên văn để tự động xác định dải thiên hà khảo sát lớn để phân tích phân loại (Fayyad, Djorgovski, & Weir) Sinh học phân tử: Hệ thống tìm kiếm mẫu cấu trúc phân tử (Conklin, Fortier, Glasgow 1993) liệu gen (Holder, Cook, Djoko 1994) Mơ hình hóa thay đổi thời tiết: mẫu không thời gian lốc, gió xốy tự động tìm thấy tập lớn liệu mô quan sát (Stolorz et al 1994) NHỮNG THÁCH THỨC TRONG ỨNG DỤNG VÀ NGHIÊN CỨU KỸ THUẬT KPDL Khối lượng liệu lớn từ nhiều nguồn khác nhau: CSDL, internet, loại thiết bị thu nhận tín hiệu, loại thiết bị nhận dạng, loại thiết bị lưu trữ băng từ, CD, Số mẫu tin số thuộc tính lớn làm cho độ phức tạp thời gian giải toán tăng lên nhanh Mơ hình hay tri thức phát bị thay đổi theo thời gian tức mơ hình hay tri thức phụ thuộc vào thời điểm quan sát, lấy mẫu, thời điểm khai phá, kết đạt sau khai phá gây khơng khó khăn cho khai phá liệu Dữ liệu bị ảnh hưởng, bị nhiễu tác động mơi trường bên ngồi, hay liệu khơng hồn chỉnh làm cho liệu khơng phản ánh trung thực, xác quy luật, tri thức mà ta tìm Các thuộc tính khơng phù hợp, giá trị khơng đầy đủ, bị thiếu giá trị miền thuộc tính ảnh hưởng lớn đến việc khai phá liệu Chẳng hạn khai phá liệu, hệ thống tương tác với nhau, phụ thuộc nhau, cần thiếu vài giá trị dẫn đến mẫu thuẫn, khơng xác, khơng đầy đủ Từ vấn đề đặt nên tốc độ xử lý cần quan tâm trước Có hai phương hướng để giải vấn đề nâng cao lực phần cứng cải tiến phần mềm Tuy nhiên cải thiện lực máy tính liệu cung tăng khơng ngừng, chí tăng nhanh gấp nhiều lần Do vây việc nghiên cứu đề xuất thuật tốn hiệu có khả làm việc khối lượng liệu lớn, có độ phức tạp tính tốn thấp hướng nghiên cứu đầy tiềm Từ nhu cầu thực tế trên, gần xuất nhiều ngành khoa học cơng nghệ hỗ trợ KPDL tính tốn song song, máy tính lượng tử, cơng nghệ nano, phát triển thuật tốn, KẾT LUẬN Chúng ta vừa tìm hiểu nét khái quát tiến trình phát tri thức sở liệu Tiến trình bao gồm dãy thao tác nhau, đầu giai đoạn trước đầu vào giai đoạn sau Trong KPDL giai đoạn KDD người ta quan tâm nhiều đến giai đoạn Vì kỹ thuật khác nên yêu cầu số lượng dạng thông tin khác chúng thường ảnh hưởng đến việc thiết kế chọn giải thuật KPDL khác TÀI LIỆU THAM KHẢO [1] Hồng Kiếm; Giáo trình nhập mơn trí tuệ nhân tạo; NXB ĐHQG TPHCM 2000 [2] Đỗ Phúc; Giáo trình khai thác liệu; NXB ĐHQG TPHCM 2008 [3] Mehmed Kantardzic; Data mining concepts, models, methods, and algorithms; John Wiley & Sons, 2003 [4] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth; From data mining to knowledge discovery in databases; Số 5.2011 Tạp chí khoa học & công nghệ 55 ... nghiên cứu đưa phương pháp kho liệu đáp ứng nhu cầu khoa học hoạt động thực tiễn Đó cơng nghệ phát tri thức từ sở liệu QUÁ TRÌNH PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU Một vấn đề quan trọng để dẫn... học phát tri n Các công ty phần mềm lớn giới quan tâm trọng tới việc nghiên cứu phát tri n kỹ thuật khai phá liệu: Oracle tích hợp cơng cụ khai phá liệu vào Oracle9i, IBM tiên phong việc phát tri n... tri thức phát bị thay đổi theo thời gian tức mơ hình hay tri thức phụ thuộc vào thời điểm quan sát, lấy mẫu, thời điểm khai phá, kết đạt sau khai phá gây khơng khó khăn cho khai phá liệu Dữ liệu