Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
1,4 MB
Nội dung
TRƯỜNG ðẠI HỌC TÂY ðÔ KHOA KỸ THUẬT CÔNG NGHỆ LUẬN VĂN TỐT NGHIỆP ðẠI HỌC KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Sinh viên thực hiện: Cán hướng dẫn: Họ tên: Quách Luyl ða MSSV: 0751010009 Lớp: ðại học Tin học Ths Dương Văn Hiếu Cần Thơ, 2011 TRƯỜNG ðẠI HỌC TÂY ðÔ KHOA KỸ THUẬT CÔNG NGHỆ LUẬN VĂN TỐT NGHIỆP ðẠI HỌC KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Sinh viên thực Cán hướng dẫn Họ tên: Quách Luyl ða MSSV: 0751010009 Lớp: ðại học Tin học Ths Dương Văn Hiếu Cán phản biện Học hàm, học vị, họ tên cán phản biện Luận văn ñược bảo vệ tại: Hội ñồng chấm luận văn tốt nghiệp Bộ môn …… …………………… … Khoa Kỹ Thuật Công Nghệ, Trường ðại học Tây ðô vào ngày tháng năm … Mã số ñề tài: Có thể tìm hiểu luận văn tại: • Thư viện: Trường ðại học Tây ðô • Website: LỜI CÁM ƠN “ði khắp gian không tốt Mẹ Gánh nặng ñời không khổ Cha Nước biển mênh mông không ñong ñầy tình Mẹ Mây trời lồng lộng không phủ kín công Cha” Khuyết danh Việt Nam ði khắp gian không tốt mẹ, chăm lo sống cho không cha, gánh nặng cha mẹ không nói ra, cảm nhận biết ñược qua mái tóc bạc mẹ, giọt mồ hôi da rám nắng cha Tất việc làm cha mẹ ñể cho gia ñình ñược sống vui vẻ hạnh phúc, cho anh em ñược ăn học nên người Gánh nặng gia tăng nặng nề vai cha mắt mẹ bước vào ngưỡng ñại học Với bao lo lắng từ ăn, mặc, việc học hành làm tăng gánh nặng cho cha mẹ Gánh nặng thấy ñược tiếng cười cha, ánh mắt tiếng nói mẹ Tôi xin gửi lời cám ơn kết học tập năm tháng học xa nhà ñể làm quà dâng tặng lên cha mẹ tôi! Tôi xin chân thành cám ơn quý thầy cô ban giám hiệu, thầy cô khoa thầy cô trực tiếp giảng dạy chúng tôi, ñã cung cấp cho ñược kiến thức, kỹ cần thiết sống chuyên môn Từ ñó vận dụng vào học tập trình nghiên cứu ðặc biệt, xin chân thành cám ơn thầy Dương Văn Hiếu, có nhiều khó khăn mặt ñịa lý công việc, thầy ñã tạo ñiều kiện ñể hướng dẫn hoàn thành khóa luận Tôi xin chân thành cám ơn! Khoảng thời gian theo học trường, với lạ lẫm vừa bước vào môi trường mới, với nhiều bạn Chính người bạn ñồng hành với bước ñường ñại học, với lý tưởng tính cách khác Chính câu chuyện buồn – vui – giận – ghét giúp ñỡ học tập công tác, bạn ñã giúp thêm trưởng thành hơn, trao dồi ñược nhiều kiến thức từ bạn Tôi xin chân thành cám ơn! Và lời cảm ơn sau cùng, xin chân thành cám ơn anh chị, người bạn, cô nhân viên trường ñã giúp ñỡ quan tâm suốt thời gian theo học trường Tôi xin chân thành cám ơn! Xin chân thành cám ơn! luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC MỤC LỤC LỜI CÁM ƠN BẢNG KÝ HIỆU VÀ VIẾT TẮT Chương I : TỔNG QUAN I.1 ðẶT VẤN ðỀ I.2 LỊCH SỬ GIẢI QUYẾT VẤN ðỀ I.3 PHẠM VI CỦA ðỀ TÀI 10 I.4 PHƯƠNG PHÁP NGHIÊN CỨU 10 Chương II : CƠ SỞ LÝ THUYẾT 11 II.1 KHÁI NIỆM VỀ KHAI PHÁ DỮ LIỆU 11 II.1.1 Khái niệm: 11 II.1.2 Nhiệm vụ khai thác liệu: 12 II.1.3 Ứng dụng khai phá liệu: 14 II.2 CÁC KHÁI NIỆM CƠ BẢN 15 II.2.1 Dữ liệu kiểu liệu: 15 II.2.2 Chất lượng liệu: 19 II.3 Thu thập tiền xử lý liệu: 23 II.3.1 Tổng hợp liệu: 23 II.3.2 Lấy mẫu: 24 II.3.3 Giảm bớt thuộc tính: 25 II.3.4 Lựa chọn tập thuộc tính con: 26 II.3.5 Tạo thuộc tính mới: 27 II.3.6 Rời rạc hóa nhị phân hóa: 29 II.3.7 Chuyển ñổi thuộc tính: 30 II.4 Một số kỹ thuật khai phá liệu: 30 II.4.1 Phân cụm liệu (Cluster analysis): 30 II.4.2 Hồi quy (Regression): 33 II.4.3 Cây ñịnh (Decision tree): 37 II.4.4 K – lân cận gần nhất: (K Nearest neighbour-KNN) 44 II.4.5 Giải thuật di truyền: 46 II.4.6 Mạng neuron nhân tạo (Neural networks): 50 II.4.7 Luật kết hợp (Association rule): 57 Chương III : NỘI DUNG NGHIÊN CỨU 67 III.1 NGHIÊN CỨU VỀ PHẦN MỀM KHAI PHÁ DỮ LIỆU 67 III.1.1 Giới thiệu Tanagra: 67 III.1.2 Tìm hiểu Tanagra: 68 III.1.3 Ứng dụng Tanagra: 81 III.2 CHƯƠNG TRÌNH ỨNG DỤNG: 83 III.2.1 Khai phá liệu luật kết hợp: 83 III.2.2 Khai phá liệu ñịnh: 93 KẾT LUẬN VÀ KIẾN NGHỊ PHỤ LỤC Phụ lục I: ðo khoảng cách ñối tượng Phụ lục II: Thuật giải Heuristic Phụ lục III: Hướng dẫn sử dụng chương trình khai phá luật kết hợp Phụ lục IV: Hướng dẫn sử dụng chương trình khai phá ñịnh TÀI LIỆU THAM KHẢO SVTH: Quách Luyl ða Trang NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com BẢNG KÝ HIỆU VÀ VIẾT TẮT 01 02 03 TỪ VIẾT TẮT ANN AND, DNA GA Artifical neural network Acid DeoxyriboNucleic Genetic Algorithm 04 GUI Graphical user interface 05 06 07 Item Itemset KNN 08 KDD 09 RAM 10 XML 11 web Item Itemset K Nearest neighbour Knowledge Discovery in Databases Ram memory Extensible Markup Language website, web page STT TIẾNG ANH SVTH: Quách Luyl ða NGHĨA TIẾNG VIỆT Mạng thần kinh nhân tạo Phần tử nucleotic a xít Giải thuật di truyền Giao diện ñồ họa người dùng Món hàng, mục, Tập mục, hàng,… K-lân cận gần Khám phá tri thức từ liệu Bộ nhớ ram Ngôn ngữ ñánh dấu mở rộng Trang web Trang luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC TÓM TẮT Sự bùng nổ thông tin ngày lan rộng nhanh chóng, bên cạnh liệu ngày gia tăng số lượng Các nhà khoa học ñã nghiên cứu khả sử dụng liệu ñể phục vụ nhu cầu kinh doanh, học tập nghiên cứu Việc khai thác liệu dựa liệu ñã tồn ñược gọi khai phá liệu (Data mining) Quá trình khai phá liệu bước ngoặc quan trọng cho trình khám phá tri thức từ liệu (Knowledge Discovery in Databases) Dựa liệu khai phá liệu khám phá tri thức từ liệu văn (text mining), luận văn ñi sâu vào việc tìm hiểu trình khai phá liệu bao gồm: tiền xử lý liệu, phương pháp khai phá liệu làm tản, chương trình khai phá liệu, lập trình xử lý số thuật toán phương pháp khai phá liệu luật kết hợp ñịnh, Tuy nhiên, ñề tài chưa ñi khai thác ñược hết khía cạnh khai phá liệu từ hình ảnh (Image mining), web (web mining),…Các phương pháp khai phá liệu khác ABSTRACT The explosion of information becomes more widely and quickly, besides increasing the data quantity Scientists have been studying the possibility of using that data to serve the needs of business, learning and research activities Mining based on historical data is called data mining The data mining process is an very important landmark for the process of discovering knowledge from data In this study, we focus on understanding the data mining process including data preprocessing, common data mining techniques, data-mining programs And, implementing the basic methods of data mining such as association rule and decision tree, … However, the topic is not going to exploit every aspect of data-mining from image (Image mining), web (web mining), The data-mining methods other SVTH: Quách Luyl ða Trang NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com Chương I : TỔNG QUAN I.1 ðẶT VẤN ðỀ Ngày nay, công nghệ thông tin ñã trở thành ñộng lực quan trọng phát triển Với khả số hóa thông tin (số, ñồ thị, văn bản, hình ảnh, âm thanh, tiếng nói,…), máy tính ñã trở thành công cụ thông minh, ñược sử dụng ñể xử lý thông tin với nhiều dạng thông tin thuộc nhiều lĩnh vực khác ñời sống như: kinh doanh, y học,… Bên cạnh ñó, với phát triển công nghệ lưu trữ liệu phục vụ công việc lưu trữ thông tin liên quan ñến nhiều mặt sống: kinh doanh, buôn bán, … ñã góp phần cải thiện sống làm giảm bớt ñi việc lưu trữ thông tin dựa văn ðó tiền ñề cho ñời kinh tế – kinh tế số ( hay gọi kinh tế tri thức, kinh tế dựa tri thức) Nền kinh tế ñấy ñã ñang làm cho phát triển thông tin lưu trữ ngày nhiều, khả linh hoạt phần mềm phải ñảm ñương nhiều công việc việc lựa chọn thông tin Và năm 1980, số nhà nghiên cứu ñã ñưa số kỹ thuật nhằm giải vấn ñề trên, ñược gọi kỹ thuật khai phá liệu (data mining) Các kỹ thuật khai phá liệu ñã ñược công ty kinh doanh sản phẩm liên quan ñến thông tin ñã ứng dụng như: - Duyệt web, tìm kiếm thông tin Google, Google ñưa gợi ý, có lẽ bạn nghĩ: ñã ñọc ñược suy nghĩ mình! Mà ña phần gợi ý ñấy gần thông tin mà bạn cần tìm kiếm Vì Google biết cần tìm thông tin ñấy? - Facebook, nhắc ñến Facebook bạn nghĩ ñến cộng ñồng với số lượng thông tin cá nhân ñược lưu trữ với số lượng lớn, phải nói lớn Khi bạn muốn kết bạn cộng ñồng ấy, Facebook ñưa gợi ý người bạn cho bạn kết bạn Và người bạn gần bạn ñã quen biết sống ñời thường Bạn nghĩ làm vậy? - Một ví dụ khác, ñó việc tìm mua sách cửa hàng sách trực tuyến khổng lồ Amazon Khi lựa chọn sách, ñưa cho bạn lựa chọn quyến sách mà 90% bạn cần mua Vậy hiểu bạn nhiều thế? Và câu hỏi cuối cùng, việc xử lý thông tin sao? Tất câu hỏi ñấy ứng dụng cụ thể khai phá liệu khám phá tri thức Vậy khai phá liệu gì? I.2 LỊCH SỬ GIẢI QUYẾT VẤN ðỀ “ Data mining trình thăm dò, lựa chọn mô hình hóa khối lượng lớn liệu ñể tìm quy luật mối quan hệ chưa biết ñầu tiên với mục ñích ñể có ñược kết rõ ràng hữu ích cho chủ sở hữu sở liệu.” SVTH: Quách Luyl ða Trang NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com Qua trình phát triển, ñịnh nghĩa khai phá liệu ngày ñược mở rộng, hoàn thiện: - Khai phá liệu trình khám phá thông tin hữu dụng kho liệu khổng lồ cách tự ñộng Các kỹ thuật khai phá liệu ñược triển khai dựa sở liệu lớn nhằm tìm kiếm mẫu hay quy luật (pattern) hữu dụng mà chưa ñược biết trước ñó Ví dụ: “Những sinh viên học giỏi môn Toán rời rạc, Lập trình, Cấu trúc liệu Cơ sở liệu học giỏi môn khai phá liệu” - Khai phá liệu trình tìm kiếm mẫu mới, thông tin, tri thức có ích, tiềm ẩn mang tính dự ñoán khối lượng liệu lớn Các kỹ thuật khai phá liệu cung cấp khả phán ñoán (dự ñoán) kết quan sát khứ Khai phá liệu không khám phá thông tin hữu dụng sở liệu (databases) hay kho liệu (data respostories) mà liên quan ñến lĩnh vực truy xuất thông tin (information retrieval) Ví dụ: Sử dụng hệ quản trị sở liệu ñể tìm kiếm mẫu tin sử dụng công cụ tìm kiếm Internet ñể tìm kiếm trang web thông tin ñược lưu trữ trang web cụ thể ñó Data mining phần hoàn chỉnh lĩnh vực khám phá tri thức (Knowledge Discovery) Nó toàn trình chuyển liệu thô sang thông tin hữu dụng Quá trình gồm nhiều bước tiền xử lý liệu ñến hậu xử lý kết trình khai phá Thống kê tóm tắt Xác ñịnh nhiệm vụ Xác ñịnh liệu liên Thu thập tiền xử lý liệu Giải thuật khai phá Mẫu Dữ liệu trực tiếp Hình I-2 Quá trình khai phá liệu Các khó khăn việc khai thác tri thức từ liệu: a) Tính qui mô: Với phát triển việc tạo liệu thu thập liệu, tập hợp liệu ñuợc lưu trữ ngày lớn (gigabytes, terabytes,petabytes) ngày trở nên thông dụng Các thuật toán khai phá liệu phải có khả phân tích ñược tập liệu ñó Nhiều kỹ thuật khai phá liệu triển khai chiến lược nghiên cứu ñặc biệt nhằm quản lý vấn ñề nghiên cứu tăng theo cấp SVTH: Quách Luyl ða Trang luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC số nhân Tính qui mô (scalability) yêu cầu phương pháp cài ñặt cấu trúc liệu nhằm truy xuất ñược mẩu tin cách hiệu Ví dụ: Các thuật toán “xử lý liệu nhớ (RAM)” (out-of-core) cần thiết xử lý tập liệu lớn dung lượng nhớ Tính qui mô ñược cải tiến cách sử dụng liệu mẫu (samples), sử dụng giải thuật song song phân tán b) Tính ña thuộc tính: Xử lý tập liệu có hàng trăm hay hàng nghìn thuộc tính ngày trở nên phổ biến Trong lĩnh vực tin học cho sinh học, liệu gen bao gồm hàng ngàn thuộc tính Các tập liệu với thành phần liệu theo thời gian hay ñược gọi liệu (temporal/ spatial components) có xu hướng có nhiều thuộc tính Ví dụ: Tập liệu chứa thông tin ñịa chất nhiều khu vực khác ñược thu thập lặp ñi lặp lại nhiều lần, số lượng thuộc tính tăng dần theo thời gian Các kỹ thuật phân tích liệu truyền thống ñược thiết kế cho liệu có thuộc tính áp dụng cho trường hợp liệu có nhiều thuộc tính c) Dữ liệu không phức tạp: Các phương pháp phân tích liệu truyền thống áp dụng cho tập hợp liệu chứa thuộc tính có kiểu liệu (có thể liên tục hay rời rạc) Khi việc sử dụng khai phá liệu kinh doanh, khoa học y học ngày tăng cần có kỹ thuật phân tích liệu áp dụng ñược cho thuộc tính không (heterogeneous attributes) Bên cạnh ñó, phải áp dụng ñược cho liệu phức tạp Ví dụ: Các kiểu liệu truyền thống bao gồm: tập hợp trang web lưu văn liên kết bán cấu trúc, liệu DNA không gian chiều, liệu thời tiết (nhiệt ñộ, áp suất, ñộ ẩm) nhiều vùng giới Các kỹ thuật ñược phát triển cho khai phá liệu cần phải quan tâm ñến mối quan hệ liệu như: mối quan hệ nhiệt ñộ theo thời gian, liên thông ñồ thị, quan hệ thành phần liệu bán cấu trúc XML d) Sở hữu phân bố liệu: Có liệu cần ñược phân tích ñược lưu trữ nhiều nơi khác ñược sở hữu nhiều quan khác Các khó khăn ñòi hỏi phải phát triển kỹ thuật khai phá liệu theo dạng phân tán Vấn ñề cần quan tâm “làm hạn chế lưu lượng truyền tải liệu thực thuật toán phân tán?”, “làm hợp liệu từ nguồn gốc khác cách hiệu nhất?”, “làm ñảm bảo tính an toàn bảo mật?”,… e) Việc phân tích liệu không theo cách truyền thống: Cách tiếp cận liệu theo phương pháp thống kê truyền thống dựa cách ñặt giả thuyết kiểm tra giả thuyết cần nhiều công sức ñể kiểm tra giả thuyết Các công việc phân tích liệu ñòi hỏi phải ñặt kiểm tra hàng nghìn giả ñịnh cách Quá trình phát triển kỹ thuật khai phá liệu ñã ñược thúc ñẩy mong ñợi trình ñặt kiểm tra giả ñịnh cách hoàn toàn tự ñộng Hơn nữa, liệu ñược phân tích khai phá SVTH: Quách Luyl ða Trang luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC liệu liệu ngẫu nhiên nên phương pháp phân tích truyền thống áp dụng cho tập liệu phức tạp mang tính ngẫu nhiên I.3 PHẠM VI CỦA ðỀ TÀI ðề tài ñi sâu nghiên cứu trình khai phá liệu khám phá tri thức từ liệu Qua việc nghiên cứu tìm hiểu thêm kỹ thuật việc tiền xử lý liệu, kỹ thuật khai phá liệu từ ñó có ñược kiến thức việc tìm hiểu công cụ khai phá liệu, xây dựng demo khai phá liệu dựa số thuật toán ñịnh luật kết hợp Từ trình nghiên cứu thực tiễn ñể thấy ñược vấn ñề thách thức lĩnh vực khai phá liệu Sử dụng sở lý thuyết ñã nghiên cứu ñể cài ñặt chuơng trình sinh luật kết hợp ñịnh kỹ thuật trình khai phá liệu I.4 PHƯƠNG PHÁP NGHIÊN CỨU Dựa việc tìm hiểu tư liệu lĩnh vực khai phá liệu, từ ñó rút ñược kết trình tiền xử lý liệu, số kỹ thuật khai phá liệu với thuật toán ðể có ñược hiểu biết trình khai phá liệu khám phá tri thức Dựa trình tìm hiểu khai phá liệu, tiếp cận công cụ khai phá liệu, ñể chứng minh cho thuật toán giải thuật ñã nghiên cứu Tổng hợp liệu ñã tìm hiểu, minh họa thuật toán việc khai phá liệu ñịnh luật kết hợp demo cụ thể Demo sử dụng ngôn ngữ lập trình Microsoft Visual Basic 2008 ñể xây dựng thuật toán SVTH: Quách Luyl ða Trang 10 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Chương II : CƠ SỞ LÝ THUYẾT II.1 KHÁI NIỆM VỀ KHAI PHÁ DỮ LIỆU II.1.1 Khái niệm: Khai phá liệu (Data mining) một bước trình khám phá tri thức sở liệu (Knowledge Discovery in Databases – KDD) Hình II-1 Quá trình khám phá tri thức sở liệu Tại hội nghị quốc tế lần thứ Khám phá tri thức Khai phá liệu (Knowledge Discovery and Data mining, ñược tổ chức Motreal vào năm 1995, Usama Fayaad ñã ñưa khái niệm thức Data mining Nó ñược sử dụng ñể tập hợp kỹ thuật phân tích ñược chia làm nhiều giai ñoạn khác nhau, với mục tiêu kiến thức trước ñây chưa biết ñược suy luận từ kho liệu khổng lồ, mà dường quy luật mối quan hệ rõ ràng Khi thuật ngữ “Data mining” từ từ ñược hình thành, ñã trở thành kiến thức dành cho việc suy luận ðiều hữu ích ñã bác bỏ khía cạnh – mục ñích cuối khai khoáng liệu mơ hồ trước ñó Mục tiêu khai khoáng liệu thu ñược kết ño mức ñộ phù hợp liệu cho chủ sở hữu sở liệu–kinh doanh ñược thuận lợi Khai phá liệu (Data mining) trình khám phá thông tin hữu dụng kho liệu khổng lồ cách tự ñộng Các kỹ thuật khai phá liệu ñược triển khai sở liệu lớn nhằm tìm kiếm mẫu hay qui luật (pattern) hữu dụng mà chưa ñược biết trước ñó Ví dụ: Người ta thường mua ñường mua ñậu xanh, sinh viên học giỏi môn Toán rời rạc, lập trình, cấu trúc liệu sở liệu học giỏi môn khai phá liệu Các kỹ thuật khai phá liệu cung cấp khả phán ñoán (dự ñoán) kết quan sát tương lai dựa vào liệu khứ Khai phá liệu không khám phá thông tin hữu dụng sở liệu (databases) hay kho liệu (data repositories) mà bao gồm công việc liên quan ñến lĩnh vực truy xuất thông tin (information retrieval) Theo sơ ñồ Quá trình khám phá tri thức sở liệu (Hình II-1), ta có số khái niệm sau: SVTH: Quách Luyl ða Trang 11 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC - Input Data: liệu ñầu vào, ñược lưu trữ với nhiều ñịnh dạng khác (file text, file bảng tính, quan hệ) ñược lưu trữ kho liệu tập trung phân tán nhiều nơi khác - Data Preprocessing: Quá trình tiền xử lý liệu bao gồm phân rã (puse) liệu từ nhiều nguồn liệu khác nhau, làm (clean) liệu cách loại bỏ nhiễu liệu trùng nhau, lựa chọn mẫu tin (record) ñặc tính (feature) có liên quan ñến trình khai thác (mine) liệu Trong thực tế, liệu ñược thu nhập lưu trữ nhiều cách khác nên trình tiền xử lý liệu trình quan trọng, nặng nhọc tiêu tốn nhiều thời gian công sức - Postproccessing: Hậu xử lý kết trình loại bỏ kết không phù hợp hay lựa chọn kết phù hợp với công việc nhu cầu thực tế Các kết sau bước hậu xử lý ñược sử dụng cho hệ thống hỗ trợ ñịnh (Decision Support System) II.1.2 Nhiệm vụ khai thác liệu: Khai phá liệu có nhiệm vụ lớn dự ñoán mô tả: II.1.2.1 Nhiệm vụ dự ñoán: Mục ñích nhiệm vụ dự ñoán dự ñoán giá trị thuộc tính cụ thể dựa giá trị thuộc tính khác Thuộc tính ñược dự ñoán ñược gọi thuộc tính mục tiêu (target attributed) hay thuộc tính phụ thuộc (dependent variables/ attributed), thuộc tính dùng ñể tạo dự ñoán gọi thuộc tính mô tả hay thuộc tính ñộc lập (explanatory/ Indepent variables) Ví dụ: ðể ñịnh việc cấp học bổng cho sinh viên ñại học sau ñại học, người ta dựa vào nhiều yếu tố tiêu chí khác Một tiêu chí ñó khả thành công học tập người ñược cấp học bổng Làm ñể ước lượng ñược khả học tập ứng viên xin học bổng? Người/ tổ chức cấp học bổng sử dụng thông tin sinh viên như: giới tính, ñộ tuổi, hoàn cảnh gia ñình, tình trạng hôn nhân, nghề nghiệp II.1.2.2 Nhiệm vụ mô tả: Mục ñích nhiệm vụ mô tả lấy từ mẫu (pattern) mang tính mô tả như: tương quan (correlation), xu hướng (trend), nhóm (cluster), ñường di chuyển (trajectory) ngoại lệ Các mẫu nói lên mối quan hệ liệu Nhiệm vụ phần thường giải thích mặt chất thường yêu cầu kỹ thuật hậu xử lý (postproccessing) nhằm xác nhận (validate) giải thích (explain) kết II.1.2.3 Nhiệm vụ trọng tâm khai phá liệu: Nhiệm vụ trọng tâm khai báo liệu là: mô hình hóa cho việc dự báo, phân tích nhóm ñối tượng liệu thành nhóm dựa thuộc tính chúng, phân tích ñưa luật kết hợp dựa liệu tại, phân tích phát trường hợp ngoại lệ Bốn nhiệm vụ ñược mô tả ngắn gọn sau: SVTH: Quách Luyl ða Trang 12 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Hình II-2 Bốn nhiệm vụ trọng tâm khai phá liệu a) Mô hình hóa cho việc dự báo: Nhiệm vụ xây dựng mô hình cho thuộc tính cần ñược dự ñoán giá trị (target variable) hàm biến ñộc lập (independent variable) ñược dùng ñể ñoán giá trị cho target variable Có hai kiểu mô hình dự báo (predictive modeling), ñó là: phân lớp liệu (classification analysis) hồi quy (regression) Sự phân lớp liệu ñược sử dụng cho thuộc tính target có giá trị rời rạc Sự hồi quy ñược sử dụng cho thuộc tính target có giá trị liên tục Ví dụ 1: Dự ñoán người dùng Internet mua hàng trực tuyến hay không phải sử dụng phương pháp phân lớp giá trị thuộc tính target rời rạc (“mua” “không”) Ví dụ 2: Dự ñoán giá cổ phiếu tương lai phải sử dụng phương pháp regession giá trị cổ phiếu giá trị liên tục Mục ñích phân lớp hồi quy tìm mô hình ñể dự ñoán giá trị thuộc tính dựa thuộc tính khác cho tối thiểu sai khác dự ñoán giá trị thực tế b) Phân tích kết hợp: Phân tích kết hợp dùng ñể khám phá mẫu (pattern) mà mẫu mô tả cách mạnh mẽ mối quan hệ ñặc ñiểm liệu Các mẫu qui luật ñược khám phá thông thường ñược biểu diễn luật kết hợp Bởi kích thước không gian tìm kiếm tăng lên theo cấp số nhân nên mục ñích phương pháp phân tích kết hợp kết xuất mẫu có ý nghĩa cách làm hiệu hay nói cách khác phải “loại bỏ luật có giá trị sử dụng ít” Ví dụ: Xét giao dịch cửa hàng bảng bên dưới: SVTH: Quách Luyl ða Trang 13 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Hình II-3 Một số giao dịch cửa hàng Phân tích lớp liệu ñược dùng ñể phân tích tìm mặt hàng ñược mua với ñể “bố trí mặt hàng cho khách hàng mua hàng thuận tiện nhất” c) Phân tích nhóm: Phương pháp phân tích nhóm dùng ñể tìm nhóm (groups) giá trị quan sát ñược (observations) có liên quan ñến Các giá trị quan sát nhóm chắn giống nhiều so với giá trị nhóm khác Ví dụ: phân nhóm khách hàng ñể tìm khách hàng có sở thích mua sắm d) Phát ngoại lệ: Phát ngoại lệ tìm quan sát mà chúng khác nhiều so với giá trị khác Các giá trị khác biệt so với giá trị khác ñược gọi ngoại lệ (anomaly, outlier) Ví dụ: Ứng dụng phương pháp phát ngoại lệ ñể tìm giao dịch “bất thường” lĩnh vực ngân hàng như: rửa tiền, gian lận khác giao dịch II.1.3 Ứng dụng khai phá liệu: Từ ñời, khai phá liệu ñược ứng dụng rộng rãi, sau ñây số ứng dụng cụ thể: a) Thiên văn học: Xác ñịnh vị trí hướng di chuyển chòm sao, hành tinh hệ mặt trời dựa liệu hướng di chuyển, lịch sử phát triển nó,… b) Phát gian lận: Dựa doanh thu, tài khoản phải thu, thu thập liệu hiệu biên biên chế gian lận, kiểm toán tự ñộng kỹ thuật ñể phát gian lận, sử dụng liệu phân tích kết ñể kiểm soát biên chế phòng ngừa gian lận,… c) Quản lý quan hệ bán hàng: Lưu trữ thông tin khách hàng, phân loại khách hàng, thông tin mua hàng,…từ ñó ñưa chiến lược, phương pháp kinh doanh nhằm mục ñích: - Khách hàng có lợi ñặc ñiểm làm cho họ SVTH: Quách Luyl ða Trang 14 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC - Thay ñổi hành vi mua khách hàng – hội hay ñe dọa ñối với kinh doanh Những khoảng trống danh mục sản phẩm – cho biết qua việc bán, số lượng bán sản phẩm tăng, lặp lại lần mua hàng, Những mặt hàng bố trí thuận lợi tiện dụng cho khách hàng, d) Chăm sóc sức khỏe: Lưu trữ thông tin bệnh, tượng, triệu chứng,…từ ñó, dựa thông tin ñể phát bệnh hướng ñiều trị cụ thể ñối với bệnh ñã ñược phát e) Nông nghiệp: Tìm kiếm thông tin rầy nâu, hướng di chuyển, lịch sử phát triển,… ñể ñưa biện pháp phòng tránh rầy nâu phá hoại mùa màng f) Giáo dục: Dựa thông tin tập quán, nơi cư trú, ñiều kiện xã hội, tính cách,…ñể ñưa ñịnh hướng việc lựa chọn nghề nghiệp cho học sinh vừa tốt nghiệp phổ thông ñể có hướng lựa chọn nghề nghiệp hợp lý,… II.2 CÁC KHÁI NIỆM CƠ BẢN II.2.1 Dữ liệu kiểu liệu: Dữ liệu phần tử tập hợp phần tử mà ta gọi tín hiệu Nó ñược biểu dạng hình ảnh, âm thanh, màu sắc, mùi vị,…Từ tín hiệu ñó, có hiểu biết vật, tượng hay trình ñó giới khách quan thông qua trình nhận thức Một tập hợp liệu ñược xem tập hợp ñối tượng liệu Các ñối tượng liệu mẫu tin (record), ñiểm (point), véc tơ (vector), mẫu (pattern), kiện (event), trường hợp (case), liệu mẫu (sample), thực thể (entity) kết quan sát (observation) ðối tượng liệu ñược mô tả thuộc tính (attribute) mà thuộc tính nói lên tính chất / ñặc ñiểm ñối tượng liệu Trong ngữ cảnh khai phá liệu, thuộc tính ñược gọi với tên khác như: Biến (variable), ñặc trưng (characteristis), trường liệu (field), tính (feature), kích thước (dimension) II.2.1.1 Thuộc tính phép ño: a) ðịnh nghĩa thuộc tính: Thuộc tính tính chất ñối tượng mà giá trị khác tùy vào ñối tượng cụ thể Ví dụ: màu mắt, cân nặng, chiều cao thuộc tính người, tùy vào người có giá trị khác b) Phép tính ñộ ño: Phép tính ñộ ño quy tắc (rule) hay hàm (function) dùng ñể kết hợp giá trị ký hiệu với thuộc tính ñối tượng, nhằm làm rõ tính chất ñối tượng Ví dụ: Xác ñịnh cân nặng kg, chiều dài mét, giới tính nam hay nữ, số ghế phòng học ñủ hay thiếu,… c) Kiểu thuộc tính: SVTH: Quách Luyl ða Trang 15 luyldaquach@gmail.com STT Kiểu thuộc tính (Attributed type) NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Mô tả Ví dụ Giá trị thuộc tính kiểu Mã tỉnh, mã nominal tên gọi hay ñịnh nhân viên, giới ðịnh danh danh khác nhau, cung cấp tính, (nominal) vừa ñủ thông tin ñể phân biệt giống hay khác (=, ≠ ) Giá trị thuộc tính kiểu ordinal Cao, cao hơn, Thứ tự cung cấp ñầy ñủ thông tin ñể cao nhất,… (ordinal) phân biệt (=, ≠ ) so sánh theo thứ tự (=) ðối với thuộc tính kiểu interval, Ngày tháng phân biệt cung cấp ñầy ñủ năm Khoảng cách thông tin ñể phân biệt(=, ≠ ), so ðộ C ñộ F (interval) sánh (=), khác (+,-) giá trị quan trọng ðối với thuộc tính kiểu ratio, Số lượng, ñộ Tỷ lệ khác (+,-) tỉ lệ (*,/) dài, tuổi,… (ratio) giá trị quan trọng Trong ñó, thuộc tính kiểu ñịnh danh thứ tự ñược coi thuộc tính dùng ñể phân biệt/ phân loại hay thuộc tính ñịnh danh Thuộc tính kiểu khoảng cách tỉ lệ ñược xem thuộc tính ñịnh lượng hay thuộc tính kiểu số d) Mô tả thuộc tính tập hợp giá trị: Bằng cách dựa vào số lượng giá trị mà thuộc tính có, chia làm loại thuộc tính: - Thuộc tính nhị phân: có giá trị Thường ñược sử dụng với thuộc tính kiểu nhị phân, kiểu yes/no Ví dụ: - Thuộc tính rời rạc thuộc tính có tập hợp hữu hạn giá trị, có nhiều giá trị Thường ñược sử dụng với thuộc tính kiểu số nguyên, kiểu ký tự, kiểu chuỗi ký tự Ví dụ: mã tỉnh, số ñiện thoại, giới tính, số chứng minh nhân dân,… - Thuộc tính liên tục: thuộc tính có tập vô hạn giá trị liên tục hay có giá trị số thực, có vô hạn giá trị Thuộc tính liên tục thường ñược sử dụng thuộc tính kiểu số thực hay số có dấu chấm ñộng II.2.1.2 Kiểu tập liệu: Có nhiều kiểu liệu ñược sử dụng lĩnh vực khai phá liệu có nhiều tập liệu ñược sử dụng ñể phân tích Kiểu liệu ñược chia làm nhóm lớn: o Dữ liệu mẫu tin (record data) SVTH: Quách Luyl ða Trang 16 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC o Dữ liệu sở ñồ thị (graph-based data) o Dữ liệu có thứ tự (ordered data) a) Tính chất tổng quát tập liệu: Có tính chất quan trọng ảnh hưởng ñến việc lựa chọn sử dụng kỹ thuật khai phá liệu là: - Số chiều (dimensionality): Số chiều tập hợp liệu số lượng thuộc tính mà ñối tượng tập liệu ñó sở hữu Một thách thức lĩnh vực khai phá liệu có nhiều thuộc tính - Sự thưa thớt (sparsity): ðối với số tập hợp thuộc tính không ñối xứng Hầu hết thuộc tính ñối tượng có giá trị số trường hợp giá trị Trong thực tế, ñây thuận lợi cần lưu trữ thao tác giá trị khác Cách làm làm giảm thời gian tính toán nhớ lưu trữ - ðộ phân giải (resolution): Trong khai phá liệu, ñộ phân giải liệu thường nhiều mức ñộ khác tính chất liệu khác tùy vào mức ñộ phân giải Mẫu liệu thường phụ thuộc nhiều vào mức ñộ phân giải Ví dụ: ðộ phân giải mịn mẫu bị mờ, ñộ phân giải thô mẫu b) Chi tiết kiểu liệu khai phá liệu: Dữ liệu dạng mẫu tin: Hầu hết trường hợp liệu khai phá liệu dạng mẫu tin (record data) Mỗi mẫu tin ñối tượng liệu bao gồm tập hợp thuộc tính Các mẫu tin ñược lưu tập tin phẳng (flat files) lưu bảng liệu (table) sở liệu quan hệ Dữ liệu dạng mẫu tin bảng ghi sở , giao dịch (transaction), ma trận liệu (data matrix) ma trận thuật ngữ văn (document – term matrix) SVTH: Quách Luyl ða a) Dữ liệu mẫu tin b) Ma trận liệu Trang 17 NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com IDcustomers Items Bread, coke, milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Hình II-4 Các ñối tượng liệu dạng mẫu tin Dữ liệu dựa ñồ thị: ðồ thị ñược coi công cụ mạnh thuận lợi cho việc biểu diễn liệu mô tả ñược mối quan hệ thành phân liệu Các ñối tượng liệu biểu diễn nút ñồ thị mối quan hệ ñối tượng ñược biểu diễn ñường liên kết nút Mối quan hệ ñối tượng thường nói lên thông tin quan trọng liệu a) Các trang web ñược liên kết với b) Cấu trúc ADN Hình II-5 Các ñối tượng liệu dựa ñồ thị Dữ liệu có thứ tự: Trong số trường hợp, thuộc tính liệu mẫu tin có mối quan hệ mặt thời gian không gian Dữ liệu ñược gọi liệu có thứ tự Dữ liệu có thứ tự bao gồm: - Dữ liệu ñược xếp liên tục theo thời gian: ðây dạng mở rộng liệu dạng mẫu tin Không mẫu tin thuộc tính mẫu tin có kết hợp với thời gian (thời ñiểm) Ví dụ: Dữ liệu giao dịch khách hàng thời ñiểm sau: SVTH: Quách Luyl ða Trang 18 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Hình II-6 Bảng liệu giao dịch theo thời gian Hình II-7 Bảng liệu giao dịch theo thời gian (tiếp theo) - Dữ liệu dạng chuỗi: (sequence data) tập hợp liệu mà chuỗi thực thể ñơn lẻ giống chuỗi số, ký tự hay từ khóa Rất giống với kiểu liệu theo thời gian không liên quan ñến thời gian (thời ñiểm) Ví dụ thông tin di chuyển loài ñộng hay thực vật ñược biểu diễn chuỗi nucleotide ñược gọi lag gene Hình II-8 Chuỗi liệu - Time series data: Là dạng ñặc biệt liệu dạng chuỗi, mẫu tin time series Nói cách khác, mẫu tin chuỗi giá trị ño ñược thời ñiểm - Spatial data: Một số ñối tượng có thuộc tính liên quan ñến không gian hay vị trí Ví dụ: Dữ liệu thời tiết vị trí khác trái ñất II.2.2 Chất lượng liệu: Khai phá liệu thường sử dụng ñược thu nhập cho mục ñích khác cho việc sử dụng tương lai không rõ ứng dụng cụ thể Chính mà chất lượng liệu vấn ñề cần quan tâm khai thác chi thức từ liệu Vì vậy, trước sử dụng, liệu phải ñược xử lý ñể loại bỏ nhiễu, loại bỏ liệu trùng liệu vô ích phục vụ cho công việc khai phá liệu Vấn ñề ñược trình bày vấn ñề liên quan ñến chất lượng liệu SVTH: Quách Luyl ða Trang 19 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC II.2.2.1 ðộ ño chất lượng vấn ñề thu thập liệu: Trong sống hoàn hảo, liệu ñược thu nhập ñể xử lý gặp nhiều vấn ñề khác không ñảm bảo ñược chất lượng liệu phục vụ cho trình khai phá liệu Các vấn ñề là: - Giá trị nhiều thuộc tính ñối tượng bị thiếu - Dữ liệu bị trùng lắp nhiều lần Nguyên nhân vấn ñề ñến từ: - Lỗi người, nói ñến lỗi người thu thập liệu hay tác ñộng trực tiếp ñến liệu - Sự giới hạn thiết bị ño, ñơn vị ño khoảng cách chênh lệch - Lỗi trình thu thập liệu Vì thế, vấn ñề liên quan ñến chất lượng liệu, cần quan tâm ñến vấn ñề sau: a) Lỗi ño lường thu thập liệu: Lỗi ño lường ñến từ thiết bị hay tác ñộng trực tiếp người Nó ñược sinh trình ño lường Các lỗi xảy nguyên nhân sau: - Giá trị ñược lưu khác với giá trị thực Ví dụ: Năng lượng ion hóa nguyên tử hirô 13,6 eV, trình ghi chép lưu trữ thiết bị 13,9eV; 14eV; 13eV;… - Do phương pháp ño không phù hợp thiết bị ño hay ñiều kiện ño không phù hợp Ví dụ: Trong việc ño huyết áp bệnh nhân, tư ño : nằm ngồi, sử dụng thiết bị ño cánh tay ño cổ tay ngược lại, uống cà phê trước ño,… ảnh hưởng ñến chất lượng lần ño huyết áp - Lỗi thu thập liệu xảy trình thu thập liệu thường bỏ qua số ñối tượng liệu hay thuộc tính, thu thập liệu không ñúng Ví dụ: Xác ñịnh bệnh sốt rét cần có thông tin: lượng bạch cầu máu, thay ñổi dịch não tủy, giảm canxi máu, hạ natri máu, bệnh nhân suy thận,…nếu thiếu triệu chứng xét nghiệm có kết luận cụ thể bệnh b) Nhiễu liệu bị bóp méo: Nhiễu ñược hiểu thành phần ngẫu nhiên lỗi ño lường liệu Lỗi làm cho liệu bị biến dạng, bị ñưa vào ñối tượng giả mạo Lỗi thường gặp ñối với ñối tượng âm thanh, số lượng liệu lớn gom nhóm ñược,…Vấn ñề nhiễu liệu bị bóp méo nguyên nhân: tiếng ồn xung quanh, phương pháp hay giải thuật xử lý nhiễu chưa hợp lý làm nhiều thông tin,… SVTH: Quách Luyl ða Trang 20 [...]... NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Chương II : CƠ SỞ LÝ THUYẾT II.1 KHÁI NIỆM VỀ KHAI PHÁ DỮ LIỆU II.1.1 Khái niệm: Khai phá dữ liệu (Data mining) là một một bước trong quá trình khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases – KDD) Hình II-1 Quá trình khám phá tri thức trong cơ sở dữ liệu Tại hội nghị quốc tế lần thứ nhất về Khám phá tri thức và Khai phá dữ liệu (Knowledge... II.2.1.2 Kiểu của tập dữ liệu: Có rất nhiều kiểu dữ liệu ñược sử dụng trong lĩnh vực khai phá dữ liệu khi có càng nhiều các tập dữ liệu ñược sử dụng ñể phân tích Kiểu dữ liệu có thể ñược chia ra làm 3 nhóm lớn: o Dữ liệu mẫu tin (record data) SVTH: Quách Luyl ða Trang 16 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC o Dữ liệu trên cơ sở ñồ thị (graph-based data) o Dữ liệu có thứ tự... cuối cùng của khai khoáng dữ liệu còn mơ hồ trước ñó Mục tiêu của khai khoáng dữ liệu là thu ñược kết quả có thể ño bằng mức ñộ phù hợp của dữ liệu cho các chủ sở hữu cơ sở dữ liệu kinh doanh ñược thuận lợi Khai phá dữ liệu (Data mining) là một quá trình khám phá thông tin hữu dụng trong kho dữ liệu khổng lồ một cách tự ñộng Các kỹ thuật khai phá dữ liệu ñược tri n khai trên các cơ sở dữ liệu lớn nhằm... cũng như loại bỏ dữ liệu trùng nhau và dữ liệu vô ích không thể phục vụ cho công việc khai phá dữ liệu hiện tại Vấn ñề ñược trình bày tiếp theo là vấn ñề liên quan ñến chất lượng dữ liệu SVTH: Quách Luyl ða Trang 19 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC II.2.2.1 ðộ ño chất lượng và vấn ñề thu thập dữ liệu: Trong cuộc sống không có gì là hoàn hảo, dữ liệu ñược thu nhập... (pattern) mới và hữu dụng mà chưa từng ñược biết trước ñó Ví dụ: Người ta thường mua ñường khi mua ñậu xanh, những sinh viên học giỏi các môn Toán rời rạc, lập trình, cấu trúc dữ liệu và cơ sở dữ liệu thì sẽ học giỏi môn khai phá dữ liệu Các kỹ thuật khai phá dữ liệu cũng cung cấp khả năng phán ñoán (dự ñoán) kết quả của các quan sát trong tương lai dựa vào dữ liệu hiện tại và quá khứ Khai phá dữ liệu không... mất b) Chi tiết về các kiểu dữ liệu trong khai phá dữ liệu: Dữ liệu dạng mẫu tin: Hầu hết các trường hợp dữ liệu của khai phá dữ liệu là dạng mẫu tin (record data) Mỗi mẫu tin là một ñối tượng dữ liệu bao gồm một tập hợp các thuộc tính Các mẫu tin có thể ñược lưu trong các tập tin phẳng (flat files) hoặc lưu trong các bảng dữ liệu (table) trong cơ sở dữ liệu quan hệ Dữ liệu dạng mẫu tin có thể là các... trận dữ liệu (data matrix) và ma trận thuật ngữ trong văn bản (document – term matrix) SVTH: Quách Luyl ða a) Dữ liệu mẫu tin b) Ma trận dữ liệu Trang 17 NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com IDcustomers 1 2 3 4 5 Items Bread, coke, milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk Hình II-4 Các ñối tượng của dữ liệu dạng mẫu tin Dữ liệu. .. là khám phá các thông tin hữu dụng trong các cơ sở dữ liệu (databases) hay kho dữ liệu (data repositories) mà còn bao gồm các công việc liên quan ñến lĩnh vực truy xuất thông tin (information retrieval) Theo sơ ñồ Quá trình khám phá tri thức trong cơ sở dữ liệu (Hình II-1), ta có một số khái niệm như sau: SVTH: Quách Luyl ða Trang 11 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC... hợp với thời gian (thời ñiểm) Ví dụ: Dữ liệu về giao dịch của khách hàng tại từng thời ñiểm như sau: SVTH: Quách Luyl ða Trang 18 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Hình II-6 Bảng dữ liệu giao dịch theo thời gian Hình II-7 Bảng dữ liệu giao dịch theo thời gian (tiếp theo) - Dữ liệu dạng chuỗi: (sequence data) là một tập hợp dữ liệu mà nó là một chuỗi các thực thể... nhóm dựa trên những thuộc tính của chúng, phân tích và ñưa ra các luật kết hợp dựa trên các dữ liệu hiện tại, phân tích và phát hiện các trường hợp ngoại lệ Bốn nhiệm vụ ấy có thể ñược mô tả ngắn gọn như sau: SVTH: Quách Luyl ða Trang 12 luyldaquach@gmail.com NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Hình II-2 Bốn nhiệm vụ trọng tâm của khai phá dữ liệu a) Mô hình hóa cho việc dự báo: Nhiệm vụ chính