Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 104 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
104
Dung lượng
10,96 MB
Nội dung
TRƯỜNG ðẠI HỌC TÂY ðÔ KHOA KỸ THUẬT CÔNG NGHỆ LUẬN VĂN TỐT NGHIỆP ðẠI HỌC KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Sinh viên thực hiện: Cán hướng dẫn: Họ tên: Quách Luyl ða MSSV: 0751010009 Lớp: ðại học Tin học Ths Dương Văn Hiếu Cần Thơ, 2011 .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án TRƯỜNG ðẠI HỌC TÂY ðÔ KHOA KỸ THUẬT CÔNG NGHỆ LUẬN VĂN TỐT NGHIỆP ðẠI HỌC KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC Sinh viên thực Cán hướng dẫn Họ tên: Quách Luyl ða MSSV: 0751010009 Lớp: ðại học Tin học Ths Dương Văn Hiếu Cán phản biện Học hàm, học vị, họ tên cán phản biện Luận văn ñược bảo vệ tại: Hội ñồng chấm luận văn tốt nghiệp Bộ môn …… …………………… … Khoa Kỹ Thuật Công Nghệ, Trường ðại học Tây ðô vào ngày tháng năm … Mã số đề tài: Có thể tìm hiểu luận văn tại: • Thư viện: Trường ðại học Tây ðơ • Website: Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án LỜI CÁM ƠN “ði khắp gian không tốt Mẹ Gánh nặng đời khơng khổ Cha Nước biển mênh mơng khơng đong đầy tình Mẹ Mây trời lồng lộng khơng phủ kín cơng Cha” Khuyết danh Việt Nam ði khắp gian không tốt mẹ, chăm lo sống cho không cha, gánh nặng cha mẹ khơng nói ra, tơi cảm nhận biết qua mái tóc bạc mẹ, giọt mồ da rám nắng cha Tất việc làm cha mẹ gia đình sống vui vẻ hạnh phúc, cho anh em tơi ăn học nên người Gánh nặng gia tăng nặng nề vai cha mắt mẹ bước vào ngưỡng ñại học Với bao lo lắng từ ăn, mặc, việc học hành làm tăng gánh nặng cho cha mẹ Gánh nặng khơng thể thấy tiếng cười cha, ánh mắt tiếng nói mẹ Tơi xin gửi lời cám ơn kết học tập năm tháng học xa nhà để làm quà dâng tặng lên cha mẹ tôi! Tôi xin chân thành cám ơn quý thầy cô ban giám hiệu, thầy cô khoa thầy cô trực tiếp giảng dạy chúng tơi, cung cấp cho chúng tơi kiến thức, kỹ cần thiết sống chun mơn Từ vận dụng vào học tập trình nghiên cứu ðặc biệt, tơi xin chân thành cám ơn thầy Dương Văn Hiếu, có nhiều khó khăn mặt địa lý cơng việc, thầy ñã tạo ñiều kiện ñể hướng dẫn hồn thành khóa luận Tơi xin chân thành cám ơn! Khoảng thời gian theo học trường, với lạ lẫm vừa bước vào môi trường mới, với nhiều bạn Chính người bạn đồng hành với tơi bước đường đại học, với lý tưởng tính cách khác Chính câu chuyện buồn – vui – giận – ghét giúp đỡ học tập cơng tác, bạn giúp tơi thêm trưởng thành hơn, trao dồi ñược nhiều kiến thức từ bạn Tôi xin chân thành cám ơn! Và lời cảm ơn sau cùng, xin chân thành cám ơn anh chị, người bạn, cô nhân viên trường ñã giúp ñỡ quan tâm suốt thời gian theo học trường Tôi xin chân thành cám ơn! Xin chân thành cám ơn! Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com MỤC LỤC LỜI CÁM ƠN BẢNG KÝ HIỆU VÀ VIẾT TẮT Chương I : TỔNG QUAN I.1 ðẶT VẤN ðỀ I.2 LỊCH SỬ GIẢI QUYẾT VẤN ðỀ I.3 PHẠM VI CỦA ðỀ TÀI 10 I.4 PHƯƠNG PHÁP NGHIÊN CỨU 10 Chương II : CƠ SỞ LÝ THUYẾT 11 II.1 KHÁI NIỆM VỀ KHAI PHÁ DỮ LIỆU 11 II.1.1 Khái niệm: 11 II.1.2 Nhiệm vụ khai thác liệu: 12 II.1.3 Ứng dụng khai phá liệu: 14 II.2 CÁC KHÁI NIỆM CƠ BẢN 15 II.2.1 Dữ liệu kiểu liệu: 15 II.2.2 Chất lượng liệu: 19 II.3 Thu thập tiền xử lý liệu: 23 II.3.1 Tổng hợp liệu: 23 II.3.2 Lấy mẫu: 24 II.3.3 Giảm bớt thuộc tính: 25 II.3.4 Lựa chọn tập thuộc tính con: 26 II.3.5 Tạo thuộc tính mới: 27 II.3.6 Rời rạc hóa nhị phân hóa: 29 II.3.7 Chuyển đổi thuộc tính: 30 II.4 Một số kỹ thuật khai phá liệu: 30 II.4.1 Phân cụm liệu (Cluster analysis): 30 II.4.2 Hồi quy (Regression): 33 II.4.3 Cây ñịnh (Decision tree): 37 II.4.4 K – lân cận gần nhất: (K Nearest neighbour-KNN) 44 II.4.5 Giải thuật di truyền: 46 II.4.6 Mạng neuron nhân tạo (Neural networks): 50 II.4.7 Luật kết hợp (Association rule): 57 Chương III : NỘI DUNG NGHIÊN CỨU 67 III.1 NGHIÊN CỨU VỀ PHẦN MỀM KHAI PHÁ DỮ LIỆU 67 III.1.1 Giới thiệu Tanagra: 67 III.1.2 Tìm hiểu Tanagra: 68 III.1.3 Ứng dụng Tanagra: 81 III.2 CHƯƠNG TRÌNH ỨNG DỤNG: 83 III.2.1 Khai phá liệu luật kết hợp: 83 III.2.2 Khai phá liệu ñịnh: 93 KẾT LUẬN VÀ KIẾN NGHỊ PHỤ LỤC Phụ lục I: ðo khoảng cách ñối tượng Phụ lục II: Thuật giải Heuristic Phụ lục III: Hướng dẫn sử dụng chương trình khai phá luật kết hợp Phụ lục IV: Hướng dẫn sử dụng chương trình khai phá ñịnh TÀI LIỆU THAM KHẢO Trang SVTH: Quách Luyl ða Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com BẢNG KÝ HIỆU VÀ VIẾT TẮT 01 02 03 TỪ VIẾT TẮT ANN AND, DNA GA Artifical neural network Acid DeoxyriboNucleic Genetic Algorithm 04 GUI Graphical user interface 05 06 07 Item Itemset KNN 08 KDD 09 RAM 10 XML 11 web Item Itemset K Nearest neighbour Knowledge Discovery in Databases Ram memory Extensible Markup Language website, web page STT TIẾNG ANH NGHĨA TIẾNG VIỆT Mạng thần kinh nhân tạo Phần tử nucleotic a xít Giải thuật di truyền Giao diện đồ họa người dùng Món hàng, mục, Tập mục, hàng,… K-lân cận gần Khám phá tri thức từ liệu Bộ nhớ ram Ngơn ngữ đánh dấu mở rộng Trang web Trang SVTH: Quách Luyl ða Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com luyldaquach@gmail.com Luáºn văn Luáºn án NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC TĨM TẮT Sự bùng nổ thơng tin ngày lan rộng nhanh chóng, bên cạnh liệu ngày gia tăng số lượng Các nhà khoa học ñã nghiên cứu khả sử dụng liệu ñể phục vụ nhu cầu kinh doanh, học tập nghiên cứu Việc khai thác liệu dựa liệu ñã tồn ñược gọi khai phá liệu (Data mining) Quá trình khai phá liệu bước ngoặc quan trọng cho trình khám phá tri thức từ liệu (Knowledge Discovery in Databases) Dựa liệu khai phá liệu khám phá tri thức từ liệu văn (text mining), luận văn ñi sâu vào việc tìm hiểu trình khai phá liệu bao gồm: tiền xử lý liệu, phương pháp khai phá liệu làm tản, chương trình khai phá liệu, lập trình xử lý số thuật toán phương pháp khai phá liệu luật kết hợp ñịnh, Tuy nhiên, ñề tài chưa ñi khai thác ñược hết khía cạnh khai phá liệu từ hình ảnh (Image mining), web (web mining),…Các phương pháp khai phá liệu khác ABSTRACT The explosion of information becomes more widely and quickly, besides increasing the data quantity Scientists have been studying the possibility of using that data to serve the needs of business, learning and research activities Mining based on historical data is called data mining The data mining process is an very important landmark for the process of discovering knowledge from data In this study, we focus on understanding the data mining process including data preprocessing, common data mining techniques, data-mining programs And, implementing the basic methods of data mining such as association rule and decision tree, … However, the topic is not going to exploit every aspect of data-mining from image (Image mining), web (web mining), The data-mining methods other Trang SVTH: Quách Luyl ða Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com Chương I : TỔNG QUAN I.1 ðẶT VẤN ðỀ Ngày nay, cơng nghệ thơng tin trở thành ñộng lực quan trọng phát triển Với khả số hóa thơng tin (số, đồ thị, văn bản, hình ảnh, âm thanh, tiếng nói,…), máy tính trở thành cơng cụ thơng minh, sử dụng để xử lý thơng tin với nhiều dạng thông tin thuộc nhiều lĩnh vực khác ñời sống như: kinh doanh, y học,… Bên cạnh đó, với phát triển cơng nghệ lưu trữ liệu phục vụ công việc lưu trữ thơng tin liên quan đến nhiều mặt sống: kinh doanh, bn bán, … góp phần cải thiện sống làm giảm bớt ñi việc lưu trữ thơng tin dựa văn ðó tiền ñề cho ñời kinh tế – kinh tế số ( hay gọi kinh tế tri thức, kinh tế dựa tri thức) Nền kinh tế ñấy ñã làm cho phát triển thơng tin lưu trữ ngày nhiều, khả linh hoạt phần mềm phải đảm đương nhiều cơng việc việc lựa chọn thông tin Và năm 1980, số nhà nghiên cứu ñã ñưa số kỹ thuật nhằm giải vấn ñề trên, ñược gọi kỹ thuật khai phá liệu (data mining) Các kỹ thuật khai phá liệu ñã ñược cơng ty kinh doanh sản phẩm liên quan đến thơng tin ứng dụng như: - Duyệt web, tìm kiếm thơng tin Google, Google ln đưa gợi ý, có lẽ bạn nghĩ: ñọc ñược suy nghĩ mình! Mà ña phần gợi ý gần thơng tin mà bạn cần tìm kiếm Vì Google biết cần tìm thơng tin đấy? - Facebook, nhắc đến Facebook bạn nghĩ ñến cộng ñồng với số lượng thơng tin cá nhân lưu trữ với số lượng lớn, phải nói lớn Khi bạn muốn kết bạn cộng đồng ấy, Facebook ln đưa gợi ý người bạn cho bạn kết bạn Và người bạn gần bạn ñã quen biết ngồi sống đời thường Bạn nghĩ làm vậy? - Một ví dụ khác, việc tìm mua sách cửa hàng sách trực tuyến khổng lồ Amazon Khi lựa chọn sách, ln đưa cho bạn lựa chọn quyến sách mà 90% bạn cần mua Vậy hiểu bạn nhiều thế? Và câu hỏi cuối cùng, việc xử lý thơng tin sao? Tất câu hỏi ñấy ứng dụng cụ thể khai phá liệu khám phá tri thức Vậy khai phá liệu gì? I.2 LỊCH SỬ GIẢI QUYẾT VẤN ðỀ “ Data mining trình thăm dị, lựa chọn mơ hình hóa khối lượng lớn liệu để tìm quy luật mối quan hệ chưa biết với mục đích để có kết rõ ràng hữu ích cho chủ sở hữu sở liệu.” Trang SVTH: Quách Luyl ða Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com Qua q trình phát triển, định nghĩa khai phá liệu ngày ñược mở rộng, hoàn thiện: - Khai phá liệu q trình khám phá thơng tin hữu dụng kho liệu khổng lồ cách tự ñộng Các kỹ thuật khai phá liệu ñược triển khai dựa sở liệu lớn nhằm tìm kiếm mẫu hay quy luật (pattern) hữu dụng mà chưa biết trước Ví dụ: “Những sinh viên học giỏi mơn Tốn rời rạc, Lập trình, Cấu trúc liệu Cơ sở liệu học giỏi mơn khai phá liệu” - Khai phá liệu trình tìm kiếm mẫu mới, thơng tin, tri thức có ích, tiềm ẩn mang tính dự đốn khối lượng liệu lớn Các kỹ thuật khai phá liệu cung cấp khả phán đốn (dự đốn) kết quan sát khứ Khai phá liệu không khám phá thông tin hữu dụng sở liệu (databases) hay kho liệu (data respostories) mà liên quan đến lĩnh vực truy xuất thơng tin (information retrieval) Ví dụ: Sử dụng hệ quản trị sở liệu để tìm kiếm mẫu tin sử dụng cơng cụ tìm kiếm Internet để tìm kiếm trang web thơng tin lưu trữ trang web cụ thể Data mining phần hoàn chỉnh lĩnh vực khám phá tri thức (Knowledge Discovery) Nó tồn q trình chuyển liệu thơ sang thơng tin hữu dụng Quá trình gồm nhiều bước tiền xử lý liệu đến hậu xử lý kết q trình khai phá Thống kê tóm tắt Xác định nhiệm vụ Xác ñịnh liệu liên Thu thập tiền xử lý liệu Giải thuật khai phá Mẫu Dữ liệu trực tiếp Hình I-2 Quá trình khai phá liệu Các khó khăn việc khai thác tri thức từ liệu: a) Tính qui mơ: Với phát triển việc tạo liệu thu thập liệu, tập hợp liệu ñuợc lưu trữ ngày lớn (gigabytes, terabytes,petabytes) ngày trở nên thơng dụng Các thuật tốn khai phá liệu phải có khả phân tích tập liệu ñó Nhiều kỹ thuật khai phá liệu triển khai chiến lược nghiên cứu ñặc biệt nhằm quản lý vấn ñề nghiên cứu tăng theo cấp Trang SVTH: Quách Luyl ða Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com luyldaquach@gmail.com Luáºn văn Luáºn án NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC số nhân Tính qui mơ (scalability) u cầu phương pháp cài ñặt cấu trúc liệu nhằm truy xuất mẩu tin cách hiệu Ví dụ: Các thuật tốn “xử lý liệu ngồi nhớ (RAM)” (out-of-core) cần thiết xử lý tập liệu lớn dung lượng nhớ Tính qui mơ cải tiến cách sử dụng liệu mẫu (samples), sử dụng giải thuật song song phân tán b) Tính đa thuộc tính: Xử lý tập liệu có hàng trăm hay hàng nghìn thuộc tính ngày trở nên phổ biến Trong lĩnh vực tin học cho sinh học, liệu gen bao gồm hàng ngàn thuộc tính Các tập liệu với thành phần liệu theo thời gian hay cịn gọi liệu (temporal/ spatial components) có xu hướng có nhiều thuộc tính Ví dụ: Tập liệu chứa thơng tin địa chất nhiều khu vực khác ñược thu thập lặp ñi lặp lại nhiều lần, số lượng thuộc tính tăng dần theo thời gian Các kỹ thuật phân tích liệu truyền thống ñược thiết kế cho liệu có thuộc tính khơng thể áp dụng cho trường hợp liệu có nhiều thuộc tính c) Dữ liệu không phức tạp: Các phương pháp phân tích liệu truyền thống áp dụng cho tập hợp liệu chứa thuộc tính có kiểu liệu (có thể liên tục hay rời rạc) Khi việc sử dụng khai phá liệu kinh doanh, khoa học y học ngày tăng cần có kỹ thuật phân tích liệu áp dụng cho thuộc tính khơng (heterogeneous attributes) Bên cạnh đó, phải áp dụng cho liệu phức tạp Ví dụ: Các kiểu liệu truyền thống bao gồm: tập hợp trang web lưu văn liên kết bán cấu trúc, liệu DNA không gian chiều, liệu thời tiết (nhiệt ñộ, áp suất, ñộ ẩm) nhiều vùng giới Các kỹ thuật ñược phát triển cho khai phá liệu cần phải quan tâm ñến mối quan hệ liệu như: mối quan hệ nhiệt ñộ theo thời gian, liên thơng đồ thị, quan hệ thành phần liệu bán cấu trúc XML d) Sở hữu phân bố liệu: Có liệu cần phân tích lưu trữ nhiều nơi khác ñược sở hữu nhiều quan khác Các khó khăn địi hỏi phải phát triển kỹ thuật khai phá liệu theo dạng phân tán Vấn ñề cần quan tâm “làm hạn chế lưu lượng truyền tải liệu thực thuật toán phân tán?”, “làm hợp liệu từ nguồn gốc khác cách hiệu nhất?”, “làm đảm bảo tính an tồn bảo mật?”,… e) Việc phân tích liệu khơng theo cách truyền thống: Cách tiếp cận liệu theo phương pháp thống kê truyền thống dựa cách ñặt giả thuyết kiểm tra giả thuyết cần nhiều cơng sức để kiểm tra giả thuyết Các cơng việc phân tích liệu địi hỏi phải đặt kiểm tra hàng nghìn giả định cách Q trình phát triển kỹ thuật khai phá liệu ñã ñược thúc đẩy mong đợi q trình đặt kiểm tra giả định cách hồn tồn tự ñộng Hơn nữa, liệu ñược phân tích khai phá Trang SVTH: Quách Luyl ða Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com liệu liệu ngẫu nhiên nên phương pháp phân tích truyền thống khơng thể áp dụng cho tập liệu phức tạp mang tính ngẫu nhiên I.3 PHẠM VI CỦA ðỀ TÀI ðề tài sâu nghiên cứu q trình khai phá liệu khám phá tri thức từ liệu Qua việc nghiên cứu tìm hiểu thêm kỹ thuật việc tiền xử lý liệu, kỹ thuật khai phá liệu từ có kiến thức việc tìm hiểu cơng cụ khai phá liệu, xây dựng demo khai phá liệu dựa số thuật tốn định luật kết hợp Từ q trình nghiên cứu thực tiễn để thấy vấn đề thách thức lĩnh vực khai phá liệu Sử dụng sở lý thuyết nghiên cứu để cài đặt chuơng trình sinh luật kết hợp ñịnh kỹ thuật trình khai phá liệu I.4 PHƯƠNG PHÁP NGHIÊN CỨU Dựa việc tìm hiểu tư liệu lĩnh vực khai phá liệu, từ rút kết trình tiền xử lý liệu, số kỹ thuật khai phá liệu với thuật tốn ðể có hiểu biết trình khai phá liệu khám phá tri thức Dựa trình tìm hiểu khai phá liệu, tiếp cận công cụ khai phá liệu, để chứng minh cho thuật tốn giải thuật ñã nghiên cứu Tổng hợp liệu tìm hiểu, minh họa thuật tốn việc khai phá liệu ñịnh luật kết hợp demo cụ thể Demo sử dụng ngơn ngữ lập trình Microsoft Visual Basic 2008 để xây dựng thuật toán Trang 10 SVTH: Quách Luyl ða Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án NGHIÊN CỨU KHAI MỎ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC luyldaquach@gmail.com Giải thuật 3:hieu_tap() Chức năng: Sinh vế phải luật dựa vế trái luật Dữ liệu vào: Chuỗi ứng viên vế trái luật Dữ liệu ra: Vế phải luật Giải thuật: Khai bao tap1 lưu item ứng viên Khai báo tap2 lưu item vế trái luật Lặp i=0 ñến chiều dài mảng tap1 Lặp j=0 ñến chiều dài mảng tap If tap1(i)=tap2(j) then tap1(i)=rong Lấy giá trị tap1() khác rỗng ñược vế phải luật Begin Tap1= Tập item ứng viên Tap2= Tập item vế trái luật i=0 i