TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ CÁC THUẬT TOÁN SỬ DỤNG TRONG KHAI PHÁ DỮ LIỆU

26 1.8K 4
TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ CÁC THUẬT TOÁN  SỬ DỤNG TRONG KHAI PHÁ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP.HỒ CHÍ MINH CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ CÁC THUẬT TOÁN SỬ DỤNG TRONG KHAI PHÁ DỮ LIỆU  GVHD: GS TSKH Hoàng Kiếm HVTH: Nguyễn Hồng Thái LỚP: CH-CNTTQM K6 Mã HV: CH1101040 11 Tp HCM, tháng 05 năm 2012 Nhận xét của giáo viên: ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… ………….…… 22 Đồ án môn học: Công nghệ trí thức và ứng dụng Mục lục - 3 - Đồ án môn học: Công nghệ trí thức và ứng dụng I. Khai phá dữ liệu 1. Giới thiệu Khoảng vài thập kỷ trở lại đây, từ lúc máy tính ra đời, và đặc biệt là từ lúc internet được sử dụng rộng rãi trên toàn thế giới, thì khối lượng dữ liệu số tạo ra đã trở nên cực kỳ lớn, và không ngừng được tăng lên với tốc độ chóng mặt. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm. Rõ ràng với lượng dữ liệu lớn như vậy, sẽ là nguồn tri thức vô tận nếu con người biết khai thác và sử dụng nó một cách hợp lí. Thế nhưng với nguồn tài nguyên quá lớn như vậy, trong khi thời gian và sức lực của mỗi người thì có giới hạn, và không phải dữ liệu nào cũng hữu ích cho người dùng, đặt con người vào bài toàn tìm kiếm những nội dung phù hợp với mục đích của mình. Vì vậy việc trắc lọc dữ liệu thô để tìm ra nguồn tri thức hữu dụng thực sự là bài toán quan trọng và hữu ích trong giai đoạn hiện nay cũng như tương lai. Lĩnh vực khai phá dữ liệu (data mining) chuyên nghiên cứu về những vấn đề này. 2. Định nghĩa Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. 3. Các chức năng chính Khai phá dữ liệu được chia nhỏ thành một số hướng chính như sau: - 4 - Đồ án môn học: Công nghệ trí thức và ứng dụng 1) Tìm luật kết hợp (association rules) Là dạng luật biểu diễn tri thức ở dạng khá đơn giản. Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ mua thêm thịt bò khô”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh, y học, tin- sinh, tài chính & thị trường chứng khoán, .v.v. 2) Phân lớp và dự đoán (classification & prediction) Xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Người ta còn gọi phân lớp là học có giám sát (học có thầy). 3) Phân cụm (clustering) Xếp các đối tượng theo từng cụm (số lượng cũng như tên của cụm chưa được biết trước. Người ta còn gọi phân cụm là học không giám sát (học không thầy). Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao. 4. Ứng dụng của khai phá dữ liệu - Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support) - Điều trị y học - Text mining & Web mining - Tài chính, bảo hiểm và thị trường chứng khoán - Nhận dạng (pattern recognition) - 5 - Đồ án môn học: Công nghệ trí thức và ứng dụng 5. Các phương pháp khai phá dữ liệu (data mining): Quá trình khai phá dữ liệu là quá trình phát hiện mẫu trong đó giải thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân lớp, hồi quy, phân nhóm,… 1) Qui nạp Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng có thể được suy diễn từ kho thông tin đó. Có hai việc chính để thực hiện việc này là suy diễn và quy nạp. - Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ sở dữ liệu. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng phương pháp này thường là các luật suy diễn. - Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu. Phương pháp này liên quan đến việc tìm kiếm các mẫu trong cơ sở dữ liệu. 2) Cây quyết định và luật: - Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với giá trị của thuộc tính của đối tượng tới lá. - 6 - Đồ án môn học: Công nghệ trí thức và ứng dụng Figure 1: Mẫu kết với phương pháp cây quyết định - Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt thống kê. Các luật có dạng Nếu P thì Q với P là mệnh đề đúng với phần dữ liệu trong cơ sở dữ liệu, Q là mệnh đề dự đoán. - Cây quyết định và luật có ưu điểm là hình thức miêu tả đơn giản, mô hình suy diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là miêu tả cây và luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn cả về độ chính xác của mô hình 3) Phân lớp và hồi quy phi tuyến: Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm cho các kết hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm sygmoid, hàm spine, hàm đa thức) phù hợp với các kết hợp của các giá trị biến vào. 4) Phân nhóm và phân đoạn: Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm. - 7 - Có tham gia thi Không tham gia thi Không qua môn Điểm >= 5Điểm < 5 Qua mônKhông qua môn Đồ án môn học: Công nghệ trí thức và ứng dụng Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá thuộc tính của các thành phần như là hàm của các tham số của các thành phần. Phương pháp này được gọi là phương pháp phân hoạch tối ưu (optimal partitioning) Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu. Khi các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu ở dạng dễ hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như công việc phân tích. Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng. 5) Các phương pháp dựa trên mẫu: Sử dụng các mẫu miêu tả từ cơ sở dữ liệu để tạo nên một mô hình dự đoán các mẫu mới bằng cách rút ra từ các thuộc tính tương tự như các mẫu đã biết trong mô hình. Các kỹ thuật bao gồm phân lớp theo láng giềng gần nhất, các giải thuật hồi quy (Dasarathy 1991) và các hệ thống suy diễn dựa trên tình huống (case-base reasoning) (Kolodner 1993). Khuyết điểm của các kỹ thuật này là cần phải xác định được khoảng cách, độ đo giống nhau giữa các mẫu. 6) Khai phá dữ liệu văn bản (Text Mining): Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương mại. Công cụ khai phá dữ liệu rất phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn bản không định dạng. Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình báo,… Khai phá dữ liệu dạng văn bản đã được sử dụng để phân tích câu trả lời cho các câu hỏi mở trong khảo sát thị trường, tìm kiếm các tài liệu phức tạp. 7) Mạng neuron: Mạng neuron là một tiếp cận tính toán mới liên quan đến việc phát triển các cấu trúc toán học với khả năng lọc. Các phương pháp là kết quả của việc - 8 - Đồ án môn học: Công nghệ trí thức và ứng dụng nghiên cứu mô hình học của hệ thống thần kinh con người. Mạng neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được. Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạng neuron. Tuy mạng neuron có một số hạn chế gây khó khăn trong việc áp dụng và triển khai nhưng nó cũng có những ưu điểm đáng kể. Một trong số những ưu điểm phải kể đến của mạng neuron là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có thể áp dụng được cho rất nhiều loại bài toán khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hoá, dự báo các sự kiện phụ thuộc vào thời gian,… Đặc điểm của mạng neuron là không cần gia công dữ liệu nhiều trước khi bắt đầu quá trình học như các phương pháp khác. Tuy nhiên, để có thể sử dụng mạng neuron có hiệu quả cần phải xác định các yếu tố khi thiết kế mạng như: - Mô hình mạng là gì? - Mạng cần có bao nhiêu nút? - Khi nào thì việc học dừng để tránh bị “học quá”? - … Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữ liệu trước khi đưa vào mạng neuron để mạng có thể hiểu được (ví dụ như việc chuẩn hoá dữ liệu, đưa tất cả các tiêu chuẩn dự đoán về dạng số). Mạng neuron được đóng gói với những thông tin trợ giúp của các chuyên gia đáng tin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt. Sau khi học, mạng có thể được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học. 8) Thuật giải di truyền: Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng lại hệ thống tiến hoá trong tự nhiên, chính xác hơn đó là các giải thuật chỉ ra tập các cá thể được - 9 - Đồ án môn học: Công nghệ trí thức và ứng dụng hình thành, được ước lượng và biến đổi như thế nào. Ví dụ như xác định xem làm thế nào để lựa chọn các cá thể tạo giống vào lựa chọn cá thể nào bị loại bỏ. Giải thuật cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế khác nhau. Giải thuật di truyền là một giải thuật tối ưu hoá. Nó được sử dụng rất rộng rãi trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng neuron. Sự liên hệ của nó đối với các giải thuật khai phá dữ liệu là ở chỗ việc tối ưu hoá cần thiết cho các quá trình khai phá dữ liệu. Ví dụ như trong các kỹ thuật cây quyết định, tạo luật. Như đã đề cập ở phần trước, các luật mô hình hoá dữ liệu chứa các tham số được xác định bở các giải thuật phát hiện tri thức. Giai đoạn tối ưu hoá là cần thiết để xác định các giá trị tham số nào tạo ra các luật tốt nhất. Và vì vậy mà giải thuật di truyền đã được sử dụng trong các công cụ khai phá dữ liệu. Kết luận: Như vậy, nhìn vào các phương pháp giới thiệu ở trên, chúng ta thấy có rất nhiều các phương pháp khai phá dữ liệu. Mỗi phương pháp có những đặc điểm riêng phù hợp với một lớp các bài toán với các dạng dữ liệu và miền dữ liệu nhất định. Mặc dù nhìn bề ngoài ta thấy có rất nhiều các phương pháp và ứng dụng khai phá dữ liệu nhưng cũng không có gì là lạ khi nhận thấy chúng có một số thành phần chung. Hiểu quá trình khai phá dữ liệu và suy diễn được mô hình dựa trên những thành phần này là ta đã thực hiện được nhiệm vụ của khai phá dữ liệu. II. Các thuật toán sử dụng trong khai phá dữ liệu: Nhằm xác định một số thuật toán có ảnh hưởng lớn được sử dụng nhiều trong cộng đồng Data Mining, IEEE International Conference on Data Mining đã nổ lực xác định 10 thuật toán Data Mining để trình bày tại ICDM’06 - Hong Kong. - 10 - [...]... Figure 6 3 Thuật toán Apiori: Một trong những bài toán quan trọng trong khai phá dữ liệu là tìm các tập phổ biến và khai phá luật kết hợp của các trường Việc này hoàn toàn không đơn giản vì có thể gây ra bùng nổ tổ hợp, khi phải xét từng tổ hợp các trường với số lượng các trường trong các tổ hợp khác nhau Khi tìm các tập phổ biến và luật kết hợp, thông thường phải sử dụng 2 giá trị là độ hổ trợ và độ tin... những thuật toán khác trong khai phá dữ liệu, C45 sử dụng cây quyết định để mô tả kết của mình 1.2 Cây quyết định Cho tập S là tập các mẫu, C4.5 sinh ra cây quyết định dựa theo thuật toán chia để trị: − Nếu tất cả các trường hợp trong S đều thuộc về cùng một lớp hoặc tập S nhỏ, thì cây chỉ bao gồm một nút lá, được gán nhãn là lớp phổ biến nhất trong S - 11 - Đồ án môn học: Công nghệ trí thức và ứng dụng. .. khi hội tụ: B1 Gán dữ liệu: Mỗi điểm được gán vào một nhóm nào đó gần nhất Giai đoạn này được gọi là phân chia dữ liệu B2 Tính lại trọng tâm: lấy trung bình các điểm trong nhóm để làm trọng tâm - Công thức tính khoảng cách giữa 2 đối tượng: - Khoảng cách Minkowski: d(i,j) = trong đó () và () là 2 đối tượng dữ liệu trong không gian p chiều và q là số nguyên dương Nếu q =1 là khoảng cách Manhattan d(i,j)... trị là độ hổ trợ và độ tin tưởng Các tổ hợp được xem là hợp lệ khi nó có độ hổ trợ và độ tin tưởng lớn hơn ngưỡng cho phép của phép khai phá luật kết hợp, gọi là minSup và minConf Apiori là thuật toán nền tảng sinh ra các tập kết hợp bằng cách sinh ra các ứng viên Thuật toán này sử dụng một heuristic là “khi một tập kết hợp là không phổ biến, thì khi thêm các trường mới vào tập này thì tập mới cũng không... là 50%, thì các bước để tìm luật kết hợp được mô tả trong bảng sau: Vậy ta có tập phổ biến gồm 3 phần tử là {B,C,E} Giả sử với độ tin cậy 80%, để tìm các luật kết hợp, ta dựa vào bảng sau: Vậy ta có 2 luật kết hợp thõa độ phổ biến >=50% và độ tin cậy >=80% là: {B,C} {E} và {C,E}{B} - 20 - Đồ án môn học: Công nghệ trí thức và ứng dụng 4 Thuật toán Page Rank Thuật toán này được cho ra đời và trình bày... Sergey Brin và Larry Page tại hội nghị quốc tế WWW lần thứ 7, tháng 4 năm 1998 Đây là thuật toán xếp thứ hạng thống kê để tìm kiếm dựa trên các đường dẫn web Search engine nổi tiếng Google được dựa trên thuật toán này và đã đạt được những thành công rực rỡ Thuật toán này tính toán giá trị thống kê của các trang dựa trên cấu trúc dạng offline của trang đó và không phụ thuộc vào yêu cầu tìm kiếm, mà... thức và ứng dụng Các thuật toán được đề cử bao gồm: 1 C4.5 2 K-means 3 SVM (Support Vector Machine) 4 Apriori 5 EM (Epectation Maximization) 6 PageRank 7 AdaBoost 8 kNN (k-nearest neighbor classification) 9 Naive Bayes 10 CART Trong phạm vi của bài thu hoạch này, em xin trình bày về 5 thuật toán C4.5,Kmeans, Apiori, PageRank và Naïve Bayes 1 Thuật toán C45 Hệ thống khởi tạo các bộ phân lớp là một trong. .. trong những bài toán thường gặp trong khai phá dữ liệu Mỗi hệ thống sẽ nhận vào một tập các trường hợp, được phân bố trong một tập các lớp, trong đó mỗi lớp thường có một tập thuộc tính mang một tập giá trị cố định nào đó Đầu ra của hệ thống sẽ là một bộ phân lớp Để khi xuất hiện một trường hợp mới, từ bộ phân lớp này, ta có thể xác định được lớp mà trường hợp này thuộc về, và từ đó xác định các thuộc tính... án môn học: Công nghệ trí thức và ứng dụng GainRatio: GainRatio cung cấp một công thức khác để xác định thuộc tính được dùng trong cây quyết định Công thức như sau: 2 Thuật toán K-means: - Tư tưởng của thuật toán là chia CSDL thành k nhóm (k do người dùng quyết định) - Thuật toán thao tác trên một tập vector d-chiều D = { | i = 1, N}, với là điểm dữ liệu thứ i Thuật toán bắt đầu bằng việc chọn k điểm... Xét ví dụ sau: Giả sử ta có tập trường hợp qui định việc đi chơi Tennis, bị ảnh hưởng bởi các yếu tố Outlook, Temp, Humidity và Wind, cho ở bảng sau Sử dụng thuật toán C4.5 để tạo cây quyết định - 12 - Đồ án môn học: Công nghệ trí thức và ứng dụng (9 Yes, 5 No) Tính InfoGain của các thuôc tính (theo công thức tính InfoGain ở trên): (trong tập S, Outlook nhận 5 giá trị là Sunny, trong đó có 2 kết quả . nghệ trí thức và ứng dụng 5. Các phương pháp khai phá dữ liệu (data mining): Quá trình khai phá dữ liệu là quá trình phát hiện mẫu trong đó giải thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan. NGHỆ THÔNG TIN TP.HỒ CHÍ MINH CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Đề tài: TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ CÁC THUẬT TOÁN SỬ DỤNG TRONG KHAI PHÁ DỮ LIỆU  GVHD: GS TSKH Hoàng Kiếm HVTH: Nguyễn Hồng. hoá các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng neuron. Sự liên hệ của nó đối với các giải thuật khai phá dữ liệu là ở chỗ việc tối ưu hoá cần thiết cho các quá trình khai phá dữ liệu.

Ngày đăng: 10/04/2015, 15:20

Từ khóa liên quan

Mục lục

  • I. Khai phá dữ liệu

    • 1. Giới thiệu

    • 2. Định nghĩa

    • 3. Các chức năng chính

      • 1) Tìm luật kết hợp (association rules)

      • 2) Phân lớp và dự đoán (classification & prediction)

      • 3) Phân cụm (clustering)

      • 4. Ứng dụng của khai phá dữ liệu

      • 5. Các phương pháp khai phá dữ liệu (data mining):

        • 1) Qui nạp

        • 2) Cây quyết định và luật:

        • 3) Phân lớp và hồi quy phi tuyến:

        • 4) Phân nhóm và phân đoạn:

        • 5) Các phương pháp dựa trên mẫu:

        • 6) Khai phá dữ liệu văn bản (Text Mining):

        • 7) Mạng neuron:

        • 8) Thuật giải di truyền:

        • II. Các thuật toán sử dụng trong khai phá dữ liệu:

          • 1. Thuật toán C45

          • 2. Thuật toán K-means:

          • 3. Thuật toán Apiori:

          • 4. Thuật toán Page Rank

          • 5. Thuật toán Native Bayes

Tài liệu cùng người dùng

Tài liệu liên quan