Tiểu luận môn khai phá dữ liệu Tổng quan về môn Khai phá dữ liệu

14 1.7K 1
Tiểu luận môn khai phá dữ liệu Tổng quan về môn Khai phá dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

PHÂN TÍCH DỮ LIỆU MỤC LỤC Đại học Công nghệ thông tin TP. Hồ Chí Minh 1 PHÂN TÍCH DỮ LIỆU LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến Thầy Đỗ Phúc là người đã tận tình giảng dạy, chỉ bảo, định hướng cho em trong suốt môn học và cả trong những môn học trước. Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong thời gian qua, những kiến thức mà em nhận được trên giảng đường vẫn luôn luôn giúp đỡ em trong học tập và cuộc sống dù ít hay nhiều. Em cũng muốn gửi lời cảm ơn đến các bạn nhóm phát triển phần mềm weka của đại học Waikato vì đã giúp đỡ, hướng dẫn và cho phép tôi sử dụng các tài liệu, thông tin, phần mềm của các bạn vào bài thu hoạch. Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất cả bạn bè, và đặc biệt là các bạn trong lớp Cao học Công nghệ thông tin K6 vì đã giúp đỡ, gợi ý cho tôi trong suốt quá trình học tập và nghiên cứu từ trước tới nay. Chân thành cảm ơn. Đại học Công nghệ thông tin TP. Hồ Chí Minh 2 PHÂN TÍCH DỮ LIỆU PHẦN I - Tổng quan về môn Khai phá dữ liệu 1 Khai phá dữ liệu là gì Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ không ngừng tăng lên. Để dễ hình dung, ta có thể nhìn lại khoảng 10 năm trước, dữ liệu được lưu trữ trên các ổ cứng vài trăm MB, trao đổi dữ liệu được thực hiện thông qua các đĩa mềm có dung lượng1,44MB hoặc các đĩa CD có dung lượng 700MB Thì đến nay các thiết bị lưu trữ di động đã chuyển thành những chiếc USB có dung lượng vài GB hoặc lớn hơn là những thiết bị ổ cứng di động có dung lượng hàng TB, các thiết bị lưu trữ cố định trở thành những hệ thống lưu trữ SAN System có dung lượng lên đến vài chục thậm chí vài trăm TB. So sánh với thời điểm hiện nay thì dung lượng dữ liệu lưu trữ của thế giới nói chung và của nước ta nói riêng đã tăng lên đến hàng trăm, thậm chí hàng ngàn lần đủ để thấy được lượng dữ liệu con người có được lớn và phát triển nhanh đến mức nào. Hiện nay gần như tất cả mọi thứ đều có thể tìm thấy trên mạng, tất cả các tài liệu, giấy tờ, thông tin, hình ảnh đều được đưa vào số hóa lưu trữ. Sự phát triển này thường được đánh giá là xảy ra với một tốc độ bùng nổ. Trong một vài tài liệu, bài báo các chuyên gia đã dự đoán, cảnh bảo rằng lượng thông tin trên toàn cầu sẽ tăng gấp đôi trong 2 nưam. Tuy nhiên khi xem xét lại tình trạng hiện nay thì ta thấy rằng nhận xét trên là chưa đúng, đủ với thực tế. Trong 10 năm, dung lượng cần thiết để lưu trữ dữ liệu đã tăng lên 1000 lần trong khi với sự phát triển của các giao thức file, các chuẩn nén thì dung lượng của các thông tin ngày càng nhỏ lại. Mức phát triển của dữ liệu trên thế giới hiện nay khó có thể dùng từ nào để diễn tả được, chỉ có thể nói chúng ta đang có một lượng dữ liệu không thể nào đo đếm được và nó vẫn phát triển không ngừng với mỗi giây trôi qua. Tuy nhiên, theo cách nói của chính trị, dữ liệu của chúng ta vừa thừa, lại vừa thiếu. Thừa dữ liệu thô, rác, chưa qua chọn lọc; thiếu dữ liệu tinh, cần thiết phục vụ cho các nhu cầu của con người và xã hội. “Necessity is the mother of invention” - Trước tình hình đó, ngành khai phá dữ liệu đã ra đời theo nhu cầu thực tế của xã hội như một quy luật tất yếu. Khai phá dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thác vàng từ đá và cát, Datamining được ví như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Datamining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu) Nói theo cách đơn giản, ta có thể hiểu khai phá dữ liệu là thao tác lấy ra những dữ liệu cần thiết trong bộ dữ liệu thô ban đầu. Đại học Công nghệ thông tin TP. Hồ Chí Minh 3 PHÂN TÍCH DỮ LIỆU 2 Các bước tiến hành khai phá dữ liệu Khai phá dữ liệu thực chất là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm: - Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding). - Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation). - Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức cần thiết. - Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được. - Triển khai (Deployment): sử dụng các tri thức, dữ liệu thu được vào các mục đích riêng theo yêu cầu. Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua. 3 Các phương pháp khai phá dữ liệu Có nhiều phương pháp để tiến hành khai phá dữ liệu, mỗi phương pháp có những ưu khuyết điểm và mục đích sử dụng khác nhau phục vụ cho những nhu cầu khác nhau của con người. Có thể kể đến các phương pháp khai phá dữ liệu sau: - Phân lớp (Classification): một trong những vấn đề chính của khai phá dữ liệu là bài toán phân lớp. Phân lớp nghĩa là nhận vào một dữ liệu đầu vào và phân đối tượng vào những lớp khác nhau, có hai ứng dụng tiêu biểu cho bài toán này: + Bài toán phân lớp tự động: phân một hay nhiều dữ liệu đầu vào vào những lớp khác nhau theo đúng yêu cầu, ví dụ hỗ trợ phân các học viên có điểm số, nơi cư trú, quá trình học tập khác nhau vào những lớp khác nhau phù hợp với từng người. + Bài toán tìm ra các thông số ảnh hưởng đến kết quả: tìm ra những trường dữ liệu ảnh hưởng đến quá trình phân lớp để cải tiến dữ liệu đầu vào nhằm đạt được những mục tiêu nhất định. Ví dụ tìm ra những thông tin liên quan đến doanh thu trong hoạt động bán hàng của siêu thị, sẽ có nhiều tiêu chuẩn có liên quan như giá cả, vệ sinh siêu thị, thái độ của nhân viên nhưng qua phân lớp sẽ biết được những mục nào quan trọng hơn, cần ưu tiên lên hàng đầu nhằm đạt được doanh thu cao hơn với chi phí bỏ ra trong mức cho phép. Hồi qui (Regression): Hồi qui là kỹ thuật thống kê trong lĩnh vực phân tích dữ liệu và xây dựng các mô hình từ thực nghiệm, cho phép mô hình hồi qui vừa Đại học Công nghệ thông tin TP. Hồ Chí Minh 4 PHÂN TÍCH DỮ LIỆU được khám phá được dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo ra dữ liệu Gom cụm (Clustering): bài toán gom cụm hiểu theo cách đơn giản là đưa những phần tử có một số tính chất chung về chung một nhóm nhằm phục vụ cho mục đích khác nhau. Gom cụm dữ liệu làm cho các dữ liệu trong cùng một cụm thì có tính chất tương tự nhau, các dữ liệu khác cụm thì có tính chất khác nhau với tính chất gom cụm do người dùng định nghĩa theo yêu cầu thực tế. Gom cụm thường được ứng dụng trong các bài toán nhận dạng, làm sạch dữ liệu Mô tả khái niệm (Concept Description) hay còn gọi là tổng hợp (Summarization): thiên về mô tả, tổng hợp và tóm tắt khái niệm, đưa ra các thông tin chung về dữ liệu đầu vào, đây là một mảng riêng thường được dùng trong lĩnh vực tóm tắt văn bản, thông tin trên web Luật kết hợp (association rules): là phương pháp tìm ra những dữ liệu thường xuyên xuất hiện cùng nhau nhằm tìm ra những mối liên kết của dữ liệu, phục vụ cho nhu cầu hoạch định tương lai. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh học, tài chính & thị trường chứng khoán Ngoài ra còn một vài phương pháp khai phá dữ liệu phát sinh thêm như phương pháp khai phá chuỗi, phương pháp khai phá đồ thị nhưng đây là những phương pháp khai phá dữ liệu có dạng đặc trưng nên sẽ không đề cập đến trong bài thu hoạch này. 4 Thuật toán phân lớp dữ liệu Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới sự thành công của mô hình phân lớp. Do vậy chìa khóa của vấn đề phân lớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính xác cao và có khả năng mở rộng được. Trong đó khả năng mở rộng được của thuật toán được đặc biệt chú trọng và phát triển. Có thể liệt kê một số kỹ thuật phân lớp tiêu biểu: - Bộ phân lớp Bayesian (Bayesian classifier) - Mô hình phân lớp K-hàng xóm gần nhất (K-nearest neighbor classifier) - Mạng nơron - Phân tích thống kê - Các thuật toán di truyền - Phương pháp tập thô (Rough set Approach) 5 Thuật toán phân lớp dựa trên cây quyết định Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng nơron, mô hình thông kê tuyến tính /bậc 2, cây quyết định, mô hình di truyền. Trong số những Đại học Công nghệ thông tin TP. Hồ Chí Minh 5 PHÂN TÍCH DỮ LIỆU mô hình đó, cây quyết định với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho data mining nói chung và phân lớp dữ liệu nói riêng. Có thể kể ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh, đơn giản, dễ hiểu. Hơn nữa các cây có thể dễ dàng được chuyển đổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ sở dữ liệu một cách hiệu quả. Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác. Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong hình vẽ sau: Trong cây quyết định: • Gốc: là node trên cùng của cây • Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật) • Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên) • Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn) Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định. Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó. Đại học Công nghệ thông tin TP. Hồ Chí Minh 6 PHÂN TÍCH DỮ LIỆU Đại học Công nghệ thông tin TP. Hồ Chí Minh 7 PHÂN TÍCH DỮ LIỆU PHẦN II - BỘ DỮ LIỆU THỬ NGHIỆM, THUẬT TOÁN VÀ PHẦN MỀM ỨNG DỤNG PHÂN TÍCH 1 Bộ dữ liệu phân tích Bộ dữ liệu phân tích được cung cấp miễn phí bởi trang website explore.data.gov - là website của chính phủ Mỹ nhằm phục vụ cho các công tác học tập, nghiên cứu và được đảm bảo tính chính xác, xác thực bởi nhà cung cấp. Bộ dữ liệu là thông tin của hơn 7000 trường đại học trên khắp thế giới mà đơn vị tạo lập dữ liệu có thể thu thập được của năm 2010 chứa thông tin về nhiều mặt khác nhau của trường như thông tin tuyển sinh, cơ sở vật chất Bộ dữ liệu gồm 172 cột và trên 7000 dòng, các trường thông tin có hơn phân nửa là các mã tham chiếu do công tác điều tra thông qua các hỏi câu trắc nghiệm rất phù hợp với công tác phân tích nhưng tính chính xác, linh động, đa dạng không cao. Tuy nhiên cũng sẽ đáp ứng được phần nào yêu cầu của bài thu hoạch. 2 Thuật toán phân lớp C4.5 Thuật toán sẽ được dùng để phân tích dữ liệu trong bài thu hoạch là thuật toán C4.5. Đây là sự kế thừa của của thuật toán học máy bằng cây quyết định dựa trên nền tảng là kết quả nghiên cứu của HUNT và các cộng sự của ông trong nửa cuối thập kỷ 50 và nửa đầu những năm 60 (Hunt 1962). Phiên bản đầu tiên ra đời là ID3 (Quinlan, 1979)- 1 hệ thống đơn giản ban đầu chứa khoảng 600 dòng lệnh Pascal, và tiếp theo là C4 (Quinlan 1987). Năm 1993, J. Ross Quinlan đã kế thừa các kết quả đó phát triển thành C4.5 với 9000 dòng lệnh C chứa trong một đĩa mềm. Mặc dù đã có phiên bản phát triển từ C4.5 là C5.0 - một hệ thống tạo ra lợi nhuận từ Rule Quest Research, nhưng nhiều tranh luận, nghiên cứu vẫn tập trung vào C4.5 vì mã nguồn của nó là sẵn dùng. Với những đặc điểm C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết định hiệu quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích thước nhỏ. C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm này làm C4.5 chỉ thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữ liệu tại mỗi node trong quá trình phát triển cây quyết định. C4.5 còn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật if-then (một dạng quy tắc phân lớp dễ hiểu). Kỹ thuật này cho phép làm giảm bớt kích thước tập luật và đơn giản hóa các luật mà độ chính xác so với nhánh tương ứng cây quyết định là tương đương. 3 Phần mềm weka Weka là phần mềm được phát triển bởi đại học Waikato (New Zealand). Phần mềm hỗ trợ cho thao tác máy học (machine learning) và khai phá dữ liệu. Phần mềm đặc biệt tập trung vào lĩnh vực phân lớp dữ liệu - lĩnh vực tiếp cận của đa số các thuật toán máy học. Ngoài ra, các thuật toán gom cụm, tìm luật kết hợp cũng được cài đặt và hỗ trợ trong phần mềm. Đại học Công nghệ thông tin TP. Hồ Chí Minh 8 PHÂN TÍCH DỮ LIỆU Phần mềm weka có thể không phải là phần mềm tốt nhất trong lĩnh vực khai phá dữ liệu, tuy nhiên phần mềm cũng có những ưu thế vượt trội so với những phần mềm khác: - Phần mềm mã nguồn mở -> miễn phí, dễ nghiên cứu, ứng dụng - Được viết theo quy tắc hướng đối tượng -> dễ hiểu - Hỗ trợ nhiều thuật toán khác nhau -> dễ tìm hiểu, so sánh - Hỗ trợ "vẽ" các mô hình, biểu đồ rất trực quan như vẽ cây quyết định, sơ đồ phân bố giúp có một cái nhìn tổng quan hơn về dữ liệu đang phân tích. Do có những tính chất trên, phần mềm thường xuyên được sử dụng trong các bài nghiên cứu, tìm hiểu, ứng dụng khai phá dữ liệu và cả trong một số phần mềm thương mại nhỏ. Bài thu hoạch này sử dụng phần mềm weka phiên bản 3.6.8 để tiến hành phân tích dữ liệu. Phiên bản này chưa phải là mới nhất nhưng là phiên bản đã được kiểm lỗi hoàn chỉnh nhất của phần mềm. Đại học Công nghệ thông tin TP. Hồ Chí Minh 9 PHÂN TÍCH DỮ LIỆU PHẦN III - PHÂN TÍCH DỮ LIỆU Quá trình phân tích dữ liệu cũng trải qua nhiều bước khác nhau, nhưng tóm lại vẫn nhằm mục đích tìm ra những yếu tố ảnh hưởng đến chất lượng của trường. Ở đây chất lượng của trường ta dùng tỉ lệ giữa số học viên đăng ký và số học viên tuyển vào (ở nước ta thường gọi là tỷ lệ chọi), nếu tỷ lệ này lớn hơn hoặc bằng 2 thì ta xếp trường đó vào nhóm trường tốt (good), nếu tỷ lệ này thấp hơn 2 thì ta xếp trường vào nhóm kém (bad). Tuy nhiên bước sắp xếp này chỉ thực hiện khi đã vào những bước sau, ở các bước đầu ta chỉ cần biết mục tiêu để tránh bị lạc hướng khi phân tích. 1 Làm sạch dữ liệu Dữ liệu đầu tiên khi nhận được là các trường thông tin bao gồm các mã tham chiếu, dựa vào các bảng tham chiếu ta tiến hành điền thông tin vào để có thể thực hiện phân tích (kết quả ta được file v3). Dữ liệu thu được có quá nhiều trường thông tin bị thừa, do đó ta sẽ tiến hành làm sạch dữ liệu để quá trình phân tích được tốt hơn, tránh bị loãng dữ liệu. Dữ liệu được làm sạch thông qua 2 bước. 1.1 Làm sạch theo chiều dọc Như đã trình bài ở mục II, dữ liệu bao gồm 172 cột chứa rất nhiều thông tin của trường học. Trong số đó có nhiều thông tin dư thừa, không cần thiết cho mục đích phân tích như ID, số lượng giáo viên nam, số giáo viên có tôn giáo khác, các chính sách về tôn giáo, các đội nhóm thể thao trong trường Để tránh bị loãng dữ liệu ta sẽ bỏ các trường thông tin trên ra khỏi bộ dữ liệu giảm lượng dữ liệu từ 172 cột xuống còn 49 cột. 1.2 Làm sạch theo chiều ngang Những trường dữ liệu có thông tin quan trọng nếu thiếu có thể được bỏ qua, tuy nhiên những trường thông tin cần thiết để thực hiện phân tích như trường số lượng tưởng sinh, số lượng đăng ký nhập học nếu bị thiếu thì không thể sử dụng hàng thông tin đó được. Sau khi loại bỏ thì dữ liệu bị hao hụt rất nhiều (từ 7367 dòng còn 2326 dòng) (kết quả ta được file v4). 2 Chuẩn bị dữ liệu Dữ liệu đầu vào chỉ cung cấp các trường thông tin như số nam tuyển vào, số nữ tuyến vào, số nam dự tuyển, số nữ dự tuyển để phù hợp hơn với quá trình phân tích ta xây dựng thêm cột tỷ lệ nhận vào được tính từ các cột trên. Đồng thời lấy cột kết quả là tốt hay kém dựa vào cột tỷ lệ nhận vào như đã đề cập ở trên (kết quả được file v7). 3 Khai thác dữ liệu Đưa dữ liệu vào phần mềm và tiến hành phân lớp theo thuật toán C4.5 (J48 trong weka) ta được kết quả cần phân tích: Đại học Công nghệ thông tin TP. Hồ Chí Minh 10 [...]... DỮ LIỆU PHẦN IV - KẾT LUẬN Ngành khai phá dữ liệu thực sự là một ngành mới ở nước ta hiện nay nhưng nếu so với thế giới thì đó là một ngành đã được phát triển từ khá lâu và có nhiều thành tựu vượt bật Tuy nhiên trước sự phát triển như vũ bão của dữ liệu trên thế giới, ngành khai phá dữ liệu vẫn phải liên tực phát triển để đáp ứng được nhu cầu của thế giới về việc xử lý lượng dữ liệu ngày càng lớn hơn... TÍCH DỮ LIỆU ADMSSNW: số lượng nữ tuyển đầu vào, các trường có số lượng tuyển nữ vào cao thường có xu hướng tốt hơn có lẽ do thực hiện quan niệm bình đẳng giới hoặc nữ quyền tốt hơn nên thường được quan tâm nhiều hơn STUSRV8: dịch vụ chăm sóc con cái của học viên Ngoài ra còn các mục khác cũng được ghi chú trong file dữ liệu đính kèm Đại học Công nghệ thông tin TP Hồ Chí Minh 12 PHÂN TÍCH DỮ LIỆU PHẦN... mới có thể tiếp tục phát triển kịp với trình độ phát triển của thế giới Dữ liệu được dùng để phân tích là dữ liệu miễn phí, tính xác thực có thể không cao lắm, còn nhiều dữ liệu lỗi Tuy nhiên nó cũng phần nào thể hiện được nhu cầu chung của các sinh viên các trường tại Mỹ nói riêng và của thế giới nói chung Hi vọng bài thu hoạch này có thể được làm tài liệu tham khảo áp dụng cho các vấn đề trong tương... với những dữ liệu có cấu trúc phức tạp hơn Tuy nhiên trong thực trạng của nước ta hiện nay còn thua kém thế giới về nhiều mặt như công nghệ, hạ tầng , tri thức (tài liệu) thì bước đầu tiên để phát triển là cố gắng sử dụng các công nghệ sẵn có của thế giới và cố gắng tìm hiểu về các công nghệ có sẵn, biến công nghệ tiếp thu được thật sự trở thành công nghệ của mình sau đó mới có thể tiếp tục phát triển...PHÂN TÍCH DỮ LIỆU Cây quyết định đưa ra có số nhánh khá nhỏ nên có thể vẽ lại như sau (do chức năng vẽ cây quyết định của phần mềm chưa thể vẽ được các cây có số nút trên 10): Cây quyết định của dữ liệu sau khi đã phân tích Cây quyết định sinh ra có độ lớn 23 nút với 12 nút lá, độ chính xác 80.1517% Có một... các diễn đàn, website nghiên cứu, học tập trên mạng nên có nhiều thông tin không thể tìm ra được nguồn gốc, nếu có sai sót về bản quyền mong tác giả, thầy cô và các bạn hỗ trợ, nhắc nhở để kịp thời sửa chữa Đại học Công nghệ thông tin TP Hồ Chí Minh 13 PHÂN TÍCH DỮ LIỆU PHẦN V - TÀI LIỆU THAM KHẢO [1] wikimedia.org [2] www.answers.com [3] explore.data.gov [4] www.waikato.ac.nz Đại học Công nghệ thông . Ngoài ra còn một vài phương pháp khai phá dữ liệu phát sinh thêm như phương pháp khai phá chuỗi, phương pháp khai phá đồ thị nhưng đây là những phương pháp khai phá dữ liệu có dạng đặc trưng nên. hiểu khai phá dữ liệu là thao tác lấy ra những dữ liệu cần thiết trong bộ dữ liệu thô ban đầu. Đại học Công nghệ thông tin TP. Hồ Chí Minh 3 PHÂN TÍCH DỮ LIỆU 2 Các bước tiến hành khai phá dữ liệu Khai. cảm ơn. Đại học Công nghệ thông tin TP. Hồ Chí Minh 2 PHÂN TÍCH DỮ LIỆU PHẦN I - Tổng quan về môn Khai phá dữ liệu 1 Khai phá dữ liệu là gì Khoảng hơn một thập kỷ trở lại đây, lượng thông tin

Ngày đăng: 09/04/2015, 22:49

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • LỜI CẢM ƠN

  • PHẦN I - Tổng quan về môn Khai phá dữ liệu

    • 1 Khai phá dữ liệu là gì

    • 2 Các bước tiến hành khai phá dữ liệu

    • 3 Các phương pháp khai phá dữ liệu

    • 4 Thuật toán phân lớp dữ liệu

    • 5 Thuật toán phân lớp dựa trên cây quyết định

    • PHẦN II - BỘ DỮ LIỆU THỬ NGHIỆM, THUẬT TOÁN VÀ PHẦN MỀM ỨNG DỤNG PHÂN TÍCH

      • 1 Bộ dữ liệu phân tích

      • 2 Thuật toán phân lớp C4.5

      • 3 Phần mềm weka

      • PHẦN III - PHÂN TÍCH DỮ LIỆU

        • 1 Làm sạch dữ liệu

          • 1.1 Làm sạch theo chiều dọc

          • 1.2 Làm sạch theo chiều ngang

          • 2 Chuẩn bị dữ liệu

          • 3 Khai thác dữ liệu

          • PHẦN IV - KẾT LUẬN

          • PHẦN V - TÀI LIỆU THAM KHẢO

Tài liệu cùng người dùng

Tài liệu liên quan