Có thể kể đến các phương pháp khai phá dữ liệu sau: - Phân lớp Classification: một trong những vấn đề chính của khai phá dữ liệu là bài toán phân lớp.. Phân lớp nghĩa là nhận vào một dữ
Trang 1MỤC LỤC
MỤC LỤC 1
LỜI CẢM ƠN 2
PHẦN I - Tổng quan về môn Khai phá dữ liệu 3
1 Khai phá dữ liệu là gì 3
2 Các bước tiến hành khai phá dữ liệu 4
3 Các phương pháp khai phá dữ liệu 4
4 Thuật toán phân lớp dữ liệu 5
5 Thuật toán phân lớp dựa trên cây quyết định 5
PHẦN II - BỘ DỮ LIỆU THỬ NGHIỆM, THUẬT TOÁN VÀ PHẦN MỀM ỨNG DỤNG PHÂN TÍCH 8
1 Bộ dữ liệu phân tích 8
2 Thuật toán phân lớp C4.5 8
3 Phần mềm weka 8
PHẦN III - PHÂN TÍCH DỮ LIỆU 10
1 Làm sạch dữ liệu 10
1.1 Làm sạch theo chiều dọc 10
1.2 Làm sạch theo chiều ngang 10
2 Chuẩn bị dữ liệu 10
3 Khai thác dữ liệu 10
PHẦN IV - KẾT LUẬN 13
PHẦN V - TÀI LIỆU THAM KHẢO 14
Trang 2LỜI CẢM ƠN
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến Thầy Đỗ Phúc là người đã tận tình giảng
dạy, chỉ bảo, định hướng cho em trong suốt môn
học và cả trong những môn học trước
Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trong thời gian qua,
những kiến thức mà em nhận được trên giảng
đường vẫn luôn luôn giúp đỡ em trong học tập và
cuộc sống dù ít hay nhiều
Em cũng muốn gửi lời cảm ơn đến các bạn nhóm phát triển phần mềm weka của đại học
Waikato vì đã giúp đỡ, hướng dẫn và cho phép tôi
sử dụng các tài liệu, thông tin, phần mềm của các
bạn vào bài thu hoạch
Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất cả bạn bè, và đặc biệt là các bạn trong lớp
Cao học Công nghệ thông tin K6 vì đã giúp đỡ, gợi
ý cho tôi trong suốt quá trình học tập và nghiên cứu
từ trước tới nay
Chân thành cảm ơn
Trang 3PHẦN I - Tổng quan về môn Khai phá dữ liệu
1 Khai phá dữ liệu là gì
Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ không ngừng tăng lên Để dễ hình dung, ta có thể nhìn lại khoảng 10 năm trước, dữ liệu được lưu trữ trên các ổ cứng vài trăm MB, trao đổi dữ liệu được thực hiện thông qua các đĩa mềm có dung lượng1,44MB hoặc các đĩa CD có dung lượng 700MB Thì đến nay các thiết bị lưu trữ di động đã chuyển thành những chiếc USB có dung lượng vài GB hoặc lớn hơn là những thiết bị ổ cứng di động có dung lượng hàng TB, các thiết bị lưu trữ cố định trở thành những hệ thống lưu trữ SAN System có dung lượng lên đến vài chục thậm chí vài trăm TB So sánh với thời điểm hiện nay thì dung lượng dữ liệu lưu trữ của thế giới nói chung và của nước ta nói riêng đã tăng lên đến hàng trăm, thậm chí hàng ngàn lần đủ để thấy được lượng dữ liệu con người có được lớn và phát triển nhanh đến mức nào Hiện nay gần như tất cả mọi thứ đều có thể tìm thấy trên mạng, tất cả các tài liệu, giấy tờ, thông tin, hình ảnh đều được đưa vào số hóa lưu trữ Sự phát triển này thường được đánh giá là xảy ra với một tốc độ bùng nổ Trong một vài tài liệu, bài báo các chuyên gia đã dự đoán, cảnh bảo rằng lượng thông tin trên toàn cầu sẽ tăng gấp đôi trong 2 nưam Tuy nhiên khi xem xét lại tình trạng hiện nay thì ta thấy rằng nhận xét trên là chưa đúng, đủ với thực tế Trong 10 năm, dung lượng cần thiết để lưu trữ dữ liệu đã tăng lên 1000 lần trong khi với sự phát triển của các giao thức file, các chuẩn nén thì dung lượng của các thông tin ngày càng nhỏ lại Mức phát triển của dữ liệu trên thế giới hiện nay khó có thể dùng từ nào để diễn tả được, chỉ có thể nói chúng ta đang có một lượng dữ liệu không thể nào đo đếm được và nó vẫn phát triển không ngừng với mỗi giây trôi qua
Tuy nhiên, theo cách nói của chính trị, dữ liệu của chúng ta vừa thừa, lại vừa thiếu Thừa dữ liệu thô, rác, chưa qua chọn lọc; thiếu dữ liệu tinh, cần thiết phục vụ cho các nhu cầu của con người và xã hội
“Necessity is the mother of invention” - Trước tình hình đó, ngành khai phá dữ liệu đã ra đời theo nhu cầu thực tế của xã hội như một quy luật tất yếu Khai phá dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu Một ví dụ hay được sử dụng
là là việc khai thác vàng từ đá và cát, Datamining được ví như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước Thuật ngữ Datamining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với
từ Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu)
Nói theo cách đơn giản, ta có thể hiểu khai phá dữ liệu là thao tác lấy ra những dữ liệu cần thiết trong bộ dữ liệu thô ban đầu
Trang 42 Các bước tiến hành khai phá dữ liệu
Khai phá dữ liệu thực chất là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm:
- Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding)
- Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation)
- Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu Kết quả cho ta một nguồn tri thức cần thiết
- Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được
- Triển khai (Deployment): sử dụng các tri thức, dữ liệu thu được vào các mục đích riêng theo yêu cầu
Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua
3 Các phương pháp khai phá dữ liệu
Có nhiều phương pháp để tiến hành khai phá dữ liệu, mỗi phương pháp có những ưu khuyết điểm và mục đích sử dụng khác nhau phục vụ cho những nhu cầu khác nhau của con người Có thể kể đến các phương pháp khai phá dữ liệu sau:
- Phân lớp (Classification): một trong những vấn đề chính của khai phá dữ liệu là bài toán phân lớp Phân lớp nghĩa là nhận vào một dữ liệu đầu vào và phân đối tượng vào những lớp khác nhau, có hai ứng dụng tiêu biểu cho bài toán này:
+ Bài toán phân lớp tự động: phân một hay nhiều dữ liệu đầu vào vào những lớp khác nhau theo đúng yêu cầu, ví dụ hỗ trợ phân các học viên có điểm
số, nơi cư trú, quá trình học tập khác nhau vào những lớp khác nhau phù hợp với từng người
+ Bài toán tìm ra các thông số ảnh hưởng đến kết quả: tìm ra những trường
dữ liệu ảnh hưởng đến quá trình phân lớp để cải tiến dữ liệu đầu vào nhằm đạt được những mục tiêu nhất định Ví dụ tìm ra những thông tin liên quan đến doanh thu trong hoạt động bán hàng của siêu thị, sẽ có nhiều tiêu chuẩn có liên quan như giá cả, vệ sinh siêu thị, thái độ của nhân viên nhưng qua phân lớp sẽ biết được những mục nào quan trọng hơn, cần ưu tiên lên hàng đầu nhằm đạt được doanh thu cao hơn với chi phí bỏ ra trong mức cho phép
Hồi qui (Regression): Hồi qui là kỹ thuật thống kê trong lĩnh vực phân tích
dữ liệu và xây dựng các mô hình từ thực nghiệm, cho phép mô hình hồi qui vừa
Trang 5được khám phá được dùng cho mục đích dự báo (prediction), điều khiển (control), hay học (learn) cơ chế đã tạo ra dữ liệu
Gom cụm (Clustering): bài toán gom cụm hiểu theo cách đơn giản là đưa những phần tử có một số tính chất chung về chung một nhóm nhằm phục vụ cho mục đích khác nhau Gom cụm dữ liệu làm cho các dữ liệu trong cùng một cụm thì có tính chất tương tự nhau, các dữ liệu khác cụm thì có tính chất khác nhau với tính chất gom cụm do người dùng định nghĩa theo yêu cầu thực tế Gom cụm thường được ứng dụng trong các bài toán nhận dạng, làm sạch dữ liệu
Mô tả khái niệm (Concept Description) hay còn gọi là tổng hợp (Summarization): thiên về mô tả, tổng hợp và tóm tắt khái niệm, đưa ra các thông tin chung về dữ liệu đầu vào, đây là một mảng riêng thường được dùng trong lĩnh vực tóm tắt văn bản, thông tin trên web
Luật kết hợp (association rules): là phương pháp tìm ra những dữ liệu thường xuyên xuất hiện cùng nhau nhằm tìm ra những mối liên kết của dữ liệu, phục vụ cho nhu cầu hoạch định tương lai Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh học, tài chính & thị trường chứng khoán
Ngoài ra còn một vài phương pháp khai phá dữ liệu phát sinh thêm như phương pháp khai phá chuỗi, phương pháp khai phá đồ thị nhưng đây là những phương pháp khai phá dữ liệu có dạng đặc trưng nên sẽ không đề cập đến trong bài thu hoạch này
4 Thuật toán phân lớp dữ liệu
Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới sự thành công của mô hình phân lớp Do vậy chìa khóa của vấn đề phân lớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính xác cao và có khả năng mở rộng được Trong đó khả năng mở rộng được của thuật toán được đặc biệt chú trọng và phát triển
Có thể liệt kê một số kỹ thuật phân lớp tiêu biểu:
- Bộ phân lớp Bayesian (Bayesian classifier)
- Mô hình phân lớp K-hàng xóm gần nhất (K-nearest neighbor classifier)
- Mạng nơron
- Phân tích thống kê
- Các thuật toán di truyền
- Phương pháp tập thô (Rough set Approach)
5 Thuật toán phân lớp dựa trên cây quyết định
Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng nơron, mô hình thông kê tuyến tính /bậc 2, cây quyết định, mô hình di truyền Trong số những
Trang 6mô hình đó, cây quyết định với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho data mining nói chung và phân lớp dữ liệu nói riêng Có thể kể ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh, đơn giản, dễ hiểu Hơn nữa các cây có thể dễ dàng được chuyển đổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ
sở dữ liệu một cách hiệu quả Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác
Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong hình vẽ sau:
Trong cây quyết định:
• Gốc: là node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật)
• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)
• Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)
Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó
Trang 8PHẦN II - BỘ DỮ LIỆU THỬ NGHIỆM, THUẬT TOÁN
VÀ PHẦN MỀM ỨNG DỤNG PHÂN TÍCH
1 Bộ dữ liệu phân tích
Bộ dữ liệu phân tích được cung cấp miễn phí bởi trang website explore.data.gov - là website của chính phủ Mỹ nhằm phục vụ cho các công tác học tập, nghiên cứu và được đảm bảo tính chính xác, xác thực bởi nhà cung cấp
Bộ dữ liệu là thông tin của hơn 7000 trường đại học trên khắp thế giới mà đơn vị tạo lập dữ liệu có thể thu thập được của năm 2010 chứa thông tin về nhiều mặt khác nhau của trường như thông tin tuyển sinh, cơ sở vật chất
Bộ dữ liệu gồm 172 cột và trên 7000 dòng, các trường thông tin có hơn phân nửa là các mã tham chiếu do công tác điều tra thông qua các hỏi câu trắc nghiệm rất phù hợp với công tác phân tích nhưng tính chính xác, linh động, đa dạng không cao Tuy nhiên cũng sẽ đáp ứng được phần nào yêu cầu của bài thu hoạch
2 Thuật toán phân lớp C4.5
Thuật toán sẽ được dùng để phân tích dữ liệu trong bài thu hoạch là thuật toán C4.5 Đây là sự kế thừa của của thuật toán học máy bằng cây quyết định dựa trên nền tảng là kết quả nghiên cứu của HUNT và các cộng sự của ông trong nửa cuối thập kỷ 50 và nửa đầu những năm 60 (Hunt 1962) Phiên bản đầu tiên
ra đời là ID3 (Quinlan, 1979)- 1 hệ thống đơn giản ban đầu chứa khoảng 600 dòng lệnh Pascal, và tiếp theo là C4 (Quinlan 1987) Năm 1993, J Ross Quinlan
đã kế thừa các kết quả đó phát triển thành C4.5 với 9000 dòng lệnh C chứa trong một đĩa mềm Mặc dù đã có phiên bản phát triển từ C4.5 là C5.0 - một hệ thống tạo ra lợi nhuận từ Rule Quest Research, nhưng nhiều tranh luận, nghiên cứu vẫn tập trung vào C4.5 vì mã nguồn của nó là sẵn dùng
Với những đặc điểm C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết định hiệu quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích thước nhỏ C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm này làm C4.5 chỉ thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữ liệu tại mỗi node trong quá trình phát triển cây quyết định C4.5 còn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật if-then (một dạng quy tắc phân lớp dễ hiểu) Kỹ thuật này cho phép làm giảm bớt kích thước tập luật và đơn giản hóa các luật mà độ chính xác so với nhánh tương ứng cây quyết định là tương đương
3 Phần mềm weka
Weka là phần mềm được phát triển bởi đại học Waikato (New Zealand) Phần mềm hỗ trợ cho thao tác máy học (machine learning) và khai phá dữ liệu Phần mềm đặc biệt tập trung vào lĩnh vực phân lớp dữ liệu - lĩnh vực tiếp cận của đa số các thuật toán máy học Ngoài ra, các thuật toán gom cụm, tìm luật kết hợp cũng được cài đặt và hỗ trợ trong phần mềm
Trang 9Phần mềm weka có thể không phải là phần mềm tốt nhất trong lĩnh vực khai phá dữ liệu, tuy nhiên phần mềm cũng có những ưu thế vượt trội so với những phần mềm khác:
- Phần mềm mã nguồn mở -> miễn phí, dễ nghiên cứu, ứng dụng
- Được viết theo quy tắc hướng đối tượng -> dễ hiểu
- Hỗ trợ nhiều thuật toán khác nhau -> dễ tìm hiểu, so sánh
- Hỗ trợ "vẽ" các mô hình, biểu đồ rất trực quan như vẽ cây quyết định, sơ
đồ phân bố giúp có một cái nhìn tổng quan hơn về dữ liệu đang phân tích
Do có những tính chất trên, phần mềm thường xuyên được sử dụng trong các bài nghiên cứu, tìm hiểu, ứng dụng khai phá dữ liệu và cả trong một số phần mềm thương mại nhỏ
Bài thu hoạch này sử dụng phần mềm weka phiên bản 3.6.8 để tiến hành phân tích dữ liệu Phiên bản này chưa phải là mới nhất nhưng là phiên bản đã được kiểm lỗi hoàn chỉnh nhất của phần mềm
Trang 10PHẦN III - PHÂN TÍCH DỮ LIỆU
Quá trình phân tích dữ liệu cũng trải qua nhiều bước khác nhau, nhưng tóm lại vẫn nhằm mục đích tìm ra những yếu tố ảnh hưởng đến chất lượng của trường Ở đây chất lượng của trường ta dùng tỉ lệ giữa số học viên đăng ký và số học viên tuyển vào (ở nước ta thường gọi là tỷ lệ chọi), nếu tỷ lệ này lớn hơn hoặc bằng 2 thì ta xếp trường đó vào nhóm trường tốt (good), nếu tỷ lệ này thấp hơn 2 thì ta xếp trường vào nhóm kém (bad)
Tuy nhiên bước sắp xếp này chỉ thực hiện khi đã vào những bước sau, ở các bước đầu ta chỉ cần biết mục tiêu để tránh bị lạc hướng khi phân tích
1 Làm sạch dữ liệu
Dữ liệu đầu tiên khi nhận được là các trường thông tin bao gồm các mã tham chiếu, dựa vào các bảng tham chiếu ta tiến hành điền thông tin vào để có thể thực hiện phân tích (kết quả ta được file v3)
Dữ liệu thu được có quá nhiều trường thông tin bị thừa, do đó ta sẽ tiến hành làm sạch dữ liệu để quá trình phân tích được tốt hơn, tránh bị loãng dữ liệu Dữ liệu được làm sạch thông qua 2 bước
1.1 Làm sạch theo chiều dọc
Như đã trình bài ở mục II, dữ liệu bao gồm 172 cột chứa rất nhiều thông tin của trường học Trong số đó có nhiều thông tin dư thừa, không cần thiết cho mục đích phân tích như ID, số lượng giáo viên nam, số giáo viên có tôn giáo khác, các chính sách về tôn giáo, các đội nhóm thể thao trong trường Để tránh
bị loãng dữ liệu ta sẽ bỏ các trường thông tin trên ra khỏi bộ dữ liệu giảm lượng
dữ liệu từ 172 cột xuống còn 49 cột
1.2 Làm sạch theo chiều ngang
Những trường dữ liệu có thông tin quan trọng nếu thiếu có thể được bỏ qua, tuy nhiên những trường thông tin cần thiết để thực hiện phân tích như trường số lượng tưởng sinh, số lượng đăng ký nhập học nếu bị thiếu thì không thể sử dụng hàng thông tin đó được Sau khi loại bỏ thì dữ liệu bị hao hụt rất nhiều (từ 7367 dòng còn 2326 dòng) (kết quả ta được file v4)
2 Chuẩn bị dữ liệu
Dữ liệu đầu vào chỉ cung cấp các trường thông tin như số nam tuyển vào,
số nữ tuyến vào, số nam dự tuyển, số nữ dự tuyển để phù hợp hơn với quá trình phân tích ta xây dựng thêm cột tỷ lệ nhận vào được tính từ các cột trên Đồng thời lấy cột kết quả là tốt hay kém dựa vào cột tỷ lệ nhận vào như đã đề cập ở trên (kết quả được file v7)
3 Khai thác dữ liệu
Đưa dữ liệu vào phần mềm và tiến hành phân lớp theo thuật toán C4.5 (J48 trong weka) ta được kết quả cần phân tích: