Khai phá dữ liệu với công cụ phân cụm dữ liệu- 123docz.net

Định nghĩa về khai phá dữ liệu

Khai phá dữ liệu là kỹ thuật khai phá kho dữ liệu theo chiều sâu. Nó có thể hiểu là quá trình tìm kiếm, khám phá, xem xét dữ liệu dưới nhiều mức độ nhằm tìm ra mối liên hệ giữa các thành phần dữ liệu và phát hiện ra những xu hướng, hình mẫu và những kinh nghiệm quá khứ tiềm ẩn

trong kho dữ liệu vì vậy rất phù hợp với mục đích phân tích dữ liệu hỗ trợ cho công việc điều hành và ra quyết định.[2]

Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng ta tìm đƣợc những mẫu thông tin chƣa biết và bất ngờ từ kho dữ liệu lớn, phức tạp.

Thuật ngữ khai phá dữ liệu còn đƣợc gọi với một tên khác là phát hiện tri thức trong CSDL.

Khi phân tích dữ liệu ngƣời ta không những muốn dữ liệu là những con số mà còn muốn thấy hình ảnh của dữ liệu để phát hiện ra những thông tin mới, những xu hƣớng phát triển của đối tƣợng mà dữ liệu mô tả.

Chính vì vậy khai phá dữ liệu sử dụng CSDL là Kho dữ liệu. Chúng ta có thể sử dụng một trong các kỹ thuật sau để khai phá dữ liệu, thậm chí chúng ta có thể cùng lúc dùng đồng thời các kỹ thuật đó để khai phá trên những dữ liệu đã có.

Các kỹ thuật khai phá dữ liệu:

 Giải thuật cây quyết định (Decision Tree)

 Giải thuật phân cụm (Clustering)

 Giải thuật luật kết hợp (Association Rules)

 Giải thuật mạng Noron (Neural Network) …

Trong khuôn khổ luận văn này, chúng tôi chỉ tìm hiểu phân cụm dữ liệu (Clustering) của Microsoft SQL Server 2005 thử khai thác trên kho dữ liệu đào tạo của trƣờng Đại học Tây Nguyên.

―Phân cụm d ữ liệ u là thực hiện việc nhóm các đ ối t ư ợn g tương tự nhau trong tập dữ liệu vào các cụm s a o cho các đ ố i t ư ợ n g t h u ộ c cùng m ộ t c ụ m là tương đồng còn các đối tượng thuộc cụm khác nhau sẽ không tương đồng‖. [12]

Đây là một ví dụ của phƣơng pháp học không thầy. Theo phƣơng pháp này, khi bắt đầu quá trình ta không thể biết kết quả các cụm thu đƣợc sẽ nhƣ thế nào. Vì vậy, cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu đƣợc.

Phân cụm dữ liệu đƣợc sử dụng nhiều trong các ứng dụng về phân loại thị trƣờng, phân loại khách hàng, nhận dạng mẫu, phân loại trang web, … Ngoài ra phân cụm dữ liệu còn có thể đƣợc sử dụng nhƣ một bƣớc tiền xử lý cho các thuật toán khai phá dữ liệu.

Quy trình phân cụm dữ liệu

Với kho dữ liệu xây dựng đƣợc chúng tôi sử dụng công cụ trợ giúp cho việc phân cụm dữ liệu và hỗ trợ ra quyết định là Analysis Service của SQL Server 2005.

 Tạo một Analysis Service project mới.

Sau khi tạo xong project, để thực hiện khai phá dữ liệu, chúng tôi cần chỉ ra và mô tả dữ liệu cần khai phá và sau đó tạo cấu trúc (Structure) và mô hình (Model) khai phá.

 Mô tả dữ liệu.

Hai đối tƣợng trong Analysis Services giao tiếp với dữ liệu của chúng tôi là Data Source và Data source view.

Tạo Data Source.

Data Source là một đối tƣợng khá đơn giản. Nó chỉ bao gồm một chuỗi kết nối, và một vài thông tin chỉ ra điều kiện kết nối nhƣ thế nào.

Tạo Data Source View.

Data Source View là nơi chúng tôi chọn, tổ chức, khám phá, và thao tác với dữ liệu trong một khía cạnh nào đó. Khi tạo Data Source View cho mục đích khai phá, bảng quan trọng nhất cần xác định đó là Case table. Đây là bảng chứa những trƣờng hợp (Case) mà chúng tôi muốn phân tích. Thêm vào nữa là các bảng quan hệ nhƣ là các bảng lồng nhau (Nested tables), nó sẽ cung cấp thêm thông tin cho những trƣờng hợp.

Sau khi đã tổ chức, thay đổi, chọn và hiểu dữ liệu cần phân tích, chúng tôi có thể bắt đầu tạo những đối tƣợng Data mining. Bƣớc đầu tiên

là chạy Data Mining Wizard; sau khi hoàn thành nó, chúng tôi có thể chọn lọc những kết quả trong Data Mining Designer.

SQL Server Analysis Services có 2 đối tƣợng chính liên quan đến Data Mining: Mining structures và Mining models.

Mining structures chứa một danh sách của những cột cấu trúc (Structures columns), đƣợc lấy từ Data source, thêm vào đó là một số tùy chọn điều khiển bằng cách nào dữ liệu đƣợc tạo. Hơn nữa, một Mining structure chứa một danh sách những Mining models mà sử dụng những cột từ structure.

Một Mining model chứa một tác vụ khai phá; các tham số đi kèm nó; và một danh sách các cột lấy từ Mining structure.

Dƣới đây là một số kết quả mà chúng tôi đã thu đƣợc sau khi sử dụng công cụ trợ giúp khai phá dữ liệu bằng giải thuật Clustering của SQL Server 2005 để phân cụm trên dữ liệu đào tạo của trƣờng Đại học Tây Nguyên gồm 10528 bản ghi, mỗi bản ghi mô tả các thuộc tính về hồ sơ của một sinh viên và dựa vào độ tƣơng tự là điểm trung bình qua các học kỳ.

Hình 3.19 Mô tả đặc điểm về các thuộc tính trong các cụm

Nhìn vào hình trên chúng ta nhận thấy đƣợc cluster 5 (gồm 1031 bản ghi) có điểm trung bình qua các học kỳ tƣơng đối ổn định và đạt mức trung bình khá trở lên, trong khi đó cluster 7 (932 bản ghi) cũng có điểm trung bình qua các học kỳ tƣơng đối ổn định nhƣng đạt mức dƣới trung bình…

Ngoài ra chúng ta cũng có thể tìm hiểu mức độ tƣơng tự của các cụm thông qua thẻ Cluser Diagram

Sơ đồ này mô tả các thuộc tính hàng đầu và xác suất xuất hiện giảm dần của các thuộc tính trong Cluster 5

Chúng ta cũng có thể so sánh một cụm với bản bổ sung của cụm đó hoặc so sánh một cụm với một cụm khác để tìm hiểu chính xác hơn về một cụm mà chúng ta quan tâm nhƣ minh họa của hình bên dƣới.

TÀI LIỆU THAM KHẢO CHÍNH

[1]Hồ Cẩm Hà, ―Thiết kế kho dữ liệu phục vụ công tác đào tạo ở trƣờng Sƣ phạm”, báo cáo đề tài nghiên cứu khoa học cấp Bộ, 2007

[2]Đoàn Văn Ban, ―Phƣơng pháp thiết kế và khai thác kho dữ liệu‖, đề tài cấp trung tâm KHTN & CNQG, 1997.

[3]Hồ Thuần, Hồ Cẩm Hà. ―Các hệ Cơ sở dữ liệu: Lý thuyết và Thực hành‖, Tập 2, Nhà xuất bản Giáo dục, 2004.

[4]Nguyễn Ngọc Quyên. ―Xây dựng báo biểu bằng SQL Report Service 2008‖, NXB Lao động – Xã hội, 2009

[5]Berson a., Smith S. J., ―Data Warehousing, Data Mining Application for CRM‖, McGraw-Hill, 1997.

[6]V. Poe, ―Building a Data Warehouse for Decision Support‖, Prentice Hall, 1996.

[7]Peng Jin, Yun-Long Zhu, Kun-Yuan Hu, ―A Clustering Algorithm for Data Mining Based on Swarm Intelligence‖, Proceedings of Sixth International Conference on Machine Learning Cybernetics, Hong Kong, 19-22 August 2007

[8]Song Xudong, Cheng Xiaolan, ―Decision Tree Algorithm based on Sampling‖, 7/2007 IFIP International Conference on Network and Parallel Computing – Workshops

[9]Xiangyang Li and Nong Ye, ―A supervised clustering and classification algorithm for mining data with mixed variables‖, IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS— PART A: SYSTEMS AND HUMANS, VOL. 36, NO. 2, MARCH 2006 [10] Jiawei Han, Micheline Kamber, ―Data Mining Concepts and

techniques”, Second Edition, Elsevier Inc, 5/2008.

[11] P. Berkhin: ―Survey of Clustering Data Mining Techniques”. Research paper. Accrue Software, Inc, http://www.accrue.com, (2001).

[12] ZhaoHui Tang and Jamie MacLennan, ―Data Mining with SQL Server 2005‖, Published by Wiley Publishing, 2005

PHỤ LỤC

Dƣới đây là một vài ví dụ minh họa cho việc nhận định về thực trạng sử dụng dữ liệu của trƣờng đại học Tây Nguyên.

Bảng 1. Thống kê chất lƣợng đào tạo sinh viên của Khoa KHTN & CN giai đoạn 2006 – 2010

Lớp T. số Xuất sắc Giỏi Khá TBK & TB Yếu kém SL % SL % SL % SL % SL % CN sinh 06 39 4 10.3 28 71.8 7 17.9 0 0 0 0 CN Sinh 07 74 0 0 7 9.5 38 51.4 29 39.2 0 0 CN Sinh 08 47 0 0 1 2.1 12 25.5 33 70.2 1 2.1 CN Sinh 09 38 0 0 0 0 9 23.7 15 39.5 14 36.8 CN Tin 06 58 0 0 11 19 24 41.4 21 36.2 2 3.4 CN Tin 07 74 0 0 0 0 17 23 54 73 3 4.1 CN Tin 08 59 0 0 1 1.7 12 20.3 38 64.4 8 13.6 CN Tin 09 54 0 0 0 0 9 16.7 31 57.4 14 25.9 CNĐT 08 35 0 0 1 2.9 14 40 20 57.1 0 0 CNĐT 09 67 0 0 0 0 7 10.4 28 41.8 32 47.8 CNMT 08 46 0 0 0 0 25 54.3 20 43.5 1 2.2 CNMT 09 55 0 0 1 1.8 19 34.5 25 45.5 10 18.2 Hoá 06 77 8 10.4 56 72.7 13 16.9 0 0 0 0 Hóa 07 70 0 0 8 11.4 41 58.6 20 28.6 1 1.4 Hoá 08 63 0 0 2 3.2 23 36.5 37 58.7 1 1.6 Hoá 09 68 2 2.9 3 4.4 33 48.5 23 33.8 7 10.3 Lý 06 78 8 10.3 55 70.5 13 16.7 1 1.3 1 1.3 Lý 07 69 1 1.4 21 30.4 32 46.4 11 15.9 4 5.8 Lý 08 54 0 0 1 1.9 27 50 25 46.3 1 1.9 Lý 09 66 1 1.5 5 7.6 19 28.8 27 40.9 14 21.2 SP Sinh 06 58 13 22.4 43 74.1 2 3.4 0 0 0 0 SP Sinh 07 38 0 0 10 26.3 16 42.1 12 31.6 0 0 SP Sinh 08 44 0 0 4 9.1 9 20.5 30 68.2 1 2.3 SP Sinh 09 35 0 0 1 2.9 15 42.9 15 42.9 4 11.4 Toán 06 62 0 0 16 25.8 30 48.4 16 25.8 0 0

Toán 07 58 0 0 3 5.2 21 36.2 34 58.6 0 0

Toán 08 63 0 0 2 3.2 7 11.1 49 77.8 5 7.9

Toán 09 64 0 0 1 1.6 29 45.3 24 37.5 10 15.6

Toàn khoa 1613 37 2.3 281 17.4 523 32.4 638 39.6 134 8.3

(Báo cáo thống kê chất lượng đào tạo sinh viên chính quy của Khoa TN & CN giai đoạn 2006 – 2010 và được xây dựng bằng Word)

Bảng 2 : Kết quả xếp loại tốt nghiệp của Khóa 2006

STT Lớp Số SV Tốt Nghiệp Tỷ lệ % Chƣa TN Tỷ lệ % Giỏi Tỷ lệ % Khá Tỷ lệ % TBK Tỷ lệ % TB Tỷ lệ % 1 SP Toán K06 62 49 79.0 13 21.0 6 12.2 20 40.8 20 40.8 3 6.1 2 SP Sinh K06 58 57 98.3 1 1.7 5 8.8 37 64.9 15 26.3 0 0.0 3 CN Sinh K06 39 35 89.7 4 10.3 4 11.4 26 74.3 5 14.3 0 0.0 4 SP Lý K06 79 72 91.1 7 8.9 4 5.6 48 66.7 20 27.8 0 0.0 5 CN Tin K06 58 45 77.6 13 22.4 1 2.2 15 33.3 29 64.4 0 0.0 6 SP Hóa K06 77 77 100.0 0 0.0 12 15.6 51 66.2 14 18.2 0 0.0 TỔNG 373 335 89.8 38 10.2 32 9.6 197 58.8 103 30.7 3 0.9

(Báo cáo kết quả tốt nghiệp của sinh viên chính quy khóa 2006 của Khoa TN & CN và được xây dựng bằng Word)

Bảng 3. Bảng số liệu thống kê kết quả sinh viên tham gia nghiên cứu khoa học thu đƣợc từ phòng Quản lý khoa học và Quan hệ quốc tế và

đƣợc xây dựng bằng Excel

DANH MỤC ĐỀ TÀI NCKH CỦA SINH VIÊN NĂM 2007

S T T TÊN ĐỀ TÀI CÁN BỘ HƢỚNG DẪN

SINH VIÊN THỰC HIỆN

THỜI GIAN THỰC HIỆN LOẠI NGH IỆM THU I

KHOA NÔNG LÂM

NGHIỆP

1 Bƣớc đầu nghiên cứu sinh trƣởng Xoan chịu hạn (Azadirachta indica Ajuss) đƣợc trồng mới ở 1 số địa điểm trên địa bàn tỉnh Đăk Nông ThS.Lê Đình Nam Nguyễn Xuân Vũ Phạm Trọng Phƣơng Hồ Ngọc Thọ

Phạm Đòan Quốc Vƣơng

Lớp Lâm sinh K2004 4/2007- 4/2008 Đạt 2 Nghiên cứu ảnh hƣởng của phân vi lƣợng (Bo, Mg, Zn) đến sinh trƣởng, phát triển và khả năng chống chịu của cây Bông tại tỉnh Đắk Lắk PGS.TS.Ng uyễn Anh Dũng Nguyễn Anh Việt

Phan Thúc Định

Nguyễn Thị Đào

Lê Thị Thu Thảo

Trần Thị Hạnh Phạm Thị Hồng Hạnh Trƣơng Thị Hùng Cƣờng Bùi Thị Thỏa Lớp Trồng trọt K04 3/2007- 3/2008 Đạt

Nghiên cứu biện pháp phòng trừ có hiệu quả loài sâu hại chủ yếu trên cây cà phê vối tại Công ty cà phê Krông Ana, Huyện Krông Ana, tỉnh ĐakLak

TS.Nguyễn Xuân Thanh

Đinh Văn Đang

Phạm Việt Hải Phạm Thị Yến Lớp BVTV K2005 Vũ Thị Ngoại (SP.Sinh 05) 5/2007- 5/2008 Đạt 4 Tìm hiểu Đặc điểm thực vật học, sinh thái, phân bố và giá trị của cây Khúc Khắc (Kim Cang) tại vùng đệm vƣờn Quốc gia Chƣ Yang Sin, ĐakLak ThS.Nguyễn Đức Định Bùi Đình Thông

Huỳnh Viết Bằng Nguyễn Quốc Sơn Lâm Văn Khoa

Lớp Lâm sinh K2004 4/2007- 4/2008 Đạt II KHOA SƢ PHẠM 5 Xây dựng phần mềm "Quản lý công tác Đoàn ở Đoàn TNCS Hồ Chí Minh trƣờng ĐHTN" ThS.Trƣơng Hải Trần Văn Phƣớc

Lê Thị Thu Oanh

Nguyễn Đức Cƣờng Lớp Cử nhân tin học K04 3/2007- 3/2008 Đạt II I KHOA Y - DƢỢC 6 Đặc điểm lâm sàng, cận lâm sàng và ảnh hƣởng của bệnh nhiễm độc thai nghén đối với bà mẹ và sơ sinh điều trị tại Bệnh viện đa khoa tỉnh Đắk Lắk trong 3 năm (2005-2007) BS.Võ Thị Kim Loan Phạm Thị Diệu Linh Huỳnh Thị Bích Liễu Lớp Y K2002 1/2007- 1/2008 Đạt 7 Nhận thức của sinh viên trƣờng đại học Tây Nguyên về những hiện tƣợng tiêu TS.Nguyễn Đăng Đức Vũ Thị Lan Anh Lớp Điều Dƣỡng K2004 3/2007- 3/2008 Đạt

cực trong ngành giáo dục và đào tạo hiện nay

Tìm hiểu quan niệm của sinh viên trƣờng ĐHTN về quan hệ tình dục trƣớc hôn nhân và hiểu biết về an toàn tình dục TS.Nguyễn Ngọc Xuân Nguyễn Thị Huệ Hồ Đăng Khoa Trần Xuân Trƣờng Lớp Dƣợc sĩ K05 3/2007- 3/2008 I V KHOA CHĂN NUÔI THÚ Y

9 Nghiên cứu khả năng sinh trƣởng, sinh sản của cừu Phan Rang tại huyện Krông Păk, tỉnh ĐakLak PGS.TS.Trần Quang Hân Phan Thanh Tuấn

Trần Đăng Phúc Nguyễn Trọng Toàn Vũ Hồng Điển Lớp CN-TY K2005 5/2007- 5/2008 Đạt 1 0 Điều tra tình hình nuôi heo rừng tại ĐăkLăk và nghiên cứu 1 số đặc điểm sinh học và tập tính của heo rừng tại Buôn Ky - TP.BMT TS.Nguyễn Tuấn Hùng Hà Thành Vinh Ngô Văn Bình Phạm Văn Dân Đặng Thị Hòa Khanh Lớp Chăn nuôi Thú y K2004 3/2007- 3/2008 Đạt 1 1 Nghiên cứu tình hình nhiễm giun sán ở gà nuôi thả vƣờn tại TP.BMT TS.Đinh Nam Lâm Ninh Văn Kiên

Ng.Thị Hoàng Oanh Trần Thị Thanh Vân Nguyễn Thị Hoà Ng.Thị Bích Liên Lớp Thú Y K2004 5/2007- 5/2008 Đạt

1 2

Tình hình nhiễm và một số yếu tố gây bệnh của vi khuẩn Salmonella trong đƣờng ruột chó nuôi tại TP.BMT, tỉnh ĐăkLăk

TS.Nguyễn Thị Oanh

Vy Đức Nhật Quang

Nguyễn Văn Thủ

Nguyễn Hữu Hoàng

Hoàng Ly Ly

Hoàng Thị Anh Phƣơng

Lớp Thú Y K2004 5/2007- 4/2008 Đạt 1 3 Nghiên cứu quy trình sản xuất hạt của giống cỏ Arachis pintoi TS.Trƣơng Tấn Khanh Ngô Minh Hiếu

Đặng Thị Duyên Bùi Ngọc Châu Lớp CNTY K2004 5/2007- 5/2008 gh 9/2008 Đạt 1 4 Khảo sát tình hình nhiễm giun móc(Ancylostoma) ở chó nuôi tại thành phố Buôn Ma thuột và hiệu lực tẩy trừ của Virbamec, Vimectin TS.Nguyễn Văn Diên Huỳnh Thiện Vĩnh Võ Thị Dung Lê Thị Duy Khánh Nguyễn Thị Trang Trƣơng Minh Trí Lớp TY K04 4/2007- 4/2008 Đạt 1 5 Đánh giá tình trạng tồn dƣ hàn the (borax) trong thịt và một số sản phẩm chế biến từ thịt TS.Nguyễn Thị Oanh Tạ Đức Định

Nguyễn Văn Dƣơng

Nguyễn Văn Huy

Đoàn Thị Kim Phƣợng Nguyễn Thị Lan Anh

Lớp TY K04

4/2007-

Bảng 4. Kết quả đào tạo sinh viên chính quy năm học 2009 - 2010 của toàn trƣờng Các đơn vị Tổng số SV

Xuất sắc Giỏi Khá TBK và TB Yếu, kém Số Sv Tỷ lệ (%) Số Sv Tỷ lệ (%) Số Sv Tỷ lệ (%) Số Sv Tỷ lệ (%) Số Sv Tỷ lệ (%) Khoa KHTN & CN 1.613 37 2,3 281 17,4 523 32,4 638 39,6 134 8,3 Khoa Sƣ Phạm 1.236 3 0,2 191 15,5 624 50,5 353 28,5 65 5,3 Khoa Lý luận CT 484 9 1,9 101 20,9 207 42,8 130 26,8 37 7,6 Khoa Nông Lâm 1.453 0 0 97 6,7 430 29,6 590 40,6 336 23,1 Khoa Y – Dƣợc 1.597 0 0 182 11,4 793 49,7 535 33,5 87 5,4 Khoa Kinh tế 1.648 0 0 266 16,1 566 34,3 650 39,4 166 10,1 Khoa CN – TY 420 0 0 53 12,6 165 39,3 188 44,8 14 3,3 Khoa Ngoại ngữ 459 1 0,2 60 13,1 231 50,3 133 29,0 34 7,4

Tổng cộng 8.910 50 0,6 1231 13,8 3539 39,7 3217 36,1 873 9,8

Khai phá dữ liệu với công cụ phân cụm dữ liệu

Siêu dữ liệu tác nghiệp (Operational Metadata: OM)

Kiến trúc dữ liệu hai tầng (Two-layer Architecture)