HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
ÁP DỤNG KỸ THUẬT PHAN CUM DU LIEU
DE PHAN LOẠI KET QUA HỌC TẬP CUA HỌC SINH
CHUYEN NGANH: KHOA HỌC MAY TÍNH
MA SO _ : 60.48.01.01
TOM TAT LUAN VAN THAC Si
HA NOI - 2014
Trang 2Luận văn được hoàn thành tại:
HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIỄN
Co thé tim hiéu luan van tai:
- Thu viện của Hoc viện Công nghệ Buu chính Viễn
thông
Trang 3MỞ DAU
1 Ly do chọn đề tài
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã
hội cũng đồng nghĩa với lượng đữ liệu đã được các cơ quan thu
thập và lưu trữ ngày một tích luỹ nhiều lên.
Các phương pháp quản trị và khai thác cơ sở dữ liệu
truyền thống ngay càng không đáp ứng được đã làm phát triển
một khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thứcvà khai phá dữ liệu Khai phá dữ liệu giúp người sử dụng thuđược những tri thức hữu ích từ những cơ sở dữ liệu hoặc các
nguôn dữ liệu không lồ khác.
Phân cụm dit liệu là một trong những kỹ thuật để khai thác dir liệu có hiệu quả và được ứng dụng trong nhiều lĩnh vực khác nhau: kinh tế, bảo hiểm, quy hoạch đô thị, v.v Tuy
nhiên, trong lĩnh vực giáo dục thì chưa được khai thác có hiệu
quả Bản thân người thực hiện đề tài đang công tác trong ngành giáo dục, nên rất cần các phân tích, đánh giá kết quả học tập của học sinh để từ đó dé xuất các biện pháp nhằm nâng cao chất
lượng giáo duc học sinh phổ thông.
Đó là lý do tác giả chon đề tài “Ap dung kỹ thuật phân cum dữ liệu để phân loại kết quả học tập của học sinh”.
Trang 42 Mục đích của đề tài:
e Tìm hiểu tổng quan về khai phá dit liệu, các phương pháp và
kỹ thuật phân cụm dữ liệu.
e Tìm hiểu một số thuật toán cơ bản trong phân cụm dữ liệu.
e Ung dụng thuật toán K-Means trong bài toán phân loại kết
quả học tập của học sinh.
3 Phương pháp nghiên cứu:
Nghiên cứu các tài liệu về khai phá dữ liệu, kỹ thuật
phân cụm của các tác gia trong và ngoài nước, các bài báo, thôngtin trên mạng.
4 Đối tượng và phạm vi nghiên cứu:
e Đối tượng nghiên cứu: Các thuật toán cơ bản trong Khai phá
dữ liệu, đi sâu nghiên cứu thuật toán phan cụm dữ liệu.
e Phạm vi nghiên cứu: Nghiên cứu thuật toán K-means, sử
dụng đữ liệu của học sinh trường THPT Hà Đông để xây
dựng bai toán.
5 Cau trúc luận văn gồm 3 chương:
Chương 1: Tổng quan về khai phá và phân cụm dit liệu
Ở Chương 1, luận văn giới thiệu một cách tổng quát về quá
trình khám phá tri thức và khai phá dữ liệu Các phương pháp,
lĩnh vực và các hướng tiếp cận trong khai phá đữ liệu.
Phần tiếp theo của luận văn sẽ trình bay khái niệm và mục tiêu của phân cụm dữ liệu, các yêu cầu, ứng dụng cũng như các
thách thức mà phân cụm dữ liệu đang gặp phải.
Trang 5Chương 2: Thuật toán phần cụm K-means
Trong Chương 2, luận văn sẽ trình bày về thuật toán phân cụm dữ liệu K-means, một số ví dụ minh họa về thuật toán, ứng dụng và một số bién thé của thuật toán
Chương 3: Ứng dụng phân cụm kết quả học tập của học
sinh trường THPT Hà Đông
Chương 3 sẽ trình bày về bài toán phân cụm kết quả học tập
của học sinh trường THPT Hà Đông Cài đặt và thử nghiệm
chương trình ứng dụng, từ đó luận văn đưa ra một số phân tích, đánh giá từ kết quả thu được sau phân cụm và hiệu quả của
chương trình.
Trang 6CHƯƠNG 1: TONG QUAN VE KHAI PHA VÀ PHAN
CUM DU LIEU
1.1 Khai pha dữ liệu và phát hiện tri thức
Khai phá dữ liệu bao hàm một loạt các kỹ thuật nhằm phát
hiện ra các thông tin có giá trị tiềm ẩn trong các tập dit liệu lớn.
Về ban chất, khai pha dit liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính
quy trong tập dữ liệu.
Khai phá tri thức là mục tiêu chính của khai phá dữ liệu,do vậy hai khái niệm đó được xem như hai lĩnh vực tương đương
nhau Nhưng nếu phân chia một cách tách bạch thì khai phá dữ
liệu là một bước chính trong quá trình Khai phá tri thức.
1.1.1 Quá trình khám pha tri thức và khai pha dữ liệu
Quá trình khám pha tri thức tiễn hành qua 6 giai đoạn
- Gom dt liệu.
- Trích lọc dtr liệu.
- _ Làm sạch, tiền xử lý và chuẩn bị trước đữ liệu.
- — Chuyên đổi dữ liệu.
- Khai pha dữ liệu.
- _ Đánh giá các luật và biểu diễn tri thức.
Quá trình khai phá dữ liệu bao gồm các bước chính được
thể hiện:
- _ Xác định nhiệm vu.
Trang 7- _ Xác định các dữ liệu liên quan.
- Thu thập và tiền xử lý dữ liệu.
- Thuật toán khai phá dữ liệu.
1.1.2 Chức năng chính của khai pha dit liệu
- M6 tả lớp và khái niệm:
- Phan tích sự kết hợp
- Phan lớp và dự bao.- Phân cụm.
- Phan tích các đối tượng ngoại lai.
- Phan tích sự tiến hoá.
1.1.3 Các kỹ thuật áp dụng trong khai pha dữ liệu
+ Đứng trên quan điểm của học máy, bao gồm:
- Hoc có giám sat.
- Hoc không có giám sat.- Hoc nwa giam sat.
+ Nếu căn cứ vào lớp các bài toán cần giải quyết:
1.1.4 Ung dụng của khai phá dữ liệu
- Phan tích dữ liệu và hỗ trợ ra quyết định
- Phân lớp văn bản, tóm tắt văn bản, phân lớp các
trang Web và phân cụm ảnh màu
Trang 8- Chuan đoán triệu chứng, phương pháp trong điều trị y
- Tim kiếm, đối sánh các hệ Gene va thông tin di
truyén trong sinh hoc
- Phan tích tinh hình tài chính, thị trường
- Phan tích dữ liệu marketing, khách hàng.
- _ Điều khiến và lập lịch trình - Bao hiểm
- Giáo duc
1.2 Kỹ thuật phân cụm trong khai phá dữ liệu
1.2.1 Tổng quan về kỹ thuật phân cụm
Phan cum df liệu là qua trình nhóm một tập các đối tượng
tương tự nhau trong vào các cụm Phân cụm dữ liệu không đòi
hỏi phải định nghĩa trước các mẫu đữ liệu huấn luyện Vì thế, có
thể coi phan cum dir liệu là một cách học băng quan sát, trong khi
phân lớp dữ liệu là học bằng ví dụ
Mục tiêu của phân cụm là xác định được bản chất nhóm trong tập dữ liệu chưa có nhãn Nó có thê được chỉ ra rằng không có tiêu chuẩn tuyệt đối “tốt” mà có thê không phụ thuộc vào kết quả phân cụm Vì vậy, nó đòi hỏi người sử dụng phải cung cấp tiêu chuẩn này, theo cách mà kết quả phân cụm sẽ đáp ứng yêu
`^
cau.
Trang 91.2.2 Ứng dụng của phân cụm dữ liệu
- Thuong mai.- Sinh học.
- Thu viện.
- Bao hiém.
- Quy hoạch đô thi.
- Nghién cứu địa chấn.
- WWW.
1.2.3 Cac yêu cau doi với kỹ thuật phân cụm dữ liệu
- Có khả năng mở rộng.
- Khả năng thích nghi với các kiểu thuộc tính khác nhau - Khám phá các cụm với hình dang bat kỳ.
- Tối thiểu lượng tri thức cần cho xác định các tham số đầu
- Khả năng thích nghi với dữ liệu nhiễu.
- It nhạy cảm với thứ tự của các dữ liệu vao.
- Số chiều lớn.
- Phân cụm ràng buộc.
- Dễ hiểu và dé sử dụng.
1.2.4 Các kiểu dữ liệu và độ do tuong tự
a Phân loại kiểu dữ liệu dựa trên kích thước miễn
- Thuộc tính liên tục.- Thuộc tính rời rạc.
Trang 10b Phân loại kiểu dữ liệu dựa trên hệ đo
Tóm lại khai phá dữ liệu là một lĩnh vực khoa học mới
xuất hiện, nhằm tự động hóa khai thác những thông tin, tri thức
hữu ích, tiềm ân trong các cơ sở dữ liệu, giúp chúng ta giải quyết
tình trạng ngày một gia tang trong những năm qua: “Ngập trong
dit liệu mà van đói tri thức” Các kết quả nghiên cứu cùng với
những ứng dụng thành công trong khai pha dữ liệu, khám pha tri
thức cho thay khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu thế hơn hắn so với
các công cụ phân tích dữ liệu truyền thống.
Trang 11CHƯƠNG 2: THUẬT TOÁN PHAN CUM K-MEANS
2.1 Giới thiệu về thuật toán
Thuật toán này dựa trên độ đo khoảng cách của các đối tượng dữ liệu trong cụm Trong thực tế, nó đo khoảng cách tới giá trỊ trung bình của các đối tượng dữ liệu trong cụm và được
xem như là trung tâm của cụm
Thuật toán K-means bao gôm các bước cơ bản sau:
INPUT : Số cụm k và các trọng tâm cụm {m¡}X~¡.
OUTPUT: Các cụm C[i] (1 < i < k) và hàm tiêu chuẩn E dat giá trị tối thiểu.
Bước 1: Khởi tạo
Chọn k trọng tâm {m;}*-¡ ban đầu trong không gian Ra (d là số
chiều của dt liệu) Việc lựa chọn này có thể là ngẫu nhiên hoặc
theo kinh nghiệm.
Bước 2: Tính toán khoảng cách
Đối với mỗi điểm Xi (J <i <n), tính toán khoảng cách của
nó tới mỗi
trọng tâm m; (¡ <j < #) Sau đó tìm trọng tâm gần nhất đối với
mỗi điểm.
Bước 3: Cập nhật lại trọng tâm
Đối với mỗi / < J <k, cập nhật trọng tam cụm mị băng cách xá c định trung bình cộng các véctơ đối tượng dtr liệu
Trang 12Điều kiện dừng:
Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi.
2.2 Đánh gia về thuật toán e© Uu điểm:
- K-means phân tích phân cụm đơn giản nên có thê áp dụng
đối với tap dé liệu lớn.
- Đơn giản, đễ hiểu, tương đối hiệu quả.
- Các đối tượng tự động gán vào các nhóm
- Thường đạt được tối ưu cục bộ.
e Nhược điểm:
- K-means không khắc phục được nhiễu và giá trị k phải
được cho bởi người dùng.
- Chỉ thích hop áp dụng với dữ liệu có thuộc tính số và khám phá ra các cụm có dang hình cầu.
2.3 Một số biến thé của thuật toán K-MEANS
2.4.1 Thuật toán K-Medoids
Thuật toán K-Medoids [1]: có kha năng khắc phục được
nhiều băng cách chọn đỗi tượng ở gần tâm cụm nhất làm đại diện
cho cụm đó K - medoid tỏ ra hiệu quả hơn K-means trong trường
hợp đữ liệu có nhiễu hoặc đối tượng ngoại lai Nhưng so với
K-means thì K-medoid có độ phức tạp tính toán cao hơn Cả hai
thuật toán trên đều có nhược điểm chung là số cụm được cung
câp bới người dùng.
Trang 132.4.2 Thuật toán Fuzzy C- Mean
= Fuzzy C-Means (FCM ) [1]: là một phương pháp của
phân nhóm cho phép một phan dữ liệu thuộc về hai hoặc nhiều
= Thường được sử dung trong nhận dạng mẫu
2.4.3 Thuật toán Incremental K - Means
Thuật toán Incremental K-means cơ bản van dựa trên
thuật toán K-means nhưng sẽ không chọn k điểm làm trọng tâm cho k cụm mà sẽ tăng số cụm từ 1 lên k cụm bằng cách đưa trung tâm cụm mới vào cụm có độ méo dạng lớn nhất (tăng SỐ cụm) và
tính lại trọng tâm các cụm.
2.4 Kết luận
Qua phân tích ta có thể rút ra kết luận: thuật toán phân
cụm dữ liệu K-means, dựa trên độ đo khoảng cách Euclide giữa
các đối tượng dữ liệu trong cụm Trong thực té, khoảng cach tới giá tri trung bình của các đối tượng dữ liệu trong cụm được xem như là trung tâm của cụm Thông qua đó nó lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tâm gần và tính toán tại tung tâm của mỗi cụm trên cơ sở gán mới cho các đối tượng.
Chương 2 cũng nêu lên ưu nhược điểm của thuật toán K-means và một số biến thê của thuận toán như: K-Medoids, Fuzzy
C-Mean, Incremental K-means.
Trang 14CHƯƠNG 3: UNG DUNG PHAN CUM KET QUA
HOC TAP CUA HOC SINH TRUONG THPT HA DONG
3.1 Mô tả bài toán
Dựa trên điểm trung bình của từng môn học, điểm trung
bình từng học kỳ, cả năm của từng học sinh, từng lớp, từng
khối Chương trình sẽ tiến hành gom cum di liệu nhằm phân tích điểm số để giúp cho Ban giám hiệu, các nhà quản lý giáo dục có thêm cơ sở để đánh giá đúng dan nhất, chính xác nhất về tình hình học tập của học sinh, hoạt động giảng dạy của giáo viên từ đó dé ra định hướng, hoạch định cho nhà trường trong việc nâng cao chất lượng giáo dục.
Với bài toán đặt ra, việc phân tích, thiết kế và xây dựng
CSDL phải đáp ứng các chủ đề như trên nhưng điểm trung bình
môn học của học sinh là quan trọng nhất vì học sinh có kết quả học tập tốt sẽ thúc đây sự phát triển của nhà trường, động cơ học
tập của học sinh và giảng dạy của giáo viên.
Yêu cầu của hệ thống
Bài toán đặt ra đối với hệ thông cơ sở đữ liệu là phân tích số
liệu theo một số chủ đề quan tâm, nhằm nâng cao chất lượng
giảng dạy và học tập của học sinh như :
+ Kết quả học tập của học sinh: Giỏi, khá, trung bình, yếu,
+ Sự phân công giáo viên ảnh hưởng đến kết quả đó như thế
nào.
Trang 15+ So sánh kết quả học tập của từng Khối, Lớp để đưa ra
những giải pháp nâng cao chất lượng dạy và học.
+ Định hướng cho học sinh Khối 12 thi tốt nghiệp cũng như
chọn khối thi đại học
Mô tả về chương trình
Chương trình được xây dựng bằng ngôn ngữ ngôn ngữ lập
trình C#, hệ quan tri cơ sở dữ liệu SQL Server 2012 và công cụ hỗ
trợ lập trình Microsoft Visual Studio 2012.
+ Dữ liệu dau vao: là các tệp kết quả hoc tập của các lớp
trong trường được lưu trữ ở dạng bảng tính Excel.
+ Dữ liệu đâu ra: kêt quả phân cụm được hiện thị trên man
hình hoặc xuât ra Excel đê tiện cho việc phân tích và báo cáo.
Một số tệp mã nguồn của chương trình:
- Main.cs: Giao diện chính của chương trình.
- ImportData.cs: Xử lý việc cập nhật các tệp dữ liệu vào
cơ sở dữ liệu chung
- Phancum.cs: Phân cụm băng thuật toán K-Means - Ketqua.cs: Dua ra kết quả sau khi phân cum
- ExcelTool : Dua kết quả bằng tệp excel
Chương trình sẽ tiễn hành cập nhật dữ liệu từ các tệp kết quả
học tập của học sinh sau đó sẽ tiễn hành việc phân cụm rỗi đưa ra
kết quả.
Tâm cụm sẽ được gan lân lượt tăng dân cho đên khi lựa chọn
được kết quả tốt nhất, phù hợp với yêu cầu của việc đánh giá.
Trang 163.2 Cac bước áp dụng thuật toán K-means vào bài toán
Hình 3.1 Các bước phân cụm kết quả học tập của học sinh
3.2.1 Tiền xử lý dữ liệu
Cập nhật và bồ Sung điểm của học sinh: Được thực hiện sau khi giáo viên chủ nhiệm hoàn thành việc tổng kết điểm học
kỳ cho học sinh Dữ liệu sẽ được tập hợp và cập nhật vào cơ sở
dir liệu chung.
Loại bỏ đữ liệu thừa: Đối với những môn hoc không thực
hiện phân cụm có thé được loại bỏ, ví dụ: Công nghệ, Thể dục,
Quan sự
Các bước thục hiện :
+ Bước 1 : Nhận kết qua học tập của học sinh (của từng
giáo viên bộ môn hoặc giáo viên chủ nhiệm).
+ Bước 2 : Tiến hành kiểm tra tính chính xác của dữ liệu VD: ngày sinh, lớp, điểm Trung bình của môn học Có 2 trường
hợp thường xảy ra :
Trang 17- _ Ngày sinh : phải được nhập đúng định dạng : dd/mm/yyyy.
- Thiéu điểm trung bình: trường hợp này có thé yêu cầu Giáo
viên bộ môn trực tiêp bô xung.
+ Bước 3 : Tính điểm Trung bình học kỳ hoặc năm học cho
tất cả các lớp Tiến hành loại bỏ các môn học không thực
hiện phân cụm.
3.2.2 Biểu diễn dữ liệu
Sau khi có Bảng điểm của các lớp học Chúng ta sẽ tiễn
hành cập nhật vào CSDL chung.
` a
DỮ LIỆU PHÂN TÍCH Khối: +
1 of 319 | bị
| sr MaHs Ho Ten Lop Khoi Gi*
> hi HD13001 | BÙI TRANG | ANH |A1 l1o [NC
2 | HD13002 ĐỒ THỊ HOÀ | ANH A1 10 No
3 | HD13003 | HOANG PHU LẠNH |A1 lio [Nữ4 | HD13004_ |LÊ Đức LANH lai l1o EE5 | HD13005 | Tạ THỊ PHUq TA THỊ PHƯƠNG | laa lo [Ne
6 | HD13006 [Lưu NGOC BÍCH lat [10 [Ne
|7 (HD13007 | NGUYEN HAD | CHI [At l1o [Ne
8 |HD13008 |NGUYEN THI DỤNG [A1 |10 [Ne
9 HD13009 LE TRUNG DŨNG A1 10 Ne
10 | HD13010 | TRẦN VĂN |DŨNG laa lo [Ne11 (HD13011 ¡VŨ THÀNH (ĐẠT Ï |A1 lio ÍN¿12 (HD13012 ¡DƯƠNG CẦN [puc lAi lo [Ne
; 1¬ _ liimian12a "M- WER Tor Í mi aq 3n Kell
4 | THỊ | l2
Tập tin dữ liệu: [⁄i xóa dữ liệu cũ | Cập nhật vào CSDL | | ThoátE\LUAN_VAN\Diem_TK_10.xIsx
Trong phân này tác giả sẽ đưa ra một sô kêt quả phân cụmtheo năm học và môn học của học sinh.
3.3.1 Một số kết qua phân cụm theo năm học - Khối 10
Trang 18HD13017 | NGUYEN VIỆT HOA A1 78HD13020 |NGUYỄN NGỌC LINH |AL 78
HD13024 |NGHIEM MINH PHƯƠNG | AL 8
Hình 3.5 Màn hình Kết quả phân cụm - Khối 10
(SỐ lượng hoc sinh Khoi 10: 319 học sinh, chia thành 6 cum)
KET QUA PHAN CUM
THONG SỐ CÁC CUM Tổng số lần lặp: 4 CHI TIẾT CỤM
Hình 3.6 Màn hình Kết quả phân cụm - Khối II
(Số lượng học sinh Khối 11: 334 học sinh, chia thành 7 cụm.) * Khối 12
Trang 19HD11033 | NGUYEN ĐỨC TÀI |A1 6.2HD11037 | DOAN THU THUY A1 6
HD11043 | PHAM THANH TÙNG A1 61
HD11045 | NGUYEN THỊ QUỲNH ANH | [5.9
HD11046 | PHAM VAN ANH Ệ 6.1
HD11057 _ LE THỊ THANH GIANG 6HD11061 BÙI ĐỨC HUNG 58
unting? — ÍNESLIVỄNE niqac VLIARILL 5a
HOP THEO LOP
Tổng số HS 374
Số HS của cụm 51
Tổng TB nhỏ nhất 5.4Tổng TB lớn nhất 6.2
Hình 3.7 Màn hình Kết quả phân cụm - Khối 12
(Số lượng học sinh Khối 12: 374 học sinh, chia thành 6 cụm) 3.3.2 Một số kết qua phân cụm theo môn học
¢ Khôi T0
3G) Kết que phon cum ¬ ee
KET QUA PHAN CUM
THONG SỐ CÁC CUM Tổng số lần lặp: 7 CHI TIẾT CỤM
HD13019 | NGUYEN QUANG HUY |A1 3
HD13045 TRINH THINGOC ANH A2 — 41