Ngơn ngữ truy vấn khai phá dữ liệu

Một phần của tài liệu Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT (Trang 42)

M ăĐ U

7. Bố cục ca luận văn

2.2.2. Ngơn ngữ truy vấn khai phá dữ liệu

Ngơn ngữ Data Mining Extensions - DMX là ngơn ngữ cĩ thể cho phép chúng ta sử dụng để t o và làm việc với các mơ hình khai phá dữ liệu t ơng tác với MicroSoft SQL Server 2008 R2 Analysis Services. Ta cĩ thể sử dụng DMX t o cấu trúc cho các

mơ hình khai phá dữ liệu mới dùng để huấn luyện, qu n lý và dự đốn. Ngơn ngữ

DMX bao gồm các câu lệnh định nghĩa dữ liệu (Data Definition Language - DDL),

câu lệnh thao tác dữ liệu (Data Manipulation Language - DML), các hàm và các tốn

tử. Ngơn ngữ DMX là phần m rộng c a SQL, về cơ b n hệ thống các câu lệnh giống

với ngơn ngữ T-SQL.

Ngơn ngữ định nghĩa dữ liệu - DDL: Trong ngơn ngữ DMX để t o cấu trúc cho các mơ hình khai phá dữ liệu, câu lệnh th ng dùng đĩ là: CREATE MINING STRUCTURE, ALTER MINING STRUCTURE…

- LệnhCREATE MINING STRUCTURE

Ý nghĩa:T o mới một mơ hình khai phá dữ liệu

Cú pháp:

CREATE [SESSION] MINING STRUCTURE <structure> (

[(<column definition list>)] )

[WITH HOLDOUT (<holdout-specifier> [OR <holdout-specifier>])] <holdout-specifier>::= <holdout-maxpercent> PERCENT | <holdout-maxcases>

CASES

Trong đĩ:

< structure> : cấu trúc mơ hình

< column definition list> : danh sách các thuộc tính, ngăn cách b i dấu phẩy

< holdout-maxpercent> : tỉ lệ phần trăm dùng để huấn luyện mơ hình

< holdout-maxcases> : tỉ lệ phần trăm dùng để kiểm tra mơ hình

- LệnhALTER MINING STRUCTURE

Ý nghĩa:T o mơ hình khai phá dữ liệu mới dựa trên cấu trúc mơ hình đư cĩ.

Cú pháp:

ALTER MINING STRUCTURE <structure> ADD MINING MODEL <model>

(

<column definition list> )

USING <algorithm> [(<parameter list>)]

[WITH DRILLTHROUGH] [,FILTER(<filter criteria>)]

Trong đĩ:

< structure> : tên cấu trúc mơ hình < model> : tên mơ hinh khai phá dữ liệu

< column definition list> : danh sách các thuộc tính, ngăn cách b i dấu phẩy

< algorithm> : thuật tốn đ a vào mơ hình

Ngơn ngữ thao tác dữ liệu - DML: Trong DMX câu lệnh SELECT dùng để thực

hiện truy vấn dữ liệu.Tùy theo các yêu cầu truy vấn mà ta sử dụng câu lệnh SELECT

để dự đốn các mơ hình khai phá dữ liệu.Truy vấn dự đốn sử dụng một hình th c

chọn để dự đốn dựa trên các mơ hình khai thác hiện cĩ.[10]

Cú pháp các câu lệnh đ ợc dùng để thao tác dữ liệu trong DMX là:

-Câu lệnh truy vấn:

SELECT [FLATTENED] [TOP <n>] <expression list> FROM <model>.CONTENT

[WHERE <condition expression>] [ORDER BY <expression> [DESC|ASC]]

Trong đĩ:

< n> : tr về số dịng (khơng bắt buộc)

< expression list> : danh sách các cột thuộc tính

< model> : tên mơ hình

< condition expression> : biểu th c điều kiện (khơng bắt buộc)

< expression> : chọn thuộc tính để sắp xếp tăng hay gi m dần

SELECT t.[MaHS], Predict([Tree PTFBHS].[Ketqua HT]), PredictProbability([Tree PTFBHS].[Ketqua HT]) From [Tree PTFBHS] PREDICTION JOIN OPENQUERY([DS_PTFBHS], 'SELECT

[MaHS], [ThoigianOLTB], [MucdoOL], [SolanOLGT], [SolanOLGLKB], [SolanOLHT], [KetquaHT]

FROM

[dbo].[Tbl_PTFBHS] ') AS t

ON

[Tree PTFBHS].[Thoigian OLTB] = t.[ThoigianOLTB] AND [Tree PTFBHS].[Mucdo OL] = t.[MucdoOL] AND

[Tree PTFBHS].[Solan OLGT] = t.[SolanOLGT] AND

[Tree PTFBHS].[Solan OLGLKB] = t.[SolanOLGLKB] AND [Tree PTFBHS].[Solan OLHT] = t.[SolanOLHT] AND

[Tree PTFBHS].[Ketqua HT] = t.[KetquaHT]

- Câu lệnh cập nhật dữ liệu cho mơ hình:

INSERT INTO [MINING MODEL]|[MINING STRUCTURE]

<model>|<structure>.COLUMN_VALUES (<mapped model columns>) <source data query>

Trong đĩ:

< model> : tên mơ hình

< structure> : tên cấu trúc mơ hình

< mapped model columns> : cột mơ hình đ ợc ánh x < source data query> : Dữ liệu nguồn

- Câu lệnh sửa chữa cơ sở dữ liệu cho mơ hình:

UPDATE <model>.CONTENT SET NODE_CAPTION='new caption' [WHERE <condition expression>]

- Câu lệnh xĩa mơ mình cấu trúc mơ hình:

DELETE FROM [MINING MODEL] <model>[.CONTENT]

DELETE FROM [MINING STRUCTURE] <structure>[.CONTENT]|[.CASES]

2.3. ng d ng k thu t cây quy tăđ nh và lu t k t h p đ xây d ng mơ hình

2.3.1.1. Phát biu bài tốn

Trong kho dữ liệu l u trữ các thơng tin về hành vi sử dụng Facebook và kết qu

học tập năm học tr ớc đĩ c a học sinh mà luận vănđư kh o sát, hệ thống cĩ nhiệm vụ

phân tích và đ a ra các mơ hình phân lớp dữ liệu theo yêu cầu. Dựa trên các mơ hình

đư đ ợc xây dựng, tri th c đ ợc phát hiện và đ a ra một số luật m nh. ng dụng tri

th c đ ợc phát hiện từ các mơ hình, ch ơng trình hệ thống dự đốn kết qu học tập

đ ợc xây dựng nhằm hỗ trợ học sinh dự đốn kết qu học tập cuối năm c a mình. Vì

vậy, học sinh cĩ thể biết đ ợc việc sử dụng Facebook cĩ nh h ng đến kết qu học

tập hay khơng, từ đĩ cĩ những điều chỉnh về hành vi sử dụng Facebook cho phù hợp,

chẳng h n: sử dụng đúng mục đích, cĩ chừng mực...

Dữ liệu đầu vào:

Dữ liệu đầu vào gồm các thuộc tính mơ t thơng tin cá nhân c a học sinh: họ tên, giới tính, dân tộc, học lớp, kết qu học tập c a năm học tr ớc liền kề; các thuộc tính mơ t hành vi Facebook: Ph ơng tiện dùng để online Facebook, th i điểm online, th i gian online trung bình, m c độ online th ng xuyên, mục đích online (kết b n, chia sẻ thơng tin, trao đổi học tập, gi i trí, tán gẫu…)

Dữ liệu đầu ra:

Đ a ra mơ hình cây quyết định dự đốn năng lực học tập c a học sinh THPT. 2.3.1.2. Ph m vi bài tốn

Dữ liệu bài tốn là tập dữ liệu mơ t thơng tin lý lịch cá nhân, hành vi sử dụng Facebook và kết qu học tập cuối năm c a học sinh các tr ng THPT trên địa bàn thành phố Kon Tum, trong luận văn này tác gi tr ng cầu ý kiến c a học sinh hai tr ng THPT trên địa bàn thành phố Kon Tum: Tr ng THPT Phan Bội Châu và

Tr ng THPT Duy Tân.

2.3.2. Quy trình xây dng mơ hình khai phá d liu

2.3.2.1. Thu thp và tin x lý d liu

Dữ liệu thu thập đ ợc gần 730 mẫu kh o sát bằng phiếu tr ng cầu ý kiến (phụ

lục 1) c a học sinh hai tr ng THPT Phan Bội Châu và tr ng THPT Duy Tân

thành phố Kon Tum trong năm học 2018-2019 và 2019-2020.

Dữ liệu ban đầu gồm rất nhiều thuộc tính, sau khi thu thập, tiến hành tiền xử lý

dữ liệu bằng cách: lo i bỏ các dữ liệu bị thiếu, khơng phù hợphoặc trùng lặp, chuyển

đổi dữ liệu về d ng phù hợp. Sử dụng ph ơng pháp trích chọn thuộc tính để đánh giá

m c độ nh h ng c a các thuộc tính cĩ liên quan đến hành vi sử dụng Facebook c a

học sinh, mơ hình xác định đ ợc các thuộc tính cĩ cấu trúc nh B ng 2.3 và đ ợc mơ

t dữ liệu B ng 2.4 với mục đích xây dựng mơ hình cây quyết định và luật kết hợp

B ng 2.3 - Cấu trúc cơ sở dữ liệu để xây dựng mơ hìnhphân lớp

TT Tênăthu cătính Ki ud ăli u RƠngăbu c Mơăt

1 MaHS (PK) nvarchar(6) Not null Mư học sinh

2 Hoclop int Null Học lớp

3 Gioitinh nvarchar(3) Null Giới tính 4 Dantoc nvarchar(5) Null Dân tộc

5 ThunhapGD nvarchar(10) Null Thu nhập c a gia đình

6 PhuongtienOL nvarchar(20) Null Ph ơng tiện online Facebook 7 ThoidiemOL nvarchar(20) Null Th i điểm online Facebook 8 ThoigianOLTB nvarchar(15) Null Th i gian online trung bình 9 MucdoOL nvarchar(15) Null M c độ online

10 SolanOLGT int Null Số lần online để gi i trí

11 SolanOLGLKB int Null Số lần online giao l u kết b n 12 SolanOLHT int Null Số lần online phục vụ học tập 13 KetquaHT nvarchar(10) Null Kết qu học tập

2.3.2.2. Chun b d liu cho mơ hình

Dữ liệu lúc đầu đ ợc nhập vào b ng tính Excel, sau đĩ dùng ch c năng Import

c a SQL Server 2008 R2 để chuyển dữ liệu vào mơ hình CSDL. Dữ liệu đ ợc tổ ch c

d ới d ng cĩ thể sử dụng để khai phá bằng cơng cụ hỗ trợ BIDS. Tuy nhiên, đối với

dữ liệu cần thiết để thực hiện nghiên c u là hành vi sử dụng Facebook c a học sinh, ta

khơng thể liệt kê và gắn với mỗi học sinh bằng các câu truy vấn đơn gi n, vì vậy luận

văn đề xuất xây dựng một cơng cụ riêng để thực hiện dự đốn kết qu học tập bằng

ngơn ngữ lập trình C# và ASP.Net trong mơi tr ng MicroSoft Visual Studio.

Dữ liệu nguồn(Data Source) đ ợc chia làm 2 phần: một phần dùng để huấn luyện

mơ hình (Training Data) và một phần dùng để kiểm định mơ hình (Testing Data). Data Source: gồm 730 mẫu (Training Data: 70% , Testing Data: 30%)

Dữ liệu dùng để huấn luyện mơ hình đ ợc mơ t nh (B ng 2.4) d ới đây:

B ng 2.4 - Dữ liệu huấn luyện xây dựng mơ hình khai phá dữ liệu

2.3.2.3. Xây dng mơ hình

B ớc 1: Kh i động SQL Server Business Intelligence Development Studio trong MicroSoft SQL Server 2008 R2, sau đĩ t o một Project.

Hình 2.1 - Màn hình t o Project cho các mơ hình

B ớc 2: T o mới Data Source và Data Source View cho mơ hình:

Hình 2.2 - Cửa sổ Sulution Explore để t o CSDL nguồn và mơ hình

- Trong cửa sổ Solution Explorer, Right Click chuột lênth mục Data Source, rồi

chọn New Data Source

Hình 2.3 –Lựa chọn server name, mật khẩu, CSDL cho mơ hình

Hình 2.4 - Đặt tên và l u dữ liệu nguồn Data Source

T ơng tự nh Data Source, ta xây dựng Data Source View cho mơ hình:

- Trong cửa sổ Solution Explorer, Right Click chuột lên th mục Data Source View, rồi chọn New Data Source View.

- Chọn Next chọn b ng dữ liệu để t o Data Source View cho mơ hình

Hình 2.5 - Chọn b ng dữ liệuđể t o Data Source View

Hình 2.6 - Đặt tên và l u dữ liệu nguồn Data Source View

B ớc 3: Xây dựng mơ hình khai phá dữ liệu bằng kỹ thuật cây quyết định (MicroSoft Decition Trees) và luật kết hợp (MicroSoft Association Rules):

Structure chọn New Mining Structure  Next  Next

- Kích chọn MicroSoft Decition Trees kích chọn Next  Next  Next

Hình 2.7 - Lựa chọn mơ hình cây quyết định

Hình 2.9 - Kết qu tính Entropycho các thuộc tính

Dựa vào kết qu tính Entropy trên, ta thấy điểm số (Score) c a các thuộc tính:

SolanOLHT, SolanOLGT, MucdoOL, ThoigianOLTB, SolanOLGLKB cao hơn so với

những thuộc tính cịn l i, nghĩalà những thuộc tính này tác động m nh đến thuộc tính

dự đốn. Các thuộc tính cịn l i cĩ m c độ nh h ng đến thuộc tính dự đốnc a mơ

hình là khơng đáng kể.

Chính vì vậy, để tăng hiệu qu c a quá trình huấn luyện mơ hình, ta cĩ thể lo i

bỏ các thuộc tính này và chỉ chọn 5 thuộc tính cĩ số điểm cao nhất để làm thuộc tính

đầu vào xây dựng các mơ hình dự đốn kết qu học tập.

Sau đĩ chọn kiểu dữ liệu và kiểu nội dung cho mỗi thuộc tính.

Hình 2.10 - Chọn kiểu dữ liệu cho mơ hình + Discrete: Đối với những thuộc tính cĩ giá trị r i r c

+ Continuous: Đối với những thuộc tính cĩ giá trị liên tục + Key: Đối với những thuộc tính khĩa

Hoặc cĩ thể kích nút chọn Detect để thuật tốn tự động lựa chọn kiểu tốt nhất cho mỗi thuộc tính.

Phân chia dữ liệu để xây dựng mơ hình (Training set) và kiểm tra mơ hình (Testing set), dữ liệu để test mơ hình là 30%.

Hình 2.11 - Phân chia dữ liệu để huấn luyện và test mơ hình

Hình 2.12 - Đặt tên cho mơ hình cây quyết định

Tiếp tục t i Tab Mining Models, Right Click lên mục Structure và chọn New Mining Model… để tiến hành phân lớp dữ liệu bằng mơ hình luật kết hợp. Chọn mơ

hình luật kết hợp (MicroSoft Asciation Rules) và đặt tên cho mơ hình

Hình 2.13 –Xây dựngmơ hình luật kết hợptrên cấu trúc cĩ sẵn B ớc 4: Thực thi (deploy) thành cơng các mơ hình đư xây dựng.

Mơ hình cây quyết định

Hình 2.14 –ảiển thị mơ hình cây quyết định Tập luật (Li) rút ra từ mơ hình cây quyết định trên là: L1: IF (SolanOLGT = 0 and SolanOLHT = 3)

THEN KetQuaHT = Giỏi (xác suất dự đốn 95,4%)

L2: IF (SolanOLGT = 0 and SolanOLHT = 3 and MucdoOL = 'Hiếm khi')

THEN KetQuaHT = Giỏi (99,8%)

L3: IF (SolanOLGT = 1 and MucdoOL = 'Thỉnh tho ng' and SolanOLHT = 2) THEN KetQuaHT = Khá (94,8%)

L4: IF (SolanOLGT = 1 and MucdoOL <> 'Th ng xuyên') THEN KetQuaHT = Trung bình (73,0%)

L5: IF (SolanOLGT = 1 and ThoigianOLTB <> 'Nhiều hơn 3h' and MucdoOL

L6: IF (SolanOLGT = 2 and SolanOLHT = 0) THEN KetQuaHT = Trung bình (91,8%) L7: IF (SolanOLGT = 2 and SolanOLHT <>2)

THEN KetQuaHT = Khá (97,6%)

L8: IF (SolanOLGT = 2 and SolanOLHT = 0 and SolanGLKB=3) THEN KetQuaHT = Trung bình (98,0%)

L9: IF (SolanOLGT = 3 and SolanOLHT = 0 ) THEN KetQuaHT = Trung bình (99,5%) L10: IF (SolanOLGT = 3 and SolanOLHT <> 0) THEN KetQuaHT = Trung bình (86,3%)

Mơ hình cây quyết định cũng cho biết m c độ nh h ng c a từng thuộc tính đối

với kết qu học tập c a học sinhnh (hình 2.15, b ng 2.5) d ới đây:

Hình 2.15 - M ng phụ thuộcc a mơ hình cây quyết định B ng 2.5 - M c độ nh h ởng trong mơ hình cây quyết định

Cácăthu cătính M căđ ă nhăh ng (tĕngăd n)

Số lần online giao l u kết b n 1

Th i gian online trung bình 2

M c độ online 3

Số lần online gi i trí 4

Mơ hình luật kết hợp

Hình 2.16 - ảiển thị mơ hình luật kết hợp

Probability: Cho biết xác suất x y ra c a luật.

Importance: Đo l ng tính hữu dụng c a luật, giá trị này càng cao thì luật càng m nh.

Rules: Thể hiện các luật kết hợp d ới d ng X  Y

Các luật này cho biết sự kết hợp giữa các đối t ợngtrong c s dữ liệu giao dịch.

Chẳng h nluật kết hợp th 2 cho ta biết rằng nếu một học sinh nào đĩ sử dụng Facebook khơng nhằm mục đích gi i trí (0 lần) mà chỉ quan tâm đến việc học tập (3 lần) thì dự đốn kết qu học tập là Giỏi, với xác suất (độ tin cậy) 96,0%.

Nh vậy, từ mơ hình luật kết hợp đư xây dựng, phát hiện tri th c về mối quan hệ

giữa các thuộc tính liên quan đến hành vi sử dụng Facebook nh h ng đến kết qu

học tập c a học sinh. Tập luật (Li) rút ra từ mơ hình luật kết hợp trên là:

L1: Nếu học sinh dùng Facebook khơng nhằm mục đích học tập mà chỉ để gi i

trí, chơi gamethì kết qu học tập Trung bình, với độ tin cậy 96,7%.

L2: Nếu học sinh dùng Facebook m c độ online th ng xuyên thì kết qu học

tập Trung bình, với độ tin cậy 90,1%.

L3: Nếu học sinh dùng Facebook khơng nhằm mục đích gi i trí mà chỉ quan tâm

đến học tập thì kết qu học tập Giỏi, với độ tin cậy 96,0%.

L4: Nếu học sinh dùng Facebook chỉ với mục đích học tập và th i gian online „ít

hơn 1h‟ hoặc „hiếm khi‟ online thì kết qu học tập Giỏi, với độ tin cậy 90,4%.

L5: Nếu học sinh dùng Facebook chỉ vớimục đích học tập với số lần online bằng

2 thì kết qu học tập Khá, với độ tin cậy 82,7%.

Ngồi ra, mơ hình luật kết hợp cũng cho biết m c độ nh h ng c a từng thuộc tính đối với kết qu học tập c a học sinh nh (hình 2.17, b ng 2.6) d ới đây:

Hình 2.17 - M ng phụ thuộcc a mơ hình luật kết hợp B ng 2.6 - M c độ nh h ởng trong mơ hình luật kết hợp

K tăqu ăh căt p Y uăt ăph ăthu c M căđ ă

Trung bình

SolanOLHT = 1 1

SolanOLGLKB = 3 2

ThoigianOLTB = 'Nhiều hơn 3h' 3

SolanOLGT = 3 4 SolanOLHT = 0 5 MucdoOL = 'Th ng xuyên' 6 Khá SolanOLGLKB = 1 1 SolanOLGT = 1 2 ThoigianOLTB = 'Từ 1h-3h' 3 SolanOLGT = 2 4 MucdoOL = 'Thỉnh tho ng' 5 SolanOLHT = 2 6 Giỏi SolanOLGLKB = 0 1 ThoigianOLTB = 'Ít hơn1h' 2

MucdoOL = 'Hiếm khi' 3

SolanOLHT = 3 4

SolanOLGT = 0 5

2.3.2.4. Đánh giá, kiểm định mơ hình

Để đánh giá hiệu qu c a các mơ hình khai phá dữ liệu, chúng ta cĩ thể căn c vào nhiều tiêu chí khác nhau nh : Tính chính xác (Accuracy), tính ổn định, tính hữu dụng… Trong đĩ, tính chính xác là tiêu chí đ ợc đánh giá đầu tiên b i tầm quan trọng

ng i ta th ng căn c vào hai cơng cụ là Lift chart và Confusion matrix. Ph ơng pháp đánh giá này sử dụng Testing data (là dữ liệu đ ợc tách ra từ Training dataset

ban đầu và Testing data khơng đ ợc dùng vào quá trình xây dựng mơ hình, t c là một

mẫu dữ liệu thuộc Testing data thì khơng xuất hiện trong Training dataset). Trong khi Confusion matrix biểu diễn kết qu dự đốn d ới d ng ma trận so sánh giữa kết qu

Một phần của tài liệu Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT (Trang 42)

Tải bản đầy đủ (PDF)

(87 trang)