Luật kết hợp(Association Rule)

Một phần của tài liệu Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT (Trang 35)

M ăĐ U

7. Bố cục ca luận văn

1.3.2. Luật kết hợp(Association Rule)

1.3.2.1. Gii thiu

Bài tốn khai phá luật kết hợp đ ợc giới thiệu từ năm 1993 và nhận đ ợc sự quan tâm c a các nhà khoa học. Hiện nay việc khai thác các luật nh thế vẫn là một trong những ph ơng pháp khai thác mẫu phổ biến nhất trong việc khám phá tri th c,

khai thác dữ liệu. Trong KPDL mục đích c a luật kết hợp là tìm ra các mối quan hệ

giữa các đối t ợng trong khối l ợng lớn dữ liệu.

Nội dung cơ b n c a luật kết hợp đ ợc tĩm tắt nh sau:

Cho CSDL giao dịch T gồm tập các giao dịch t1, t2, …, tn. T = {t1, t2, …, tn} Mỗi giao dịch tibao gồm tập các đối t ợng I (gọi là itemset). I = {i1, i2, …, in} Một itemset gồm k itemsgọi là k-itemset.

Mục đích c a luật kết hợp là tìm ra sự kết hợp (t ơng quan) giữa các items. Một luật kết hợpcĩ d ng R: X  Y, trong đĩ X, Y là các tập mục, X, Y  I và X Y = .

Theo quan điểm thống kê, X đ ợc xem là biến độc lập (Independent variable)

cịn Y đ ợc xem là biến phụ thuộc (Dependent variable). [11]

1.3.2.2. Thut tốn Apriori  Ý t ởng thuật tốn Apriori

1. Sinh ra tất c các tập mục th ng xuyên m c 1 (1-itemsets)

2. Gán k = 1

3. Lặp l i, cho đến khi khơng cĩ thêm bất kỳ tập mục th ng xuyên nào mới.

- Từ các tập mục th ng xuyên m c k (ch a k-itemsets), sinh ra các tập

mục m c (k + 1) cần xét

- Lo i bỏ các tập mục m c (k + 1) ch a các tập con là các tập mục khơng

th ng xuyên m c k

- Tính độ hỗ trợ c a mỗi tập mục m c (k + 1), bằng cách duyệt qua tất c

các giao dịch

- Lo i bỏ các tập mục khơng th ng xuyên m c (k + 1)

- Thu đ ợc các tập mục th ng xuyên m c (k + 1)

Mơ t thuật tốn Apriori

Input:

Output:

- L - tập mục phổ biến trong D L1 = lager_1-itemsets(D); for (k = 1; Lk <> ; k++) {

Ck+1 = apriori_gen(Lk,min_sup); //t o ng viên phổ biếncĩ độ dài (k+1)

for each transaction t D do { //duyệt CSDL để đếm

Ct = subset (Ck+1, t); //lấy các tập con c a t là các ng viên

for each candidate c Ct c.count ++;

}

Lk+1 = {c  Ck+1 c.count  mimsup} }

return L = kLk;

1.3.2.3. Các tham s h tr trong thut tốn Apriori

Hai tham số quan trọng dùng để đánh giá, đo l ng luật kết hợp đĩ là độ hỗ trợ

(support) và độ tin cậy (confidence).

Độ hỗ trợ support c a luật kết hợp X  Y là tần suất c a giao dịch ch a tất c các items trong c hai tập X và Y.

Cơng th c để tính support c a luật X Y, nh sau: support (XY) = P (X  Y) = n X( Y)

N

Trong đĩ: n(X Y): số giao dịch ch a X và Y; N: là tổng số giao dịch.

Độ tin cậy confidence c a luật kết hợp X Y là xác suất x y ra Y khi đư biết X.

Cơng th c để tính confidence c a luật kết hợp X Y là xác suất cĩ điều kiện Y

khi đư biết X, nh sau:

Confidence (XY) = P (YX) = ( ) ( ) n X Y

n X

Trong đĩ: n(X Y): số giao dịch ch a X và Y;

n(X) là số giao dịchch a X

Để thu đ ợc các luật kết hợp, ta th ng áp dụng hai tiêu chí đánh giá nh trên: minimum support (min_sup) và minimum confidence (min_conf).

Các luật thỏa mưn cĩ support và confidence thỏa mưn (>=) c min_sup và min_conf gọi là các luật m nh (Strong Rule)

Min_sup và min_conf gọi là các giá trị ng ỡng (threshold) và ph ixác định tr ớc (tự cho) khi sinh các luật kết hợp.

Một itemsets mà tần suất xuất hiện c a nĩ (>=) min_sup gọi là tập phổ biến frequent itemsets. [11]

1.3.2.4. Ví d minh ha xây dng lut kết hp s dng thut tốn Apriori

Để minh họa xây dựng luật kết hợp sử dụng thuật tốn Apriori, ta chọn cơ s dữ

liệu gồm 10 mẫu tin mơ t hành vi sử dụng Facebook c a học sinh nh b ng 1.8

B ng 1.8 - Dữ liệu minh họa xây dựng mơ hình luật kết hợp

ID TGOLTB MucdoOL SLOLGT SLOLGLKB SLOLHT KetquaHT

1 Nhiều hơn 3h Th ng xuyên 3 2 0 Trung bình

2 Từ 1h-3h Thỉnh tho ng 0 1 3 Giỏi

3 Từ 1h-3h Thỉnh tho ng 0 0 2 Khá

4 Nhiều hơn 3h Th ng xuyên 2 3 0 Trung bình

5 Nhiều hơn 3h Thỉnh tho ng 2 2 1 Trung bình

6 Từ 1h-3h Thỉnh tho ng 2 1 3 Khá

7 Từ 1h-3h Thỉnh tho ng 1 0 2 Khá

8 Ít hơn 1h Hiếm khi 0 0 3 Giỏi

9 Ít hơn 1h Thỉnh tho ng 0 1 2 Khá

10 Ít hơn 1h Hiếm khi 0 0 2 Giỏi

Từ tập dữ liệu huấn luyện mơ hình, ta quét tồn bộcơ s dữ liệu 1st scan

Hình 1.9 - Quá trình xây dựng mơ hình luật kết hợp

Với min_sup = 30% và min_conf ≥ 75%, ta cĩ các luật rút ra nh (B ng 1.9)

B ng 1.9 - Tập luật rút ra từ mơ hình luật kết hợp

itemsets support(X,Y) support(X) confidence

{TGOLTB = 'Từ 1h - 3h', MucdoOL = 'Thỉnh tho ng'}  {KetQuaHT = 'Khá'} 30% 40% 75% {TGOLTB = 'Từ 1h - 3h'}  {KetQuaHT = 'Khá'} 30% 40% 75%

R1: IF (TGOLTB='Từ 1h-3h' AND MucdoOL='Thỉnh tho ng') THEN KetQuaHT='Khá' (độ tin cậy 75%)

R2: IF TGOLTB='Từ 1h-3h'' THEN KetQuaHT='Khá' (độ tin cậy 75%)

Các luật R1, R2 cĩ độ tin cậy (confidence) là 75%, điều này cĩ nghĩa là 75% học sinh với các thơng tin: th i gian online Facebook từ 1 gi đến 3 gi và thỉnh tho ng online Facebook thì dự đốn kết qu học tập hoặc nếu th i gian online Facebook từ 1

gi đến3 gi và ch yếu online để phục vụ việc học tậpthì dự đốn kết qu học tập là

lo i khá.

1.4. Ti u k tăch ngă1

Khai phá dữ liệu là một trong những lĩnh vực đư và đang tr thành h ớng nghiên c u thu hút đ ợc sự quan tâm c a nhiều chuyên gia về cơng nghệ thơng tin trên tồn thế giới. Điều này ch ng tỏ rằng những u thế, lợi ích và kh năng ng dụng thực tế to

lớn cu khai phá dữ liệu. Trong ch ơng này luận văn trình bày một số kiến th c tổng

quan về quá trình khám phá tri th c, những khái niệm và những kiến th c cơ b n nhất về khai phá dữ liệu để làm cơ s cho vấn đề nghiên c u ch ơng 2.

CH NGă2

PHÂN TÍCH NHăH NG C A FACEBOOK BNG MƠ HÌNH CÂY QUY TăĐ NH VÀ LU T K T H P

2.1. Th c tr ng s d ng Facebook c a h c sinh THPT Tp. Kon Tum 2.1.1. Thc tr ng s dng Facebook c a hc sinh THPT hin nay

Từ khi Internet xuất hiện cho đến nay đư mang l i nhiều thay đổi trong đ i sống,

kinh tế, xư hội nĩi chung. M ng máy tính ngày càng đ ợc m rộng, nhiều tiện ích trên m ng xư hội đư thu hút ng i sử dụng ngày càng nhiều, đặc biệt là l a tuổi học sinh THPT. tỉnh Kon Tum nĩi chung hiện nay l a tuổi học sinh THPT th ng sử dụng

điện tho i thơng minh để truy cập m ng xư hội, hiện t ợng này ngày càng tr nên phổ

biến. Qua kh o sát đối t ợng học sinh các tr ng THPT trên địa bàn thành phố Kon

Tum cho thấy phần lớn học sinh (97,6%) đều cĩ s hữu một tài kho n Facebook, một

số rất ít (2,4%) là khơng sử dụng Facebook.

2.1.1.1. Mục đích online Facebook c a hc sinh

Theo kh o sát, mặc dù mục đích sử dụng c a mỗi học sinh khi tham gia m ng xư

hội Facebook rất phong phú, rất đa d ng song cĩ một điểm chung là Facebook đ ợc

xem nh một phần quan trọng khơng thể thiếu trong cuộc sống hàng ngày c a các em. Kết qu lấy phiếu thăm dị cho thấy, học sinh sử dụng Facebook với nhiều mục đích khác nhau, song mục đích chiếm tỉ lệ cao nhất là: Tìm kiếm thơng tin phục vụ học tập (72,3%); Gi i trí, tán gẫu, chơi game (58,3%); Chia sẻ thơng tin (59,6%).

Cĩ thể nĩi, với nhiều tính năng, tiện ích và dễ dàng sử dụng nên m ng xư hội

Facebook đư đáp ng đầy đ mục đích nhu cầu c a mỗi học sinh. Vì vậy, Facebook đư

thu hút các b n trẻ online ngày càng nhiều. Thực tế cho thấy, các tr ng THPT trên

địa bàn thành phố Kon Tum, khi học sinh sử dụng m ng xư hội Facebook cũng cĩ sự

khác biệt:đĩ làkhác biệt về giới tính, trình độ…Theo đĩ, học sinh nữ dùng Facebook

nhiều hơn học sinh nam; học sinh lớp 10 dùng Facebook với mục đích gi i trí hơn là tìm hiểu tài liệu phục vụ học tập, ng ợc l i học lớp 12 dùng Facebook ch yếu là phục vụ việc học tập hơn là gi i trí, kết b n chia sẽ thơng tin điều này cũng dễ hiểu vì các em lớp 12 là năm cuối cấp nên các em quan tâm đến việc học tập để chuẩn bị dự thi tốt nghiệp phổ thơng quốc gia và thi tuyển sinh đ i học.

B ng 2.1 - Sự khác biệt vềgiới tính c a học sinh khi sử dụng Facebook

TT Ho tăđ ng Nam N

1 Tìm hiểu tài liệu phục vụ học tập 38,5% 61,5%

2 Gi i trí, tán gẫu, chơi games 38,9% 61,1%

B ng 2.2 - Sự khác biệt về trình độc a học sinh khi sử dụng Facebook

TT Ho tăđ ng L pă10 L pă11 L pă12

1 Tìm hiểu tài liệu phục vụ học tập 63,2% 70,6% 74,4%

2 Gi i trí, tán gẫu, chơi games 67,7% 52,7% 42,1%

3 Chia sẻ thơng tin, kết b n 65,0% 60,3% 45,2%

2.1.1.2. Ph ơng tiện, địa điểm online Facebook

Theo kết qu kh o sát, học sinh THPT cĩ xu h ớng online Facebook nhiều nhất thơng qua ph ơng tiện điện tho i thơng minh (71,7%). Bên c nh đĩ, cũng cĩ học sinh

online Facebook bằng các thiết bị khác nh : Laptop (19,4%), rất ít dùng máy tính để

bàn (8,9%)… điều này cho thấy điện tho i di động là ph ơng tiện thuận lợi nhất để

học sinh online Facebook mọi lúc, mọi nơicĩ kết nối m ng Internet.

Về địa điểm truy cập Facebook, phần lớn học sinh đ ợc kh o sát đều cho biết địa điểm online Facebook phổ biến nhất làkhi nhà (ngồi thời gian đến tr ờnghọc).

2.1.1.3. Thời điểm online Facebook

Qua kh o sát thăm dị, phần lớn học sinh cho biết th i điểm mà các em online

Facebook là khơng giống nhau, rất nhiều học sinh online bất c lúc nào khi nhà (47,7%), cĩ em online vào buổi tối khi đang học bài (25,6%), cũng khơng ít học sinh online tranh th gi nghỉ tr a (26,7%).

2.1.1.4. Thi gian online Facebook

Th i gian sử dụng Facebook c a học sinh cũng cĩ sự khác biệt do phụ thuộc vào

nhiều yếu tố chi phối nh : quỹ th i gian, th i điểm online, mục đích online… theo kết

qu kh o sát cho thấy về th i gian online Facebook trung bình trong ngày c amỗi học

sinh nh sau: Phần lớn học sinh online nhiều hơn 3 gi đồng hồ (32,8%), hoặc từ 1 gi đến 3 gi (36,3%), cũng cĩ khơng ít học sinh online d ới mộtgi (30,9%).

2.1.2. nh hưởng c a Facebook đến kết qu hc tp c a hc sinh

2.1.2.1. nh h ởng tích cc

Việc tìm kiếm thơng tin phục vụ học tập: Facebook cũng đĩng vai trị rất quan

trọng trong lĩnh vực giáo dục, học sinhcĩ thể truy cập Facebook để tìm thơng tin liên

quan đến mơn học, cĩ thể trao đổi bài tập với nhau, họcsinh cĩ thể trao đổi trực tuyến

thơng qua m ng Internetnh cĩ tài kho n Facebook. Điều này giúp học sinh tiết kiệm

rất nhiều th i gian hay dễ dàng trao đổi trực tuyến với giáo viên khi cĩ những câu hỏi, bài tập khĩcần đ ợc gi i đáp.[1]

Trao đổi vấn đề học tập thơng qua hệ thống Messenger c a ạacebook: Học sinh

cĩ thể dùng Messenger để t o nhĩm trao đổi vấn đề học tập một cách nhanh chĩng.

Với Messenger học sinh cĩ thể gửi tài liệu, liên l c với nhau bất kể th i gian và khơng gian khi cĩ kết nối m ng Internet.

văn hĩa học sinh cần ph i đ ợc giáo dục kỹ năng sống, kỹ năng giao tiếp, ng xử hằng ngày. Vì vậy, học sinh cĩ thể biết đ ợc nhiều thơng tin về b n bè hoặc ng i thân

bằng cách kết b n, chia sẻ thơng qua Facebook. Học sinh cũng cĩ thể gặp gỡ và giao

l u kết b n với tất c mọi ng i trên thế giới cĩ cùng s thích hay cùng quan điểm. Từ

đĩ, thể hiện kh năng tự lập, hịa nhập nhanh vào cuộc sống cộng đồng. Cũng thơng

qua Facebook, học sinh cĩ thể giới thiệu tính cách, s thích, quan điểm c a b n thân

nhằm giúp các em tìm kiếm những cơ hội phát triển trong t ơng lai.[1]

Tiếp nhận thơng tin, học hỏi kiến th c và kỹ năng: Việc cập nhật thơng tin trong một xư hội hiện đ i nh hiện nay là điều nên làm và cần ph i làm, nĩ giúp chúng ta dễ dàng tìm hiểu, nắm bắt đ ợc nhiều thơng tin quan trọng. Học hỏi thêm rất nhiều kiến

th cbổ ích, trau dồi những kĩ năng giúp các em hồn thiện b n thân hơn nữa.[13]

Tĩm l i, Facebook mang l i nhiều u điểm cho học sinh trong việc tìm hiểu kiến

th c; liên kết, chia sẻ, gi i trí sau những gi học tập căng thẳng. Nếu giáo viên và học sinh sử dụng kênh này để tăng c ng giao l u, trao đổi học tập để thầy trị thân thiện với nhau hơn thì rất hiệu qu .

2.1.2.2. nh h ởng tiêu cc

Mất đi sự tập trung cho việc học ở nhà: Nếu học sinhquá chú tâm vào m ng xư hội Facebook dễ dẫn đến các em lãng quên việc học tập c a mình. Thay vì chú tâm tìm

kiếm kiến th c hỗ trợ cho việc học tập, các em c chăm chú, m i mê, nơn nao nh ch

ai đĩ đăng gì lên Facebook, hay luơng thấp thỏm ch đợi xem nh c a mình đư cĩ bao nhiêu ng i like. Đây là tác h i rất nguy hiểm đối với học sinh, khiến các em mất tập trung, trì hoưn trong học bài và làm bài tập. [13]

Nguy cơ m c bệnh trầm c m: các nghiên c u gần đây cho thấy những học sinh

sử dụng Facebook càng nhiều thì càng c m thấy tiêu cực hơn, thậm chí cĩ thể dẫn đến

trầm c m. Điều này đặc biệt nguy hiểm với các em đư đ ợc chuẩn đốn mắc bệnh trầm

c m từ tr ớc. Vì thế, nếu học sinh phát hiện mình th ng xuyên c m thấy mất tinh thần, cĩ lẽ đư đến lúc các em ph i t m chia tay với“Facebook”.[1]

Ảiết chết sự sáng t o: Facebook là ph ơng tiện làm tê liệt nưo bộ và giết chế sự

sáng t o. Học sinh khơng cịn minh mẫn, thiếu tính t duydẫn đến việc tiếp nhận kiến

th c mới rất khĩ khăn.

Làm gi m thị lực, gây mất ng : Việc học sinh dành nhiều th i gian dán mắt vào màn hình smartphone hay laptop vào ban đêm sẽ khiến thị lực gi m sút nguy cơ dẫn đến cận thị. Sử dụng smartphone hay laptop để online Facebook vào ban đêm sẽ khiến cho học sinh c m thấy khĩ ng hoặc mất ng , ng khơng ngon giấc nh h ng đến s c khỏe, đến tr ng hay ng gục trên lớp.

Nh vậy, học sinh sử dụng Facebook cũng đặt ra rất nhiều nguy cơtìm ẩn, nhiều

hệ lụy. Đĩ là những nh h ng lớn đến tâm lý, mất th i gian, mất tập trung trong học

tình c m, hình thành lối sống o. Cĩ những tr ng hợp vì thiếu văn hĩa ng xử trên

m ng xư hội Facebook dẫn đến phát sinh mâu thuẫn, b o lực học đ ng...

2.2. Tìm hi u cơng c xây d ng mơ hình khai phá d li u

2.2.1. Gii thiu cơng c BIDS trong MicroSoft SQL Server 2008 R2

Business Intelligence Development Studio là cơng cụ cho phép tổ ch c qu n lý

và khai thác kho dữ liệu (xử lý phân tích trực tuyến) cũng nh xây dựng các mơ hình

khai phá dữ liệu rất dễ sử dụng và hiệu qu c a MicroSoft. [9]

BIDS cho phép triển khai các mơ hình khai phá dữ liệu, nh :

- MicroSoft Decision Tree (Cây quyết định) - MicroSoft Clustering (Phân cụm)

- MicroSoft Nạve Bayes (Luật Bayes)

- MicroSoft Association Rules (Luật kết hợp) - MicroSoft Time Series (Chuỗi th i gian)

- MicroSoft Sequence Clustering (Phân tích chuỗi) - MicroSoft Neural Network (M ng Neural)

- MicroSoft Linear Regression (Hồi quy tuyến tính) - MicroSoft Logistics Regression (Hồi quy Logistics)

2.2.2. Ngơn ng truy vn khai phá d liu

Ngơn ngữ Data Mining Extensions - DMX là ngơn ngữ cĩ thể cho phép chúng ta

Một phần của tài liệu Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT (Trang 35)