M ăĐ U
7. Bố cục ca luận văn
1.3.2. Luật kết hợp(Association Rule)
1.3.2.1. Giới thiệu
Bài tốn khai phá luật kết hợp đ ợc giới thiệu từ năm 1993 và nhận đ ợc sự quan tâm c a các nhà khoa học. Hiện nay việc khai thác các luật nh thế vẫn là một trong những ph ơng pháp khai thác mẫu phổ biến nhất trong việc khám phá tri th c,
khai thác dữ liệu. Trong KPDL mục đích c a luật kết hợp là tìm ra các mối quan hệ
giữa các đối t ợng trong khối l ợng lớn dữ liệu.
Nội dung cơ b n c a luật kết hợp đ ợc tĩm tắt nh sau:
Cho CSDL giao dịch T gồm tập các giao dịch t1, t2, …, tn. T = {t1, t2, …, tn} Mỗi giao dịch tibao gồm tập các đối t ợng I (gọi là itemset). I = {i1, i2, …, in} Một itemset gồm k itemsgọi là k-itemset.
Mục đích c a luật kết hợp là tìm ra sự kết hợp (t ơng quan) giữa các items. Một luật kết hợpcĩ d ng R: X Y, trong đĩ X, Y là các tập mục, X, Y I và X Y = .
Theo quan điểm thống kê, X đ ợc xem là biến độc lập (Independent variable)
cịn Y đ ợc xem là biến phụ thuộc (Dependent variable). [11]
1.3.2.2. Thuật tốn Apriori Ý t ởng thuật tốn Apriori
1. Sinh ra tất c các tập mục th ng xuyên m c 1 (1-itemsets)
2. Gán k = 1
3. Lặp l i, cho đến khi khơng cĩ thêm bất kỳ tập mục th ng xuyên nào mới.
- Từ các tập mục th ng xuyên m c k (ch a k-itemsets), sinh ra các tập
mục m c (k + 1) cần xét
- Lo i bỏ các tập mục m c (k + 1) ch a các tập con là các tập mục khơng
th ng xuyên m c k
- Tính độ hỗ trợ c a mỗi tập mục m c (k + 1), bằng cách duyệt qua tất c
các giao dịch
- Lo i bỏ các tập mục khơng th ng xuyên m c (k + 1)
- Thu đ ợc các tập mục th ng xuyên m c (k + 1)
Mơ t thuật tốn Apriori
Input:
Output:
- L - tập mục phổ biến trong D L1 = lager_1-itemsets(D); for (k = 1; Lk <> ; k++) {
Ck+1 = apriori_gen(Lk,min_sup); //t o ng viên phổ biếncĩ độ dài (k+1)
for each transaction t D do { //duyệt CSDL để đếm
Ct = subset (Ck+1, t); //lấy các tập con c a t là các ng viên
for each candidate c Ct c.count ++;
}
Lk+1 = {c Ck+1 c.count mimsup} }
return L = kLk;
1.3.2.3. Các tham số hỗ trợ trong thuật tốn Apriori
Hai tham số quan trọng dùng để đánh giá, đo l ng luật kết hợp đĩ là độ hỗ trợ
(support) và độ tin cậy (confidence).
Độ hỗ trợ support c a luật kết hợp X Y là tần suất c a giao dịch ch a tất c các items trong c hai tập X và Y.
Cơng th c để tính support c a luật X Y, nh sau: support (XY) = P (X Y) = n X( Y)
N
Trong đĩ: n(X Y): số giao dịch ch a X và Y; N: là tổng số giao dịch.
Độ tin cậy confidence c a luật kết hợp X Y là xác suất x y ra Y khi đư biết X.
Cơng th c để tính confidence c a luật kết hợp X Y là xác suất cĩ điều kiện Y
khi đư biết X, nh sau:
Confidence (XY) = P (YX) = ( ) ( ) n X Y
n X
Trong đĩ: n(X Y): số giao dịch ch a X và Y;
n(X) là số giao dịchch a X
Để thu đ ợc các luật kết hợp, ta th ng áp dụng hai tiêu chí đánh giá nh trên: minimum support (min_sup) và minimum confidence (min_conf).
Các luật thỏa mưn cĩ support và confidence thỏa mưn (>=) c min_sup và min_conf gọi là các luật m nh (Strong Rule)
Min_sup và min_conf gọi là các giá trị ng ỡng (threshold) và ph ixác định tr ớc (tự cho) khi sinh các luật kết hợp.
Một itemsets mà tần suất xuất hiện c a nĩ (>=) min_sup gọi là tập phổ biến frequent itemsets. [11]
1.3.2.4. Ví dụ minh họa xây dựng luật kết hợp sử dụng thuật tốn Apriori
Để minh họa xây dựng luật kết hợp sử dụng thuật tốn Apriori, ta chọn cơ s dữ
liệu gồm 10 mẫu tin mơ t hành vi sử dụng Facebook c a học sinh nh b ng 1.8
B ng 1.8 - Dữ liệu minh họa xây dựng mơ hình luật kết hợp
ID TGOLTB MucdoOL SLOLGT SLOLGLKB SLOLHT KetquaHT
1 Nhiều hơn 3h Th ng xuyên 3 2 0 Trung bình
2 Từ 1h-3h Thỉnh tho ng 0 1 3 Giỏi
3 Từ 1h-3h Thỉnh tho ng 0 0 2 Khá
4 Nhiều hơn 3h Th ng xuyên 2 3 0 Trung bình
5 Nhiều hơn 3h Thỉnh tho ng 2 2 1 Trung bình
6 Từ 1h-3h Thỉnh tho ng 2 1 3 Khá
7 Từ 1h-3h Thỉnh tho ng 1 0 2 Khá
8 Ít hơn 1h Hiếm khi 0 0 3 Giỏi
9 Ít hơn 1h Thỉnh tho ng 0 1 2 Khá
10 Ít hơn 1h Hiếm khi 0 0 2 Giỏi
Từ tập dữ liệu huấn luyện mơ hình, ta quét tồn bộcơ s dữ liệu 1st scan
Hình 1.9 - Quá trình xây dựng mơ hình luật kết hợp
Với min_sup = 30% và min_conf ≥ 75%, ta cĩ các luật rút ra nh (B ng 1.9)
B ng 1.9 - Tập luật rút ra từ mơ hình luật kết hợp
itemsets support(X,Y) support(X) confidence
{TGOLTB = 'Từ 1h - 3h', MucdoOL = 'Thỉnh tho ng'} {KetQuaHT = 'Khá'} 30% 40% 75% {TGOLTB = 'Từ 1h - 3h'} {KetQuaHT = 'Khá'} 30% 40% 75%
R1: IF (TGOLTB='Từ 1h-3h' AND MucdoOL='Thỉnh tho ng') THEN KetQuaHT='Khá' (độ tin cậy 75%)
R2: IF TGOLTB='Từ 1h-3h'' THEN KetQuaHT='Khá' (độ tin cậy 75%)
Các luật R1, R2 cĩ độ tin cậy (confidence) là 75%, điều này cĩ nghĩa là 75% học sinh với các thơng tin: th i gian online Facebook từ 1 gi đến 3 gi và thỉnh tho ng online Facebook thì dự đốn kết qu học tập hoặc nếu th i gian online Facebook từ 1
gi đến3 gi và ch yếu online để phục vụ việc học tậpthì dự đốn kết qu học tập là
lo i khá.
1.4. Ti u k tăch ngă1
Khai phá dữ liệu là một trong những lĩnh vực đư và đang tr thành h ớng nghiên c u thu hút đ ợc sự quan tâm c a nhiều chuyên gia về cơng nghệ thơng tin trên tồn thế giới. Điều này ch ng tỏ rằng những u thế, lợi ích và kh năng ng dụng thực tế to
lớn cu khai phá dữ liệu. Trong ch ơng này luận văn trình bày một số kiến th c tổng
quan về quá trình khám phá tri th c, những khái niệm và những kiến th c cơ b n nhất về khai phá dữ liệu để làm cơ s cho vấn đề nghiên c u ch ơng 2.
CH NGă2
PHÂN TÍCH NHăH NG C A FACEBOOK BẰNG MƠ HÌNH CÂY QUY TăĐ NH VÀ LU T K T H P
2.1. Th c tr ng s d ng Facebook c a h c sinh THPT Tp. Kon Tum 2.1.1. Thực tr ng sử dụng Facebook c a học sinh THPT hiện nay
Từ khi Internet xuất hiện cho đến nay đư mang l i nhiều thay đổi trong đ i sống,
kinh tế, xư hội nĩi chung. M ng máy tính ngày càng đ ợc m rộng, nhiều tiện ích trên m ng xư hội đư thu hút ng i sử dụng ngày càng nhiều, đặc biệt là l a tuổi học sinh THPT. tỉnh Kon Tum nĩi chung hiện nay l a tuổi học sinh THPT th ng sử dụng
điện tho i thơng minh để truy cập m ng xư hội, hiện t ợng này ngày càng tr nên phổ
biến. Qua kh o sát đối t ợng học sinh các tr ng THPT trên địa bàn thành phố Kon
Tum cho thấy phần lớn học sinh (97,6%) đều cĩ s hữu một tài kho n Facebook, một
số rất ít (2,4%) là khơng sử dụng Facebook.
2.1.1.1. Mục đích online Facebook c a học sinh
Theo kh o sát, mặc dù mục đích sử dụng c a mỗi học sinh khi tham gia m ng xư
hội Facebook rất phong phú, rất đa d ng song cĩ một điểm chung là Facebook đ ợc
xem nh một phần quan trọng khơng thể thiếu trong cuộc sống hàng ngày c a các em. Kết qu lấy phiếu thăm dị cho thấy, học sinh sử dụng Facebook với nhiều mục đích khác nhau, song mục đích chiếm tỉ lệ cao nhất là: Tìm kiếm thơng tin phục vụ học tập (72,3%); Gi i trí, tán gẫu, chơi game (58,3%); Chia sẻ thơng tin (59,6%).
Cĩ thể nĩi, với nhiều tính năng, tiện ích và dễ dàng sử dụng nên m ng xư hội
Facebook đư đáp ng đầy đ mục đích nhu cầu c a mỗi học sinh. Vì vậy, Facebook đư
thu hút các b n trẻ online ngày càng nhiều. Thực tế cho thấy, các tr ng THPT trên
địa bàn thành phố Kon Tum, khi học sinh sử dụng m ng xư hội Facebook cũng cĩ sự
khác biệt:đĩ làkhác biệt về giới tính, trình độ…Theo đĩ, học sinh nữ dùng Facebook
nhiều hơn học sinh nam; học sinh lớp 10 dùng Facebook với mục đích gi i trí hơn là tìm hiểu tài liệu phục vụ học tập, ng ợc l i học lớp 12 dùng Facebook ch yếu là phục vụ việc học tập hơn là gi i trí, kết b n chia sẽ thơng tin điều này cũng dễ hiểu vì các em lớp 12 là năm cuối cấp nên các em quan tâm đến việc học tập để chuẩn bị dự thi tốt nghiệp phổ thơng quốc gia và thi tuyển sinh đ i học.
B ng 2.1 - Sự khác biệt vềgiới tính c a học sinh khi sử dụng Facebook
TT Ho tăđ ng Nam N
1 Tìm hiểu tài liệu phục vụ học tập 38,5% 61,5%
2 Gi i trí, tán gẫu, chơi games 38,9% 61,1%
B ng 2.2 - Sự khác biệt về trình độc a học sinh khi sử dụng Facebook
TT Ho tăđ ng L pă10 L pă11 L pă12
1 Tìm hiểu tài liệu phục vụ học tập 63,2% 70,6% 74,4%
2 Gi i trí, tán gẫu, chơi games 67,7% 52,7% 42,1%
3 Chia sẻ thơng tin, kết b n 65,0% 60,3% 45,2%
2.1.1.2. Ph ơng tiện, địa điểm online Facebook
Theo kết qu kh o sát, học sinh THPT cĩ xu h ớng online Facebook nhiều nhất thơng qua ph ơng tiện điện tho i thơng minh (71,7%). Bên c nh đĩ, cũng cĩ học sinh
online Facebook bằng các thiết bị khác nh : Laptop (19,4%), rất ít dùng máy tính để
bàn (8,9%)… điều này cho thấy điện tho i di động là ph ơng tiện thuận lợi nhất để
học sinh online Facebook mọi lúc, mọi nơicĩ kết nối m ng Internet.
Về địa điểm truy cập Facebook, phần lớn học sinh đ ợc kh o sát đều cho biết địa điểm online Facebook phổ biến nhất làkhi nhà (ngồi thời gian đến tr ờnghọc).
2.1.1.3. Thời điểm online Facebook
Qua kh o sát thăm dị, phần lớn học sinh cho biết th i điểm mà các em online
Facebook là khơng giống nhau, rất nhiều học sinh online bất c lúc nào khi nhà (47,7%), cĩ em online vào buổi tối khi đang học bài (25,6%), cũng khơng ít học sinh online tranh th gi nghỉ tr a (26,7%).
2.1.1.4. Thời gian online Facebook
Th i gian sử dụng Facebook c a học sinh cũng cĩ sự khác biệt do phụ thuộc vào
nhiều yếu tố chi phối nh : quỹ th i gian, th i điểm online, mục đích online… theo kết
qu kh o sát cho thấy về th i gian online Facebook trung bình trong ngày c amỗi học
sinh nh sau: Phần lớn học sinh online nhiều hơn 3 gi đồng hồ (32,8%), hoặc từ 1 gi đến 3 gi (36,3%), cũng cĩ khơng ít học sinh online d ới mộtgi (30,9%).
2.1.2. nh hưởng c a Facebook đến kết qu học tập c a học sinh
2.1.2.1. nh h ởng tích cực
Việc tìm kiếm thơng tin phục vụ học tập: Facebook cũng đĩng vai trị rất quan
trọng trong lĩnh vực giáo dục, học sinhcĩ thể truy cập Facebook để tìm thơng tin liên
quan đến mơn học, cĩ thể trao đổi bài tập với nhau, họcsinh cĩ thể trao đổi trực tuyến
thơng qua m ng Internetnh cĩ tài kho n Facebook. Điều này giúp học sinh tiết kiệm
rất nhiều th i gian hay dễ dàng trao đổi trực tuyến với giáo viên khi cĩ những câu hỏi, bài tập khĩcần đ ợc gi i đáp.[1]
Trao đổi vấn đề học tập thơng qua hệ thống Messenger c a ạacebook: Học sinh
cĩ thể dùng Messenger để t o nhĩm trao đổi vấn đề học tập một cách nhanh chĩng.
Với Messenger học sinh cĩ thể gửi tài liệu, liên l c với nhau bất kể th i gian và khơng gian khi cĩ kết nối m ng Internet.
văn hĩa học sinh cần ph i đ ợc giáo dục kỹ năng sống, kỹ năng giao tiếp, ng xử hằng ngày. Vì vậy, học sinh cĩ thể biết đ ợc nhiều thơng tin về b n bè hoặc ng i thân
bằng cách kết b n, chia sẻ thơng qua Facebook. Học sinh cũng cĩ thể gặp gỡ và giao
l u kết b n với tất c mọi ng i trên thế giới cĩ cùng s thích hay cùng quan điểm. Từ
đĩ, thể hiện kh năng tự lập, hịa nhập nhanh vào cuộc sống cộng đồng. Cũng thơng
qua Facebook, học sinh cĩ thể giới thiệu tính cách, s thích, quan điểm c a b n thân
nhằm giúp các em tìm kiếm những cơ hội phát triển trong t ơng lai.[1]
Tiếp nhận thơng tin, học hỏi kiến th c và kỹ năng: Việc cập nhật thơng tin trong một xư hội hiện đ i nh hiện nay là điều nên làm và cần ph i làm, nĩ giúp chúng ta dễ dàng tìm hiểu, nắm bắt đ ợc nhiều thơng tin quan trọng. Học hỏi thêm rất nhiều kiến
th cbổ ích, trau dồi những kĩ năng giúp các em hồn thiện b n thân hơn nữa.[13]
Tĩm l i, Facebook mang l i nhiều u điểm cho học sinh trong việc tìm hiểu kiến
th c; liên kết, chia sẻ, gi i trí sau những gi học tập căng thẳng. Nếu giáo viên và học sinh sử dụng kênh này để tăng c ng giao l u, trao đổi học tập để thầy trị thân thiện với nhau hơn thì rất hiệu qu .
2.1.2.2. nh h ởng tiêu cực
Mất đi sự tập trung cho việc học ở nhà: Nếu học sinhquá chú tâm vào m ng xư hội Facebook dễ dẫn đến các em lãng quên việc học tập c a mình. Thay vì chú tâm tìm
kiếm kiến th c hỗ trợ cho việc học tập, các em c chăm chú, m i mê, nơn nao nh ch
ai đĩ đăng gì lên Facebook, hay luơng thấp thỏm ch đợi xem nh c a mình đư cĩ bao nhiêu ng i like. Đây là tác h i rất nguy hiểm đối với học sinh, khiến các em mất tập trung, trì hoưn trong học bài và làm bài tập. [13]
Nguy cơ m c bệnh trầm c m: các nghiên c u gần đây cho thấy những học sinh
sử dụng Facebook càng nhiều thì càng c m thấy tiêu cực hơn, thậm chí cĩ thể dẫn đến
trầm c m. Điều này đặc biệt nguy hiểm với các em đư đ ợc chuẩn đốn mắc bệnh trầm
c m từ tr ớc. Vì thế, nếu học sinh phát hiện mình th ng xuyên c m thấy mất tinh thần, cĩ lẽ đư đến lúc các em ph i t m chia tay với“Facebook”.[1]
Ảiết chết sự sáng t o: Facebook là ph ơng tiện làm tê liệt nưo bộ và giết chế sự
sáng t o. Học sinh khơng cịn minh mẫn, thiếu tính t duydẫn đến việc tiếp nhận kiến
th c mới rất khĩ khăn.
Làm gi m thị lực, gây mất ng : Việc học sinh dành nhiều th i gian dán mắt vào màn hình smartphone hay laptop vào ban đêm sẽ khiến thị lực gi m sút nguy cơ dẫn đến cận thị. Sử dụng smartphone hay laptop để online Facebook vào ban đêm sẽ khiến cho học sinh c m thấy khĩ ng hoặc mất ng , ng khơng ngon giấc nh h ng đến s c khỏe, đến tr ng hay ng gục trên lớp.
Nh vậy, học sinh sử dụng Facebook cũng đặt ra rất nhiều nguy cơtìm ẩn, nhiều
hệ lụy. Đĩ là những nh h ng lớn đến tâm lý, mất th i gian, mất tập trung trong học
tình c m, hình thành lối sống o. Cĩ những tr ng hợp vì thiếu văn hĩa ng xử trên
m ng xư hội Facebook dẫn đến phát sinh mâu thuẫn, b o lực học đ ng...
2.2. Tìm hi u cơng c xây d ng mơ hình khai phá d li u
2.2.1. Giới thiệu cơng cụ BIDS trong MicroSoft SQL Server 2008 R2
Business Intelligence Development Studio là cơng cụ cho phép tổ ch c qu n lý
và khai thác kho dữ liệu (xử lý phân tích trực tuyến) cũng nh xây dựng các mơ hình
khai phá dữ liệu rất dễ sử dụng và hiệu qu c a MicroSoft. [9]
BIDS cho phép triển khai các mơ hình khai phá dữ liệu, nh :
- MicroSoft Decision Tree (Cây quyết định) - MicroSoft Clustering (Phân cụm)
- MicroSoft Nạve Bayes (Luật Bayes)
- MicroSoft Association Rules (Luật kết hợp) - MicroSoft Time Series (Chuỗi th i gian)
- MicroSoft Sequence Clustering (Phân tích chuỗi) - MicroSoft Neural Network (M ng Neural)
- MicroSoft Linear Regression (Hồi quy tuyến tính) - MicroSoft Logistics Regression (Hồi quy Logistics)
2.2.2. Ngơn ngữ truy vấn khai phá dữ liệu
Ngơn ngữ Data Mining Extensions - DMX là ngơn ngữ cĩ thể cho phép chúng ta