Đề cương Khai phá dữ liệuKhai thác dữ liệu Data mining là: Tập hợp các câu hỏi trắc nghiệm, đã có đáp án được in đậm; Các câu hỏi đều nằm trong chương trình học và bám sát đề thi.Chúc các bạn ôn tập tốt và đạt kết quả cao.
Trang 1CÂU 2: Support của tập mục A trong CSDL giao tác D là gì?
a Là tỉ lệ phần trăm số giao tác trong CSDL có chứa A trên tổng số các giao tác trong D
b Là tỉ lệ phần trăm số giao tác trong CSDL không chứa A trên tổng số các giaotác trong D
c Là chỉ số hỗ trợ trong A
d Là chỉ số hỗ trợ trong B
CÂU 3: Độ tin cậy của luật kết hợp X Y là gì?
a Là tỉ lệ phần trăm giữa số giao tác chứa cả X và Y với số giao tác chứa X trong CSDL D
b Là tỉ lệ phần trăm giữa số giao tác Y và số giao tác chứa X trong CSDL D
c Là tỉ lệ phần trăm giữa số giao tác X và số giao tác chứa Y trong CSDL D
d Là chỉ số hỗ trợ trong CSDL
CÂU 4: Confidence của luật kết hợp X Y là gì?
a Là tỉ lệ phần trăm giữa số giao tác chứa cả X và Y với số giao tác chứa X trong CSDL D
b Là tỉ lệ phần trăm giữa số giao tác Y và số giao tác chứa X trong CSDL D
c Là tỉ lệ phần trăm giữa số giao tác X và số giao tác chứa Y trong CSDL D
Trang 2CÂU 6: Phần mềm Weka cài đặt một số thuật toán trong lĩnh vực nào?
a Data Mining
b Tìm kiếm văn bản
c Trí tuệ nhân tạo
d Học máy
CÂU 7: Tập mục thường xuyên là gì?
a Là tập mục có độ hỗ trợ lớn hơn hoặc bằng ngưỡng hỗ trợ hỗ trợ tối thiểu cho trước
c Không gian tìm kiếm
d Không gian giới hạn
CÂU 9: Đâu không phải là thuật toán khai phá dữ liệu bằng luật kết hợp?
a Thuật toán K-Mean
b Thuật toán Apriori
c Thuật toán AprioriTID
d Thuật toán FP -Growth
CÂU 10: Khai phá dữ liệu bằng luật kết hợp sử dụng thuật toán nào?
a Thuật toán Apriori
b Thuật toán K-Mean
c Thuật toán C4.5
d Thuật toán Thuật toán ID3
Trang 3CÂU 11: Thuật toán Apriori sử dụng trong phương pháp khai phá dữ liệu nào?
a Khai phá dữ liệu bằng luật kết hợp
b Khai phá dữ liệu bằng phân cụm dữ liệu
c Khai phá dữ liệu bằng phân lớp dữ liệu
d Phương pháp mạng Nơ - ron
CÂU 12: Đầu vào của thuật toán FP_growth là gì?
Trang 4b P Kriegel và J Sander
c Kaufman và Rousseeuw
d Tian Zhang, Amakrishnan và Livny
CÂU 17: Hoveland và Hind giới thiệu thuật toán CLS lần đầu tiên vào năm bao
CÂU 18: Kết quả của thuật toán CLS là đưa ra cây quyết định dựa trên:
a Các mẫu mô tả quyết định
b Các ngày để quan tâm
c Các con số tính toán
d Tất cả đều sai
CÂU 19: Hàm Entropy dùng để làm gì?
a Để đo tính thuần nhất của một tập mẫu dữ liệu
b Để đo tính không thuần nhất của dữ liệu xấu
c Để đo tính thuần của thuộc tính
d Các đáp án đều sai
CÂU 20: Cho tập ví dụ học như bảng Có bao nhiêu thuộc tính để phân lớp ?
a 4 thuộc tính
b 3 thuộc tính
Trang 5c 5 thuộc tính
d 6 thuộc tính
CÂU 22: Cho tập ví dụ học như bảng Các thuộc tính dùng để phân lớp là:
a Outlook, Temperature, Humidity, Wind
b Outlook, Temperature, Humidity, Wind, Play Ball
c Day, Outlook, Temperature, Humidity, Wind
d Day, Outlook, Temperature, Humidity, Wind, Play Ball
CÂU 23: Khi chọn 1 thuộc tính A để làm gốc cây quyết định Nếu thuộc tính A có
3 giá trị thì cây quyết định có bao nhiêu nhánh?
a 3 nhánh
b 2 nhánh
c Nhiều nhánh
d Phải biết kết luận C có bao nhiêu giá trị thì mới phân nhánh được
CÂU 24: Cho tập ví dụ học như bảng Với (Wind =’Weak’) thì P+ mang giá trị
bao nhiêu:
a 2
Trang 7CÂU 27: Thuật toán Apriori có nhược điểm chính là:
a Tốn nhiều bộ nhớ và thời gian Không thích hợp với các mẫu lớn Chi phí
để duyệt CSDL nhiều.
b Không tìm được các tập thường xuyên
c Kết quả của thuật toán không ứng dụng được trong các bài toán thực tế
d Thuật toán quá phức tạp, khó hiểu
CÂU 28: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%) Tập nào
là tập mục thường xuyên thỏa Min_support:
a {A,C}
b {D}
c {A,D}
d {B, C, D}
CÂU 29: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%) Tập nào
không là tập mục thường xuyên:
a {A,C,D}
b {A,E}
c {A, C}
d {B,E}
CÂU 30: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%) Cho
CSDL giao dịch như hình vẽ với Min_Support = 2 (50%) Tập nào không là tậpmục thường xuyên:
Trang 8a {D}
b {A,E}
c {A, C}
d {B,E}
CÂU 31: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%) Sử dụng
thuật toán Apriori, sau lần duyệt thứ nhất, tập mục chứa 1-item bị loại bỏ là:
a {D}
b {A}
c {B}
d {A}, {D}
CÂU 32: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%) Tập nào
không là tập mục thường xuyên:
a {B, D}
b {A, E}
Trang 9c {A, C}
d {B, E}
CÂU 33: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%) Tập nào
là tập mục thường xuyên với độ hỗ trợ là 75%:
a {B,E}
b {A,E}
c {A, C}
d {B,C}
CÂU 34: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%) Tập nào
là tập mục thường xuyên với độ hỗ trợ là = 70%
a Không có tập nào
b {A, E}
c {A, C, D}
d {B, C, D}
CÂU 35: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50% Luật kết hợp nào thỏa mãn các điều kiện đã cho:
Trang 10a A >C
b A >D
c A > E
d AB >C
CÂU 36: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50% Luật kết hợp nào thỏa mãn các điều kiện đã cho:
a B >E
b A >D
c A > E
d AB >C
CÂU 37: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50% Luật kết hợp nào thỏa mãn các điều kiện đã cho:
a A >C
b A >D
Trang 11c A > E
d AB >C
CÂU 38: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50% Luật kết hợp nào có độ tin cậy = 100%
Trang 13c Tìm các tập mục có k - item
d Thực hiện công việc khác
CÂU 43: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi) I là tập chứa tất
cả các mục (item) trong CSDL X là một tập chứa các mục thuộc I Giao dịch hỗtrợ X là giao dịch chứa tất cả các mục có trong X Độ hỗ trợ của tập mục X đượcđịnh nghĩa là:
a Support(X)=Số lượng giao dịch hỗ trợ X / N
b Support(X)=Số lượng giao dịch hỗ trợ X
c Support(X)=Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mụctrong CSDL
d Support(X)=Số lượng giao dịch hỗ trợ X *100%
CÂU 44: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi) I là tập chứa tất
cả các mục (item) trong CSDL X, Y là tập chứa các mục thuộc I Độ tin cậy củaluật kết hợp X Y được định nghĩa là:
a Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch
hỗ trợ X
b Confidence(XY)=Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗi trợ Y
c Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗtrợ Y
d Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y /N
CÂU 45: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi) I là tập chứa tất
cả các mục (item) trong CSDL X, Y là tập chứa các mục thuộc I Độ hỗ trợ củaluật kết hợp X Y được định nghĩa là:
a Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / N
b Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợY
c Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợX
d Support(XY)=Số lượng giao dịch hỗ trợ cả X / Số lượng giao dịch hỗ trợ Y
Trang 14CÂU 46: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi) I là tập chứa tất
cả các mục (item) trong CSDL Min_Supp là độ hỗ trợ tối thiểu X là tập chứa cácmục thuộc I Tập mục X được gọi là tập mục thường xuyên (frequent itemset) nếu:
a Support(X)>=Min_Supp
b Support(X)<=Min_Supp
c Support(X)=Min_Supp
d Support(X) = Min_Supp/N
CÂU 47: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi) I là tập chứa tất
cả các mục (item) trong CSDL Min_Supp là độ hỗ trợ tối thiểu, Min_Conf là độtin cậy tối thiểu X, Y là tập chứa các mục thuộc I Luật kết hợp XY được chọnnếu:
a Support(XY)>=Min_Supp, Confidence(XY)>=Min_Conf
b Support(XY)=Min_Supp, Confidence(XY)=Min_Conf
c Support(XY)<Min_Supp, Confidence(XY)<Min_Conf
d Support(XY)>Min_Supp, Confidence(XY)=Min_Conf
CÂU 48: Cho CSDL giao dịch như hình vẽ Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%
Các tập mục thường xuyên có 1 mục thỏa mãn Min_Supp là:
a F:4, C:4, A:3, C:3, M:3, P:3
b C:4, A:3, C:3, M:3, P:3
c F:4, C:4
Trang 15d A:3, C:3, M:3, P:3
CÂU 49: Cho CDSL giao dịch như hình vẽ, Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%
Tập mục thường xuyên có 4 mục thỏa mãn Min_Supp là:
a FCAM:3
b FCAM:2
c FC:4
d FCAM:4
CÂU 50: Cho CSDL giao dịch như hình vẽ Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%
Cơ sở điều kiện của nút M là:
a {F:2, C:2, A:2} và { F:1, C:1, A:1, B:1}
Trang 16b {F:2, C:2, A:2}
c F:1, C:1, A:1
d F: 3, C:3, A:3
CÂU 51: Cho CSDL giao dịch như hình vẽ Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%
Cơ sở điều kiện của nút M là:
a {F:2, C:2, A:2, M:2} và { C:1, B:1}
b {F:2, C:2, A:2, M:2}
c C:3
d F: 3, C:3, A:3
CÂU 52: Cho CDSL giao dịch như hình vẽ Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%
Trang 17Cây điều kiện FP của P là:
a {C:3}| p
b {CF:3}|p
c {C:4}|p
d Cây điều kiện là rỗng
CÂU 53: Cho CSDL giao dịch như hình vẽ Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%
Cây điều kiện FP của A là:
a {F:3, C:3}| p
b {CF:3}|p
c {C:4}|p
d Cây điều kiện là rỗng
CÂU 54: Cho CSDL giao dịch gồm N mục phân biệt, tổng số các tập mục được
CÂU 55: Cho A, B, C, D là các item và A >BC là luật kết hợp thỏa mãn độ hỗ trợ
tối thiểu Min_Sup và độ tin cậy tối thiểu Min_Conf Hãy cho biết luật kết hợp nào
Trang 18sau đây chắc chắn thỏa mãn Min_Sup và Min_Conf mà không cần phải tính độ hỗtrợ và độ tin cậy:
a AB >C
b A >D
c ABD >C
d D >C
CÂU 56: Cho A, B, C, là các item và A >BC là luật kết hợp thỏa mãn độ hỗ trợ
tối thiểu Min_Sup và độ tin cậy tối thiểu Min_Conf Ta thấy rằng luật kết hợpAB >C cũng thỏa mãn điều kiện về độ hỗ trợ tối thiểu và độ tin cậy tối thiểu vì:
CÂU 57: Cho A, B, C, D là các mục trong cơ sở dữ liệu giao dịch Kết luận nào
sau đây là sai:
CÂU 59: Giả sử ta có các tập mục thường xuyên {A,B}, {A,C}, {B,D} chứa
2-item Sử dụng thuật toán Apriori để ghép các tập mục có 2-item thành các tập mục
có 3-item , các ứng viên sinh ra có 3-item là:
a {A, B, C}, {A, B, D}
Trang 19b {A, B, C}, {A, B, D}, {A, B, C, D}
b Tổ hợp k item từ các item có trong cơ sở dữ liệu giao dịch
c Lấy ngẫu nhiên k item sau đó ghép lại với nhau
d Sinh mọi tập con có k item từ các item có trong cơ sở dữ liệu giao dịch
CÂU 61: Cho tập L3={abc, abd, ade, ace} là các tập mục thường xuyên chứa
3-item Để tạo các ứng viên chứa 4-item abcd, ta cần ghép các tập chứa 3-item nàovới nhau?
Trang 20CÂU 63: k-Mean phù hợp với các cụm có hình dạng nào sau đây:
a Dạng hình cầu
b Cụm dài và mảnh
c Các cụm có các điểm phân bố ngẫu nhiên
d Hình dạng bất kỳ
CÂU 64: Thuật toán phân cụm K-MEANS dừng khi:
a Không thể gán (hoặc gán lại) từng điểm vào cụm khác
b Số cụm sinh ra là k
c Tùy theo yêu cầu của người dùng
d Khi tất cả các phần tử đã được gán vào k cụm
CÂU 65: Hãy chọn phát biểu sai trong các phát biểu sau đây về thuật toán phân
cụm K-MEANS:
a Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm
b Cần phải xác định trước số cụm cần sinh ra
c K-MEANS phù hợp với các cụm có dạng hình cầu
d Vector được chọn làm trọng tâm của mỗi cụm là vector trung bình của cụm đó
CÂU 66: Thuật toán phân cụm nào sau đây có thể tìm ra các cụm với hình thù bất
a 6 luật, không tính luật X → ∅ và ∅ → X
b 8 luật, không tính luật X → ∅ và ∅ → X
c 3 luật
d 1 luật
Trang 21CÂU 68: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%)
Sử dụng thuật toán Apriori, sau lần duyệt thứ hai, danh sách L2 chứa các tập mụcthường xuyên có 2-item được tạo ra là:
a L2={{A,C}, {B,C}, {B,E}, {C,E}}
b L2={{ A,D}, {B,D}, {B,E}, {C,E}}
TB (c L2= {{B,C}, {B,E}, {C,E}}
d L2= {{A,C}, {C,E}}
CÂU 69: Với công thức tính Gain thông thường không phù hợp với tình huống
nào ?
a Với các thuộc tính có rất nhiều giá trị
b Không phụ hợp với ba thuộc tính
c Không phù hợp với tập chỉ có duy nhất một mẫu
d Mọi trường hợp đều phù hợp
CÂU 70: Cho tập ví dụ học như bảng P(Play Ball= ‘No’) là:
a 1/2
b 1/3
c 0/3
Trang 22CÂU 72: Cho ví dụ trong bảng với thuộc tính Wind, thì:
a P(Weak | Yes)=2/4; P(Weak | No) = 2/4; P(Strong | Yes) = 1/2; P(Strong | No)