Tổng hợp 45 câu hỏi trắc nghiệm môn học Khai Thác Dữ Liệu chuyên ngành Công nghệ thông tin. Hy vọng sẽ giúp ích các bạn trong việc ôn tập và trong các kì thi sắp tơi.
Trang 1Câu hỏi 2
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Trong danh sách sau, thao tác nào không được cho là thao tác khai thác dữ liệu :
1 Frequent pattern mining
Bài toán tìm cấu trúc ẩn chứa bên trong tập dữ liệu không được gán nhãn được gọi là
Bài toán phát hiện giao dịch gian lận của thẻ tín dụng là dạng bài toán?
a Học có giám sát (supervised learning)
b Học không giám sát (unsupervised learning)
c Học tăng cường (reinforcement learning)
d Tất cả các câu còn lại đều sai
Trang 2Câu hỏi 4
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Bài toán dẫn xuất ra mô hình từ tập dữ liệu huấn luyện được gán nhãn được gọi là Select one:
a Học có giám sát (supervised learning)
b Học không giám sát (unsupervised learning)
c Học tăng cường (reinforcement learning)
d Tất cả các câu còn lại đều sai
Câu hỏi 5
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Bài toán khai thác dữ liệu nào dưới đây thực hiện để nhận dạng cho dữ liệu mới dựa trên những dữ liệu đã biết trước?
Trang 3Đặt cờ Đoạn văn câu hỏi
Cho biết các vấn đề nào sau đây liên quan đến chất lượng dữ liệu?
Một trang web thương mại điện tử muốn tăng cường thêm tính năng gợi ý cho khách hàng các món hàng nên mua cùng nhau sẽ áp dụng bài toán khai thác dữ liệu nào dưới đây?
Trang 4Cho dataset như hình, cho biết số chiều (dimension) và kích thước (size) của dataset?
Select one:
a Số chiều dữ liệu là 5, Kích thước dữ liệu là 10
b Số chiều dữ liệu là 10, Kích thước dữ liệu là 5
c Số chiều dữ liệu là 2, Kích thước dữ liệu là 10
Trang 5Câu hỏi 9
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Cho biết vấn đề liên quan đến chất lượng dữ liệu trong hai dòng đánh dấu B của bảng dữ liệu sau:
Đoạn văn câu hỏi
d Số chiều dữ liệu là 1, Kích thước dữ liệu là 5
Trang 6Cho dataset như hình, cho biết thuộc tính nào có dạng
Ordinal
Select one:
Trang 7Các mệnh đề nào sau đây đúng với khái niệm sampling
Select one:
a Sampling là kỹ thuật chính cho thao tác chọn dữ liệu (data selection)
b Sử dụng sampling vì lý do thao tác trên toàn bộ tập dữ liệu là tốn kém và mất nhiều thời gian
c Dùng kết quả sampling để khai thác sẽ cho kết quả tương đương với dùng toàn bộ dataset nếu thực hiện sampling hợp lý
d Các câu còn lại đều đúng
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Thao tác nào sau đây giúp thu giảm số điểm dữ liệu trong tập dữ liệu?
Trang 8Câu hỏi 14
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Giải thuật nào sau đây được xếp vào nhóm học không giám sát (unsupervised learning)?
Case-based learning là gì?
Select one:
a Là giải thuật học máy để tìm sự phân lớp tối ưu cho một tập dữ liệu mẫu dựa trên lý thuyết xác suất
b Là giải thuật học máy để giới hạn không gian tìm kiếm cho một giả thiết
c Là một hướng tiếp cận để thiết kế giải thuật học máy lấy ý tưởng từ việc con người gặp tình huống mới thì sẽ diễn giải tình huống mới bằng cách tham chiếu đến các tình huống đã xảy ra trước đó d Không có câu nào đúng
Đúng
Đặt cờ
Đoạn văn câu hỏi
Một trang web thương mại điện tử muốn bổ sung chức năng dự đoán việc click lên các mục quảng cáo của khách viếng thăm Đây là dạng bài toán:
Thao tác nào sau đây giúp thu giảm số thuộc tính trong tập dữ liệu?
Trang 9Trong Naive Bayes, các giá trị xác suất được xác định bằng cách nào?
Select one:
a Là các tham số nhập vào từ người dùng
Đặt cờ
Đoạn văn câu hỏi
Giải thuật nào sau đây là giải thuật xây dựng m ô hình phân lớp dựa trên cây quyết địnhSelect one:
a Hunt’s Algorithm
b CART
c C4.5
d Tất cả đều đúng
Trang 10b Được ước lượng từ tập dữ liệu huấn luyện
c Được ước lượng từ tập dữ liệu kiểm tra
d Được gán giá trị mặc định và giải thuật tự điều chỉnh sau khi đánh giá kết quả
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Cho Confusion Matrix như sau:
Cho số lượng trường hợp bộ phân lớp cho kết quả sai?
Trang 11Đoạn văn câu hỏi
Mô tả nào sau đây đúng cho khái niệm "overfitting"?
Select one:
a Khi mô hình học quá đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập dữ liệu kiểm tra đều có nhiều dự đoán sai
b Khi mô hình học quá phức tạp dẫn đến thực thi chính xác trên tập dữ liệu huấn luyện nhưng nhiều
dự đoán sai trên tập dữ liệu kiểm tra
c Khi mô hình học quá phức tạp dẫn đến thời gian thực thi lớn nhưng có kết quả chính xác
d Tất cả các câu còn lại đều sai
Mô hình cây quyết định rơi vào tình huống overfitting nghĩa là?
Select one:
a Cây có cấu trúc phức tạp
b Cây có cấu trúc đơn giản
c Cây có nhiều node lá
d Tất cả đều sai
Trang 12Đoạn văn câu hỏi
Mệnh đề nào đúng về độ đo F-score cho mô hình phân lớp
Trong cây quyết định node nào đại diện cho thuộc tính dùng để kiểm tra? Select one:
a Node lá
b Node trung gian
Đoạn văn câu hỏi
Mô hình học máy nào được gọi là lazy-learning?
Trang 13Mô tả nào sau đây đúng cho khái niệm "underfitting" Select
Số lượng thuộc tính (features) tối thiểu để gom cụm được là bao nhiêu?
Trang 14Đặt cờ Đoạn văn câu hỏi
DBSCAN là giải thuật phân vào nhóm:
Trong giải thuật gom cụm theo mật độ DBSCAN, khái niệm mật độ được mô hình hóa như thế nào? Select one:
a Qua tham số mô tả số điểm tối thiểu trong một bán kính cho trước
b Qua tham số mô tả số điểm tối đa trong một bán kính cho trước
c DBSCAN tự phát hiện số cụm cùng mật độ của nó
d Tất cả đều sai
Trang 15Đoạn văn câu hỏi
DBSCAN cần cho biết số cụm trước khi thực thi?
Chỉ ra mệnh đề sai về K-Means Select
Đoạn văn câu hỏi
Trường hợp nào sau đây K-Means không cho kết quả tốt
1 Dữ liệu có ngoại biên (outlier)
2 Dữ liệu có mật độ phân bố thay đổi
3 Dữ liệu phân bố theo hình tròn
4 Dữ liệu phân bố theo dạng hình không lồi (non-convex) Select one:
Trang 16one:
a Giải thuật gom cụm K-means tương tự giải thuật KNN (K- nearest neighbor)
b K-Means phân chia n đối tượng dữ liệu thành k cụm
c K-means là một phương pháp lượng tử hóa vector (vector quantization) d Tất cả các mệnh đề đều sai
K-Means thuộc giải thuật học máy Select
one:
a Có giám sát (supervised learning)Supervised
b Không có giám sát (unsupervised learning)
c Tất cả đều sai
Đúng
Đạt điểm 1,00 trên 1,00
Đoạn văn câu hỏi
Giải thuật K-Means yêu cầu điều gì?
Select one:
a Số cụm cho trước
b Độ đo khoảng cách định nghĩa trước
c Trung tâm cụm khởi tạo trước
d Tất cả các ý còn lại
Trang 17Đặt cờ Đoạn văn câu hỏi
DBSCAN cho phép tìm mật độ phân bố của các
điểm dữ liệu trong tập dữ liệu?
Nếu biết support của Itemset {a, b, c} là 99, hãy chobiết giá trị nào sau đây chắc chắn không phải
support của itemset {a, b} :
Điều kiện dừng của giải thuật K-Means có thể là:
Select one or more:
a Sau một số lần lặp định trước
b Việc phân cụm không thay đổi
c Các trung tâm cụm không thay đổi
d Nếu giá trị hàm mục tiêu có giá trị dưới ngưỡng cho trước
Trang 18Câu hỏi 38
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Nếu biết support của Itemset {a, b} là 99, hãy cho biết giá trị nào sau đây chắc chắn không phải support của itemset {a, b, c} :
Trang 19Câu hỏi 39
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Cho trước ngưỡng hỗ trợ minSup = 60% và ngưỡng tin cậy minConf = 80% để tìm tập phổ biến và luật kết hợp trên cho dataset sau:
Giải thuật khai thác mẫu phổ biến?
Select one:
a Apriori
b FP-Grownth
c ECLAT
Trang 20Câu hỏi 41
Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Các tham số để thực thi giải thuật Apriori để tìm mẫu phổ biến và luật kết hợp?
Select one:
a Ngưỡng hỗ trợ MinSup
b Ngưỡng tin cậy MinConf
c Số điểm tối thiểu MinPTs
Cho một tập dữ liệu và một ngưỡng hỗ trợ minSup
Gọi A là số lượng frequent itemset,
B là số lượng closed frequent itemsets, C là số lượng max frequent itemsets tìm được Cho biết mệnh đề nào sau đây là đúng:
Trang 21Đúng
Đạt điểm 1,00 trên 1,00
Đặt cờ Đoạn văn câu hỏi
Trong khai thác tập phổ biến, nếu một dataset có 99 loại mục (item) thì số tập phổ biến tối đa có thể có là bao nhiêu?
Một tập mục (itemset) được gọi là phổ biến nếu:
Select one:
a Độ hỗ trợ lớn hơn hoặc bằng ngưỡng cho trước
b Độ hỗ trợ thấp hơn hoặc bằng ngưỡng cho trước
c Độ hỗ trợ đúng bằng ngưỡng cho trước
Đoạn văn câu hỏi
Áp dụng giải thuật apriori trên tập dữ liệu gồm 5 loại mục {A, B, C, D, E}
Giả sử thu được các 2-itemsets phổ biến là {A, B}, {A, C}, {A, D}, {B, C}, {B, E}, {C, E}
Hỏi trong các itemsets sau, itemset nào sẽ là ứng viên 3-itemsets cần xem xét ở vòng lặp tiếp theo?
Select one or more: