Tổng hợp 45 câu hỏi môn khai thác dữ liệu

Tổng hợp 45 câu hỏi trắc nghiệm môn học Khai Thác Dữ Liệu chuyên ngành Công nghệ thông tin. Hy vọng sẽ giúp ích các bạn trong việc ôn tập và trong các kì thi sắp tơi.

Trang 1

Câu hỏi 2

Đúng

Đạt điểm 1,00 trên 1,00

Đặt cờ Đoạn văn câu hỏi

Trong danh sách sau, thao tác nào không được cho là thao tác khai thác dữ liệu :

1 Frequent pattern mining

Bài toán tìm cấu trúc ẩn chứa bên trong tập dữ liệu không được gán nhãn được gọi là

Bài toán phát hiện giao dịch gian lận của thẻ tín dụng là dạng bài toán?

a Học có giám sát (supervised learning)

b Học không giám sát (unsupervised learning)

c Học tăng cường (reinforcement learning)

d Tất cả các câu còn lại đều sai

Trang 2

Câu hỏi 4

Đúng

Bài toán dẫn xuất ra mô hình từ tập dữ liệu huấn luyện được gán nhãn được gọi là Select one:

a Học có giám sát (supervised learning)

b Học không giám sát (unsupervised learning)

c Học tăng cường (reinforcement learning)

Câu hỏi 5

Đúng

Bài toán khai thác dữ liệu nào dưới đây thực hiện để nhận dạng cho dữ liệu mới dựa trên những dữ liệu đã biết trước?

Trang 3

Cho biết các vấn đề nào sau đây liên quan đến chất lượng dữ liệu?

Một trang web thương mại điện tử muốn tăng cường thêm tính năng gợi ý cho khách hàng các món hàng nên mua cùng nhau sẽ áp dụng bài toán khai thác dữ liệu nào dưới đây?

Trang 4

Cho dataset như hình, cho biết số chiều (dimension) và kích thước (size) của dataset?

Select one:

a Số chiều dữ liệu là 5, Kích thước dữ liệu là 10

b Số chiều dữ liệu là 10, Kích thước dữ liệu là 5

c Số chiều dữ liệu là 2, Kích thước dữ liệu là 10

Trang 5

Câu hỏi 9

Đúng

Cho biết vấn đề liên quan đến chất lượng dữ liệu trong hai dòng đánh dấu B của bảng dữ liệu sau:

Đoạn văn câu hỏi

d Số chiều dữ liệu là 1, Kích thước dữ liệu là 5

Trang 6

Cho dataset như hình, cho biết thuộc tính nào có dạng

Ordinal

Select one:

Trang 7

Các mệnh đề nào sau đây đúng với khái niệm sampling

Select one:

a Sampling là kỹ thuật chính cho thao tác chọn dữ liệu (data selection)

b Sử dụng sampling vì lý do thao tác trên toàn bộ tập dữ liệu là tốn kém và mất nhiều thời gian

c Dùng kết quả sampling để khai thác sẽ cho kết quả tương đương với dùng toàn bộ dataset nếu thực hiện sampling hợp lý

d Các câu còn lại đều đúng

Đúng

Thao tác nào sau đây giúp thu giảm số điểm dữ liệu trong tập dữ liệu?

Trang 8

Câu hỏi 14

Đúng

Giải thuật nào sau đây được xếp vào nhóm học không giám sát (unsupervised learning)?

Case-based learning là gì?

Select one:

a Là giải thuật học máy để tìm sự phân lớp tối ưu cho một tập dữ liệu mẫu dựa trên lý thuyết xác suất

b Là giải thuật học máy để giới hạn không gian tìm kiếm cho một giả thiết

c Là một hướng tiếp cận để thiết kế giải thuật học máy lấy ý tưởng từ việc con người gặp tình huống mới thì sẽ diễn giải tình huống mới bằng cách tham chiếu đến các tình huống đã xảy ra trước đó d Không có câu nào đúng

Đúng

Đặt cờ

Một trang web thương mại điện tử muốn bổ sung chức năng dự đoán việc click lên các mục quảng cáo của khách viếng thăm Đây là dạng bài toán:

Thao tác nào sau đây giúp thu giảm số thuộc tính trong tập dữ liệu?

Trang 9

Trong Naive Bayes, các giá trị xác suất được xác định bằng cách nào?

Select one:

a Là các tham số nhập vào từ người dùng

Đặt cờ

Giải thuật nào sau đây là giải thuật xây dựng m ô hình phân lớp dựa trên cây quyết địnhSelect one:

a Hunt’s Algorithm

b CART

c C4.5

d Tất cả đều đúng

Trang 10

b Được ước lượng từ tập dữ liệu huấn luyện

c Được ước lượng từ tập dữ liệu kiểm tra

d Được gán giá trị mặc định và giải thuật tự điều chỉnh sau khi đánh giá kết quả

Đúng

Cho Confusion Matrix như sau:

Cho số lượng trường hợp bộ phân lớp cho kết quả sai?

Trang 11

Mô tả nào sau đây đúng cho khái niệm "overfitting"?

Select one:

a Khi mô hình học quá đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập dữ liệu kiểm tra đều có nhiều dự đoán sai

b Khi mô hình học quá phức tạp dẫn đến thực thi chính xác trên tập dữ liệu huấn luyện nhưng nhiều

dự đoán sai trên tập dữ liệu kiểm tra

c Khi mô hình học quá phức tạp dẫn đến thời gian thực thi lớn nhưng có kết quả chính xác

Mô hình cây quyết định rơi vào tình huống overfitting nghĩa là?

Select one:

a Cây có cấu trúc phức tạp

b Cây có cấu trúc đơn giản

c Cây có nhiều node lá

d Tất cả đều sai

Trang 12

Mệnh đề nào đúng về độ đo F-score cho mô hình phân lớp

Trong cây quyết định node nào đại diện cho thuộc tính dùng để kiểm tra? Select one:

a Node lá

b Node trung gian

Mô hình học máy nào được gọi là lazy-learning?

Trang 13

Mô tả nào sau đây đúng cho khái niệm "underfitting" Select

Số lượng thuộc tính (features) tối thiểu để gom cụm được là bao nhiêu?

Trang 14

DBSCAN là giải thuật phân vào nhóm:

Trong giải thuật gom cụm theo mật độ DBSCAN, khái niệm mật độ được mô hình hóa như thế nào? Select one:

a Qua tham số mô tả số điểm tối thiểu trong một bán kính cho trước

b Qua tham số mô tả số điểm tối đa trong một bán kính cho trước

c DBSCAN tự phát hiện số cụm cùng mật độ của nó

d Tất cả đều sai

Trang 15

DBSCAN cần cho biết số cụm trước khi thực thi?

Chỉ ra mệnh đề sai về K-Means Select

Trường hợp nào sau đây K-Means không cho kết quả tốt

1 Dữ liệu có ngoại biên (outlier)

2 Dữ liệu có mật độ phân bố thay đổi

3 Dữ liệu phân bố theo hình tròn

4 Dữ liệu phân bố theo dạng hình không lồi (non-convex) Select one:

Trang 16

one:

a Giải thuật gom cụm K-means tương tự giải thuật KNN (K- nearest neighbor)

b K-Means phân chia n đối tượng dữ liệu thành k cụm

c K-means là một phương pháp lượng tử hóa vector (vector quantization) d Tất cả các mệnh đề đều sai

K-Means thuộc giải thuật học máy Select

one:

a Có giám sát (supervised learning)Supervised

b Không có giám sát (unsupervised learning)

c Tất cả đều sai

Đúng

Giải thuật K-Means yêu cầu điều gì?

Select one:

a Số cụm cho trước

b Độ đo khoảng cách định nghĩa trước

c Trung tâm cụm khởi tạo trước

d Tất cả các ý còn lại

Trang 17

DBSCAN cho phép tìm mật độ phân bố của các

điểm dữ liệu trong tập dữ liệu?

Nếu biết support của Itemset {a, b, c} là 99, hãy chobiết giá trị nào sau đây chắc chắn không phải

support của itemset {a, b} :

Điều kiện dừng của giải thuật K-Means có thể là:

Select one or more:

a Sau một số lần lặp định trước

b Việc phân cụm không thay đổi

c Các trung tâm cụm không thay đổi

d Nếu giá trị hàm mục tiêu có giá trị dưới ngưỡng cho trước

Trang 18

Câu hỏi 38

Đúng

Nếu biết support của Itemset {a, b} là 99, hãy cho biết giá trị nào sau đây chắc chắn không phải support của itemset {a, b, c} :

Trang 19

Câu hỏi 39

Đúng

Cho trước ngưỡng hỗ trợ minSup = 60% và ngưỡng tin cậy minConf = 80% để tìm tập phổ biến và luật kết hợp trên cho dataset sau:

Giải thuật khai thác mẫu phổ biến?

Select one:

a Apriori

b FP-Grownth

c ECLAT

Trang 20

Câu hỏi 41

Đúng

Các tham số để thực thi giải thuật Apriori để tìm mẫu phổ biến và luật kết hợp?

Select one:

a Ngưỡng hỗ trợ MinSup

b Ngưỡng tin cậy MinConf

c Số điểm tối thiểu MinPTs

Cho một tập dữ liệu và một ngưỡng hỗ trợ minSup

Gọi A là số lượng frequent itemset,

B là số lượng closed frequent itemsets, C là số lượng max frequent itemsets tìm được Cho biết mệnh đề nào sau đây là đúng:

Trang 21

Đúng

Trong khai thác tập phổ biến, nếu một dataset có 99 loại mục (item) thì số tập phổ biến tối đa có thể có là bao nhiêu?

Một tập mục (itemset) được gọi là phổ biến nếu:

Select one:

a Độ hỗ trợ lớn hơn hoặc bằng ngưỡng cho trước

b Độ hỗ trợ thấp hơn hoặc bằng ngưỡng cho trước

c Độ hỗ trợ đúng bằng ngưỡng cho trước

Áp dụng giải thuật apriori trên tập dữ liệu gồm 5 loại mục {A, B, C, D, E}

Giả sử thu được các 2-itemsets phổ biến là {A, B}, {A, C}, {A, D}, {B, C}, {B, E}, {C, E}

Hỏi trong các itemsets sau, itemset nào sẽ là ứng viên 3-itemsets cần xem xét ở vòng lặp tiếp theo?

Select one or more:

Định dạng
Số trang	21
Dung lượng	412,86 KB