1. Trang chủ
  2. » Công Nghệ Thông Tin

Review C1_2_3 pdf

4 330 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Câu hỏi ôn tập – Chương 1-2-3 Sinh viên chọn 1 câu trả lời đúng nhất. Nếu chọn câu (e) thì sinh viên cần trình bày đáp án khác so với đáp án ở các câu (a), (b), (c), và (d) và/hoặc giải thích lựa chọn (e) của mình. Câu 1. Phát biểu nào sai khi nói về quá trình khám phá tri thức? a. Khám phá tri thức là một quá trình lặp và tương tác; trong đó, khai phá dữ liệu là một quá trình con liên quan đến việc quản lý một lượng lớn dữ liệu sẽ được khai phá một cách hiệu quả, liên quan đến việc mô hình hoá/biểu diễn tri thức/thông tin thú vị và ẩn trong dữ liệu được khai phá, và cũng liên quan đến việc xử lý lượng lớn dữ liệu được khai phá và từ đó, suy luận ra được tri thức/thông tin thú vị đó. b. Khám phá tri thức là một quá trình lặp và tương tác, luôn đòi hỏi người sử dụng phải giám sát và can thiệp vào bước khai phá dữ liệu (một quá trình con trong quá trình khám phá tri thức) để điều chỉnh phần nhập (input) cho phù hợp với yêu cầu đối với phần xuất (output). c. Khám phá tri thức là khai phá dữ liệu được thực hiện trên một lượng lớn dữ liệu để dẫn ra tri thức/thông tin thú vị mà không thể nào có được bằng việc phân tích – truy vấn dữ liệu theo cách truyền thống; tuy nhiên, khám phá tri thức có thể được hiểu rộng hơn là một quá trình lặp và tương tác gồm cả giai đoạn tiền xử lý và quá trình khai phá dữ liệu. d. Khám phá tri thức gồm nhiều quá trình con: tiền xử lý dữ liệu, khai phá dữ liệu, đánh giá và trình bày tri thức; trong đó, công nghệ kho dữ liệu có thể được sử dụng để quản lý dữ liệu sẽ được khai phá hoặc không cần được sử dụng để quản lý dữ liệu sẽ được khai phá. e. Ý kiến khác. Đáp án: e với b và c đều sai. Câu 2. Dữ liệu sẽ được khai phá có những đặc điểm nào sau đây? a. Dữ liệu sẽ được khai phá nên là dữ liệu có cấu trúc để quá trình khai phá dữ liệu có thể điều khiển việc truy xuất dữ liệu một cách dễ dàng và hiệu quả nhất. b. Dữ liệu sẽ được khai phá là dữ liệu quá khứ được thu thập theo thời gian và lưu trữ trên các tập tin và/hoặc trong các hệ cơ sở dữ liệu. c. Lượng dữ liệu càng lớn càng tốt để chất lượng của kết quả khai phá dữ liệu càng tốt. d. Kiểu của dữ liệu sẽ được khai phá (ví dụ: tập ảnh số, tập video, tập giao dịch mua hàng, …) phong phú và dạng tri thức gì mong muốn được khám phá từ tập dữ liệu sẽ được khai phá cũng phong phú. e. Ý kiến khác. Đáp án: d. Câu 3. Chọn phát biểu đúng về một giải thuật khai phá dữ liệu. a. Một giải thuật khai phá dữ liệu gồm 4 thành phần cơ bản: cấu trúc mẫu hay cấu trúc mô hình; hàm tỉ số; phương pháp tìm kiếm và tối ưu hoá; và chiến lược quản lý dữ liệu; trong đó, cấu trúc mẫu hay cấu trúc mô hình chủ yếu liên quan đến thành phần xuất của giải thuật và chiến lược quản lý dữ liệu chủ yếu liên quan đến thành phần nhập của giải thuật. b. Một giải thuật khai phá dữ liệu gồm 4 thành phần cơ bản: cấu trúc mẫu hay cấu trúc mô hình; hàm tỉ số; phương pháp tìm kiếm và tối ưu hoá; và chiến lược quản lý dữ liệu; trong đó, 1 phương pháp tìm kiếm nhằm xác định một cấu trúc mẫu/mô hình khai phá phù hợp từ tập dữ liệu được khai phá và tối ưu hóa nhằm giảm độ phức tạp của giải thuật khai phá dữ liệu. c. Một tác vụ khai phá dữ liệu thường có thể được thực hiện bởi một hay nhiều giải thuật khai phá dữ liệu tương ứng. Do đó, khi lựa chọn một giải thuật cho một tác vụ khai phá dữ liệu, ta cần phải thực hiện từng giải thuật sẵn có trên tập dữ liệu được khai phá; sau đó, đánh giá và chọn ra một giải thuật sao cho kết quả mẫu hay mô hình đạt được là tốt nhất. d. Một tác vụ khai phá dữ liệu thường có thể được thực hiện bởi một hay nhiều giải thuật khai phá dữ liệu tương ứng. Do đó, khi lựa chọn một giải thuật cho một tác vụ khai phá dữ liệu, ta cần phải dựa vào độ phức tạp về thời gian cũng như không gian của giải thuật sau khi đã xem xét loại tri thức sẽ đạt được phù hợp với tác vụ. e. Ý kiến khác. Đáp án: a. Câu 4. Cho dữ liệu về một thuộc tính A của một tập 12 đối tượng như sau: 4, 6, 5, 9, 8, 1, 3, 2, 7, 10, 12, 11. Kết quả nào sau đây là hợp lý nhất khi thực hiện làm trơn dữ liệu (giảm thiểu nhiễu) với 3 bin có cùng số lượng đối tượng và sử dụng bin boundaries? a. bin 1: 4, 4, 9, 9; bin 2: 8, 8, 2, 2; bin 3: 7, 7, 11, 11 b. bin 1: 1, 1, 4, 4; bin 2: 5, 5, 8, 8; bin 3: 9, 9, 12, 12 c. bin 1: 4, 4, 9, 9; bin 2: 1, 1, 8, 8; bin 3: 7, 7, 12, 12 d. bin 1: 4, 6, 6, 9; bin 2: 8, 3, 3, 2; bin 3: 7, 10, 10, 11 e. Ý kiến khác. Đáp án: b. Câu 5. Cho dữ liệu về một thuộc tính A của một tập 20 đối tượng như sau: 4, 9, 6, 4, 5, 9, 15, 8, 1, 1, 3, 13, 2, 7, 10, 9, 12, 11, 14, 16. Kết quả rời rạc hóa với 4 đoạn (interval) nào sau đây là kết quả của phương pháp historam analysis dùng equal-width? a. Interval 1 = [4, 5] gồm: 4, 9, 6, 4, 5; Interval 2 = [9, 1] gồm: 9, 15, 8, 1, 1; Interval 3 = [3, 10] gồm: 3, 13, 2, 7, 10; Interval 4 = [9, 16] gồm: 9, 12, 11, 14, 16. b. Interval 1 = [1, 4] gồm: 1, 1, 2, 3, 4; Interval 2 = [4, 8] gồm: 4, 5, 6, 7, 8; Interval 3 = [9, 11] gồm: 9, 9, 9, 10, 11; Interval 4 = [12, 16] gồm: 12, 13, 14, 15, 16. c. Interval 1 = [1, 4] gồm: 1, 1, 2, 3, 4, 4; Interval 2 = [5, 8] gồm: 5, 6, 7, 8; Interval 3 = [9, 12] gồm: 9, 9, 9, 10, 11, 12; Interval 4 = [13, 16] gồm: 13, 14, 15, 16. d. Interval 1 = [4, 9] gồm: 4, 4, 5, 6, 9; Interval 2 = [1, 15] gồm: 1, 1, 8, 9, 15; Interval 3 = [2, 13] gồm: 2, 3, 7, 10, 13; Interval 4 = [9, 16] gồm: 9, 11, 12, 14, 16. e. Ý kiến khác. Đáp án: c. Câu 6. Cho tập dữ liệu (Bảng 1) về điểm thi của sinh viên có phân bố được mô tả trong Hình 1. Đặc điểm nào sau đây đúng về phân bố điểm thi này? a. Mode, median, và midrange đều bằng 60. b. Phân bố điểm thi này không đối xứng, bị nghiêng theo hướng âm (negative skew). c. Số lượng phần tử nhỏ hơn mean ít hơn số lượng phần tử lớn hơn mean. d. Tập dữ liệu quá nhỏ nên không thể có kết luận đúng về phân bố này. 2 e. Ý kiến khác. Đáp án: e với a, b, và c đều đúng. Câu 7. Cho trước mô hình hồi qui từ tập dữ liệu ở Bảng 2 với giả sử mối quan hệ ước lượng giữa biến đáp ứng y (điểm thi cuối kỳ) và biến dự báo x (điểm bài tập về nhà) như sau: y = b0 + b1*x. Nếu sinh viên có điểm bài tập về nhà là 9 thì điểm thi cuối kỳ của sinh viên này là bao nhiêu? (Giả sử điểm được làm tròn lên đến 0.5). a. 9.5. b. 9.0. c. 8.5. d. 8.0. e. Ý kiến khác. Đáp án: c. Câu 8. Phát biểu nào sau đây không đúng về binning? a. Binning là phương pháp rời rạc hoá dữ liệu cho các thuộc tính số. Thực chất, binning là tên gọi khác của phương pháp histogram analysis với 2 cách tiếp cận: equal-frequency và equal- width. b. Binning vừa là phương pháp giảm thiểu nhiễu (làm trơn dữ liệu) vừa là phương pháp rời rạc hoá dữ liệu cho các thuộc tính số; trong đó, các phần tử dữ liệu đã có thứ tự tăng dần trước khi được xử lý với binning. c. Binning là một trong những phương pháp giúp thu giảm lượng dữ liệu và hỗ trợ xây dựng phân cấp ý niệm theo hướng tiếp cận không giám sát từ trên xuống. d. Binning có những hạn chế sau cần được lưu ý khi được sử dụng: không nhận diện nhiễu trước khi xử lý dữ liệu; kết quả sau khi xử lý dễ bị ảnh hưởng bởi các phần tử biên; và yêu cầu xác định số lượng bin trước khi xử lý dữ liệu. e. Ý kiến khác. Đáp án: a. Câu 9. Những vấn đề nào có thể gặp phải khi tích hợp dữ liệu từ nhiều nguồn dữ liệu khác nhau vào một kho dữ liệu tập trung? a. Dư thừa dữ liệu do khả năng dẫn xuất ra nhau giữa dữ liệu của các thuộc tính. b. Không nhất quán về việc biểu diễn dữ liệu, cấu trúc và ngữ nghĩa của dữ liệu, đơn vị đo lường dữ liệu, mã hóa dữ liệu. c. Trùng lắp dữ liệu. d. Giảm độ chính xác của dữ liệu. e. Ý kiến khác. Đáp án: e với a, b, c, và d đều đúng. Câu 10. Các mô hình hồi qui có thể được phân biệt với nhau dựa vào những đặc điểm nào sau đây? 3 a. Đặc điểm kết hợp của các thông số hiện diện trong mô hình hồi qui. Ví dụ: mô hình hồi qui tuyến tính và mô hình hồi qui phi tuyến. b. Số lượng các biến dự báo. Ví dụ: mô hình hồi qui đơn biến và mô hình hồi qui đa biến. c. Mục đích sử dụng của mô hình. Ví dụ: mô hình hồi qui dự báo và mô hình hồi qui mô tả. d. Mức độ hiểu biết về mối quan hệ ước lượng giữa các biến đáp ứng và các biến dự báo. Ví dụ: mô hình hồi qui có thông số, mô hình hồi qui phi thông số, và mô hình hồi qui có thông số kết hợp. e. Ý kiến khác. Đáp án: e với a, b, c, và d đều đúng. Bảng 1. Tập dữ liệu về điểm thi của sinh viên Sinh viên Điểm thi 1 25 2 25 3 40 4 45 5 50 6 60 7 60 8 60 9 65 10 80 11 85 12 85 13 95 Bảng 2. Tập dữ liệu điểm thi (y) và điểm bài tập về nhà (x) của sinh viên. Sinh viên y x 1 8 8 2 5 6 3 5 5 4 9 10 5 4 5 6 2 1 7 7 6 8 7 7 9 6 7 10 3 3 11 9 9 12 5 4 Hình 1. Phân bố điểm thi của sinh viên (tương ứng với tập dữ liệu ở Bảng 1) 4 . bin 2: 8, 8, 2, 2; bin 3: 7, 7, 11, 11 b. bin 1: 1, 1, 4, 4; bin 2: 5, 5, 8, 8; bin 3: 9, 9, 12, 12 c. bin 1: 4, 4, 9, 9; bin 2: 1, 1, 8, 8; bin 3: 7, 7, 12, 12 d. bin 1: 4, 6, 6, 9; bin 2: 8, 3, . Interval 2 = [9, 1] gồm: 9, 15, 8, 1, 1; Interval 3 = [3, 10] gồm: 3, 13, 2, 7, 10; Interval 4 = [9, 16] gồm: 9, 12, 11, 14, 16. b. Interval 1 = [1, 4] gồm: 1, 1, 2, 3, 4; Interval 2 = [4, 8]. 10, 11, 12; Interval 4 = [ 13, 16] gồm: 13, 14, 15, 16. d. Interval 1 = [4, 9] gồm: 4, 4, 5, 6, 9; Interval 2 = [1, 15] gồm: 1, 1, 8, 9, 15; Interval 3 = [2, 13] gồm: 2, 3, 7, 10, 13; Interval

Ngày đăng: 28/06/2014, 09:20

Xem thêm

TỪ KHÓA LIÊN QUAN

w