Phần Lý Thuyết Câu 1: Trình bày các bước cơ bản của một hệ thống nhận dạng đối tượng. Mô hình hóa bài toán nhận dạng. Câu 2: Giả sử rằng cho N lớp w 1 ,…, w N và một véc tơ đặc tính x. Hãy viết luật Bayes cho sự phân lớp véc tơ đặc tính x thuộc về lớp w i . Câu 3: Định nghĩa hàm phân biệt và các dạng của hàm phân biệt. Trình bày luật ra quyết định Bayes có độ chắc chắn nhất. Câu 4: Boosting là gì? Boosting thuộc về phương pháp nhận dạng nào? Em có thể liệt kê một vài thuật toán Boosting mà em được biết? Câu 5: Theo em có thể xây dựng hệ thống nhận dạng biển số xe lưu hành trên đường phố hay không? Hệ thống gồm những giai đoạn nào? Nêu những khó khăn khi xây dựng hệ thố ng này? Câu 6: Nêu sự khác biệt chính giữa hai phương pháp phân lớp dựa vào ước tính độ tương tự chắc chắn nhất và sử dụng đường ranh giới quyết định. Câu 7: Định nghĩa mô hình markov ẩn 2 chiều và hay cho biết mô hình markov ẩn phù hợp với lớp bài toán nhận dạng nào? Nêu ưu điểm và nhược điểm của mô hình này. Câu 8: Ý nghĩa của phương pháp SVM? Dựa vào gì để xác định biên của các lớp? Hàm phân lớ p tuyến tính của SVM có những dạng nào? Em hãy cho biết các dạng đó. Câu 9: Phân biệt giữa hai khái niệm phân lớp và phân cụm dữ liệu? Khi nào thì không phân cụm dữ liệu được và khi nào thì không phân lớp tuyến tính dữ liệu được? Hãy cho biết các giải pháp? Câu 10: Ý nghĩa của giảm số chiều trong biểu diễn dữ liệu? Hãy có biết có những phương pháp nào thường sử dụng để giảm số chiều. Trình bày các bước cơ bả n thuật toán và ý nghĩa của mỗi bước trong thuật toán. Câu 10: Ý nghĩa của phép biến đổi PCA. Hạn chế của PCA là gì? Câu 11: Thế nào là lề (margin)? Để cực đại hóa lề của các lớp dữ liệu ta chọn phương pháp huấn luyện dữ liệu nào? Vì sao? Câu 12: Để tiến hành thực nghiệm về huấn luyện dữ liệu ta cần phải tiến hành những bước nào? Và sử dụ ng phương pháp nào để lượng hóa quá trình học hay huấn luyện mẫu. Câu 13: Hãy cho biết có những phương pháp học nào? Nêu rõ ưu điểm và nhược điểm của mỗi phương pháp học. Câu 14: So sánh sự giống và khác nhau giữa mô hình Boosting và mô hình rừng ngẫu nhiên. Nêu ưu điểm và nhược điểm của hai mô hình này. Đối với lớp bài toán nhận dạng nào thì sử dụng hai mô hình trên là phù hợp. Câu 15: Vì sao gọi là rừng ngẫu nhiên? Tính ngẫu nhiên thể hiện ở đâu trong rừng? Phần Bài Tập Bài 1. Cho một không gian biểu diễn đối tượng ngẫu nhiên: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 0 0 1 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 0 1 2 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 0 1 3 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 1 1 4 X ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 0 0 5 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 1 0 6 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 1 0 7 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 1 1 8 X a) Tính ma trận tương quan R và ma trận hiệp biến A của tập đối tượng ngẫu nhiên. b) Thực hiện một phép lọc trích lọc 2 đặc tính. c) Đánh giá sai số bình phương tối thiểu nhỏ nhất để giảm thứ nguyên của không gian biểu diễn đối tượng. d) Thực hiện một phép trích lọc đặc tính sử dụng phương pháp phân tích thành các thành phần chính. Câu 2. Giả sử rằng chẳng hạn đã xây dựng được thuật toán A. Cho tập mẫu huấn luyện )},(), ,,{( 2211 yxyxT = , trong đó x i là mẫu huấn luyện và y i là nhãn của mẫu x i , y i ∈{-1, +1}. Hãy viết một thuật toán huấn luyện mẫu cho phép cập nhật tập mẫu T đã cho với thuật toán học A đã có (SVM, hoặc Boosting, hoặc mạng Nơ ron …). Câu 3. Để nhận dạng một chuỗi các ký tự chữ viết tay rời rạc từ “A” đến “Z” người ta sử dụng mô hình markov ẩn hai chiều. Giả sử rằng mỗi ký tự viết tay được biểu diễn bởi một mô hình markov ẩn hai chiều độc lập λ(π, A, B) và đã được huấn luyện. Hãy viết thuật toán nhận dạng một ký tự viết tay Y. Câu 4. Cho một tập các đối tượng { } KiX i 1, = = χ . Biết sự phân lớp ban đầu của tập đối tượng là L lớp gồm C 1 , C 2 , , C L . Trong mỗi lớp C j , j=1, ,L đã biết một số đối tượng nhưng không biết đối tượng mô hình mẫu. Hãy xây dựng hàm ra quyết định để khi xuất hiện một đối tượng mới M ta cần phải xếp nó vào một trong các lớp này. Câu 5. Xem xét một mô hình Markov ẩn có trạng thái rõ w 0 có một quan sát duy nhất là v 0 với ma trận xác suất chuyển dịch các trạng tái a ij và ma trận xác suất các quan sát b jk (ở đó chỉ số của ma trận bắt đầu bằng 0) như sau: ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = 1.05.04.0 5.03.02.0 001 ij a ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = 6.04.00 3.07.00 001 jk b a) Hãy vẽ đồ thị biểu diễn của mô hình markov ẩn này. b) Giả sử rằng trạng thái ẩn khởi tạo tại thời điểm t=0 là w 1 . Bắt đầu từ t=1, hãy cho biết xác suất quan sát dãy V 3 ={v 2 , v 1, v 0 }. Bài 6. a) Chứng tỏ rằng hàm logistic sigmoid )1( )( σσ σ −= dz zd b) Log-likelihood âm đối với huấn luyện hồi qui logistic là ∑ −−+−= n i i T ii T i xwyxwywL ))(1log()1()(log)( σσ Chứng tỏ rằng graident của nó có dạng thức đơn giản như sau: ∑ −−= n i ii T i xxwy dw dL ))(( σ Bài 7. Hãy chứng tỏ rằng nếu k 1 (x, x’) và k 2 (x, x’) là đều là nhân hợp lệ, thì k 1 (x, x’) + k 2 (x, x’) cũng hợp lệ. (gợi ý, bắt đầu với các tính chất của Ma trận Gram K i liên quan với k i (x, x’)). Bài 8. Giả sử có N lớp C 1 , C 2 , …, C N và một véc tơ đặc tính X, hãy cho biết luật ra quyết định Bayes phân lớp với xác suất tiền nghiệm (prior probability) của các lớp và mật độ xác suất có điều kiện (class-conditional probability densities) của X. Bài 9. Cho một tập để học { } 8 1, == jXT j có sự phân lớp ban đầu như sau: 1 C : ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 0 0 1 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 0 1 2 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 0 1 3 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 1 1 4 X 2 C : ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 0 0 5 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 1 0 6 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 1 0 7 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 1 1 8 X e) Tìm phương trình phân tách tuyến tính (nếu có thể) bằng thủ tục gia tăng cố định. Viết một giải thuật thực hiện bài toán này theo thuật toán Perceptron và nhận xét. f) So sánh kết quả tìm được với kết quả đạt được theo phương pháp thống kê với giả thuyết rằng các đối tượng có phân bố Gauss. Bài 10. Cho một không gian đối tượng biểu diễn bởi các vector nhị phân, giả thiết không gian này đ ã được phân chia thành 2 lớp theo qui luật ra quyết định có dạng như sau: 1 Cx∈ nếu số các thành phần khác 0 của X là một số chẵn 2 Cx∈ nếu số các thành phần khác 0 của X là một số lẽ Hãy chứng tỏ không gian đối tượng này không thể phân tách tuyến tính. Bài 11. Trong một kênh truyền tin nhị phân thường bị nhiễu phá hủy, giả thiết có phân bố xác suất Gaussian. Hãy áp dụng qui tắc ra quyết định Bayes để xây dựng một qui luật phân biệt (nhận dạng) tín hiệu ở đầu ra của kênh là tín hiệu “0” hay là “1”. Bài 12. Giả sử rằng p(x|w 1 ) và p(x|w 2 ) được định nghĩa như sau: a) Tìm lỗi phân lớp tối thiểu luật g(x) đối với bài toán 2 lớp này, giả sử rằng P(w 1 ) = P(w 2 )=0.5. b) Cho xác xuất tiền nghiệm của lớp thứ nhất, được xem như là , sao cho P(w 1 )> , luật phân lớp với lỗi tối thiểu phải luôn luôn là w 1 đối với x. Xác định . Bài 13. Hãy để các mẫu được rút ra một cách liên tiếp, xác suất P(w i ) của các trạng thái tự nhiên lựa chọn độc lập là chưa biết. Đặt = 1 nếu trạng thái tự nhiên của mẫu thứ k là w i và =0 trong trường hợp ngược lại. a) Chứng tỏ rằng: b) Cho công thức ở trên, chứng minh rằng ước tính độ tương tự chắc chắn nhất đối với P(w i ) là: Bài 14. Tính các xác suất từ mạng Bayes dưới đây a) P(A, B, C, D) b) P(A| B) c) P(C|B) d) P(B|D) Bài 15. Cho một tập các đối tượng { } KiX i 1, = = χ . Biết sự phân lớp ban đầu của tập đối tượng là L lớp gồm C1, C2, , CL. Hãy xây dựng hàm ra quyết định để khi xuất hiện một đối tượng mới M ta cần phải xếp nó vào một trong các lớp này. Biết rằng a) Trong mỗi lớp Cj, j=1, ,L đã biết một số đối tượng nhưng không biết đối tượng mô hình mẫu. b) Biết mô hình mẫu của mỗi lớp Cj, j=1, ,L Bài 16. Phân bi ệt tuyến tính Fisher a) Phương pháp phân biệt tuyến tính Fisher là gì? b) Cho dữ liệu 2 chiều đối với các lớp C 1 = [(1, 1), (1, 2), (1, 4), (2, 1), (3, 1), 3, 3)] và C 2 = [(2, 2), (3, 2), (3, 4), (5, 1), 5, 4), (5, 5)] - Xác định đường chiếu tối ưu trong không gian đơn chiều. - Cho biết ánh xạ của các điểm đến đường thẳng cũng như Bayes phân biệt giả định phân phối phù hợp . Cho một tập các đối tượng { } KiX i 1, = = χ . Biết sự phân lớp ban đầu của tập đối tượng là L lớp gồm C 1 , C 2 , , C L . Trong mỗi lớp C j , j=1, ,L đã biết một số đối tượng nhưng không biết. Vì sao gọi là rừng ngẫu nhiên? Tính ngẫu nhiên thể hiện ở đâu trong rừng? Phần Bài Tập Bài 1. Cho một không gian biểu diễn đối tượng ngẫu nhiên: ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 0 0 1 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 1 0 1 2 X ; ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ = 0 0 1 3 X ;. trận hiệp biến A của tập đối tượng ngẫu nhiên. b) Thực hiện một phép lọc trích lọc 2 đặc tính. c) Đánh giá sai số bình phương tối thiểu nhỏ nhất để giảm thứ nguyên của không gian biểu diễn