Giáo trình nhận dạng và xử lý ảnh phần 2 ts hoàng văn dũng

84 1 0
Giáo trình nhận dạng và xử lý ảnh phần 2   ts  hoàng văn dũng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

CHƯƠNG ĐẶC TRƯNG NÂNG CAO VÀ SO KHỚP ẢNH Biểu diễn liệu mức thấp xử lý trực tiếp điểm ảnh thường cho độ xác thấp Vì vậy, nhằm nâng cao hiệu hệ thống nhận dạng, nhà nghiên cứu trọng tìm, đề xuất giải pháp trích chọn đặc trưng mức cao, có độ phức tạp lớn để làm bật đặc trưng đối tượng ảnh Chương tập trung giới thiệu phương pháp mô tả đặc trưng nâng cao SIFT, SURF, HOG, Haar-like feature phương pháp so khớp ảnh, lọc nhiễu 5.1 Giới thiệu chung Trong lĩnh vực xử lý ảnh, có nhiều toán liên quan đến so khớp ảnh nhận dạng đối tượng, ước lượng chuyển động vật thể (motion estimation), xây dựng mơ hình 3D (3D reconstruction) theo vết chuyển động (motion tracking) Nhiệm vụ so khớp ảnh (matching) so sánh tương đồng mẫu ảnh với ảnh khác để phát vị trí tương ứng vật thể Hai ảnh chụp liên tục lúc nào, vị trí có mẫu chung hai ảnh Trong thực tế, phát đối tượng tương ứng hai ảnh đặt thách thức lớn, ảnh chụp vị trí, góc chụp khác nhau, có độ nghiêng, góc lệch, độ biến dạng khác Phần trình bày số phương pháp mô tả đặc trưng so khớp ảnh ứng dụng nhiều 5.2 Mô tả đặc trưng SIFT 5.2.1 Đặc trưng SIFT Phương pháp mô tả đặc trưng SIFT (Scale-invariant feature transform) đề xuất David Lowe [29], lần trình bày hội thảo quốc tế thị giác máy tính vào năm 1999 Sau đó, phương pháp SIFT hồn thiện xuất tạp chí quốc tế thị giác máy tính năm 2004[25] SIFT hoạt động hiệu trường hợp ảnh bị biến dạng, co giãn, quay ảnh, góc nhìn khác SIFT phương pháp tiếng lĩnh vực nhận dạng, so khớp ảnh dùng phổ biến Hiện nay, kỹ thuật SIFT đăng kí quyền tác giả David Lowe, hồn tồn miễn phí sử dụng cho mục đích nghiên cứu, học tập, nhiên sử dụng cho mục đích thương mại phải xin phép quyền Bộ mô tả đặc trưng dựa vào lược đồ (histogram) giá trị gradient theo hướng độ lớn điểm ảnh vùng ảnh cục (block) Nói cách khác, mơ tả đặc trưng SIFT dùng để mô tả phân phối đặc trưng vùng ảnh quanh điểm (hay cịn gọi điểm chính, keypoint) phát (xác định) nhờ vào tính chất bất biến theo biến đổi hình học điều kiện ánh sáng Nhằm mô tả đặc điểm khác 83 keypoint phục vụ việc đối sánh ảnh, cần có mơ tả đặc trưng phù hợp Một phương pháp mô tả đặc trưng tốt có khả bất biến thay đổi ánh sáng, quay ảnh, co giãn vấn đề biến dạng thay đổi góc chụp thay đổi hình dáng đối tượng (deformable) Thuật tốn SIFT có số bước quan trọng sau: - Xác định điểm cực trị không gian tỷ lệ (scale-space extrema detection) - Xác định vị trí điểm (keypoint localization) - Trích xuất đặc trưng gán hướng cho điểm (orientation assignment) - Mơ tả đặc trưng điểm (keypoint descriptor) 5.2.2 Q trình xử lý SIFT Thuật tốn SIFT thực theo bước sau[25]: 5.2.2.1 Xác định cực trị không gian tỷ lệ Theo tác giả Lower, bước thuật toán xác định điểm (keypoint) có đặc điểm bật điểm cực trị không gian tỷ lệ Hình 5.1 Đối tượng vùng cửa sổ thay đổi co giãn ảnh Trong hình ví dụ này, với ảnh kích thước nhỏ cửa sổ chứa đối tượng góc, phóng to kích thước ảnh, với kích thước vùng cửa sổ, khơng chứa đối tượng góc mà đường cong (hoặc chí xấp xỉ đoạn thẳng) Như đối tượng kích thước ảnh khác cho kết hình dáng đối tượng khác Do đó, cần có giải pháp xử lý phát vùng (điểm ảnh) cho kết bất biến trường hợp co giãn kích thước đối tượng (gọi không gian tỷ lệ -scale space) Các phương pháp lọc khơng gian tỷ lệ (scale-space filtering) nhằm mục đích giải vấn đề gọi xác định điểm cực trị không gian tỷ lệ (scale space extrema detection) Phương pháp SIFT tính độ khác mức lọc Gaussian gọi DoG (Difference of Gaussians) DoG tính điểm ảnh cách lấy nhiều mức lọc Gaussian với giá trị phương sai khác Ảnh đầu vào tích chập với mặt nạ lọc, mặt nạ lọc tạo theo phân phối Gaussian nhằm làm mờ ảnh Sau tính giá trị DoG tồn ảnh mức scale, xét vị trí pixel để so sánh với láng giềng vùng 3x3x3, tương ứng với bảng DoG (như hình minh họa) với láng giềng (neighbors)- vùng kích thước x mức tỷ lệ; vùng 3x3 (9 pixels) vị trí tương ứng lớp vùng 3x3 (9 pixels) vị trí tương 84 ứng mức phía Nếu giá trị DoG vị trí local extrema (cực trị cục bộ: lớn nhỏ nhất) điểm cực trị vị trí mức scale Những điểm lựa chọn điểm tiềm trở thành điểm (potential keypoint) Hình 5.2 Tính DoG theo mức tỷ lệ tạo thành hình chóp [25] Hàm phân phối Gaussian xác định theo công thức sau: G ( x, y ,  )  2 2 e ( x  y 5.1 ) / 2 Hàm phân phối không gian tỷ lệ mô tả hàm phân phối Gaussian G ảnh đầu vào I, với phép tốn tích chập  (convolution), xác định công thức sau: 5.2 L ( x , y , )  G ( x, y , )  I ( x , y ) Để tìm điểm bật có tính bất biến cao với phép tỷ lệ, ta tìm cực trị cục hàm sai khác DoG (Difference of Gaussian) Hàm tính tốn từ độ sai lệch khơng gian tỷ lệ đo ảnh với tham số độ lệch số Giá trị DoG tính theo cơng thức sau: D( x, y,  )   G( x, y, k )  G( x, y,  )   I ( x, y)  L( x, y, k )  L( x, y,  ) Hình 5.3 Xác định điểm cực trị dựa vào mức giá trị DoG [25] (a) 85 5.3 (b) (c) Hình 5.4 Kết minh họa tính DoG tính xác điểm cực trị: (a) ảnh đầu vào điểm tiềm bất biến, (b) áp dụng lọc Gaussian với giá trị  mức co giãn kích thước khác nhau; (c) Giá trị DoG tương ứng với kết hình (b) 5.2.2.2 Xác định vị trí keypoint Thơng thường bước xác định điểm cực trị mức scale cho kết nhiều ứng viên điểm (keypoint candidates), có nhiều điểm khơng ổn định (unstable) Do vậy, sau xác định điểm cực trị cục có khả trở thành keypoint, nhiệm vụ lọc điểm kết xác hơn, có độ ổn định cao hơn, thơng thường điểm biết đổi biến đổi ảnh Bước cho phép xóa điểm có độ tương phản thấp biểu diễn đặc trưng hạn chế dọc theo cạnh Như ta biết, biến đổi DoG nhạy cảm với cạnh (edge), để loại bỏ điểm thuộc cạnh, SIFT dùng biến đổi tương tự Harris corner detector cách dùng ma trận Hessian 2x2 để tính đường cong chính, giá trị riêng lớn ngưỡng keypoint bị loại Quá trình thực sau[25]: Từ kết bước trước ta có tập điểm ứng viên keypoint, khơng phải vị trí xác keypoint, điểm ứng viên thực nội suy với liệu xung quanh để xác định vị trí xác Ta thực biến đổi hàm bậc hai ba chiều (3D) để thiết lập điểm cục nhằm xác định vị trí cực đại tương ứng với vị trí xác điểm ảnh Tác giả sử dụng khai triển Taylor hàm không gian tỷ lệ với tâm nằm điểm D( x)  D  D T 2D x  xT x x x 5.4 86 Với D đạo hàm ước lượng giá trị điểm x  ( x, y , )T khoảng dịch chuyển từ điểm Vị trí cực trị xˆ xác định cách lấy đạo hàm hàm x tính đạo hàm 0, xˆ    D 1 D x x 5.5 Bước loại bỏ điểm ứng viên không ổn định từ danh sách điểm ứng viên keypoint tìm thấy với độ tương phản thấp phân phối dọc đường biên Đối với điểm có độ tương phản thấp, ước lượng giá trị ngưỡng D(xˆ) Thực thay phương trình 5.5 vào phương trình 5.4 trên, ta có kết quả: D( xˆ )  D  D 1 xˆ x 5.6 Loại bỏ giá trị dọc đường biên (cạnh) Theo tác giả Lowe trong[25], điểm có giá trị D( xˆ ) nhỏ 0.03 bị loại bỏ Để loại trừ điểm cực trị vị trí kém, tác giả Lowe sử dụng nguyên lý độ cong đường biên với biên độ nhỏ theo hướng vng góc với hàm phân bố Gaussian khác Ma trận Hessian tính vị trí tỷ lệ keypoint để xác định độ cong Ma trận H xác định sau:  Dxx H   Dxy Dxy  D yy  5.7 với  giá trị riêng với độ lớn lớn  giá trị riêng với độ lớn bé hơn, ta tính tổng giá trị riêng đường chéo chính, Tr(H) giá trị định thức xác định sau: Tr ( H )  Dxx  Dyy     5.8 Det ( H )  Dxx D yy  ( Dxy )   5.9 Như vậy, đường cong có dấu khác điểm loại bỏ khơng phải cực trị Lấy r tỷ lệ giá trị riêng lớn giá trị riêng nhỏ hơn, ta có =r Vậy, vào biểu thức ta có phương trình sau: Tr ( H ) (   ) ( r    ) ( r  1)2  ( r  1)2     Det ( H )  r r r 5.10 Phương trình phụ thuộc vào tỷ lệ giá trị riêng phụ thuộc vào giá trị riêng chúng (r  1) / r đạt giá trị nhỏ giá trị riêng tăng dần với r Vì vậy, để kiểm tra tỷ lệ đường cong ngưỡng r ta cần kiểm tra bất phương trình: ( Dxx  Dyy )2 Tr ( H ) (r  1)2   Det ( H ) Dxx Dyy  ( Dxy ) r 5.11 87 Nếu bất phương trình nhận giá trị sai điểm bị loại bỏ khỏi danh sách keypoint chọn Trong cơng trình nghiên cứu [25], tác giả Lowe việc kiểm tra hiệu quả, với 20 phép tốn cần thực để kiểm tra keypoint Tác giả Lowe thực nghiệm với giá trị r=10 để loại bỏ keypoint có tỷ lệ đường cong lớn 10 Kết thể minh họa sau: a b c 16 Hình 5.5 Kết xác định keypoint : (a) tập ứng viên keypoint ban đầu, (b) loại bỏ điểm có độ tương phản thấp, (c) loại bỏ điểm dọc biên 5.2.2.3 Gán hướng cho keypoint Trong bước này, keypoint gán hướng dựa vào hướng gradient ảnh Đây bước quan trọng để mơ tả đặc trưng bất biến đối tượng bị quay Mỗi keypoint gán với ràng buộc có hướng dựa tập đặc trưng ảnh cục Đầu tiên, ta xử lý với ảnh làm mờ với phân phối Gaussian L  x, y,   mức tỷ lệ (scale) keypoint bước trước để bất biến với việc biến đổi kích thước đối tượng (scale-invarian) Việc tính độ lớn hướng gradient dựa L  x, y  với mức scale  tính sau: m  x, y    L  x  1, y   L  x  1, y     L  x, y  1  L  x, y 1   L  x, y  1  L  x, y  1    L  x  1, y   L  x  1, y     x, y   tan 1  5.12 5.13 Hai phương trình biểu diễn độ lớn hướng gradient điểm ảnh vị trí (x,y) Trong tính tốn thực tế, lược đồ (histogram) gradient tạo dựa vào hướng gradient vùng quanh keypoint Lược đồ hướng biểu diễn 36 bin (để hướng) tương ứng với 360 độ, với bin thể khoảng 10 độ Như vậy, tổng cộng gồm 36 hướng khác Mỗi mẫu thêm vào lược đồ gán trọng số giá trị độ lớn đường tròn trọng số Gaussian  =1.5 lần tỷ lệ keypoint Các bin cực đại cục lược đồ tương ứng với hướng trội gradient cục vùng Xác định hướng trội (tương ứng với bin cao nhất), sau hướng có giá trị lớn 80% giá trị lớn xem keypoint với hướng Như vậy, keypoint có nhiều hướng 16 https://en.wikipedia.org/wiki/Scale-invariant_feature_transform 88 5.2.2.4 Mô tả đặc trưng keypoint Bước trước ta tìm vị trí keypoint mức tỷ lệ cụ thể gán hướng cho keypoint Để sử dụng keypoint việc đối sánh so khớp ảnh phục vụ cho mục đích xử lý khác đạt độ xác cao, cần thiết phải mơ tả đặc trưng keypoint dựa vào tính chất vùng ảnh bao quanh keypoint Mục đích bước tính vector mô tả đặc trưng cho keypoint cho mơ tả có độ phân biệt cao, đảm bảo tính bất biến với điều kiện ánh sáng, vị trí, quay ảnh, biến đổi kích thước biến dạng đối tượng, đặc biệt xử lý biến đổi hình học 3D Mô tả đặc trưng keypoint giới hạn vùng bao quanh vị trí keypoint với kích thước 16×16 pixels (có thể định nghĩa kích thước khác) Vùng chia nhỏ thành 4×4 vùng con, tương ứng vùng 4×4 pixel Mỗi vùng tính lược đồ với hướng khác Như vậy, mô tả đặc trưng keypoint biểu diễn vector với số chiều 4×4×8=128 phần tử Vector sau chuẩn hóa (về độ dài đơn vị) nhằm mục đích làm bật khả bất biến với biến đổi hình học biến đổi độ chiếu sáng Để giảm ảnh hưởng độ sáng phi tuyến tính, cường độ gradient lớn áp dụng ngưỡng giá trị vào vector đặc trưng, giá trị không lớn ngưỡng Giá trị ngưỡng xác định giá trị 0.2 sử dụng sau vector chuẩn hóa lại, ngưỡng 0.2 lựa chọn theo kinh nghiệm Hình 5.6 Mơ tả đặc trưng keypoint lược đồ hướng gradient [25] Sau ghép tích lũy độ lớn gradient vùng 4×4 pixel thu mô tả cell, mô tả cell vector hướng Trong hình minh họa cho biểu diễn 2×2 vùng con, vùng có 4×4 pixels Hình bên trái mơ tả gradient pixel với hướng độ lớn thể theo hướng mũi tên độ dài tương ứng Hình bên phải lược đồ theo hướng độ lớn gradient vùng 4×4 pixel 5.3 Mơ tả đặc trưng SURF 5.3.1 Giới thiệu đặc trưng SURF Đặc trưng SURF (speeded up robust features) giới thiệu năm 2006 nhóm tác giả Herbert Bay, Tinne Tuytelaars Luc Van Gool cơng trình nghiên cứu trình bày hội thảo châu Âu thị giác máy tính [28] Cách tiếp cận phương pháp tương đối giống với phương pháp SIFT[25], nhiên phương pháp có tốc độ trích rút đặc trưng nhanh vài lần so với SIFT đảm bảo độ 89 xác SIFT (theo nhóm tác giả nhận định) Tương tự phương pháp SIFT, SURF đăng ký quyền lĩnh vực phát mô tả đặc trưng thị giác máy tính Hiện nay, SURF sử dụng nhiều vấn đề xác định vị trí nhận dạng đối tượng nhận dạng người, mặt người, xây dựng mơ hình 3D (3D reconstruction), theo vết đối tượng so khớp đối tượng ảnh,… Để phát điểm quan tâm (interest point), SURF sử dụng phương pháp phát đốm Hessian, cách tiếp cận tính tốn với tốn tử số nguyên cách sử dụng phương pháp tích phân ảnh (integral image) Mô tả đặc trưng thực dựa vào tổng giá trị Haar wavelet quanh keypoint SURF sử dụng phương pháp cực trị không gian tỷ lệ để tìm điểm đặc trưng (keypoint) Các đặc trưng keypoint mô tả biểu diễn dạng vector biểu diễn độ lớn hướng gradient phân phối đặc trưng Phương pháp SURF gồm hai bước thuật tốn phát keypoint (detection) mô tả đặc trưng vùng liệu quanh keypoint (keypoint description) 5.3.2 Phát keypoint Như đề cập, thuật toán SURF dựa nguyên tắc bước SIFT, chi tiết bước có khác Thuật tốn SURF sử dụng mặt nạ lọc hình vng xấp xỉ lọc mịn Gaussian, SIFT dùng lọc hình thác để phát điểm bất biến với phép tỷ lệ với DoG tính dựa mức tỷ lệ kích thước khác ảnh Lọc ảnh với cấu trúc vuông nhanh sử dụng phương pháp tích phân ảnh (integral image, kỹ thuật trình bày chi tiết phần đặc trưng Haar), với ảnh đầu vào I, tổng giá trị S mức xám pixel vùng X=(x,y) tính theo cơng thức sau: x y S ( x, y )   I (i , j ) 5.14 i0 j 0 Tổng mức xám ảnh gốc vùng hình chữ nhật tính nhanh theo nguyên tắc cộng dồn vào bảng sử dụng giá trị tương ứng bảng cộng dồn bốn góc vùng để tính tổng giá trị xám vùng đó, hình minh họa SURF phát điểm quan tâm cách sử dụng phương pháp nhận dạng đốm theo ma trận Hessian Định thức ma trận Hessian dùng để đo thay đổi cục quanh điểm điểm chọn vị trí định thức đạt giá trị cực đại SURF sử dụng định thức Hessian cho việc lựa chọn mức tỷ lệ Cho điểm p(x,y) ảnh I hệ số tỷ lệ , ma trận Hessian H(p,) xác định sau:  L ( p, ) H ( p,  )   xx  L yx ( p,  ) Lxy ( p ,  )  Lyy ( p,  )  5.15 90 Ảnh gốc A Bảng cộng dồn C S A D B B C S D S=D-B-C+A Hình 5.7 Sử dụng phương pháp integral image để tính nhanh tổng vùng hình chữ nhật (mức xám thể tương đối giá trị lưu bảng) Với Lxx ( p ,  ), Lxy ( p ,  ), L yx ( p,  ), L yy ( p,  ) tích chập đạo hàm bậc Gaussian với ảnh I(x, y) điểm x, y tương ứng  g ( ) / x , ký hiệu tương ứng Dxx, Dyy Dxy Một mặt nạ lọc kích thước 9×9 theo phân phối Gaussian với =1.2 thể mức thấp (độ phân giải cao nhất) cho việc tính ánh xạ giá trị phản hồi đốm Hình 5.8 Đạo hàm cục bậc hai Gaussian y-(Lyy) xy-(Lxy) tương ứng với hình thứ Xấp xỉ rời rạc hóa tương ứng với giá trị -1 hình 4, với vùng xám không [28] Như vậy, định thức Hessian xác định sau: Det  H   Dxx Dyy   wDxy  5.16 Với w trọng số cân biểu thức định thức Hessian tùy thuộc vào hệ số tỷ lệ Điều cần thiết để trì lực nhân Gaussian xấp xỉ Gaussian: w Lxy (1.2) Lyy (1.2) F F Dyy (9) Dxy (9) F 5.17  0.9 F Với |x|F chuẩn Frobenius Lưu ý, thực tế trọng số thay đổi phụ thuộc vào mức scale, giữ hệ số số với ngụ ý khơng có ảnh hưởng quan trọng đến kết theo thực nghiệm Bay[28] Tập điểm xác định mức tỷ lệ khác nhau, so sánh ảnh thường yêu cầu thực ảnh với nhiều mức tỷ lệ khác Trong thuật toán phát đặc trưng khác, người ta thường xử lý nhiều mức tỷ lệ ảnh gọi kim tự tháp ảnh (image pyramids) Ảnh làm mờ với lọc Gaussian, sau tiếp tục áp dụng lại cho mức scale cao (hoặc thấp hơn) theo kích thước ảnh để tìm kiếm điểm quan tâm Với phương pháp SURF, mức thấp không gian tỷ lệ nhận từ đầu lọc 9×9 Do vậy, khác với phương pháp trước (ví dụ SIFT), khơng 91 gian tỷ lệ SURF thực cách áp dụng lọc với kích thước khác Theo đó, khơng gian tỷ lệ phân tích với kích thước lọc tăng dần lên thay giảm dần kích thước ảnh Đầu lọc 9×9 xem mức khởi tạo với hệ số tỷ lệ s=1.2 (tương ứng với đạo hàm Gaussian với =1.2) Các mức sau thu cách lọc với mặt nạ lớn hơn, ví dụ 9×9, 15×15, 21×21,… Việc xử lý loại trừ không cực đại (non-maximum suppression) điểm vùng láng giềng 3×3×3 áp dụng để xác định vị trí điểm quan tâm ảnh mức tỷ lệ khác Cực đại định thức ma trận Hessian sau nội suy không gian ảnh không gian scale cách sử dụng phương pháp Brown [30] Nội suy không gian tỷ lệ bước đặc biệt quan trọng, khác tỷ lệ lớp đầu quãng tương đối lớn Hình 5.9 Các vùng điểm phát Hessian dùng SURF 5.3.3 Mô tả đặc trưng SURF Mục tiêu bước cung cấp mô tả đặc trưng ảnh có tính đơn bền vững cho keypoint Việc mô tả dựa phân phối cường độ sáng vùng quanh keypoint Số chiều mơ tả có ảnh hưởng trực tiếp đến việc tính tốn độ xác bước sau so sánh mẫu, nhận dạng mẫu,… Một mơ tả với số chiều nhỏ vững tính biến đổi giao diện nhiên gặp phải vấn đề khơng cung cấp đủ khác biệt mô tả keypoint dẫn đến có nhiều nhầm lẫn kết so sánh mẫu Tương tự phương pháp SIFT, bước thực gán hướng dựa vào thơng tin vùng trịn xung quanh keypoint, xếp hướng chọn trích xuất đặc trưng SURF Để nhận mô tả bất biến với phép biến đổi quay, hướng keypoint cần xác định Tính tốn giá trị Haar wavelet theo hướng x y hình trịn xung quanh keypoint bán kính 6s, với s mức tỷ lệ tương ứng mà keypoint tìm thấy Giá trị trọng số hóa hàm phân phối Gaussian với tâm vị trí keypoint Hướng trội ước lượng việc tính tổng giá trị phản hồi cửa số hướng với kích thước xác định trước 92 Hiện nay, có nhiều cơng cụ gói phần mềm tích hợp mơ hình mạng tích chập AlexNet Trong phần mềm ngơn ngữ lập trình Matlab, mơ hình Pretrained AlexNet tích hợp vào cơng cụ Neural Network từ năm 2017 với kiến trúc 25 lớp bảng minh họa sau TT Kiểu lớp Image Input Convolution ReLU Cross Channel Normalization Max Pooling Convolution ReLU Cross Channel Normalization Max Pooling 10 Convolution 11 ReLU 12 Convolution 13 ReLU 14 Convolution 15 16 17 18 19 20 21 22 23 24 25 ReLU Max Pooling Fully Connected ReLU Dropout Fully Connected ReLU Dropout Fully Connected Softmax Classification Mơ tả Ảnh đầu vào kích thước chuẩn hóa 227x227x3 96 lọc tích chập kích thước 11×11×3, bước trượt với stride [4 4] padding [0 0] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Chuẩn hóa cross channel với kênh/phần Lớp max pooling sử dụng kích thước 3x3, bước trượt stride [2 2] padding [0 0] 256 lọc tích chập kích thước 5×5×48, bước trượt với stride [1 1] padding [2 2] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Chuẩn hóa cross channel với kênh/phần 3x3 max pooling with stride [2 2] and padding [0 0] 384 lọc tích chập kích thước 3×3×256, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 384 lọc tích chập kích thước 3×3×192, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 256 lọc tích chập kích thước 3×3×192, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 3x3 max pooling with stride [2 2] and padding [0 0] Lớp kết nối đầy đủ với 4096 nút đầu Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Sử dụng dropout 50% Lớp kết nối đầy đủ với 4096 nút đầu Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Sử dụng dropout 50% Lớp kết nối đầy đủ với 1000 nút đầu Sử dụng lọc softmax Phân loại với đầu 1.000 lớp Bảng 7.1 Bảng mô tả kiến trúc 25 lớp mạng AlexNet Matlab26 Một số đặc điểm mơ hình AlexNet sau: - Mơ hình pretrain AlexNet huấn luyện tập liệu lớn ImageNet[66] Tập liệu lớn gồm 15 triệu ảnh tạo nhãn (annotation) với tổng cộng 22 nghìn lớp đối tượng khác 26 https://www.mathworks.com/help/nnet/ref/alexnet.html 152 - Sử dụng lớp ReLU (rectified linear unit) thay cho hàm phi tuyến nhằm giảm làm thời gian huấn luyện Kết cho thấy dùng kiểu lớp ReLU nhanh nhiều lần so với hàm truyền thống khác (hàm lượng giác hyperbolic), sigmoid - Sử dụng kỹ thuật tăng cường liệu (data augmentation) nhằm làm gia tăng liệu huấn luyện từ liệu gốc phép biến đổi hình học phép quay, tịnh tiến, trích xuất vùng con, co giãn làm méo ảnh - Thực nhiều lớp dropout nhằm giải vấn đề khớp (overfitting) tập liệu huấn luyện - Huấn luyện mơ hình sử dụng phương pháp giảm gradient ngẫu nhiên (stochastic gradient descent) với giá trị đặc biệt cho thông số động lượng (momentum) trọng số phân rã (weight decay) nhằm tìm cực trị theo đạo hàm bậc - Thành công AlexNet bước tiên phong, tạo tiền đề cho phát triển vượt bậc kỹ thuật trí tuệ nhân tạo Sự thành cơng AlexNet phần nhờ vào kỹ thuật xử lý song song GPU, mơ hình pretrain AlexNet huấn luyện GPU GTX 580 với thời gian từ đến ngày 7.4.3 Mạng ZFNet Sau thành công vang dội AlexNet, nhóm nghiên cứu Zeiler Fergus [67] tiếp tục nghiên cứu đề xuất mô hình kiến trúc mạng CNN với tên gọi ZFNet (ZF viết tắt Zeiler Fergus) Về nhóm tác giả ZFNet phát triển dựa tảng mạng AlexNet, đặc biệt tinh chỉnh siêu tham số kích thước nhân tích chập (convolutional kernel size), bước trượt (stride),… Hình 7.14 Kiến trúc lớp mơ hình FZNet [67] Một số đặc điểm mơ hình kiến trúc FZNet: - Kiến trúc mạng FZNet tương đồng với mạng AlexNet, ngoại trừ số thay đổi nhỏ Mạng ZFNet sử dụng mặt nạ phép tích chập với kích thước 7×7 giảm khoảng cách bước trượt mặt nạ (stride), AlexNet sử dụng kích thước mặt nạ 11×11 Việc sử dụng mặt nạ tích chập nhỏ giúp trì thơng tin chi tiết pixel gốc tốt có tốc độ xử lý nhanh - Mơ hình pretrain mạng ZFNet sử dụng khoảng 1,3 triệu ảnh để huấn luyện, AlexNet dùng 15 triệu ảnh 153 - Mạng ZFNet dùng nhiều lớp ẩn để giải toán độ xác Số lượng lọc tăng đáng kể so với kiến trúcAlexNet trước giúp cải thiện chất lượng biểu diễn đặc trưng liệu nhằm nâng cao độ xác - Sử dụng ReLU cho hàm kích hoạt với hàm lỗi (error function) dựa hàm crossentropy loss trình huấn luyện sử dụng phương pháp dốc gradient (gradient descent) ngẫu nhiên 7.4.4 Mạng GoogLeNet Nhóm nghiên cứu Szegedy công ty Google thực số thay đổi nhằm giảm thiểu số lượng tham số AlexNet từ 60 triệu xuống triệu Trong đó, GoogLeNet[68] sử dụng lớp Pooling trung bình (average pooling) trước lớp kết nối đầy đủ FC-Layer giúp tăng độ xác top-1 lên khoảng 0,6%[68] Tuy nhiên, việc sử dụng lớp dropout cần thiết sau loại bỏ nhiều lớp kết nối đầy đủ Mơ hình huấn luyện với triệu ảnh có khả phân loại 1.000 lớp đối tượng khác Kết quả, mơ hình huấn luyện pretrain thể đặc trưng cấp cao với nguồn liệu ảnh chứa lượng lớn lớp đối tượng Lớp đối tượng chi tiết mà mạng nhận dạng bàn phím, chuột máy tính, nhiều loại bút viết, động vật, đồ vật, Mơ hình GoogLeNet đánh giá mạng neural học sâu tốt năm 2014 Về số khía cạnh, có khả phân lớp, nhận dạng đối tượng tốt người Hình 7.15 Một dạng cụ thể kiến trúc mạng GoogLeNet[67] 154 Trong mạng GoogLeNet, người ta đề cập đến khái niệm mới- Inception Inception nhìn qua xem mạng con, CNN thưa với cấu trúc chuẩn hóa, thể hình minh họa Inception có số neural hoạt động hiệu xác định thơng qua kích thước đặc biệt lọc convolution Các lọc convolution sử dụng nhiều mức tỷ lệ kích thước khác 5×5, 3×3 1×1 Inception GoogLeNet sử dụng 192 kênh đầu vào Nó có 128 lọc với kích thước 3×3 32 lọc với kích thước 5×5 Thứ tự tính tốn lọc 5×5 25×32×192, tăng lên sâu vào mạng độ rộng số lượng lọc 5×5 tăng lên Để tránh việc tăng trưởng này, module Inception sử dụng tích chập 1×1 trước sử dụng lọc lớn nhằm giảm số chiều kênh đầu vào trước đưa vào thực tích chập Vì module Inception đầu tiên, đầu vào cho module dạng tích chập 1×1 với 16 lọc trước thực tích chập 5×5 Điều làm giảm phép tính tốn xuống 16×192 + 25×32×16 Tất thay đổi cho phép mạng có độ sâu rộng Hình 7.16 Module Inception[67] Một số điểm kiến trúc GoogLeNet thể sau: - Kiến trúc sử dụng Inception với 100 lớp, độ sâu mạng tăng đáng kể so với kiến trúc mạng trước vài chục lớp - Mạng không sử dụng lớp nhiều lớn FC GoogLeNet sử dụng lớp average pooling để chuyển từ kích thước 7×7×1024 kích thước 1×1×1024 Lớp giúp giảm đáng kể số lượng tham số mạng Về tổng thể, kiến trúc GoogLeNet sử dụng 12 lần tham số so với kiến trúc AlexNet - Hiện Google tiếp tục phát triển kiến trúc này, chủ yếu tập trung vào việc cải thiện phát triển Inception qua phiên bản, với phiên InceptionV7 Bên cạnh đó, Google phát triển Framework Tensorflow27 với ngơn ngữ lập trình chủ yếu Python C/C++ Tensorflow có cộng đồng phát triển ứng dụng rộng phát triển nhanh chóng 27 https://www.tensorflow.org/ 155 Hình 7.17 Mạng neural học sâu đơn giản gồm inception 7.4.5 Mạng VGGNet Mạng VGGNet nghiên cứu đề xuất Simonyan Zisserman[69] Tại thời điểm năm 2015, VGGNet xem mạng tốt Một đặc điểm mạng sử dụng lọc tích chập 3×3 lọc pooling 2×2, thống kích thước từ lớp đầu đến lớp cuối mạng TT Kiểu lớp Image Input Convolution ReLU Convolution ReLU Max Pooling Convolution ReLU Convolution 10 11 ReLU Max Pooling 12 Convolution 13 14 ReLU Convolution 15 16 ReLU Convolution 17 18 ReLU Max Pooling Mô tả Ảnh đầu vào kích thước chuẩn hóa 224x224x3 64 lọc tích chập kích thước 3×3×3, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 64 lọc tích chập kích thước 3×3×64, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt stride [2 2] padding [0 0] 128 lọc tích chập kích thước 3×3×64 , bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 128 lọc tích chập kích thước 3×3×128, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt với stride [2 2] padding [0 0] 256 lọc tích chập kích thước 3×3×128, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 256 lọc tích chập kích thước 3×3×256, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 256 lọc tích chập kích thước 3×3×256, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt với 156 19 Convolution 20 21 ReLU Convolution 22 23 ReLU Convolution 24 25 ReLU Max Pooling 26 Convolution 27 28 ReLU Convolution 29 30 ReLU Convolution 31 32 ReLU Max Pooling 33 34 35 36 37 38 39 40 41 Fully Connected ReLU Dropout Fully Connected ReLU Dropout Fully Connected Softmax Output stride [2 2] padding [0 0] 512 lọc tích chập kích thước 3×3×256, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt với stride [2 2] padding [0 0] 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 512 lọc tích chập kích thước 3×3×512, bước trượt với stride [1 1] padding [1 1] Sử dụng lọc hiệu chỉnh đơn vị tuyến tính Lớp max pooling sử dụng kích thước 2x2, bước trượt với stride [2 2] padding [0 0] Lớp kết nối đầy đủ với đầu 4096 Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 50% dropout Lớp kết nối đầy đủ với đầu 4096 Sử dụng lọc hiệu chỉnh đơn vị tuyến tính 50% dropout Lớp kết nối đầy đủ với đầu 1000 Sử dụng lọc softmax Phân loại với đầu 1.000 lớp Bảng 7.2 Bảng mô tả kiến trúc 41 lớp mạng VGGNet 7.4.6 Mạng R-CNN Mạng R-CNN (Regions proposal convolutional neural netwwork) lần đầu tiền giới thiệu năm 2013 Girshick cộng [70] Một số nhà nghiên cứu cho đời R-CNN có tác động mạnh mẽ thuật toán, kiến trúc mạng trước mơ hình kiến trúc Chỉ thời gian ngắn có nghìn báo khoa học trích dẫn tới Mục đích R-CNN giải vấn đề nhận dạng đối tượng ảnh Quá trình xử lý chia thành phần chính: Bước đề xuất vùng (region proposal) bước phân loại (classification) Bước đề xuất vùng sử dụng thuật tốn tìm kiếm chọn lọc (selective search) để tìm kiếm vùng chứa đối tượng ứng viên (bounding boxes) Việc tìm kiếm chọn lọc thực chức tạo khoảng 2.000 vùng khác mà có xác suất cao chứa đối tượng Sau đó, đưa đề xuất vùng chuẩn hóa lại theo kích thước chuẩn để đưa vào 157 huấn luyện phân lớp Việc huấn luyện phân loại thực sở sử dụng mạng xNet, VGG16 để tính tốn trích xuất vector đặc trưng cho vùng Vector sau sử dụng đầu vào tập SVM tuyến tính huấn luyện cho lớp đầu phân loại Các vector đưa vào bounding box để xác định tọa độ xác vị trí vùng R-CNN đạt độ xác cao, nhiên hạn chế tốc độ huấn luyện tốc độ nhận dạng chưa đáp ứng theo thời gian yêu cầu ứng dụng thời gian thực Hình 7.18 Luồng xử lý R-CNN [70] Sau R-CNN số nhóm quan tâm, nghiên cứu mở rộng phát triển thành phiên Fast R-CNN [61] đề xuất năm 2015 Faster R-CNN phát triển hoàn chỉnh vào năm 2017[71] Fast R-CNN thực cải tiến mơ hình R-CNN để giải vấn đề sau: Bước huấn luyện thực nhiều công đoạn từ ConvNet đến SVM để hồi quy bounding box Bước tốn nhiều chi phí thời gian làm cho hệ thống huấn luyện chậm (trên 53 giây cho ảnh) Fast R-CNN có khả cải tiến tốc độ xử lý cách chia tính tốn lớp tích chập vùng đề xuất khác (các region proposal), trao đổi thứ tự vùng đề xuất khác thực thi mạng tích chập Trong mơ hình Fast R-CNN, trước tiên ảnh đưa vào lớp ConvNet, đặc trưng vùng đề xuất thu từ ánh xạ đặc trưng lớp cuối ConvNet Bước cuối mô hình sử dụng lớp kết nối đầy đủ, hồi quy phân lớp Hình 7.19 Luồng xử lý Fast R-CNN [61] Faster R-CNN phát triển cải tiến nhằm giải vấn đề độ phức tạp huấn luyện mà hai phương pháp R-CNN Fast R-CNN gặp phải Tác giả Ren cộng [71] đề xuất mạng Region proposal (RPN) vào sau lớp tích chập sau Mạng có khả tập trung vào tập đặc trưng tích chập sau để từ tính tốn vùng đề xuất Tiếp theo, kỹ thuật (pipeline) R-CNN (bao gồm lớp pooling, FC, phân lớp/hồi quy) sử dụng cho trình huấn luyện 158 Hình 7.20 Luồng xử lý Faster R-CNN [71] Kỹ thuật Faster R-CNN có khả nhận dạng đối tượng cụ thể với vị trí ảnh có độ xác cao Phương pháp xem bước nhảy vọt kỹ thuật xử lý tri thức lĩnh vực thị giác máy tính Ngày nay, kỹ thuật Faster R-CNN trở thành giải pháp tiêu chuẩn nhận dạng đối tượng 7.5 Mô tả ngữ nghĩa ảnh với học sâu 7.5.1 Bộ mô tả ảnh Trong lĩnh vực nhận dạng xử lý hình ảnh, nhiệm vụ phát hiện, nhận dạng, định vị đối tượng ảnh gặp nhiều thách thức độ phức tạp tính tốn độ xác Những năm gần đây, với đời kỹ thuật học sâu hỗ trợ đắc lực hệ thống tính tốn song song GPU, tốn nhận dạng đối tượng qua hình ảnh tiến tới cột mốc với độ xác cao, số lượng loại đối tượng phân loại tăng lên nhiều lần thời gian xử lý cải thiện cách đáng kể Tuy nhiên, nhận dạng đối tượng độc lập ảnh giải vấn đề có đối tượng ảnh cụ thể định danh cho biết tên đối tượng lớp đối tượng Với mục tiêu kết hợp đối tượng có ảnh để suy diễn ngữ nghĩa ảnh gì, Karpathy Li [72] nghiên cứu đề xuất giải pháp gọi mơ tả ảnh Ví dụ đầu ngữ nghĩa ảnh thực từ mơ hình mơ tả ngữ nghĩa ảnh sau: Hình 7.21 Kết mơ tả ngữ nghĩa ảnh [72] 159 Trong phương pháp này, tác giả Karpathy Li kết hợp mạng tích chập học sâu mơ hình mạng BRNN (bidirectional Recurrent Neural Networks) để tạo ngôn ngữ mô tả cho vùng đối tượng ảnh Ý tưởng tạo nên thay đổi lớn lĩnh vực xử lý ảnh, kỹ thuật học sâu xử lý ngơn ngữ tự nhiên đạt kết khả quan Với mạng CNN truyền thống, liệu huấn luyện cần phải có nhãn đơn nhất, rõ ràng liên quan đến ảnh Ngược lại, kỹ thuật sinh mô tả ảnh, tập liệu huấn luyện sử dụng nhãn tập câu mô tả liên quan ảnh, gọi nhãn yếu Trong phân đoạn (các cụm từ) câu mô tả đối tượng tương ứng vùng ảnh Dựa tập liệu huấn luyện, DNN tiến hành suy diễn mối liên kết tiềm ẩn phân đoạn câu vùng đối tượng ảnh mà cần mơ tả Một mạng neural khác nhận ảnh đầu vào tạo mô tả dạng văn Như vậy, có hai thành phần xếp liên kết hình ảnh văn vản, sinh mơ tả Quá trình thể sau: Cơ sở liệu ảnh câu mô tả tương ứng Suy luận tương ứng với đối tượng ảnh Mơ hình sinh mơ tả Hình 7.22 Mơ tả cơng đoạn mơ hình [72] 7.5.2 Mơ hình suy diễn mối liên kết Mục tiêu mơ hình tạo kết nối tiềm ẩn hình ảnh (visual) văn mô tả (textual) Tức cần tạo mối liên kết thành phần đối tượng ảnh với cụm từ keyword/phrase đoạn văn mơ tả ảnh Đầu vào mơ hình ảnh đoạn văn mô tả ảnh tương ứng với đầu giá trị thể mức độ liên kết chúng Đầu tiên ảnh đưa vào mạng R-CNN để phát đối tượng riêng lẻ Mơ hình R-CNN huấn luyện tập liệu ImageNet[66] Sẽ lựa chọn tối đa 19 vùng đối tượng có hệ số tỷ lệ nhận dạng cao với ảnh gốc biểu diễn không gian 500 chiều, nghĩa đặc trưng đối tượng biểu diễn không gian 500 chiều Như vậy, kết bước 20 vectors 500 chiều thể thông tin cho ảnh (1 ảnh gốc 19 vùng đối tượng đó) Bước thơng tin văn mô tả Văn phân tích đưa từ (cụm từ) vào khơng gian đa mơ hình Việc xử lý thực cách sử dụng mạng BRNN Từ mức cao nhất, phục vụ việc minh họa thơng tin ngữ cảnh từ (cụm từ) văn đưa vào Tiếp theo, từ thông tin biểu diễn đối tượng ảnh thông tin thể ngữ nghĩa từ văn mô tả, hai thông tin 160 biểu diễn không gian, độ tương tự phần tử tương ứng chúng tính phép tốn tích (inner product) 7.5.3 Mơ hình sinh diễn tả ảnh Mơ hình trích xuất liên kết tiềm ẩn có mục tiêu tạo sở liệu dựa vào vùng đối tượng (thực R-CNN) văn tương ứng (thực BRNN) Mơ hình sinh diễn tả thực huấn luyện sở liệu tạo để tạo mô tả cho ảnh Mơ hình nhận vào ảnh thực mạng CNN Lớp softmax loại bỏ đầu lớp kết nối đầy đủ FC trở thành đầu vào cho RNN (Recurrent Neural Network) khác Nghĩa lớp softmax không sử dụng để phân loại mà kết lớp kết nối đầy đủ lại đưa vào mạng RNN khác Chức hình thành phân phối xác suất từ khác câu với đối tượng hình ảnh Mơ tả ngữ nghĩa hình ảnh ý tưởng thú vị, phương pháp tiếp cận theo hướng sử dụng mơ hình trí tuệ nhân tạo khác RNN CNN, để tạo mơ hình ứng dụng hữu ích cách kết hợp kỹ thuật thị giác máy tính với phương pháp xử lý ngơn ngữ tự nhiên Trong diễn tả ngữ nghĩa ảnh, kết thực nghiệm cho thấy cách tiếp cận đạt kết tốt, tiến vượt bậc, mở ý tưởng việc tạo máy tính mơ hình thơng minh để giải nhiệm vụ cần kết hợp nhiều lĩnh vực khác biểu diễn xử lý tri thức Câu hỏi tập So sánh kỹ thuật mạng neural học sâu mạng neural truyền thống (mạng nơng) Những yếu tố tạo nên thành cơng mạng neural học sâu? Mạng neural học sâu gồm loại lớp (layer) nào? Hãy cho biết chức loại lớp Sử dụng mơ hình mạng LeNet huấn luyện (pretrain model), viết chương trình nhận dạng để trích ký tự từ ảnh chụp đoạn văn Tạo liệu ảnh gồm 10 loại đối tượng khác nhau, loại đối tượng có 1.000 mẫu (mỗi mẫu ảnh chứa hình ảnh đối tượng cụ thể) Viết chương trình sử dụng hàm Matlab (C/C++ Python) để sử dụng mơ hình pretrain AlexNet28 để nhận dạng phân loại ảnh mẫu nhóm, nhóm ảnh chứa loại đối tượng Lưu ý, mẫu ảnh nên chuẩn hóa kích thước ảnh đầu vào tương ứng với mơ hình AlexNet Viết chương trình sử dụng hàm Matlab (C/C++ Python) để sử dụng mơ hình pretrain R-CNN, Fast R-CNN, Faster R-CNN để nhận dạng phân Các mơ hình pretrain matlab: 28 https://www.mathworks.com/help/nnet/ref/alexnet.html 161 loại ảnh mẫu câu 7.4 vào nhóm, nhóm ảnh chứa loại đối tượng So sánh độ xác mơ hình pretrain Viết chương trình sử dụng module học sâu theo kiến trúc ZFNet, GoogLeNet29, VGGNet, VGG30 mơ hình pretrain tương ứng để phân loại ảnh câu 7.4 So sánh độ xác mơ hình pretrain Viết chương trình sử dụng module học sâu theo kiến trúc ResNet mô hình pretrain tương ứng 50 layers31 101 layers32 để phân loại ảnh câu 7.4 So sánh độ xác mơ hình pretrain Viết chương trình sử dụng mơ hình pretrain kiến trúc mạng báo [72] để mô tả ảnh chụp ngoại cảnh, ảnh chụp nhà Đánh giá độ xác kiến trúc mạng 29 https://www.mathworks.com/help/nnet/ref/googlenet.html https://www.mathworks.com/help/nnet/ref/vgg16.html 31 https://www.mathworks.com/help/nnet/ref/resnet50.html 32 https://www.mathworks.com/help/nnet/ref/resnet101.html 30 162 Tài liệu tham khảo Solomon, C., Breckon, T.: Fundamentals of Digital Image Processing: A practical approach with examples in Matlab John Wiley & Sons,2011 Thủy, L.M.B.N.T (ed.): Nhập môn xử lý ảnh số, Nhà xuất khoa học kỹ thuật, 2006 Smith, A.R., Color gamut transform pairs, ACM Siggraph Computer Graphics, Vol 12, pp 12-19, 1978 Toàn, Đ.N (ed.): Xử lý ảnh, Học viện bưu viên thơng, 2006 Haines, R.F., Chuang, S.L., The effects of video compression on acceptability of images for monitoring life sciences experiments, Vol pp 1992 Sobel, I.: An Isotropic 3 Image Gradient Operator,2014 Khayam, S.A., The discrete cosine transform (DCT): theory and application, Michigan State University, Vol 114, pp 2003 Gupta, M., Garg, A.K., Analysis of image compression algorithm using DCT, International Journal of Engineering Research and Applications (IJERA), Vol 2, pp 515-521, 2012 Kale, K.: Advances in Computer Vision and Information Technology IK International Pvt Ltd,2008 10 Jain, R., Kasturi, R., Schunck, B.G.: Machine vision McGraw-Hill, Inc.,1995 11 Efford, N.: Chapter 11: Morphological image processing in textbook: Digital image processing: a practical introduction using java Addison-Wesley Longman Publishing Co., Inc.,2000 12 Shapiro, L.G., Stockman, G.C.: Computer Vision', 1st edn pp 159-166, New Jersey, Prentice Hall, 1992 13 Szeliski, R.: Computer vision: algorithms and applications Springer Science & Business Media,2010 14 Otsu, N., A threshold selection method from gray-level histograms, IEEE transactions on systems, man, and cybernetics, Vol 9, pp 62-66, 1979 15 Fukunaga, K., Hostetler, L., The estimation of the gradient of a density function, with applications in pattern recognition, IEEE Transactions on information theory, Vol 21, pp 32-40, 1975 16 Tao, W., Jin, H., Zhang, Y., Color image segmentation based on mean shift and normalized cuts, IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), Vol 37, pp 1382-1389, 2007 17 Elnemr, H.A., Zayed, N.M., Fakhreldein, M.A., Feature extraction techniques: fundamental concepts and survey, Handbook of Research on Emerging Perspectives in Intelligent Pattern Recognition, Analysis, and Image Processing, Vol pp 264, 2015 18 Nixon, M.S., Aguado, A.S.: Feature extraction & image processing for computer vision Academic Press,2012 19 Bourdev, L.: Poselets and their applications in high-level computer vision University of California, Berkeley,2011 20 Canny, J., A Computational Approach to Edge Detection, IEEE Trans Pattern Anal Mach Intell., Vol 8, pp 679-698, 1986 21 Harris, C., Stephens, M.: A combined corner and edge detector In: Alvey vision conference, pp 10.5244, Manchester, UK, 1988 163 22 Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaffalitzky, F., Kadir, T., Van Gool, L., A comparison of affine region detectors, International journal of computer vision, Vol 65, pp 43-72, 2005 23 Förstner, W., Gülch, E.: A fast operator for detection and precise location of distinct points, corners and centres of circular features In: Proc ISPRS intercommission conference on fast processing of photogrammetric data, pp 281-305, 1987 24 Xu, X.: Blob Detection with the Determinant of the Hessian In: Chinese Conference on Pattern Recognition, pp 72-80, Springer, 2014 25 Lowe, D.G., Distinctive image features from scale-invariant keypoints, International journal of computer vision, Vol 60, pp 91-110, 2004 26 Lindeberg, T., Feature detection with automatic scale selection, International journal of computer vision, Vol 30, pp 79-116, 1998 27 Lindeberg, T., Image matching using generalized scale-space interest points, Journal of Mathematical Imaging and Vision, Vol 52, pp 3-36, 2015 28 Bay, H., Tuytelaars, T., Van Gool, L.: Surf: Speeded up robust features In: European conference on computer vision, pp 404-417, Springer, 2006 29 Lowe, D.G.: Object recognition from local scale-invariant features In: Computer vision, 1999 The proceedings of the seventh IEEE international conference on, pp 1150-1157, Ieee, 1999 30 Brown, M., Lowe, D.G.: Invariant features from interest point groups In: BMVC, 2002 31 Viola, P., Jones, M.: Rapid object detection using a boosted cascade of simple features In: Computer Vision and Pattern Recognition, 2001 CVPR 2001 Proceedings of the 2001 IEEE Computer Society Conference on, pp I-I, IEEE, 2001 32 Lienhart, R., Maydt, J.: An extended set of haar-like features for rapid object detection In: Image Processing 2002 Proceedings 2002 International Conference on, pp I-I, IEEE, 2002 33 Hoang, V.-D., Jo, K.-H., Joint components based pedestrian detection in crowded scenes using extended feature descriptors, Neurocomputing, Vol 188, pp 139-150, 2016 34 Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection In: Computer Vision and Pattern Recognition, 2005 CVPR 2005 IEEE Computer Society Conference on, pp 886-893, IEEE, 2005 35 Muja, M., Lowe, D.G., Fast approximate nearest neighbors with automatic algorithm configuration, VISAPP (1), Vol 2, pp 2, 2009 36 Fischler, M.A., Bolles, R.C.: Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography Readings in computer vision, pp 726-740, Elsevier, 1987 37 Tan, P.-N.: Introduction to data mining Pearson Education India,2006 38 Barros, R.C., de Carvalho, A.C., Freitas, A.A.: Automatic design of decisiontree induction algorithms Springer,2015 39 Quinlan, J.R., Induction of decision trees, Machine learning, Vol 1, pp 81-106, 1986 40 Quinlan, J.R., Discovering rules by induction from large collections of examples, Expert systems in the micro electronics age, Vol pp 1979 41 Salzberg, S.L., C4.5: Programs for machine learning by j ross quinlan morgan kaufmann publishers, inc., 1993, Machine Learning, Vol 16, pp 235-240, 1994 164 42 Wu, X., Kumar, V., Quinlan, J.R., Ghosh, J., Yang, Q., Motoda, H., McLachlan, G.J., Ng, A., Liu, B., Philip, S.Y., Top 10 algorithms in data mining, Knowledge and information systems, Vol 14, pp 1-37, 2008 43 Quinlan, J.R., Improved use of continuous attributes in C4 5, Journal of artificial intelligence research, Vol 4, pp 77-90, 1996 44 Ho, T.K., The random subspace method for constructing decision forests, IEEE transactions on pattern analysis and machine intelligence, Vol 20, pp 832-844, 1998 45 Freund, Y., Schapire, R., Abe, N., A short introduction to boosting, JournalJapanese Society For Artificial Intelligence, Vol 14, pp 1612, 1999 46 Cortes, C., Vapnik, V., Support-vector networks, Machine learning, Vol 20, pp 273-297, 1995 47 Weston, J., Watkins, C.: Multi-class support vector machines Citeseer, 1998 48 Chang, C.-C., Lin, C.-J., LIBSVM: a library for support vector machines, ACM transactions on intelligent systems and technology (TIST), Vol 2, pp 27, 2011 49 Shiffman, D.: The Nature of Code: Simulating Natural Systems with Processing Daniel Shiffman,2012 50 Rosenblatt, F.: The perceptron, a perceiving and recognizing automaton Project Para Cornell Aeronautical Laboratory,1957 51 Hoang, V.-D., Le, M.-H., Jo, K.-H., Hybrid cascade boosting machine using variant scale blocks based HOG features for pedestrian detection, Neurocomputing, Vol 135, pp 357-366, 2014 52 LeCun, Y., Bengio, Y., Hinton, G., Deep learning, nature, Vol 521, pp 436, 2015 53 Dechter, R.: Learning while searching in constraint-satisfaction problems University of California, Computer Science Department, Cognitive Systems Laboratory,1986 54 LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., Jackel, L.D., Backpropagation applied to handwritten zip code recognition, Neural computation, Vol 1, pp 541-551, 1989 55 LeCun, Y., LeNet-5, convolutional neural networks, URL: http://yann lecun com/exdb/lenet, Vol pp 20, 2015 56 Kataoka, H., Iwata, K., Satoh, Y., Feature evaluation of deep convolutional neural networks for object recognition and detection, arXiv preprint arXiv:1509.07627, Vol pp 2015 57 Hoang, V.-D., Le, M.-H., Tran, T.T., Pham, V.-H.: Improving Traffic Signs Recognition Based Region Proposal and Deep Neural Networks In: Asian Conference on Intelligent Information and Database Systems, pp 604-613, Springer, 2018 58 Graham, B., Fractional max-pooling, arXiv preprint arXiv:1412.6071, Vol pp 2014 59 Springenberg, J.T., Dosovitskiy, A., Brox, T., Riedmiller, M., Striving for simplicity: The all convolutional net, arXiv preprint arXiv:1412.6806, Vol pp 2014 60 deepsense.io, https://blog.deepsense.ai/region-of-interest-pooling-explained/ 61 Girshick, R., Fast r-cnn, arXiv preprint arXiv:1504.08083, Vol pp 2015 62 Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R., Dropout: A simple way to prevent neural networks from overfitting, The Journal of Machine Learning Research, Vol 15, pp 1929-1958, 2014 63 Bishop, C., Bishop cm: Pattern recognition and machine learning springer, Journal of Electronic Imaging, Vol 16, pp 140-155, 2006 165 64 LeCun, Y., Bottou, L., Bengio, Y., Haffner, P., Gradient-based learning applied to document recognition, Proceedings of the IEEE, Vol 86, pp 2278-2324, 1998 65 Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks In: Advances in neural information processing systems, pp 1097-1105, 2012 66 Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Imagenet large scale visual recognition challenge, International Journal of Computer Vision, Vol 115, pp 211-252, 2015 67 Zeiler, M.D., Fergus, R.: Visualizing and understanding convolutional networks In: European conference on computer vision, pp 818-833, Springer, 2014 68 Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions Cvpr, 2015 69 Simonyan, K., Zisserman, A., Very deep convolutional networks for large-scale image recognition, arXiv preprint arXiv:1409.1556, Vol pp 2014 70 Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 580-587, 2014 71 Ren, S., He, K., Girshick, R., Sun, J., Faster R-CNN: towards real-time object detection with region proposal networks, IEEE transactions on pattern analysis and machine intelligence, Vol 39, pp 1137-1149, 2017 72 Karpathy, A., Fei-Fei, L.: Deep visual-semantic alignments for generating image descriptions In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3128-3137, 2015 166

Ngày đăng: 21/07/2023, 16:58

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan