1. Trang chủ
  2. » Giáo án - Bài giảng

giáo án xử lý ảnh (XLA) và ứng dụng

126 33 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

CHƢƠNG KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ ỨNG DỤNG Nội dung chương trình bày kiến thức hệ thống xử lý ảnh, vấn đề xử lý ảnh miền ứng dụng xử lý ảnh thực tế (y tế, giáo dục, giao thông, an ninh, ), q trình thu nhận số hóa ảnh Chương giới thiệu kiểu ảnh định dạng ảnh phố biến (ảnh màu/nhị phân/đa cấp xám); hệ màu dùng biểu diễn hiển thị ảnh số kỹ thuật thực việc chuyển đổi hệ màu 1.1 Tổng quan hệ thống xử lý ảnh 1.1.1 Khái niệm ảnh số, điểm ảnh Ảnh thông tin vật thể hay quang cảnh chiếu sáng mà người quan sát cảm nhận mắt hệ thống thần kinh thị giác.Ảnh tạo thành từ ba yếu tố: o Vật thể, không gian quan sát chiếu sáng o Nguồn sáng o Cảm nhận (mắt) Ảnh tự nhiên (ảnh tương tự) tín hiệu liên tục khơng gian giá trị độ sáng Tín hiệu ảnh thuộc loại tín hiệu đa chiều: tọa độ (x,y,z), độ sáng(), thời gian(t) Ảnh lưu trữ máy tính mảng hai chiều chứa giá trị số Các số tương ứng với thông tin khác màu hay cường độ mức xám, độ chói, thành phần màu…Để lưu trữ biểu diễn ảnh máy tính (ảnh số) người phải tiến hành biến đổi tín hiệu liên tục thành số hữu hạn tín hiệu rời rạc thơng qua q trình lượng tử hóa lấy mẫu thành phần giá trị độ sáng.Ảnh không gian chiều định nghĩa hàm biến S(x,y), với S giá trịđộ sáng vị trí tọa độ (x,y) Với ảnh tương tự S(x,y): Miền xác định (x,y) liên tục, miền giá trị S liên tục Với ảnh số S(m,n)làảnh tương tự số hóa: Miền xác định (m,n) rời rạc, miền giá trị S rời rạc Hình Error! No text of specified style in document Ảnh số tín hiệu số 1.1.2 Các thành phần hệ thống xử lý ảnh Quá trình xử lý ảnh xem trình thao tác ảnh đầu vào nhằm cho kết mong muốn Kết đầu q trình xử lý ảnh ảnh “tốt hơn” kết luận Ảnh XỬ LÝ ẢNH Ảnh “Tốt hơn” Kết luận Hình Error! No text of specified style in document Xử lý ảnh Xử lý ảnh tiến trình gồm nhiều cơng đoạn nhỏ, giai đoạn bao gồm: Hình 1.3 Các giai đoạn trình xử lý ảnh - Thu nhận ảnh: Việc thu nhận thực thơng qua thiết bị camera, chụp từ vệ tinh qua cảm ứng Sensors, qua máy quét Scaners Tiền xử lý: nhằm nâng cao chất lượng ảnh đầu vào để làm bật số đặc điểm ảnh hay làm cho ảnh giống với trạng thái gốc Có nhiều cơng cụ khác để thực tùy thuộc vào trạng thái ảnh đầu vào như:  Xóa nhiễu: loại bỏ đối tượng dư thừa ảnh (có thể chất lượng thiết bị thu nhận, nguồn sáng  Nắn chỉnh hình học: khắc phục biến dạng thiết bị điện tử quang học gây nên, khắc phục phép chiếu  Chỉnh mức xám: khắc phục tính khơng đồng mức xám, thường dùng để xóa bớt số mức xám ảnh Trích chọn đặc điểm: nhằm tiến tới hiểu ảnh Có thể sử dụng cơng cụ như: Dị biên để xác định biên, phân vùng, làm mảnh để trích xương, Hậu xử lý: nhằm hiệu chỉnh lại đặc điểm đặc trưng trích từ bước cho bước thực thuận tiện nhanh chóng khơng làm ảnh hưởng đến kết Tùy mục đích ứng dụng mà chuyển sang giai đoạn khác lưu trữ, nhận dạng, phân lớp để rút kết luận… - - - 1.1.3 Các vấn đề xử lý ảnh Khử nhiễu: Có loại nhiễu q trình thu nhận ảnh:   Nhiễu hệ thống: nhiễu có quy luật khử phép biến đổi Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân, khắc phục phép lọc Chỉnh mức xám Nhằm khắc phục tính khơng đồng hệ thống gây Thơng thường có hướng tiếp cận: Giảm số mức xám: Thực cách nhóm mức xám gần thành bó Trường hợp có mức xám chuyển ảnh đen trắng Ứng dụng: In ảnh màu máy in đen trắng Tăng số mức xám: Thực nội suy mức xám trung gian kỹ thuật nội suy Kỹ thuật nhằm tăng cường độ mịn cho ảnh Phân tích ảnh Là khâu quan trọng trình xử lý ảnh để tiến tới hiểu ảnh Trong phân tích ảnh việc trích chọn đặc điểm bước quan trọng Các đặc điểm đối tượng trích chọn tuỳ theo mục đích nhận dạng q trình xử lý ảnh Có thể nêu số đặc điểm ảnh sau đây: Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn v.v Đặc điểm biến đổi: Các đặc điểm loại trích chọn việc thực lọc vùng (zonal filtering) Các vùng gọi “mặt nạ đặc điểm” (feature mask) thường khe hẹp với hình dạng khác (chữ nhật, tam giác, cung tròn v.v ) Đặc điểm biên đƣờng biên: Đặc trưng cho đường biên đối tượng hữu ích việc trích trọn thuộc tính bất biến dùng nhận dạng đối tượng Các đặc điểm trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, tốn tử “chéo khơng” (zero crossing) v.v Việc trích chọn hiệu đặc điểm giúp cho việc nhận dạng đối tượng ảnh xác, với tốc độ tính toán cao dung lượng nhớ lưu trữ giảm xuống Nhận dạng Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại phân nhóm mẫu vấn đề quan trọng thị giác máy, ứng dụng nhiều ngành khoa học khác Tuy nhiên, câu hỏi đặt là: mẫu (pattern) gì? Watanabe, người đầu lĩnh vực định nghĩa: “Ngược lại với hỗn loạn (chaos), mẫu thực thể (entity), xác định cách ang (vaguely defined) gán cho tên gọi đó” Ví dụ mẫu ảnh vân tay, ảnh vật chụp, chữ viết, khn mặt người ký đồ tín hiệu tiếng nói Khi biết mẫu đó, để nhận dạng phân loại mẫu có thể: Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân tích phân biệt (discriminant analyis), mẫu đầu vào định danh thành phần lớp xác định Hoặc phân loại khơng có mẫu (unsupervised classification hay clustering) mẫu gán vào lớp khác dựa tiêu chuẩn đồng dạng Các lớp thời điểm phân loại chưa biết hay chưa định danh 1.1.3 Các ứng dụng xử lý ảnh  Giao thông  Y tế  An ninh  Sức khỏe  Giáo dục  Quân 1.2.Thu nhận biễu diễn ảnh 1.2.1 Các thiết bị thu nhận ảnh Phổ điện từ chia theo bước sóng có lượng khác Ánh sáng phần phổ điện từ mà mắt người cảm nhận Hình 1.4 Bước sóng ánh sáng Những màu sắc mà người nhận xác định chất ánh sáng phản xạ từ đối tượng Hình 1.5 Sự phản xạ ánh sáng vật Ví dụ ánh sáng trắng (bao gồm tất bước sóng) chiếu vào đối tượng màu xanh cây, đối tượng nàysẽ hấp thụ hầu hết bước sóng ngoại trừ bước sóng màu xanh (màu) Vì ánh sáng phản xạ vào mắt người người nhìn thấy đối tượng có màu xanh Vì chiếu loại ánh sáng khác vào vật mắt nhận loại ảnh khác 1.2.2 Hệ thống thu nhận số hóa ảnh Hệ thống thu nhận số hóa ảnh có đầu vào ánh sáng phản chiếu từ vật, đầu số liệu ảnh Hình 1.6 Hệ thống thu nhận số hóa ảnh Q trình thu nhận ảnh gồm: Một cảm biến, biến đổi lượng quang học thành lượng điện tổng hợp lượng điện thành tín hiệu ảnh Ảnh thu từ thiết bị thu nhận ảnh ảnh tương tự ảnh số Nếu ảnh tương tự phải tiến hành q trình số hóa ảnh để xử lý máy tính Để chuyển từ ảnh liên tục dạng ảnh số cần có số hóa Hai chức số hóa rời rạc hóa (lấy mẫu) lượng tử hóa Thu nhận ảnh Để thu nhận hình ảnh cần sử dụng cảm biến ảnh Một cảm biến ảnh bao gồm bảng mạch nhỏ gồm cảm biến ảnh Các cảm biến ảnh làm từ loại vật liệu nhạy cảm với ánh sáng, chúng chuyển đổi tín hiệu quang thành tín hiệu điện Mỗi cảm biến ảnh bị ánh sáng tác động sản sinh điện áp tỷ lệ thuận với cường độ ánh sáng nhận tác động Khi khơng có ánh sáng tác động cảm biến không tạo mức điện áp lúc chúng tạo mức đen, có ánh sáng mức cao chúng tạo mức trắng, ánh sáng khoảng tạo mức xám Cứ tùy theo cường độ ánh sáng tác động vào cảm biến, cảm biến tạo tín hiệu hình ảnh mang thơng tin màu sắc hình ảnh Hình 1.7 Bộ cảm biến ảnh Ánh sáng phản xạ từ vật chiếu sáng nguồn sáng hấp thụ vào mảng sensor tạo thành ảnh Hình 1.8 Hệ thống thu nhận ảnh 1.2.3 Q trình lấy mẫu lượng tử hóa Hình 1.9 Lấy mẫu số hóa Ảnh thu cảm biến ảnh liên tục Không thể ghi lại giá trị ảnh cho tất điểm (x,y) ảnh Việc ghi lại giá trị ảnh điểm (x,y) rời rạc gọi lấy mẫu Các sensor xếp theo lưới để lấy mẫu ảnh Một cảm biến số đo số lượng hạn chế mẫu tập mức lượng rời rạc Việc lấy mẫu thực thơng qua: tín liên tục nhân với hàm lược Hình Error! No text of specified style in document 10 Lấy mẫu sử dụng hàm lược Lượng hóa q trình chuyển tín hiệu tương tự liên tục thành biểu diễn số Rời rạc giá trị I(u,v) ảnh, giới hạn giá trị ảnh lấy Hình Error! No text of specified style in document 11 Lượng hóa Lượng hóa màu q trình chuyển màu liên tục thành tập màu hữu hạn, rời rạc Hình Error! No text of specified style in document 12 Lượng hóa màu Lấy mẫu lượng tử hóa tạo xấp xỉ cảnh giới thực 1.2.4 Biểu diễn ảnh Ảnh số: Sau lấy mẫu lượng hóa, ảnh hàm rời rạc Miền xác định  ảnh rời rạc,  N2 Ảnh dãy giá trị rời rạc I :  {1, , K} với K  N Ảnh gọi ảnh số Hình 1.13 Ảnh số Ảnh số lưới ô vuông ô chứa màu đơn Mỗi ô vuông gọi điểm ảnh (pixel) Ảnh đơn sắc có giá trị ứng với điểm ảnh cường độ độ sáng điểm ảnh hay cịn gọi mức xám Ảnh màu có giá trị cho điểm ảnh tương ứng với hệ màu RGB Cấu trúc liệu lƣu trữ ảnh số Cấu trúc liệu ảnh mảng chiều chứa giá trị xám điểm ảnh Giá trị xám điểm ảnh kiểu liệu số: bit, byte, int, float, double Mảng gọi ma trận số liệu ảnh Với ảnh xám 8-bit, giá trị xám số nguyên khoảng 0-255 Hình Error! No text of specified style in document Ma trận số liệu 1.3 Giới thiệu số loại ảnh 1.3.1 Ảnh nhị phân Độ phân giải (Resolution) ảnh mật độ điểm ảnh ấn định ảnh số hiển thị Độ phân giải không gian: Khoảng cách điểm ảnh phải chọn cho mắt người thấy liên tục ảnh Việc lựa chọn khoảng cách thích hợp tạo nên mật độ phân bố Các điểm ảnh phân bố theo trục x y không gian chiều Hình Error! No text of specified style in document Độ phân giải khơng gian Hình Error! No text of specified style in document Độ phân giải kéo giãn Độ phân giải mức xám: Là số mức xám sử dụng để biểu diễn ảnh Càng nhiều mức xám sử dụng biểu diễn chi tiết rõ ràng ảnh Độ phân giải mức xám thường thể số lượng bit sử dụng để lưu trữ mức xám Ảnh sử dụng bit để lưu trữ gọi ảnh nhị phân Bảng1.1 Các ví dụ số bit sử dụng để lưu trữ ảnh Số bit Số mức xám Ví dụ 0,1 00, 01, 10, 11 16 0000, 0101, 1111 256 00110011, 01010101 16 65.536 1010101010101010 1.3.2 Ảnh đa cấp xám Hình Error! No text of specified style in document Ảnh với mức xám khác Độ phân giải đủ? Điều phụ thuộc vào ảnh (các chi tiết) bạn muốn làm với (các ứng dụng) Khi xác định độ phân giải thường tự hỏi: Hình ảnh trơng nhìn khơng? Bạn nhìn thấy bạn cần nhìn ảnh khơng? 1.3.3 Ảnh màu 1.3.4 Các định dạng ảnh thông dụng 1.4 Giới thiệu hệ biễu diễn màu phổ biến 1.4.1 Hệ màu RGB Hệ màu RGB viết tắt màu Red, Green Blue ba màu ánh sáng trắng sau tách nhờ lăng kính Những màu kết hợp theo tỉ lệ định tạo nhiều màu khác dải ảnh sáng nhìn thấy, kết hợp màu lại với với tỉ lệ : : màu trắng Bởi hầu hết thiết bị điện tử sử dụng màu cách phát quang TV, hình máy tính, hình điện thoại… sử dụng RGB làm hệ màu Và lý mà ảnh kỹ thuật số hiển thị máy tính sử dụng hệ RGB làm chuẩn Hình Error! No text of specified style in document Hệ màu RGB 10 𝑛 𝑆= 𝑔 𝑓 𝒙𝑖 − 𝑦𝑖 (4.19) 𝑖=0 Giá trị tổng bình phương tối thiểu tính ứng với tham số (𝒘, 𝑏) cụ thể Mục tiêu việc xây dựng neuron tìm tham số (𝒘∗ , 𝑏 ∗ ) cho tổng sai số (4.19) nhỏ nhất: (𝒘∗ , 𝑏 ∗ ) = argmin𝒘,𝑏 (𝑆) (4.20) Để giải toán tối ưu (4.20), phương pháp phổ biến lĩnh vực máy học phương pháp dựa việc tính đạo hàm theo hướng (gradient-based optimization) [74] Ý tưởng phương cập nhật tham số 𝒘, 𝑏 bước theo hướng giảm đào hàm bậc (gradient descent) 𝜕𝑆 𝜕𝒘 𝜕𝑆 = 𝑏𝑘 − 𝛼 𝜕𝑏 𝒘𝑘+1 = 𝒘𝑘 − 𝛼 𝑏𝑘+1 (4.21) Trong đó: 𝑘 số vịng lặp, 𝛼 hệ số học (learnig rate) thường nhỏ, 𝜕 kí hiệu phép toán đạo hàm riêng phần Phương pháp tối ưu dựa đạo hàm lại chia làm nhiều kỹ thuật khác sau: - - - Kỹ thuật SGD (stochastic gradient descent): trọng số hàm mục tiêu (𝑆) cập nhật điểm liệu riêng rẽ, điểm liệu chọn cách ngẫu nhiên (stochastic) từ tập huấn luyện Nói cách khác, đạo hàm riêng phần tính tốn điểm liệu Kỹ thuật MGD (minibatch gradient descent): trọng số cập nhật cách sử dụng nhiều điểm liệu vòng lặp Cụ thể, đạo hàm riêng phần ước lượng tập chứa nhiều điểm liệu Kỹ thuật BGD (batch gradient descent): giống kỹ thuật MGD đạo hàm riêng phần ước lượng cách sử dụng toàn điểm liệu tập huấn luyện Tùy vào ứng dụng cụ thể, kỹ thuật tối ưu sử dụng Bạn đọc quan tâm tìm hiểu chi tiết [75] Để minh họa cho nguyên lý hoạt động mạng neuron, ngầm định sử dụng kỹ thuật SGD (stochastic gradient descent) để ước lượng tham số tối ưu cho mạng neuron Chú ý rằng, hàm mục tiêu 𝑆 có chứa thành phần hàm hợp (hai hàm 𝑔 𝑓) nên việc tính đạo hàm riêng phần thực cách sử dụng quy tắc xích (chain rule) sau: 𝜕𝑔 𝜕𝑔 𝜕𝑓 = 𝜕𝑡 𝜕𝑓 𝜕𝑡 (4.22) đó: 𝑡 tham số Thuật tốn huấn luyện mạng neuron (SGDTraining) tóm tắt sau: 112 Algorithm 4.3 SGDTraining(X, 𝛼, 𝑇) - - Input: Tập liệu huấn luyện (X), tốc độ học (𝛼), số lần lặp 𝑇 Output: Tham số tối ưu (𝒘∗ , 𝑏 ∗ ) neuron Khởi tạo: gán giá trị ngẫu nhiên cho tham số 𝒘, 𝑏 Thực vòng lặp: 𝑘 = 1,2, , 𝑇: o Chọn ngẫu nhiên phần tử {𝒙𝑖 , 𝑦𝑖 } từ tập liệu X o Tính đạo hàm riêng phần theo tham số 𝒘, 𝑏 (công thức 4.22) o Cập nhật lại tham số theo công thức 4.21 Trả tham số tối ưu 𝒘, 𝑏 Quá trình cập nhật tham số thuật toán SGD lặp sai số phân lớp (hay giá trị hàm mục tiêu 𝑆) đủ nhỏ (ví dụ bé ngưỡng) Các tham số (𝒘, 𝑏) thời điểm chọn làm tham số tối ưu cho siêu phẳng tham số neuron cần xây dựng Một tính tốn tham số tối ưu (𝒘, 𝑏) cho neuron (Hình 4.13), sử dụng neuron để dự đốn nhãn vector đầu vào 𝒙′ (trong khơng gian ℝn ) sau: - Truyền vector 𝒙′ (gồm 𝑛 đầu vào) vào neuron Hình 4.13 Khối xử lý hạt nhân neuron tính tổng tuyến tính giá trị đầu vào với tham số neuron bởi: 𝑛 𝒙′𝑖 𝑤𝑖 + 𝑏 𝑧= 𝑖=0 - Biến đổi giá trị tổng 𝑧 hàm sigmoid sau: 𝑦 = sigmoid 𝑧 = 1 + 𝑒 −𝑧 - Nếu 𝑦 < 0.5 gán nhãn 0; ngược lại, gán nhãn cho vector 𝒙′ Như vậy, với neuron sử dụng, giải tốn phân lớp nhị phân hiệu Tuy nhiên, liệu ví dụ giả sử phân tách tuyến tính Trong thực tế, liệu phân bố phức tạp phân tách siêu phẳng Khi đó, giải pháp tiềm sử dụng mạng neuron thay neuron riêng lẻ Một mạng neuron xây dựng cách kết nối nhiều neuron với kiến trúc theo tầng Các neuron tầng có chung liệu đầu vào Đầu neuron tầng làm liệu đầu vào cho neuron tầng Tầng tầng cuối mạng neuron gọi tương ứng tầng đầu vào tầng đầu mạng neuron đó; tầng gọi tầng ẩn Hình 4.16 minh họa mạng Neuron có tầng, gồm tầng đầu vào, tầng ẩn tầng đầu 113 Hình 4.16 Minh họa kiến trúc mạng neuron điển hình Kiến trúc mạng neuron (như minh họa Hình 4.16) thể mạng có tham số đầu vào hai tham số đầu ra, tầng ẩn có neuron Mỗi neuron tầng có hàm định riêng xem hàm biến đổi liệu đầu vào (chính liệu đầu tầng ẩn) Ở tầng ẩn, liệu đầu lại hàm biến đổi liệu đầu vào Do vậy, quan hệ đầu tầng cuối đầu vào tầng xem hàm hợp nhiều lớp, lớp tương ứng với tầng xử lý liệu Quá trình huấn luyện mạng neuron thực tương tự trình bày với neuron Chúng ta sử dụng thuật toán tối ưu dựa đạo hàm riêng phần (gradient-based) để tìm trọng số tối ưu mạng Tuy nhiên, quan hệ hàm hợp nhiều lớp đầu đầu vào mạng, q trình tính tốn đạo hàm riêng phần phức tạp nhiều thường thực kỹ thuật chuyên biệt có tên gọi thuật toán lan truyền ngược (backpropagation) Bạn đọc quan tâm tìm hiểu chi tiết kỹ thuật tài liệu [76, 81] 4.6.2 Mạng học sâu DNN (Deep Neuron Network) 4.6.2.1 Tổng quan mạng DNN Thuật ngữ mạng học sâu hay mạng neuron sâu DNN (Deep Neuron Network) sử dụng phổ biến thời gian gần bùng nổ thành tựu rực rỡ mà công nghệ mang lại, đặc biệt lĩnh vực thị giác máy, xử lý tiếng nói, xử lý ngơn ngữ tự nhiên, y học, Mặc dù khơng có định nghĩa thức xác mạng học sâu, nhiên mạng DNN thương hiểu ngầm định mạng neuron có quy mơ "rất lớn" số tầng ẩn số neuron tầng Thơng thường, mạng DNN có từ 10 tầng ẩn trở lên vậy, số lượng tham số mạng DNN tăng theo cấp số nhân Ví dụ mạng DNN điển hình AlexNet có 11 tầng ẩn, 650000 neurons khoảng 60 triệu tham số cần học [77] Một mạng neuron có quy mô lớn cung cấp nhiều ưu điểm như: - Khả học ghi nhớ lượng lớn đối tượng khác nhau: ưu điểm trội mạng DNN Các phân lớp truyền thống (như SVM, định, ) thường làm việc hiệu số lượng lớp đối tượng nhỏ (thường hai) Tuy nhiên, mạng DNN có khả phân loại nhận dạng 114 - - - - lên đến hàng nghìn lớp đối tượng khác (ví dụ mạng AlexNet [77] thiết kế để nhận dạng 1000 lớp đối tượng khác nhau) Khả học tự động đặc trưng đối tượng: mạng neuron thường có ưu điểm tự động dị tìm ghi nhớ đặc trưng trội đối tượng mà khơng cần có can thiệp người Điều ngược với phân lớp truyền thống vốn yêu cầu liệu đầu vào vector đặc trưng trích chọn sẵn Khả học tổ chức đặc trưng theo mơ hình phân cấp: đặc trưng mà mạng DNN học tổ chức theo cấu trúc phân cấp từ thấp đến cao Cụ thể, tầng mạng thường có xu hướng học đặc trưng mức thấp (như điểm góc, điểm biên, điểm blobs, ); tầng phía sau phân tích ghi nhớ đặc trưng mức cao lớp đối tượng (ví dụ vị trí mắt, kích thước, hình dạng chi tiết khn mặt, ) Các mạng DNN có dùng để giải nhiều lớp tốn khác như: phân lớp (học có giám sát), phân cụm (học khơng giám sát), tốn dị tìm đối tượng (detection) nhận dạng (recognition) Các mạng DNN ứng dụng cho nhiều lĩnh vực phức tạp khác sống với độ xác cao: nghiên cứu báo cáo [77, 78] hiệu mà mạng DNN mang lại gần tương đương với hiệu người nhiều lĩnh vực nhận dạng tiếng nói, nhận dạng hình ảnh, dịch thuật hiểu ngơn ngữ tự nhiên Tuy nhiên, kích thước mạng DNN lớn nên đưa nhiều khó khăn huấn luyện ứng dụng mạng Các vấn đề bao gồm: cần lượng lớn liệu để huấn luyện mạng; kết huấn luyện dễ rơi vào tình học nhớ (overfitting) học chưa đủ (under-fitting); thời gian huấn luyện lâu (lên đến vài tháng chạy máy tính PC khơng có cạc xử lý đồ họa chuyên dụng); cần sử dụng lượng lớn dung lượng nhớ (do số lượng tham số nhiều) Tất hạn chế ngăn cản phát triển mạng DNN thời gian dài từ ngày xuất mạng neuron truyền thống (1940) đến trước năm 200636 Mãi đến năm 2006, mạng DNN thực tạo cách mạng lĩnh vực trí tuệ nhân tạo nhờ vào yếu tố như: xuất nhiều mạng xã hội tạo nguồn liệu lớn Internet; phát triển loại máy tính chuyên xử lý đồ họa đa nhân (GPU - Graphics Processing Unit) với cấu hình mạnh nhớ lớn; tiến thuật toán huấn luyện mạng [82, 83, 84]; mở hóa dự án thư viện mã nguồn mở cơng ty cơng nghệ tiếng lĩnh trí tuệ nhân tạo (như Tensorflow Google, FAIR Facebook, Caffe đại học Berkeley ) Các mạng DNN phân nhóm thành nhiều loại khác tùy vào mục đích sử dụng ngữ cảnh ứng dụng, bao gồm: mạng nhân chập CNN (Convolutional Neuron Network), mạng phân cụm (Deep Autoencoders, Deep Boltzmann Machine), mạng lai (Hybrid Deep Networks) Trong phần này, tìm hiểu kiến trúc 36 Ngoại trừ mạng nhân chập LeNet5 Lecun đề xuất [85] 115 loại mạng DNN phổ biến lĩnh vực thị giác máy nhận dạng mạng nhân chập CNN 4.6.2.2 Giới thiệu mạng nhân chập CNN (Convolutional Neuron Network) Mạng nhân chập CNN thiết kế để đặc biệt thích hợp với ứng dụng lĩnh vực thị giác máy, xử lý ảnh nhận dạng Như tên gọi nó, mạng CNN sử dụng mặt nạ nhân chập (convolutional masks) có kích thước nhỏ nhiều kích thước ảnh đầu vào làm thành tố mạng nhằm khai thác hiệu tính phân bố thơng tin cục vùng ảnh tính tương quan cao điểm ảnh lân cận Mạng nhân chập CNN đề xuất Lecun có tên gọi LeNet5 [85] cho mục đích nhận dạng ký tự số viết tay tạo hiệu vượt trội so với cách tiếp cận khác lúc Một mạng CNN có cấu tạo gồm tầng đầu vào, tầng ẩn tầng đầu Trong đó, tầng ẩn mạng CNN thường xếp chồng luân phiên lớp sau (Hình 4.17): - - - Lớp nhân chập (Convolution): gồm nhiều mặt nạ nhân chập có kích thước nhỏ nhiều so với kích thước ảnh đầu vào Mỗi mặt nạ nhân chập quét toàn ảnh đầu vào (từ xuống dưới, trái sang phải) với bước nhảy (stride) (ví dụ, stride = 2) Các mặt nạ nhân chập đóng vai trị trích chọn đặc trưng kết việc nhân chập mặt nạ với ảnh đầu vào cho đồ đặc trưng (feature map) tương ứng Lớp kích hoạt (Activation): sau lớp nhân chập, thiết kế lớp kích hoạt để chuẩn hóa giá trị đồ đặc trưng Tuy nhiên, kỹ thuật tùy chọn Lớp lấy mẫu (Pooling/Subsampling): để xây dựng khả học phân cấp đặc trưng đối tượng, mạng CNN thường sử dụng kỹ thuật lấy mẫu (pooling hay subsampling) để giảm kích thước đồ đặc trưng Thông thường, lớp lấy mẫu thực chọn giá trị từ vùng có kích thước × đồ đặc trưng Do đó, kích thước ảnh sau lấy mẫu giảm 5x5 Hình 4.17 Kiến trúc mạng CNN điển hình [85] 116 Mỗi neuron tầng ẩn thường thiết kế để làm việc vùng ảnh nhỏ (ví dụ vùng có kích thước × 5) ảnh đầu vào quét từ xuống để làm việc với toàn vùng ảnh đầu vào Kỹ thuật biết đến với tên gọi chia sẻ trọng số (weight sharings) giúp giảm thiểu đáng kể số lượng tham số dùng mạng Các tầng cuối mạng CNN thường tầng kết nối đầy đủ (full connection) neuron tầng kết nối với toàn neuron ảnh đầu thuộc tầng liền trước Số lượng neuron đầu tầng cuối số lượng lớp đối tượng cần nhận dạng toán Ngồi ra, hàm kích hoạt (thường softmax) áp dụng để chuẩn hóa giá trị đầu tầng Một cách tổng quát, kiến trúc mạng CNN thường mô tả dạng sau : (4.23) INPUT → CONV → ACT → POOL 𝑛 → FC → ACT 𝑚 Trong đó: - INPUT: tầng đầu vào, thường ảnh đầu vào có kích thước cố định (có thể ảnh nhị phân, anh đa cấp xám ảnh màu) CONV: lớp nhân chập ACT: hàm kích hoạt, hàm: tanh, ReLU sigmoid POOL: lớp lấy mẫu (pooling/subsampling) FC: tầng kết nối đầy đủ, neuron tầng kết nối đến neuron ảnh đầu tầng liền trước 𝑛 𝑚 số lần lặp lại tầng tương ứng Thông thường, mạng DCNN (Deep CNN) thường có 𝑛 ≥ ≤ 𝑚 ≤ Ngoài ra, mạng CNN thường mô tả cách trực quan cách sử dụng khối hộp sau (Hình 4.18): 𝑕 𝑤 𝑑 Hình 4.18 Kiến trúc dạng đồ họa mạng CNN Trong khối hộp đặc tả ba tham số: 𝑤 (width - chiều rộng), 𝑕 (height - chiều cao) 𝑑 (depth - chiều sâu) Ý nghĩa ba tham số diễn giải sau: - 𝑤 𝑕: mơ tả kích thước khơng gian ảnh (spatial plane image) hay đồ đặc trưng (feature maps) 𝑑: tham số chiều sâu, tuỳ trường hợp mà có ý nghĩa khác Nếu khối hộp (input data) 𝑑 mang ý nghĩa số kênh màu (channels) ảnh Ví dụ: với ảnh màu 𝑑 = 3, ảnh đa cấp xám 𝑑 = Từ khối hộp thứ hai trở 117 𝑑 mang ý nghĩa số lượng mặt nạ lọc (filters) sử dụng lớp nhân chập Chú ý thân lọc (filter) lại khối hộp có kích thước chiều: 𝑟 × 𝑠 × 𝑡 𝑟 𝑠 kich thước không gian lọc (spatial plane), thường chọn (ví dụ × 11 × 11) gọi trường tiếp nhận (receptive field); 𝑡 tham số chiều sâu lọc có giá trị tham số 𝑑 khối hộp liền trước Ví dụ 4.1: Giả sử ảnh đầu vào có kích thước 35 × 35 × (ảnh màu có thành phần RGB) giả sử tầng nhân chập thứ sử dụng 𝐾 = 10 mặt nạ với bước nhảy stride = thì: - - Nếu kích thước khơng gian mặt nạ: receptive field (f) = × lọc có kích thước tổng thể chiều là: × × khối hộp trước (ảnh đầu vào) có chiều sâu 𝑑 = Các tham số lọc gồm 75 trọng số (5 × × 3) tham số độ lệch (bias parameter) Khối hợp tạo có kích thước là: 𝑤2 × 𝑕2 × 10 𝑤2 𝑕2 tính dựa vào tham số stride (st) sau: (𝑤1 − 𝑓) 35 − 𝑤2 = +1= + = 16 𝑠𝑡 (𝑕1 − 𝑓) 35 − 𝑕2 = +1= + = 16 𝑠𝑡 Trong đó: 𝑤1 𝑕1 kích thước khơng gian khối hộp trước Như vậy, thiết kế tầng nhân chập, phải chọn kích thước lọc chiều dài bước nhảy cho kích thước khối hộp tầng số nguyên Quá trình huấn luyện mạng CNN dựa phương pháp đạo hàm riêng phần (gradient descent algorithm) kỹ thuật mini-batch thường lựa chọn để ước lượng đạo hàm riêng phần Ngồi ra, có vấn đề quan trọng huấn luyện mạng CNN vấn đề học nhớ (overfitting) Để giảm ảnh hưởng vấn đề này, người ta thường áp dụng kỹ thuật có tên drop-out [86] Ý tưởng kỹ thuật thay huấn luyện tồn mạng CNN huấn luyện phần mạng bước lặp trình huấn luyện Do vậy, phần khác mạng huấn luyện để học khía cạnh khác liệu Ý tưởng tương tự kỹ thuật rừng ngẫu nhiên (Random Forests) mà tìm hiểu phần trước Cụ thể, bước lặp trình huấn luyện, chọn ngẫu nhiên 𝑝 (0% < 𝑝 < 100%) số lượng neuron tầng loại bỏ (drop-out) chúng khỏi trình huấn luyện Khi kết thúc trình huấn luyện, trình kiểm thử mạng (testing) tất neuron sử dụng để định trọng số đầu vào tầng có neuron bị drop-out nhân với trọng số 𝑝 với ý nghĩa lấy giá trị kết trung bình phần khác mạng 118 Các thuật toán sử dụng mạng học sâu (DNN) thường có độ phức tạp cao khó cài đặt, đặc biệt thuật tốn tính đạo hàm riêng phần Do vậy, xây dựng mạng DNN, người ta thường sử dụng thư viện chun DNN Với mục đích tìm hiểu nghiên cứu thư viện TFLearn37 thích hợp cho sinh viên, học viên nhà nghiên cứu Thư viện TFLearn sử dụng ngơn ngữ lập trình Python với cú pháp đơn giản, tự nhiên, ngắn gọn dễ hiểu Ví dụ sau minh họa cách dùng TFLearn để xây dựng mạng CNN phổ biến (mạng AlexNet) cho mục đích nhận dạng 17 lồi hoa khác Tập liệu huấn luyện cho tốn tải theo thơng tin chương trình mẫu Ví dụ 4.2: Chương trình tạo mạng CNN huấn luyện mạng dùng ngơn ngữ lập trình Python thư viện TFLearn38 # Khai báo thư viện cần thiết from future import division, print_function, absolute_import import tflearn from tflearn.layers.core import input_data, dropout, fully_connected from tflearn.layers.conv import conv_2d, max_pool_2d from tflearn.layers.normalization import local_response_normalization from tflearn.layers.estimator import regression # Đọc liệu huấn luyện, ảnh đầu vào chuẩn hóa kích thước 227×227×3 import tflearn.datasets.oxflower17 as oxflower17 X, Y = oxflower17.load_data(one_hot=True, resize_pics=(227, 227)) # Xây dựng mạng 'AlexNet' network = input_data(shape=[None, 227, 227, 3]) # Khai báo tầng nhân chập có 96 lọc, receptive_field=11 network = conv_2d(network, 96, 11, strides=4, activation='relu') # Khai báo tầng lấy mẫu từ vùng có kích thước 3×3 network = max_pool_2d(network, 3, strides=2) network = local_response_normalization(network) network = conv_2d(network, 256, 5, activation='relu') network = max_pool_2d(network, 3, strides=2) network = local_response_normalization(network) network = conv_2d(network, 384, 3, activation='relu') network = conv_2d(network, 384, 3, activation='relu') network = conv_2d(network, 256, 3, activation='relu') network = max_pool_2d(network, 3, strides=2) network = local_response_normalization(network) network = fully_connected(network, 4096, activation='tanh') 37 38 http://tflearn.org/ https://github.com/tflearn/tflearn/blob/master/examples/images/alexnet.py 119 # Áp dụng kỹ thuật drop-out hai lần với tỉ lệ p = 0.5 network = dropout(network, 0.5) network = fully_connected(network, 4096, activation='tanh') network = dropout(network, 0.5) network = fully_connected(network, 17, activation='softmax') # Áp dụng kỹ thuật mini-batch gradient descent để huấn luyện mạng network = regression(network, optimizer='momentum', loss='categorical_crossentropy', learning_rate=0.001) # Huấn luyện mạng model = tflearn.DNN(network, checkpoint_path='model_alexnet', max_checkpoints=1, tensorboard_verbose=2) model.fit(X, Y, n_epoch=1000, validation_set=0.1, shuffle=True, show_metric=True, batch_size=64, snapshot_step=200, snapshot_epoch=False, run_id='alexnet_oxflowers17') # Lưu mơ hình nhớ ngồi model.save('alexnet_oxflowers17') Khi q trình huấn luyện kết thúc, tham số tối ưu mạng lưu nhớ ngồi tệp có tên 'alexnet_oxflowers17' Để kiểm thử mạng, tạo tệp riêng biệt với câu lệnh tương tự ngoại trừ câu lệnh cuối (các lệnh regression, model.fit model.save) phải bổ sung thêm câu lệnh nạp trọng số mơ hình vào chương trình (model.load) 120 Bài tập Chƣơng Bài tập 4.1 Tạo KD-tree cho tập liệu sau: (3,5), (1,7), (4,6), (2,5), (2,3), (1,4), (3,1), (8,2) Bài tập 4.2 Phân tích hiệu kỹ thuật lập mục dùng KD-tree làm việc với liệu không gian vector có số chiều lớn (>20) Bài tập 4.3 Phân tích tính cân tạo kỹ thuật KD-tree kỹ thuật K-means Bài tập 4.4 Thực tiếp q trình tính tốn, chọn đặc trưng phân hoạch cho ví dụ phần 4.5.1 (Dữ liệu Bảng 4.1) Bài tập 4.5 Sử dụng định tạo phần 4.5.1, dự đốn giới tính người có thơng tin sau: Hair Length = 5.5", Weight = 90 (kg), Age = 60 Bài tập 4.6 Tạo định cho ví dụ phần 4.5.1 sử dụng độ đo Gini để chọn thuộc tính phân hoạch Bài tập 4.7 Xây dựng cơng thức cho hàm nhân tuyến tính phân lớp SVM Bài tập 4.8 Cài đặt thư viện TFLearn thực thi chương trình mẫu ví dụ 4.2 121 TÀI LIỆU THAM KHẢO Nguyễn Hoàng Lan, Giáo trình: Nhận dạng, ĐHBK Hà Nội 2001 Lương Mạnh Bá, Nguyễn Thanh Thủy (2002), Nhập môn Xử lý ảnh số, NXB Khoa học Kỹ thuật, 2002 Đỗ Năng Tồn, Giáo trình xử lý ảnh số, ĐH Thái Nguyên 2007 Maria Petrou, Costas Petrou, Image Processing: The Fundamentals, 2nd Edition, ISBN: 9780-470-74586-1, John Wiley & Sons, Inc., 2010 Frank Liu, CS 589-04 Digital Image Processing, https://www.cs.nmt.edu/~ip/lectures.html http://cmp.felk.cvut.cz/cmp/courses/ZSO/1/histeq.pdf N Otsu, “A threshold selection method from gray-level histograms,” IEEE Trans Syst., Man Cybern., vol 9, no 1, pp 62–66, Jan 1979 Liao, P-S & Chung, P-C., "A fast algorithm for multilevel thresholding", Journal of Information Science and Engineering 17 (5): 713-727, 2001 Tom Fletcher, "Spatial Filtering", CS/BIOEN 4640: Image Processing Basics, 2012 http://www.coe.utah.edu/~cs4640/ 10 https://www.mathworks.com/help/images/discrete-cosine-transform.html 11 https://calendar.perfplanet.com/2014/mozjpeg-3-0/ 12 The-Anh Pham, Mathieu Delalandre, “Effective decompression of JPEG document images” IEEE Transactions on Image Processing (2016), Vol 25, No 6, pp 3655 - 3670, 2016 13 E Y Lam, “Compound document compression with model-based biased reconstruction,” Journal of Electronic Imaging, vol 13, no 1, pp 191–197, 2004 14 E Feig and S Winograd, “Fast algorithms for the discrete cosine transform,” IEEE Transactions on Signal Processing, vol 40, no 9, pp 2174–2193, 1992 15 E Fatemizadeh, "Filtering in the Frequency Domain", http://ee.sharif.edu/~dip/ 16 E Fatemizadeh, "Image Transforms", http://ee.sharif.edu/~dip/ 17 Cooley, James W.; Tukey, John W (1965) "An algorithm for the machine calculation of complex Fourier series" Mathematics of Computation 19 (90): 297–301 18 http://homepages.inf.ed.ac.uk/rbf/HIPR2/freqfilt.htm 19 Gonzalez and Woods, Digital Image Processing, 3rd Ed., 2008, Prentice Hall ISBN No 9780131687288 20 Belongie, S., Malik, J., and Puzicha, J (2002) Shape matching and object recognition using shape contexts IEEE Trans Pattern Anal Mach Intell., 24(4):509–522 21 Mori, G., Belongie, S., and Malik, J (2001) Shape contexts enable efficient retrieval of similar shapes In Proceedings of the IEEE Computer Society Computer Vision and Pattern Recognition (CVPR’01), volume 1, pages 723–730 22 The-Anh Pham, Mathieu Delalandre, Sabine Barrat, Jean-Yves Ramel, “Accurate junction detection and characterization in line-drawing images” Pattern Recognition (2014), Vol 47, No 1, pp.282–295 23 C Harris and M Stephens (1988) "A combined corner and edge detector" (PDF) Proceedings of the 4th Alvey Vision Conference pp 147–151 122 24 Lindeberg, Tony (2013) "Scale Selection Properties of Generalized Scale-Space Interest Point Detectors", Journal of Mathematical Imaging and Vision, Volume 46, Issue 2, pages 177-210 25 T Lindeberg, "Image matching using generalized scale-space interest points", Journal of Mathematical Imaging and Vision, volume 52, number 1, pages 3-36, 2015 26 T Lindeberg ,"Scale invariant feature transform, Scholarpedia, 7(5):10491, 2012 27 Lowe, David G (2004) "Distinctive Image Features from Keypoints" International Journal of Computer Vision 60 (2): 91–110 Scale-Invariant 28 T Lindeberg (1998) "Feature detection with automatic scale selection." International Journal of Computer Vision 30 (2): pp 77-116 29 Krystian Mikolajczyk and Cordelia Schmid, "Scale & Affine Invariant Interest Point Detectors", International Journal of Computer Vision, Vol 60(1), pp.63-86, 2004 30 Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool "SURF: Speeded Up Robust Features", Computer Vision and Image Understanding (CVIU), Vol 110, No 3, pp 346– 359, 2008 31 Calonder, Michael, et al “Brief: Binary robust independent elementary features.” Computer Vision–ECCV 2010 Springer Berlin Heidelberg, 2010 778-792 32 Rublee, Ethan, et al “ORB: an efficient alternative to SIFT or SURF.” Computer Vision (ICCV), 2011 IEEE International Conference on IEEE, 2011 33 [3] Leutenegger, Stefan, Margarita Chli, and Roland Y Siegwart “BRISK: Binary robust invariant scalable keypoints.” Computer Vision (ICCV), 2011 IEEE International Conference on IEEE, 2011 34 [4] Alahi, Alexandre, Raphael Ortiz , and Pierre Vandergheynst “Freak: Fast retina keypoint.” Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on IEEE, 2012 35 S Belongie, J Malik, and J Puzicha "Shape Matching and Object Recognition Using Shape Contexts" IEEE Transactions on Pattern Analysis and Machine Intelligence 24 (24): 509– 521, 2002 36 Navneet Dalal and Bill Triggs, "Histograms of Oriented Gradients for Human Detection", 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp 886-893, 2005 37 Mori, G., Belongie, S., and Malik, J Shape contexts enable efficient retrieval of similar shapes In Proceedings of the IEEE Computer Society Computer Vision and Pattern Recognition (CVPR’01), volume 1, pages 723-730, 2001 38 Finkel, R A and Bentley, J L (1974) "Quad Trees A Data Structure for Retrieval on Composite Keys" Acta Informatica Springer-Verlag Vol 4, pp.1-9 39 J B MacQueen (1967): "Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability", Berkeley, University of California Press, 1:281-297 40 Anil K Jain, "Data clustering: 50 years beyond K-means", Pattern Recognition Letters, Vol 31, No 8, pp 651-666, 2010 41 Lloyd, Stuart P (1982), "Least squares quantization in PCM", IEEE Transactions on Information Theory, 28 (2): 129–137 42 Olga Veksler, Image Segmentation, 2012, https://www.csd.uwo.ca/courses/CS4442b/L15CV-segment.pdf 123 43 Fukunaga, Keinosuke and Larry D Hostetler "The Estimation of the Gradient of a Density Function, with Applications in Pattern Recognition" IEEE Transactions on Information Theory IEEE 21 (1): 32–40, 1975 44 R.Collins, "Mean-shift Tracking", CSE598G Spring 2006, www.cse.psu.edu/~rtc12/CSE598G/introMeanShift.pdf 45 Yaron Ukrainitz and Bernard Sarel, "Mean Shift: Theory and Applications", http://www.wisdom.weizmann.ac.il/~vision/courses/2004_2/files/mean_shift/mean_shift.ppt 46 Wiley Encyclopedia of Computer Science and Engineering, "Image Segmentation by region based and watershed algorithms", edited by Benjamin Wah, 2008 47 Serge Beucher and Christian Lantuejoul, "Use of watersheds in contour detection", International workshop on image processing: Real-time edge and motion detection/estimation (1979) http://cmm.ensmp.fr/~beucher/publi/watershed.pdf 48 Serge Beucher , "Image segmentation and mathematical morphology", 2010, http://cmm.ensmp.fr/~beucher/wtshed.html 49 Cheng, D.-Y., Gersho, A., Ramamurthi, B., Shoham, Y., 1984 Fast search algorithms for vector quantization and pattern matching In: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP’84), pp 372–375 50 Nister, D and Stewenius, H (2006) Scalable recognition with a vocabulary tree In Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06), volume 2, pages 2161–2168 51 Muja, M and Lowe, D G (2012) Fast matching of binary features In Proceedings of the Ninth Conference on Computer and Robot Vision (CRV), pages 404–410 52 Muja, M and Lowe, D G (2009) Fast approximate nearest neighbors with automatic algorithm configuration In In VISAPP International Conference on Computer Vision Theory and Applications, pages 331–340 53 The-Anh Pham, "Pair-wisely optimized clustering tree for feature indexing", Computer Vision and Image Understanding, accepted for publication, Vol 154, pp 35-47, 2016 54 Lu, "Bag-of-features for visual recognition", in Research Notes, April 24, 2013, https://littlecheesecake.wordpress.com/2013/04/24/research-bag-of-features-for-visualrecognition/ 55 The-Anh Pham, Sabine Barrat, Mathieu Delalandre and Jean-Yves Ramel, “The use of linked-node m-ary tree structure for feature vector indexing” Pattern Recognition Letters, Vol 55, pp 42-50, 2015 56 Friedman, J H., Bentley, J L., and Finkel, R A (1977) An algorithm for finding best matches in logarithmic expected time ACM Trans Math Softw., 3(3):209–226 57 Beis, J S and Lowe, D G (1997) Shape indexing using approximate nearest-neighbour search in high-dimensional spaces In Proceedings of the 1997 Conference on Computer Vision and Pattern Recognition, CVPR’97, pages 1000–1006 58 Silpa-Anan, C and Hartley, R Optimised kd-trees for fast image descriptor matching In: IEEE Conference on Computer Vision and Pattern Recognition; CVPR’08 2008, p 1–8 59 Lv, Q., Josephson, W., Wang, Z., Charikar, M., and Li, K (2007) Multiprobe LSH: efficient indexing for high-dimensional similarity search In Proceedings of the 33rd International Conference on Very large Databases, VLDB’07, pages 950–961 60 Kulis, B and Grauman, K (2009) Kernelized localitysensitive hashing for scalable image search In IEEE International Conference on Computer Vision (ICCV), pages 1–8 124 61 M A Fischler and R C Bolles Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography Communications of the ACM, 24(6):381–395, 1981 62 D.H Ballard Generalizing the hough transform to detect arbitrary patterns Communications of the ACM, 13(2):111–122, 1981 63 The-Anh Pham, Hong-Ha Le and Nang-Toan Do, “Offline handwritten signature verification using local and global features” Annals of Mathematics and Artificial Intelligence, Vol 75, No (1-2), pp: 231-247, 2015 64 Gary Bradski, Adrian Kaehler, "Learing OpenCV", O'Reilly Media, Print ISBN:978-0-59651613-0 | ISBN 10:0-596-51613-4, 2008 65 L Breiman, J Friedman, R Olshen, and C Stone, "Classification and Regression Trees" (1984), Wadsworth 66 Allan Neymark, "ID3 Algorithm", (Lecture slides) CS157B – Spring 2007, https://www.cs.sjsu.edu/~lee/cs157b/ID3-AllanNeymark.ppt 67 Quinlan, J R 1986 Induction of Decision Trees Mach Learn Vol 1, No (Mar 1986), 81–106 68 Breiman, Leo (2001) "Random Forests" Machine Learning 45 (1): 5–32 69 Ishwaran, Hemant; Kogalur, Udaya B.; Blackstone, Eugene H.; Lauer, Michael S Random survival forests Ann Appl Stat (2008), no 3, 841 860 doi:10.1214/08-AOAS169 70 Cortes, C.; Vapnik, V (1995) "Support-vector networks" Machine Learning Vol 20 (3): pp.273–297 71 Boser, B E.; Guyon, I M.; Vapnik, V N (1992) "A training algorithm for optimal margin classifiers" Proceedings of the fifth annual workshop on Computational learning theory – COLT '92 p 144 doi:10.1145/130385.130401 ISBN 089791497X 72 Jason Weston, "Support Vector Machine ((and Statistical Learning Theory) Tutorial" http://www.cs.columbia.edu/~kathy/cs4701/documents/jason_svm_tutorial.pdf 73 Kimeldorf, George S.; Wahba, Grace (1970) "A correspondence between Bayesian estimation on stochastic processes and smoothing by splines" The Annals of Mathematical Statistics 41 (2): 495–502 74 Quoc V Le, A Tutorial on Deep Learning Part 1: Nonlinear Classifiers and The Backpropagation Algorithm, December 13, 2015 https://cs.stanford.edu/~quocle/tutorial1.pdf 75 Sebastian Ruder, "An overview of gradient descent optimization algorithms", 2016 https://arxiv.org/pdf/1609.04747.pdf 76 Stuart Dreyfus (1990) Artificial Neural Networks, Back Propagation and the Kelley-Bryson Gradient Procedure J Guidance, Control and Dynamics, 1990 77 Krizhevsky, Alex and Sutskever, Ilya and Hinton, Geoffrey E., "ImageNet Classification with Deep Convolutional Neural Networks", Proceedings of the 25th International Conference on Neural Information Processing Systems (NIPS'12), pp 1097-1105, 2012 78 Yaniv Taigman, Ming Yang, Marc'Aurelio Ranzato, Lior Wolf, "DeepFace: Closing the Gap to Human-Level Performance in Face Verification", Conference on Computer Vision and Pattern Recognition (CVPR), 2014 79 McCulloch, Warren; Walter Pitts (1943) "A Logical Calculus of Ideas Immanent in Nervous Activity" Bulletin of Mathematical Biophysics (4): 115–133 doi:10.1007/BF02478259 80 Hebb, Donald (1949) The Organization of Behavior New York: Wiley 81 Werbos, P.J (1975) Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences 82 Hinton, G E., Osindero, S and Teh, Y., A fast learning algorithm for deep belief nets Neural Computation 18:1527-1554, 2006 125 83 Yoshua Bengio, Pascal Lamblin, Dan Popovici and Hugo Larochelle, Greedy Layer-Wise Training of Deep Networks, in J Platt et al (Eds), Advances in Neural Information Processing Systems 19 (NIPS 2006), pp 153-160, MIT Press, 2007 84 Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun Efficient Learning of Sparse Representations with an Energy-Based Model, in J Platt et al (Eds), Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007 85 LeCun, Yann; Leon Bottou; Yoshua Bengio; Patrick Haffner (1998) "Gradient-based learning applied to document recognition" (PDF) Proceedings of the IEEE 86 (11): 2278– 2324, 1998 86 G E Hinton, N Srivastava, A Krizhevsky, I Sutskever, and R Salakhutdinov “Improving neural networks by preventing co-adaptation of feature detectors” arXiv preprint arXiv:1207.0580, 2012 126 ... Thế ảnh màu, ảnh đa cấp xám? Nêu số ứng dụng xử lý ảnh? 11 CHƢƠNG BIẾN ĐỔI ẢNH Chương trình bày kỹ thuật biến đổi ảnh thành ảnh theo ý muốn, bao gồm phép biến đổi không gian ảnh phép biến đổi ảnh. .. điện thành tín hiệu ảnh Ảnh thu từ thiết bị thu nhận ảnh ảnh tương tự ảnh số Nếu ảnh tương tự phải tiến hành trình số hóa ảnh để xử lý máy tính Để chuyển từ ảnh liên tục dạng ảnh số cần có số hóa.. .Ảnh XỬ LÝ ẢNH Ảnh “Tốt hơn” Kết luận Hình Error! No text of specified style in document Xử lý ảnh Xử lý ảnh tiến trình gồm nhiều cơng đoạn nhỏ, giai

Ngày đăng: 07/01/2022, 15:52

HÌNH ẢNH LIÊN QUAN

Hình Error! No text of specified style in document..3. Ma trận số liệu - giáo án xử lý ảnh (XLA) và ứng dụng
nh Error! No text of specified style in document..3. Ma trận số liệu (Trang 8)
Hình 2.2. Các thành phần histogram của một ảnh đầu vào - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 2.2. Các thành phần histogram của một ảnh đầu vào (Trang 13)
Hình 2.3. Minh họa ý nghĩa của lược đồ histogram - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 2.3. Minh họa ý nghĩa của lược đồ histogram (Trang 13)
Hình 2.4. Minh họa ý nghĩa của lược đồ histogram. - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 2.4. Minh họa ý nghĩa của lược đồ histogram (Trang 14)
Hình 2.11. Kết quả phân ngưỡng ảnh bên trái với T= 140 2.2.6. Phân ngưỡng tự động (thuật toán Otsu)  - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 2.11. Kết quả phân ngưỡng ảnh bên trái với T= 140 2.2.6. Phân ngưỡng tự động (thuật toán Otsu) (Trang 19)
Hình 2.14. Minh họa phép nhân chập (thay u,v bằng i,j) - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 2.14. Minh họa phép nhân chập (thay u,v bằng i,j) (Trang 23)
Thực hiện nhân chập ảnh  - giáo án xử lý ảnh (XLA) và ứng dụng
h ực hiện nhân chập ảnh (Trang 24)
7 Thuật toán tìm phần tử trung vị thường phải thực hiện sắp xếp các phần tử của dãy  - giáo án xử lý ảnh (XLA) và ứng dụng
7 Thuật toán tìm phần tử trung vị thường phải thực hiện sắp xếp các phần tử của dãy (Trang 28)
Hình 2.23. Minh họa các hàm DCT8 cơ sở của phép biến đổi DCT8 × 8. - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 2.23. Minh họa các hàm DCT8 cơ sở của phép biến đổi DCT8 × 8 (Trang 31)
Hàm lọc ảnh  - giáo án xử lý ảnh (XLA) và ứng dụng
m lọc ảnh (Trang 35)
Hình 3.1. Một số đặc trưng mức thấp (các điểm góc khoanh tròn) [22] - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.1. Một số đặc trưng mức thấp (các điểm góc khoanh tròn) [22] (Trang 40)
Hình 3.2. Ảnh gốc (trái) và ảnh phân vùng (phải) - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.2. Ảnh gốc (trái) và ảnh phân vùng (phải) (Trang 41)
Bảng 3.1. Các tình huống thường xảy ra khi dò biên - giáo án xử lý ảnh (XLA) và ứng dụng
Bảng 3.1. Các tình huống thường xảy ra khi dò biên (Trang 46)
Hình 3.7. Minh họa các điểm góc (đánh dấu bởi cá cô vuông)17 - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.7. Minh họa các điểm góc (đánh dấu bởi cá cô vuông)17 (Trang 49)
Hình 3.8. Ý tưởng dò tìm điểm góc dựa trên sự thay đổi về mức xám trong một cửa sổ - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.8. Ý tưởng dò tìm điểm góc dựa trên sự thay đổi về mức xám trong một cửa sổ (Trang 50)
Hình 3.11 minh họa các điểm góc tìm được cho một ảnh đầu vào. - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.11 minh họa các điểm góc tìm được cho một ảnh đầu vào (Trang 52)
Hình 3.16 minh họa các tính chất trên của hàm LoG, trong đó Hình 3.16(a) chứa một blob (màu đen) có bán kính  - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.16 minh họa các tính chất trên của hàm LoG, trong đó Hình 3.16(a) chứa một blob (màu đen) có bán kính (Trang 55)
Hình 3.17. Ảnh đầu vào (trái) và kết quả dò tìm blob (phải) 3.3.3.3. Bộ dò tìm blob dựa trên DoG (Difference of Gaussian)  - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.17. Ảnh đầu vào (trái) và kết quả dò tìm blob (phải) 3.3.3.3. Bộ dò tìm blob dựa trên DoG (Difference of Gaussian) (Trang 57)
Hình 3.19. Ảnh gốc (trái) và các điểm khóa (phải): mỗi điểm khóa được biễu diễn bởi một vector chỉ tọa độ, hướng và kích thước (chiều dài vector) - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.19. Ảnh gốc (trái) và các điểm khóa (phải): mỗi điểm khóa được biễu diễn bởi một vector chỉ tọa độ, hướng và kích thước (chiều dài vector) (Trang 59)
và có bán kính  - giáo án xử lý ảnh (XLA) và ứng dụng
v à có bán kính (Trang 60)
Hình 3.29. Minh họa bộ mô tả ShapeContext cho 3 vị trí khác nhau trên đối tượng 'A'. - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.29. Minh họa bộ mô tả ShapeContext cho 3 vị trí khác nhau trên đối tượng 'A' (Trang 67)
- Gán các điểm vào các tâm gần nhất để hình thành các cụm (kí hiệu mỗi cụm là - giáo án xử lý ảnh (XLA) và ứng dụng
n các điểm vào các tâm gần nhất để hình thành các cụm (kí hiệu mỗi cụm là (Trang 71)
Hình 3.41. (a) tín hiệu đầu vào (hàm một biến) với 6 điểm cực tiểu cục bộ, (b) một bức tường được dựng lên ở ranh giới của hai hồ có nguy cơ bị ngập, (c) mức nước trong các  hồ dâng lên ngang bằng với điểm biên cao nhất [46] - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.41. (a) tín hiệu đầu vào (hàm một biến) với 6 điểm cực tiểu cục bộ, (b) một bức tường được dựng lên ở ranh giới của hai hồ có nguy cơ bị ngập, (c) mức nước trong các hồ dâng lên ngang bằng với điểm biên cao nhất [46] (Trang 77)
Hình 3.33. (a) các ảnh thuộc tập mẫu (training), (b) các điểm lấy mẫu của mỗi ảnh và chỉ số Shapeme tương ứng của mỗi điểm - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 3.33. (a) các ảnh thuộc tập mẫu (training), (b) các điểm lấy mẫu của mỗi ảnh và chỉ số Shapeme tương ứng của mỗi điểm (Trang 83)
Hình 4.2. Minh họa quá trình tìm kiếm (hay đối sánh) sử dụng cây K-means - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 4.2. Minh họa quá trình tìm kiếm (hay đối sánh) sử dụng cây K-means (Trang 90)
Hình 4.4. Minh họa quá trình tạo cây KD-tree cho trường hợp 2D: (a) cây nhị phân và (b) mặt phẳng phân hoạch biểu diễn tập dữ liệu ban đầu - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 4.4. Minh họa quá trình tạo cây KD-tree cho trường hợp 2D: (a) cây nhị phân và (b) mặt phẳng phân hoạch biểu diễn tập dữ liệu ban đầu (Trang 92)
Bảng 4.1. Dữ liệu về dự đoán giới tính đối tượng [65] - giáo án xử lý ảnh (XLA) và ứng dụng
Bảng 4.1. Dữ liệu về dự đoán giới tính đối tượng [65] (Trang 101)
Hình 4.15 mô phỏng trực quan kết quả phân tách một tập dữ liệu trong không gian - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 4.15 mô phỏng trực quan kết quả phân tách một tập dữ liệu trong không gian (Trang 107)
Hình 4.14. Minh họa hình dạng của các hàm kích hoạt phổ biến - giáo án xử lý ảnh (XLA) và ứng dụng
Hình 4.14. Minh họa hình dạng của các hàm kích hoạt phổ biến (Trang 110)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN