.1 Kiến trúc cơ bản autoencoder

Một phần của tài liệu Hệ thống tự động kiểm tra ngoại quan sản phẩm rocker arm dựa trên xử lý ảnh và công nghệ học sâu (Trang 53 - 58)

Hình thức đơn giản nhất của autoencoder là một feedforward, phi mạng thần kinh tái phát tương tựnhư lớp đơn perceptron tham gia vào perceptron nhiều lớp (MLP) - sử dụng một lớp đầu vào và một lớp đầu ra nối với nhau bằng một hoặc lớp ẩn hơn. Lớp đầu ra có cùng số lượng nút (nơ-ron) với lớp đầu vào. Mục đích của nó là tái tạo lại các đầu vào (giảm thiểu sự khác biệt giữa đầu vào và đầu ra) thay vì dựđốn giá trị mục tiêu Y đầu vào nhất định X. Vì vậy, mã tựđộng là mơ hình học tập khơng được giám sát.

Một bộ mã tự động bao gồm hai phần, bộ mã hóa và bộ giải mã, có thể được định nghĩa là quá trình chuyển đổiɸ và ψ:

ɸ: 𝑋𝑋 → 𝐹𝐹 ψ : 𝐹𝐹 → 𝑋𝑋

ɸ, ψ = 𝐴𝐴𝐴𝐴𝑎𝑎𝑎𝑎𝑈𝑈𝑈𝑈 ‖𝑋𝑋 −(ψ ∙ ɸ)∙ 𝑋𝑋‖2

44 Trong trường hợp đơn giản nhất, với một lớp ẩn, giai đoạn mã hóa của trình mã tự động lấy đầu vào 𝑥𝑥 ∈ 𝑅𝑅𝑚𝑚 =𝑋𝑋 và ánh xạ nó tới ℎ ∈ 𝑅𝑅𝑝𝑝 =𝐹𝐹:

ℎ = 𝜎𝜎(𝑊𝑊𝑥𝑥+𝑏𝑏) PT 4.2

Trong đó h thường được gọi là mã , biến tiềm ẩnhoặcđại diện tiềm ẩn, 𝜎𝜎 là mộthàm kích hoạtphần tửnhư một hàm sigmoid hoặc mộtđơn vị tuyến tính được chỉnh lưu. W là một ma trận trọng lượng và b là một vector. Trọng lượng và độ lệch thường được khởi tạo ngẫu nhiên, sau đó được cập nhật lặp đi lặp lại trong q trình đào tạo thơng qua lan truyềnngược. Sau đó, giai đoạn giải mã của bản đồ tự động mã hóah để tái thiết𝑥𝑥′ có cùng hình dạng với x:

𝑥𝑥′ = 𝜎𝜎(𝑊𝑊′ℎ+𝑏𝑏′) PT 4.3

𝜎𝜎′,𝑊𝑊′,𝑏𝑏′đối với bộ giải mã có thểkhơng liên quan đến 𝜎𝜎,𝑊𝑊,𝑏𝑏 cho bộ mã hóa. Tự động mã được đào tạo để giảm thiểu các lỗi xây dựng lại (chẳng hạn nhưlỗi bình phương), thường được gọi là "mất mát ":

𝐿𝐿(𝑥𝑥,𝑥𝑥′) = ‖𝑥𝑥 − 𝑥𝑥′‖2 PT 4.4

Như đã đề cập trước đây, quá trình đào tạo mã tự động được thực hiện thông qua việc truyền ngược lỗi, giống như mộtmạng thần kinh chuyển tiếpthông thường.

4.1.3 ng dng

Hai ứng dụng chính của mã tựđộng từ những năm 80 là giảm kích thước và truy xuất thơng tin, nhưng các biến thể hiện đại của mơ hình cơ bản đã được chứng minh là thành công khi áp dụng cho các lĩnh vực và nhiệm vụ khác nhau.

Giảm kích thước

Giảm kích thước là một trong những ứng dụng đầu tiên của học sâu và là một trong những động lực ban đầu để nghiên cứu mã tự động. Tóm lại, mục tiêu là tìm ra một phương pháp chiếu thích hợp, ánh xạ dữ liệu từkhơng gian đặc trưng cao sang không gian đặc trưng thấp. Biểu diễn dữ liệu trong không gian chiều thấp hơn có thể cải thiện hiệu suất trên các tác vụ khác nhau, chẳng hạn như phân loại. Thật vậy, nhiều hình thức giảm số chiều đặt các ví dụ liên quan về mặt ngữnghĩa gần nhau, hỗ trợ cho sự tổng qt hóa.

Mi quan h vi phân tích thành phn chính (PCA)

Nếu kích hoạt tuyến tính được sử dụng hoặc chỉ một lớp ẩn sigmoid duy nhất, thì giải pháp tối ưu cho bộ mã tự động liên quan chặt chẽđến phân tích thành phần chính (PCA). Trọng lượng của một bộ mã tựđộng với một lớp ẩn duy nhất có kích thước p (ởđây p nhỏ hơn kích thước của đầu vào) mở rộng cùng một khơng gian con vectơ như không gian con được kéo dài bởi p các thành phần chính và đầu ra của bộ mã tựđộng là một phép chiếu trực giao lên không gian con này. Trọng số của bộ mã tự động khơng bằng với các thành phần chính và thường khơng trực giao, nhưng các thành phần chính có thểđược khơi phục từ chúng bằng cách sử dụng phân rã giá trịđơn lẻ .

45 Tuy nhiên, tiềm năng của Autoencoders nằm ở tính khơng tuyến tính của chúng, cho phép mơ hình tìm hiểu những khái quát mạnh mẽhơn so với PCA và tái tạo lại đầu vào với mức mất thông tin thấp hơn đáng kể.

Truy xut thông tin

Việc truy xuất thông tin được hưởng lợi đặc biệt từ việc giảm kích thước trong việc tìm kiếm có thể trở nên cực kỳ hiệu quả trong một số loại không gian chiều thấp nhất định. Tựđộng mã hóa thực sựđã được áp dụng cho băm ngữnghĩa , được đề xuất bởi Salakhutdinov và Hinton vào năm 2007. Nói tóm lại, đào tạo thuật tốn để tạo ra mã nhị phân chiều thấp, sau đó tất cả các mục cơ sở dữ liệu có thểđược lưu trữ trong bảng băm ánh xạvectơ mã nhịphân đến các mục nhập. Sau đó, bảng này sẽ cho phép thực hiện truy xuất thông tin bằng cách trả về tất cả các mục nhập có cùng mã nhị phân với truy vấn hoặc các mục nhập tương tựhơn một chút bằng cách lật một số bit từ mã hóa của truy vấn.

Phát hin bất thường

Một lĩnh vực ứng dụng khác cho mã tựđộng là phát hiện bất thường. Bằng cách học cách tái tạo các đặc điểm nổi bật nhất trong dữ liệu huấn luyện theo một số ràng buộc được mơ tảtrước đây, mơ hình được khuyến khích học cách tái tạo chính xác các đặc điểm thường xuyên nhất của các quan sát. Khi đối mặt với sự bất thường, mơ hình sẽ làm giảm hiệu suất tái tạo của nó. Trong hầu hết các trường hợp, chỉ dữ liệu với các phiên bản bình thường được sử dụng đểđào tạo trình mã tựđộng; trong những trường hợp khác, tần suất dịthường quá nhỏ so với toàn bộ quần thể quan sát, nên có thể bỏ qua sựđóng góp của nó đối với biểu diễn mà mơ hình học được. Sau khi huấn luyện, trình mã tựđộng sẽ cấu trúc lại dữ liệu bình thường rất tốt, trong khi không thể làm như vậy với dữ liệu bất thường mà trình mã tựđộng khơng gặp phải. Lỗi tái thiết của điểm dữ liệu, là lỗi giữa điểm dữ liệu ban đầu và tái tạo chiều thấp của nó, được sử dụng làm điểm bất thường để phát hiện điểm bất thường.

X lý hình nh

Các đặc tính đặc biệt của mã tựđộng đã khiến mơ hình này trở nên cực kỳ hữu ích trong việc xử lý hình ảnh cho các tác vụ khác nhau. Một ví dụ có thểđược tìm thấy trong tác vụ nén ảnh mất dữ liệu , trong đó các bộ mã tự động đã thể hiện tiềm năng của chúng bằng cách vượt trội hơn các phương pháp tiếp cận khác và được chứng minh là có khảnăng cạnh tranh với JPEG 2000. Một ứng dụng hữu ích khác của tựđộng mã hóa trong lĩnh vực tiền xử lý hình ảnh là làm giảm hình ảnh. Nhu cầu vềcác phương pháp khôi phục ảnh hiệu quảđã tăng lên cùng với việc sản xuất ồạt các loại ảnh và phim kỹ thuật số, thường được chụp trong điều kiện kém. Cuối cùng, các thí nghiệm thành cơng khác đã được thực hiện khai thác các biến thể của bộ mã tựđộng cơ bản cho các tác vụ chụp ảnh Siêu phân giải.

4.1.4 SSIM a. Khái niệm a. Khái niệm

SSIM (The structural similarity index measure), phép đo chỉ sốtương đồng về cấu trúc là một phương pháp để dựđốn chất lượng cảm nhận của truyền hình kỹ thuật

46 số và hình ảnh điện ảnh, cũng như các loại hình ảnh và video kỹ thuật số khác. SSIM được sử dụng để đo mức độ giống nhau giữa hai hình ảnh. Chỉ số SSIM là một số liệu tham chiếu đầy đủ, nói cách khác, nó là phép đo hoặc dự đốn chất lượng hình ảnh dựa trên hình ảnh khơng bị nén hoặc khơng bị biến dạng ban đầu làm tham chiếu.

SSIM là một mơ hình dựa trên nhận thức coi sự suy giảm hình ảnh là sựthay đổi thơng tin cấu trúc được nhận thức, đồng thời kết hợp các hiện tượng cảm nhận quan trọng, bao gồm cả thuật ngữche độsáng và che độtương phản. Sự khác biệt với các kỹ thuật khác như MSE hoặc PSNR là các phương pháp này ước tính sai số tuyệt đối. Thơng tin cấu trúc là ý tưởng cho rằng các pixel có sự phụ thuộc lẫn nhau mạnh mẽ, đặc biệt là khi chúng gần nhau về mặt không gian. Những phụ thuộc này mang thông tin quan trọng về cấu trúc của các đối tượng trong cảnh trực quan. Che độ chói là hiện tượng mà các biến dạng hình ảnh (trong bối cảnh này) có xu hướng ít hiển thị hơn ởcác vùng sáng, trong khi che độtương phản là hiện tượng mà các biến dạng trở nên ít nhìn thấy hơn ở những nơi có hoạt động đáng kể hoặc "kết cấu" trong hình ảnh.

b. Thuật tốn

Chỉ số SSIM được tính tốn trên các cửa sổ khác nhau của một hình ảnh. Thước đo giữa hai cửa sổ x và y có kích thước chung NxN là:

𝑆𝑆𝑆𝑆𝐼𝐼𝑆𝑆(𝑥𝑥,𝑦𝑦) = (𝜇𝜇𝑚𝑚(2𝜇𝜇2+𝑚𝑚𝜇𝜇𝑦𝑦𝜇𝜇2𝑦𝑦++𝑐𝑐1)(𝜎𝜎𝑚𝑚𝑐𝑐1)(2𝜎𝜎2+𝑚𝑚𝑦𝑦𝜎𝜎𝑦𝑦+2𝑐𝑐+2)𝑐𝑐2) PT 4.5 Trong đó: 𝜇𝜇𝑚𝑚, 𝜇𝜇𝑦𝑦 là trung bình của x và y. 𝜎𝜎𝑚𝑚2, 𝜎𝜎𝑦𝑦2 là phương sai của x và y. 𝜎𝜎𝑚𝑚𝑦𝑦 là hiệp phương sai của x và y. 𝑐𝑐1 = (𝑘𝑘1𝐿𝐿)2, 𝑐𝑐2 = (𝑘𝑘2𝐿𝐿)2 là hai biến thể ổn định phép chia có mẫu số yếu. L là phạm vi động của các pixel (thường là 2#𝑜𝑜𝑚𝑚𝑡𝑡𝑐𝑐 𝑝𝑝𝑡𝑡𝑡𝑡 𝑝𝑝𝑚𝑚𝑚𝑚𝑡𝑡𝑐𝑐 −1), 𝑘𝑘1 = 0.01,𝑘𝑘2 = 0,03 theo mặc định.

Công thức SSIM dựa trên ba phép đo so sánh giữa các mẫu của x và y: độ chói (l), tương phản (c) và cấu trúc (s). Các chức năng so sánh riêng lẻ là:

𝑂𝑂(𝑥𝑥,𝑦𝑦) =𝜇𝜇2𝜇𝜇𝑚𝑚𝜇𝜇𝑦𝑦+𝑐𝑐1 𝑚𝑚 2+𝜇𝜇𝑦𝑦2 +𝑐𝑐1 PT 4.6 𝑐𝑐(𝑥𝑥,𝑦𝑦) =𝜎𝜎2𝜎𝜎𝑚𝑚𝜎𝜎𝑦𝑦+𝑐𝑐2 𝑚𝑚2+𝜎𝜎𝑦𝑦2+𝑐𝑐2 PT 4.7 𝑠𝑠(𝑥𝑥,𝑦𝑦) = 𝜎𝜎𝜎𝜎𝑚𝑚𝑦𝑦 +𝑐𝑐3 𝑚𝑚𝜎𝜎𝑦𝑦+𝑐𝑐3 PT 4.8 Trong đó 𝑐𝑐3 =𝑐𝑐22

SSIM là sự kết hợp có trọng số của 2 phép đo trên:

47 Đặt 𝛼𝛼,𝛽𝛽,𝛾𝛾 thành 1 sẽthu được cơng thức phía trên.

Thuc tính tốn hc:

SSIM thỏa mãn tính đồng nhất của các tính chất không thể phân biệt và đối xứng, nhưng không phải là bất đẳng thức tam giác hoặc không phủđịnh, và do đó khơng phải là một hàm khoảng cách. Tuy nhiên, trong một sốđiều kiện nhất định, SSIM có thể được chuyển đổi thành thước đo MSE gốc được chuẩn hóa, là một hàm khoảng cách. Bình phương của một hàm như vậy không lồi, mà là lồi cục bộ và lồi cục bộ, làm cho SSIM trở thành mục tiêu khảthi để tối ưu hóa.

ng dng ca cơng thc:

Để đánh giá chất lượng hình ảnh, cơng thức này thường chỉ được áp dụng trên luma, mặc dù nó cũng có thểđược áp dụng trên các giá trị màu (ví dụ: RGB) hoặc giá trị màu (ví dụ: YCbCr). Chỉ số SSIM kết quả là một giá trị thập phân từ0 đến 1 và giá trị 1 chỉ có thể truy cập được trong trường hợp hai bộ dữ liệu giống nhau và do đó chỉ ra sựtương đồng về cấu trúc hoàn hảo. Giá trị 0 cho thấy khơng có sự giống nhau về cấu trúc. Đối với một hình ảnh, nó thường được tính tốn bằng cách sử dụng cửa sổGaussian trượt có kích thước 11x11 hoặc cửa sổ khối có kích thước 8 × 8. Cửa sổ có thểđược dịch chuyển từng pixel trên hình ảnh để tạo bản đồ chất lượng SSIM của hình ảnh. Trong trường hợp đánh giá chất lượng video, các tác giảđề xuất chỉ sử dụng một nhóm con của các cửa sổ có thểcó để giảm độ phức tạp của phép tính.

Các biến th ca SSIM

SSIM có nhiều biến thểkhác nhau: SSIM đa tỉ lệ, SSIM nhiều thành phần, sự khác biệt về cấu trúc (DSSIM), SSIMPLUS, …

c. Ứng dụng và hiệu suất

SSIM có ứng dụng trong nhiều vấn đề khác nhau:

- Nén hình ảnh: Trong nén hình ảnh bị mất, thơng tin được cố tình loại bỏđể giảm dung lượng lưu trữ của hình ảnh và video. MSE thường được sử dụng trong các sơ đồnén như vậy. Theo các tác giả của nó, sử dụng SSIM thay vì MSE được đề xuất để tạo ra kết quả tốt hơn cho các hình ảnh được giải nén.

- Khơi phục hình ảnh: Khơi phục hình ảnh tập trung vào việc giải quyết vấn đề y = h * x + n. Ởđây y là hình ảnh mờ cần được khơi phục, h là hạt nhân mờ, n là nhiễu và x là hình ảnh ban đầu muốn khôi phục. Bộ lọc truyền thống được sử dụng để giải quyết vấn đề này là Bộ lọc Wiener. Tuy nhiên, thiết kế bộ lọc Wiener dựa trên MSE. Theo các tác giả của thuật toán, sử dụng một biến thể SSIM, cụ thể là Stat-SSIM, được cho là tạo ra kết quả hình ảnh tốt hơn.

- Nhận dạng mẫu: Vì SSIM bắt chước các khía cạnh trong nhận thức của con người, nó có thểđược sử dụng để nhận dạng các mẫu. Khi đối mặt với các vấn đềnhư chia tỷ lệ hình ảnh, dịch và xoay, các tác giả của thuật toán tuyên bố rằng tốt hơn nên sử dụng CW-SSIM, không nhạy cảm với các biến thể này và có thểđược áp dụng trực tiếp bằng cách đối sánh mẫu mà không cần

48 sử dụng bất kỳ mẫu đào tạo nào. Vì các phương pháp tiếp cận nhận dạng mẫu theo hướng dữ liệu có thể tạo ra hiệu suất tốt hơn khi có sẵn một lượng lớn dữ liệu để đào tạo, các tác giả đề xuất sử dụng CW-SSIM trong các phương pháp tiếp cận theo hướng dữ liệu.

Do tính phổ biến của nó, SSIM thường được so sánh với các chỉ số khác, bao gồm các chỉ sốđơn giản hơn như MSE và PSNR, cũng như các chỉ số chất lượng hình ảnh và video cảm nhận khác. SSIM đã nhiều lần được chứng minh là vượt trội hơn đáng kể so với MSE và tính chính xác của nó mang lại, bao gồm cả nghiên cứu của chính các tác giả của nó và những người khác.

4.1.5 Kiến trúc mng Autoencoder áp dng cho rocker arm

Một phần của tài liệu Hệ thống tự động kiểm tra ngoại quan sản phẩm rocker arm dựa trên xử lý ảnh và công nghệ học sâu (Trang 53 - 58)

Tải bản đầy đủ (PDF)

(84 trang)