Lớp MaxPooling với kernel =( 2x 2), Stride =1 và không Padding

Một phần của tài liệu Phân loại phong cách thiết kế nội thất dùng học sâu và ứng dụng thực tế đồ án tốt nghiệp khoa đào tạo chất lượng cao ngành công nghệ thông tin (Trang 57 - 62)

Sử dụng lớp Pooling giữa các lớp Convolutional giúp giảm kể tối đa số lượng tham số cũng như giảm tải khối lượng tính tốn. Có 3 loại pooling layer phổ biến là Max pooling, Average Pooling và Global Average Pooling.

Global Average Pooling hoạt động khác, bằng các tính tốn giá trị trung bình tồn bộ trong feature map, đầu ra của lớp này là một con số duy nhất trong mỗi feature map. Điều này làm mất đi nhiều thông tin trên mỗi feature map tuy nhiên nó áp dụng hiệu qua chho các lớp đầu ra bởi vì sau khi đi qua nhiều lớp, trên feature map khơng cịn nhiều thơng tin, việc loại bỏ tất cả các thông tin trống giúp giảm đáng kế số lượng tham số và hạn chế rủi rỏ về bộ nhớ.

Trang | 41

2.5. Kiến trúc CNN

Các kiến trúc điển hình của CNN bao gồm các lớp Convolutional (đi sau là ReLU) và Pooling chồng lên nhau. Hình ảnh thu được ngày càng nhỏ hơn khi nó đi sâu qua các lớp nhưng nó thể hiện được nhiều đặc trưng hơn. Các lớp Convolution chồng lên nhau và sử dụng các hàm nonlinear activation như ReLU và tanh để kích hoạt các trọng số trong các node. Mỗi một lớp sau khi thơng qua các hàm kích hoạt sẽ tạo ra các thông tin trừu tượng hơn cho các lớp tiếp theo. Sau khi đi qua nhiều lớp bao gồm Convolutional và Pooling thì những feature này được đưa vào Fully connected layer. Lớp này dùng để đưa ra kết quả. Sau khi các lớp Convolutional và Pooling đã nhận được các ảnh đã truyền qua nó, ta sẽ thu được kết quả là mơ hình đã đọc được khá nhiều thơng tin về ảnh. Fully connected layer dùng để liên kết các đặc điểm đó lại và cho ra output.

Trang | 42

CHƯƠNG 3. ỨNG DỤNG HỌC SÂU ĐỂ GIẢI QUYẾT BÀI TOÁN PHÂN LOẠI PHONG CÁCH THIẾT KẾ NỘI THẤT

3.1. Một số nghiên cứu liên quan.

3.1.1. Nghiên cứu về “Tiếp cận và trích xuất đặc điểm của nội thất”13. 3.1.1.1. Tóm tắt nghiên cứu. 3.1.1.1. Tóm tắt nghiên cứu.

Báo cáo này nhằm mục đích đề xuất phương pháp tiếp cận dựa trên Học Sâu để tự động nhận dạng các đặc điểm thiết kế của các yếu tố thiết kế nội thất bằng cách sử dụng các hình ảnh kỹ thuật số nhất định. Kỹ thuật nhận dạng hình ảnh gần đây sử dụng mạng nơ-ron tích tụ (Neural Network) đã cho thấy thành cơng lớn trong các lĩnh vực nghiên cứu và công nghiệp khác nhau. Các mã nguồn mở và các mơ hình nhận dạng hình ảnh được đào tạo trước hỗ trợ nhiệm vụ nhận dạng hình ảnh cho phép nhóm dễ dàng đào tạo lại các mơ hình để áp dụng chúng trên bất kỳ nền tảng nào. Báo cáo cũng mô tả cách áp dụng các kỹ thuật đó vào quy trình thiết kế nội thất và mơ tả một số kết quả minh họa trong cách tiếp cận đó. Đồ nội thất là một trong những yếu tố thiết kế nội thất phổ biến nhất có tính năng phụ bao gồm các đặc điểm thiết kế ngầm, chẳng hạn như phong cách, hình dạng, chức năng cũng như các thuộc tính rõ ràng, chẳng hạn như thành phần, vật liệu và kích thước. Bài báo này chỉ ra cách đào tạo lại mơ hình để trích xuất một số tính năng để quản lý và sử dụng hiệu quả thông tin thiết kế đó. Thiết bị mục tiêu là ghế và các đặc điểm thiết kế mục tiêu được giới hạn ở các tính năng chức năng, vật liệu, sức chứa và phong cách thiết kế. Tổng số 3933 bộ dữ liệu hình ảnh chiếc ghế và 6 mơ hình nhận dạng hình ảnh đã được đào tạo lại đã được sử dụng để đào tạo lại. Thông qua sự kết hợp của nhiều mơ hình đó, trình diễn suy luận cũng đã được mô tả.

3.1.1.2. Kết quả của nghiên cứu.

Cơng trình nghiên cứu này nhằm mục đích phát triển việc trích xuất tự động tồn bộ thiết bị trong thiết kế nội thất và tính năng thiết kế của nó từ hình ảnh và sử dụng nó cho thiết kế nội thất. Trong số các nghiên cứu cần thiết cho điều đó, việc phát hiện các yếu tố nội thất đã có thể thực hiện được và cho thấy độ chính xác cao. Là nghiên cứu cơ bản cho bước tiếp theo, bài báo này mô tả chỉ cần khảo sát kỹ thuật và cách tiếp cận cần thiết

13 JIN SUNG KIM, JAE YEOL SONG và JIN KOOK LEE, 2018, “Approach to the extraction of design

features of interior design elements using image recognition technique”, Department of Interior Architecture &

Trang | 43 và sử dụng chúng để kiểm tra nhằm đào tạo lại mơ hình học sâu để nhận ra các thiết bị thiết kế nội thất và các tính năng thiết kế của nó.

Nhóm nghiên cứu đã khảo sát các kỹ thuật có sẵn như CNN và thư viện nhận dạng hình ảnh và sử dụng chúng cho mục đích nhận diện. Trong bài báo cáo, các thiết bị thiết kế nội thất nhận diện được giới hạn ở những thiết bị như: có chỗ ngồi như ghế, sofa và ghế đẩu. Các tính năng thiết kế bị giới hạn ở một số tính năng có thể nhận dạng trực quan trên hình ảnh. Dữ liệu hình ảnh về đào tạo được thu thập từ tìm kiếm hình ảnh của Google và trang web chuyên nghiệp có liên quan như Houzz, một trong những trang web thương mại điện tử nội thất phổ biến nhất. Quy trình của bài báo này được tóm tắt như sau:

• Đào tạo và trích xuất tự động các đặc điểm thiết kế của ghế: Đồ nội thất và tính năng của nó được xác định và các đặc điểm tiêu chí thú vị có thể kiểm tra bằng mắt. Tiếp theo, tập dữ liệu hình ảnh đã được xây dựng theo các tính năng từ nhiều nguồn dựa trên web. Nhiều mơ hình nhận dạng hình ảnh được đào tạo lại cho từng loại thiết bị nội thất.

• Tự động hóa và một số tính năng thiết kế của nó bằng cách sử dụng các mơ hình đào tạo lại: tích hợp nhiều mơ hình khai thác tự động hóa, các tính năng thiết kế khác nhau được suy ra từ hình ảnh cho trước.

Hình 3.1: Phạm vi cơng việc khai thác tự động các thiết bị trong thiết kế nội thất và các tính năng thiết kế

Trang | 44

3.1.2. Nghiên cứu về “Cơng cụ tìm kiếm đa phương thức cho thiết kế thời trang và nội thất”14

3.1.2.1. Tóm tắt nghiên cứu.

Trong bài báo, nhóm đã đề xuất một cơng cụ tìm kiếm đa phương thức kết hợp các đặc điểm trực quan và văn bản để truy xuất các mục từ cơ sở dữ liệu đa phương tiện tương tự như truy vấn. Mục tiêu của ứng dụng của nhóm là cho phép truy xuất trực quan các mặt hàng thời trang như quần áo hoặc đồ nội thất. Các cơng cụ tìm kiếm hiện tại chỉ coi đầu vào dạng văn bản là nguồn thơng tin bổ sung về hình ảnh truy vấn và khơng tương ứng với tình huống thực tế, nơi người dùng tìm kiếm “cùng một chiếc áo thun nhưng bằng vải coton”. Phương pháp mới của nhóm nghiên cứu, có tên là DeepStyle, giảm thiểu những thiếu sót đó bằng cách sử dụng kiến trúc mạng nơ-ron chung để mơ hình hóa sự phụ thuộc theo ngữ cảnh giữa các tính năng của các phương thức khác nhau. Nhóm đã chứng minh tính mạnh mẽ của phương pháp này trên hai tập dữ liệu đầy thách thức khác nhau về các mặt hàng thời trang và nội thất, trong đó cơng cụ DeepStyle của chúng tôi vượt trội hơn các phương pháp cơ bản hơn 20% trên các tập dữ liệu đã thử nghiệm. Cơng cụ tìm kiếm của chúng tơi được triển khai thương mại và có sẵn thơng qua một ứng dụng dựa trên Web.

3.1.2.2. Kết quả của nghiên cứu.

Trong bài báo này, chúng tôi đề xuất một phương pháp mới để truy vấn đa phương thức. Phương pháp được đề xuất là một kiến trúc mạng nơ-ron Siamese tìm hiểu sự tương đồng về phong cách bằng cách tận dụng thông tin ngữ cảnh thực nghiệm - tần suất các mục đã cho xuất hiện trong cùng một ngữ cảnh phong cách. Phương pháp của nghiên cứu vượt qua các phương pháp cơ bản và đạt được kết quả tốt hơn để tạo ra các nhóm mặt hàng tương thích về mặt phong cách.

14 IVONA TAUTKUTE (s16352 at pjwstk.edu.pl), TOMASZ TRZCIŃSKI, (Member, IEEE), ALEKSANDER P. SKORUPA, ŁUKASZ BROCKI, AND KRZYSZTOF MARASEK, “DeepStyle: Multimodal Search Engine for

Fashion and Interior Design”,

1 Institute of Multimedia, Polish-Japanese Academy of Information Technology, 02-008 Warsaw, Poland.

2 Tooploox Sp. z o.o., 00-001 Warsaw, Poland.

3 Institute of Computer Science, Warsaw University of Technology, 00-661 Warsaw, Poland.

Received May 1, 2019, accepted June 6, 2019, date of publication June 17, 2019, date of current version July 15, 2019.

Trang | 45 Ưu điểm lớn nhất của phương pháp này là hiệu quả gấp hai lần. Đầu tiên, nó cho phép mở rộng truy vấn trực quan với đầu vào văn bản tùy ý và truyền tải thơng tin khơng có trong đầu vào trực quan, do đó cho phép người dùng tìm thấy các sản phẩm phù hợp hơn. Thứ hai, nó truy xuất các kết quả tương tự về mặt phong cách.

Nhược điểm chính của phương pháp này là cần dữ liệu được gắn nhãn lớn về hình ảnh ngữ cảnh (thơng tin ngữ cảnh nơi các mục xuất hiện cùng nhau). Các phương pháp học tập bán giám sát có thể giảm nhu cầu về dữ liệu như vậy là tùy thuộc vào công việc trong tương lai của chúng tôi.

Nghiên cứu áp dụng thành công phương pháp luận cho một số ứng dụng miền thương mại - thời trang và thiết kế nội thất, bằng cách khai thác hình ảnh sản phẩm và siêu dữ liệu liên quan của chúng. Cuối cùng, nhóm đã triển khai một triển khai web có sẵn thơng minh về sản phẩm của chúng tôi và phát hành bộ dữ liệu mới với các mặt hàng nội thất IKEA.

Một phần của tài liệu Phân loại phong cách thiết kế nội thất dùng học sâu và ứng dụng thực tế đồ án tốt nghiệp khoa đào tạo chất lượng cao ngành công nghệ thông tin (Trang 57 - 62)

Tải bản đầy đủ (PDF)

(183 trang)