Nghiên cứu ứng dụng trí tuệ nhân tạo trong thiết kế 3d từ hình ảnh 2d

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM ĐỒ ÁN TỐT NGHIỆP NGHIÊN CỨU ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG THIẾT KẾ 3D TỪ HÌNH ẢNH 2D NGÀNH KĨ THUẬT CƠ KHÍ GIẢNG VIÊN HƯỚNG DẪN Th S PHẠM BÁ KHIỂN Sinh viên thực hiện MSSV Lớp NGUYỄN THÁI DUY 1711040208 17DCKA2 NGUYỄN QUỐC HUY 1711040179 17DCKA1 LƯU PHÁT HUY 17 11040324 17DCKA2 TP Hồ Chí Minh, tháng 9 năm 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM ĐỒ ÁN TỐT NGHIỆP NGHIÊN CỨU ỨNG DỤNG TRÍ TUỆ NHÂN TẠO TRONG THIẾT KẾ 3D TỪ H.

GIỚI THIỆU

Mục tiêu của đề tài

Tiếp cận trí tuệ nhân tạo (AI) và các thư viện hỗ trợ AI trong lập trình Python là điều cần thiết, cùng với kiến thức lập trình để hiểu rõ cách thức hoạt động của dự án.

Dựa vào các kiến thức đã tìm hiểu về python và các thuật toán tạo ra một hình 3D hoàn chỉnh chi tiết từ một ảnh 2D duy nhất

Hình 1-1 Một mẫu tái tạo ảnh 3D từ ảnh 2D (nguồn internet)

Mục tiêu của việc ứng dụng công nghệ 3D là nhằm cải thiện các ngành dịch vụ, truyền thông, y tế và giao thông vận tải, đặc biệt trong lĩnh vực cơ khí Công nghệ này giúp xây dựng mô hình 3D chính xác và nhanh chóng, từ đó hỗ trợ hiệu quả cho các công việc trong ngành.

Hiểu biết về các khái niệm trong lĩnh vực công nghệ thông tin và khoa học máy tính là nền tảng quan trọng cho sự phát triển của xã hội hiện đại Công nghệ thông tin và khoa học máy tính đóng vai trò thiết yếu trong đời sống của con người, từ việc giải quyết các vấn đề hàng ngày đến việc tạo ra các giải pháp đổi mới cho tương lai Việc hiểu rõ tầm quan trọng của lĩnh vực này sẽ giúp chúng ta khai thác hiệu quả các công nghệ mới và tận dụng tối đa các lợi ích mà chúng mang lại.

Nghiên cứu các kỹ thuật mô hình hóa trong đồ họa 3D và thực tại ảo, từ đó hệ thống hóa kiến thức để xây dựng mô phỏng 3D thử nghiệm Kết quả nghiên cứu sẽ giúp đề xuất lộ trình áp dụng công nghệ 3D một cách hiệu quả.

Hình 1-2 Kết quả tái tạo đạt được của phương pháp Pifu

Kết quả từ một lần thực thi chương trình cho thấy khả năng tạo ra hình ảnh 3D đẹp mắt, với độ chính xác và chi tiết cao từ hình ảnh 2D ban đầu Chương trình không chỉ giữ nguyên màu sắc và các chi tiết gốc mà còn mô phỏng được các mặt không nhìn thấy của ảnh 2D một cách ấn tượng.

Lý do chọn đề tài

Cùng với sự phát triển của văn minh, các dự án xây dựng ngày càng trở nên phức tạp và đa dạng hơn Đội ngũ thiết kế hiện nay bao gồm nhiều chuyên gia từ các lĩnh vực như kiến trúc, thiết kế điện, kết cấu và hệ thống cơ khí Mỗi nhóm thiết kế ngày càng mở rộng và tham gia sớm hơn trong quá trình thiết kế và xây dựng.

Để nâng cao hiệu quả giao tiếp và phối hợp giữa các đội dự án, việc sử dụng mô hình 3D kiến trúc trở thành công cụ hỗ trợ thiết yếu Qua đó, các kiến trúc sư và nhà đầu tư có thể tiết kiệm thời gian và chi phí, đồng thời giảm thiểu việc chỉnh sửa bản vẽ thiết kế và thay đổi trong quá trình xây dựng.

Công nghệ này giúp các kiến trúc sư hình dung rõ ràng hơn về vị trí địa lý của công trình và mối quan hệ với môi trường xung quanh Điều này đặc biệt quan trọng vì nó cung cấp cái nhìn tổng quan cần thiết cho việc nghiên cứu và triển khai dự án xây dựng.

Kỹ thuật đồ họa 3D đang trở thành một lĩnh vực mới mẻ với ứng dụng rộng rãi trong việc tái tạo và phục dựng đối tượng Tại Việt Nam, nơi có nhiều công trình xây dựng hiện đại đang trong quá trình phát triển, việc tạo ra mô hình 3D ngày càng trở nên quan trọng Sự gia tăng của kiến trúc hiện đại đã thúc đẩy nhu cầu sử dụng công nghệ này trong các dự án xây dựng.

Trước khi công nghệ in và cắt 3D ra đời, việc thiết kế mô hình 3D hoàn chỉnh từ đầu là một thách thức lớn và tốn nhiều thời gian Công nghệ này cho phép tái tạo mô hình 3D từ ảnh 2D, giúp nâng cao hiệu suất và phát triển mạnh mẽ trong lĩnh vực thiết kế và sản xuất.

Xuất phát từ thực tế đó nhóm em lựa chọn đề tài là: “Nghiên cứu ứng dụng trí tuệ nhân tạo trong thiết kế hình ảnh 3D từ hình 2D”

PHƯƠNG PHÁP GIẢI QUYẾT

AI

Trí tuệ nhân tạo (AI) là một ngành khoa học máy tính, được phát triển nhằm mục đích giúp máy tính thực hiện các hành vi thông minh tự động, tương tự như con người AI được lập trình bởi con người để nâng cao khả năng tự động hóa và xử lý thông tin.

Hình 3-1 AI là gì (nguồn internet)

Trí tuệ nhân tạo (AI) khác biệt với lập trình logic truyền thống nhờ vào việc áp dụng các hệ thống học máy (machine learning), cho phép mô phỏng trí tuệ con người trong những tác vụ mà con người thực hiện hiệu quả hơn máy tính.

Trí tuệ nhân tạo (AI) cho phép máy tính phát triển khả năng tương tự như con người, bao gồm khả năng suy nghĩ và lập luận để giải quyết vấn đề, giao tiếp thông qua việc hiểu ngôn ngữ và tiếng nói, cùng với khả năng học hỏi và tự thích nghi với môi trường.

Trí thông minh nhân tạo, mặc dù thường được hiểu theo nghĩa rộng trong các tác phẩm khoa học viễn tưởng, là một lĩnh vực quan trọng trong ngành công nghệ thông tin Nó tập trung vào khả năng học hỏi, hành vi và sự thích ứng thông minh của máy móc.

3.1.1 Công nghệ AI được chia làm 4 loại chính:

Loại 1: Công nghệ AI phản ứng

Công nghệ AI phản ứng có khả năng phân tích các động thái khả thi của cả bản thân và đối thủ, giúp đưa ra giải pháp tối ưu nhất cho từng tình huống.

Deep Blue, chương trình chơi cờ vua tự động của IBM, là một ví dụ tiêu biểu về công nghệ AI phản ứng, khi nó đã đánh bại kì thủ thế giới Garry Kasparov vào những năm 1990 Công nghệ AI của Deep Blue có khả năng xác định các nước cờ và dự đoán những bước đi tiếp theo, tuy nhiên, nó không có ký ức và không thể sử dụng kinh nghiệm trong quá khứ để cải thiện khả năng trong tương lai.

Hình 3-2 Deep Blue, chương trình tự động chơi cờ vua của IBM (nguồn internet)

Công nghệ AI này có khả năng phân tích các động thái khả thi của cả chính nó và đối thủ, từ đó lựa chọn hành động chiến lược tối ưu Ví dụ điển hình là Deep Blue và AlphaGO của Google, được phát triển với mục đích hẹp và không thể dễ dàng áp dụng cho các tình huống khác.

Loại 2: Công nghệ AI với bộ nhớ hạn chế Đặc điểm của công nghệ AI với bộ nhớ hạn chế là khả năng sử dụng những kinh nghiệm trong quá khứ để đưa ra những quyết định trong tương lai Công nghệ AI này thường kết hợp với cảm biến môi trường xung quanh nhằm mục đích dự đoán những trường hợp có thể xảy ra và đưa ra quyết định tốt nhất cho thiết bị

Hình 3-3 Xe hơi không người lái (nguồn internet)

Xe không người lái được trang bị nhiều cảm biến xung quanh và ở đầu xe để đo khoảng cách với các phương tiện phía trước Công nghệ AI dự đoán khả năng va chạm và điều chỉnh tốc độ xe nhằm đảm bảo an toàn.

Loại 3: Lý thuyết trí tuệ nhân tạo Đây là một thuật ngữ tâm lý Công nghệ AI này có thể tự mình suy nghĩ và học hỏi những thứ xung quanh để áp dụng cho chính bản thân nó lên một việc cụ thể Loại công nghệ AI này chưa khả thi trong thời gian hiện tại

Hình 3-4 Công nghệ AI liệu có phức tạp không? (nguồn internet)

Công nghệ AI hiện tại có khả năng học hỏi và tự suy nghĩ, giúp áp dụng kiến thức đã tiếp thu vào các nhiệm vụ cụ thể Tuy nhiên, công nghệ này vẫn chưa đạt được tính khả thi trong ứng dụng thực tế.

Công nghệ AI hiện đại đang phát triển đến mức có khả năng tự nhận thức và hành xử giống như con người, bao gồm việc bộc lộ và hiểu cảm xúc Mặc dù đây được coi là bước tiến cao nhất trong lĩnh vực AI, nhưng tính khả thi của công nghệ này vẫn chưa được thực hiện.

Một trong những ứng dụng nổi bật và hiệu quả nhất của trí tuệ nhân tạo (AI) là trong lĩnh vực nhà thông minh Thông qua việc kết nối các sản phẩm có khả năng học hỏi thói quen của người dùng, nhờ vào trợ lý ảo như Google Assistant, AI có thể tận dụng tối đa thông tin để cải thiện trải nghiệm sống cho chủ sở hữu.

15 ghi nhớ được từ chủ nhân để phục vụ các nhu cầu được đưa ra một cách nhanh chóng và thuận tiện nhất

3.1.2 AI được ứng dụng thế nào trong cuộc sống hiện tại và tương lai

Hiện nay, trí tuệ nhân tạo (AI) đang được tích cực áp dụng trong nhiều sản phẩm công nghệ hiện đại, bao gồm điện thoại, thiết bị âm thanh và các thiết bị điện gia dụng.

Hình 3-5 Ứng dụng AI trong cuộc sống (nguồn internet)

Công nghệ AI đã được triển khai rộng rãi trong nhiều lĩnh vực thực tiễn như chăm sóc sức khỏe, kinh doanh, giáo dục, tài chính, pháp luật, ngân hàng và các ngành sản xuất, đặc biệt nổi bật là ứng dụng AI trong lĩnh vực bảo mật.

Machine Learning

Trong những năm gần đây, Trí Tuệ Nhân Tạo (AI) và đặc biệt là Học Máy (Machine Learning) đã trở thành biểu tượng của cuộc cách mạng công nghiệp lần thứ tư Công nghệ này không chỉ thay đổi cách chúng ta làm việc mà còn mở ra nhiều cơ hội mới trong các lĩnh vực khác nhau.

Trí Tuệ Nhân Tạo (AI) đang trở thành một phần không thể thiếu trong cuộc sống hàng ngày của chúng ta, mặc dù nhiều người có thể không nhận ra Các ứng dụng nổi bật của AI bao gồm xe tự hành của Google và Tesla, hệ thống nhận diện khuôn mặt của Facebook, trợ lý ảo Siri của Apple, cùng với các hệ thống gợi ý sản phẩm của Amazon và phim của Netflix Một ví dụ ấn tượng khác là máy chơi cờ vây AlphaGo của Google DeepMind, cho thấy sự phát triển vượt bậc của công nghệ này trong nhiều lĩnh vực.

Hình 3-6Mối quan hệ giữa AI, Machine Learning và Deep Learning (nguồn internet)

Machine Learning is a subset of Artificial Intelligence (AI) that enables computers to learn from data without being explicitly programmed In simpler terms, Machine Learning represents a specialized area within the field of computer science.

Máy Tính, nó có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể

Trong những năm gần đây, với sự nâng cao khả năng tính toán của máy tính và lượng dữ liệu khổng lồ được thu thập, Machine Learning đã phát triển mạnh mẽ, dẫn đến sự ra đời của Deep Learning Công nghệ này cho phép máy tính thực hiện những nhiệm vụ tưởng chừng không thể, như phân loại hàng ngàn vật thể trong ảnh, tự tạo chú thích, bắt chước giọng nói và chữ viết của con người, giao tiếp hiệu quả, và thậm chí sáng tác văn chương và âm nhạc.

Deep Learning

Deep Learning là một nhánh của Machine Learning, cho phép máy tính tự huấn luyện để thực hiện các tác vụ giống như con người Công nghệ này giúp máy tính mô phỏng quá trình học hỏi và tư duy của con người, nâng cao khả năng tự động hóa và cải thiện hiệu suất trong nhiều lĩnh vực.

Các hệ thống Deep Learning có thể nâng cao hiệu suất khi được tiếp cận với lượng dữ liệu lớn hơn Thông thường, các phiên bản máy móc có nhiều kinh nghiệm hơn sẽ được sử dụng cho các công việc như lái xe tự động hay phát hiện cỏ dại.

Hình 3-7 Deep Learning là gì? (nguồn internet)

Deep Learning hỗ trợ dịch ngôn ngữ, phân loại hình ảnh và nhận dạng giọng nói, cho phép ứng dụng trong việc giải quyết các nhu cầu nhận dạng mẫu mà không cần sự can thiệp của con người.

Deep Learning là một phương pháp học máy dựa trên mạng lưới thần kinh nhân tạo, bao gồm nhiều lớp nhằm mô phỏng cách hoạt động của não người.

Bộ phận mạnh của mạng thần kinh nhân tạo tương tự như não người, bao gồm các node, là những đơn vị thần kinh tương ứng với neuron Các node thường chỉ có khả năng xử lý những câu hỏi đơn giản; tuy nhiên, khi đối mặt với các tác vụ phức tạp, chúng sẽ kết nối với nhau để đưa ra câu trả lời Người dùng có thể dạy hoặc huấn luyện các node này thông qua các thuật toán cụ thể.

Mạng lưới thần kinh sâu (DNN) là các node giải đáp những câu hỏi phức tạp, có khả năng thực hiện các hoạt động phức tạp như biểu diễn và trừu tượng hóa thông tin liên quan đến âm thanh, văn bản và hình ảnh DNN được xem là lĩnh vực phát triển nhất trong Machine Learning.

Hiện nay, sự phát triển vượt bậc của công nghệ, bao gồm internet và máy tính, đang diễn ra nhờ vào trí thông minh nhân tạo (AI) Các công ty lớn như Google và Facebook đang đầu tư mạnh mẽ vào AI, đặc biệt là công nghệ Deep Learning Vậy Deep Learning là gì và tiềm năng của nó ra sao? Tất cả sẽ được khám phá trong bài viết dưới đây trên theanhgroup.com.

3.3.1 Những tiềm năng đặc biệt của Deep Learning

Ý tưởng về mạng nơ-ron nhân tạo đã xuất hiện từ những năm 50 của thế kỷ trước, nhưng vào thời điểm đó, các mạng nơ-ron hoạt động không hiệu quả và gặp nhiều khó khăn Một số mạng nơ-ron không mang lại kết quả tốt như mong đợi.

 Có nhiều dữ liệu đầu vào hơn

 Có khả năng tính toán của máy tính tốt hơn

Hiện nay, với sự phát triển mạnh mẽ của công nghệ máy tính, khả năng tính toán ngày càng được tối ưu hóa trong lĩnh vực Deep Learning Bên cạnh đó, sự bùng nổ của internet đã giúp chúng ta thu thập một lượng dữ liệu khổng lồ, tạo điều kiện thuận lợi cho việc áp dụng các thuật toán hiệu quả hơn.

Hình 3-8 Trí tuệ nhân tạo (nguồn internet)

Facebook có khả năng nhận diện bức ảnh không có mặt của bạn, từ đó tạo ra hệ thống tự động gán thẻ ảnh Tương tự, Google cung cấp thông tin về những gì bạn tìm kiếm và xem trên YouTube hàng ngày Điều này cho thấy Deep Learning là một phát minh mạnh mẽ, phát triển từ khối lượng dữ liệu khổng lồ và mang lại hiệu quả vượt trội so với các thuật toán khác.

Hiện nay, các công nghệ tiên tiến như trợ lý ảo, hệ thống xe tải tự lái, thiết kế đồ họa, sáng tạo nhạc và phát triển nguyên liệu mới đang giúp robot hiểu rõ hơn về thế giới xung quanh.

Hiện nay, các công ty lớn như Facebook và Google đang rất chú trọng đến các tính năng thương mại cao, đặc biệt là những startup hoạt động trong lĩnh vực robot và Deep Learning, vì họ thường ưu tiên thâu tóm những công ty này.

3.3.2 Cách thức hoạt động của Deep Learning

Deep Learning là một phương pháp trong học máy, trong đó AI được lập trình và huấn luyện để dự đoán kết quả dựa trên một tập dữ liệu đầu vào.

Hình 3-9 Cách thức hoạt động của thuật toán Deep Learning (nguồn internet)

Thuật toán Deep Learning hoạt động bằng cách xử lý thông tin qua nhiều lớp, tương tự như quy trình học của con người Các lớp đầu tiên tập trung vào việc học các khái niệm cụ thể, trong khi các lớp sâu hơn sử dụng thông tin đã học để nghiên cứu và phân tích các khái niệm trừu tượng Quá trình xây dựng biểu diễn dữ liệu này được gọi là trích xuất tính năng.

Kiến trúc phức tạp của học sâu được xây dựng từ mạng lưới thần kinh sâu, cho phép tự động trích xuất tính năng Điều này khác biệt so với học máy truyền thống, nơi mà các tính năng thường phải được xác định thủ công.

23 thường còn gọi là học nông, nhiệm vụ này được thực hiện khi truy xuất các thuật toán cụ thể

Ví dụ cụ thể: Dự đoán hành đầu của con mèo khi gặp chuột rồi tiến hành huấn luyện nó bằng phương pháp học có giám sát

Hình 3-10 Mạng lưới thần kinh trong Deep Learning (nguồn internet)

Khi muốn dự đoán được hành động của nó vào các đầu vào sẽ được thực hiện như sau:

 Lựa chọn con mồi phù hợp

 Lúc này: các bộ phận trên cơ thể của con mèo như mắt, móng vuốt, tai, của con mèo sẽ trở nên rất nhanh nhạy

 Con chuột sẽ xuất hiện ở đâu

Multimedia Deep Learning

Deep neural networks đang thu hút sự chú ý đáng kể trong những năm gần đây nhờ vào những tiến bộ vượt bậc trong nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên và thị giác máy tính Đặc biệt, trong lĩnh vực phân tích dữ liệu đa phương tiện, lượng dữ liệu đa phương tiện khổng lồ được tạo ra hàng ngày, tạo ra nhiều cơ hội cho việc ứng dụng công nghệ này.

Hình 3-14 Multimedia Deep Learning (nguồn internet)

Deep learning có khả năng giải quyết vấn đề dữ liệu đa phương tiện lớn và không đồng nhất, giúp việc lưu trữ và phân tích dữ liệu trở nên dễ dàng hơn Công nghệ này cho phép máy tính tự động trích xuất các tính năng từ dữ liệu phi cấu trúc mà không cần sự can thiệp của con người.

Mặc dù các phương pháp học sâu đa phương tiện đã đạt được nhiều thành tựu ấn tượng gần đây, nhưng vẫn còn những thách thức lớn như khả năng diễn giải và khái quát, gây khó khăn trong việc thực hiện các nhiệm vụ quan trọng trong các lĩnh vực như y học và quốc phòng.

Hình 3-15 Multiple hidden layers process hierarchical features (nguồn internet)

Với sự phát triển của mạng xã hội và công nghệ di động, hàng ngày có một lượng lớn dữ liệu đa phương tiện được tạo ra, bao gồm video, hình ảnh, âm thanh và văn bản Điều này mở ra nhiều cơ hội ứng dụng trong các lĩnh vực như chăm sóc sức khỏe, giáo dục, môi trường và công nghiệp ô tô.

Việc thu thập, lưu trữ, xử lý và quản lý dữ liệu khổng lồ và đa dạng là một thách thức lớn Chính vì những khó khăn này, phân tích dữ liệu lớn đa phương tiện đã trở thành một lĩnh vực nghiên cứu hấp dẫn, thu hút sự quan tâm đáng kể từ cộng đồng đa phương tiện.

Trong những năm gần đây, Deep Learning đã đạt được nhiều thành công trong các ứng dụng đa phương tiện như xử lý ngôn ngữ tự nhiên, phân tích dữ liệu trực quan và nhận dạng giọng nói Lấy cảm hứng từ khoa học thần kinh, Deep Learning xây dựng mạng thần kinh theo cấu trúc tương tự như bộ não, và là một tập con của machine learning với mục tiêu tự động học cách biểu diễn dữ liệu.

Deep Learning có khả năng xử lý các liệu đa phương tiện với đặc điểm dữ liệu lớn, không có cấu trúc và không đồng nhất Công nghệ này cho phép máy tính tự động trích xuất các tính năng từ dữ liệu phi cấu trúc mà không cần sự can thiệp của con người, giúp khắc phục những thách thức trong việc xử lý và phân tích dữ liệu.

Thách thức lớn nhất trong Deep Learning là yêu cầu về lượng dữ liệu lớn, vì thành công của nó phụ thuộc vào các bộ dữ liệu có nhãn quy mô lớn, điều này đòi hỏi nhiều công sức và thời gian để cung cấp Để giảm thiểu vấn đề này, các phương pháp như transfer learning và generative adversarial networks đã được đề xuất Bên cạnh đó, các thuật toán Machine Learning không giám sát như deep learning sâu và bộ mã tự động biến đổi ngày càng trở nên quan trọng Nhiều nhà nghiên cứu đang tập trung vào phát triển các mô hình Deep Learning song song và có thể mở rộng, cũng như xây dựng các mô hình công suất thấp hoặc sử dụng máy gia tốc Deep Learning với FPGA Tuy nhiên, dữ liệu lớn và hiệu quả tính toán vẫn là những thách thức lớn trong lĩnh vực Multimedia Deep Learning.

Các kiến trúc Deep Learning truyền thống thường tập trung vào các phương thức đơn lẻ như văn bản, hình ảnh hoặc âm thanh Các mạng nơ-ron chuyển đổi (CNN) chủ yếu được sử dụng để trích xuất tính năng trực quan, trong khi các mô hình nhúng từ phục vụ cho phân tích văn bản Nghiên cứu về học đa phương thức (multimodal learning) yêu cầu các khung làm việc của Deep Learning phân tích thông tin từ nhiều nguồn dữ liệu khác nhau và tìm ra các kết nối logic giữa chúng Bằng cách khai thác kiến thức từ các nguồn dữ liệu đa dạng, các mô hình có thể đưa ra quyết định chính xác hơn, dẫn đến việc áp dụng các kỹ thuật dung hợp để tích hợp thông tin từ các phương thức đầu vào khác nhau.

Tạo ra các tích hợp hiệu quả để biểu diễn chung giữa các loại dữ liệu khác nhau là một thách thức lớn Phương pháp tổng hợp cần phải được phát triển để giải quyết vấn đề này.

34 sự liên kết tốt nhất giữa các phụ thuộc phạm vi dài giúp khai thác tính bổ sung và dự phòng của nhiều phương thức, từ đó tạo ra các biểu diễn chung giữa dữ liệu đa phương thức.

Một thách thức lớn trong lĩnh vực Deep Learning là khả năng diễn giải các mạng nơ-ron sâu, thường được gọi là Blackbox, khi chúng khám phá ra các tính năng phức tạp mà con người khó hiểu Điều này đặc biệt quan trọng trong các lĩnh vực như y học và quốc phòng, nơi các quyết định cần có cái nhìn rõ ràng về các bước dẫn đến giải pháp Ví dụ, trong phân tích hình ảnh y tế, như chụp cộng hưởng từ (MRI) và chụp cắt lớp vi tính (CT), việc phiên dịch các tính năng từ hình ảnh yêu cầu sự xác nhận từ các chuyên gia được đào tạo chuyên sâu, tạo nên một thách thức lớn.

Tóm lại, mặc dù Deep Learning đã đạt được những thành tựu đáng kể trong ứng dụng đa phương tiện, vẫn còn nhiều thách thức cần được giải quyết trong nghiên cứu tương lai Tuy nhiên, nhờ vào sự tiến bộ nhanh chóng trong sức mạnh tính toán và sự phát triển của các thuật toán mới, Deep Learning trong lĩnh vực đa phương tiện đang mở ra những cơ hội mới mà trước đây chưa từng có.

Computer Vision

Facebook đã nâng tầm công nghệ thị giác máy tính (Computer Vision - CV) lên một mức độ mới Vậy, thị giác máy tính là gì?

Thị giác máy tính là một lĩnh vực quan trọng trong trí tuệ nhân tạo và khoa học máy tính, giúp máy tính phát triển khả năng nhìn và hiểu hình ảnh tương tự như con người.

Thị giác máy tính là lĩnh vực nghiên cứu các phương pháp thu nhận và xử lý ảnh kỹ thuật số, nhằm phân tích và nhận dạng hình ảnh cùng dữ liệu đa chiều từ thế giới thực Mục tiêu của thị giác máy tính là phát triển hệ thống nhân tạo có khả năng tiếp nhận và xử lý hình ảnh hoặc tập dữ liệu đa chiều, từ đó cung cấp thông tin số hoặc biểu tượng phục vụ cho các quyết định.

Thị giác máy tính bao gồm các lĩnh vực sau:

- Xử lí hình ảnh: Phát triển các thuật toán xử lí ảnh như tăng/giảm chất lượng ảnh, lọc nhiễu

- Nhận diện mẫu: Giải thích các kỹ thuật khác nhau để phân loại mẫu

- Quang trắc: Liên quan đến việc thu thập các số đo chính xác từ hình ảnh

PyTorch

PyTorch là một framework Python mạnh mẽ, cung cấp nền tảng tính toán khoa học cho lĩnh vực Deep Learning Nó tập trung vào hai khả năng chính: khả năng tính toán linh hoạt và hiệu suất cao, giúp các nhà nghiên cứu và phát triển dễ dàng triển khai các mô hình học sâu.

- Một sự thay thế cho bộ thư viện numpy để tận dụng sức mạnh tính toán của GPU

- Một platform Deep learning phục vụ trong nghiên cứu, mang lại sự linh hoạt và tốc độ

PyTorch offers enhanced interactive debugging capabilities, making it a preferred choice among researchers and engineers who utilize both PyTorch and TensorFlow Many users have praised PyTorch for its superior debugging and visualization features.

 Hỗ trợ tốt dynamic graphs

 Được phát triển bởi đội ngũ Facebook

 Kết hợp cả các API cấp cao và cấp thấp

 Vẫn chưa được hoàn thiện trong việc deploy, áp dụng cho các hệ thống lớn, được như framework ra đời trước nó như tensorflow

 Ngoài document chính từ pytorch thì vẫn còn khá hạn chế các nguồn tài liệu bên ngoài như các tutorials hay các câu hỏi trên stackoverflow

3.3.3 Một quy trình công việc điển hình cùng với các modules quan trọng được liên kết với mỗi bước

Hình 3-17 Workflow cơ bản của PyTorch (nguồn internet)

Các modules cơ bản mà chúng ta sẽ đề cập trong bài viết này là torch.nn, torch.optim, torch.utils và torch.autograd

Trong bất kỳ dự án Deep Learning nào, việc tải và xử lý dữ liệu luôn là bước quan trọng hàng đầu PyTorch cung cấp các công cụ hỗ trợ hiệu quả cho quá trình này thông qua module torch.utils.data.

2 class quan trọng trong module này là Dataset và DataLoader:

Dataset được xây dựng trên nền kiểu dữ liệu Tensor và được sử dụng chủ yếu cho các bộ dữ liệu tùy chỉnh

DataLoader là công cụ lý tưởng cho việc xử lý tập dữ liệu lớn, cho phép tải dữ liệu từ Dataset một cách hiệu quả trong chế độ nền Điều này giúp dữ liệu luôn sẵn sàng để sử dụng trong quá trình huấn luyện mô hình.

Cũng có thể sử dụng torch.nn.DataParallel và torch.distribution trong trường hợp có thể sử dụng song song nhiều máy tính hoặc nhiều GPUs

The torch.nn module is essential for building Neural Networks, offering a comprehensive range of popular layers such as fully connected layers, convolutional layers, activation functions, and loss functions.

Khi kiến trúc mạng đã được thiết lập và dữ liệu đã sẵn sàng, chúng ta cần các kỹ thuật để cập nhật trọng số và độ lệch nhằm tiến hành quá trình học Các công cụ này được cung cấp bởi module torch.optim, trong khi việc tính toán gradient tự động được thực hiện thông qua module torch.autograd.

Once the model has been trained, it can be utilized to predict outputs for test cases or even new datasets This process is known as model inference.

PyTorch cung cấp TorchScript, cho phép chạy các mô hình độc lập với môi trường Python TorchScript có thể được xem như một máy ảo chuyên dụng để thao tác với Tensors.

Bạn có thể chuyển đổi mô hình được huấn luyện bằng PyTorch sang định dạng ONNX, giúp sử dụng mô hình này trong các framework Deep Learning khác như MXNet, CNTK và Caffe2 Ngoài ra, bạn cũng có khả năng chuyển đổi các mô hình ONNX sang TensorFlow.

OpenCV

OpenCV, short for Open Source Computer Vision Library, was initiated by Intel in 1999 by Gary Bradsky It is a leading open-source library for Computer Vision and Machine Learning, now enhanced with GPU acceleration for real-time operations.

OpenCV là thư viện được tối ưu hóa cho tính toán hiệu quả và ứng dụng thời gian thực Khi được phát triển bằng ngôn ngữ C/C++, thư viện này có khả năng tận dụng tối đa bộ xử lý đa lõi, mang lại hiệu suất vượt trội cho các ứng dụng.

OpenCV sở hữu một cộng đồng người dùng đông đảo trên toàn cầu, đáp ứng nhu cầu ngày càng tăng về công nghệ computer vision trong các công ty Hiện tại, OpenCV được ứng dụng rộng rãi với hơn 47.000 thành viên, phục vụ cho nhiều mục đích khác nhau, từ nghệ thuật tương tác đến khai thác dữ liệu, bản đồ web và robot cao cấp.

OpenCV được sử dụng cho đa dạng nhiều mục đích và ứng dụng khác nhau bao gồm:

 Kiểm tra và giám sát tự động

 Robot và xe hơi tự lái

 Phân tích hình ảnh y học

 Tìm kiếm và phục hồi hình ảnh/video

 Phim – cấu trúc 3D từ chuyển động

 Nghệ thuật sắp đặt tương tác

Theo tính năng và ứng dụng của OpenCV, có thể chia thư viện này thánh các nhóm tính năng và module tương ứng như sau:

 Xử lý và hiển thị Hình ảnh/ Video/ I/O (core, imgproc, highgui)

 Phát hiện các vật thể (objdetect, features2d, nonfree)

 Geometry-based monocular hoặc stereo computer vision (calib3d, stitching, videostab)

 Computational photography (photo, video, superres)

 Machine learning & clustering (ml, flann)

OpenCV được tổ chức theo cấu trúc module, bao gồm các thư viện liên kết tĩnh và thư viện liên kết động Dưới đây là một số định nghĩa chi tiết về các module phổ biến có sẵn trong OpenCV.

Core functionality (cốt lõi) là một module nhỏ gọn, giúp xác định cấu trúc dữ liệu cơ bản, bao gồm mảng đa chiều dày đặc và các chức năng cơ bản cần thiết cho tất cả các module khác.

Module xử lý hình ảnh (imgproc) bao gồm các chức năng như lọc hình ảnh tuyến tính và phi tuyến, phép biến đổi hình học (chỉnh kích thước, biến đổi affine và warp phối cảnh, ánh xạ lại dựa trên bảng chung), chuyển đổi không gian màu, biểu đồ, và nhiều tính năng khác.

 Video Analysis (video) – module phân tích video bao gồm các tính năng ước tính chuyển động, tách nền, và các thuật toán theo dõi vật thể

Camera Calibration and 3D Reconstruction (calib3d) involves fundamental geometric algorithms for calibrating both single and stereo cameras It encompasses object pose estimation, stereo correspondence algorithms, and essential factors for 3D reconstruction.

 2D Features Framework (features2d) – phát hiện các đặc tính nổi bật của bộ nhận diện, bộ truy xuất thông số, thông số đối chọi

 Object Detection (objdetect) – phát hiện các đối tượng và mô phỏng của các hàm được định nghĩa sẵn – predefined classes (vd: khuôn mặt, mắt, cốc, con người, xe hơi, …)

 High-level GUI (highgui) – giao diện dễ dùng để thực hiện việc giao tiếp UI đơn giản

 Video I/O (videoio) – giao diện dễ dùng để thu và mã hóa video

 GPU – Các thuật toán tăng tốc GPU từ các modun OpenCV khác

 … và một số module hỗ trợ khác, ví dụ như FLANN và Google test wrapper, Python binding, v.v.

Scikit-image

Scikit-image là thư viện xử lý hình ảnh mã nguồn mở cho Python, cung cấp các thuật toán phân đoạn, biến đổi hình học, thao tác không gian màu, phân tích, lọc và phát hiện tính năng Thư viện này được tối ưu hóa để làm việc cùng với các thư viện khoa học và số liệu như NumPy và SciPy, giúp nâng cao hiệu quả trong việc xử lý và phân tích hình ảnh.

Hình 3-19 Thư viện Scikit-image (nguồn internet)

Scikit-image là một gói Python chuyên dụng cho xử lý hình ảnh, sử dụng các mảng NumPy Nó cung cấp một bộ thuật toán đa dạng cho các tác vụ xử lý ảnh khác nhau và tương thích tốt với các thư viện Numpy và SciPy trong Python.

42 Ở đây, chúng ta sẽ thảo luận về các kỹ thuật hữu ích khác nhau để xử lý ảnh bằng scikit-image Đặc điểm của scikit-image

Nó là một công cụ xử lý hình ảnh rất đơn giản và nhẹ nhàng nó được xây dựng trên NumPy, matplotlib và SciPy

Mọi người đều có thể truy cập và sử dụng lại nó

Nó là mã nguồn mở và có thể sử dụng công nghiệp – giấy phép BSD.

Convolutional Neural Network

Mạng nơ-ron tích chập (CNNs) là một trong những mô hình Deep Learning tiên tiến, cho phép phát triển các hệ thống thông minh với độ chính xác cao.

Là một cửa sổ trượt (Sliding Windows) trên một ma trận như mô tả hình dưới:

Hình 3-20 Ma trận Convolutional (nguồn internet)

Các convolutional layer có các parameter(kernel) đã được học để tự điều chỉnh lấy ra những thông tin chính xác nhất mà không cần chọn các feature

Ma trận bên trái trong hình ảnh ví dụ là một hình ảnh trắng đen được số hóa với kích thước 5×5 Mỗi điểm ảnh trong ma trận này có giá trị 1 hoặc 0, tương ứng với giao điểm của dòng và cột.

Hình 3-21 Sử dụng ma trận 3x3 trên ảnh (nguồn internet)

Tích chập, hay còn gọi là convolution, là quá trình nhân từng phần tử trong ma trận 3 Sliding Window, hay kernel, filter, hoặc feature detect, là một ma trận nhỏ với kích thước như 3×3.

Hình 3-22 Sử dụng ma trận 5x5 trên ảnh (nguồn internet)

Tích chập, hay còn gọi là convolution, là quá trình nhân từng phần tử trong ma trận 3x3 với ma trận bên trái Kết quả của quá trình này là một ma trận mới, được gọi là Convoled feature, được tạo ra từ việc áp dụng ma trận Filter lên ma trận ảnh 5x5 bên trái.

3.9.3 Cấu trúc của mạng CNN

Hình 3-6 Cấu trúc mạng CNNs (nguồn internet)

Mạng CNN bao gồm nhiều lớp Convolution chồng chéo, sử dụng các hàm kích hoạt phi tuyến như ReLU và tanh để kích hoạt trọng số trong các node Sau khi trải qua các hàm kích hoạt, mỗi lớp sẽ tạo ra thông tin trừu tượng hơn cho các lớp tiếp theo, nâng cao khả năng nhận diện và phân loại dữ liệu.

Mỗi lớp trong mạng nơ-ron sẽ tạo ra các thông tin trừu tượng hơn sau khi áp dụng các hàm kích hoạt Trong mô hình mạng nơ-ron truyền tiến (feedforward neural network), mỗi nơ-ron đầu vào sẽ kết nối với từng nơ-ron đầu ra trong các lớp tiếp theo.

Mạng kết nối đầy đủ, hay còn gọi là mạng toàn vẹn (affine layer), khác biệt với mô hình CNNs, nơi các layer được liên kết thông qua cơ chế convolution.

Lớp tiếp theo trong mạng nơ-ron tích chập là kết quả của phép tích chập từ lớp trước, cho phép tạo ra các kết nối cục bộ Mỗi nơ-ron ở lớp này được hình thành từ kết quả của bộ lọc áp dụng lên một vùng ảnh cục bộ của nơ-ron trước đó.

Mạng CNN sử dụng 3 ý tưởng cơ bản: o Các trường tiếp nhận cục bộ (local receptive field) o Trọng số chia sẻ (shared weights) o Tổng hợp (pooling)

QUY TRÌNH THIẾT KẾ

Phân tích các phương pháp

Hình 4-1 Biểu diễn dữ lệu 3D (nguồn internet)

Khác với hình ảnh 2D chỉ có một định dạng máy tính (pixel), dữ liệu 3D có thể được biểu diễn bằng nhiều cách khác nhau trong định dạng kỹ thuật số Mỗi phương pháp biểu diễn đều có ưu điểm và nhược điểm riêng, do đó, việc lựa chọn cách thức biểu diễn dữ liệu sẽ ảnh hưởng trực tiếp đến các phương pháp có thể áp dụng.

4.1.1 Dạng được gắn chặt (Voxel network)

Có thể áp dụng trực tiếp CNN

Hình 4-2 Empty Voxels (nguồn internet)

Mỗi ô màu xanh là một voxel duy nhất, hầu hết các voxel đều trống

Voxel, hay còn gọi là pixel thể tích, là sự mở rộng của pixel lưới không gian thành voxel lưới thể tích Vị trí của từng voxel xác định cấu trúc độc đáo của dữ liệu thể tích, do đó, giả thuyết về tính địa phương của ConvNet vẫn giữ nguyên trong định dạng thể tích này.

Hình 4-3 Mật độ biểu diễn voxels thấp (nguồn internet)

Tuy nhiên sự đại diện này là thưa thớt và lãng phí Mật độ của các voxels hữu ích giảm khi độ phân giải tăng lên

 Ưu điểm: Có thể áp dụng trực tiếp CNN từ biểu diễn 2D sang 3D

 Nhược điểm: Biểu diễn lãng phí, đánh đổi cao giữa chi tiết và tài nguyên (tính toán, bộ nhớ)

Không thể áp dụng trực tiếp CNN

Hình 4-4 Point Cloud đại diện cho một chiếc ghế (nguồn internet)

Lưới đa giác là một cấu trúc bao gồm các đỉnh, cạnh và mặt, xác định bề mặt của vật thể trong không gian ba chiều Nó cho phép nắm bắt chi tiết nhỏ trong một hình thức tương đối gọn gàng Đám mây điểm là tập hợp các điểm trong hệ tọa độ 3D (x, y, z), kết hợp để tạo thành hình dạng của vật thể Số lượng điểm trong bộ sưu tập càng lớn, độ chi tiết càng cao Mặc dù các điểm có thể được sắp xếp theo thứ tự khác nhau, chúng vẫn đại diện cho cùng một đối tượng 3D.

 Ưu điểm: Hình biểu diễn nhỏ gọn, tập trung vào bề mặt chi tiết của vật thể 3D

 Bất lợi: Không thể áp dụng trực tiếp CNN

Tiếp cận

Phương pháp này kết hợp những lợi ích của biểu diễn nhỏ gọn Point Cloud với việc sử dụng ConvNet 2D truyền thống để khai thác kiến thức về hình dạng trước đó.

Hình 4-5 Máy tạo cấu trúc 2D (nguồn internet)

Xây dựng một Trình tạo cấu trúc CNN 2D tiêu chuẩn giúp học kiến thức về hình dạng của đối tượng một cách hiệu quả Các phương pháp voxel không được ưa chuộng do tính không hiệu quả và khả năng không thể học trực tiếp từ đám mây điểm với CNN Thay vào đó, chúng ta sẽ phát triển cách ánh xạ hình ảnh sang nhiều phép chiếu 2D của đám mây điểm, với phép chiếu 2D được xác định từ tọa độ 3D (x, y, z) và mặt nạ nhị phân (m).

 Đầu vào: Hình ảnh RGB đơn

 Đầu ra: Hình chiếu 2D tại các góc nhìn định trước

4.2.2 Point Cloud Fusion dung hợp

Hình 4-6 Point Cloud Fusion dung hợp (nguồn internet)

Hợp nhất phép chiếu 2D vào dữ liệu đám mây điểm 3D gốc là khả thi nhờ vào việc các quan điểm dự đoán này được xác định và biết trước.

 Đầu vào: Hình chiếu 2D tại các điểm nhìn định trước

 Đầu ra: Đám mây điểm

Hình 4-7 Pseudo-Renderer (nguồn internet)

Nếu Đám mây điểm kết hợp với các phép chiếu 2D được dự đoán hiệu quả, việc hiển thị các phép chiếu 2D từ các góc nhìn mới sẽ tương tự như các phép chiếu từ mô hình 3D thực tế trên mặt đất.

 Đầu vào: Đám mây điểm

 Đầu ra: hình ảnh có độ sâu ở các góc nhìn mới lạ

Hình 4-8 Đào tạo năng động (nguồn internet)

Hoàn thiện kiến trúc từ các mô-đun Trình tạo cấu trúc tích chập 2D, Dung hợp và Pseudo-render

Chúng tôi đã kết hợp ba mô-đun để phát triển một mô hình end-to-end, cho phép tạo ra biểu diễn đám mây điểm nhỏ gọn từ một hình ảnh 2D duy nhất Mô hình này chỉ sử dụng trình tạo cấu trúc tích chập 2D, và nhờ vào đại số hình học, không có tham số nào cần học, giúp giảm kích thước mô hình và đơn giản hóa quá trình đào tạo.

Có thể phân biệt cho phép truyền ngược các gradient, giúp sử dụng thông tin từ các phép chiếu 2D để học cách tạo ra đám mây điểm 3D.

Kết quả

 So sánh hình ảnh 3D được tạo ra và vật thể trong thực tế

Hình 4-9 Kết quả khi so sánh hình ảnh (nguồn internet)

 Kết quả cuối cùng: Từ một hình ảnh RBG duy nhất → đám mây điểm 3D

Hình 4-10 Kết quả từ một ảnh RBG (nguồn internet)

Với khả năng biểu diễn đám mây điểm chi tiết, MeshLab cho phép chuyển đổi sang các định dạng khác như voxel hoặc lưới đa giác, phù hợp cho việc in 3D.

Phương pháp PifuHD

PifuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization

Những tiến bộ gần đây trong ước tính hình dạng người 3D đã được thúc đẩy bởi sức mạnh biểu diễn vượt trội của các mạng nơ-ron sâu Mặc dù các phương pháp hiện tại cho thấy tiềm năng trong môi trường thực tế, nhưng vẫn chưa đạt được độ chi tiết mong muốn so với hình ảnh đầu vào Phương pháp mới này tỏ ra hiệu quả hơn đáng kể so với các kỹ thuật hiện đại hiện có, sử dụng hình ảnh con người được kết xuất từ đầu vào có độ phân giải 1k.

Số hóa con người với độ chính xác cao là yếu tố quan trọng cho nhiều ứng dụng như hình ảnh y tế và thực tế ảo Mặc dù các hệ thống đa góc nhìn đã cho phép tái tạo hình ảnh người với độ chính xác cao, nhưng chúng vẫn khó tiếp cận với cộng đồng do yêu cầu về hệ thống chụp ảnh chuyên nghiệp và môi trường kiểm soát, dẫn đến chi phí cao và khó triển khai Sự chuyển mình sang các mô hình deep learning dung lượng cao hứa hẹn mang lại khả năng tái tạo từ một hình ảnh duy nhất, nhưng hiệu suất của chúng vẫn thấp hơn so với các hệ thống chụp chuyên nghiệp.

Hình 4-11 Từ hình ảnh có độ phân giải cao tạo ảnh 3D người ở độ phân giải 1k

Phương pháp này nhằm tạo ra ảnh 3D với độ chính xác cao, tái tạo hình ảnh người mặc quần áo từ một hình ảnh duy nhất, đạt độ phân giải đủ để khôi phục chi tiết như ngón tay, đặc điểm khuôn mặt và nếp gấp quần áo Để hoàn thiện quá trình kết xuất, hệ thống cần khôi phục mặt sau không nhìn thấy của bất kỳ hình ảnh 2D nào, điều này thường gặp khó khăn do đầu vào có độ phân giải thấp và thiếu thông tin Để giải quyết vấn đề này, phương pháp sử dụng mạng lưới dịch ảnh sang nhiều góc độ khác nhau, tạo ra các chuẩn mặt sau phù hợp, từ đó loại bỏ nhược điểm và cải thiện đáng kể chất lượng ảnh 3D với mức độ chi tiết nhất quán hơn giữa phần nhìn thấy và phần bị che khuất.

Phương pháp này bao gồm hai tác vụ chính:

Quá trình từ thô đến tinh được huấn luyện nhằm tạo ra hình ảnh 3D con người với độ phân giải cao đạt 1k.

Để nâng cao tầm nhìn ở những khu vực không được quan sát, như mặt sau của ảnh, cần áp dụng một phương pháp hiệu quả Điều này sẽ dẫn đến việc tái tạo hoàn chỉnh với độ chi tiết cao hơn.

Single-View 3D Human Digitization là một thách thức lớn do độ chi tiết của hình ảnh không rõ ràng từ góc nhìn của máy ảnh Để giải quyết vấn đề mơ hồ này, các tham số của mô hình 3D thường được áp dụng để ước lượng cho một tập hợp các tham số có giới hạn không gian trong một mô hình tham số đã chọn Tuy nhiên, tính liên kết của các mô hình trong giới hạn này vẫn còn thấp.

Phương pháp PIFu (Hàm ẩn được căn chỉnh theo pixel) là một kỹ thuật mới nổi, cho phép hồi quy một chức năng xác định cho bất kỳ vị trí 3D nào mà không phân biệt rõ ràng không gian đầu ra Phương pháp này chứng minh khả năng tái tạo độ trung thực cao của hình học 3D mà không cần phải biểu diễn toàn bộ khối đồng thời.

PIFu sử dụng đầy đủ các tính năng hình ảnh phức tạp để giữ lại các chi tiết địa phương trong hình ảnh đầu vào, khác với các biểu diễn bề mặt ngầm truyền thống chỉ sử dụng một vectơ đặc trưng toàn cầu.

Phương pháp High-Resolution Synthesis in Texture Space cho phép tái tạo kết cấu và hình học 3D thông qua bản đồ kết cấu biểu diễn, với mục tiêu chính là tạo ra hình học 3D chất lượng cao Cách tiếp cận Tex2Shape của Alldieck và cộng sự hồi quy các chuyển vị trong không gian UV không bọc, nhưng gặp phải hạn chế do cấu trúc liên kết của lưới mẫu, gây khó khăn trong việc đại diện cho các cấu trúc liên kết khác nhau như tóc hoặc váy Những tiến bộ gần đây đã sử dụng mạng nơ-ron để dự đoán kết cấu hoặc độ sâu trung gian, từ đó cải thiện quá trình tái tạo hình học 3D cuối cùng.

Chúng tôi tập trung vào việc phát triển các phương pháp tạo ra hình ảnh con người tổng hợp với chất lượng và độ phân giải cao Gần đây, các phương pháp mới đã được nghiên cứu nhằm sản xuất mặt tổng hợp chất lượng cao, nhằm khắc phục những hạn chế của các kỹ thuật GAN ban đầu Sự cải tiến này cũng được áp dụng trong phân đoạn ngữ nghĩa để nâng cao hiệu quả trong các nhiệm vụ liên quan.

Phương pháp này sử dụng framework PiFu (Hàm ẩn dấu pixel) mới được giới thiệu, với đầu vào là hình ảnh 512x512 và tính năng độ phân giải thấp 128x128 Kỹ thuật này cho phép tạo ra hình ảnh đầu ra có độ phân giải cao hơn bằng cách chồng thêm các mô-đun căn chỉnh pixel được dự đoán trước Những mô-đun hiệu quả sẽ dẫn đến hình ảnh có độ phân giải cao hơn, như 1024x1024, và được mã hóa thành hình ảnh 512x512.

Mô-đun thứ hai thực hiện việc nhúng độ phân giải cao từ mô-đun đầu tiên để tạo ra một tập hợp các mô-đun được dự đoán Để nâng cao chất lượng và độ trung thực của quá trình tái thiết, trước tiên, mô-đun này dự đoán bản đồ bình thường cho cả mặt trước và mặt sau trong không gian hình ảnh, sau đó cung cấp các bản đồ này như đầu vào bổ sung cho mạng.

4.4.3.1 Hàm ẩn được căn chỉnh theo pixel

PIFu là một phương pháp số hóa con người 3D, tập trung vào việc ước lượng khối lượng 3D dày đặc để xác định vị trí của các điểm trong không gian 3D có nằm trong cơ thể người hay không Khác với các phương pháp trước đây, PIFu không yêu cầu một khối lượng 3D rõ ràng mà thay vào đó, mô hình hóa một hàm f(X) để dự đoán giá trị nhị phân cho bất kỳ vị trí 3D nào trong không gian camera liên tục Phương pháp này sử dụng một kiến trúc mạng nơ-ron được đào tạo theo cách end-to-end, giúp tối ưu hóa bộ nhớ và đạt được hình học 3D độ trung thực cao cho đối tượng con người mà không cần sự tùy tiện trong việc xác định khối lượng 3D mục tiêu.

Hàm f đầu tiên trích xuất một tính năng hình ảnh nhúng từ vị trí 2D được chiếu tại π (X) = x ∈ R 2, ký hiệu là Φ (x, I) Quá trình này sử dụng phép chiếu trực giao để chuyển đổi vị trí 3D X thành vị trí 2D x = π (X) = (Xx, Xy), sau đó ước tính khả năng sử dụng của truy vấn 3D điểm X.

Z = Xz là độ sâu dọc theo tia được xác định bởi hình chiếu 2D x Tất cả các điểm 3D dọc theo cùng một tia có các đặc điểm hình ảnh giống hệt nhau Φ (x, I) từ cùng một vị trí x Do đó, hàm g cần tập trung vào sự thay đổi của độ sâu đầu vào Z để phân biệt tỷ lệ sử dụng của các điểm 3D dọc theo tia.

THI CÔNG

ĐÁNH GIÁ KẾT QUẢ, KẾT UẬN

Tiêu đề	Nghiên Cứu Ứng Dụng Trí Tuệ Nhân Tạo Trong Thiết Kế 3D Từ Hình Ảnh 2D
Tác giả	Nguyễn Thái Duy, Nguyễn Quốc Huy, Lưu Phát Huy
Người hướng dẫn	Th.S Phạm Bá Khiển
Trường học	Trường Đại Học Công Nghệ Tp. Hcm
Chuyên ngành	Kỹ Thuật Cơ Khí
Thể loại	Đồ Án Tốt Nghiệp
Năm xuất bản	2021
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	100
Dung lượng	5,26 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization (CVPR 2020);https://shunsukesaito.github.io/PIFuHD	Link
[2] Create 3D model from a single 2D image in PyTorch. – Phuc Le; https://medium.com/vitalify-asia/create-3d-model-from-a-single-2d-image-in-pytorch-917aca00bb07	Link
[3] Paper PifuHD: https://arxiv.org/pdf/2004.00452.pdf [4] Deep Learning With Pytorch,https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html [5] OpenCV, https://learnopencv.com/	Link
[7] Convolutional Neural Network, https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53	Link
[8] Machine Learning, https://machinelearningcoban.com/2016/12/26/introduce/ [9] Computer Visionhttps://viblo.asia/p/thi-giac-may-tinh-la-gi-cac-van-de-lien-quan-toi-thi-giac-may-tinh-Az45b4M6ZxY	Link
[10] Scikit-image; http://gialaipc.com.vn/python-scikit-image-xu-ly-hinh-anh-bang-scikit-image/	Link