MөFÿtFKQJKLrQFӭu
ĈӅ tài thӵc hiӋn các nhiӋm vө chính:
1 Nghiên cӭu và khҧRViWFiFSKѭѫQJSKiSKӑFVkXOLrQTXDQÿӃn nâng cao chҩWOѭӧng hình ҧnh
2 Nghiên cӭu giҧi pháp phát triӇn công nghӋ lõi cho ӭng dөQJ³$,-&DPHUD´ bDQÿҫu là phát triӇn chӭFQăQJQkQJFDRFKҩWOѭӧng hình ҧnh và chuyӇQÿәi phong cách
3 Nghiên cӭu SKѭѫQJSKiSWӕLѭXvà tích hӧp FiF³IUDPHZRUN´trí tuӋ nhân tҥo lên smartphone
1.3 ĈӕLWѭӧng và phҥm vi nghiên cӭu
Dӳ liӋu sӱ dөng chính trong luұQYăQÿѭӧc thu thұp tӯ các nguӗn dӳ liӋu mӣ trên Internet và các hình ҧnh cá nhân khácÿѭӧc chөp tӯ nhiӅXGzQJÿLӋn thoҥi khác nhau
VӅ nӝi dung, luұQYăQFKӍ nghiên cӭXFiFSKѭѫQJSKiSӭng dөng mҥng hӑc sâu cho viӋc nâng cao chҩt Oѭӧng hình ҧQK7URQJÿyWұp trung vào các ӭng dөng cӫa mҥng GAN và tích hӧSFiF³IUDPHZRUN´WUtWXӋ nhân tҥo lên smatphone
VӅ mӭFÿӝ lý thuyӃt, luұQYăQQJKLrQFӭu các tài liӋu vӅ:
2 Các mҥng hӑF VkX OLrQ TXDQ ÿӃn nâng cao chҩW Oѭӧng hình ҧnh: GAN,
VӅ mһt ӭng dөng, luұQYăQQJKLrQFӭXFiFSKѭѫQJSKiS
1 TӕL ѭX P{ KuQK Pҥng hӑc sâu nhҵm thӵF WKL ÿѭӧc trên các thiӃt bӏ smartphone
2 Tích hӧp các framework trí tuӋ nhân tҥRQKѭOpenCV, Tensorflow
&+ѬѪ1*TRÍ TUӊ NHÂN TҤO TRÊN SMARTPHONE
Giӟi thiӋu trí tuӋ nhân tҥo trên smartphone
AI hay trí tuӋ nhân tҥo là mӝt dҥng trí thông minh vӟi mөFÿtFKELӃn mӑi cӛ máy có thӇ tӵ hiӇu và vұn hành giӕQJFiFKFRQQJѭӡi sӱ dөng chúng Trí tuӋ nhân tҥRÿHPWӟLFѫKӝi hӑc hӓi kiӃn thӭc mӟi cho máy móc Tӯ ÿyPi\PyFVӁ tӵ hӑc tұSVX\QJKƭYjSKөc vө FRQQJѭӡi Ĉk\OjPӝt trong nhӳng phát minh mang tính cách mҥng trong giӟi công nghӋ, giúp kéo theo hàng loҥt các tiӃn bӝ kӻ thuұt khác, ÿӗng thӡi mӣ ra mӝt kӹ nguyên công nghӋ mӟi cho nhiӅu ngành nghӅOƭQKYӵc
Hình 2.1: Ͱng dͭng trͫ lý ̫o trên smartphone
Cùng vӟi sӵ phát triӇn không ngӯng cӫa trí tuӋ nhân tҥo trong thӡi gian trӣ lҥi ÿk\ không chӍ có mһt trên robot hay máy tính, AI giӡ ÿk\ còn ÿѭӧc nhiӅu hãng sҧn xuҩt quan tâm ÿѭD lên cҧ smartphone Trong ÿy AI xuҩt hiӋn vӟi các ӭng dөng trӧ lý ҧo QKѭ Siri (iPhone) hay Google Now (Android) nhiӅu QăP vӅ WUѭӟc
14 1Jѭӡi dùng có thӇ ra lӋnh cho smartphone ÿӇ phөc vө các nhu cҫu cӫa mình QKѭ bỏo thӭc, tỡm kiӃm ÿӏa ÿLӇm, nhõn diӋn giӑng QyLô Bờn cҥnh ÿy cụng nghӋ
AI còn giúp cҧi thiӋn ÿiQJ kӇ khҧ QăQJ chөp hình cӫa ÿLӋn thoҥi, xӱ lý hình ҧnh, tiӃt kiӋm ÿLӋn QăQJ nõng cao bҧo mұWô
Hình 2.2: Ͱng dͭng mͧ khóa b̹ng khuôn m̿t trên smartphone
Ngoài viӋFÿѭӧc tích hӧp vào phҫn mӅm, trí tuӋ nhân tҥRFzQÿѭӧc tích hӧp cҧ phҫn cӭng trong smartphone, mà tiêu biӇu là các vi xӱ lý Thұt vұy, hҫu hӃt các vi xӱ lý hiӋQQD\ÿӅu ÿѭӧc tích hӧp khҧ QăQJxӱ lý $,ÿӇ có thӇ xӱ lý các thuұt toán phӭc tҥSWăQJFѭӡng hiӋXQăQJNKҧ QăQJFKөp ҧnh chҩWOѭӧng cao, xӱ lý ÿӗ hӑa FNJQJQKѭPDQJOҥi nhiӅXWtQKQăQJÿӝFÿiRWUrQÿLӋn thoҥi, ví dө nhұn diӋn giӑng nói, nhұn dҥng khuôn mһWQJѭӡi dùng, dӏch ngôn ngӳ hay tìm kiӃm thông tin
&iFFRQFKLSÿѭӧc trang bӏ khҧ QăQJ xӱ lý AI phә biӃn trên thӏ WUѭӡng hiӋn là bӝ ÿ{L$%LRQLFYj$%LRQLFFӫa Apple, Kirin 980 cӫa Huawei, Snapdragon
845 và mӟi nhҩt là Snapdragon 855 cӫa Qualcomm, tҥRÿLӅu kiӋQFKRQJѭӡi dùng ÿѭӧc trҧi nghiӋPFiFWtQKQăQJY{FQJPӟi lҥ và hҩp dүn
15 ĈѫQFӱ là chiӃFL3KRQH;ÿѭӧc trang bӏ FKLSVHW$%LRQLFFyO}LÿӇ xӱ lý các tác vө $,7URQJNKLÿyQJѭӡi anh em cӫa A11 Bionic, A12 có tӟi 8 nhân phө trách các tác vө AI, có thӇ xӱ lý 5 nghìn tӹ phép tính mӛi giây, thay vì chӍ là 600 tӹ so vӟi AI Engine trên A11
Hình 2.&KLS.LULQÿ˱ͫc trang b͓ AI cͯa Huawei
1JRjLUD4XDOFRPPFNJQJOjPӝt trong nhӳng nhà sҧn xuҩt chip chú trӑng vào trí tuӋ nhân tҥo, vӟL6QDSGUDJRQKmQJÿmJLӟi thiӋu công cө AI thӃ hӋ 4, kӃt hӧp vӟLO}Lÿӗ hӑa Adeno, Kyro và +H[DJRQÿӇ cung cҩSQăQJOѭӧng cho các tác vө AI Nhӡ vұy mà hiӋXQăQJ$,VӁ WăQJJҩp 3 lҫn so vӟi thӃ hӋ tiӅn nhiӋm Bên cҥQK ÿy Eӝ xӱ lý Hexagon cho công cө AI còn có thӇ cҳt giҧm tiӃng ӗn trong nhӳng cuӝc gӑi video bҵng cách sӱ dөng thuұt toán giҧm tiӃng ӗn thӡi gian thӵc
Có thӇ thҩy không chӍ các nhà sҧn xuҩt smartphone mà cҧ nhӳng hãng phҫn mӅm và phҫn cӭQJÿӅu rҩWTXDQWkPÿӃn AI Trí tuӋ nhân tҥo có thӇ ÿѭӧc xem là mӝt nhân tӕ sӕng còn cho sӵ thành bҥi cӫa ngành công nghiӋSGLÿӝQJĈk\VӁ tiӃp tөc là mөFWLrXWKHRÿXәi và cҥnh tranh giӳa các hãng smartphone WURQJWѭѫQJODL
Hình 2.4: R̭t nhi͉XWtQKQăQJ$,PͣLÿ˱ͫc ra m̷t g̯Qÿk\
Giӟi thiӋu AI Camera
Hình 2.5: Smartphone tích hͫp AI-Camera cͯa Bphone
Cҧm nhұn rõ sӵ WKD\ÿәi AI nhҩt là trong ngành phát triӇQÿLӋn thoҥLGLÿӝng Các mүu máy gҫQÿk\ÿm Fy QKӳng khҧ QăQJQKұn dҥng giӑQJ QyLÿӑc chính tҧ, quét vân tay, nhұn diӋn khuôn mһt, chӍnh sӱa ҧnh tӵ ÿӝQJÿLӅu khiӇn tӯ xa mӟi ÿk\QKҩt là AI-Cam HiӋn này, hҫu hӃt các mүu smartphone ÿuQKÿiPÿӅu tích hӧp thêm AI-&DPÿӇ WăQJKҩp dүQÿӕi vӟLQJѭӡi tiêu dùng
17 Nhҳc ÿӃn AI-Camera ta có thӇ liӋt kê ra mӝt sӕ WtQKQăQJQәi bұWQKѭVDX
Face ID là công nghӋ bҧo mұt sinh trҳc hӑFQKѭYӟi quét vân tay và mӕng mҳt, GQJÿӇ nhұn diӋn khuôn mһWQJѭӡi dùng thay thӃ hoàn toàn cho Touch ID
Hình 2.6: Face ID trên Iphone
7URQJÿyQәi bұt nhҩt là Face ID trên các dòng Iphone thӃ hӋ mӟi Theo Apple xác suҩW ÿӇ QJѭӡi lҥ vӟi khuôn mһt giӕng chúng ta có thӇ mӣ máy là khoҧng WURQJNKLÿyYӟi Touch ID là 1/50.000
AI Beauty giúp camera nhұn diӋn tӟLKѫQÿLӇm khác biӋt trên khuôn mһt, gӗm màu da, giӟLWtQKKD\ÿӝ tuәLôFăQFKӍQKÿѭӡQJQpWJѭѫQJPһt, xúa bӓ chi tiӃt thӯDYjÿHPWӟi mӝWJѭѫQJPһWÿҽp tӵ nhiên nhҩt và chӫ ÿӝng tӵ trau dӗi kӻ QăQJ ³PDNHXS´NKX{QPһt cho chúng ta ĈLÿҫXWURQJOƭQKYӵc này có thӇ kӇ ÿӃn các dòng sҧn phҭm cӫD2SSR³HiӇu bҥn KѫQFKtQKEҥn´
Hình 2.7: Công ngh OjPÿ́p AI 2.0 trên smartphone cͯa Oppo F7
VӟLÿLӇm nhұn diӋn và tinh chӍQKGQJ)VHOILHFNJQJJLӕng viӋc có mӝt FKX\rQJLDOjPÿҽp ӣ ngay cҥnh chúng ta KӇ cҧ khi selfie vӟLQJѭӡi yêu hay nhóm bҥQFDPHUD)FNJQJFyWKӇ [iFÿӏnh giӟi tính, các chàng trai sӁ trông mҥnh mӁ KѫQ trong khi các cô nàng lҥi nӳ tính và cuӕn hút
Nhұn diӋn cҧnh nӅn thông minh vӟi AI Scene giúp xiFÿӏnh chính xác bӕ cөc và các vұt thӇ trong hình, tӵ ÿӝQJWuPÿLӇm cân bҵQJFKRÿӝ ViQJÿӝ bão hòa, màu sҳc YjWѭѫQJSKҧn trong tӯng bӭc ҧnh
Hình 2.8: Nh̵n di n khung c̫nh
Hӛ trӧ rҩt nhiӅu kiӇu ҧnh QKѭ+RjQJK{QĈӗng cӓ7URQJQKj0yQăQ%ҫu trӡi, TuyӃWĈrP&Ky&KkQGXQJ7Uҿ em, Pháo hoa, BiӇn, Phong cҧnh, Chӳ viӃt, Mèo, Ánh sáng sân khҩu
Ngoài viӋc tӕL ѭX YӅ phҫn mӅm thì các hãng sҧn xuҩW ÿLӋn thoҥL FNJQJ NK{QJ quên cұp nhұt bә sung nhiӅXWtQKQăQJPӟLWURQJÿyFyWtQKQăQJWKӵc tӃ ҧRWăQJ Fѭӡng (Sticker AR) Ĉây là sӵ kӃt hӧp giӳa thӃ giӟi thұt và ҧo cho phép bҥQWѭѫQJ tác vӟi nӝi dung ҧRQJD\WURQJÿӡi thұt, có thӇ là chҥm vào hay lӗng ghép nhӳng hình ҧnh lên trên
Nhӡ sӵ WѭѫQJWiFPjFiFKmQJÿLӋn thoҥLÿmWtFKKӧp công nghӋ này vào trong FDPHUDÿӇ tҥo nên nhӳng Sticker AR cӵc kì thú vӏ
Các sticker (nhãn dán) này cho SKpSQJѭӡi dùng tҥRUDÿѭӧc nhӳng biӇXWѭӧng FKDWÿӝFÿiRFӫa riêng mình, hoһc nhӳng bӭc ҧnh có nhӳng hình ghép lҥ mҳt, vui nhӝn
Ngoài nhӳng ӭng dөng nәi bұt ӣ WUrQWDFNJQJFyWKӇ kӇ ÿӃn mӝt sӕ ӭng dөng khác trên AI Camera:
9 AI cho phép camera cӫa máy có thӇ chөp ҧnh xóa phông xuҩt sҳc mà không cҫn camera kép
9 Giao tiӃp bҵng giӑng nói vӟi camera
9 $, 3KRWRJUDSK\ Wӵ KӑF KӓL WKyL TXHQ FKӍQK VӱD ҧQK FKөS FKkQ GXQJ FӫD QJѭӡLGQJÿӇFҧLWKLӋn camera
9 A,'LVSOD\ OX{Q PӣNKLEҥQ QKuQYjR Yj Wӵ ÿӝQJÿLӅXFKӍQKQKLӋWÿӝ PjX WKHRP{LWUѭӡQJ
9 Sӱ dөQJFDPHUDQKѭPӝt công cө: nhұn dҥng chӳ viӃt, ÿROѭӡng, AR, VR, chӑn lӑFWK{QJWLQô
&+ѬѪ1* 3: NÂNG CAO CHҨ7/ѬӦNG HÌNH ҦNH
Ӭng dөng chӍnh sӱa ҧnh trên smartphone
Chөp ҧnh vӟi các smartphone hiӋQ QD\ ÿm WUӣ thành mӝt trào lѭu lӟn mҥnh Cùng vӟi các cҧi tiӃn vӅ chҩt lѭӧng camera, ngѭӡL GQJ QJj\ FjQJ ÿzL Kӓi chҩt lѭӧng hình ҧnh cao hѫn ÿӇ chia sҿ vӟi bҥn bè, nhѭ trên các mҥng xã hӝi facebook, instagram, các kênh du lӏFKKD\ÿѫQJLҧn chӍ là các hình ҧnh ÿҥi diӋn trên các trang mҥng xã hӝi
Hình 3.1: Ch͑nh s͵a ̫QKWU˱ͣc lúc chia s̓ trên m̩ng xã h͡i
Hình 3.2: So sánh ̫QKWU˱ͣc và sau ch͑nh s͵a
7UѭӟFÿk\QӃXQKѭFKӍ có nhӳng chiӃc máy tính mӟi có thӇ giúp chúng ta chӍnh sӱa hình ҧnh nâng cao, nâng tông màu, chӍnh nӅn ҧnh thì giӡ ÿk\QKӳng chiӃc smartphone vӟi nhiӅu cҧi tiӃn vӅ mһt hiӋXQăQJFyWKӇ giúp chúng ta chӍnh sӱa hình ҧnh ngay sau khi chөp qua các ӭng dөng chӍnh sӱa ҧnh chuyên nghiӋp Các ӭng dөng này sӁ giúp chúng ta biӃn nhӳng hình ҧQKÿѭӧc chөp tӯ smartphone trӣ nên lung linh, huyӅn ҧRKѫQQKѭFKөp tӯ mӝt chiӃc máy ҧnh chuyên nghiӋp
Hình 3.3: Ͱng dͭng ch͑nh s͵a ̫nh Adobe Photoshop Express
Ví dө, vӟi ӭng dөng Snapseed- ÿѭӧc phát triӇn bӣi Google, chúng ta có thӇ nâng cao chҩW Oѭӧng cӫa hình ҧnh, chuyӇn ÿәi hay chia sҿ mӝt cách dӉ dàng KѫQ
Hình 3.4: Ͱng dͭng Snapseed cͯa Google
Mӝt sӕ WtQKQăQJFӫa ӭng dөQJ6QDSVHHGÿѭӧc phát triӇn bӣi Google:
9 DӉ GjQJ ÿLӅu chӍnh hình ҧnh cӫa chúng ta vӟL WtQK QăQJ Auto Correct, chúng ta chӍ cҫn chҥm tay 1 lҫn
9 Tinh chӍnh hình ҧnh cӫa chúng ta ÿӇ hoàn thiӋQKѫQYӟi Tune Image
9 Sӱ dөng chӑn lӑFĈLӅu chӍQKÿӇ WăQJFѭӡQJÿӕLWѭӧng cө thӇ hoһc các khu vӵc trong bӭc ҧnh cӫa chúng ta
9 Thӱ nghiӋm các bӝ sáng tҥo cho bӭc ҧnh cӫa chúng ta vӟi các bӝ nӅn QKѭ Bi, Vintage , Grunge , và Tilt -Shift
9 7KrPÿѭӡng viӅn hình ҧnh
9 Chia sҿ sáng tҥo cӫa chúng ta thông qua Google+ , email, và bҩt kǤ dӏch vө nào khác
Tuy nhiên không phҧLDLFNJQJFyNKҧ QăQJVӱ dөng nhӳng phҫn mӅm phӭc tҥp Nhӳng phҫn mӅm chӍnh sӱa ҧQKÿzLKӓLQJѭӡi dùng phҧi có kӻ QăQJQKҩWÿӏnh và mҩt rҩt nhiӅu thӡi gian cho viӋc này ĈyOjPӝt trong nhӳQJOêGRKuQKWKjQKÿӅ tài
ChӍnh sӱa ҧnh vӟi trí tuӋ nhân tҥo trên smartphone
MӟLÿk\QKҩW/*ÿmWUuQKOjQJQKӳng mүu ÿLӋn thoҥi LG V30S ThinQ ÿѭӧc giӟi thiӋu có tích hӧp AI-Cam Trên chiӃF/*967KLQ4FiF WtQKQăQJ QKѭWӵ ÿӝQJÿLӅu chӍQKÿӝ QpWÿӝ WѭѫQJSKҧQEmRKzDPjXÿӅu do AI-Cam tӵ ÿӝng nhұn biӃt HiӋn tҥi, có 8 loҥi cҧnh vұt chiӃc V30S có thӇ nhұQUDOjFKkQGXQJÿӝng vұt, thành phӕ, hoa, mһt trӡi mӑc, mһt trӡi lһn, thӭFăQYjSKRQJFҧnh Bên cҥQKÿy/* FNJQJF{QJbӕ mӝt công cө chөp ҧnh mӟi là 9LVRQ$QyJL~SQJѭӡi dùng có các góc ÿһt máy tӕWKѫQWKLӃt lұp các thông sӕ khi chөp tӕWKѫQQKӡ ÿѭӧc tұp luyӋn vӟi 100 triӋu bӭc ҧnh kiӇu mүu
Hình 3.5: AI-&DPHUDWUrQÿL n tho̩i cͯa LG
25 Ngoài ra, mӝt sӕ ӭng dөng AI gҫQÿk\WUrQÿLӋn thoҥLFNJQJFyWKӇ JL~SQJѭӡi dùng tҥo ra các tác phҭm nghӋ thuұt dӉ dàng Ĉylà nhӳng ӭng dөng chӍnh sӱa ҧnh tҥo hiӋu ӭng ҧnh tuyӋt vӡi biӃn ҧnh cӫa chúng ta thành tranh vӁ vӟi phong cách nghӋ thuұt cӫa các nghӋ Vƭ Qәi tiӃQJ QKѭ 9DQ *RJK 3LFDVVR 6DOYDGRU 'DOL /LFKWHQVWHLQô
Hình 3.6: Ͱng dͭng t̩o ̫nh ngh thu̵t vͣi AI
&+ѬѪ1*0ҤNG HӐC SÂU ӬNG DӨNG CHO
Image-to-Image Translation (I2I)
ChuyӇQÿәi I2I (Image-to-Image) là tên gӑi chung cӫa nhӳng SKѭѫQJSKiShӑc máy nhҵm chuyӇQÿәi dӳ liӋu tӯ mӝt miӅn này sang mӝt miӅn khác dӵa trên nhӳng dӳ liӋu ÿmÿѭӧc hӑc
I2I là mӝt trong nhӳng nghiên cӭu ngày càng ³KRW´ WURQJOƭQKFӵc Computer Vision, khi mà các mҥng Deep Learning ngày càng phát triӇQÿiSӭng ÿѭӧc thiӃt kӃ nhҵm hӑc hӓi viӋc ánh xҥ giӳa 2 miӅn dӳ liӋu khác nhau I2I QJj\FjQJÿѭӧc ӭng dөng rӝng rãi trong nhiӅXOƭQKYӵFNKiFQKDXQKѭFKX\ӇQÿәi phong cách, suy diӉn ÿӕLWѭӧng, chuyӇQÿәLPDKD\OjWăQJFѭӡng ҧnh
Hình 4.1: Ͱng dͭng I2I cho chuy͋Qÿ͝i s̷c thái
Hình 4.2: Ͱng dͭng I2I cho chuy͋Qÿ͝i mùa
+DLSKѭѫQJSKiStiӃp cұQÿѭӧc sӱ dөng nhiӅu nhҩt trong I2I là:
9 ChuyӇQ ÿәi sӱ dөng JKpS ÿ{L 'ӳ liӋu hӑc cҫn phҧL ÿѭӧF GiQ QKmQ WѭѫQJ ӭng vӟLFiFÿҫu vào Nói cách khác thì dӳ liӋu vào-ra là các cһSWѭѫQJӭng
9 ChuyӇQÿәi không sӱ dөng JKpSÿ{L'ӳ liӋu hӑc không cҫn dán nhãn
Hình 4.3,,JKpSÿ{LWUiL- ,,NK{QJJKpSÿ{LSK̫i)
Hình 4.5: Minh h͕DSK˱˯QJSKiS,,JKpSÿ{LYjNK{QJJKpSÿ{L
+uQK WUrQ GQJ ÿӇ minh hӑa ê Wѭӣng cӫa SKѭѫQJ SKiS ,, Yӟi nhiӋm vө chính là ánh xҥ dӳ liӋu tӯ ³VRXUFHGRPDLQ´Oj;ÿӃQ³WDUJHWGRPDLQ´Oj Y, trong khi mҥng G2 ánh xҥ QJѭӧc tӯ Y sang X, G2: Y->X
+ Hai mҥng phân biӋW'Yj'7URQJÿyPҥng D1 nhҵm phân biӋt dӳ liӋu ÿѭӧc tҥo ra bӣi mҥng G1 là G1(x) và ³WDUJHWGRPDLQ´ݕ א ܻ D2 nhҵm phân biӋt dӳ liӋu tҥRVLQKQJѭӧc tӯ mҥng G2 là G2(y) vӟi ³VRXUFHGRPDLQ´ ݔ א ܺ
+ Hai mҥng D3 và D4, nhҵm kiӇPWUDWtQKÿӗng nhҩt cӫa dӳ liӋu sau khi tҥo sinh:
7URQJÿySKѭѫQJSKiSJKpSÿ{LUҩWNKyÿӇ thӵc hiӋn khi yêu cҫu sӵ ràng buӝFWѭѫQJӭng giӳa các cһp dӳ liӋu Và nguӗn dӳ liӋXFKRSKѭѫQJSKiSQj\WKѭӡng rҩt ít
GANs-Generative Adversarial Networks
1HXUDO1HWZRUNÿmWҥo ra mӝWEѭӟc tiӃQYѭӧt bұc, cung cҩp khҧ QăQJQKұn diӋn hình ҧnh và âm thanh ӣ mӝt cҩSÿӝ có thӇ so sánh vӟLFRQQJѭӡi Cùng vӟLÿy là viӋc hiӇXÿѭӧc ngôn ngӳ tӵ nhiên vӟLÿӝ chính xác khá tӕt
Các model sӱ dөng Neural Network WUѭӟFÿk\FyWKӇ ngay lұp tӭc nhұn dҥng mӝt chú mèo trong mӝt bӭc ҧnh, thông qua viӋc hӑFYjSKkQWtFKKjQJWUăPWKұm chí hàng ngàn, chөc ngàn bӭc ҧnh vӅ ORjLPqR1KѭQJFiFEӭc ҧQKÿyNK{QJWKӇ sӱ dөng làm tұp dӳ liӋu huҩn luyӋn nӃu không có sӵ dán nhãn, phân chia tӯng bӭc ҧnh mӝt cách tӍ mӍ cӫDFRQQJѭӡLĈLӅu này rҩt tӕn thӡi gian và công sӭc
Và GANs (Mҥng chӕQJ ÿӕi tҥo sinh) ÿѭӧc sinh ra vӟi kǤ vӑng tҥR UD ÿѭӧc nhӳng hӋ thӕQJFyÿӝ chính xác cao mà cҫn ít hoҥWÿӝng cӫDFRQQJѭӡi trong khâu huҩn luyӋn Và nhӳng nghiên cӭu vӅ GANs là mӝt trong nhӳng nӝL GXQJ ³KRW´ nhҩt cӫa Deep Learning trong nhӳQJQăPJҫQÿk\
GANs là mӝt thuұt toán hӑFNK{QJJLiPViW8QVXSHUVLYHG/HDUQLQJÿѭӧc Ian Goodfellow giӟi thiӋXYjRQăPWҥi hӝi nghӏ 1,36WURQJÿyEDRgӗm hai thành phҫn chính là Generator và Discriminator
9 Generator (ký hiӋu G) nhұn nhiӋm vө hӑc ra cách ánh xҥ tӯ mӝt không gian tìm ҭn Z(a latent space) vào mӝt không gian vӟi phân phӕi tӯ dӳ liӋu cho WUѭӟc
9 Discriminator (ký hiӋu D) nhұn nhiӋm vө phân biӋt dӳ liӋX ÿѭӧc tҥo ra tӯ G và dӳ liӋXFKRWUѭӟc
Hình 4.7: Nguyên lý ho̩Wÿ͡ng cͯa GAN
32 Theo công bӕ cӫa Ian Goodfellow vӅ Generative Adversarial Nets [3], ta có thӇ trình bày nhӳng nӝLGXQJFѫEҧn vӅ mҥQJ*$1QKѭVDX
G(z)-Generator lҩy mӝt mӝWÿҫu vào và cӕ gҳng ánh xҥ sang miӅn X1Kѭ mô tҧ ӣ hình trên, G(z) lҩy input z tӯ pz(z), vӟi z là mӝW³Vample´ thuӝc phân phӕi xỏc xuҩW S] ÿѭӧc sinh ngүu nhiờn tӯ ³latent spaceả VDX ÿy JiQ WKrP QKLӉu (noise) ³Vample´ sinh ra tӯ *]ÿѭӧc ÿѭD vào mҥng Discriminator Network D(x) Công viӋc cӫa Discriminator network là lҩy dӳ liӋu tӯ tұp train (real sample) và VDPSOHÿѭӧc sinh ra tӯ *JHQHUDWHG VDPSOHYj [iF ÿӏnh xem ³sample´ VDLNKiF QKѭWKӃ QjRÿӕi vӟL³Ueal sample´ [ÿѭӧc lҩy tӯ phân phӕi xác suҩt pdata(x)
D(x) xӱ lý vҩQÿӅ binary classification bҵng cách sӱ dөng hàm sigmoid, trҧ vӅ kӃt quҧ khoҧng tӯ ÿӃn 1, vӟi xác suҩWÿҫu ra càng cao thì khҧ QăQJVDPSOHÿy càng giӕng thұt (sample lҩy tӯ tұp data) càng lӟQYjQJѭӧc lҥi
'R ÿy ' ÿѭӧc huҩn luyӋQ ÿӇ tӕL ÿD [iF VXҩW JiQ ÿ~QJ QKmQ FKR VDPSOH ÿӗng thӡi G lҥL ÿѭӧc huҩn luyӋQ ÿӇ tӕi thiӇu khҧ QăQJ SKiW KLӋn cӫD ' WѭѫQJ ÿѭѫQJWӕi thiӇu log(1 D G z ( ( ))) MӕLWѭѫQJTXDQJLӳD'Yj*ÿѭӧc biӉu diӉn bҵng công thӭc sau:
( ) ( ) min max ( , ) [log ( )] [log(1 ( ( )))] data z x p x z p z
+ E [log D x ( )] là giá trӏ kǤ vӑng khҧ QăQJ³VDPSOH´Wӯ phân phӕi huҩn luyӋn UHDOVDPSOHÿѭӧF'ÿiQKJLiOjGӳ liӋu thұt
+ E [log(1 D G z ( ( )))] là giá trӏ kǤ vӑng khҧ QăQJ ³VDPSOH´ ÿѭӧc tҥo ra tӯ mҥQJ*ÿѭӧF'ÿiQKJLiOjGӳ liӋu giҧ
1KѭYұ\'ÿDQJFӕ gҳng tӕLÿDKjP9'*WURQJNKL*WKuQJѭӧc lҥi Quá trình sӁ hӝi tө khi pg = p data vӟi pg là mӝt phân phӕLWѭѫQJÿѭѫQJYӟi G(z), hay D(x)
= 1/2, tӭc là D không thӇ phân biӋt mӝW³VDPSOH´là thұt hay giҧ
Hình 4.9: Hṷn luy n m̩ng GAN
Quá trình huҩn luyӋn cӫa mҥQJ*$1ÿѭӧc chia thành 2 phҫn:
Quá trình huҩn luyӋn mҥng D, thì ta sӁ cӕ ÿӏnh mҥng Generator, tӭc là chӍ backpropagation cho mҥng D, còn mҥng G chӍ feed-forward
Sӱ dөQJ³VWRFKDVWLFJUDGLHQW´ ÿӇ cұp nhұt trӑng sӕ cӫa mҥng D bҵng cách cӝng thêm mӝWOѭӧng:
Quá trình huҩn luyӋn mҥng G, thì ta sӁ cӕ ÿӏnh mҥng Discriminator, tӭc là chӍ backpropagation cho mҥng G, còn mҥng D chӍ feed-forward
Sӱ dөQJ³VWRFKDVWLFJUDGLHQW´ÿӇ cұp nhұt trӑng sӕ cӫa mҥng G bҵng cách trӯ ÿ\ mӝWOѭӧng:
Cө thӇ, thuұt toán huҩn luyӋn ÿѭӧc mô tҧ trong nghiên cӭu sӕ [3] QKѭVDX
For number of training iterations do
For k steps do x Sample minibatch of m noise samples {z (1) ô ] (m) } from noise prior p g (z) x Sample minibatch of m examples {x (1) ô [ (m) } from data generationg distribution p data (x) x Update the discriminator by ascending its stochastic gradient:
End for x Sample minibatch of m noise samples {z (1) ô ] (m) } from noise prior p g (z) x Update the generator by descending its stochastic gradient:
35 Qua thӡi gian, ngày càng nhiӅu biӃn thӇ cӫD*$1UDÿӡi nhҵm giҧi quyӃt nhiӅu ӭng dөng cө thӇ KѫQ QKѭ*$1 /6*$1 '5*$1 :*$1-*3ôOjPFKR Pҥng GAN ngày càng hoàn thiӋQKѫQYjWUӣ thành mӝt trong nhӳng chӫ ÿӅ nghiên cӭu ³KRW´OirQTXDQÿӃn mҥng hӑFVkXWURQJYjLQăPWUӣ lҥLÿk\
Mҥng tích chұp U-Net
Convolutional Neural Network (CNNs ± MҥQJ Qѫ-ron tích chұp) là mӝt trong nhӳng mô hình hӑc sâu tiên tiӃn giúp cho chúng ta xây dӵQJÿѭӧc nhӳng hӋ thӕng thông minh vӟLÿӝ chính xác cao QKѭcác hӋ thӕng xӱ lý ҧnh lӟn ÿѭӧc phát triӇn bӣi Facebook, Google hay Amazon cho các ӭng dөng th{QJPLQKQKѭQKұn diӋn khuôn mһWQJѭӡi dùng, phát triӇQ[HKѫLWӵ lái hay drone giao hàng tӵ ÿӝng
&11ÿѭӧc sӱ dөng nhiӅu trong các bài toán nhұn dҥng các ÿӕLWѭӧng trong ҧnh, chúng có thӇ hӑFÿѭӧc cách phân loҥi các hình ҧnh thұm chí còn tӕWKѫQFRQ QJѭӡi trong mӝt sӕ WUѭӡng hӧp
Hình 4.10: Ki͇n trúc CNNs trong bài toán nh̵n d̩ng chͷ s͙
7X\QKLrQQKѭӧFÿLӇm lӟn nhҩt cӫa CNNs ÿyOjVӵ hҥn chӃ vӅ NtFKWKѭӟc cӫa các dӳ liӋu vào-UD.KLÿҫu vào là các ҧQKFyNtFKWKѭӟc lӟn, thì thӡi gian xӱ lý cӫa CNNs rҩWOkX+ѫQWKӃ nӳDÿҫu ra cӫa mҥQJ&11VWKѭӡng là dҥQJYHFWRUÿѫQ
36 giҧn và không quá quan tâm tӟi tӯng các pixel.Nên CNNs chӍ WKѭӡQJÿѭӧc dùng ӣ các bài toán nhұn dҥnJÿӕLWѭӧng
1KѭQJÿӕi vӟi bài toán nâng cao chҩWOѭӧng ҧnh, thì yêu cҫXÿҫu tiên là ҧnh ÿҫu vào và ra phҧLFyNtFKWKѭӟc giӕQJQKDXYjWKѭӡng là các ҧQKFyNtFKWKѭӟc lӟQÿӇ có thӇ giӳ ÿѭӧc tính toàn vҽn cӫa ҧnh Và sӵ UDÿӡi cӫa mҥng U-1HW ÿm giúp giҧi quyӃWÿѭӧc nhӳng bài toán này
Hình 4.11: Ͱng U-Net trong EjLWRiQ³LPDJHVHJPHQWDWLRQ´
Mҥng U-Net là mӝt mҥQJÿѭӧc xây dӵng dӵa trên kiӃn trúc CNNs vӟi nhӳng sӱDÿәi và mӣ rӝng, ÿѭӧc phát triӇn bӣi Olaf Ronneberger [7], ÿѭӧc ӭng dөng cho EjLWRiQ³LPDJHVHJPHQWDWLRQ´WURQJ \Kӑc KiӃn trúc FѫEҧn có 2 phҫQÿӕi xӭng QKDXÿѭӧc gӑi là encoder và decoder
Hình 4.12: Ki͇n trúc encoder và decoder m̩ng U-Net
7URQJÿySKҫQHQFRGHUGQJÿӇ giҧm chiӅu dài và chiӅu rӝng cӫa ҧnh bҵng viӋc sӱ dөng các lӟp convolutions và các lӟp poolings Còn phҫQGHFRGHUGQJÿӇ phөc hӗi lҥL NtFK WKѭӟF EDQ ÿҫu cӫa ҧnh PhҫQ HQFRGHU WKѭӡng chӍ là mӝt mҥng CNNs WK{QJWKѭӡQJQKѭQJEӓ ÿLQKӳng layer fully conected cuӕi cùng Chúng ta có thӇ sӱ dөng nhӳng mҥng có sҹn trong phҫQ HQFRGHU QKѭ 9** 9**Alexnet, Còn decoder tùy vào các kiӃn trúc mҥng mà ta có thӇ xây dӵng khác nhau
Sai sӕ trung bình-MSE
Sai sӕ EuQK SKѭѫQJ WUXQJ EuQK- MSE (Mean Squared Error) là mӝt khái niӋPÿѭӧc sӱ dөng trong thӕng kê MSE cho phép ta ÿiQKJLiFKҩWOѭӧng cӫa mӝt ѭӟF OѭӧQJ QjR ÿy ChӍ sӕ MSE cӫa mӝW SKpS ѭӟF Oѭӧng là trung bình cӫa bình SKѭѫQJFiF sai sӕ, tӭc là sӵ khác biӋt giӳDFiFѭӟFOѭӧng và nhӳQJJuÿѭӧFÿiQK giá
ChӍ sӕ GQJÿӇ ÿiQKJLiPӭFÿӝ sai khác cӫDFiFÿLӇm ҧnh giӳa ҧnh sau quá trình xӱ lý và ҧQKÿӕi chiӃu so sánh ChӍ sӕ 06(ÿѭӧFWtQKWRiQQKѭ sau:
9 x i j ( , )là ҧnh sau chӍnh sӱa hoһc tái cҩu trúc
9 y i j ( , ) là ҧQKÿѭӧc dán nhãn hoһc là ҧnh nҵm trong dӳ liӋXÿtFK
9 Các chӍ sӕ pixel 1d di M và 1 d d j N , ҧQKFyNtFKWKѭӟc là N×M pixel.
Tӹ sӕ tín hiӋu cӵFÿҥi/nhiӉu-PSNR
PSNR (Peak Signal to Noise Ratio) ±là chӍ sӕ GQJÿӇ tính tӍ lӋ giӳa giá trӏ
QăQJOѭӧng tӕLÿDFӫa mӝt tín hiӋXYjQăQJOѭӧng nhiӉu ҧQKKѭӟQJÿӃQÿӝ chính xác cӫD WK{QJ WLQ 3615 ÿѭӧc sӱ dөQJ ÿӇ ÿR FKҩW Oѭӧng tín hiӋu khôi phөc cӫa các thuұt toán nén có mҩt mát dӳ OLrXORVV\FRPSUHVVLRQQKѭQpQҧnh Tín hiӋu trong WUѭӡng hӧp này là dӳ liӋu gӕc, và nhiӉu là các lӛi xuҩt hiӋn khi nén Tӹ sӕ tín hiӋu ÿӍnh trên nhiӉu giӳa hai ҧQK ĈѭӧF ÿR EҵQJ ÿѫQ Yӏ decibels(dB) ChӍ sӕ PSNR ÿѭӧFWtQKWRiQQKѭVDX
9 MSE - Sai sӕ EuQKSKѭѫQJ trung bình (Mean Squared Error) ӣ mөc 5.1
9 MAX I là giá trӏ tӕLÿDFӫa pixel trên ҧnh Ví dө, kKLFiFÿLӇm ҧnh ÿѭӧc biӇu diӉn bӣi 8 bits dӳ liӋu, thì giá trӏ cӫa MAX I Oj7Uѭӡng hӧp tәng quát khi tín hiӋXÿѭӧc biӇu diӉn bӣi B bit trên mӝWÿѫQYӏ mүu thì MAXI là 2 B ± 1 7URQJÿy%OjVӕ bits sӱ dөQJÿӇ biӇu diӉn ҧnh ĈѫQYӏ cӫa PSNR là Decibel (dB) Khi PSNR>@ dB thì gҫQQKѭNK{QJSKkQ biӋWÿѭӧc sӵ khác biӋt giӳa hai ҧnh bҵng mҳWWKѭӡng PSNR có giá trӏ càng cao thì hai ҧnh so sánh càng giӕng nhau
BiӋn pháp sӱ dөng chӍ sӕ PSNR không phҧLOêWѭӣng nhҩWQKѭQJÿѭӧc sӱ dөng phә biӃQGRFѭӡQJÿӝ tín hiӋXÿѭӧFWtQKOjѭӟc tính chӭ không phҧi là tín hiӋu thӵc tӃ cӫa hình ҧQKĈ{LNKLQyNK{QJSKKӧp vӟi nhұn thӭc thӏ giác cӫDFRQQJѭӡi
5.3 6RViQKWѭѫQJÿӗng cҩu trúc-SSIM
Khác vӟi các chӍ sӕ MSE và PSNR, so sánh giá dӵa trên viӋc so sánh sӵ sai khác giӳDFiFÿLӇm ҧnh ChӍ sӕ SSIM là mӝt trong các chӍ sӕ ÿiQKJLiGӵa trên hӋ thӕng thӏ giác cӫDFRQQJѭӡi HVS
SSIM (Structural Similarity Index): so sánh sӵ WѭѫQJÿӗng cӫa hai hình ҧnh dӵa vào thông tin vӅ cҩSÿӝ [iPÿӝ WѭѫQJSKҧn và cҩu trúc SSIM có giá trӏ trong khoҧng [- 1,1] Khi giá trӏ SSIM = 1, tӭc là 2 ҧnh so sánh hoàn toàn giӕng nhau
ChӍ sӕ 66,0ÿѭӧc tính toán theo công thӭFGѭӟLÿk\
7URQJÿy x x , y : là trung bình cӫa ҧnh x,y x V x , V y : Ojÿӝ lӋch chuҭn cӫa ҧnh x, y x C 1 , C 2 : là các hҵng sӕ
SSIM là mӝt trong nhӳng chӍ sӕ ÿѭӧc sӱ dөng nhiӅu nhҩt không chӍ trong OƭQKYӵc xӱ lý hình ҧnh mà FzQÿѭӧc sӱ dөng trong nhұn dҥng giӑng nói, trong các thuұt toán nén
Hình 5.2: Ví dͭ v͉ giá tr͓ SSIM và MSE
&+ѬѪ1* 6: PHÁT TRIӆN ӬNG DӨNG TRÍ TUӊ NHÂN TҤO
Tensorflow trên Android
Giӟi thiӋu Tensorflow
Sӵ phát triӇn cӫa trí tuӋ nhân tҥo dүQÿӃn viӋc tìm hiӇu vӅ machine learning YjGHHSOHDUQLQJÿmWUӣ thành xu thӃ hiӋn nay ViӋc sӱ dөQJFiFWKѭYLӋn có sҹQÿӇ WtQKWRiQÿmJL~SYLӋc tiӃp cұn các bài toán trӣ QrQÿѫQJLҧQKѫQ
Hình 6.1: Các framework h͕c máy ph͝ bi͇n
7URQJ ÿy SKә biӃn và nәi tiӃng nhҩt là Tensorflow 'R ÿy OXұQ YăQ Oӵa chӑn TensorFlow là framework chính cho viӋc phát triӇn các mô hình hӑc máy
TensorFlow là mӝW WKѭ YLӋn phҫn mӅm mã nguӗn mӣ dành cho máy hӑc trong nhiӅu loҥi hình tác vө nhұn thӭc và hiӇu ngôn ngӳ Nó hiӋQ ÿDQJ ÿѭӧc sӱ dөng cho cҧ nghiên cӭu lүn sҧn xuҩt bӣLÿӝi khác nhau trong hàng tá sҧn phҭm
42 WKѭѫQJ Pҥi cӫD *RRJOH QKѭQKұn dҥng giӑng nói, Gmail, Google Photos, và tìm kiӃm, nhiӅu trong sӕ ÿyÿmWӯng sӱ dөQJFKѭѫQJWUuQKWLӅn nhiӋm DistBelief cӫa nó TensorFlow nguyên thӫ\ÿѭӧc phát triӇn bӣLÿӝi Google Brain cho mөFÿtFKQJKLrQ cӭu và sҧn xuҩt cӫD*RRJOHYjVDXÿyÿѭӧc phát hành theo giҩy phép mã nguӗn mӣ Apache 2.0 vào ngày 9/11/2015
Hình 6.2: Bi͋Xÿ͛ O˱ͫt star và repos trên github s͵ dͭng TF
TensorFlow có thӇ chҥy trên nhiӅu CPU và GPU (vӟi nhiӅu mӣ rӝng CUDA tùy chӑn cho viӋFWtQKWRiQÿDQăQJWUrQFiF*381ycó thӇ chҥy trên các hӋ ÿLӅu hành Linux, Window , Mac OS X 64-bit hoһc các hӋ thӕng máy chӫFNJQJQKѭWUrQ các nӅn tҧQJÿLӋQWRiQGLÿӝng, bao gӗm Android và iOS cӫa Apple Các tính toán cӫD7HQVRU)ORZÿѭӧc thӇ hiӋQGѭӟi dҥng các biӇXÿӗ dataflow chi tiӃt
Tensorflow trên Android Studio
Nӝi dung chính cӫa luұQYăQOjWұp trung phát triӇn các ӭng dөng trên thiӃt bӏ GLÿӝng nhҵPÿѭDFiFQJKLrQcӭu ÿӃn gҫQKѫQYӟi thӵc tӃ và tұp trung giҧi quyӃt các bài toán cө thӇ.7URQJÿyOXұQYăQOӵa chӑn phát triӇn ӭng dөng trên công cө Android Studio
Hình 6.3: K͇t hͫS$QGURLGYj7HQVRUIORZÿ͋ phát tri͋n ͱng dͭng
HiӋQQD\$QGURLG6WXGLRÿDQJKӛ trӧ 2 framework cho viӋc phát triӇn các ӭng dөng Machine Learning và Deep Learning là:
9 Tensorflow Lite: là phiên bҧn mӟi và nhӓ gӑn cӫa TensorFlow dành cho Android, bӝ xӱ lý máy hӑc vӟi mөFÿtFKJL~SFKR$QGURLGWK{QJ PLQKKѫQ
+DLÿLӇm nәi bұt cӫa TensorFlow Lite có thӇ kӇ ÿӃQQKѭ
9 1KDQKKѫQGR7HQVRU)ORZ/LWHFKRSKpSWKӵc hiӋn machine learning ngay trên device vӟLÿӝ trӉ thҩp
9 TensorFlow Lite tӕQtWGXQJOѭӧng nên khá tӕt cho mobile
1KѭQJphҫQNKyNKăQYjTXDQWUӑng nhҩt trong viӋc sӱ dөng TensorFlow Lite là chuҭn bӏ PRGHOWIOLWHFNJQJOjFiLNKiFELӋt nhҩt so vӟi TensoU)ORZWK{QJWKѭӡng
44 ĈӇ có thӇ chҥy model vӟi TensorFlow Lite, ta phҧi chuyӇn model thành model dҥQJWIOLWHÿk\Ojÿӏnh dҥQJÿѭӧc chҩp nhұn bӣi TensorFlow Lite
Hình 6.4: Ki͇n trúc phát tri͋n Tensorflow Lite
9j FNJQJ Yu Oê GR PӟL ÿѭӧc phát triӇn và là bҧn tӕi giҧn cӫa Tensorflow, nên Tensorflow Lite còn thiӃu nhiӅXWKѭYLӋQÿӇ hӛ trӧ các phép toán phӭc tҥS'Rÿy trong quá trình thӵc hiӋn luұQYăQWDSKҧi cân nhҳc giӳa viӋc sӱ dөng mô hình nào cho phù hӧp.
OpenCV trên Andorid
OpenCV là mӝW WKѭ viӋn mã nguӗn mӣ KjQJ ÿҫu cho thӏ giác máy tính 2SHQ&9ÿѭӧc phát hành theo giҩ\SKpS%6'GRÿyQyKRjQWRjQPLӉn phí cho cҧ hӑc thuұW Yj WKѭѫQJ Pҥi Nó có các interface C++, C, Python, Java và hӛ trӧ Windows, Linux, Mac OS, iOS và Android
45 2SHQ&9ÿѭӧc thiӃt kӃ ÿӇ tính toán hiӋu quҧ và vӟi sӵ tұp trung nhiӅu vào các ӭng dөng thӡi gian thӵc Nhӳng ӭng dөng nәi bұt vӟL2SHQ&9QKѭ
Vӟi nhӳQJWtQKQăQJQәi bұWÿy$QGURLG6WXGLRFNJQJÿmQKDQKFKyQJFXQJ cҩp các công cө hӛ trӧÿӇ có thӇ chҥ\ÿѭӧc OpenCV trên nӅn tҧng các thiӃt bӏ di ÿӝng
Hình 6.5: OpenCV trên n͉n t̫ng Android
Trong nӝi dung cӫa luұQYăQ2SHQ&9ÿѭӧc sӱ dөQJÿӇ thӵc hiӋn các phép xӱ lý ҧQKQKѭWKD\ÿәLNtFKWKѭӟc, lӑc nhiӉu, chuyӇQÿәi ҧQKô*L~SWLӃt kiӋm thӡi gian xӱ Oêÿӗng thӡi nâng cao chҩWOѭӧng ҧQKKѫQVRYӟLFiFSKѭѫQJSKiS[ӱ lý ҧQKWK{QJWKѭӡng trên Android Studio
Khҧo sát các nghiên cӭXOLrQTXDQÿӃn nâng cao chҩWOѭӧng hình ҧnh bҵng trí tuӋ nhân tҥo
NhiӋm vө ÿҫu tiên trong quá trình nghiên cӭu và thӵc hiӋn luұQ YăQ Oj nghiên cӭu, khҧRViWÿiQKJLiVѫEӝ các nӝLGXQJOLrQTXDQÿӃn nâng cao và cҧi thiӋn chҩWOѭӧng hình ҧnh bҵng trí tuӋ nhân tҥRÿmÿѭӧc công bӕ tӯ WUѭӟFÿӃn nay 4XDÿyFyWKӇ lӵa chӑQSKѭѫQJiQWKtFKKӧp nhҩWYjGѭӟLÿk\OjPӝt sӕ nghiên cӭu FKtQKÿѭӧc tham khҧo trong quá trình thӵc hiӋn luұQYăQ:
EnlightenGAN: Deep Light Enhancement without Paired Supervision 17/6/2019 Deep Photo Enhancer: Unpaired Learning for Image Enhancement from
DSLR-Quality Photos on Mobile Devices with Deep Convolutional
Learning photographic global tonal adjustment with a database of input / output image pairs
.KyNKăQFKtQKWURQJYLӋc phát triӇn luұQYăQ là viӋc các bài báo, các kӃt quҧ nghiên cӭu chӍ dӯng lҥi ӣ viӋc phát triӇQWKjQKF{QJÿѭӧFP{KuQKÿӇ giҧi quyӃt bài WRiQ0jFKѭDTXDQWkPÿӃn viӋc tӕLѭXYjSKiWWULӇn các mô hình nhҵPÿѭDQJKLrQ cӭXÿӃn gҫn vӟLQJѭӡi dùng
Trong thӵc tӃ, khi phát triӇn ӭng dөng lên các thiӃt bӏ GLÿӝQJWKѭӡng gһp rҩt nhiӅXNKyNKăQ GR ÿһF ÿLӇm phҫn cӭng hҥn chӃKD\OjFiF WKѭYLӋQP{LWUѭӡng FKѭDWKӇ WѭѫQJӭng vӟi viӋc phát triӇn trên các máy tính'RÿyFҫn phҧi tùy chӍnh và tӕLѭXP{KuQKOjPVDRFKR SKKӧp vӟi các thiӃt bӏ GLÿӝng là bài toán quan trӑng nhҩt trong quá trình thӵc hiӋn luұQYăQ
Dӵa vào quá trình khҧo sát và nhӳQJÿiQKJLiWURQJFiFQJKLrQFӭu, luұn YăQÿmOӵa chӑn mô hình Deep Learning chính cho viӋc phát triӇn là mô hình thuӝc nghiên cӭu sӕ [1], ³'HHS 3KRWR (QKDQFHU 8QSDLUHG /HDUQLQJ IRU ,PDJHEnhancement from 3KRWRJUDSKV ZLWK *$1V´ Trong khi dӳ liӋu huҩn luyӋn sӁ ÿѭӧc lҩy tӯ nguӗn chính là dӳ liӋu thuӝc nghiên cӭu sӕ [2], ³/HDUQLQJ photographic global tonal adjustment with a database of input / output image pairs´
Mô hình mҥng hӑc sâu
KiӃn trúc CycleGAN
éWѭӣng xây dӵng kiӃn trúc này là cӫa nghiên cӭu sӕ [5]WKHRÿy CycleGAN thuӝc dҥQJ,,NK{QJJKpSÿ{LTXDÿyFKRSKpSP{KuQKFyWKӇ hӑFÿѭӧFÿһc tính cӫD³target GRPDLQ´YjiSGөng cho ³VRXUFHGRPDLQ´
ViӋc xây dӵng mҥQJ&\FOH*$1 FѫEҧn vүn là mҥQJ*$1ÿmWUuQKEj\ ӣ FKѭѫQJ1KѭQJFyPӝt sӕ ÿLӇm cҧi thiӋn ÿѭӧc mô tҧ QKѭVDX
Hình 7.2: Ki͇n trúc m̩ng CycleGAN
48 Thay vì chӍ sӱ dөng mӝt mҥng G và mӝt mҥng D Y QKѭkiӃn trúc GAN, CycleGAN tҥo ra kiӃn trúc 2 cһp G-F và 2 mҥng D Y , D X 7URQJÿy
9