Luận văn thạc sĩ Khoa học máy tính: Phát hiện bất thường trong video giám sát sử dụng kỹ thuật học sâu

Tuy nhiên, các yӃu tӕ bҩWWKѭӡng diӉn ra rҩt nhanh, ӣ nhiӅu ngӳ cҧnh và thӡi gian kháFQKDXĈLӅu này làm cho viӋc thu thұp dӳ liӋu và gán nhãn trӣ QrQNKyNKăQ Trong phҥPYLÿӅ tài: "Phát hiӋn

Ĉһt vҩQÿӅ

HiӋQQD\FDPHUDJLiPViWÿm[Xҩt hiӋn ӣ khҳp mӑLQѫLQyJL~StWUҩt nhiӅu trong cuӝc sӕQJFRQQJѭӡL7X\QKLrQFiFFDPHUDQj\WKѭӡQJÿѭӧc sӱ dөng thӫ F{QJÿzLKӓi phҧLFyQJѭӡLTXDQViWÿӇ phỏt hiӋn tai nҥn, chỏy nә, trӝPFѭӟSô

'RÿyQKXFҫXÿһt ra cҫn phҧi có mӝt hӋ thӕng camera giám sát mӝt cách tӵ ÿӝng

Có thӇ phát hiӋn bҩWWKѭӡng xҧy ra và cҧQKEiRÿӃn nhӳQJQJѭӡLFyOLrQTXDQÿӇ kӏp thӡi cӭu trӧ, khҳc phөc sӵ cӕ.

Ĉӝng lӵc nghiên cӭu

HiӋn nay, vӟi sӵ phát triӇn cӫD&177ÿһc biӋt là sӵ phát triӇn mҥnh mӁ cӫDOƭQK vӵc cӫa trí tuӋ nhân tҥo (AI) và hӑc máy (Machine learning) trong nhӳQJQăPJҫQÿk\ Máy tính giӡ ÿk\FyWKӇ ÿҧm nhұn nhӳng công viӋFPjWUѭӟFÿk\FKӍ FyFRQQJѭӡi mӟi có thӇ làm ÿѭӧc Ví dө QKѭ;HWӵ lái là mӝt trong nhӳng thành tӵu nӛi bұc nhҩt Nó sӱ dөng công nghӋ ³1Kұn dҥQJFiFÿӕLWѭӧQJWURQJYLGHR´ÿӇ có thӇ tӵ lái, mà không cҫn sӵ can thiӋt cӫDFRQQJѭӡi Bҵng kӻ thuұt hӑc sâu (deep learning), viӋc tҥo ra nhӳng camera giám sát thông minh có thӇ ÿѭӧc sӱ dөQJÿӇ giám sát các tòa nhà, tӵ ÿӝng phát hiӋn bҩWWKѭӡng: khói, lӱa, trӝm cҩp, giúp ích rҩt nhiӅXFKRFRQQJѭӡi, giҧm thiӇu thiӋt hҥi vӅ QJѭӡi và tài sҧn là viӋc làm hoàn toàn khҧ thi

Phát hiӋn bҩWWKѭӡng qua video rҩt dӉ dàng phát hiӋn bҵng mҳt cӫDFRQQJѭӡi Tuy QKLrQÿӇ OjPFKRPi\WtQKÿӫ WK{QJPLQKÿӇ nhұn ra các sӵ kiӋn bҩWWKѭӡng trong video QKѭFRQQJѭӡi là nhiӋm vө mang nhiӅXNKyNKăQ1yÿzLKӓi nhiӅu yӃu tӕ: x Cҫn "dҥy" cho máy tính biӃWÿѭӧc khi nào có bҩWWKѭӡng, khi nào không có bҩWWKѭӡng xҧ\UDĈLӅXQj\ÿzLKӓi phҧLP{KuQKKyDÿѭӧc các sӵ kiӋn bình WKѭӡng/bҩWWKѭӡng

2 x ĈӇ OjPÿѭӧc viӋc này, ta cҫn phҧi có nguӗn dӳ liӋXÿӫ lӟQÿmÿѭӧc gán nhãn bӣLFRQQJѭӡi, chӍ UDÿkXOjEҩWWKѭӡngÿkXOjNK{QJFyEҩWWKѭӡng Tuy nhiên, trong thӵc tӃ các sӵ kiӋn bҩWWKѭӡng không theo mӝt ngӳ cҧnh, thӡi JLDQ[iFÿӏnh và diӉQUDWKѭDWKӟWNK{QJWKѭӡQJ[X\rQ'RÿyUҩWNKyÿӇ có thӇ [k\ÿѭӧc mӝt bӝ dӳ liӋXÿӫ lӟn và chuҭQÿӇ PDQJÿLGҥy" cho máy tính x 7KrPYjRÿyKӋ thӕng này phҧLÿҧm bҧRWtQKWRiQÿӫ nhanh, phҧn hӗi trong thӡi gian thӵFÿӇ phát hiӋn kӏp thӡi khi có bҩWWKѭӡng xҧy ra Nó mӟi thӵc sӵ hӳXtFKNKLÿѭDYjRVӱ dөng ĈӇ Yѭӧt qua nhӳQJNKyNKăQWUrQQKLӅu nghiên cӭXÿѭӧFÿѭDUDQKҵPÿӇ mô hình hóa các sӵ kiӋn bҩWWKѭӡng bҵng cách huҩn luyӋn các mô hình trên các tұp dӳ liӋu NK{QJÿzLKӓi viӋc gán nhãn hoһc gán nhãn rҩt ít cho tӯng tình huӕng bҩWWKѭӡng xҧy ra WURQJYLGHR&iFSKѭѫQJSKiSQj\WKѭӡng sӁ qui bài toán phát hiӋn bҩWWKѭӡng trong video thành bài toán phân loҥi nhӏ SKkQWURQJÿyFiFVӵ kiӋQEuQKWKѭӡQJÿѭӧc gán nhãn là 0 và cá sӵ kiӋn bҩWWKѭӡQJÿѭӧc gán nhãn là 1.

Phҥm vi và mөc tiêu nghiên cӭu

Phҥm vi nghiên cӭu cӫDÿӅ tài là tұp trung nghiên cӭu vào phát hiӋn bҩWWKѭӡng trong video giám sát

Mөc tiêu nghiên cӭu cӫDÿӅ tài là tìm hiӇu, khҧRViWÿiQKJLiFiFP{KuQKKӑc sâu (deep learning) trong viӋc nhұn dҥng các bҩWWKѭӡng qua video MөFWLrXKѭӟQJÿӃn là thiӃt kӃ hӋ thӕQJÿҫu-cuӕi có thӇ phát hiӋn và cҧnh báo bҩWWKѭӡng trong thӡi gian thӵc

7UrQFѫVӣ nghiên cӭu tính thiӃt thӵc cӫDÿӅ WjLSKѭѫQJSKiSQJKLrQFӭXÿѭӧc thӵc hiӋQQKѭVDX x KӃt hӧp nghiên cӭu lý thuyӃt vӟi khҧRViWSKkQWtFKYjÿiQKJLiWK{QJTXDWKӵc nghiӋm x 6RViQKSKkQWtFKYjÿiQK giá lҥi các kӃt quҧ nghiên cӭu trong nhӳng công trình có liên quan cӫa các tác giҧ NKiFÿmF{QJEӕ7UrQFѫVӣ ÿyÿѭDUDQKӳQJSKѭѫQJ pháp, kӻ thuұt mӟLYjÿӅ xuҩt cҧi tiӃn x 7UDRÿәi, thҧo luұn và báo cáo tҥi các buәi hӑp vӟi thҫ\Kѭӟng dүn.

Bӕ cөc cӫa báo cáo LuұQYăQ

%jLEiRFiRÿѭӧc tә chӭFWKjQKFKѭѫQJYӟi các nӝi dung cө thӇ QKѭVDX

&KѭѫQJ*Lӟi thiӋXÿӅ tài - 7UuQKEj\VѫOѭӧc vӅ ÿӅ tài, mөc tiêu và phҥm vi nghiên cӭu cӫDÿӅ tài

&KѭѫQJ&ѫVӣ lý thuyӃt - Trình bày mӝt sӕ kiӃQOLrQTXDQÿӃn các kӻ thuұt hӑc máy, hӑFVkXFyOLrQTXDQÿӃn các nghiên cӭXÿѭӧFÿӅ cұSÿӃQWURQJÿӅ tài này

&KѭѫQJ&{QJWUuQKQJKLrQFӭu liên quan - 6ѫOѭӧc qua các công trình nghiên cӭXOLrQTXDQÿӃQÿӅ tài trong nhӳQJQăPJҫQÿk\Wӯ ÿyÿӅ xuҩWUDKѭӟng nghiên cӭu sӁ thӵc hiӋQÿӅ tài luұQYăQ

&KѭѫQJ0{KuQKÿӅ xuҩt - Trình bày mô hình sӁ ÿѭӧFGQJÿӇ giҧi quyӃt bài toán phát hiӋn bҩWWKѭӡng trong video

&KѭѫQJ 7Kӱ nghiӋm và kӃt quҧ - Trình bày các tұp dӳ liӋu sӁ ÿѭӧc thӵc nghiӋPFiFKFjLÿһt và huҩn luyӋn mô hình Tӯ ÿyÿѭDNӃt quҧ trong thӵc nghiӋm

&KѭѫQJ.Ӄt luұn - ĈѭDUDNӃt luұn vӅ P{KuQKÿӅ xuҩWÿiQKJLiѭXYjQKѭӧc ÿLӇm cӫDQyÿӗng thӡLÿӅ UDKѭӟng nghiên cӭXWURQJWѭѫQJODL

Bӝ lӑc Conv2D và Conv3D

Bӝ lӑF&RQY'WKѭӡQJÿѭӧc sӱ dөng trong xӱ lý ҧQKÿӇ trích xuҩWFiFÿһFWUѭQJ bӝ lӑc sӁ di chuyӇn theo hai chiӅu ngang và dӑc Sau khi quét qua toàn bӝ ҧQKFiFÿһc WUѭQJYӅ NK{QJJLDQQKѭFiFFҥnh, sӵ phân bӕ màu sҳFÿѭӧc phát hiӋQĈLӅu này làm cho các mô hình sӱ dөng Conv2D rҩt mҥnh mӁ trong phân loҥi ҧnh hay dӳ liӋu WѭѫQJWӵ có thuӝc tính là không gian

7X\QKLrQÿӕi vӟi các bài toán vӅ nhұn dҥQJWURQJYLGHRFiFÿһFWUѭQJOLrQTXDQ ÿӃn thӡLJLDQÿyQJYDLWUzUҩt quan trӑQJ'RÿyEӝ lӑF&RQY'ÿѭӧc sӱ dөQJÿӇ trích xuҩWFiFÿһFWUѭQJ1JRjLGLFKX\Ӈn theo chiӅu ngang và dӑc, bӝ lӑc còn di chuyӇn theo chiӅu sâu (theo trөc thӡLJLDQÿӕi vӟi dӳ liӋXOjYLGHRĈLӅXQj\FyQJKƭDOjFiFÿһc WUѭQJOLrQTXDQÿӃn thӡi gian sau khi qua bӝ lӑc vүQÿѭӧc giӳ lҥLĈk\FKtQKOjѭX ÿLӇm cӫa Conv3D so vӟL&RQY'NKLPjÿһFWUѭQJYӅ thӡLJLDQNK{QJÿѭӧc giӳ lҥi sau khi qua bӝ lӑc Conv2D Tuy nhiên, do mӣ rӝng vӅ sӕ chiӅXQrQ&RQY'FǊQJFҫn nhiӅu tham sӕWtQKWRiQKѫQNKLVRYӟi Conv2D

Cách hoҥWÿӝng cӫabӝ lӑc Conv2D và bӝ lӑc CoQY'QKѭHình 2-1:

Hình 2-1: So sánh b͡ l͕c Conv2D và b͡ l͕c Conv3D

Mҥng Autoencoder

MҥQJ$XWRHQFRGHUÿѭӧc mô tҧ ӣ Hình 2-2 sӁ bao gӗPJLDLÿRҥn chính là JLDLÿRҥn PmKyDYjJLDLÿRҥn giҧi mã Tӯ dӳ liӋXÿҫXYjRJLDLÿRҥn mã hóa sӁ trích xuҩWFiFÿһc WUѭQJKӳXtFK6DXÿyFiFFiFÿһFWUѭQJQj\VӁ ÿѭӧc giҧi mã, vӟi hàm mөc tiêu là xây dӵng lҥi dӳ liӋXEDQÿҫu sao cho sai sót là nhӓ nhҩt Mөc tiêu cӫa quá trình mã hóa - giҧi PmQj\OjÿӇ mô hình hóa lҥi dӳ liӋu mà mô hình nhìn thҩ\7URQJWUѭӡng hӧp, dӳ liӋu ÿҫXYjRQyFKѭDKuQKWKҩy hoһc khác nhiӅu so vӟi dӳ liӋu mà nó hӑFÿѭӧc, thì dӳ liӋu sinh ra sӁ sai sót lӟn so vӟi dӳ liӋu thұW0{KuQKÿӅ xuҩt sӁ sӱ dөng sӵ VDLNKiFQj\ÿӇ ÿiQKJLiFyEҩWWKѭӡng hay không

Mҥng LSTM và ConvLSTM

Mҥng LSTM là mӝt biӃn thӇ RNN Nó khҳc phөFQKѭӧFÿLӇm suy biӃn gradient trong quá trình lan truyӅn QJѭӧc cӫa RNN bҵng cách sӱ dөng mӝt cәng lһp lҥi gӑi là cәQJTXrQ'Rÿy/670FyWKӇ xӃp chӗng, thành 1 chuӛi dài liên tiӃSQKDXÿӇ trích xuҩt FiFÿһFWUѭQJӣ mӭFFDRKѫQPjNK{QJEӏ suy biӃn gradient LSTM rҩt phù hӧp cho các dӳ liӋXOLrQTXDQÿӃn chuӛi thӡLJLDQÿҫu vào cӫDQyWKѭӡQJÿzLKӓi dӳ liӋXÿѭӧc vector KyDWUѭӟFNKLÿѭDYjRP{KuQKÿӇ hӑc các trҥng thái ҭQ'Rÿyÿӕi vӟLFiFEjLWRiQÿҫu vào là ҧnh hoһc video, phҧi thӵc hiӋn tiӅn xӱ OêÿӇ vector hóa các dӳ liӋXQj\WUѭӟc khi ÿѭDYjRP{KuQKĈiӅu này dүQÿӃn khó xây dӵQJP{KuQKÿҫu-cuӕi nӃu chӍ dùng LSTM ĈӇ khҳc phөFÿѭӧFQKѭӧFÿLӇm này, nhiӅu nghiên cӭXÿӅ xuҩt sӱ dөng trӵc tiӃp Conv2D ÿӇ thay thӃ cho các cәng trong LSTM Mҥng này gӑi là ConvLSTM, nó có khҧ QăQJ trích xuҩWFiFÿһFWUѭQJOLrQ TXDQÿӃn không gian trong ҧQKYjFiFÿһFWUѭQJYӅ thӡi gian nhӡ YjRÿһc tính cӫa LSTM

Hình 2-3 là kiӃn trúc cӫa mҥng LSTM NӃu thay các cәng bҵng Conv2D ta sӁ ÿѭӧc mҥng ConvLSTM có thӇ hӑc trӵc tiӃSFiFÿһFWUѭQJWӯ video

Mҥng U-Net

Ĉѭӧc phát triӇQÿӇ phөc vө FKREjLWRiQSKkQÿRҥQÿӕi vӟi hình ҧnh trong y tӃ Hình 2-4 mô tҧ kiӃn trúc cӫa mҥng U-Net, bao gӗm 1 nhánh mҥng là mã hóa và 1 nhánh mҥng là giҧi mã và các nӕi tҳt: x Nhánh mҥng mã hóa: có nhiӅu tҫng, mөFÿtFKOjÿӇ trích xuҩWÿһFWUѭQJӣ nhiӅu mӭc khác nhau Sau mӛi tҫQJNtFKWKѭӟc ҧnh giҧPÿLQӳa và sӕ ÿһc WUѭQJÿѭӧFWăQJOrQJҩSÿ{L x Nhánh mҥng giҧLPmFǊQJcó nhiӅu tҫng MөFÿtFKOjӣ mӛi tҫng, sӁ mang FiFÿһFWUѭQJKӑFÿѭӧc bӣi nhánh mҥng mã hóa, ӣ ÿӝ phân giҧi thҩp lên NK{QJJLDQÿLӇm ҧnh ӣ ÿӝ phân giҧLFDRKѫQ

Nhӡ vào các nӕi tҳWPDQJFiFÿһFWUѭQJWUӵc tiӃp tӯ nhánh mҥng mã hóa sang nhánh mҥng giҧi mã ӣ cùng mӭc, nên khҧ QăQJ[k\Gӵng lҥLFiFÿһFWUѭQJPjQKiQK mҥQJPmKyDÿmKӑFÿѭӧc sӁ tӕWKѫQNKLYӟi mô hình Autoencoder

&KѭѫQJ : Công trình nghiên cӭu liên quan

Có nhiӅXSKѭѫQJSKiSÿӇ phát hiӋn bҩWWKѭӡng trong video Chҷng hҥQFiFSKѭѫQJ pháp phát hiӋn bҩWWKѭӡng dӵa trên phân tích quӻ ÿҥo chuyӇQÿӝng cӫDFiFÿӕLÿѭӧc TXDQViW>@ÿӅ xuҩWSKѭѫQJSKiSKӑc các mүu chuyӇQÿӝng cӫa nhiӅXÿӕLWѭӧng; [30] ÿӅ xuҩt mô hình thӕQJNrÿӇ phát hiӋn bҩWWKѭӡng bҵng các giҧi thuұt theo vӃt Tuy nhiên, FiFSKѭѫQJSKiSGӵa trên quӻ ÿҥo chuyӇQÿӝng này không mҥnh trong các ngӳ cҧnh ÿ{QJÿ~FFyQKLӅXQJѭӡi và xe cӝ qua lҥi Nguyên nhân là do các giҧi thuұt theo vӃt dӉ bӏ nhiӉXWKѭӡQJNK{QJÿҥt hiӋu suҩt cao trong các ngӳ cҧnh phӭc tҥp

&iFQKѭӧFÿLӇm này có thӇ ÿѭӧc khҳc phөc bҵQJFiFSKѭѫQJSKiSSKiWKLӋn bҩt WKѭӡng dӵDWUrQFiFÿһFWUѭQJEҩt biӃQÿѭӧc trích xuҩt bҵng các giҧi thuұt truyӅn thӕng

>@ÿӅ xuҩt sӱ dөng H2*Yj+26ÿӇ tҥo ra bӝ mô tҧ FiFÿһFWUѭQJPjtWFKӏu ҧQKKѭӣng bӣi ngӳ cҧQK7X\QKLrQFiFSKѭѫQJSKiSQj\ÿzLKӓi phҧi có kiӃn thӭc nӅn tҧQJÿӇ thiӃt kӃ UDFiFÿһFWUѭQJWKtFKKӧp cho các sӵ kiӋn khác nhau có trong ngӳ cҧnh

Trong nhӳQJQăPJҫQÿk\NƭWKXұt hӑc sâu phát triӇn mҥnh mӁ, tӓ ra hiӋu quҧ KѫQ so vӟLSKѭѫQJSKiSWUX\Ӆn thӕng trong trích xuҩWFiFÿһFWUѭQJWӯ ÿyWKӵc hiӋn giҧi các bài toán phân loҥi dӵDWUrQFiFÿһFWUѭQJÿѭӧc rút trích này

NhiӅXP{KuQKÿѭӧFÿӅ xuҩt cho bài toán phát hiӋn bҩWWKѭӡng trong video bҵng SKѭѫQJSKiSQj\QKѭSKѭѫQJSKiSVӱ dөng 2 mҥng riêng biӋWÿӇ nhұn dҥQJKjQKÿӝng trong video ÿѭӧFÿӅ xuҩt bӣi 2 tác giҧ Simmoyan and Zisserman [June 2014] Dӵa trên nhӳng nghiên cӭu cӫa Karpathy, xây dӵng mҥng vӟi kiӃn trúc hӑc sâu (deep DUFKLWHFWXUHVÿӇ hӑFFiFÿһFWUѭQJOLrQTXDQÿӃn cӱ ÿӝng (motion features) KiӃn trúc này sӁ bao gӗm 2 mҥng riêng biӋW VDX ÿy Wәng hӧp chúng lҥi giӕng kiӃn trúc "Late Fusion":

9 x Nhánh mҥQJÿӇ trích xuҩWÿһFWUѭQJOLrQTXDQÿӃQNK{QJJLDQĈҫu vào cӫa mҥng này là tӯng khung ҧQKÿӝc lұp trong video Nó hiӋu quҧ trong viӋc nhұn dҥQJFiFKjQKÿӝng trong ҧQKWƭQKEӣi vì nhӳQJÿһFWUѭQJWUrQҧQKWƭQKFy liên kӃt rҩt mҥQKÿӃQKjQKÿӝng cө thӇ Thӵc chҩt mҥng này chính là mӝt kiӃn trúc phân loҥi ҧnh dӵa trên mҥQJ'FRQYROXWLRQÿmÿѭӧc nghiên cӭu WUѭӟFÿy9uYұy, có thӇ sӱ dөng kӃt quҧ cӫa các mҥQJQj\ÿӇ tiӅn huҩn luyӋn cho nó x Nhánh mҥQJÿӇ trích xuҩWÿһFWUѭQJOLrQTXDQÿӃn thӡLJLDQĈҫu vào là dòng quang (optical flow) - thӇ hiӋn chuyӇQÿӝQJKѭӟng cӫa tӯQJÿLӇm ҧnh trên khung ҧnh, giúp cho viӋF[iFÿӏnh chuyӇQÿӝng cӫa vұt thӇ qua các khung hình liên tiӃp nhau Bҵng cách sӱ dөng dòng quang (optical flow), dӳ liӋu ÿҫXYjRÿmP{Wҧ ÿѭӧc chuyӇQÿӝng qua các khung hình, giúp cho viӋc trích xuҩt các chuyӇQÿӝng dӉ GjQJKѫQ7X\QKLrQWұp dӳ liӋXÿӇ huҩn luyӋn cho mҥng này là ít, khi so sánh vӟi tұp dӳ liӋu ҧQKWƭQKNKәng lӗ ÿӇ huҩn luyӋn cho mҥng trích xuҩWÿһFWUѭQJNK{QJJLDQ

Mҥng I3D dӵa trên mô hình 2D ConvNet, các filter và pooling kernel cӫa 2D ConvNet sӁ ÿѭӧc mӣ rӝng tӯ 2D vào 3D Làm cho nó có thӇ hӑFÿѭӧFFiFÿһFWUѭQJ không - thӡi gian tӯ YLGHRQKѭQJYүn tұn dөQJÿѭӧc nhӳng thành công tӯ thiӃt kӃ, kiӃn trúc cӫa ImageNet và cҧ nhӳng tham sӕ cӫa chúng Vӟi cách thiӃt kӃ này, 3D ConvNets có thӇ tұn dөng nhӳng lӧi ích tӯ thiӃt kӃ và các tham sӕ cӫa mô hình ImageNet 2D

&RQY1HWĈҫu vào cӫa 2 nhánh mҥQJQj\WѭѫQJӭng là RGB và dòng quang (optical flow) Vӟi 3D ConvNets có thӇ trӵc tiӃp hӑFÿѭӧFFiFÿһFWUѭQJWKӡi gian tӯ luӗng RGB và hiӋu suҩt vүn có thӇ ÿѭӧc cҧi tiӃn bҵng cách sӱ dөQJGzQJTXDQRSWLFDOIORZĈӇ chuyӇQÿәi 2D ConvNets thành 3D ConvNets, tҩt cҧ filter và pooling kernel cӫa mҥng '&RQY1HWVÿѭӧc mӣ rӝng thêm chiӅu thӡLJLDQ.HUQHO'1[1ÿѭӧc chuyӇQÿәi thành 3D (N x N x N) Bên cҥnh sӵ WKD\ÿәi kiӃn trúc cӫa kernel, các tham sӕ tӯ quá

10 trình tiӅn huҩn luyӋn cӫD,PDJH1HWFǊQJÿѭӧc sӱ dөng lҥLĈLӅXQj\ÿѭӧc thӵc hiӋn bҵng cách chuyӇQÿәi mӝt bӭc ҧnh thành mӝt video có các khung hình giӕng nhau

&iFSKѭѫQJSKiSQj\ÿzLKӓi dӳ liӋu phҧLÿѭӧFJiQQKmQ7X\QKLrQÿӕi vӟi bài toán nhұn dҥng bҩWWKѭӡng trong video viӋc gán nhãn, chӍ ÿӏnh các sӵ kiӋn bҩWWKѭӡng ÿzLKӓi rҩt nhiӅu chi phí và công sӭc vì ngӳ cҧnh diӉn ra rҩWQKDQKYjÿDGҥQJ'Rÿy nhiӅu nghiên cӭXÿӅ xuҩt sӱ dөng các mô hình mà sӁ ÿѭӧc huҩn luyӋn chӍ bҵng các video không có sӵ kiӋn bҩWWKѭӡQJNK{QJWѭӡQJPLQKJiQQKmQQKѭP{KuQK$XWR(QFRGHU [27] sӁ hӑFFiFÿһFWUѭQJEuQKWKѭӡng trong chuӛLYLGHRVDXÿyVӁ tái tҥo lҥi các chuyӇn ÿӝng vӟLÿӝ sai sót thҩSQKѭQJNK{QJWKӇ tái tҥRFKtQK[iFFiFKjQKÿӝng trong các video có sӵ kiӋn bҩWWKѭӡQJ1yLFiFK $XWR(QFRGHUÿmP{KuQKKyDQKӳQJWKD\ÿәi chuyӇQÿӝng trên toàn bӝ video

7X\QKLrQSKѭѫQJSKiSQj\ÿzLKӓLFiFÿһFWUѭQJWӯ video sӁ ÿѭӧc trích xuҩWWUѭӟc bҵQJSKѭѫQJSKiS+2*Yj+2)WUѭӟc khi huҩn luyӋQFKRP{KuQK'RÿyQyNK{QJ phҧLOjP{KuQKÿҫu-cuӕLÿҫu vào là chuӛLYLGHRÿҫu ra là mô hình hóa chuyӇQÿӝng có WURQJYLGHR+ѫQQӳDP{KuQKQj\NK{QJWѭӡng minh hӑFFiFÿһFWUѭQJWѭѫQJTXDQ giӳa các khung hình theo trөc thӡi gian NhӳQJÿһFWUѭQJQj\ÿyQJYDLWUzUҩt quan trӑng trong các bài toán phân loҥi, nhұn dҥQJKjQKÿӝng trong video [12]

Có nhiӅXP{KuQKÿѭӧFÿӅ xuҩWÿӇ hӑFFiFÿһFWUѭQJOLrQTXDQÿӃn thӡi gian có trong video7URQJ>@ÿӅ xuҩt sӱ dөng Conv3D thay cho Conv2D, vӟi bӝ lӑFÿѭӧc mӣ rӝng theo trөc thӡLJLDQQrQ&RQY'ÿҥt hiӋu quҧ cao trong trích xuҩWFiFÿһFWUѭQJWUӵc tiӃp tӯ video Tuy nhiên, do mӣ rӝng sӕ chiӅu theo trөc thӡLJLDQQrQQyFǊQJÿzLKӓi sӕ Oѭӧng tham sӕ cӫDK{KuQKYjFKLSKtWtQKWRiQFǊQJFDRKѫQQKLӅu khi so vӟi Conv2D 7URQJ>@>@>@ÿӅ xuҩt sӱ dөng ConvLSTM, mӝt dҥng mӣ rӝng cӫa LSTM vӟi các cәQJÿѭӧc thay thӃ bҵQJ&RQY'ÿӇ hӑFWѭѫQJTXDQJLӳa các khung ҧQK/670ÿѭӧc chӭng minh là rҩt hiӋu quҧ trong các bài toán phân loҥi, dӵ ÿRiQYj[ӱ lý dӳ liӋu dҥng chuӛi, kӃt hӧp vӟL &RQY' ÿӇ WUtFK ÿһF WUѭQJ Wӯ các khung ҧnh riêng lӁ, mô hình [2][10][28] là nhӳQJ P{ KuQK ÿҫu-cuӕL ÿӇ trӵc tiӃp hӑF FiF ÿһF WUѭQJ OLrQ TXDQ ÿӃn

11 không gian, thӡi gian và mô hình hóa nhӳQJWKD\ÿәi ӣ ÿkXUDNKLWKӵc hiӋn tái tҥo lҥi các sӵ kiӋn có trong video

Nghiên cӭu gҫn vӟLP{KuQKÿѭӧFÿӅ xuҩt trong báo cáo này là [1][2] Cҧ hai mô hình này lҫQOѭӧt sӱ dөng U-1HWYj&RQY/670QKѭOjEӝ sinh ҧQKYjÿѭӧc huҩn luyӋn bҵng mô hình GAN, mөFWLrXOjÿӇ sinh ra ҧnh càng giӕng thұt nhҩt Vì [1] sӱ dөng U-Net là module chính trong bӝ sinh ҧnh, nên ҧQKÿѭӧc tái tҥo sӁ cҩu trúc rҩt tӕWÿLӅXQj\ÿmÿѭӧc chӭQJPLQKWURQJ>@ÿmVӱ dөng U-Net vӟLÿLӅu kiӋQÿҫXYjRÿӇ chuyӇQÿәi ҧnh tӯ ngӳ cҧnh này sang ngӳ cҧQKNKiF7X\QKLrQP{KuQK>@NK{QJWѭӡng minh mô hình hóa WѭѫQJTXDQJLӳDFiFNKXQJKuQKWURQJYLGHRQKѭP{KuQK>@7URQJNKLÿy>@Vӱ dөng ConvLSTM nên các khung hình liên tiӃSQKDXÿѭӧFÿѭDWUӵc tiӃp vào mô hình nên có khҧ QăQJKӑFFiFÿһFWUѭQJWUrQNKXQJKuQKULrQJELӋt nhӡ vào các cәng là Conv2D, ÿӗng thӡi hӑFÿѭӧFWѭѫQJTXDQQKӡ vào kiӃQWU~F/6707KrPYjRÿyÿyQJJySTXDQ trӑng cӫa [2] là sӱ dөng Conv3D cho bӝ phân loҥi thұt giҧ trong kiӃn trúc mҥng GAN Vӟi Conv3D sӁ cho phép bӝ phân loҥi ҧnh trích xuҩWFiFÿһFWUѭQJWUrQFKXӛi khung hình tӕWKѫQWӯ ÿyFKRNӃt quҧ phân loҥi ҧnh thұt giҧ tӕWKѫQ7X\QKLrQYu>@Vӱ dөng mҥng U-Net vӟi các kӃt nӕi tҳt (Skip connection) giӳ cho thông tin không bӏ mҩt bҵng cách kӃt nӕi tӯ OD\HUWUѭӟc tӟi layer phía sau và bӓ qua mӝt vài layer trung gian nên khҧ QăQJ tái tҥo lҥi ҧnh trên [1] sӁ tӕWKѫQVRYӟL>@'RÿyWURQJSKҥm vi nghiên cӭu cӫa bài báo cáo này sӁ sӱ dөng mҥng U-1HWWURQJ>@ÿӇ làm bӝ sinh ҧnh và sӱ dөng Conv3D trong [2] làm bӝ phân loҥi ҧnh

KiӃn trúc tәng quan

Hình 4-1 mô tҧ kiӃn trúc tәng quát cӫDP{KuQKÿӅ xuҩt Bao gӗm 3 khӕi chính: x Khӕi sinh ҧnh: Tӯ nhӳng khung ҧnh liên tiӃp ܺ ଵ ǡ ܺ ଶ ǡ ܺ ଷ ǡ ǥ ǡ ܺ ௧ିଵ , sinh ra ҧnh ܺԢ ௧ tҥi thӡLÿLӇm t x Khӕi phân loҥi ҧnh: Dùng ÿӇ phân loҥi, chuӛi khung hình nào chӭa ҧnh thұt, chuӛi khung hình chӭa ҧQKÿѭӧc sinh ra trong 2 chuӛi ҧQKÿѭӧFÿѭD vào (ܺ ଵ ǡ ܺ ଶ ǡ ܺ ଷ ǡ ǥ ǡ ܺ ௧ିଵ ǡ ܺ ௧ ሻ và (ܺ ଵ ǡ ܺ ଶ ǡ ܺ ଷ ǡ ǥ ǡ ܺ ௧ିଵ ǡ ܺԢ ௧ ሻ x Khӕi ra quyӃWÿӏnh: Dӵa vào sai khác giӳa khung ҧnh thұt ܺ ௧ và khung ҧQKÿѭӧc sinh ra ܺԢ ௧ PjÿѭDUDTX\ӃWÿӏnh có bҩWWKѭӡng trong video hay không

Hình 4-1: Ki͇n trúc t͝ng quan cͯDP{KuQKÿ͉ xṷt

KhҺi phân loҢi ңnh Input:

Trong quá trình huҩn luyӋn, Khӕi phân loҥi có nhiӋm vө OjÿӇ giúp cho khӕi sinh ҧnh tҥo ra ҧnh giӕng ҧnh thұW9uP{KuQKÿӅ xuҩt sӱ dөng kiӃn trúc mҥQJ*$1ÿӇ huҩn luyӋQ7URQJÿy.Kӕi sinh ҧQKÿóng vai trò là nhánh mҥng G và Khӕi sinh phân loҥi ҧQKÿyQJYDLWUzOjPҥng D Hai mҥng này có mөFWLrXÿӕi nghӏch nhau, mҥng G sӁ cӕ gҳng sinh ra ҧQKÿӇ mҥng D xem ҧQKÿyQKѭOjWKұt Mҥng sӁ cӕ gҳng phân loҥLÿӇ xác ÿӏnh xem ҧnh nào là thұt, ҧnh nào do mҥng G sinh ra Trong quá trình huҩn luyӋn, hiӋu QăQJFӫa hai nhánh mҥQJQj\ÿѭӧc cҧi thiӋn dҫn dҫn, mӝt trong hai nhánh mҥQJWăQJ hiӋXQăQJVӁ làm cho nhánh mҥng còn lҥLFǊQJWăQJWKHR

7URQJP{KuQKÿӅ xuҩt, sӱ dөng 3D Convolution thay thӃ cho 2D Convolution trong Khӕi phân loҥi ҧnh, mong muӕn là sӁ cҧi thiӋQÿѭӧc hiӋu nâng cӫa nhánh mҥng này, tӯ ÿyFҧi thiӋn hiӋu nâng cho Khӕi sinh ҧnh Khӕi phân loҥi ҧnh sӁ phân biӋt thұt/giҧ không chӍ trên tӯng ҧnh riêng biӋt mà sӁ phân biӋt trên chuӛi ҧnh liên tiӃp Vì các ҧnh WURQJYLGHRQJRjLFiFÿһFWUѭQJWUrQFKtQKQyFzQFyQKӳQJÿһFWUѭQJWѭѫQJTXDQYӟi các ҧQK[XQJTXDQKQy'RÿyYLӋc dùng 3D Convolution sӁ giúp viӋc trích xuҩWÿѭӧc nhiӅXÿһFWUѭQJYjWѭѫQJTXDQJLӳa các khung hình Mong muӕQÿLӅu này sӁ làm cho viӋc phân loҥi trên mӝt chuӛi ҧnh liên tiӃp cho kӃt quҧ tӕt khi phân loҥi trên tӯng ҧnh riêng biӋt

Tuy nhiên, sӱ dөng 3D Convolution sӁ OjPWăQJVӕ Oѭӧng tham sӕ, tӕFÿӝ tính toán cho mô hình sӁ quá trình huҩn luyӋQ1KѭQJWURQJTXiWUuQKNLӇm thӱ ta chӍ sӱ dөng khӕi sinh ҧnh và khӕi ra quyӃWÿӏQKÿӇ ÿiQKJLiFyEҩWWKѭӡng hay không nên sӕ Oѭӧng tham sӕ, tӕFÿӝ tính toán sӁ không bӏ ҧQKKѭӣng

Mô phӓng cách hoҥWÿӝng cӫa mô hình khi kiӇm thӱ ÿѭӧc thӇ QKѭHình 4-2 Tӯ (n ± 1) khung hình liên tiӃSÿѭӧc lҩy ra tӯ YLGHRÿѭӧFÿѭDYjREӝ sinh ҧnh Ҧnh thӭ n ÿѭӧc sinh ra, nó sӁ ÿѭӧFÿѭDYjREӝ quyӃWÿӏQKÿӇ ÿiQKJLiVӵ sai khác so vӟi ҧnh thұt bҵng chӍ sӕ PSNR NӃu PSNR cӫa ҧnh sinh ra nhӓ KѫQQJѭӥQJÿѭӧc chӑQWKuÿѭa ra quyӃWÿӏnh là có bҩWWKѭӡng Cách tính chӑQQJѭӥng và tính hӋ sӕ bҩWWKѭӡQJÿѭӧc mô tҧ tҥi Mөc 4.4 và Mөc 5.3

Hình 4-2: Mô phӓng cách hoҥWÿӝng cӫDP{KuQKÿӅ xuҩt KiӃn trúc chi tiӃt cӫa tӯng khӕLÿѭӧc mô tҧ QKѭErQGѭӟi

Calculate Peak signal-to-noise ratio (PSNR)

KiӃn trúc chi tiӃt

Khӕi sinh ҧnh ± Generator

DӵDWUrQP{KuQKÿѭӧFÿӅ xuҩt trong [1], vӟi mҥng UNet là thành phҫn chính, mөFÿtFKOjÿӇ sinh ra khung ҧnh kӃ tiӃp dӵa trên các khung ҧnh liên tiӃSOjPÿҫu vào 81HWÿѭӧc biӃWQKѭOjP{KuQKUҩt hiӋu quҧ WURQJEjLWRiQSKkQÿRҥn ҧQK>@Yjÿѭӧc sӱ dөng trong bài toán chuyӇQÿәi tӯ ҧnh có ngӳ cҧnh này qua ҧnh có ngӳ cҧnh khác [4]

Bӝ sinh này có kiӃQWU~FWѭѫQJWӵ QKѭ>@Vӱ dөng 5 ҧnh liên tiӃSQKDXWURQJÿy

4 ҧQKÿҫXYjRGQJÿӇ huҩn luyӋn cho mô hình, ҧnh cuӕi là nhãn Mөc tiêu cӫa các bӝ sinh ҧnh là tӯ nhӳng ҧQKÿҫu vào, cӕ gҳng sinh ra ҧnh ӣ khung hình kӃ tiӃp sao cho giӕng nhҩt Mong muӕn là trong quá trình huҩn luyӋn, vӟi các ngӳ cҧnh không có sӵ kiӋn bҩt WKѭӡng, các bӝ sinh ҧnh sӁ hӑc tӕt và sinh ra ҧnh gҫn giӕng ҧnh thұt nhҩt Khi sӱ dөng, nӃu gһp các ngӳ cҧnh có sӵ kiӋn bҩWWKѭӡng, ҧQKÿѭӧc sinh ra bӣi bӝ sinh ҧnh sӁ khác biӋt nhiӅu so vӟi ҧnh thұt DӵDYjRÿLӇm khác biӋWQj\ÿӇ phát hiӋn có sӵ kiӋn bҩWWKѭӡng hay không

Hình 4-3 mô tҧ cách chӑn 5 khung hình liên tiӃp trong 1 video không chӭa sӵ kiӋn bҩWWKѭӡQJÿӇ huҩn luyӋn cho mô hình 5 khung hình liên tiӃSQj\ÿѭӧc lҩy tҥi các thӡLÿLӇm ngүu nhiên trên toàn bӝ video

Hình 4-3: Cách chӑn 5 khung hình liên tiӃSÿӇ huҩn luyӋn mô hình

Khӕi phân loҥi ҧnh ± Discriminator

ҦQKÿѭӧc sinh ra bӣi bӝ sinh, sӁ qua bӝ phân loҥi ҧnh NhiӋm vө cӫa bӝ phân loҥi ҧQKQj\OjÿӇ ÿiQKJLiҧQKÿѭӧFÿѭDYjROjҧnh thұt hay ҧnh giҧ NӃu ҧQKÿѭӧc sinh ra tӕt có thӇ ÿiQKOӯDÿѭӧc bӝ phân loҥi và FRLQKѭQyOjҧnh thұt

Trong quá trình huҩn luyӋn, bӝ sinh ҧnh sӁ hӑc cách sinh ra ҧnh giӕng ҧnh thұWÿӇ ÿiQKOӯa bӝ phân loҥL1Jѭӧc lҥi, bӝ phân loҥi sӁ hӑc cách phát hiӋn ҧnh thұt hay ҧnh ÿѭӧc sinh ra Cách huҩn luyӋn bӝ sinh ҧnh và bӝ phân loҥLWѭѫQJ tӵ QKѭFiFKKXҩn luyӋn GAN[23], mô hình phù hӧp cho các bài toán sinh ra ҧnh giӕng ҧnh thұt nhҩWYjÿӝ hiӋu quҧ cӫDQyÿmÿѭӧc chӭng minh trong nhiӅu bài báo trong nhӳQJQăPJҫQÿk\9tGө, bҵng cách sӱ dөQJP{KuQK*$1FyÿLӅu kiӋn [20], tӯ nhӳng khung ҧnh chӍ chӭa bӕ cөc, mô hình có thӇ sinh ra các thӵc thӇ, giӕng thұt nhҩt [4] ĈӇ WăQJKLӋu quҧ trong viӋc trích xuҩWFiFÿһFWUѭQJ'&RQYROXWLRQÿѭӧc sӱ dөng cho bӝ phân loҥi này Thay vì phân loҥi tӯng ҧnh là ҧnh thұt hay giҧ, bӝ phұn loҥi vӟi 3D Convolution sӁ ÿiQKJLiWUrQFKXӛi các khung ҧnh: chuӛLÿѭӧc coi là thұt gӗm 4 khung ҧnh liên tiӃSOjPÿҫu vào cӫa bӝ sinh ҧnh + khung ҧnh thӭ 5 làm nhãn, chuӛLÿѭӧc coi là giҧ gӗm 4 khung ҧnh liên tiӃSOjPÿҫu vào cӫa bӝ sinh ҧnh + ҧQKÿѭӧc sinh ra bӣi mӝt trong 2 bӝ sinh ҧnh So sánh vӟi 2D Convolution, 3D Convolution tӓ ra hiӋu quҧ KѫQNKLWUtFK[XҩWFiFÿһFWUѭQJWUӵc tiӃp tӯ YLGHR>@YjÿҥWÿѭӧc hiӋu quҧ trong các bài toán nhұn dҥQJKjQKÿӝng cӫDFRQQJѭӡi [24] hay nhұn dҥng bҩWWKѭӡng trong video [18] TX\QKLrQQyFǊQJÿzLKӓi nhiӅu tham sӕ KѫQYjWtQKWRiQFDRKѫQĈLӅu này dүn ÿӃn hҥn chӃ cӫa 3D Convolution khi sӱ dөng thӵc tӃĈӇ khҳc phөFÿѭӧc hҥn chӃ, nhiӅu P{KuQKÿѭDUDêWѭӣng là kӃt hӧp 2D Convolution và 3D Convolution [12][13] nhҵm ÿӇ giҧm tham sӕ YjWtQKWRiQQKѭQJYүQÿҧm bҧRÿӝ hiӋu quҧ cӫa 3D Convolution trong trích xuҩWFiFÿһFWUѭQJWӯ video

KhӕLÿѭDUDTX\ӃWÿӏnh

Dӵa vào sӵ sai khác cӫa ҧnh thұt và ҧQKÿѭӧFVLQKUDÿӇ quyӃWÿӏnh có bҩt

WKѭӡng hay không Sӵ sai khác này sӁ dӵa vào giá trӏ cӫa PSNR mà sӁ mô tҧ chi tiӃt ӣ Mөc 4.4 và Mөc 5.3

B̫ng 4-1 mô tҧ chi tiӃt cách cҩu hình cho tӯng lӟp mҥng cӫa khӕi sinh ҧnh và khӕi phân loҥi ҧnh

B̫ng 4-1: Ki͇n trúc cͯDP{KuQKÿ͉ xṷt

Layer In channels Out channels

Khӕi phân loҥi ҧnh (Conv2D)

Layer In channels Out channels

Hàm mөc tiêu

Trong quá trình huҩn luyӋn, mөFWLrXKѭӟQJÿӃn là làm sao ҧnh sinh ra tӯ 2 bӝ sinh ҧnh phҧi giӕng ҧnh thұt nhҩW&yWLrXFKtÿѭӧc sӱ dөQJÿӇ ÿiQKJLiFKҩWOѭӧng ҧnh ÿѭӧc sinh ra:

Pixel-wise Loss: MөFÿtFKOjÿӇ tính toán loss trên tӯng pixel cӫa ҧnh thұt và ҧnh ÿѭӧFVLQKUDĈLӅu này giúp ích cho viӋFÿiQKJLiÿӝ sai khác giӳa ҧnh thұt và ҧQKÿѭӧc sinh ra ӣ mӭFÿLӇm ҧnh Trong báo cáo này, ta sӁ tӕi thiӇu hóa ݈ ଶ giӳa ҧnh sinh ra ܫመ và ҧnh thӵc tӃ ܮ ௜௡௧ ൫ܫመǡ ܫ൯ ൌ ฮܫመ െ ܫฮ ଶ ଶ (1)

Gradient Loss: *UDGLHQWLPDJHÿѭӧc sӱ dөng rҩt phә biӃn trong các bài toán phát hiӋn cҥnh hoһFÿѭӧc sӱ dөQJFKRFiFEjLWRiQWuPUDÿLӇPWѭѫQJÿӗng vӅ mһt cҩu trúc

>@NKLÿLӅu kiӋn ánh sáng khác sӁ gây ra 2 ҧnh khác nhau mһc dù nó cùng 1 ngӳ cҧnh ĈLӅu này là khó phát hiӋQUDÿѭӧFNKLÿiQJJLiӣ mӭFÿLӇm ҧQK'RÿyLPDJHJUDGLHQW ÿѭӧc sӱ dөQJÿӇ loҥi bӓ ÿLQKӳQJWKD\ÿәi vӅ mһt ánh sáng và tұSWUXQJFiFÿһFWUѭQJ vӅ mһt cҩu trúc MӛLÿLӇm ҧnh có tӑDÿӝ ሺ݅ǡ ݆ሻ trong gradient image sӁ thӇ hiӋn sӵ thay ÿәi vӅ FѭӡQJÿӝ YjKѭӟng tҥi cùng 1 vӏ trí khi so vӟi ҧnh gӕc ܮ ௚ௗ ൫ܫመǡ ܫ൯ ൌ ෍ฮȁܫመ ௜ǡ௝ െ ܫመ ௜ିଵǡ௝ ȁ െ ȁܫ ௜ǡ௝ െ ܫ ௜ିଵǡ௝ ȁฮ ଵ ௜ǡ௝ ൅ ฮȁܫመ ௜ǡ௝ െ ܫመ ௜ǡ௝ିଵ ȁ െ ȁܫ ௜ǡ௝ െ ܫ ௜ǡ௝ିଵ ȁฮ ଵ

Flow Loss7URQJP{KuQKÿѭӧFÿӅ xuҩW)ORZ1HW>@ÿѭӧc sӱ dөQJÿӇ tính toán optical flow cӫa ҧnh thұt và optical flow cӫa ҧQKÿѭӧc sinh ra Ràng buӝc vӅ sai khác giӳa optical flow cӫa ҧnh thұt và optical flow cӫa ҧnh ÿѭӧFVLQKUDJL~Sÿҧm bҧo sӵ ÿ~QJ ÿҳn cӫa chuyӇQÿӝng trong ҧQKÿѭӧc sinh ra Bӣi vì optical flow là trong nhӳng công cө mҥnh mӁÿѭӧc sӱ dөQJÿӇ ѭӟFOѭӧng chuyӇQÿӝQJ>@Ĉһc biӋt, trong các bài toán

20 phát hiӋn bҩWWKѭӡng, chuyӇQÿӝng là yӃu tӕ quan trӑnJÿӇ ÿiQKJLiWURQJYLGHRFyVӵ kiӋQEuQKWKѭӡng hay bҩWWKѭӡng Trong báo cáo này ta dùng ݈ ଵ ÿӇ tӕi thiӇu hóa optical flow ݂ giӳa ҧnh thұt và ҧQKÿѭӧc sinh ra ܮ ௢௣௧ ൫ܫመǡ ܫ൯ ൌ ฮ݂൫ܫመ ௧ାଵ െ ܫ ௧ ൯ െ ݂ሺܫ ௧ାଵ െ ܫ ௧ ሻฮ ଵ (3)

1JRjLUDÿӇ ҧnh sinh ra giӕng ҧnh thұt nhҩW*$1>@ÿѭӧc áp dөQJÿӇ huҩn luyӋn FKRP{KuQKÿѭӧFÿӅ xuҩt GAN sӁ gӗm 2 nhánh mҥQJQKiQK*ÿҫu vào là không gian vector vӟi giá trӏ ÿѭӧc tҥo ra ngүu nhiên và có hoһFNK{QJFyÿLӅu kiӋQÿҫu vào GQJFKR*$1FyÿLӅu kiӋn [20]) sӁ sinh ra ҧnh Mөc tiêu cӫa nhánh mҥng này là cӕ gҳng sinh ra ҧnh giӕng thұt nhҩWÿӇ bӝ phân loҥi không phân biӋWUDÿkXOjҧnh thұWÿkX là ҧQKÿѭӧc sinh ra; Nhánh còn lҥi D sӁ hӑc cách phân loҥi NӃXÿҫu vào là ҧnh thұt thì phân loҥi nó là thұt NӃXÿҫu vào là ҧQKÿѭӧc sinh ra thì phân loҥi nó là giҧ

KӃt hӧp tҩt cҧ các ràng buӝc trên (1), (2), (3), (4) và (5), hàm mөFWLrXÿӇ huҩn luyӋn FKRP{KuQKÿӅ xuҩt là: x Hàm mөFWLrXÿӇ huҩn luyӋn khӕi sinh ҧnh: ܮ ீ ൌ ߣ ௜௡௧ ܮ ௜௡௧ ൫ܫመ ௧ାଵ ǡ ܫ ௧ାଵ ൯ ൅ ߣ ௚ௗ ܮ ௚ௗ ൫ܫመ ௧ାଵ ǡ ܫ ௧ାଵ ൯ ൅ ߣ ௢௣ ܮ ௢௣ ൅ ߣ ௔ௗ௩ ܮ ீ ௔ௗ௩ ሺܫመ ௧ାଵ ሻ

7URQJÿyFiFVLrXWKDPVӕ ɉ ୧୬୲ , ɉ ୥ୢ , ɉ ୭୮ và ɉ ୟୢ୴ sӁ ÿѭӧc giӳ QJX\rQQKѭWURQJ ÿӅ xuҩt [1] x Hàm mөFWLrXÿӇ huҩn luyӋn khӕi phân loҥi ҧnh: ܮ ஽ ൌ ܮ ஽ ௔ௗ௩ ൫ܫመ ௧ାଵ ǡ ܫ ௧ାଵ ൯ (7)

HӋ sӕ bҩWWKѭӡng

Nhánh mҥng hӑF FiF ÿһF WUѭQJ NK{QJ JLDQ WURQJ P{ KuQK ÿӅ xuҩt dӵa trên Autoencoder nên sau khi huҩn luyӋQ[RQJPRQJÿӧi là mô hình có thӇ xây dӵng lҥi các NKXQJKuQKEuQKWKѭӡng vӟi chӍ sӕ lӛi thҩSĈӕi vӟi khung hình có sӵ cӕ bҩWWKѭӡng, NKXQJKuQKÿѭӧc xây dӵng lҥi sӁ có chӍ sӕ lӛi lӟQ7K{QJWKѭӡng, MSE sӁ ÿѭӧc sӱ dөng ÿӇ ÿiQKJLiVDLNhác giӳDNKXQJKuQK7X\QKLrQ3615ÿѭӧFÿiQKJLiWӕWKѫQWURQJ viӋFÿiQKJLiFKҩWOѭӧng hình ҧQK'RÿyWURQJEiRFiRQj\3615ÿѭӧc tính theo công thӭc (8) sӁ ÿѭӧc sӱ dөQJÿӇ ÿiQKJLiFKҩWOѭӧng cӫa mӛi khung ҧnh trong video kiӇm thӱ NӃu khung hình có PSNR càng cao thì khҧ QăQJNK{QJFyVӵ kiӋQEuQKWKѭӡng càng thҩS6DXNKLÿmWtQKWRiQ[RQJ3615WUrQWҩt cҧ khung hình có trong video kiӇm thӱ, các chӍ sӕ PSNR sӁ ÿѭӧc chuҭn hóa trong khoҧng [0, 1] theo công thӭc (9) Tӯ ÿy[iF ÿӏnh chӍ sӕ bҩWWKѭӡng có trong video bҵng công thӭc (10):

HӋ sӕ bҩWWKѭӡQJÿѭӧFWtQKQKѭErQGѭӟi: ܵሺݐሻ ൌ ͳ െ ܵ ௎ே௘௧ ሺݐሻ (10)

&KѭѫQJ : Thӱ nghiӋm và kӃt quҧ

Tұp dӳ liӋu

Các tұp dӳ liӋXÿѭӧc sӱ dөng cho thí nghiӋm bao gӗm: UCSD Ped1 [17], UCSD Ped2 [17], Avenue [32] Nhӳng tұp dӳ liӋXQj\ÿѭӧc chia thành 2 phҫn: tұp huҩn luyӋn chӍ bao gӗm các sӵ kiӋQEuQKWKѭӡng, tұp kiӇm thӱ bao gӗm cҧ sӵ kiӋQEuQKWKѭӡng và sӵ kiӋn bҩt WKѭӡng

Hình 5-1, Hình 5-2, Hình 5-3 thӇ hiӋn mӝt sӕ NKXQJKuQKÿѭӧc lҩy ngүu nhiên trong tұp huҩn luyӋn và tұp kiӇm thӱ trong tұp dӳ liӋu UCSD Ped1, UCSD Ped2, Avenue Các chӫ thӇ ÿѭӧFÿiQKJLҩXPjXÿӓ là các sӵ kiӋn bҩWWKѭӡng

Hình 5-1: M͡t s͙ khung hình trong t̵p dͷ li u UCSD Ped1 (Hàng trên không có s͹ b̭WWK˱ͥQJ+jQJG˱ͣi có s͹ ki n b̭WWK˱ͥng)

Hình 5-2: M͡t s͙ khung hình trong t̵p dͷ li u UCSD Ped2 (Hàng trên không có s͹ b̭WWK˱ͥQJ+jQJG˱ͣi có s͹ ki n b̭WWK˱ͥng)

Hình 5-3: M͡t s͙ khung hình trong t̵p dͷ li u Avenue (Hàng trên không có s͹ b̭WWK˱ͥQJ+jQJG˱ͣi có s͹ ki n b̭WWK˱ͥng)

UCSD Ped1: Có 34 video trong tұp huҩn luyӋn, 36 video trong tұp kiӇm thӱ vӟi

40 sӵ kiӋn bҩWWKѭӡng Nhӳng sӵ kiӋn bҩWWKѭӡng này bao gӗPFiFSKѭѫQJWLӋn giao WK{QJQKѭ{W{[Hÿҥp,

UCSD Ped2: Có 16 video trong tұp huҩn luyӋn và 12 video trong tұp kiӇm thӱ vӟi

12 sӵ kiӋn bҩWWKѭӡng Nhӳng thӵc thӇ ÿѭӧc coi là bҩWWKѭӡQJFǊQJWѭѫQJWӵ QKѭ8&6' Ped1

Avenue: Có 16 video trong tұp huҩn luyӋn và 21 video trong tұp kiӇm thӱ vӟi 47 sӵ kiӋn bҩWWKѭӡng, bao gӗPQpPÿӗ vұt, bӓ chҥ\ô6ӕ OѭӧQJQJѭӡi cú thӇ WKD\ÿәi do vӏ trí và góc máy ҧnh Nhӳng chuyӇQÿӝng trong tұp này phӭc tҥSKѫQNKLYӟi 2 tұp UCSD Ped1 và UCSD Ped2

Hình 5-4, Hình 5-5 thӇ hiӋn sӕ Oѭӧng video và khung hình có trong mӛi tұp dӳ liӋu

So sánh trên tӯng tұp dӳ liӋu, thì sӕ Oѭӧng video và khung hình trong tұp huҩn luyӋn và tұp kiӇm thӱ chênh lӋch không quá lӟn Tuy nhiên, khi so sánh giӳa các tұp dӳ liӋu, tұp UCSD Ped1 có sӕ Oѭӧng video nhiӅu nhҩt và tұp Avenue có sӕ Oѭӧng khung hình nhiӅu nhҩt

Hình 5-4: S͙ O˱ͫng video trong t̵p dͷ li u UCSD Ped1, UCSD Ped2 và Avenue

Hình 5-5: S͙ O˱ͫng khung hình trong t̵p dͷ li u UCSD Ped1, UCSD Ped2 và Avenue

Ĉӝ ÿR

Trong các bài toán vӅ phân loҥLÿѭӡQJFRQJ52&WKѭӡQJÿѭӧc sӱ dөQJÿӇ ÿiQK JLiÿӝ hiӋu quҧcӫDP{KuQKĈѭӡng cong này bao gӗm 2 tham sӕ: x True Positive Rate (TPR): ܴܶܲ ൌ ܶܲ ܶܲ ൅ ܨܰ x False Positive Rate (FPR): ܨܴܲ ൌ ܨܲ ܨܲ ൅ ܶܰ Ĉѭӡng cong ROC sӁ biӇu diӉn TPR và FPR tҥLFiFQJѭӥng phân loҥi khác nhau ViӋc hҥ thҩSQJѭӥng phân loҥi sӁ [iFÿӏQKÿѭӧc nhiӅu mүu là tích cӵFQKѭQJOjPWăQJ khҧ QăQJNKҷQJÿӏQKVDLĈӇ WtQKFiFÿLӇm tUrQÿѭӡng cong ROC, ta cҫQÿiQKJLiP{ hình ӣ FiFQJѭӥng phân loҥi khác nhau Cách làm này sӁ không hiӋu quҧ'RÿyWK{QJ WKѭӡQJÿӝ ÿR$8&ÿѭӧc sӱ dөng Bҵng cách tính diӋQWtFKErQGѭӟLÿѭӡng cong ROC sӁ ÿiQKJLiÿѭӧc hiӋu suҩt phân loҥi cӫDP{KuQKĈӝ ÿR$8&FyѭXÿLӇPÿROѭӡng ÿѭӧc chҩWOѭӧng cӫa các dӵ ÿRiQEҩt kӇ OjQJѭӥng phân loҥLQjRÿѭӧc chӑn Trong bài báo cáo này AUC sӁ ÿѭӧc chӑQÿӇ ÿiQKJLiKLӋu suҩt cӫDP{KuQKÿѭӧFÿӅ xuҩt ĈѭӡQJFRQJ52&Yjÿӝ ÿR$8&ÿѭӧc biӇu diӉn tҥi Hình 5-6 và Hình 5-7:

Hình 5-6: TӍ lӋ TP và FP ӣ FiFQJѭӥng phân loҥi khác nhau

Cách chӑQQJѭӥng bҩWWKѭӡng

SDXNKLÿm[iFÿӏQKÿѭӧc hӋ sӕ bҩWWKѭӡng theo công thӭc (10), ta cҫQ[iFÿӏnh QJѭӥQJÿӇ ÿiQKJLiFyEҩWWKѭӡng hay không ViӋF[iFÿӏQKQJѭӥng phҧLÿҧm bҧo cân bҵng giӳa tӍ lӋ khҷQJÿӏQKÿ~QJYjNKҷQJÿӏnh giҧ ViӋc chӑQQJѭӥng thҩp có thӇ xác ÿӏQKÿѭӧc nhiӅXWUѭӡng hӧp bҩWWKѭӡQJKѫQQKѭQJÿӗng thӡLFǊQJOjPWăQJNKҧ QăQJ khҷQJÿӏnh giҧ Bҵng cách tӕLѭXQJѭӥng bҩWWKѭӡng dӵDWUrQÿѭӡng cong ROC, giúp cho viӋc cân bҵng giӳa 2 yӃu tӕ này

4Xi WUuQK ÿѭӧc thӵc hiӋn bҵng cách tính giá trӏ G-Mean tҥi mӛL QJѭӥng ݄ܶݎ݁ݏ݄݋݈݀ ௜ có chӍ sӕ là ݅: ݃݉݁ܽ݊ ௜ ൌ ඥܴܶܲሺͳ െ ܨܴܲሻ

6DXÿy[iFÿӏQKQJѭӥng mà tҥLÿy*-mean có giá trӏ lӟn nhҩt: ݅ כ ൌ ܽݎ݃݉ܽݔሺ݃݉݁ܽ݊ ௜ ሻ (12) ܤ݁ݏݐ݄ܶݎ݁ݏ݄݋݈݀ ൌ ݄ܶݎ݁ݏ݄݋݈݀ ௜ כ (13)

5.4 &jLÿһt và huҩn luyӋn mô hình

&jLÿһt: Các khung hình sӁ ÿѭӧc chuҭn hóa vӅ NtFKWKѭӟc 128×128 Giá trӏ ÿLӇm ҧnh cӫa mӛi khung hình sӁ ÿѭӧc chuҭn hóa trong khoҧQJ>í@9uÿҫu vào cӫa mô hình này là chuӛi các khung hình liên tiӃSQKDXGRÿyVӱ dөng cӱa sә WUѭӧt vӟLÿӝ dӡLOjÿӇ quét qua toàn bӝ video Mӛi lҫQWUѭӧt, 5 khung hình liên tiӃSÿѭӧc chӑQWURQJÿy NKXQJKuQKÿҫXWLrQOjÿҫu vào + 1 khung hình cuӕLOjQKmQ%DWFKVL]Hÿѭӧc sӱ dөng trong thӵc nghiӋPOj/HDUQLQJUDWHÿѭӧc sӱ dөng cho bӝ sinh và bӝ phân loҥLÿѭӧc sӱ dөng trong suӕt quá trình huҩn luyӋn lҫQOѭӧt là 0.0001, 0.00001 và Adam optimizer ÿѭӧc sӱ dөQJÿӇ update trӑng sӕ cho mô hình sau mӛi lҫn lһp Toàn bӝ quá trình huҩn luyӋn và kiӇm thӱ ÿѭӧc thӵc hiӋn trên máy Intel(R) Xeon(R) Silver 4216 CPU

@2.10GHz vӟi GPU NVIDIA Tesla T4 16GB

Cách huҩn luyӋn: 7UѭӟFWLrQP{KuQKÿѭӧc sӁ huҩn luyӋn và kiӇm thӱ trên các tұp dӳ liӋu: Ped1, Ped2, Avenue MөFWLrXOjÿӇ tìm hiӇu cách hoҥWÿӝng cӫDP{KuQKÿӅ xuҩWÿӕi vӟi bài toán phát hiӋn bҩWWKѭӡQJWURQJYLGHR+ѫQQӳDÿӇ ÿiQKJLiÿӝ nhҥy cӫa mô hình ӣ các ngӳ cҧQKNKiFQKDXP{KuQKÿmÿѭӧc huҩn luyӋn sӁ ÿѭӧc tiӃp tөc huҩn luyӋQYjÿiQKJLiNLӇm thӱ trên tұp dӳ liӋXPjQyFKѭDÿѭӧc huҩn luyӋn WUѭӟFÿy Mӝt sӕ thí nghiӋPÿѭӧc thӵc hiӋQÿӇ ÿiQKJLiP{KuQKQKѭErQGѭӟi: x 0{KuQKÿѭӧc huҩn luyӋn và kiӇm thӱ trên tӯng tұp dӳ liӋu riêng biӋt x 0{KuQKÿѭӧc huҩn luyӋn trên tұp dӳ liӋXÿѭӧc trӝn bӣi (Ped1 + Ped2), (Ped1 + Avenue), (Ped2 +Avenue) và (Ped1 + Ped2 + Avenue)

Phân tích kӃt quҧ thӵc nghiӋm

0{KuQKÿѭӧc huҩn luyӋn và kiӇm thӱ trên tӯng tұp dӳ liӋu riêng biӋt: Quá trình huҩn luyӋn mô hình trên tӯng tұp dӳ liӋu riêng biӋW3HG3HG3HGÿѭӧc thӇ hiӋn lҫn Oѭӧt trong hình Hình 5-8,

Hình 5-9, Hình 5-10 Nhұn xét thҩy rҵQJFiFÿһFWUѭQJOLrQTXDQÿӃQFѭӡQJÿӝ sáng (Intensity) sӁ hӑFÿѭӧFQKDQKKѫQFiFÿһFWUѭQJOLrQTXDQÿӃn góc và cҥnh (Gradient)

&iFÿһFWUѭQJOLrQTXDQÿӃn chuyӇQÿӝng (OpticalFlow) sӁ hӑFÿѭӧc chұm nhҩWĈӕi vӟi tұp dӳ liӋu có chuyӇQÿӝng càng phӭc tҥSÿѭӡng cong FlowLoss sӁ không әQÿӏnh trong quá trình huҩn luyӋn

Hình 5-8: Quá trình huҩn luyӋn trên tұp dӳ liӋu Ped1

Hình 5-9: Quá trình huҩn luyӋn trên tұp dӳ liӋu Ped2

Hình 5-10: Quá trình huҩn luyӋn trên tұp dӳ liӋu Avenue

4XDQViWÿӏnh tính Hình 5-11, thҩy rҵng chӍ mӝWYjLEѭӟc huҩn luyӋn, mô hình có thӇ tái tҥo lҥLFiFÿѭӧFFiFÿһFWUѭQJFyWUrQҧnh thұWĈLӅu này có thӇ giҧi thích là do sӱ dөng UNet làm module chính cӫa bӝ sinh ҧnh nên quá trình hӑFÿӇ xây dӵng ҧnh diӉn

Hình 5-11: ҦQKÿѭӧFVLQKUDVDXYjLEѭӟc huҩn luyӋn mô hình trên tұp Ped1

0{KuQKÿѭӧc huҩn luyӋn trên tұp dӳ liӋXÿѭӧc trӝn bӣi (Ped1 + Ped2), (Ped1 + Avenue), (Ped2 + Avenue) và (Ped1 + Ped2 + Avenue): Quá trình huҩn luyӋn này ÿѭӧc thӇ hiӋn trong Hình 5-12

Hình 5-12: Quá trình huҩn luyӋn vӟi các cách khác nhau

Nhұn xét thҩy rҵQJQJRjLP{KuQKÿѭӧc huҩn luyӋQÿӝc lұp trên tұp Ped2 nhanh hӝi tө KѫQVRYӟi các cách huҩn luyӋQNKiFĈLӅu này có thӇ ÿѭӧc giҧi thích là do sӕ khung hình trên tұp Ped2 quá ít so vӟi 2 tұp Ped1, Avenue (tham khҧo Hình 5-4, Hình 5-5) nên mô hình nhanh chóng hӑFÿѭӧc cách phân bӕ dӳ liӋu trên Ped2 ĈӇ ÿiQKJLiÿӏQKOѭӧQJÿӝ hiӋu quҧ cӫa mô hình ӣ các cách huҩn luyӋn khác nhau, WURQJEjLEiRFiRQj\ÿѭӡQJFRQJ$8&ÿѭӧc sӱ dөQJYjÿiQKJLiWUrQQJӳ cҧnh: x 0{KuQKÿѭӧc huҩn luyӋQYjÿiQKJLiWUrQFKtQKWұp dӳ liӋu ÿy x 0{KuQKÿѭӧc huҩn luyӋn ӣ tҩt cҧ các dӳ liӋu ngoҥi trӯ dӳ liӋXÿѭӧFGQJÿӇ kiӇm thӱ x 0{KuQKÿѭӧc huҩn luyӋn trên tҩt cҧ các tұp dӳ liӋu và kiӇm thӱ riêng trên tӯng tұp kiӇm thӱ cӫa mӛi tұp dӳ liӋu Ĉӝ hiӋu quҧ cӫa mô hình ӣ các cách huҩn luyӋn khác nhau thӇ hiӋn ӣ Hình 5-13, Hình 5-14, Hình 5-15, Hình 5-16, Hình 5-17, Hình 5-18

Hình 5-13ĈiQKJLiKLӋu suҩt cӫa mô hình trên tұp dӳ liӋu Ped1

Hình 5-146RViQK/DEHOYj6FRUHWUrQÿRҥn video ngҳn ÿѭӧc lҩy ngүu nhiên trong tұp dӳ liӋu Ped1

Hình 5-15ĈiQKJLiKLӋu suҩt cӫa mô hình trên tұp dӳ liӋu Ped2

Hình 5-166RViQK/DEHOYj6FRUHWUrQÿRҥn video ngҳn ÿѭӧc lҩy ngүu nhiên trong tұp dӳ liӋu Ped2

Hình 5-17ĈiQKJLiKLӋu suҩt cӫa mô hình trên tұp dӳ liӋu Avenue

Hình 5-186RViQK/DEHOYj6FRUHWUrQÿRҥn video ngҳn ÿѭӧc lҩy ngүu nhiên trong tұp dӳ liӋu Avenue

Bҵng cách so sánh kӃt quҧ cӫa 3 cách huҩn luyӋn này, nhұn thҩy rҵng mô hình không bӏ ҧQKKѭӣng nhiӅu bӣi các tұp dӳ liӋu khác Mô hình có hiӋu quҧ tӕt nhҩt khi ÿѭӧc huҩn luyӋn và kiӇm thӱ WUrQFKtQKQy7URQJWUѭӡng hӧSP{KuQKÿѭӧc kiӇm thӱ trên tұp dӳ liӋXPjQyFKѭDWKҩy trong quá trình huҩn luyӋn thì cho kӃt quҧ thҩSKѫQ Tuy nhiên, nó vүn có khҧ QăQJQKұn ra nhӳng bҩWWKѭӡng trên nhӳng tұp dӳ liӋu này, ÿLӅu này chӭng tӓ rҵQJP{KuQKÿmWәng quát hóa các video mà nó không nhìn thҩy, mһc dù có nhӳng sai khác vӅ ngӳ cҧnh ӣ các tұp dӳ liӋu

+ѫQQӳDP{KuQKÿѭӧc huҩn luyӋn trên tұp dӳ liӋu (Ped1 + Ped2 + Avenue) không cho kӃt quҧ tӕWKѫQNKLVRYӟLP{KuQKÿѭӧc huҩn luyӋn trên tӯng tұp dӳ liӋu riêng biӋt 3HG3HG$YHQXHĈLӅu này rút ra kӃt luұn là viӋFWăQJVӕ Oѭӧng video trong tұp huҩn luyӋn bҵng các tұp dӳ liӋXÿѭӧc quay ӣ các ngӳ cҧnh khác không giúp cҧi thiӋQÿѭӧc hiӋu suҩt cӫa mô hình

Bҧng 5-1 VRViQKP{KuQKÿӅ xuҩt vӟi các nghiên cӭu gҫQÿk\GӵDWUrQÿӝ ÿR AUC, nhұn thҩy rҵQJP{KuQKÿӅ xuҩt có hiӋu quҧ KѫQNKRҧng 1-0{KuQKÿӅ xuҩt có kiӃn trúc gҫn giӕng vӟi AnoPred[1] nhҩW$QR3UHG>@FǊQJVӱ dөQJP{KuQK*$1ÿӇ huҩn luyӋn cho bӝ sinh ҧQKQKѭQJVӱ dөng Conv2D cho nhánh mҥQJ'ĈLӅXQj\FǊQJ chӭng minh rҵng viӋc sӱ dөng bӝ phân loҥi vӟL&RQY'ÿmOjPWăQJKӑFFiFÿһFWUѭQJ tӯ video, tӯ ÿyWăQJKLӋu suҩt cӫa bӝ sinh ҧnh Ngoài ra, AnoPred[1] ҧQKFyNtFKWKѭӟc Oj[ÿӇ OjPÿҫXYjRFKRP{KuQKWURQJNKLP{KuQKÿӇ xuҩt sӱ dөng ҧnh có kích WKѭӟc là 128 x 128, nên kiӃn trúc cӫDP{KuQKÿӅ xuҩt có ít tham sӕ KѫQĈLӅu này rҩt có êQJKƭDYӅ mһt tӕFÿӝ tính toán trong thӡi gian thӵc

B̫ng 5-1: K͇t qu̫ hṷn luy n mô hình trên t̵p dͷ li u Ped1, Ped2, Avenue

Huҩn luyӋn + kiӇm thӱ trên cùng tұp dӳ liӋu 84.06% 96.39% 86.01%

Huҩn luyӋn + kiӇm thӱ trên tұp dӳ liӋu khác nhau

Thӡi gian sinh ra ҧnh và phát hiӋn bҩWWKѭӡng trong tұp kiӇm thӱ cӫa mӛi tұp dӳ liӋXÿѭӧc thӇ hiӋn trong bҧng Bҧng 5-24XiWUuQKÿѭӧc thӵc hiӋn vӟi GPU NVIDIA Tesla T4 16GB, trung bình khoҧng 100 fps Thӡi gian xӱ OêWѭѫQJÿӕLQKDQKÿLӅu này có thӇ ÿѭӧc giҧi thích là khi kiӇm thӱ, hӋ sӕ bҩWWKѭӡng chӍ dӵa vào chҩWOѭӧng cӫa ҧnh sinh ra so vӟi ҧnh góc nên chӍ cҫn xӱ lý cӫa bӝ sinh ҧnh, mà không cҫn sӵ tính toán cӫa bӝ phân loҥi ҧnh KӃt quҧ này thӇ hiӋn rҵng mô hình này rҩt khҧ TXDQÿӇ phát hiӋn tai nҥn, bҩWWKѭӡng trong thӡi gian thӵc

B̫ng 5-2: T͙Fÿ͡ x͵ lý trên t̵p ki͋m th͵

Sӕ khung hình xӱ lý trên mӛi giây(fps)

Hình 5-19, Hình 5-20, Hình 5-21 mô phӓng phát hiӋn bҩWWKѭӡng trong tұp dӳ liӋu Ped1, Ped2 và Avenue Hình màu xanh thӇ hiӋn là nhãn thӇ hiên có bҩWWKѭӡng hay không (1 ± Có sӵ kiӋn bҩt tKѭӡng; 0 ± Không có sӵ kiӋn bҩWWKѭӡQJ&iFNKXQJKuQKÿѭӧc chӑn ӣ ÿk\OjQJүu nhiên tҥi các thӡLÿLӇm có bҩWWKѭӡng xҧ\UDĈiQKJLiWәng quan, mô KuQKÿӅ xuҩt có thӇ P{KuQKKyDÿѭӧc thӡLÿLӇm có/không có sӵ kiӋn bҩWWKѭӡng Tuy nhiên, viӋFÿѭDUDTX\Ӄt ÿӏnh có bҩWWKѭӡng hay không sӁ phө thuӝFYjRQJѭӥng NӃu chӑQQJѭӥng quá cao sӁ loҥi bӓ ÿLFiFVӵ kiӋn bҩWWKѭӡng vӟi nhӳng sai sót nhӓ1Jѭӧc lҥi, viӋc chӑQQJѭӥng quá thҩp dүQÿӃn nhiӅu khҷQJÿӏnh sai

Hình 5-19: Mô phӓng phát hiӋn bҩWWKѭӡng trên Ped1

Hình 5-20: Mô phӓng phát hiӋn bҩWWKѭӡng trên Ped2

Hình 5-21: Mô phӓng phát hiӋn bҩWWKѭӡng trên Avenue

ѬXÿLӇm

0{KuQKÿӅ xuҩt có thӇ mô hình hóa các sӵ kiӋQEuQKWKѭӡng có trong video trong quá trình huҩn luyӋn bҵng mô hình là Autoencoder Vӟi bӝ sinh ҧQKOj81HWÿѭӧc huҩn luyӋn bҵng mô hình GAN giúp cho mô hình có thӇ mô hình hóa tӕWKѫQFiFVӵ kiӋn bình WKѭӡQJFyWURQJYLGHRĈk\FKtQKOjѭXÿLӇm cӫDP{KuQKÿӅ xuҩt, ta có dӉ dàng thu thұp ÿѭӧc các video không có sӵ kiӋn bҩWWKѭӡQJÿӇ huҩn luyӋn cho mô hình Khi mô hình ÿmKӑFÿѭӧc tӕt các sӵ kiӋQEuQKWKѭӡng có trong video, thì khi gһp các video có sӵ kiӋn bҩWWKѭӡng, bӝ sinh ҧnh sӁ cӕ gҳng tҥo sinh ra các khung ҧnh không có sӵ kiӋn bҩWWKѭӡng Chính sӵ khác biӋt giӳa ҧnh sinh ra và ҧnh thӵc tӃ sӁ giúp phát hiӋn bҩWWKѭӡng ӣ khung ҧnh thӵc tӃ

ViӋc chӑQQJѭӥQJÿӇ [iFÿӏnh có bҩWWKѭӡng là nKѭӧFÿLӇm cӫa mô hình này NӃu chӑQQJѭӥng thҩp có thӇ [iFÿӏQKÿѭӧc nhiӅXWUѭӡng hӧp bҩWWKѭӡQJQKѭQJÿӗng thӡi FǊQJOjPWăQJNKҧ QăQJWLrQÿRiQVDL'RÿyFҫn phҧL[iFÿӏQKQJѭӥng phҧi cân bҵng giӳa 2 yӃu tӕ này.

ĈyQJJySFӫDÿӅ tài

ViӋc sӱ dөng 3D Convolution làm bӝ lӑFFKR³%ӝ phân loҥi ҧQK´OjPWăQJNKҧ QăQJ phân biӋt ҧnh thұt và ҧQKÿѭӧc sinh ra Tӯ ÿyOjPWăQJKLӋu suҩt cӫD³%ӝ sinh ҧQK´Yu Qyÿѭӧc huҩn luyӋn dӵa trên mô hình GAN

1JRjLUDÿiQKJLiÿѭӧc hiӋu suҩt cӫa mô hình thông qua các chiӃn thuұt huҩn luyӋn khác nhau:

- Mô hình hoҥWÿӝng tӕt nhҩWNKLÿѭӧc huҩn luyӋn và kiӇm thӱ trên cùng tұp dӳ liӋu có cùng ngӳ cҧnh

- 0{KuQKVDXNKLÿmÿѭӧc huҩn luyӋn trên tұp dӳ liӋu có ngӳ cҧQK[iFÿӏnh, khi kiӇm thӱ trên tұp dӳ có ngӳ cҧnh khác thì mô hình vүn có thӇ hoҥWÿӝQJÿѭӧc

- Không thӇ WăQJKLӋu quҧ cӫa mô hình bҵQJFiFKWăQJVӕ Oѭӧng video trong tұp huҩn luyӋn bҵQJFiFYLGHRÿѭӧc quay ӣ các ngӳ cҧnh khác

0{KuQKÿӅ xuҩt hiӋn tҥi chӍ dӵa vào chҩWOѭӧng sinh ra cӫa bӝ sinh ҧQKÿӇ ÿiQKJLi có bҩWWKѭӡQJKD\NK{QJQrQP{KuQKNK{QJÿӫ mҥQKÿӕi vӟLP{LWUѭӡng có ngӳ cҧnh phӭc tҥS'RÿyKѭӟng phát triӇQÿӇ cҧi tiӃn mô hình là sӱ dөng kӃt hӧp giӳa chҩWOѭӧng ҧnh sinh ra và kӃt quҧ cӫa bӝ phân loҥi ҧQKÿӇ ÿiQKJLiFyEҩWWKѭӡng hay không

Ngoài ra, yӃu tӕ ngӳ cҧQKFǊQJҧQKKѭӣQJÿiQJNӇ ÿӃn hiӋu suҩt cӫa mô hình Do ÿyFyWKӇ dùng kӃt hӧSFiFP{KuQKSKkQÿRҥn hình ҧQKQKѭOj0DVN511ÿӇ tách các chӫ thӇ, loҥi bӓ ҧQKKѭӣng cӫDEDFNJURXQGFǊQJOjKѭӟng nghiên cӭu cҫQÿѭӧc xem xét

[1] W Liu, W Luo, D Lian and S Gao ³)XWXUH Frame Prediction for Anomaly

Detection ± A New %DVHOLQH´ Proceedings of the IEEE Conference on Computer

Vision and Pattern Recognition (CVPR), pp 6536-6545, 2018

[2] S Lee, H G Kim and Y M Ro, ³67$1 SpatioTemporal Adversarial Networks for Abnormal Event 'HWHFWLRQ´ 2018 IEEE International Conference on Acoustic,

Speech and Signal Processing (ICASSP), 2018

[3] Y S Chong and Y H Tay, ³$EQRUPDO Event Detection in Videos using Spatio- temporal $XWRHQFRGHU´ 2018 25th IEEE International Conference on Image Proc essing (ICIP), Jan 9, 2017

[4] P Isola, J Y Zhu, T Zhou and A A Efros, ³,PDJH-to-

Image Translation with Conditional Adversarial 1HWZRUNV´ 2017 IEEE

Conference on Computer Vision and Pattern Recognition (CVPR), Jul 2017

[5] Y Yao, M Xu, Y Wang, D J Crandall and E M Atkins ³8QVXSHUYLVHG Traffic

Accident Detection in FirstPerson 9LGHRV´ IEEE/RSJ International Conference on

Intelligent Robots and Systems (IROS), 2019

[6] Y Yao, X Wang, M Xu, Z Pu, E Atkins and D Crandall ³:KHQ Where, and

What? A New dataset for Anomaly Detection in Driving 9LGHRV´ arXiv preprint a rXiv:2004.03044, 2020

[7] M Xu, M Gao, Y Chen, L S Davis and D J Crandall ³7HPSRUDO Recurrent

Networks for Online Action 'HWHFWLRQ´ IEEE International Conference on

[8] J Gao, Z Yang and R Nevatia ³5(' Reinforced Encoder-Decoder Networks for Action Anticipation,´ in BMVC, 2017

[9] X Shi, Z Chen, H Wang and D Yeung ³&RQYROXWLRQDO LSTM Network:

A Machine Learning Approach for Precipitation 1RZFDVWLQJ´ NIPS'15: Proceedi ngs of the 28th International Conference on Neural Information Processing Syste ms, Volume 1, pp 802±810, Dec 2015

[10] N Srivastava, E Mansimov and R Salakhutdinov ³8QVXSHUYLVHG Learning

42 of Video Representations using /670V´ International conference on machine lea rning, pp 843±852, Feb 2015

[11] D.Tran, L Bourdev, R Fergus, L Torresani and M Paluri ³/HDUQLQJ Spatio- temporal Features with 3D Convolutional 1HWZRUNV´ in The IEEE International C onference on Computer Vision (ICCV), Dec 2015

[12] L Sun, K Jia, D Yeung and B E Shi ³+XPDQ Action Recognition Using

Factorized SpatioTemporal Convolutional 1HWZRUNV´ International Conference o n Computer Vision (ICCV), 2015

[13] Y Zhou, X Sun, Z Zha and W Zeng ³0L&7 Mixed 3D/2D Convolutional Tube for Human Action 5HFRJQLWLRQ´ IEEE/CVF Conference on Computer Vision and

[14] Y Zhu, Z Lan, S Newsam, A G Hauptmann ³+LGGHQ TwoStream

Convolutional Networks for Action 5HFRJQLWLRQ´ Computer Vision ± ACCV 2018, pp.363-378, 2018

[15] Carreira and Zisserman ³4XR Vadis, Action Recognition? A New model and the Kinetics GDWDVHW´ in The IEEE Conference on Computer Vision and Pattern Re cognition (CVPR), 2017

[16] K Hara, H Kataoka and Y Satoh, ³&DQ Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?´IEEE/CVF Conference on

Computer Vision and Pattern Recognition, 2018

[17] V Mahadevan, W Li, V Bhalodia and N Vasconcelos ³$QRPDO\ detection in crowded VFHQHV´ in Computer Vision and Pattern Recognition (CVPR), 2010 IEE

[18] W Sultani, C Chen and M Shah ³5HDO-world Anomaly Detection in Surveillance

9LGHRV´ in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recogni tion, 2018

[19] A Karpathy, G Toderici, S Shetty, T Leung, R Sukthankar and Li Fei, ³/DUJH scale Video Classification with Convolutional Neural 1HWZRUNV´ The IEEE Confe rence on Computer Vision and Pattern Recognition (CVPR), pp 1725-1732, 2014

[20] M Mirza and S Osindero, ³&RQGLWLRQDO Generative Adversarial 1HWV´

2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),

[21] O Ronneberger, P Fischer and T Brox ³81HW Convolutional Networks for

Biomedical Image 6HJPHQWDWLRQ´ International Conference on Medical Image Co mputing and Computer-Assisted Intervention, Oct 2015

[22] M Schuster and K K Paliwal ³%LGLUHFWLRQDO Recurrent Neural 1HWZRUNV´ 1997 [23] I Goodfellow, ³*HQHUDWLYH Adversarial 1HWZRUNV´ NIPS, 2016

[24] H Liu, J Tu and M Liu ³7ZR6WUHDP 3D Convolutional Neural Network for

SkeletonBased Action 5HFRJQLWLRQ´ 2018 IEEE International Conference on Mult imedia and Expo (ICME), 2018

[25] $https://en.wikipedia.org/wiki/Canny_edge_detector$, Truy cұp: 25/05/2021 [26] E Ilg, N Mayer, T Saikia and M Keuper and A Dosovitskiy and T Brox ³)ORZ

Net 2.0: Evolution of Optical Flow Estimation with Deep 1HWZRUNV´ IEEE Confer ence on Computer Vision and Pattern Recognition (CVPR), Jul 2017

[27] M Hasan, J Choi, J Neumann, A K Roy-Chowdhury and L S Davis ³/HDUQLQJ temporal regularity in video VHTXHQFHV´ In CVPR, 2016

[28] W Luo, W Liu and S Gao ³5HPHPEHULQJ history with convolutional lstm for anomaly GHWHFWLRQ´ in Multimedia and Expo (ICME), 2017 IEEE International Co nference on, pp 439±444, 2017

[29] W Hu, X Xiao, Z Fu, D Xie, T Tan and S Maybank ³$ system for learning statistical motion SDWWHUQV´ IEEE transactions on pattern analysis and machine int elligence, Oct 2006

[30] S Zhou, W Shen, D Zeng and Z Zhang, ³8QXVXDO event detection in crowded scenes by trajectory DQDO\VLV´ 2015 IEEE International Conference on Acoustics,

Speech and Signal Processing (ICASSP), 2015

[31] V Kaltsa, A Briassouli, I Kompatsiaris, L.J Hadjileontiadis and M G Strintzis ³6ZDUP Intelligence for Detecting Interesting Events in Crowded (QYLURQPHQWV´

IEEE Transactions on Image Processing, Jul 2015

[32] C Lu, J Shi and J Jia ³$EQRUPDO event detection at 150 fps in matlab,´ in

Tác giҧ sӁ gӱi kèm trong CD ± ROM

Tiêu đề	Phát hiện bất thường trong video giám sát sử dụng kỹ thuật học sâu
Tác giả	NguyӉn Thanh Hoàng
Người hướng dẫn	TS. Lờ Thành Sỏch, PGS. TS. HuǤnh Trung HiӃu, TS. NguyӉQ 9ăQ 6LQK
Trường học	ĈҤI HӐC QUӔC GIA TP. HCM
Chuyên ngành	Khoa Hӑc Mỏy Tớnh
Thể loại	LuұQ 9Ă1 7+Ҥ& 6Ƭ
Năm xuất bản	2021
Thành phố	Tp. HCM

Định dạng
Số trang	57
Dung lượng	1 MB