1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Tái định danh đối tượng cho tập camera quan sát

74 7 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Với những đặctính hoặc hình ảnh cho trước của một đối tượng hay con người, mục tiêu củaviệc tái định danh này là nhận diện và truy xuất chính xác đối tượng trong tập dữ liệu mà camera gh

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG-HCM

Cán bộ hướng dẫn khoa học: TS Nguyễn Lê Duy Lai

Cán bộ chấm nhận xét 1: TS Nguyễn Văn Sinh

Cán bộ chấm nhận xét 2: PGS TS Huỳnh Trung Hiếu

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 5 tháng 8 năm 2021 (Trực tuyến)

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, họchàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 Chủ Tịch: PGS TS Thoại Nam

2 Thư Ký: TS Lê Thành Sách

3 Phản Biện 1: TS Nguyễn Văn Sinh

4 Phản Biện 2: PGS TS Huỳnh Trung Hiếu

5 Ủy Viên: TS Nguyễn Lê Duy Lai

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

I TÊN ĐỀ TÀI:

– Tái định danh đối tượng cho tập camera quan sát

II NHIỆM VỤ VÀ NỘI DUNG :

– Tìm hiểu bài toán phân loại người đi bộ dựa trên nội dung ảnh

– Đề xuất và hiện thực những mô hình trích xuất đặc trưng phân biệt cho người đi bộtrong hệ thống camera quan sát

– So sánh hiệu quả của những mô hình đề xuất và những công trình nghiên cứu liênquan trong thời gian gần đây

III NGÀY GIAO NHIỆM VỤ: 20/01/2021

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2021

V CÁN BỘ HƯỚNG DẪN: TS Nguyễn Lê Duy Lai

Trang 4

Lời cảm ơn

Đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc tới TS Lê Thành Sách và

TS Nguyễn Lê Duy Lai, người đã hướng dẫn tôi trong suốt quá trình thực hiệnluận văn cũng như đề cương Nhờ có những chỉ dẫn và góp ý của thầy mà tôimới có thể hoàn thành tốt được đề tài luận văn này

Tôi xin được gửi lời cảm ơn đến quý thầy cô khoa Khoa học và Kỹ thuật máytính đã truyền thụ những kiến thức, kinh nghiệm quý báu cho tôi trong hơn hainăm qua Xin gửi lời tri ân đến tất cả các thành viên trong nhóm luận văn củathầy Sách vì những sự giúp đỡ và hỗ trợ trong suốt quá trình thực hiện luận văn

Cuối cùng, tôi xin gửi lời cảm ơn chân thành đến gia đình và bạn bè, nhữngngười đã luôn động viên, ủng hộ tôi trong suốt thời gian học cao học

Thành phố Hồ Chí Minh, 06/2021

Vũ Trung Hiếu

Trang 5

Tái định danh người là một bài toán đầy thử thách nhằm truy xuất tất cả cáchình ảnh khớp với hình ảnh truy vấn trong một hệ thống camera quan sát Donhững thay đổi đáng kể của góc nhìn và điều kiện môi trường, việc trích xuấtđược các đặc trưng phân biệt là chìa khóa thành công của việc tái định danhngười Trong luận văn này, tác giả đề xuất mạng POSNet, một phương phápdựa trên OSNet kết hợp với luồng học theo từng phần giúp mạng học tập trungvào cả đặc trưng toàn cục và cục bộ Một nhánh của mô hình POSNet tập trungvào việc trích xuất các đặc trưng trên toàn bộ ảnh, trong khi nhánh kia dànhcho việc trích xuất đặc trưng của từng phần trong bức ảnh Luồng học cục bộ

sử dụng chiến lược phân vùng đều nhau và gom lại thành một vector đặc trưngtrong quá trình học phân lớp Luồng còn lại tận dụng OSNet để tạo ra vectorđặc trưng toàn cục Hai luồng kết hợp lại thành một vector đặc trưng duy nhấtdùng để đánh giá mô hình POSNet đạt được kết quả tích cực trên tập dữ liệuCHUK03 khi so sánh với các công trình nghiên cứu trong vài năm qua

Trang 6

Person Re-Identification is a challenging task that retrieves all instances of aquery image across a closed circuit television (CCTV) Due to the various ex-treme changes of view, learning diverse features is key to the success of personre-identification In this work, the author introduces the POSNet, a methodbased on OSNet with part-based stream that pushes the network to focus onlearning both global and local features One branch of the proposed POSNet isfor global feature representation, while the other is for local feature representa-tion The local branch uses a uniform partition strategy for part-level featureresolution but yields only a single identity-prediction loss The global branchutilizes the OSNet to produce global feature vector, which is combined with lo-cal feature vector to reach higher performance POSNet achieves positive results

on CHUK03 dataset when compared with the related researches over the pastfew years

Trang 7

Tôi là Vũ Trung Hiếu học viên cao học khoa Khoa Học và Kĩ Thuật MáyTính, Đại học Bách Khoa TP HCM, MSHV 1970215 Tôi xin cam đoan rằngluận văn thạc sĩ "Tái định danh đối tượng cho tập camera quan sát" là kết quảtìm hiểu, nghiên cứu độc lập của chính bản thân Tôi xin cam đoan:

1 Luận văn được thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậc caohọc

2 Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều đượctrích dẫn, tham khảo Tất cả các tài liệu được trích dẫn và có tính kế thừa

từ các tạp chí và các công trình nghiên cứu đã được công bố

3 Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phầnmềm mã nguồn mở

4 Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng

5 Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khichạy chương trình

TP Hồ Chí Minh, Ngày 13 Tháng 05 Năm 2021

Học viên

Vũ Trung Hiếu

Trang 8

Mục lục

1.1 Mở đầu 1

1.2 Ý nghĩa đề tài 2

1.3 Tình hình nghiên cứu 3

1.4 Mục tiêu, phạm vi và đối tượng nghiên cứu 4

1.4.1 Mục tiêu 4

1.4.2 Phạm vi nghiên cứu 5

1.4.3 Đối tượng nghiên cứu 5

1.5 Bố cục của luận văn 5

2 Cơ sở lý thuyết 6 2.1 Mạng neuron nhân tạo 6

2.2 Gradient descent và lan truyền ngược 7

2.3 Kiến trúc mạng học sâu tích chập 9

2.4 Một số lớp tính toán trong CNN 10

2.4.1 Lớp Pooling 10

2.4.2 Lớp BactchNorm 11

2.4.3 Lớp BNNeck 12

2.5 Chiến lược huấn luyện mạng học sâu 14

2.5.1 Học theo epoch 14

2.5.2 Học theo episode 15

2.6 Các độ đo thường gặp 16

2.6.1 Độ chính xác 16

2.6.2 Precision và Recall 16

2.7 Các hàm mất mát 17

2.7.1 Triplet loss 17

2.7.2 Center loss 19

3 Các hướng tiếp cận và công trình liên quan 20 3.1 Bài nghiên cứu Spatial-Temporal Person Re-identification 20

3.2 Bài nghiên cứu Beyond Part Models: Person Retrieval with Refined Part Pooling 23

Trang 9

3.3 Bài nghiên cứu Omni-Scale Feature Learning 26

3.4 Bài nghiên cứu Relation-Aware Global Attention 29

3.5 Bài nghiên cứu Salience-Guided Cascaded Suppression Network 30

4 Phương pháp đề xuất 32 4.1 Phương pháp và thí nghiệm 1 32

4.2 Phương pháp và thí nghiệm 2 33

4.3 Phương pháp và thí nghiệm 3 34

4.4 Phương pháp và thí nghiệm 4 35

5 Kết quả thực nghiệm 37 5.1 Thu thập và tiền xử lý dữ liệu 37

5.1.1 Dữ liệu 37

5.1.2 Tiền xử lý dữ liệu 38

5.2 Độ đo đánh giá kết quả nghiên cứu 39

5.3 Môi trường thực hiện 41

5.4 Kết quả thí nghiệm 41

5.4.1 Thí nghiệm 1 41

5.4.2 Thí nghiệm 2 45

5.4.3 Thí nghiệm 3 50

5.4.4 Thí nghiệm 4 53

6 Kết Luận 56 6.1 Tổng kết kết quả 56

6.2 Hướng nghiên cứu tiếp theo 57

A Bảng đối chiếu thuật ngữ Anh - Việt 61

Trang 10

Danh sách hình vẽ

1.1 Một số hướng nghiên cứu tiêu biểu 3

2.1 Sơ đồ tính toán một nút neuron 7

2.2 Sơ đồ tính toán hai nút neuron 8

2.3 Ví dụ mình hoạ cho tích chập 10

2.4 Mô tả trực quan lớp pooling 10

2.5 ID loss kết hợp triplet loss 12

2.6 So sánh ảnh hưởng của các hàm losses [1] 13

2.7 Sơ đồ BNNeck 13

2.8 Ý tưởng triplet learning 18

2.9 Quá trình triplet learning 18

3.1 Mô hình st-ReID [2] 21

3.2 Mô hình mạng PCB [3] 24

3.3 Trực quan hoá cách hoạt động RPP [3] 25

3.4 Mô hình PCB kết hợp với RPP [3] 25

3.5 Bộ 3 hình cần tìm, hình đúng, hình sai [4] 26

3.6 Cách kết hợp các đặc trưng đồng nhất [4] 27

3.7 Khối tích chập cơ bản (a) và khối tích chập nhẹ (b) [4] 27

3.8 Baseline bottleneck (a) OMNI bottleneck (b) [4] 28

3.9 Mô hình của OSNet [4] 28

3.10 Cách học tập trung theo hướng cục bộ, toàn cục và kết hợp [5] 29

3.11 Khối RGA [5] 30

3.12 Mô hình mạng SCSN [6] 31

3.13 Mô hình khối SFE (Salient Feature Extraction) [6] 31

4.1 Kiến trúc mạng PCB [2] với OSNet backbone 32

4.2 Kiến trúc mạng Global + Part-based OSNet 34

4.3 Kiến trúc mạng POSNet 35

4.4 Kiến trúc mạng POSNet + BNNeck 36

5.1 Một số hình ảnh trong tập CUHK03 38

5.2 Một số hình ảnh trong tập Market-1501 38

Trang 11

5.3 Độ lớn của Center, Triplet và ID loss 42

5.4 Độ chính xác theo epoch của part-based OSNet (4 phần) 43

5.5 Heatmap của các mô hình Part-based OSNet 43

5.6 Truy vấn hình ảnh của của mô hình Part-based OSNet 45

5.7 Loss của Global + Part-based OSNet 46

5.8 Độ chính xác theo epoch của Global + Part-based OSNet (4 phần) 47

5.9 Heatmap của Global + Part-based OSNet 48

5.10 So sánh heatmap giữa thí nghiệm 1 và 2 48

5.11 Truy vấn hình ảnh của mô hình Global + Part OSNet 49

5.12 Loss của POSNet 50

5.13 Độ chính xác theo epoch của POSNet 51

5.14 Heatmap của POSNet 51

5.15 So sánh heatmap giữa thí nghiệm 1, 2, và 3 52

5.16 Truy vấn hình ảnh của mô hình POSNet 53

Trang 12

Danh sách bảng

5.1 Độ chính xác của các thí nghiệm liên quan đến part-based OSNet 44 5.2 Độ chính xác giữa thí nghiệm part-base và kết hợp global 48 5.3 Độ chính xác mô hình Part-base, Global + Part-based, POSNet 52 5.4 So sánh độ chính xác giữa các mô hình trong thiết kế thí nghiệm 54 5.5 So sánh độ chính xác với các mô hình liên quan 55

Trang 13

Giới thiệu

1.1 Mở đầu

Trong hệ thống camera quan sát, tái định danh đối tượng nói chung và conngười nói riêng là một trong những nhu cần căn bản và cần thiết Với những đặctính hoặc hình ảnh cho trước của một đối tượng hay con người, mục tiêu củaviệc tái định danh này là nhận diện và truy xuất chính xác đối tượng trong tập

dữ liệu mà camera ghi lại được Ứng dụng của tái định danh một người trongthực tế là rất hữu ích, ví dụ như tìm kiếm đứa trẻ đi lạc trong một trung tâmthương mại, hay công an đang theo dấu một nghi phạm thông qua hình ảnh từcamera an ninh đường phố Bằng cách quan sát tất cả các camera một cáchthủ công, ta có thể tìm kiếm được đối tượng cần nhận diện Tuy nhiên, việc làmthủ công tốn rất nhiều công sức và thời gian đặc biệt là trong bối cảnh hệ thốngthông tin và giám sát ngày càng bùng nổ Vấn đề đặt ra là xây dựng được mộtgiải thuật và hệ thống có thể tự động nhận diện để tìm kiếm một cách chính xáchoặc thu hẹp phạm vi tìm kiếm một đối tượng tập dữ liệu của hệ thống camera

Tái định danh người, cũng giống như tái định danh một đối tượng, có haithách thức chính Thứ nhất, những hình ảnh của cùng một định danh đôi khi có

sự thay đổi khá rộng Việc này có thể xuất phát từ việc góc quay của các camerakhác nhau khiến một số vật thể không xuất hiện, tư thế của người thay đổi lúc

di chuyển hoặc thậm chí đối tượng thay đổi cả trang phục Thứ hai, sự khác

Trang 14

CHƯƠNG 1 GIỚI THIỆU

nhau giữa một số đối tượng là không rõ ràng ví dụ như những người có hìnhthể giống nhau, trang phục của mọi người giống nhau Để giải quyết hai vấn đềnày, giải thuật cần học được những đặc trưng có khả năng phân biệt tốt giữacác định danh Những đặc trưng này được ánh xạ trên một không gian nhiềuchiều mà ở đó độ đo khoảng cách thể hiện trực tiếp độ tương đồng giữa hai đốitượng Đây cũng là phương pháp phổ biến mà các nghiên cứu gần đây theo đuổi

Ngoài ra, những thách thức của bài toán để có thể ứng dụng thành công trongthực tế có thể kể đến là:

• Điều kiện ánh sáng phụ thuộc vào thời điểm trong ngày, thời tiết cũng nhưnhiều yếu tố khác Mỗi đối tượng dưới các nguồn sáng khác nhau có thể cócác chi tiết màu khác nhau

• Vấn đề về góc quay cao thấp, góc xoay, khoảng cách tới đối tượng và hướngnhìn đối tượng sẽ làm cho một đối tượng có những hình ảnh đa dạng Thêmvào đó, tùy vào vị trí đặt camera, đối tượng có thể bị che khuất bởi vật cản

• Một đối tượng có thể xuất hiện với nhiều trang phục khác nhau Yếu tố này

là rất khó để giải quyết khi đặc điểm ngoại hình của đối tượng đã thay đổinhưng hệ thống vẫn cần nhận diện được sự thay đổi đó

• Gắn nhãn dữ liệu là vấn đề không chỉ trong tái định danh, mà còn cho cácbài toán về học có giám sát nói chung Với một hệ thống camera lớn, việcgắn nhãn cho từng định danh thủ công tốn nhiều thời gian và công sức

Trang 15

Về ý nghĩa thực tiễn, nhận dạng người đóng một vai trò quan trọng trongcuộc sống hiện đại Nó giúp tiết kiệm thời gian tìm kiếm một đối tượng trongmột ngữ cảnh hẹp như toà nhà, trung tâm thương mại, quảng trường Tái địnhdanh người còn có thể áp dụng cho phạm vi rộng lớn hơn với hàng chục, hàngtrăm camera quan sát nhằm theo dấu vị trí mà một người đã đi qua Nhữngđiều này hỗ trợ tốt cho việc tìm kiếm người thất lạc, duy trì an ninh, truy bắttội phạm, theo dõi đường dây phạm pháp

1.3 Tình hình nghiên cứu

Hiện nay đã có những nghiên cứu liên quan đến tái định danh người và cáchtiếp cận của những nghiên cứu này là rất đa dạng Hình 1.1 thể hiện một sốhướng nghiên cứu mà tác giả đã khảo sát Một số nhóm nhà nghiên cứu tậptrung khai phá thông tin về không gian và thời gian trong tập dữ liệu, ví dụnhư st-ReID [2], spatiotemporal model [7] Trong đó, st-ReID đạt được kết quảchính xác đứng đầu trong tập dữ liệu Market-1501 Ngoài việc trích xuất đặctrưng của đối tượng, đặc điểm của hướng đi này là dùng thông tin về không thờigian để giới hạn phạm vi tìm kiếm Đây như là một bộ lọc những người khôngliên quan trong một thời điểm và vị trí cụ thể để tránh nhận dạng nhầm khi cácđối tượng có nhiều nét tương đồng Việc sử dụng thêm cả thông tin không thờigian giúp tăng độ chính xác nhưng lại cần một lượng lớn dữ liệu để huấn luyện

và chỉ áp dụng được cho một ngữ cảnh cụ thể

Hình 1.1: Một số hướng nghiên cứu tiêu biểu

Thời gian gần đây, hướng tiếp cận huấn luyện tập trung (attention) đang đượcnhiều nhà nghiên cứu theo đuổi, ví dụ như RGA [5], SCSN [6], MHN [8], ABD[9] Giải pháp này có thể hướng mô hình học tập trung vào những đặc trưng

Trang 16

CHƯƠNG 1 GIỚI THIỆU

nổi bật một cách tự động và đem lại hiệu quả tốt, tuy nhiên mô hình lại có rấtnhiều thông số cần phải học làm ảnh hưởng đến tốc độ tính toán và có thể họcquá khớp (overfitting) Bên cạnh huấn luyện tập trung, huấn luyện nhiều luồngcũng là một hướng đi mang lại hiệu quả, như OSNet [4], MGN [10], MLFN [11],Pyramid [12] Một trong những hướng đi khác nữa là khai thác thông tin về dángngười để học được những đặc trưng mang tính phân biệt hơn, ví dụ như PCBkết hợp RPP [3], PAFs [13] Thông thường, cách tiếp cận sẽ dựa trên việc ướclượng hình dáng của con người để từ đó hướng mô hình học tập trung vào cấutrúc ước lượng được Điều này đem lại kết quả tốt cho những tập dữ liệu có gócnhìn ngang nhưng trong thực tế thì hầu hết các camera có góc nhìn hướng xuống

Nhìn chung, các kết quả đạt được của các hướng nghiên cứu là rất tích cực.Một số mô hình thay thế Resnet50 trở thành nền tảng (baseline) cho các môhình về sau như OSNet, PCB Trong đó OSNet là một mạng có hiệu quả cao và

có ít thông số cần phải học Một số mô hình học tập trung (attention) được sửalại từ Resnet50 đạt kết quả rất tốt trên một tập dữ liệu nhưng thông số học cònkhá nhiều và có thể sẽ gặp hiện tượng học quá khớp nếu ứng dụng trên thực tế.Điều này mở ra một ý tưởng là kết hợp cách học tập trung với một mô hình nềntảng có ít thông số hơn Resnet50 để đạt hiệu suất tương tự, tránh tình trạnghọc quá khớp và tính toán nhanh hơn

1.4 Mục tiêu, phạm vi và đối tượng nghiên

cứu

1.4.1 Mục tiêu

Mục tiêu của Luận văn Tốt nghiệp là khảo sát và đánh giá các nghiên cứumới về bài toán tái định danh người để từ đó thay đổi, cải tiến, thử nghiệm vàđưa ra các kết quả Kết quả này cần đạt được độ tìm kiếm chính xác tốt hơn

mô hình gốc Từ đó, cung cấp những hướng đi và nhận xét cho chủ đề tái địnhdanh này

Trang 17

1.4.2 Phạm vi nghiên cứu

Phạm vi nghiên cứu của Luận văn là tái định danh người đi bộ trong ngữcảnh được ghi hình dưới nhiều camera Giả định rằng góc quay của các cameranày là không trùng lắp Điều kiện ánh sáng, góc quay, và độ cao của các cameranày là có thể khác nhau

1.4.3 Đối tượng nghiên cứu

Đối tượng nghiên cứu của Luận văn là các cách tiếp cận, các mạng học máy,học sâu theo những hướng như học tập trung (attention), học với ít thông số,

tự động làm giàu dữ liệu để giải quyết bài toán tái định danh người trong tậpcamera quan sát

1.5 Bố cục của luận văn

Chương 1: Giới thiệu: Tổng quan về nội dung, mục tiêu và cấu trúc luận văn

Chương 2: Cơ sở lý thuyết: Kiến thức nền tảng có liên quan đến đề tài

Chương 3: Các hướng tiếp cận và công trình liên quan

Chương 4: Phương pháp thí nghiệm: Trình bày các mô hình và thí nghiệm

Chương 5: Kết quả thực nghiệm: So sánh và đánh giá những thay đổi củacác thí nghiệm

Chương 6: Kết luận: Tổng kết kết quả đúc kết được trong quá trình nghiêncứu và hướng nghiên cứu tiếp theo trong tương lai

Trang 18

Chương 2

Cơ sở lý thuyết

Trong những năm trở lại đây, mạng học sâu (deep neural networks) đang trởthành một hướng đi lớn cho việc giải quyết các bài toán về trí thông minh nhântạo nói chung và các bài toán xử lý ảnh nói riêng Các mô hình tính toán với độphức tạp cao trước đây không hiện thực hoá được nay lại trở nên dễ dàng ứngdụng với sự phát triển mạnh mẽ của các thiết bị phần cứng Deep learning đangdần thống trị các lĩnh vực từ thị giác máy tính, xử lý ngôn ngữ tự nhiên haykhoa học dữ liệu Mạng học sâu cũng được ứng dụng trong bài toán tái địnhdanh với nhiều công trình nổi tiếng gần đây như tại [2], [3], [5], [7],

2.1 Mạng neuron nhân tạo

Mạng neuron nhân tạo là một đồ thị tính toán gồm các neuron là các núttính toán được liên kết với nhau Mỗi neuron bao gồm nhiều tín hiệu đầu vào

và một tín hiệu đầu ra Đầu ra được lấy tổ hợp tuyến tính của các dữ liệu đầuvào, sau đó sẽ qua một hàm kích hoạt phi tuyến Một neuron được biểu diễnnhư hình sau:

Trang 19

Hình 2.1: Sơ đồ tính toán một nút neuron

Hàm kích hoạt có tác dụng phi tuyến hóa đầu ra của neuron Một số hàmkích hoạt tiêu biểu là Sigmoid, T anh, ReLU, Hàm kích hoạt phải thỏa mãncác tính chất: (1) là hàm đồng biến (đạo hàm không âm) trên không gian sốthực để giữ được đặc tính so sánh của dữ liệu đầu vào và (2) có đạo hàm trêntoàn bộ không gian số thực để phục vụ cho việc tối ưu bằng gradient descent

Các trọng số của neuron sẽ được điều chỉnh trong quá trình học sao cho hợp

lý nhất Với mỗi nút neuron, khả năng biểu diễn tính toán có thể nhỏ nhưngliên kết nhiều nút lại với nhau sẽ giúp tăng khả năng biểu diễn chung của toànmạng Từ đó, mạng neuron có khả năng biểu diễn mọi hàm số phức tạp

2.2 Gradient descent và lan truyền ngược

Mục tiêu của gradient descent là điều chỉnh bộ tham số w để tối thiểu hóahàm mục tiêu L Ý tưởng chính của phương pháp là thay đổi w một lượng tỉ lệnghịch với đạo hàm của L

w ← w − α × ∂L

Ở công thức trên thì α là một hằng số, gọi là hệ số học (learning rate) thểhiện cho mức độ thay đổi trong việc cập nhật trọng số sau mỗi bước

Trang 20

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Hình 2.2: Sơ đồ tính toán hai nút neuron

Đối với mô hình như 2.2, khi áp dụng gradient descent để tinh chỉnh mạngnhằm tối thiểu hóa hàm mục tiêu, ta cần tính toán được các giá trị đạo hàmcủa hàm mục tiêu theo từng bộ tham số bao gồm:

để giải quyết vấn đề này trong quá trình học:

1 Bước lan truyền thuận: Dữ liệu được đưa vào mạng, tính toán và cho ra kếtquả Các dữ kiện cần thiết cho bước tính đạo hàm sẽ được lưu lại để phục

vụ tính toán

2 Bước lan truyền ngược: đạo hàm của hàm mục tiêu trên từng tham số trongmạng sẽ được tính toán bằng công thức đạo hàm của hàm hợp (chain-rule)

Sở dĩ gọi bước này là lan truyền ngược, vì đạo hàm của một nút lớp trước

sẽ được tính toán dựa trên đạo hàm đã tính của các nút phía sau gần hàmmục tiêu hơn

3 Bước cập nhật: Từng tham số trong mạng sẽ được cập nhật theo công thức

đã trình bày ở 2.1

Trang 21

2.3 Kiến trúc mạng học sâu tích chập

Đối với các bài toán về thị giác máy tính, dữ liệu ở dạng ảnh số chứa đếnhàng triệu điểm ảnh (pixel) Nếu đưa trực tiếp toàn bộ lượng thông tin này vàocác tầng kết nối đầy đủ (fully-connected layers), ta cần một tài nguyên tính toán

vô cùng lớn và vấn đề học quá khớp (overfitting) sẽ dễ gặp phải với lượng tham

• I c I ×wI×hI là ảnh hoặc tensor đầu vào với cI kênh và kích thước wI × hI

• K c H ×cI×wK×hK là kernel của phép chập với cH là số chiều của tensor đầura

• I[c] ⊗ K[z, c] là phép tích chập đơn kênh trên kênhc của tensor đầu vàoI

và kernel là lát cắt K[z, c]

• H c H ×wH×hH là tensor đầu ra của phép tích chập

Trong mạng neuron, một lớp tính toán tích chập là một phép tích chập đakênh với kernel là bộ tham số Mỗi kênh trong tensor đa kênh được gọi là mộtfeature map, nói cách khác ảnh đa kênh được gọi là một bộ feature map Mỗigiá trị ở đầu ra sẽ không được tính trên toàn bộ đầu vào, mà chỉ được tính từmột vùng quan sát (receptional field) Điều này thỏa mãn giả thiết rằng thôngtin từ các điểm ảnh nằm gần nhau sẽ có ý nghĩa hơn các điểm ảnh nằm xa nhau.Với ý tưởng này, lớp tích chập giảm đáng kể lượng trọng số trong một lớp, đồngthời giữ được tính cục bộ hóa của dữ liệu

Trang 22

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Hình 2.3: Ví dụ mình hoạ cho tích chập

Mạng học sâu có sử dụng các lớp tích chập làm thành phần chính được gọi

là Convolutional Neural Networks (CNN) Các mạng CNN tỏ ra hiệu quả chocác bài toán xử lý ảnh số Nhiều kiến trúc CNN tỏ ra vượt trội hơn so với cácphương thức xử lý ảnh truyền thống Ngoài ra, CNN cũng được ứng dụng nhiềulĩnh vực khác như xử lý tín hiệu số, ảnh đa khoa, Các kĩ thuật và mô hìnhbiến thể cũng ra đời để cải thiện và ứng dụng CNN trong nhiều bài toán khácnhau

2.4 Một số lớp tính toán trong CNN

2.4.1 Lớp Pooling

Trong quá trình tính toán, lớp pooling có thể được dùng cho việc thu giảmkích thước các feature map Điều này giúp giảm bớt khối lượng tính toán cholớp tiếp theo, đồng thời chỉ giữ lại những đặc trưng đại diện cần thiết Mô tảtrực quan của phép pooling được thể hiện ở hình dưới

Hình 2.4: Mô tả trực quan lớp pooling

Trang 23

Phép pooling gần giống phép convolution ở chỗ mỗi điểm ảnh ở đầu ra sẽtương ứng với một vùng quan sát ở đầu vào Tuy nhiên, sự khác biệt của haiphép tính toán là:

• Mục tiêu của lớp convolution là trích xuất đặc trưng còn lớp pooling là lấymẫu đại diện để thu giảm kích thước feature map

• Lớp convolution có tham số thể học được còn lớp pooling không có tham

số Các giá trị đại diện trên từng vùng được lấy theo một hàm lấy mẫu cốđịnh như trung bình, phần tử lớn nhất,

• Vùng quan sát của phép convolution thường chồng lấp (lệch nhau một điểmảnh) còn phép pooling thì có vùng quan sát riêng biệt cho mỗi điểm ảnh ởđầu ra

2.4.2 Lớp BactchNorm

Dữ liệu khi đi qua các lớp tính toán sẽ được ánh xạ từ phân phối đầu vàosang một phân phối khác ở đầu ra Vì phân phối dữ liệu qua từng lớp là khácnhau, nếu như toàn bộ tham số trong mạng được tối ưu theo một hệ số học(learning rate), quá trình học sẽ là không công bằng giữa các lớp Để giải quyếtvấn đề này, dữ liệu qua mỗi tầng tính toán được chuẩn hóa về phân phối có giátrị trung bình mean = 0 và độ lệch chuẩn đơn vị bằng 1 Việc biến đổi này cóthể được thực hiện bằng biến đổi tuyển tính, tức là chỉ chuẩn hoá trung bình và

độ lệch chuẩn để giữ nguyên dạng phân phối đầu vào

BatchN orm(xi) = xi − x

Trong đó:

• x i là dữ liệu đầu vào

• x là giá trị kỳ vọng của phân phối chứa xi Tham số này được lấy bằngcách tính trung bình của tất cả các giá trị được truyền qua lớp

• σ x là độ lệch chuẩn của phân phối chứa xi Tham số này được lấy bằngcách tính độ lệch chuẩn của tất cả các giá trị được truyền qua lớp

Trang 24

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.4.3 Lớp BNNeck

Hầu hết các mô hình đạt kết quả cao thường kết hợp cả triplet loss và IDloss như được thể hiện trong hình 2.5 Tuy nhiên, việc kết hợp 2 loại hàm mụctiêu này đôi khi gây nên sự không nhất quán với mục tiêu ban đầu của mỗi hàmmục tiêu

Hình 2.5: ID loss kết hợp triplet loss

Mục tiêu của ID loss là tách vector đặc trưng của mỗi lớp theo những hướngkhác nhau trong không gian con Vì vậy việc sử dụng khoảng cách cosin sẽ phùhợp hơn khoảng cách euclid Còn mục tiêu của triplet loss (2.7.1) là tối thiểuhoá khoảng cách các phần tử trong lớp và tối đa hoá khoảng cách các phần tử

ở các lớp khác nhau Triplet loss sử dụng khoảng cách euclid Trong quá trìnhhọc, có thể giá trị của một loss giảm đi lại làm tăng giá trị của hàm loss kia.Kết quả học của 2 hàm losses được thể hiện trực quan trọng hình 2.6 (a, b)

Trang 25

Hình 2.6: So sánh ảnh hưởng của các hàm losses [1]

BNNeck thêm một lớp BN nằm ở trước lớp FC và đầu vào của lớp BN này

là vector đặc trưng Gọi vector ft và fi lần lượt là vector trước và sau lớp BN.Vector f t sẽ được dùng cho việc học triplet còn vector f i sẽ qua thêm một lớp

FC để dùng ID Loss Sau quá trình huấn luyện,fi sẽ được dùng làm vector đặctrưng và kiểm thử mô hình Trong hình 2.6 (g),ft không chỉ gom cụm phân bốcủa các lớp mà còn học được những đặc tính từ ID loss

Hình 2.7: Sơ đồ BNNeck

Trang 26

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.5 Chiến lược huấn luyện mạng học sâu

2.5.1 Học theo epoch

Học theo epoch là chiến lược học được hình thành dựa trên ý tưởng của giảithuật batch gradient descent Một mô hình huấn luyện theo epoch sẽ trải quanhững bước sau:

1 Toàn bộ tập dữ liệu huấn luyện được xáo trộn thứ tự

2 Tập huấn luyện được chia thành các phần nhỏ liên tục có kích thước bằngnhau, gọi là các batch Mỗi mẫu dữ liệu sẽ chỉ thuộc về đúng một batch

3 Từng batch dữ liệu được đưa qua mô hình, lan truyền thuận, ngược và tốiưu

Một chu trình như trên được gọi là một epoch và tập huấn luyện được duyệtqua đúng một lần trong một epoch Ưu điểm của cách huấn luyện này là:

• Mô hình được đảm bảo nhìn thấy mỗi mẫu dữ liệu ít nhất một lần cho mỗiepoch

• Vì các mẫu dữ liệu có cơ hội xuất hiện là như nhau nên phân phối của tập

dữ liệu đầu vào cũng được đảm bảo

Cách huấn luyện theo epoch này sẽ gặp nhiều khó khăn với các trường hợpsau:

• Trong trường hợp dữ liệu bị mất cân bằng, mô hình sẽ có xu hướng họcthiên về các mẫu dữ liệu có tần suất xuất hiện cao hơn

• Với các mô hình đặc biệt như triplet, việc học theo epoch không hiệu quảkhi việc duyệt qua toàn bộ các tổ hợp mẫu của tập huấn luyện là khôngthể

Trang 27

2.5.2 Học theo episode

Học theo episode [14] là một hướng huấn luyện dựa trên việc lấy mẫu ngẫunhiên Thuật ngữ này bắt nguồn từ học tăng cường (reinforcement learning),khi dữ liệu là không cố định Với cách huấn luyện này, ta có thể kiểm soát đượcphân phối dữ liệu trên mỗi lần lấy mẫu Cụ thể, một mô hình huấn luyện theoepisode sẽ trải qua các bước:

1 Từ tập dữ liệu huấn luyện, chọn ra một số mẫu theo một tiêu chí nào đó.Tiêu chí ở đây có thể là theo một số lớp cố định, theo số mẫu cố định, hoặctheo một phân phối bất kì

2 Các mẫu đã chọn sẽ được lan truyền thuận qua mô hình, và lan ngược đểcập nhật trọng số

Một chu trình như vậy gọi là một episode Dễ thấy rằng sự khác biệt cơ bảngiữa hướng huấn luyện episode và epoch là tính ngẫu nhiên trong quá trình lấymẫu Ở hướng huấn luyện theo epoch, các mẫu được lấy tuần tự từ danh sáchđược xáo trộn của tập huấn luyện, trong khi ở episode, các mẫu được lấy ngẫunhiên và hoàn toàn có thể lặp lại giữa các episode với nhau Ưu điểm của hướngtiếp cận này là kiểm soát được phân phối các mẫu và giải quyết được vấn đề

về mất cân bằng dữ liệu, hoặc phục vụ việc lấy mẫu đặc thù cho các chiến lượchuấn luyện đặc biệt

Tuy nhiên, huấn luyện theo episode cũng gặp phải nhiều hạn chế như:

• Không bao quát được toàn bộ dữ liệu vì mỗi episode đều là phép lấy mẫungẫu nhiên có lặp từ tập huấn luyện, mô hình có khả năng bỏ qua mộtlượng các mẫu do tính ngẫu nhiên Để bao trùm được hết các mẫu này, sốepisode cần lấy phải vô cùng lớn

• Thông tin phân phối ban đầu của dữ liệu sẽ có một phần bị mất Điều nàyvừa là mặt tốt khi ta loại bỏ được các phân phối không mong muốn Tuynhiên trong trường hợp thông tin về phân phối đó là quan trọng, chiến lượchọc này lại bỏ lỡ một lượng thông tin cần thiết

Trang 28

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.6 Các độ đo thường gặp

2.6.1 Độ chính xác

Độ chính xác (accuracy) là một phương pháp đơn giản và hay được sử dụng

để đánh một mô hình Độ chính xác được định nghĩa là tỉ lệ mẫu dữ liệu được dựđoán đúng trên tổng tất cả các mẫu dữ liệu được dự đoán Trong nhiều trườnghợp, độ chính xác càng cao thể hiện model càng tốt Tuy nhiên, trong trườnghợp dữ liệu không cân bằng giữa các lớp tức là có một số lớp có số lượng áp đảothì độ đo chính xác lại không phải một độ đo khách quan Để có độ đo tốt hơn

và không phụ thuộc vào tỉ lệ của các lớp trong dữ liệu, người ta dùng Precision,Recall và các độ đo dẫn suất từ đó

2.6.2 Precision và Recall

True/False Positive/Negative

Trong một bài toán phân lớp, khi mô hình đưa ra quyết định rằng một mẫu

dữ liệu thuộc về một lớp nào đó, kết luận ấy có thể thuộc về một trong cáctrường hợp sau:

• True Positive (TP): Kết luận mẫu thuộc về một lớp, kết luận đúng

• False Positive (FP): Kết luận mẫu thuộc về một lớp, kết luận sai

• True Negative (TN): Kết luận mẫu không thuộc về một lớp, kết luận đúng

• False Negative (FN): Kết luận mẫu không thuộc về một lớp, kết luận sai

Precision và Recall

Precision được định nghĩa là tỉ lệ số mẫu true positive (TP) trong số nhữngmẫu được phân loại là positive (TP + FP) Trong ví dụ trên, TP là tỷ lệ củanhững người thật sự nhiễm COVID19 trong số những trường hợp ta dự đoán là

có bệnh

P recision = T P

T P + F P (2.6)

Trang 29

Recall được định nghĩa là tỉ lệ số mẫu true positive (TP) trong số những mẫuthực sự là positive (TP + FN) Trong ví dụ trên, Recall biểu thị trong số ngườithực sự có bệnh, có bao nhiêu người được mô hình của chúng ta dự đoán đúng.

Recall = T P

T P + F N (2.7)

Một mô hình phân lớp tốt là mô hình có cả Precision và Recall đều cao, tức

là càng gần 1 càng tốt Trong thực tế, ta cần chọn tối ưu Precision hay Recalltùy vào trường hợp bài toán Nói cách khác:

• Tối ưu Precision: Trong trường hợp mỗi mẫu dương mô hình đưa ra đều cầnchắc chắn chính xác, dù có thể bỏ sót các mẫu dương khác Một số trườnghợp giá trị Precision cần được ưu tiên như đề xuất từ khóa tìm kiếm trênGoogle,

• Tối ưu Recall: Mô hình không được phép bỏ sót mẫu dương, hay “chọn nhầmhơn bỏ sót” Recall cần được chú trọng trong các trường hợp mà việc bỏ sótmẫu dương không được cho phép như xét nghiệm dịch bệnh, tội phạm,

Riêng với bài toán tái định danh, độ đo Recall nên được xem trọng hơn, vì

ta cần đảm bảo đối tượng cần được tìm không bị bỏ sót Việc trả kết quả nhầm

có thể được kiểm chứng lại bằng mắt thường

2.7 Các hàm mất mát

2.7.1 Triplet loss

Một trong những chiến lược huấn luyện nhằm giúp mô hình học trực tiếp biểudiễn khoảng cách đặc trưng là triplet learning [15] Triplet learning học trên cácmẫu là các bộ ba (triple) ảnh, trong đó bao gồm anchor là ảnh làm gốc, positive

là ảnh thuộc cùng định danh hay cùng một lớp với anchor và negative là mộtảnh khác định danh với anchor Ý tưởng của triplet learning được thể hiện ởhình 2.8

Trang 30

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Hình 2.8: Ý tưởng triplet learning

Hàm Triplet loss được mô tả ở công thức dưới và quá trình hình luyện đượcthể hiện ở hình 2.9

Ltriplet(ua, up, un) = max(D(ua, up) − D(ua, un) + m, 0) (2.8)

Trong đó:

• f là bộ trích đặc trưng

• u a, up, un lần lượt là biểu diễn của các vector đặc trưng anchor, positive

và negative trong không gian so sánh

• mlà một hằng số thể hiện khoảng cách từ ảnh negative tới anchor phải lớnhơn khoảng cách từ positive tới anchor một lượng m

Hình 2.9: Quá trình triplet learning

Triplet learning nhằm đồng thời tối thiểu hóa khoảng cách giữa các mẫu cùng

Trang 31

2.7.2 Center loss

Ý tưởng của center loss cũng gần giống triplet loss, đó là tối ưu hoá khoảngcách giữa các vector đặc trưng Center loss sẽ gom cụm các phần tử trong mộtlớp về gần điểm trung tâm x yi của lớp đó như công thức dưới

đề này center loss sẽ

• cập nhật xyi trên từng mini-batch bằng cách trung bình cộng của các mẫucùng một lớp,

• gán thêm hệ số α để điều khiển tốc độ học và tránh sự thay đổi quá lớn vìđánh nhãn nhầm trong quá trình học

Gradients của LC và công thức cập nhật xyi được thể hiện như sau:

1 + P m

i=1 δ(yi = i) (2.11)

Trong đó δ(condition) = 1 nếu condition = 1 và ngược lại

Trang 32

đi mà tác giả đã khảo sát.

3.1 Bài nghiên cứu Spatial-Temporal Person

Re-identification

Các mô hình tái định danh thường chỉ tập trung giải quyết vấn đề trích xuấtđặc trưng ảnh, tức là ánh xạ ảnh đầu vào sang không gian đặc trưng mà ở đótồn tại độ đo khoảng cách biểu thị độ giống nhau giữa các bức ảnh Mô hìnhst-ReID, viết tắt của spatial-temporal person re-identification, là mô hình táiđịnh danh sử dụng thêm yếu tố không thời gian nhằm loại bỏ số lượng lớn cáchình không liên quan trong cơ sở dữ liệu

Ý tưởng chính của nghiên cứu là ước lượng phân bố xác suất mà một cặpảnh cùng một định danh (positive image) xuất hiện ở 2 camera trong khoảngthời gian∆t Việc một định danh xuất hiện ở cặp camera bất kỳ là yếu tố không

Trang 33

gian và trong ∆t là yếu tố thời gian Về mặt trực quan, nếu xác suất xuất hiệnmột định danh ở 2 camera trong khoảng thời gian ∆t bằng 0 thì ta có thể loại

bỏ những tấm hình trong cơ sở dữ liệu thuộc khoảng thời gian này của 2 camera

ra khỏi tập tìm kiếm

Mô hình st-ReID bao gồm 3 phần:

• Phần trích xuất đặc trưng và tính khoảng cách (visual feature stream)

• Phần xử lý thông tin không thời gian (spatial-temporal stream)

• Phần kết hợp 2 độ đo trên để ra kết quả cuối cùng (joint metric)

Trang 34

CHƯƠNG 3 CÁC HƯỚNG TIẾP CẬN VÀ CÔNG TRÌNH LIÊN QUAN

gian∆t Quy ước (IDi, ci, tj) và (IDj, cj, tj) lần lượt là ký hiệu cho nhãn địnhdanh, mã camera (ID), và thời gian lưu hình của 2 tấm ảnh Việc ước lượng nàydùng thống kê tạo ra biểu đồ tần suất (histogram) không thời gian như sau:

p(y = 1|xi, xj, k, ci, cj) = s(xi, xj)p(y = 1|k, ci, cj) (3.3)

Tuy nhiên, độ đo khoảng cách vector đặc trưng không thể hiện xác suất 2 ảnhgiống nhau p(y = 1|xi, xj) 6= s(xi, xj); và xác suất p(y = 1|k, ci, cj) không ổnđịnh có nhiều histogram bin bằng 0 vì quỹ đạo và vận tốc đi lại của người đi bộrất biên thiên Dựa trên ý tưởng giảm thiểu xác suất 0 của laplace smoothing,

sử dụng hàm Logistic f (x, λ, γ) = 1/(1 + λe−γx) ta có:

P joint = f (s(x i , x j ), λ 0 , γ 0 ) × f (p(u = 1|k, c i , c j ), λ 1 , γ 1 ) (3.4)

Công thức trên biến đổi độ đo khoảng cách thành xác suất 2 ảnh cùng thuộcmột lớp (binary classification probability) và loại bỏ sự không chắc chắn (nhiềubin bằng 0) của việc ước lượng phân bố không thời gian vì hàm logistic trênluôn lớn hơn f (0) = 1/(1 + γ)

Điểm mạnh của nghiên cứu là vừa khai thác thông tin đặc trưng ảnh và vừakhai thác thông tin về không thời gian nên cho kết quả chính xác hơn Mô hình

có thời gian truy xuất kết quả nhanh vì loại bỏ được rất nhiều những hình ảnhkhông liên quan trong cơ sở dữ liệu nhờ vào thông tin không thời gian Độ chínhxác trên tập Market1501 là 98.2% Rank-1 và 92.7% mAP

Trang 35

Điểm yếucủa nghiên cứu là cần khối lượng dữ liệu rất lớn để ước lượng thông

số xác suất không gian và thời gian Mặt khác phân bố xác suất này có thể thayđổi theo thời gian chứ không cố định và mỗi một khu vực sẽ lại có một phân

bố xác suất khác nên giải pháp này vẫn chưa giải quyết được trường hợp tổngquan cho tất cả các tập camera khác nhau

3.2 Bài nghiên cứu Beyond Part Models:

Person Retrieval with Refined Part

Pooling

Như đã đề cập trong phần 1.1, muốn giải quyết được những thách thức củabài toán, mô hình cần trích xuất được những đặc trưng có tính phân biệt cao Đểđạt được điều này, bên cạnh thông tin toàn cục, nhiều nhà nghiên cứu đã kết hợpkhai thác thêm thông tin cục bộ trong bức hình, ví dụ như phần thân người, tay,chân Điều tiên quyết trong việc trích xuất đặc trưng cục bộ là các phần trongbức hình phải được định vị chính xác Một số mô hình sử dụng bộ ước lượng tưthế con người để xác định những phần này Tuy nhiên việc này có điểm hạn chế

là sự không giống nhau giữa tập dữ liệu huấn luyện của bộ ước lượng và của

bộ tái định danh gây nên hiện tượng sai lệch (bias) trong ước lượng tư thế người

Ý tưởng chính của nghiên cứu là giải quyết vấn đề nói trên bằng cách chiađều tấm hình thành các phần bằng nhau, ví dụ như chia thành 6 phần, và tríchxuất đặc trưng cục bộ cho những phần này Hơn thế nữa, nghiên cứu còn xâydựng mô hình để sắp xếp lại các bộ phận từ những phần đều nhau để giải quyếttrường hợp các bộ phận nằm trải trên nhiều phần bằng nhau của bức hình Hai

ý tưởng này cũng chính là động cơ cho 2 đóng góp lớn của bài báo:

• Mạng Part-based Convolutional Baseline (PCB): Cho đầu vào là một tấmhình, mạng sẽ xuất ra một vector đặc trưng được ghép từ các đặc trưng cục

bộ Các đặc trưng cục bộ này được trích xuất từ các phần được chia đềunhau theo chiều dọc của tấm hình trước đó

• Refined part pooling (RPP): Việc chia tấm hình đều nhau sẽ làm xuất hiện

Trang 36

CHƯƠNG 3 CÁC HƯỚNG TIẾP CẬN VÀ CÔNG TRÌNH LIÊN QUAN

những phần tử ngoại lệ trong mỗi phần, tức là những phần tử được gáncứng vào phần này nhưng đáng lý nên được gán vào một phần khác Refinedpart pooling sẽ gán lại những phần tử vô những phần thích hợp

Kiến trúc mạng PCB:

Hình 3.2: Mô hình mạng PCB [3]

Trong kiến trúc backbond, như Resnet50, ảnh đầu vào PCB sau khi qua mạngtích chập sẽ trở thành một tensor 3 chiều T trước khi qua lớp GAP (Global Av-erage Pooling) PCB sửa lại kiến trúc backbond này bằng cách thay GAP thành

AP (Average Pooling) cho từng phần, mỗi phần được chia đều từ tensorT Mỗiphần sau khi qua AP sẽ qua thêm một lần tích chập để giảm số chiều, sau đóđưa qua lớp FC (Fully Connected) để huấn luyện nhận diện định danh

PCB lấy tensor T ở trước tầng cuối cùng nhằm tăng thêm độ giàu dữ liệu

để trích các đặc trưng mang tính phân biệt cao hơn Sau khi huấn luyện xong

có thể lấy đặc trưng là vector g hoặc vectơ h như trong hình để đo độ tương

tự giữa các đối tượng Trong đó, vectơ g có kích thước lớn hơn và có tính phânbiện tốt hơn vectơ h

Refined part pooling: Ý tưởng của RPP là một vectơf (theo chiều channel)trong một phần P i nên có độ tương tự gần với nhau RPP sẽ tính xác suất màmột vectơ f thuộc một phần Pi và gán vectơ f vô Pi nếu xác suất đủ lớn

P (P i |f ) = sof tmax(WiTf ) = exp(W

T

i f )

P p j=1 exp(W T

j f ) (3.5)

Trong công thức trên, p là số phần, W là bộ trọng số có thể học, P (Pi|f )

Trang 37

là xác xuất f thuộc Pi RPP này sẽ thay thế lớp AP của mạng PCB và gán lạicác nhóm cục bộ ví dụ như hình sau:

Hình 3.3: Trực quan hoá cách hoạt động RPP [3]

Cách huấn luyện mô hình RPP:

• Huấn luyện mạng PCB

• Bỏ lớp AP và thay bằng RPP Lớp RPP đóng vai trò là bộ phân lớp p phần

• Cố định thông số đã học ở PCB, huấn luyện lại mạng để học trọng số trongRPP

PCB kết hợp RPP:

Hình 3.4: Mô hình PCB kết hợp với RPP [3]

Điểm mạnh của nghiên cứu là không dựa trên các bộ ước lượng các phầncủa con người nên có độ ổn định cao hơn Ngoài ra, PCB chia các phần đềunhau nên có kiến trúc mạng đơn giản và hiệu quả Ngoài ra, mạng có khả năng

tự động gán các phần có liên quan lại với nhau bằng RPP Kết quả đạt được

Ngày đăng: 02/08/2024, 17:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN