GIỚI THIỆU
ĐẶT VẤN ĐỀ
Ở các quốc gia có tốc độ CNH-HĐH chưa cao, XD là ngành luôn có một vai trò rất quan trọng Tỷ lệ việc làm và GDP của một quốc gia được quyết định phụ thuộc vào ngành XD[1], [2] Các thống kê cho thấy, ở các quốc gia này, một nửa ngân sách đầu tư được dùng để nâng cao CSVC, hoàn thiện kết cấu HTĐT, từ đó đáp ứng một loạt các tiệu chí về vật chất, kinh tế và xã hội, góp phần thúc đẩy phát triển mục tiêu chung quốc gia Quy mô, tầm ảnh hưởng, và sự kết nối của ngành XD với mọi hoạt động kinh tế khác biến đây trở thành một đầu tàu, chất xúc tác và là lĩnh vực hấp dẫn để chuyển giao, hấp dẫn đầu tư và tạo cơ hội thúc đẩy phát triển hơn nữa các hạ tầng, công nghệ gắn liền mục tiêu của các quốc gia đã và đang phát triển [3], [4], [5]
Theo World Market Intelligence (2010), không ngành công nghiệp đơn lẻ nào trên thế giới có lực lượng lao động lớn hơn ngành XD Theo thống kê trong các bài báo cáo uy tín thế giới là Global Construction Perspective và Oxford Economics (2013), vào năm 2025 tỷ trọng lĩnh vực này sẽ tăng 6,3 nghìn tỷ USD thành 15 nghìn tỷ USD (tăng 70%) so với cùng kỳ vào năm 2012 Điển hình là các dự án lớn tiêu biểu, mang quy mô tầm thế giới đã và đang trong quá trình hoàn thiện như dự án Đảo Saadiyat (Abu Dhabi, UAE) với TMĐT
26 tỷ USD, dự án tỏ hợp khách sạn Marina Bay Sands (Singapore) với TMĐT 5.7 tỷ USD Để ngành XD phát triển theo đúng định hướng thì tồn tại nhiều khía cạnh cần cải thiện Một số các yếu tố ảnh hưởng như: HTĐT, tốc độ đô thị hóa, định hướng quy hoạch khu vực, nhu cầu về chất lượng cuộc sống của người dân, Mỗi yếu tố đều tác động to lớn đối với định hướng phát triển chung của ngành nói riêng và nền kinh tế nói chung
Trong quá trình CNH-HĐH của nước ta, ngành XD đóng vai trò quan trọng và thiết yếu nhất, đóng góp lớn vào sự tăng trưởng của nền kinh tế quốc dân, có sự liên kết sâu sắc đến sự phát triển của nhiều ngành khác, ngoài ra phát triển ngành XD còn là mục tiêu cấp thiết, làm tiền đề để giải quyết các vấn đề an sinh xã hội
Các năm vừa qua, chính phủ nước ta đã có nhiều chính sách nhằm thúc đẩy phát triển ngành XD Bằng chứng là những hướng giải quyết, chủ trương bằng các văn bản quy phạm pháp luật mới ra đời Ví dụ như Quyết định số 28/QĐ-BXD, ngày 20/01/2022 với mục tiêu quan trọng năm 2022 ngành XD tăng trưởng đạt con số 5-5.6% Trước đó vào tháng 01/2022, Nghị quyết 01/NQ-CP và Nghị quyết 02/NQ-CP cũng đã lần lượt được chính phủ ban hành với các nội dung chính là thực hiện kế hoạch phát triển KT-XH và mở rộng NSNN, nâng cao tính cạnh tranh, thúc đẩy hệ sinh thái cơ sở kinh doanh, sản xuất Các động thái này đã làm rõ ràng hơn quyết tâm của bộ máy lãnh đạo nhà nước, bên cạnh đó đưa ra kế hoạch cụ thể cần phấn đấu đạt được của ngành XD trong năm 2022: 5-5.6% cho GDP và 41.5-42% cho tỉ lệ đô thị hóa [6]
Bên cạnh những chủ trương tích cực, công tác giải quyết các vấn đề tồn đọng, ngay cả là nhỏ nhất, cũng vô cùng cấp thiết Nhiều năm qua, ATLĐ luôn là một vấn đề nan giải cho các công trình XD nói riêngvà ngành XD nói chung Bắt nguồn từ nhiều yếu tố khách quan lẫn chủ quan, người lao động thường xuyên phải làm việc trong môi trường nguy hiểm mà các biện pháp bảo hộ lại không đảm bảo đúng yêu cầu, sức khỏe và tính mạng của họ luôn trong tình trạng bị đe dọa
Diễn biến ngoài thực tế cho thấy đã và đang xảy ra nhiều vụ TNLĐ, gây ra những tổn thất lớn về tài sản, tính mạng cũng như làm giảm uy tín trong công tác ATLĐ của ngành
XD Theo thống kê về tình hình TNLĐ xảy ra trên cả nước do Bộ LĐ-TB và XH công bố hàng năm, việc người lao động “Vi phạm các quy trình, biện pháp về ATLĐ” là một trong những nguyên nhân hàng đầu dẫn đến TNLĐ Cụ thể, trong năm 2021, trên cả nước xảy ra 5,797 vụ TNLĐ làm số người chết lên đến 602 người, số người bị thương nặng là 1,226 người Ở các lĩnh vực khác như: sản xuất vật liệu, cơ khí, dệt may, khai thác mỏ, thì ngành XD chiếm 10.61% tổng số vụ TNLĐ gây thiệt mạng, trong đó có 10.26% số người chết Tổ chức lao động và điều kiện lao động; người sử dụng lao động không có quy trình, biện pháp an toàn; người sử dụng lao động không huấn luyện ATLĐ hoặc huấn luyện chưa đầy đủ; người lao động không sử dụng phương tiện bảo vệ cá nhân và TB BHLĐ; được xem là những nguyên nhân chính [7], [8]
Có thể thấy, tất cả những yếu tố trên đều liên quan đến quy trình kiểm soát ATLĐ tại các cơ sở, tổ chức có quy mô từ nhỏ đến lớn Nguyên nhân của các vấn đề này thực chất là gì? Phải chăng do những điều kiện về ATLĐ, bảo hộ lao động chưa được đảm bảo cho người lao động, hay do hình thức tham gia lao động, sự hiểu biết của công nhân, người lao động chưa tốt, hay kiến thức về những văn bản quy phạm pháp luật liên quan đến ATLĐ chưa được phổ biến rộng rãi đến những cá nhân, tổ chức Nhìn chung, phần lớn nguyên nhân các vụ TNLĐ chủ yếu bắt nguồn từ yếu tố ý thức con người Do vậy, việc ngăn ngừa TNLĐ trước tiên phải bắt đầu từ ý thức tự bảo vệ bản thân của người lao động, chấp hành đúng nội quy, quy trình ATLĐ tại nơi công tác
Ngày nay, trong thời đại 4.0 bùng nổ mạnh mẽ, AI đã và đang có nhiều tác động tích cực đến tất cả mọi mặt của đời sống trên thế giới Sơ lược về AI: AI là viết tắt của Artifical Intelligence, là một ngành thuộc lĩnh vực khoa học máy tính (Computer Science), là trí tuệ do con người lập trình nên với mục đích giúp máy tính có thể ‘‘suy nghĩ” và ‘‘hành động” như con người một cách tự động Nói cách khác, AI giúp máy tính có được những trí tuệ của con người như: tự giải quyết vấn đề bằng các ý tưởng và lập luận, biết giao tiếp bằng các ngôn ngữ được lập trình, biết học và thích nghi với mọi tình huống,…[9]
Bằng cách sử dụng mô hình công nghệ và kỹ thuật đặc thù, AI tạo ra hệ thống, ứng dụng thông minh, giúp con người giải quyết các vấn đề, công việc yêu cầu trí tuệ
Lĩnh vực XD cũng không ngoại lệ AI sẽ mang lại hiệu quả thiết thực trong công tác quản lý nói chung và trong vấn đề ATLĐ nói riêng trong các dự án XD, giúp giám sát toàn diện hơn vấn đề an toàn nơi công trường cũng như giảm thiểu, ngăn ngừa các nguy cơ xảy ra sự cố cho người lao động [9].
MỤC TIÊU NGHIÊN CỨU
Mục tiêu nghiên cứu của luận văn này là ứng dụng mô hình AI để kiểm soát, nâng cao chất lượng kiểm soát và quản lý công tác ATLĐ trên các công trường XD ở nước ta:
- Trình bày cơ sở lý thuyết, cung cấp dữ liệu đầu vào
- Trình bày cơ sở lý thuyết, xác định dữ liệu đầu ra mong muốn
- Tiến hành thực hiện kiểm tra kết quả đạt được để rút kinh nghiệm, hoàn thiện, đồng thời đưa ra kết luận và tính khả quan của công cụ.
ĐỐI TƯỢNG NGHIÊN CỨU
- Tình hình ATLĐ của công trường XD, công nghệ AI AI và ứng dụng AI vào công tác kiểm soát ATLĐ trên công trường
- Phạm vi nghiên cứu là công tác kiểm soát ATLĐ tại một công trường XD bất kỳ.
ĐÓNG GÓP CỦA LUẬN VĂN
- Luận văn cung cấp cái nhìn tổng quát về một trong các công tác quan trọng ảnh hưởng đến sức khỏe và tính mạng của người lao động trong ngành XD, cụ thể là công tác kiểm soát ATLĐ trên công trường
- Luận văn cung cấp kiến thức về công nghệ AI đã và đang là xu hướng của thế giới
- Luận văn cung cấp công cụ mới là ứng dụng tích hợp công nghệ AI, giúp cải thiện công tác quản lý, kiểm soát chất lượng của giai đoạn thi công công trình XD
- Luận văn giúp các đơn vị tham gia một dự án XD dễ dàng hơn trong việc kiểm soát vấn đề quan trọng liên quan đến sức khỏe, tính mạng của người lao động: ATLĐ.
CƠ SỞ LÝ THUYẾT
TÓM TẮT QUY TRÌNH – SƠ ĐỒ KHỐI
• Bước 1: Nhận thức được tình hình kiểm soát ATLĐ trên các công trường XD ở nước ta và xác định công cụ ứng dụng
Do quy trình các công tác trên công trường rất phức tạp, thêm vào đó môi trường làm việc mang nặng chuyên môn kỹ thuật cao, nên sự phối hợp nhịp nhàng, công tác kiểm soát và quản lý đóng vai trò vô cùng quan trọng Tuy nhiên, chỉ bằng các phương pháp truyền thống, công cụ thủ công dường như không mang lại hiệu quả cao, bắt nguồn từ các yếu tố khách quan, từ đó tiềm ẩn nhiều rủi ro Sự hỗ trợ của một công cụ theo xu hướng công nghệ là vô cùng cần thiết để giải quyết vấn đề này
Với sự bùng nổ của AI, cùng với các chức năng ML và DL đã mang lại những ứng dụng to lớn trong các lĩnh vực khác nhau của đời sống Và trong luận văn này, công cụ được sử dụng là kỹ thuật Object Detection (OD), Face Detection (OF) với các thuật toán và mô hình sẽ được giới thiệu trong phần sau
• Bước 2: Giới thiệu sơ lược các công cụ DL và ML
DL – viết tắt là DL, là một chức năng của AI, được XD để xử lý dữ liệu thông qua việc bắt chước các hoạt động của bộ não con người, từ đó đưa ra quyết định DL có thể được xem là một lĩnh vực con của ML – từ các thuật toán, máy tính sẽ tự học và cải thiện
DL sử dụng mạng Nơron nhân tạo để sao chép cách tư duy, suy luận và khả năng giải quyết vấn đề của con người.[10], [11]
Hình 1 Hoạt động sơ bộ của AI, ML và DL Để xử lý được các tập dữ liệu có kích thước lớn và thực hiện các giải thuật phức tạp, đòi hỏi hệ thống DL phải có phần cứng (CSVC) đủ mạnh
➢ Điếm nổi bật của DL:
DL có các ưu điểm nổi bật như:
- Dễ dàng thay đổi cấu trúc linh hoạt theo mức độ vấn đề nhờ có kiến trúc mạng linh hoạt
- Giải quyết được nhiều bài toán, ngay cả phức tạp nhất, một cách rộng rãi các lĩnh vực, ngành nghề mà vẫn đảm bảo độ chính xác
- Tự điều chỉnh, tự động hóa, tự tối ưu
- Tập dữ liệu lớn không còn là vấn đề của DL với hiệu năng tính toán và xử lý cao
➢ Điểm hạn chế của DL:
DL vẫn còn nhiều vấn đề cần khắc phục:
- Cần một tập dữ liệu đủ lớn để tận dụng hết tiềm năng của DL
- Chi phí phát triển và vận hành cao
- Chưa có nền tảng học thuật mạnh mẽ để cải tiến các công cụ DL
Các ứng dụng phổ biến hiện nay của DL bao gồm:
• Bước 3: Chuẩn bị dữ liệu đầu vào
➢ Công tác đào tạo – giám sát ATLĐ thực tế công trường
Các quy định về ATLĐ khi thực hiện các dự án XD hiện nay được ban hành chi tiết trong các văn bản quy phạm pháp luật liên quan Có thể kể đến như:
- Luật An toàn, vệ sinh lao động số 84/2015/QH13
- Thông tư số 04/2017/TT-BXD Quy định về quản lý ATLĐ trong thi công XD công trình
Các biện pháp an toàn trên công trường XD:
- Kiểm định an toàn máy móc thiết bị: cần kiểm tra chất lượng hoạt động của máy móc trước khi lắp đặt hay vận hành tại công trường Ngoài ra, an toàn về điện cũng phải được đảm bảo [14]
- Trang bị đầy đủ TB BHLĐ: người lao động phải trang bị đầy đủ các TB BHLĐ, khi tham gia các công tác, đặc biệt an toàn trên cao Giày bảo hộ, mũ bảo hộ, áo bảo hộ, găng tay, khẩu trang, là những trang thiết bị cơ bản phải được đảm bảo cả về hình thức lẫn chất lượng Điều này đảm bảo an toàn trực tiếp cho người công nhân/ người lao động, vừa tránh rủi ro gián tiếp cho các đơn vị liên quan [14]
Hình 2 Các trang TB BHLĐ
- Tuân thủ đúng khoảng cách an toàn: các khoảng cách được quy định trong XD, đặc biệt đối với hành lang lưới điện, phải được đảm bảo an toàn Điều này là nguyên nhân thường xuyên gây ra những vụ TNLĐ [14]
- Vệ sinh an toàn nơi làm việc: mỗi người phải luôn có ý thức giữ vệ sinh chung nơi làm việc (nhà xưởng, văn phòng BQL, ngoài công trường, không vì thiếu ý thức cá nhân mà ảnh hưởng đến tập thể Ngoài ra, để các thao tác khi làm việc được thoải mái,m chính xác cũng cần vệ sinh các thiết bị cá nhân [14]
Hiện nay, tại các công trường XD cả nước chủ yếu sử dụng con người, hay nói cách khác là bằng phương pháp thủ công để kiểm soát vấn đề trang TB BHLĐ của các công nhân, kỹ sư giám sát hay những người làm việc tại đó
Việc kiểm soát thủ công này, vì các lý do khách quan, không thể phát hiện hết tất cả các đối tượng vi phạm, từ đó dễ bỏ sót và tiềm ẩn nguy cơ xảy ra TNLĐ
Trong bài nghiên cứu này, học viên sẽ tích hợp công cụ DL (DL) vào thiết bị giám sát (camera) đặt tại cổng ra vào của công trường XD để theo dõi, nhận dạng và cảnh báo các trường hợp không đáp ứng yêu cầu về trang TB BHLĐ
Như đã đề cập, trang TB BHLĐ bắt buộc của người tham gia lao động trong công trường XD gồm có:
- Dây đeo/đai an toàn
- Đồ bảo hộ (quần, áo)
- Khẩu trang y tế (ngăn ngừa dịch covid-19)
Hình 3 Yêu cầu về trang TB BHLĐ (Nguồn: Công ty Bảo hộ lao động Sanboo Việt Nam)
Vì mức độ cần thiết của các trang TB BHLĐ kể trên là như nhau và mức độ ứng dụng được yêu cầu của thiết bị giám sát tích hợp AI tương tự thử nghiệm, học viên sẽ triển khai mô hình và các thuật toán nhận diện 04 trong số các thiết bị là mũ bảo hộ, giày bảo hộ, áo bảo hộ và khẩu trang
Lý do lựa chọn 04 thiết bị này:
- Mũ bảo hộ : màu sắc đặc trưng dễ nhận biết cho từng chức vụ, bộ phận trong công trường; vị trí thuận lợi (bắt buộc phải đội lên) cho thiết bị giám sát ghi nhận và lưu trữ, cảnh báo
- Áo bảo hộ : màu sắc đặc trưng dễ nhận biết cho từng chức vụ, bộ phận trong công trường; vị trí thuận lợi (bắt buộc mặc trên người, lớp áo ngoài cùng) cho thiết bị giám sát ghi nhận và lưu trữ; trên áo có lo gô công ty hay đơn vị quản lý (nhà thầu chính, các nhà thầu phụ, tư vấn giám sát, ) giúp công tác kiểm soát sau đó được thuận tiện
CÁC KHÁI NIỆM CHÍNH – CƠ SỞ LÝ THUYẾT
ATLĐ là các giải pháp tất yếu trong công tác phòng chống TNLĐ và các yếu tố nguy hiểm nhằm bảo vệ sức khỏe, tính mạng người lao động trong quá trình làm việc tại một đơn vị, tổ chức
Có thể định nghĩa ATLĐ ở nhiều khía cạnh khác nhau như: tự nhiên, kinh tế, xã hội với những đặc trưng riêng Nhưng tóm lại, tất cả đều cấu thành từ những yếu tố chung như: đối tượng lao động, môi trường lao động, công nghệ, trang thiết bị/phương tiện lao động
Và các yếu tố này bằng những cách khác nhau, tác động qua lại tạo ra những vấn đề tích cực lẫn tiêu cực Ở góc độ tiêu cực, ATLĐ được hiểu là những tác động của các nguyên nhân khách quan, chủ quan gây tổn hại đến tài sản, sức khỏe và tính mạng của người lao động [13], [14]
Dưới góc nhìn pháp lí, ATLĐ là những quy định của luật lao động, các văn bản quy phạm pháp luật liên quan và bao gồm các biện pháp ngăn ngừa, phòng chống và khắc phục những tác động xấu do các nguyên nhân nguy hiểm, độc hại trong môi trường lao động đối với người lao động Ví dụ, tại Điều 3 Luật An toàn, vệ sinh lao động năm 2015 quy định:
Hệ thống pháp luật về an toàn vệ sinh lao động còn các văn bản quan trọng sau:
➢ Thông tư, nghị định liên quan :
2.2.2 Trí tuệ nhân tạo – Artificial intelligence (AI)
Trong khoa học máy tính, AI được định nghĩa là trí thông minh được tạo ra dựa trên bộ não của con người Do vậy, AI có được những khả năng như suy nghĩ, lập luận, từ đó liên kết và giải quyết các bài toán hay vấn đề Vượt trội hơn so với con người, AI có thể xử lý các tập dữ liệu có dung lượng vô cùng lớn với tốc độ nhanh hơn con người Các nhà lập trình luôn tin rằng máy móc có thể mô phỏng chi tiết và chính xác nhất những gì con người có thể Do đó, lĩnh vực AI ra đời Tuy nhiên, kéo theo đó là những hệ lụy tiềm tàng, mà một trong số đó đang diễn ra chính là sự thay thế hoàn toàn con người trong một số lĩnh vực, dẫn đến nguy cơ thiếu hụt việc làm
Hình 4 Thị giác máy tính phát triển kéo theo AI
(Nguồn: https://www.most.gov.vn/vn/tin-tuc/20614/cong-nghe-ai-cua-hien-tai-va- tuong-lai.aspx)
Vào mùa hè năm 1956, tại trường Dartmouth diễn ra một hội nghị và người ta cho rằng đây là thời điểm ra đời ngành AI Các nhà khoa học tham gia hội nghị bao gồm: Marvin Minsky, John McCarthy, Allen Newell và Herbert Simon được coi là "cha đẻ" của ngành Cũng trong hội nghị này, còn rất nhiều nhà khoa học khác tham gia và sau này cũng trở thành những chuyên gia đầu tàu trong lĩnh vực AI nói riêng và khoa học máy tính nói chung Cái tên "AI" cũng bắt nguồn từ hội nghị này, với ý tưởng thuộc về chính Dartmouth và McCarthy
Trong khoảng thời gian này, AI phát triển dựa trên ý tưởng rằng tiềm năng của tri thức máy tính rất lớn, có thể bắt chước và cả thay thế cho con người Định hướng của ngành có thể tóm gọn trong công thức: Đến những năm 80, tức là trải qua quãng thời gian 15 năm, AI phát triển vượt bậc Rất nhiều thành tựu xuất hiện như: cấu trúc mạng Nơron, dịch thuật văn bản bằng nhiều ngôn ngữ, xử lý ngôn ngữ,
Cho đến thế kỉ 21 ngày nay, AI dần đóng một vai trò quan trọng của lĩnh vực công nghệ Bằng những cải tiến về CSVC, tập dữ liệu và nền tảng lý thuyết mạnh mẽ, đã có xấp xỉ 340,000 sáng chế và hơn 1.6 triệu bài báo nghiên cứu liên quan đến AI đóng góp cho tri thức thế giới Các con số thống kê cụ thể cho thấy tốc độ phát triển bùng nổ của AI có thể kể đến như: từ 2006 đến năm 2017, số bằng sáng chế trong lĩnh vực này tăng từ 8,515 lên thành 12,473; và tăng vọt thành 55,660 trong năm 2017 Và sức nóng của các cuộc đua về bằng sáng chế vẫn chưa bao giờ tắt
Hình 5 Tầm ảnh hưởng của AI
(Nguồn: https://www.most.gov.vn/vn/tin-tuc/20614/cong-nghe-ai-cua-hien-tai-va- tuong-lai.aspx)
Một số ảnh ví dụ minh họa:
Hình 6 AI trong nhận diện khuôn mặt người
(Nguồn: https://www.most.gov.vn/vn/tin-tuc/20614/cong-nghe-ai-cua-hien-tai-va- tuong-lai.aspx)
Hình 7 AI trong xe tự hành
(Nguồn: https://www.most.gov.vn/vn/tin-tuc/20614/cong-nghe-ai-cua-hien-tai-va- tuong-lai.aspx)
2.2.3 Machine learning (ML) – Deep learning (DL)
ML là một lĩnh vực của AI Trong lĩnh vực này, máy tính sẽ quan sát một dữ liệu đầu vào nhất định, dùng đó làm cơ sở tạo nên một mô hình giải quyết bài toán đề ra Nguyên tắc hoạt động của ML là sử dụng tập dữ liệu (1) sẵn có, thu thập được từ nhiều nguồn để huấn luyện mô hình và dùng mô hình đó để dự đoán các tập dữ liệu khác (2) chưa từng được huấn luyện Nôm na rằng, nếu có một tập dữ liệu đầu vào đủ lớn, với chất lượng cao thì ML sẽ giải quyết được hầu hết các bài toán trong đời sống thực tế [15], [16]
Có nhiều cách để phân loại các phương pháp ML, nổi bật nhất trong số đó là phương pháp phân loại theo mức độ quan sát trong quá trình huấn luyện mô hình:
DL là một lĩnh vực của ML DL tập trung vào các mạng lưới Nơron nhân tạo gồm nhiều lớp, do đó quy trình thực hiện các thuật toán DL chứa dữ liệu đầu vào và đầu ra một cách rõ ràng [16]
Hình 8 Mối liên hệ giữa AI, ML và DL (Nguồn: https://www.edureka.co/blog/ai-vs-machine-learning-vs-deep-learning/) 2.2.4 Tập dữ liệu – Dataset
Dataset là một tập hợp dữ liệu Dataset có nội dung tương đồng với một ma trận thống kê hay một hệ thống CSDL dạng bảng, trong đó:
- Mỗi cột: là một biến cụ thể
- Mỗi hàng: một đối tượng tương ứng trong tập Datasets đề cập
Trong các nghiên cứu và ứng dụng ML, cái cần thiết nhất chính là một tập dữ liệu được huấn luyện/đào tạo Đây là tập dữ liệu mà các lập trình viên nghiên cứu dùng để huấn luyện/đào tạo các mô hình nhằm giải quyết các bài toán thông qua các hành động
ML phụ thuộc rất nhiều vào mức độ của dữ liệu, nếu dữ liệu không đủ tốt, hoặc không tìm thấy dữ liệu phù hợp, thì việc huấn luyện/đào tạo AI là bất khả thi Đây được coi là mối quan tâm hàng đầu nếu muốn xây dựng các thuật toán Cho dù với đội ngũ lập trình viên AI có chuyên môn cao hay quy mô tập dữ liệu có lớn đến mấy, chất lượng hay kết quả của dự án sẽ không như kỳ vọng, thậm chí thất bại nếu chất lượng của dữ liệu không cao
Trong ML, người ta chia thành 03 loại tập dữ liệu:
2.2.5 Cấu trúc mạng CNN - Convolutional Neural Networks
Nhắc đến AI, chúng ta không thể bỏ qua tầm ảnh hưởng và sự phổ biến của mạng Convolutional Neutral Networks – viết tắt là CNN, một mô hình DL CNN phân tích và giả quyết được phần lớn các bài toán như phân tích hình ảnh và chuỗi hình ảnh (Video), nhận diện ảnh, xử lý các ngôn ngữ, [12], [16], [17]
CNN có lịch sử hình thành và phát triển từ lâu Năm 1980, một nhà khoa học máy tính không rõ danh tính đã phát minh ra kiến trúc gốc của CNN lần đầu tiên 18 năm sau đó, Yan LeCun muốn giải bài toán nhận diện chữ viết bằng tay, đã dùng thuật toán Backprobagation (lan truyền ngược) để huấn luyện/đào tạo cho mô hình Nhưng trào lưu sử dụng CNN trong các vấn đề liên quan đến Computer Vision (thị giác máy tính) mới thực sự bùng nổ bắt đầu từ năm 2012, khi một nhà khoa học người Ukrain đã xây dựng mô hình CNN tích hợp bộ vi xử lý chuyên phân tích các dữ liệu hình ảnh (GPU: Graphics processing unit) để quá trình huấn luyện/đào tạo đạt tốc độ cao hơn đồng thời giảm độ lỗi các phân lớp Bước đột phá này đạt đạt được những thành tựu đáng kể, cụ thể là hạng nhất trong cuộc thi Thị giác máy tính thường niên (ImageNet) [18]
Hình 9 Vai trò của mạng CNN trong DL (Nguồn: https://longvan.net/deep-learning-la-gi-ung-dung-cua-deep- learning.html)
QUY TRÌNH NGHIÊN CỨU CHI TIẾT
YÊU CẦU BÀI TOÁN VÀ HƯỚNG GIẢI QUYẾT
3.1.1 Yêu cầu bài toán Để phục vụ công tác kiểm soát an toàn TB BHLĐ trên công trường đối với từng người, sau khi nhận diện các thiết bị bảo hộ thì cần trích xuất khuôn mặt, danh tính của đối tượng người đó (Person) cùng với thời điểm đối tượng đó vi phạm (nếu có)
3.1.2 Hướng giải quyết bài toán
Từ video clip thực tế công trường thu thập được và nguồn dữ liệu (Datasets), sử dụng những mô hình, thuật toán để cho ra kết quả là một mô hình có thể nhận diện được các TB BHLĐ, từ đó cho ta biết đối tượng có tuân thủ ATLĐ hay không và danh tính của đối tượng đó
Ta biểu diễn theo sơ đồ sau:
XÂY DỰNG MÔ HÌNH NHẬN DIỆN TB BHLĐ (OBJECT DETECTION)
• Bước 1: Nguồn dữ liệu Datasets:
Sử dụng tập dữ liệu từ thư viện Kaggle
Hình 25 Một số hình ảnh dữ liệu Datasets từ Kaggle
• Bước 2: Gán nhãn (Label) dữ liệu: Đưa tập dữ liệu từ Kaggle lên Roboflow để thực hiện quá trình gán nhãn (Label) vì Roboflow cho phép chuyển đổi các cấu hình phù hợp với nhiều loại mô hình khác nhau
Tập dữ liệu sử dụng có 04 đối tượng bao gồm: nón bảo hộ, khẩu trang, áo bảo hộ, giày bảo hộ Mỗi đối tượng tương ứng với một thuộc tính (Class) và một lớp (Layer)
Hình 26 TB BHLĐ cần nhận diện
Mỗi thuộc tính của dữ liệu được biểu diễn bằng một màu: xanh lá (G) tương ứng với nón bảo hộ, màu hồng (M) tương ứng với áo bảo hộ, màu tím (P) tương ứng với khẩu trang và màu đỏ (R) tương ứng với giày bảo hộ
Hình 27 Thuộc tính của đối tượng
Tương tự, 04 lớp (Layers) cũng tương ứng với mỗi đối tượng trong khung hình với màu trùng khớp với mỗi thuộc tính
Hình 28 Các lớp (Layers) của đối tượng
Các số liệu trong Roboflow:
- Tổng tập dữ liệu có: 3.479 ảnh
- Tổng số dữ liệu ảnh dùng để gán label để training: 2.538 ảnh
- Tổng số dữ liệu ảnh dùng để gán label thử nghiệm: 2 ảnh
- Tổng số dữ liệu ảnh khả dụng (Validation): 939 ảnh
• Bước 3: Lựa chọn mô hình nhận diện đồ bảo hộ
Sử dụng mô hình YOLOv5 có nhiều cải tiến so với các phiên bản trước và đặt hiệu quả cao với tỉ lệ chính xác có thể lên đến 95%
Một số ưu điểm vượt trội hơn của mô hình YOLOv5:
- Chỉ có 8 lớp CNN giúp mô hình giảm quá trình xử lý ảnh, nâng cao số khung hình trên một giây, nhưng quá trình nhận diện vật thể vẫn được đảm bảo
- Các bản S/M/L (nhỏ/vừa/lớn), được cấu hình sẵn và không thể thay đổi thông số được như ở YOLOv3 và YOLOv4, dẫn đến độ ổn định của mô hình khi thực hiện hai lần huấn luyện khác nhau trên cùng một tệp dữ liệu dataset và cùng số vòng huấn luyện thì YOLOv5 vẫn trả về kết quả như nhau
Với cùng một tập dữ liệu Datasets, mô hình YOLOv5 cho ra các thông số kết quả với độ chính xác cao nhất (mAP = 0.589), tốc độ xử lý vượt trội (0.009s với độ phân giải
1774 x 2365 pixels) và dung lượng mô hình nhẹ (14.8MB), thích hợp cho các cấu hình máy tính tương đối thấp
Hình 29 Parameter comparison table of the model results
- Input: Tập dữ liệu hình ảnh
- Output: Tập dữ liệu hình ảnh với nhận diện các thiết bị bảo hộ
→ Training chi tiết mô hình:
Hình 30 Biểu đồ đường cong Precision – Confidence Curve của các thiết bị bảo hộ
Precision là một trong những hệ thước đo có thể khắc phục được, công thức như sau:
Trong đó: Precision: thể hiện sự chuẩn xác của việc phát hiện các điểm tích cực (Positive) Số này càng cao thì mô hình nhận các điểm Positive càng chuẩn
True Positive: Các điểm Positive thực được nhận đúng là Positive False Positive: Các điểm Negative thực được nhận sai là Positive
Hình 31 Biểu đồ đường cong Recall - Confidence Curve của các thiết bị bảo hộ
Recall là một hệ thước đo quan trọng, đo lường tỷ lệ dự báo chính xác các trường hợp positive trên toàn bộ các mẫu thuộc nhóm positive Công thức của Recall như sau:
Trong đó: Recall: Thể hiện khả năng phát hiện tất cả các postivie, tỷ lệ này càng cao thì cho thấy khả năng bỏ sót các điểm Positive là thấp
True Positive: Các điểm Positive thực được nhận đúng là Positive
False Negative: Các điểm Negative thực được nhận sai là Negative
Hình 32 Biểu đồ đường cong Precision – Recall Curve của các thiết bị bảo hộ
Hình 33 Biểu đồ đường cong F1 – Confidence Curve của các thiết bị bảo hộ
F1 score là số dung hòa Recall và Precision giúp ta có căn cứ để lựa chọn mô hình F1 càng cao mô hình càng chính xác
Mô hình YOLOv5 được training với 300 epochs (với epochs là số lần đưa tập dữ liệu vào mạng CNN) Tổng hợp lại, kết quả training mô hình được tóm tắt như sau:
Mô hình YOLOv5 phát hiện TB BHLĐ Độ chính xác (Precision) 0.734
Chỉ số gợi nhớ (Recall) 0.645
Giá trị chính xác trung bình (mAP) 0.644
Hình 34 Kết quả sau khi training mô hình nhận diện TB BHLĐ
XÂY DỰNG CHỨC NĂNG NHẬN DIỆN ĐỐI TƯỢNG NGƯỜI (PERSON DETECTION) VÀ THEO DÕI ĐỐI TƯỢNG (TRACKING)
• Bước 1: Nguồn dữ liệu Datasets:
Sau khi thực hiện quá trình nhận diện TB BHLĐ, ta không thể biết là các thiết bị đó thuộc cùng một đối tượng người, nên để phục vụ công tác quản lý được tốt cần có chức năng nhận diện đối tượng người đó kết hợp theo dõi đối tượng
Sử dụng tập dữ liệu Datasets tương tự quá trình “XD mô hình nhận diện TB BHLĐ”
• Bước 2: Lựa chọn mô hình nhận diện đối tượng người và thuật toán tracking
❖ Mô hình nhận diện đối tượng người – Person Detection
Trong trường hợp bài toán đặt ra, để nhận diện đối tượng người trong số rất nhiều người xuất hiện trong video clip, có 03 mô hình có thể áp dụng:
- Mô hình HOG (Histogram of Oriented Gradient)
Trong đó, mô hình YOLOv5 và HOG (Histogram of Oriented Gradient) có cùng điểm hạn chế là kích thước rất lớn Điều này dẫn đến lãng phí tài nguyên cho công tác tính toán, và việc đáp ứng các yêu cầu về thời gian thực (Real-time) rất khó Bên cạnh đó, còn có điểm hạn chế khác như: lãng phí năng lượng, tài nguyên phần cứng Để thực hiện ứng dụng, người dùng hoặc các đơn vị triển khai thường thiết kế triển khai theo dạng máy chủ (Server), tức là mọi yêu cầu tính toán của ứng dụng sẽ chuyển về phía máy chủ xử lý, sau đó trả lại kết quả Vấn đề xuất hiện là:
- Cần tiêu tốn rất nhiều chi phí để tăng tốc độ xử lý
- Kết nối mạng cần phải ổn định tại mọi thời điểm để hệ thống có thể hoạt động trơn tru Ví dụ cụ thể là khi phát triển mô hình bằng YOLOv5 hay HOG, tại thời điểm ban đầu sử dụng sóng vô tuyến (Wireless Fidelity – Wifi), sau đó tiến hành thử nghiệm bằng hệ thống mạng di động (3G/4G) thì kết quả nhận được không như mong muốn do sự kết nối mạng không ổn định Để đề phòng bất kỳ các sự cố nào xảy ra đối với hệ thống vì lý do trễ mạng, việc thực hiện tính toán tại local là vô cùng cần thiết và tối quan trọng Tuy nhiên lại vướng phải một vấn đề khó khăn không nhỏ đó chính là pin (năng lượng) khi các thiết bị phải thực hiện các tính toán rất nhiều, mà khả năng tính toán cũng còn hạn chế Mặc dù những mô hình DL đã tạo ra kết quả với độ chính xác cao độ biến và hiệu suất ở mức khá tối ưu, nhưng bên cạnh đó tồn tại các hạn chế như cần sự hỗ trợ không nhỏ của bộ vi xử lý chuyên phân tích các dữ liệu hình ảnh (GPU) tốc độ cao, chi phí để vận hành, duy trì máy chủ không hề nhỏ, hay việc thực hiện trên các thiết bị có cơ sở hạ tầng hạn chế là bất khả thi
Chi phí, thời gian và hiệu quả là các yếu tố ảnh hưởng đến sự thành công của bất kỳ các ứng dụng công nghệ nào, và các ứng dụng tích hợp AI cũng không ngoại lệ Để đáp ứng các yếu tố này, các nhà nghiên cứu đã xem xét và tiến hành kiểm tra nhiều phương pháp Nổi bật trong số đó là kỹ thuật nén các mô hình để tối ưu hóa
Thực tế đã cho thấy rằng, trong quá trình suy luận và lập luận của mô hình, tồn tại các trọng số không đóng vai trò quan trọng Phương thức hoạt động của các mô hình DL trải qua một loạt quá trình: phán đoán, khoanh vùng, trích xuất đặc trưng, đánh trọng số cho các đặt trưng đó Các quá trình này được thực hiện một cách hoàn toàn tự động, do vậy việc tính toán sẽ được thực hiện cho tất cả các trọng số, dù là trọng số có giá trị cực thấp đồng nghĩa với không ảnh hưởng đến việc tính toán Điều này là không cần thiết Và phương pháp “cắt tỉa” (Pruning) đã được tính đến Bản chất của phương pháp này là phân cụm các trọng số và làm tròn chúng với mục đích kết nối và biểu diễn các kết nối đó bằng một bộ nhớ ít dung lượng hơn Phương pháp này cũng chỉ ra rằng trong một mô hình, các kết nối đóng vai trò quan trọng cho quá trình tính toán chiếm tỷ trọng vô cùng khiêm tốn
Mục đích chính của phương pháp này là có thể nén được các mô hình DL phức tạp, lưu trữ và tích hợp chúng vào các thiết bị có phần cứng cơ bản, không làm lãng phí tài nguyên cơ sở vật chất như trước đây khi các mô hình bắt buộc phải thao tác trên những thiết bị có cấu trúc cực phức tạp Không những vậy, tốc độ của các mô hình được tối đa hóa và dễ dàng triển khai trên các thiết bị khác nhau
→ Tổng hợp các yếu tố lại, ta lựa chọn mô hình OpenVINO vì các tính năng và ưu điểm vượt trội sau:
- Có khả năng tối ưu hóa kích thước và tốc độ của mô hình để mô hình có thể chạy vượt trội với tài nguyên phần cứng hạn chế
- OpenVINO được xây dựng và phát triển bởi Intel nhằm mục đích tối ưu hóa hiệu năng của mô hình trên chính các bộ vi xử lý của Intel, cải thiện thời gian suy luận (Inference) khi tiến hành triển khai mô hình trên rất nhiều các nền tảng (flatform) khác nhau (CPU/GPU/VPU/FPGA)
❖ Theo dõi đối tượng chuyển động theo thời gian – thuật toán tracking Để theo dõi và xử lý đối tượng trong bài toán này, có 03 thuật toán có thể sử dụng:
- SORT – Simple Online Realtime Object Tracking: một thuật toán Tracking-by- detection (hay Detection based Tracking) với đặc điểm tách OD ra như một bài toán riêng biệt và tối ưu kết quả Sau đó, đường bao thu được ở mỗi khung hình (Frame) sẽ được liên kết với nhau và mỗi đối tượng trong đường bao sẽ được gán định danh (ID) Quy trình xử lý mỗi khung hình như sau:
→ Nhược điểm: vật thể bị che lấp lẫn nhau gây nhiễu trong quá trình tracking
Hình 35 Đối tượng/vật thể bị che lấp
- Correlation Tracking: thuật toán theo dõi sử dụng bộ lọc tương quan để giải quyết bài toán định vị đối tượng/vật thể trong ảnh hay chuỗi ảnh Nó cho phép theo vết đối tượng bằng phương pháp theo vết phần chứa nhiều thông tin đối tượng hơn (phần đầu và thân) là phần ít thay đổi theo thời gian và bỏ qua phần chứa ít thông tin (phần chân) là phần dao động nhiều
Hình 36 Ví dụ về phân tích tương quan
→ Nhược điểm: thuật toán này dựa trên đặc trưng của đối tượng nên dù khắc phục được vấn đề nhiễu của tracking, nhưng lại xảy ra hạn chế khác là khi một đối tượng che mất một đối tượng khác thì sẽ tạo ra một bước tracking mới, dẫn đến bị mất tracking hay là cùng một tracking nhưng là hai đối tượng khác nhau
Hình 37 Độ lớn của hệ số tương quan
Dựa vào hình trên, ta thấy rằng các đối tượng rất dễ trùng lập tracking và sẽ tạo ra nhiều đối tượng khác nhau nhưng có định danh (ID) giống nhau
- DEEP SORT (Simple Online and Realtime Tracking with a Deep Association Metric) với “deep association metric” là chỉ số liên kết sâu Thuật toán này sử dụng DL để trích xuất các đặc trưng của đối tượng với mục đích tăng độ chính xác trong quá trình kết nối và xử lý, mặt khác các đối tượng sau khi đã biến mất khỏi khung hình một thời gian cũng được liên kết lại hiệu quả hơn Một cách tóm tắt, thuật toán này tối ưu hơn về nhận biết đặc trưng và vị trí của đối tượng, khắc phục được vấn đề nhiễu tracking và mất đối tượng khi xử lý các khung hình (Frame)
→ Tổng hợp các yếu tố lại, ta lựa chọn thuật toán DEEP SORT cho bước tracking đối tượng
• Bước 3: Triển khai thuật toán:
➢ Nhận diện đối tượng người – Person Detection
Trong đó, AP được định nghĩa là khu vực bên dưới của biểu đồ đường cong Precision – Recall Curve
Hình ảnh, tên đối tượng làm tập dữ liệu Hình ảnh ở định dạng quy định với các thông tin chính:
Thứ tự màu dự kiến là BGR
Mạng xuất ra đốm màu có hình dạng ở định dạng quy định, trong đó có số lượng hộp (Bounding box) được phát hiện (Detect) Mỗi phát hiện có định dạng quy định với các thông tin chính:
- Image_id: định danh (ID) của ảnh trong lô
- Label: định danh (ID) layer dự đoán (1 - người)
- Confidence: độ chính xác cho layer dự đoán trong mạng
- ( x_min, y_min): tọa độ của góc hộp giới hạn trên cùng bên trái
- ( x_max, y_max): tọa độ của góc hộp giới hạn dưới cùng bên phải
➢ Theo dõi đối tượng – Tracking:
XÂY DỰNG CHỨC NĂNG NHẬN DIỆN KHUÔN MẶT (FACE DETECTION) 56 3.5 TÍCH HỢP VÀO VIDEO CLIP THỰC TẾ
• Bước 1: Nguồn dữ liệu Datasets:
Sử dụng tập dữ liệu từ thư viện Kaggle như các bước trên, đồng thời có thêm bộ dữ liệu gương mặt của các đối tượng trong phạm vị công trường khảo sát
Hình 39 Dữ liệu khuôn mặt đối tượng người
• Bước 2: Lựa chọn mô hình nhận diện khuôn mặt – Face Detection
SCRFD là một phương pháp phát hiện khuôn mặt (Face detection) có độ chính xác cao hiệu quả được mô tả ban đầu trong Arxiv và được ICLR-2022 – Hội nghị Quốc tế về Đại diện học tập - chấp nhận
• Bước 3: Triển khai thuật toán
- Chuẩn bị bộ dữ liệu bằng cách lưu tập Datasets trên dưới dạng tệp data/retinaface, trong đó có cả các tập dữ liệu đã gán nhãn (Label) ở bước “XD chức năng nhận diện đối tượng và tracking”
- Định dạng các ảnh đã được gán nhãn và chú thích ID:
- Mô hình được đào tạo lại: mAP (Params), FLOP và độ trễ (Infer) suy luận đều được đánh giá trên độ phân giải VGA
- Inputs: tập dữ liệu Datasets gương mặt của các đối tượng người trong công trường
- Outputs: khuôn mặt người đó kèm thông tin cá nhân cơ bản
3.5 TÍCH HỢP VÀO VIDEO CLIP THỰC TẾ
// Tach frame tu video frame = cv2.VideoCapture( file_name_video )
// Tach frame tu webcam frame = cv2.VideoCapture(0)
// Nhan dien person result_person_detection = PersonDetector.detect(frame) // [{"bbox":[x,y,w,h] ,"conf": }, ]
// tracking voi deep sort result_tracking = DeepSort.update(frame)// [{"bbox":[x,y,w,h],"id": ,"conf": }, ]
//Construct wear detection for object in result_tracking: x,y,w,h = object["bbox"] frame_crop = frame[y:y+h,x:x+w] result_construct_wear ConstructDetector.detect(frame_crop)//['hat','vest','boots','mask'] save_info_construct_wear( result_construct_wear ,object["id"] ) for object in result_tracking: x,y,w,h = object["bbox"] frame_crop = frame[y:y+h,x:x+w] face = FaceRecognize.detect(frame_crop) //face crop from frame_crop face_embedding = FaceRecognize.get_feature(face) // 512-dimensional embeddings from face name = FaceRecognize.find(face_embedding) // find name from list embedding in database (Unknown or name) save_info_face_name(name, ,object["id"])
• Giải thích giao diện mô hình:
Khi bắt đầu khởi động ứng dụng có giao diện như sau:
Hình 40 Giao diện khởi động ứng dụng
Hộp thoại chứa thông tin thuật toán áp dụng và các thông số chi tiết của mô hình như:
- Mô hình sử dụng là YOLOv5 với ngôn ngữ lập trình Python-3.8.10, chạy dựa trên phần cứng sẵn có là GPU Quadro M1200
- Thông số chi tiết mô hình: gồm có 157 lớp (Layers), 7,020,913 tham số (Parameters), độ dốc của hàm số (Gradients) bằng 0, hiệu năng xử lý của GPU (GFLOPs - Giga FLoating- point Operations Per Second) bằng 15.8
Giao diện xử lý chính là cửa sổ với 04 tùy chọn:
- App : ở tùy chọn này ta chọn một trong hai tình huống cần giải quyết là xử lý Video Clip sẵn có (Upload Video) hay tình huống thực tế real-time (Webcam)
Hình 41 Tùy chọn App trong ứng dụng
Khi chọn Upload, cửa sổ thư mục chứa Video Clip sử dụng sẽ hiện ra (dung lượng tối đa của Video Clip được chọn là 200 MB):
Hình 42 Cửa sổ thư mục chứa Video Clip sử dụng
Thông tin đang xử lý cũng được thể hiện trên cửa sổ Cụ thể, Video Clip được chọn có dung lượng 2.6 MB được chia thành 534 khung hình (Frames)
Hình 43 Cửa sổ xử lý Video Clip
Và đây là giao diện kết quả nhận diện của mô hình sau khi xử lý Khi một đối tượng đi qua, các đường bao nhận diện sẽ hiện lên kèm thông tin cá nhân và TB BHLĐ
Hình 44 Cửa sổ Video Clip sau khi xử lý
- Person Management : ở tùy chọn này ta thực hiện thêm tập dữ liệu cho việc trích xuất khuôn mặt của đối tượng người, từ đó phục vụ việc quản lý họ
Tương tự như tùy chọn App , thêm tập dữ liệu khuôn mặt các đối tượng công nhân dưới định dạng hình ảnh, mỗi ảnh có dung lượng không quá 200 MB Sau khi thêm ảnh, tên của ảnh dữ liệu đó chính là tên của đối tượng trên công trường
Hình 45 Cửa sổ Person Management dùng để quản lý thông tin các đối tượng
- Statistic : ở tùy chọn sẽ hiển thị thông tin chi tiết sau khi chúng ta xử lý Video Clip sẵn có hoặc xử lý qua Webcam (real-time) Thông tin của từng đối tượng mà ứng dụng nhận diện được sẽ hiển thị ở tùy chọn này
Hình 46 Cửa sổ Statistic hiển thị thông tin đối tượng sau khi xử lý
- Video Management : tùy chọn hiển thị các Video Clip đã được xử lý trước đó
Hình 47 Cửa sổ Video Management
• Input: Video clip thực tế công tác kiểm soát thiết bị ATLĐ
- Tên dự án: Nhà máy 2 – Công ty TNHH Paihong Việt Nam
- Chủ đầu tư: Công ty TNHH Paihong Việt Nam
- Vị trí dự án: Lô C-6A-CN, Khu công nghiệp Bàu Bàng mở rộng, xã Lai Uyên, Huyện Bàu Bàng, tỉnh Bình Dương
- Quy mô: tổng diện tích 16ha
- Tổng thầu thiết kế và thi công: Công ty Cổ phần Đầu tư XD Newtecons
- Loại dự án: Nhà xưởng
Hình 48 Một số hình ảnh thực tế công trường lấy từ video clip
• Output: Video clip kết quả hiển thị các thông tin của từng đối tượng người ngoài công trường
Hình 49 Kết quả tích hợp các mô hình vào Video clip thực tế
Như kết quả ta thấy trong quá trình tích hợp, mô hình đã nhận diện các thiết bị bảo hộ bao gồm nón bảo hộ, áo bảo hộ, giày bảo hộ và khẩu trang cũng như khuôn mặt các đối tượng công nhân một cách tương đối chính xác Để dễ dàng hơn trong công tác quản lý và từ đó đưa ra những quy định, biện pháp chế tài hợp lý để kiểm soát và cải thiện vấn đề đảm bảo đầy đủ yêu cầu về TB BHLĐ, ta sẽ thể hiện kết quả bằng tập tin dưới định dạng CSV
Sau khi xuất tập tin CSV, ta chuyển định dạng thành Excel và có thể thao tác trên đây:
Hình 50 Chuyển định dạng tập tin CSV thành tập tin Excel
Trong tập tin đã xuất thể hiện đầy đủ thông tin cần thiết cho công tác quản lý như: số thứ tự, tên đối tượng (Name), tình trạng (Details), đánh giá (Status) và thời gian (Time)
→ Ví dụ: đối tượng người tên An, có số thứ tự 1, tình trạng: không đeo khẩu trang (No mask), được đánh giá là không đảm bảo thiết bị ATLĐ (Not archive) vào thời điểm (Time) là 22/11/2022 lúc 0:36.
ĐÁNH GIÁ KẾT QUẢ - ĐỀ XUẤT QUY TRÌNH QUẢN LÝ
ĐÁNH GIÁ KẾT QUẢ
4.1.1 Đánh giá kết quả mô hình
Kết quả của việc huấn luyện mô hình YOLOv5 như sau:
Hình 51 Các thông số về hồi quy, phân loại và mất đối tượng của mô hình YOLOv5
Qua kết quả thực hiện được ta nhận thấy YOLOv5 mang lại hiệu quả khá tốt trong bài toán nhận diện TB BHLĐ với các thông số hiệu suất đặc trưng:
Mô hình YOLOv5 nhận diện TB BHLĐ Độ chính xác (Precision) 0.74
Chỉ số gợi nhớ (Recall) 0.66
Giá trị chính xác trung bình (mAP) 0.67
Với một mô hình thử nghiệm, độ chính xác 74.1% và giá trị chính xác trung bình 64.4% là kết quả tương đối tốt trong trường hợp tập cơ sở dữ liệu dùng để huấn luyện (Training) mô hình chưa tối ưu về độ lớn và chất lượng
Về thời gian và tốc độ nhận diện, mô hình cũng đạt kết quả khá tốt Đối với Video Clip có độ phân giải cao và phổ biến hiện nay là 1920 x 1080 pixel, tức là trong 01 giây sẽ quét được 30 khung hình (Frame), mô hình với tốc độ xử lý 6 khung hình trong 1 giây (6 frames/s) và tần suất xử lý 5 khung hình mỗi lần (5 frames/lần) đáp ứng được khá tốt khi chỉ tốn khoảng thời gian là 30s cho một Video Clip có thời lượng là 15s
Các thông số trong quá trình xử lý mô hình:
Hình 52 Độ chính xác của mô hình
Với việc sử dụng mô hình nhận diện khuôn mặt trên thư viện OpenVino và các thuật toán áp dụng trong mô hình đã giúp tối ưu về tốc độ xử lý với kết quả 30/30 khung hình/giây, cũng như tối ưu về phần cứng sử dụng làm nền tảng khi đây là thư viện được phát triển cho các máy tính sử dụng vi xử lý Intel - phù hợp với điều kiện CSVC của đại đa số đối tượng học viên nghiên cứu, hay các đơn vị quản lý có quy mô vừa và nhỏ
Tương tự như mô hình nhận diện TB BHLĐ, tập cơ sở dữ liệu dùng để huấn luyện mô hình và Video clip áp dụng thực tế chưa thực sự tối ưu và chất lượng, nhưng kết quả nhận diện khuôn mặt các đối tượng, đặc biệt là trong các trường hợp khuôn mặt có góc nghiêng bé, điều kiện ánh sáng, chất lượng ảnh không cao, là tương đối tốt ở mức thử nghiệm
4.1.2 So sánh hiệu suất với các mô hình khác – nhận xét
4.1.2.1 Cơ sở so sánh – các mô hình khác
Với cùng tập dữ liệu Datasets đã sử dụng trong bước xây dựng mô hình nhận diện
TB BHLĐ, ta tiến hành xây dựng với các mô hình khác nhau làm tiền đề so sánh hiệu suất của chúng
Cùng với mô hình YOLOv5 đang sử dụng, các mô hình khác sẽ là: YOLOv4, Faster- RCNN MobilenetV3, Faster-RCNN Resnet50 Các mô hình này đã được tùy chỉnh sử dụng cùng một thư viện kiến trúc là Pytorch để đưa về cùng hệ quy chiếu, thuận tiện cho bước so sánh Với cùng thư viện kiến trúc, các chỉ số được dùng làm cơ sở để so sánh và đánh giá là: Precision (độ chính xác), Recall (chỉ số khả năng thu hồi) và F1 score (trung bình điều hòa giữa Precision và Recall
- Precision: thể hiện sự chuẩn xác của việc phát hiện các điểm tích cực (Positive)
Số này càng cao thì mô hình nhận các điểm Positive càng chuẩn
- Recall: Thể hiện khả năng phát hiện tất cả các postivie, tỷ lệ này càng cao thì cho thấy khả năng bỏ sót các điểm Positive là thấp
- F1 score: F1 score là số dung hòa Recall và Precision giúp ta có căn cứ để lựa chọn mô hình F1 càng cao mô hình càng chính xác F1 score được xác định như sau:
Tiến hành xây dựng mô hình YOLOv4, kết quả huấn luyện mô hình như sau:
Mô hình YOLOv4 nhận diện TB BHLĐ Độ chính xác (Precision) 0.73
Chỉ số gợi nhớ (Recall) 0.62
Tiến hành xây dựng mô hình Faster-RCNN MobilenetV3, kết quả huấn luyện mô hình như sau:
Mô hình Faster-RCNN MobilenetV3 nhận diện TB BHLĐ Độ chính xác (Precision) 0.59
Chỉ số gợi nhớ (Recall) 0.54
Tiến hành xây dựng mô hình Faster-RCNN Resnet50, kết quả huấn luyện mô hình như sau:
Mô hình Faster-RCNN Resnet50 nhận diện TB BHLĐ Độ chính xác (Precision) 0.65
Chỉ số gợi nhớ (Recall) 0.58
4.1.2.2 So sánh hiệu suất các mô hình
Nhận xét: Với việc sử dụng cùng một tập dữ liệu để huấn luyện và các mô hình được xây dựng chung một kiến trúc Pytorch, mô hình YOLOv5 với các chỉ số cao nhất đã chứng tỏ hiệu suất vượt trội So với “người anh em” phiên bản trước là YOLOv4, các chỉ số của YOLOv5 không quá vượt trội, nhưng nhìn chung vẫn thể hiện sự hiệu quả khi là phiên bản cải tiến hơn về mọi mặt Đối với 02 mô hình còn lại, kết quả đã cho thấy rằng các họ mô hình sử dụng RCNN như MobilenetV3 và Resnet50 vẫn chưa thể chiếm vị trí của YOLO nói chung và YOLOv5 nói riêng về hiệu năng và mức độ ứng dụng
4.1.3 Xây dựng quy trình quản lý thực tế sử dụng mô hình đã lai ghép
4.1.3.1 Lưu đồ quy trình quản lý
Lắp đặt camera, PC có cài đặt phần mềm
Phối hợp các phòng ban để thu thập và quản lý thông tin cá nhân công nhân/kỹ sư
Công nhân/kỹ sư đi qua camera giám sát tích hợp vào cổng chính công trường
Màn hình sẽ hiển thị thông tin của từng cá nhân
Bổ sung ngay TB BHlĐ đầy đủ (nếu vi phạm)
Tổng hợp dữ liệu toàn công trường, phân chia rõ ràng cho từng bộ phận, đội nhóm vào cuối tuần
Quản lý từng bộ phận, đội nhóm rà soát, tổng hợp các tuần gửi về thư ký CT, CHP vào cuối tháng gui Tổng hợp dữ liệu các bộ phận, đội nhóm, hoàn tất vào ngày 1 tháng sau và trình CHT phê duyệt gui
Nhập dữ liệu chấm công có kết hợp dữ liệu vi phạm TB BHLĐ, hoàn tất vào ngày 3 tháng sau gui Kiểm tra dữ liệu tính lương, trình bảng lương kèm ghi chú các mục vi phạm (nếu có) lên CHT, QS
Trả lương chậm nhất vào ngày 5 tháng sau Gửi bảng lương cho công nhân/kỹ sư – người lao động
Mô hình AI này sẽ được tích hợp vào thiết bị camera giám sát và được lắp đặt tại vị trí cổng chính công trường, nơi có thể quan sát được toàn bộ các đối tượng người ra vào công trường tất cả các thời điểm Loại camera được đề xuất là camera IP Wifi ngoài trời vì tính thông minh, tiện dụng như: hình ảnh rõ ràng, sắc nét, chỉ cần kết nối với hệ thống Wifi của công trường là có thể theo dõi được nơi lắp đặt Thiết bị này không chỉ được lắp đặt ngoài trời mà còn có thể lắp đặt ở mái hiên (nhà bảo vệ), cổng phụ, Phần mềm quan sát được cài đặt miễn phí vào điện thoại thông minh của người chịu trách nhiệm là bảo vệ công trường và các kĩ sư giám sát an toàn Ngoài ra, một bộ máy tính PC có cài đặt phần mềm quan sát phục vụ công tác quản lý hồ sơ, cũng được trang bị trong cabin bảo vệ Bộ PC được kết nối với thiết bị camera giám sát, gồm tối thiểu 03 màn hình: 01 màn hình trong cabin bảo vệ phục vụ cho các bước sau, 02 màn hình lớn được lắp đặt tại cổng chính công trường phục vụ công tác giám sát và quản lý thời gian thực (real-time)
Thu thập dữ liệu cá nhân của tất cả các công nhân/kỹ sư làm việc trong công trường Với nhà thầu chính, bước này tương đối dễ dàng khi dữ liệu đã có sẵn từ lúc công nhân/kỹ sư và đơn vị ký kết hợp đồng lao động Với các nhà thầu phụ thì bước này sẽ phức tạp hơn một chút Các nhà thầu phụ từng hạng mục của từng giai đoạn sẽ phải cung cấp dữ liệu của các đội nhóm và chỉ huy phó của công trường sẽ là người quản lý các đội nhóm thầu phụ này Dữ liệu cá nhân của các công nhân/kỹ sư cần thiết cho công tác quản lý bao gồm: Tên, số CCCD/CMND, ảnh khuôn mặt chụp từ 04 góc cạnh là trước, sau, trái, phải Các dữ liệu này có thể thu thập được bằng cách phối hợp các phòng ban, mà quan trọng là phòng hành chính – nhân sự
Vì số lượng công nhân/kỹ sư tham gia công trường rất lớn nên cần lắp đặt ít nhất 02 thiết bị camera tích hợp tại cổng ra vào công trường Bắt đầu ngày làm việc, công nhân/kỹ sư vào cổng theo 02 lối đi tương ứng với 02 vị trí lắp đặt camera Các công nhân/kỹ sư không cần thiết phải nhìn vào camera mỗi khi vào cổng, chỉ cần giữ tác phong bình thường, không chen lấn xô đẩy Điều này tạo nên sự thoải mái cho mọi người khi bắt đầu ngày làm việc mới, và cũng đảm bảo rằng việc ứng dụng công nghệ vào quy trình quản lý diễn ra một cách tự nhiên và hợp tác nhất
Tương tự như hình 49 , các công nhân/kỹ sư khi đi qua camera giám sát, màn hình điện thoại của người quản lý và PC có cài đặt phần mềm sẽ hiển thị các thông tin của đối tượng người đó Các thông tin bao gồm: khuôn mặt (góc trái màn hình), tên (góc trái trên mỗi khung hình bao quanh đối tượng), các TB BHLĐ mà đối tượng đó có trang bị (trong số 04 TB BHLĐ mà mô hình đã phát triển)
Dựa vào thông tin được trình chiếu ở 02 màn hình lớn, người quản lý sẽ theo dõi và nhận biết được đối tượng nào không trang bị đủ TB BHLĐ Các đối tượng vị phạm sẽ được yêu cầu bổ sung đầy đủ để vào bên trong công trường Đồng thời, thông tin của các trường hợp vi phạm này đã được mô hình AI hệ thống ghi nhận lại và lưu trữ
ĐỀ XUẤT
Mô hình nhận diện các đối tượng có độ chính xác tương đối, chưa đạt tối đa Điều này xuất phát từ một số lý do sau:
- Tập cơ sở dữ liệu (Datasets) có kích thước còn hạn chế, các dữ liệu tìm kiếm trên các nguồn internet, hay trong mô hình đang áp dụng là thư viện Kaggle, vẫn còn sai số và thời gian tương đối ngắn để lọc và xử lý tập dữ liệu
- Chất lượng Video Clip thực tế dùng để áp dụng có chất lượng chưa cao
- Đây là mô hình thử nghiệm, chưa có tính đến các yếu tố khác như: chi phí triển khai, điều kiện CSVC, môi trường áp dụng
- Giao diện của ứng dụng còn khá cơ bản, chưa nổi bật và tối ưu Muốn phát triển trên phương diện thương mại cần một giao diện rõ ràng, đầu tư và bắt mắt hơn
4.2.2 Đề xuất Để các mô hình phát huy hết khả năng, đạt độ chính xác cao và được ứng dụng rộng rãi, cần cải thiện các yếu tố:
- Cần một tập dữ liệu lớn hơn, chính xác hơn đối với môi trường làm việc thực tế tại các công trường trong nước Việt Nam
- Cần nhiều thời gian hơn để việc lọc tập dữ liệu và huấn luyện mô hình được tối ưu hơn
- Cơ sở hạ tầng (phần cứng) của thiết bị cần nâng cấp hơn so với phiên bản đang sử dụng, cải thiện chất lượng đường truyền mạng.