Danh mục các bảng Bang 1-1: Ké hoach lam viéc trong 10 tuần thực tap tai don vi Bang 2-1: M6 ta chi tiét về các công việc cân thực hiện trong quá trình thực tập Bảng 2-2:Một số công cụ
Trang 1TRUONG DAI HQC MO - DIA CHAT
Tran Quang Huy 1921050302
BAO CAO THUC TAP DOANH NGHIEP
NGANH CONG NGHE THONG TIN CHUYEN NGANH : HE THONG THONG TIN
Gán nhãn bộ dữ liệu cho AI - Dự án: Mobis FSIR CVAT
HÀ NỘI 10/2023
Trang 2TRUONG DAI HQC MO - DIA CHAT
BAO CAO THUC TAP DOANH NGHIEP
NGANH CONG NGHE THONG TIN
CHUYEN NGANH : HE THONG THONG TIN
Gần nhãn bộ dữ liệu cho AI - Dự án: Mobis FSIR CVAT
Sinh viên thực tập: Trần Quang Huy
Trang 3Mục Lục
Damn mu v1.) 1P 4
CHƯƠNG 1 GIỚI THIỆU VỀ CÔNG TY VÀ VỊ TRÍ THỰC TẬP -zc©ccceeecxeerxrerrrsre ó
Giới thiệu công ty 6
1.1.4 Khách hàng và đối tác 8 Vị trí thực tập 8
CHƯƠNG 3 ĐÁNH GIÁ KÉT QUÁ VÀ ĐỊNH HƯỚNG PHÁT TRIỄN - 5555-5555<<2 23
Trang 4
Danh mục các bảng Bang 1-1: Ké hoach lam viéc trong 10 tuần thực tap tai don vi Bang 2-1: M6 ta chi tiét về các công việc cân thực hiện trong quá trình thực
tập
Bảng 2-2:Một số công cụ đã tìm hiệu và áp dụng trong qua trình thực tập
Trang 5MỞ ĐẦU
Công nghệ thông tin hiện nay đang có xu hướng phát triển rất mạnh mẽ trong mọi lĩnh vực trên khắp thê giới Việt Nam cũng không ngoại lệ khi bắt đâu đâu tư vào ngành nghê này
Đối với các công ty thì tin học là một phần không thể thiếu ngày nay Nó giúp duy trì quản lý hoạt động ở các công ty đặc biệt đối với các công ty thuộc lĩnh vực thu thập thông tin.Mặc dù công nghệ thông tin còn là ngành đang rất mới nhưng vẫn cho thấy được tiềm năng rất lớn của ngành này tại nước ta Sử dụng công nghệ thông tin hiệu quả sẽ giúp việc quản lý trở nên đễ dàng hơn, tiết kiệm được nhiều công sức và chị phí lao động hơn
Qua thời gian thực tập tại công ty cô phần công nghệ và thương mại tektra em quyết định lựa chọn đề tài gán nhãn bộ đữ liệu cho AI-Dự án: Mobis FSIR CVAT để nghiên cứu trong bài báo cáo thực tập cua minh
Trong suốt quá trình học tập và thực tập tốt nghiệp em luôn được sự quan tâm, hướng dẫn và giúp đỡ tận tình của các thầy, cô giáo trong Khoa Công nghệ thông tin cùng với sự động viên giúp đỡ của bạn bè đồng nghiệp
Em xin cảm ơn chân thành tới cô giáo GVC.TS Vũ Lan Phương đã trực tiếp giúp đỡ, hướng dân em hoàn thành quá trình thực tập nảy
Nhân dịp này em xin được bày tỏ lòng biết ơn đến tập thê công ty cổ phần công nghệ và thương mại Tektra và đặc biệt là anh Hà Văn Linh - Trưởng phòng datalabeling của công ty đã giúp đỡ và tạo điêu kiên giúp đỡ em trong suôt thời gian thực tập
Em xin tran thành cảm ơn!
Trang 6
_ CHUONG 1 GIỚI THIỆU VẺ CÔNG TY VÀ VỊ TRÍ THỰC TẬP
Giới thiệu công ty 1,1,1 Giới thiệu chung
TECHNOLOGY & TRADING
Céng Ty Cé phan Céng nghé va Thuong mai Tektra Là một Công ty có nhiều giải pháp phan mềm quản trị doanh nghiệp được nghiên cứu và phát triển dựa trên phương pháp tư duy khoa học, xuyên suốt kết hợp với nền tảng công nghệ hiện đại, đảm bảo thống nhất, chặt chẽ và toàn diện
Không đơn thuần chỉ là phần mềm quản lý, phần mềm cung cấp cả môi trường làm việc trực tuyến trên Internet Hệ thống được thiết kế và xây dựng hoàn toàn trên nền tảng công nghệ điện toán đám mây có thê triển khai, bảo trì và nâng cấp đễ dàng, do đó người đùng có thê làm việc mọi lúc mọi nơi, chỉ cần kết nồi mạng Internet
Trang 7
Phần mềm phù hợp với tất cả doanh nghiệp thuộc mọi ngành nghề, đặc thù và tinh chat Phan mềm mang đầy đủ những tính năng cần và đủ đề tìm kiếm khách
Đại diện công ty : Ong Nguyễn Quang Hưng : Tông Giảm đôc
Ông Nguyễn Quang Sơn : Giám đốc điều hành Địa chỉ công ty: Trung tâm thương mại Intersereo Mỹ Đình, số 02 Tôn Thất Thuyết, phường Mỹ Đình 2, Từ Liêm, Hà Nội
Số điện thoại : 0338 355 571 Email: : info@tektra.vn Website: https://tektra.vn/
1.1.2 Các sản phẩm chính Chúng tôi sử dụng kết hợp các công cụ chú thích của chính chúng tôi và khách hàng của chúng tôi đề tối đa hóa kết quả đầu ra từ tất cả các phân loại AI
-Dự án Mobis FSIR_CVAT: Xác định vật thê trên đường 1.1.3 Kinh nghiệm triển khai
Tektra Data - Labeling tập hợp các nhóm ở trong nước được quản lý hoàn toàn để thực hiện khối lượng lớn công việc Ghi nhãn và Chú thích đữ liệu đề giúp khách hàng học hỏi về công nghệ Sự phát triển gần đây trong công nghệ Tự động hóa & - AI có nghĩa là một số doanh nghiệp yêu cầu các nhóm quy mô lớn để đảm bảo khả năng học máy của họ luôn dẫn đầu và không bị tụt hậu trong thế giới tốc độ nhanh
Các nhóm chuyên dụng, làm việc như một phần mở rộng của lực lượng lao động nội bộ của khách hàng, làm việc trực tiếp vào phần cuối của phần mềm khách hàng, với tốc độ và độ chính xác, tăng năng suất và tiết kiệm chỉ phí hoạt động
Trang 8
Ngoài ra, nếu khách hàng chưa có phần mềm chú thích của riêng họ, Tektra có thể trợ giúp Chúng tôi có thê tùy chỉnh phần mềm nội bộ của riêng mình đề tạo ra một giải pháp Ghi nhãn và Chú thích hoàn chỉnh
1.1.4 Khách hàng và đối tác ® - Khách hàng của chúng tôi đã thực hiện hầu hết là khách hàng tại Hàn Quốc ® Công ty Testwork Data
VỊ trí thực tập Là thực tập sinh Tham gia vào dự an Intergration Segment cua c6ng ty voi vai tro la Data-Annotation
Đề tài thực tập Thực tập Gán nhãn bộ dữ liệu cho AI - Dự án: Mobis FSIR CVAT Lịch làm việc
Thời gian thực tập : Các ngày trong tuần từ thứ 2 đến thứ 6
Từ ngày 25/07/2023 đến ngày 27/09/2023 Bang kế hoạch thực tập
Bảng 1-1: Kê hoạch làm việc trong 10 tuần thực tập tại đơn vị Mục tiêu thực tập
Trang 9
Sinh viên tiếp cận môi trường làm việc thực tế, có cơ hội quan sát, hiểu được những yêu cầu của nghề nghiệp và tự đánh giá những ưu khuyết điểm của bản thân
đề có kế hoạch phát huy, khắc phục trước khi thực sự bước vào môi trường làm việc thực tế Tạo ra cái nhìn tông quan \ về một môi trường thực tế là như thế nào đề sinh viên ghi chú lại làm tư liệu cho mỗi cá nhân
-Tiếp nhận thông tin, yêu
-Tìm hiểu các công cụ hỗ Cue Ts
Trang 10
-Xử lý lỗi phát sinh nều có
7Ì -Xử lý xong báo cáo với và ye - „ „| Ha Van Linh Hoàn thành
người hướng dẫn
§ | Chuyên giao cho khach) hàng đề nghiệm thu iis van Linh | Hoànthành
O1 ach hang tra vé Ha Van Linh -Chuan bi bai nghiép thu
19 | TDN va xin danh gia từ phía người hướng dân tại Hà Văn Linh | Hoàn thành
don vi
CHUONG 2
NOI DUNG THUC TAP
Nội dung thực tập Mô tả công việc
M6 ta chi tiét vé các công việc cân thực hiện trong quá trình thực tập và kết quả của công việc đó
Bảng 2-L: Mô tả chỉ tiết về các công việc cần thực hiện trong quá trình thực tập
Trang 11
-Làm quen và điện thông tin giây tờ cân thiệt
-GIới thiệu bản thân -Tim hiệu về đơn vị thực tập : Lịch sử , cơ câu tô chức, nhân sự, lĩnh vực
1 |hoat động, các dự ân, đối tác -Tìm hiểu về kiến thức chuyên môn yêu cầu: Data Labeling, Phân tích thiết kê hệ thông,
-Cai đặt các công cụ cần thiết : Tool (CVAT) 2 |- Tiếp nhận dự án từ khách hàng Phân tích đự án năm bắt thông tin
- Xác định yêu cầu của đự án gồm: các chức năng chính - phụ: nghiệp vụ cân phải xử lý đảm bảo tính chính xác, tuân thủ đúng các văn bản luật và quy định hiện hành; đảm bảo tốc độ xử lý
‘Human-in-the-Loop’ (HITL) la gi? -HITL (bán tự hành) tận dụng trí thông minh của con người và máy móc đề tạo ra các mô hình học máy
-Trong cầu hình HITL, con người tham gia vào một vòng tròn cải tiến trong đó khả năng phán đoán của con người được sử dụng đề đào tạo, điều chỉnh và kiểm tra một mô hình dữ liệu cụ thê
Các nhãn trong học máy là gì? -Nhãn là thứ mà HITL sử dụng để xác định và gọi ra các đặc tính có trong dữ liệu
-Việc lựa chọn các đặc tính có tính thông tin, phân biệt và độc lập để gán nhãn là cực kỳ quan trọng nêu bạn muôn phát triên các thuật toán trong nhận dạng hình mẫu, phân loại và hồi quy một cách hiệu quả
-Dữ liệu được gán nhãn chính xác có thê cung cấp sự thật nền tảng để
Trang 12
thử nghiệm và lặp lại các mô hình của bạn
Name Shortcut Action Description
Trang 13
Những class nay thường ít được sử dụng
Void : Toàn bộ những khu vực chưa được phân loại class (bầu trời, cổ, xe ghi hình, )
Lane_While í Lane Blue / Lane_Yellow : tắt cả những làn đường [fheo màu] nhìn ra được trên đường
RM_Arrow : Phan dau mũi tên phân biệt được trên đường RM_Character : Phan chữ viết phân biệt được trên đường
RM_Number : Phản số phân biệt được trên đường RM_Figure : Phan hình phân biệt được trên đường Road : mặt đường
Vehicle_Body : phần toàn thân xe Vehicle_Tire : phần lắp xe
General_Structure : Tắt cả các công trình có định có dạng thảng đứng nằm giáp với đường Pole : Chỉ giới hạn 2 loại Pole và Cone
Removable_Object : Cac vat thé tam thời ở trên đường nhưng sau một thời gian nhát định có thể di chuyển (bảng hiệu công trình, thùng, bảng chỉ dẫn, đá lỡ, v.v)
Motorcycle : Xe máy (kê cả tài xế cũng cho là xe máy} Bicytle : Xe đạp
RM_Cross : Vạch qua đường §†op;_Line : Vạch kẻ dừng xe (vẽ theo đường ngang)
Parking_Strip : Khu vyc 46 xe (6 hinh chữ nhật cho xe 46) Speed_Breaker : Go gidm tic 4
Curb : Bó vỉa (bề mặt vuông góc phân cách lòng đường và vỉa hè)
Pavement : via hè (bao gồm tắt cả loại đường dành cho người đi bộ)
Pedestrian : Người đi bộ
Guide_Lane_Blue ! 6uide_Lane_6reen/ 6uide_Lane_Red : đường hướng dẫn giữa làn đường [theo màu]
tập -Tìm hiểu chức năng , cách sử dụng các công cụ hỗ trợ trong quá trình thực -Tìm hiểu các cơ chế xác thực người dùng và cách hoạt động của các tool: CVAT : Computer Vision Annotation Tool
Trang 14
-Tiến hành thực hiện dự án +, Thu thập dữ liệu: Dữ liệu thô được thu thập sẽ được sử dụng đề huấn luyện mô hình Dữ liệu này được làm sạch và xử lý đề tạo thành một cơ sở đữ liệu có thê được cung cap trực tiêp cho mô hình
+, Gắn thẻ dữ liệu: Các phương pháp gán nhãn dữ liệu khác nhau được sử dụng đề găn thẻ dữ liệu và liên kết dữ liệu đó với ngữ cảnh có nghĩa +, Đảm bảo chất lượng: Chất lượng của chú thích đữ liệu thường được xác định bằng mức độ chính xác của các thẻ đối với một điểm dữ liệu cụ thé va mức độ chính xác của các điểm tọa độ đối với hộp giới hạn và chủ thích điểm chính Các thuật toán QA như thuật toán Đồng thuận và kiểm tra Cronbach's Alpha rất hữu ích để xác định độ chính xác trung bình của các chú thích này
Trang 151 Sau khi login nhắn vào dấu ii tan ở trên bên phải
2 Chon Settings 3 Chon Automatic bordering 4 Save
Khi đăng nhập vào một tài khoản khác cũng phải check lại phan cài đặt này!
+ Thỉnh thoảng khi dùng -
ee Enable auto save sé xuat
2 Change password hién 16i bị xóa mắt nội dung
G Logout Sitaianiaseaa ` đã làm xong Cho nên
Trang 16
Stage; annotation Stage: annotatic Stage: annotation Stage: anne
State: in progress i State: in progress State: in progress State: in progress
3.Xác định đối tượng và dùng các công cụ có săn đề thực hiện gán nhãn cho đôi tượng
-Dữ liệu cân làm việc:
Trang 17
Báo cáo thực tập doanh nghiệp ngành Công nghệ thông tin
Trang 18
-Khắc phục các lỗi phát sinh sau khi hoàn thành l nhiệm vụ( nếu có)
‘ 10) gn0471 |tsenam TT Ame30 |ta>e x 1031/07/2023)
148 10| gA0471 tt_giangntt ‘TT_Anne 20 |ttquargpd * 10 31/07/2023)
, t0|pe@71 — |tgergm 2 TT Ame30 |t qzrgpb Y 10 3107923]
7
- Nhiệm vụ chưa hoàn thành -Báo có tiên độ với người phụ trách sau khi hoàn thành sửa lỗi g | Sau khi đã nghiệm thu và sửa lỗi tại công ty, nhiệm vụ sẽ được bản g1ao
đến khách hàng
9 |-Xử lý phản hồi từ khách hàng( nếu có)
-Chuẩn bị bài nghiệp thu TTDN và xin đánh giá từ phía người hướng dẫn
10 | tai don vị,
Các công cụ đã tìm hiểu Bảng 2-2:Một số công cụ đã tìm hiểu và áp dụng trong qua trình thực tập
Công cụ đã
Mô tả tìm hiểu
Trang 19
Khái niệm : cvat là website thuộc quyền quản lý thuộc công ty cô phân công nghệ và thương mại tektra , dùng đề làm việc, xử lý hình ảnh và nghiên cứu về trí tuệ nhân tạo cvat là nên tảng làm việc dành cho công việc gán nhãn/xử lý dữ liệu hình ảnh
Hoạt động : Nhận diện, gán nhãn đữ liệu hình ảnh - Sử dụng công cụ có sẵn đề vẽ khoanh vùng các đối tượng trong ảnh theo yêu câu
-Đánh dâu và gán nhãn các đối tượng trong ảnh theo yêu cầu từng dự án
-Dién thong tin cua các đôi tượng - Trích xuất ra các định dang theo yêu cầu để làm đữ liệu đầu vào cho hệ thông thông minh
UU DIEM - Có thê kết nối mọi lúc nhờ vào Internet
- Cấu hình đơn giản Cung cấp cấp trải nghiệm thân thiện với người dùng
-Dễ dàng sử dụng, không đòi hỏi kiến thức chuyên sâu NHƯỢC DIEM
-Xử lý dữ liệu chậm nếu nhiều người vào cùng một nhiệm vụ - Hay bị out ra màn hình login nếu có nhiều người truy cập vảo tài khoản đang sử dụng
Trang 21
CHƯƠNG 3 ĐÁNH GIA KET QUA VA DINH HUONG PHAT TRIEN
Đánh giá kết quả thực tập Tự đánh giá kết quả của quá trình thực tập:
s* Về kiến thức - Những kiến thức đã học ở trường đã được dùng trong công việc như:
phân tích thiết kế hệ thống, học máy thống kê, % Về kỹ năng
- _ Những kiến thức mới đã được tiếp cận, tìm hiểu trong quá trình thực tập như: học máy, điện toán đâm mây, gân nhãn vật thé, - Ngoài ra em còn tiếp thu được một số kỹ năng mềm như: Kỹ năng giao
tiếp, kỹ năng làm việc nhóm Định hướng phát triển của đề tài
Đề tài gán nhãn đữ liệu là một đề tài khá phổ biến hiện nay, có rất nhiều công ty công nghệ cần nguồn lực thật tốt để đáp ứng nhu cầu của khách hàng, vậy nên đề có một phần mềm tốt , hoàn hảo thì công tác xác định vật thê đề gán nhãn là rất quan trọng quyết định đến thành công của dự án