LỜI MỞ ĐẦU Đối với mỗi sinh viên, thực tập không chỉ là giai đoạn chuyển tiếp giữa môi trường học tập với xã hội thực tiễn, mà nó còn là gian đoạn vừa học, vừa làm tiếp xúc với công việc
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VI ỆN ĐI ỆN TỬ - VI ỄN THÔNG
BÁO CÁO THỰC TẬP KỸ THUẬT
Sinh viên thực hiện : Trần Thị Hà
MSSV : 20182477
Lớp : Điện tử 10 – K63
Đơn vị ực tậpth : Công ty Thinklabs JSC
Hà Nội, 1-2022
Trang 2LỜI MỞ ĐẦU
Đối với mỗi sinh viên, thực tập không chỉ là giai đoạn chuyển tiếp giữa môi trường học tập với xã hội thực tiễn, mà nó còn là gian đoạn vừa học, vừa làm tiếp xúc với công việc thực tế Trong kỳ ực tập lần này, em đã may mắn được tham gia thực tập tại công ty thThinkLABs Đây là cơ hội rt tốt để em được tiếp cận môi trường làm việc thực tế tại cc công ty, doanh nghiệp, qua đó có thể phần nào học hi được cc k năng cần thiết v chuyên môn, nghiệp v cng như cc k năng mm cần có, đng thời cng là cơ hội để chúng em
tự đnh gi lại kh năng ca bn thân và trau di thêm những kiến thc cần thiết để phc v cho tương lai sắp tới
Đợt ực tập kéo dài từ ngày 31/7/2021 – 29/8/2021 Ở ThinkLABs, em được tham thgia buổi seminar bo co tiến độ ca cc anh chị, được trau di kh năng nghiên cu, tiếp xúc với lĩnh vực Deep learning, rèn luyện thêm ngôn ngữ Python Không chỉ là kiến thc, tại đây em còn được học hi v tc phong hoạt động chuyên nghiệp, gặp gỡ người gii, tạo nn tng cho tương lai sau này
Những thuậ ợi và khó khăn trong đợn l t thực tập:
Thuận lợi:
- Sự quan tâm và giúp đỡ nhiệt tình từ mentor khiến bn thân không bị tự ti khi
trình bày quan điểm
- Thời gian thự ập thuận lợi giúp cho em có thể sắp xếp thời gian hợp lý.c t
Khó khăn:
- Do tình hình dịch bệnh COVID-19 phc tạp nên em phi thực hiện thực tập
online khiến việc trao đổi đôi chút khó khăn
Em xin chân thành cm ơn công ty ThinkLABs đã tạo điu kiện để em có thể tham gia thực tập trong thời gian này Và đặc biệt gửi lời cm ơn tới người thầy, người anh Nguyễn Đình Công đã tận ty giúp đỡ em trong khong thời gian thực tập, giúp em có nhiu bà ọc và hoàn thành đợt thự ập Em xin chân thành cm ơn !i h c t
Trang 3MỤC LỤC
DANH MỤC HÌNH ẢNH i
CHƯƠNG 1: GIỚI THIỆU VỀ CÔNG TY CỔ PHẦN THINKLABS 1
1 Giới thiệu khi qut 1
2 Cơ cu tổ chc 2
CHƯƠNG 2: NỘI DUNG THỰC TẬP 4
1 Cc vị trí công việc trong công ty 4
2 Mô t cc lĩnh vực hoạ ộng chuyên môn ct đ a công ty 4
2.1 Lĩnh vự ập trungc t 4
2.2 Mộ ố sn phẩm chính ca ThinkLABst s 5
2.3 Mộ ố thành tựu nổt s i bật 5
3 Mô t công việc được giao trong đợt thực tập 6
3.1 Tổng quan Machine Learning 7
3.2 Mạng Neuron tích chập (Convolutional Neural Network) 9
3.3 Tiếp cận bài ton nhận dạng và phân loại mộ ố t s loại sâu bệnh trên cây lúa 14
3.3.1 Giới thiệu bài ton 14
3.3.2 Cc nghiên cu liên quan 15
3.3.3 Đ t mô hìnhxu 15
3.4 Kết qu thực nghiệm và đnh gi 18
3.2.1 Tập dữ ệu (dataset)li 18
3.4.2 Giao thc đnh gi 22
Trang 43.5 Kết luận 28
CHƯƠNG 3: NHẬN XÉT, ĐỀ XUẤT 30
1 Ưu điểm 30
2 Nhược điểm 30
3 Đ xut 30
CHƯƠNG 4: KẾT LUẬN 31
TÀI LIỆU THAM KHẢO 32
Trang 5DANH MỤC HÌNH ẢNH
Hình 1: Hình nh logo ca công ty 1
Hình 2: Sơ đ tổ c bộ my công tych 2
Hình 3: Hình nh công ty dự ộc thi Watson Build do tập đoàn IBM tổ cu chc 6
Hình 4: Bc tranh tổng quan v AI 7
Hình 5 Cu trúc mạng CNN 9
Hình 6: Ví d v lớp convotional layer 10
Hình 7 Ví d lớp Max pooling 11
Hình 8 Ví d lớp Average Pooling 11
Hình 9 Cu trúc lớp kết n i đố ầy đ 12
Hình 10: Ví d v hàm softmax 13
Hình 11: Đ ị hàm ReLu th 13
Hình 13: Kiến trúc ca pretrained-model 17
Hình 14: Kiến trúc c giai đoạn – transfer learninga 2 17
Hình 15: Bộ sưu tầ nh gm m có 9 lớp sâu bệnh 18
Hình 16 Ảnh bệnh False Smut (bệnh than vàng) 19
Hình 17 Ảnh bệnh Bacterial Leaf Light ( bệnh bạc l) 19
Hình 18 Ảnh Brown plant hopper (sâu rầy nâu) 20
Hình 19 Ảnh Neck Blast (bệnh đạo ôn cổ bông) 20
Hình 20 Ảnh Brown Spot (bệnh đốm nâu) 21
Hình 21 Ảnh Sheath Blight (bệnh đốm vằn) 21
Hình 22: Cc loại sâu bệnh đã được chia theo triệu chng 22
Hình 23: Tổng kết lượng tham số sau giai đoạn 1 24
Hình 24: Số ợng mẫu đã được đnh nhẫnlư 24
Hình 25: Thực hiện tăng cường dữ liệu 24
Hình 26: Ảnh mẫu sau khi đượ gia tăng dữ c liệu 25
Trang 6ii
Hình 28: Thực hiện đóng băng cc lớp đã hun luyện 26
Hình 29: Lượng tham số sau khi đóng băng dữ liệu 26
Hình 30: Lượng tham số sau khi thực hiện transfer learning 26
Hình 31: Kết qu đ thị 27
Hình 32: Confusion matrix sau khi hun luyện 27
Hình 33: Bo co bài ton phân loại 28
Trang 7CHƯƠNG 1: GIỚI THIỆU VỀ CÔNG TY CỔ PH ẦN
THINKLABS
1 Giới thiệu khái quát
Tên công ty: CÔNG TY CỔ PHẦN THINKLABS
Tr sở chính: Tầng 1, tòa nhà Cao su Thanh Hóa, đường Lý Nam Đế, phường Đông Hương, thành phố Thanh Hóa, Thanh Hóa
Điện thoại: 09.444.888.68
Website: http://www.thinklabs.com.vn
Hình 1: Hình nh logo ca công ty Công ty cổ phần ThinkLABs được thành l p vào ngày 10 tháng 05 ậ năm 2017 bởinhững chuyên gia công ngh ệ trẻ, được đào tạo tại cc trường đại h c danh ti ng trongọ ế nước
và qu c t , luôn khát khao mang các sáng t o công ngh vào ph c vố ế ạ ệ trực tiếpđờ ối s ng, đp ng những nhu cầu thiết thực ca doanh nghiệp và người sử dng.ThinkLABs cung cp các s n ph ẩm và d ch vị đa dạng cho khách hàng bao gmcác gi i php cho đô thịthông minh, chính quyn điện tử, ng d ng công ngh ệ thôngtin t i các doanh nghi p trong ạ ệquá trình chuyển đổ ố trong xu hưới s ng cách m ng côngạ nghệ 4.0 Với phương châm
“Không ngừng h c h i, sáng tọ ỏ ạo” ThinkLABs đã kết hợpvới các phòng nghiên c u công nghệ tại cc công ty, trường đạ ọc hàng đầi h u trên thếgiới để cập nhật cc xu hướng công nghệ m i nh t nh m áp d ng vào các s n phớ ằ ẩm,gii pháp c a công ty nh ằm nâng cao năng sut, hiệu qu cho khách hàng.
Trang 82
2 Cơ cấu tổ chức
Tổng gim đốc: ông Hoàng Đc Thịnh
Hình 2: Sơ đ tổ c bộ my công ty ch
• Trường phòng sn xut phần mm: ông Phan Đình Hưng
• Trưởng phòng nghiên cu pht triển: ông Nguyễn Đình Công
• Trưởng phòng trung tâm đào tạo CNTT: ông Nguyễn Thế Cường
• Trường phòng kinh doanh và văn phòng: ông Lê Văn Chính
Đội ng chuyên gia năng động, nhiệt tình, sáng tạo được đào tạo một cách chuyên nghiệp, bài bn đã đạt được nhi u ch ng ch qu c t c ỉ ố ế a cc trường đạ ọc hàng đầ thếi h u giới
Trang 9ThinkLABs có đội ng hơn 30 nhân viên là cc k sư công nghệ thông tin t t nghiố ệp tại cc trường đại học chuyên ngành công nghệ thông tin trong nước, bên cạnh đó công ty cng có sự hợp tác với đội ng chuyên gia là cc Gio sư, tiến s đến từ các Công ty, các trường đạ ọc hàng đầu trong nưới h c và trên thế giới
Trang 104
CHƯƠNG 2: NỘI DUNG THỰC TẬP
1 Các vị trí công việc trong công ty
Công ty ThinkLABs có tiếp nhận cc sinh viên thự ập tùy theo thời gian làm việc : c tfulltime (toàn thời gian) hoặc parttime (bn thời gian) Sau khong thời gian thực tập nếu đ kh năng và pht triển có thể giữ lại làm nhân viên chính thc
Đố ới v i phòng R&D nghiên cu và pht triển:
- Leader nhận yêu cầu từ ban Gim đốc, chịu trch nhiệm trong cc dự n nghiên cu, tham gia pht triển prototype và hỗ trợ đào tạo, hướng dẫn cc thành viên
- Cc thành viên trong nhóm cần tinh thần trch nhiệm cao, luôn có buổi seminar mỗi
tuần để trao đổ n đ và họi v c hi thêm điu mới
2 Mô tả các lĩnh vực hoạt động chuyên môn của công ty
2.1 Lĩnh vực tập trung
Tư vn gii php cho cc dự n ng dng CNTT đô thị thông minh, chính quyn điện
tử, hỗ ợ công tc qun lý điu hành và tc nghiệp do nhu cầu ực tiễn đặt ra trên nhitr th u lĩnh vực
Phân tích, thi t k , xây dế ế ựng cơ sở ữ liệ d u các hệ thống thông tin ph c v công tác chuyển đổi số theo yêu cầu ca cc đơn vị, tổ chc
Xây d ng hự ệ thống các ph n m m hầ ỗ trợ qu n lý, h ỗ trợ điu hành tác nghiệp nh m nâng cao công tác qu n lý và ph c vằ ca cc đơn vị, tổ ch c,doanh nghi p; xây d ng các ph n m m chuyên ngành, các Website công ty ệ ự ầ
Triển khai, đào tạo các phần mm cho cc đơn vị, tổ chc, doanh nghiệ p
Cung c p các gói d ch v xây d ng h ị ự ệ thống M ng, trung tâm tích h p d ạ ợ ữliệu, các gi i pháp truy n thông và các gói d ch v ị đào tạo CNTT
Trang 112.2 Mộ ố sản phẩm chính của ThinkLABst s
Những s n ph m, gi i pháp c a Công ty C ẩ ổ phần ThinkLABs hiện đang đóng gópkhông nh vào quá trình ng d ng công ngh thông tin trong cu c s ng hàng ngày và trong ệ ộ ốqun lý hành chính nhà nước, bao gm:
• Hệ thống khám ch a b nh t xa: Hữ ệ ừ ệ thống hỗ trợ các phòng khám, bệnh viện
có thể khm và tư vn cho các b nh nhân t xa ệ ừ
• Hệ thống bệnh n điệ ửn t : Hệ thống giúp phòng khám, bệnh viện, bệnh nhân
có thể qun lý điệ ử sơ khm chữn t h a bệnh
• Hệ thộng chẩn đon bệnh dựa trên trí tuệ nhân t o: H ạ ệ thống có th ể nhận diện các b nh thông qua các hình nh mà b nh nhân và b nh vi n cung c p vệ ệ ệ ệ ới độchính xác cao
• Hệ thống s d ng thi t bử ế ị bay không người lái và trí tu nhân t o trong vi c ệ ạ ệgim st và đnh gi cc trạm viễn thông, đường dây truyn ti điện
- Thng 3 năm 2019 ThinkLABs đạt gii thưởng Top 50 doanh nghi p AI (trí ệ tuệnhân t o) kh i nghi p toàn c u t i AI&IOT&Smartcity ạ ở ệ ầ ạ ở Đài Loan
- Thng 4 năm 2019, ThinkLABs đạt Gii thưởng Sao Khuê 2019, danh hiệu uy tín nht ca ngành công ngh thông tin Vi t Nam ệ ệ
- Thng 6 năm 2019, ThinkLABs đạt gii nht cuộc thi IOT startup 2019 được tổ chc tại thành phố H Chí Minh
Trang 126
Hình 3: Hình nh công ty dự ộc thi Watson Build do tập đoàn IBM tổ cu chc
3 Mô tả công việc được giao trong đợt thực tập
Mục đích của đợt thực tập tại công ty:
• Tiếp cận với cch nghiên cu project v Trí tuệ nhân tạo
• Học Deeplearning v mặt lý thuy t và thế ực hành (ngôn ngữ Python):
- Tổng quan v Machine learning – Deep learning
- Cc bài ton cơ bn: Hi quy tuyến tính, phân lớp, …
- Cc phương php đnh gi và tham số cần thiết
- Tập trung vào mô hình CNN
• Qu trình thực tập được gim st bởi trưởng phòng R&D: anh Nguyễn ĐìnhCông
Trang 133.3 ếp cận bài toán nhậTi n dạng và phân loại m t sộ ố ại sâu bệnh trên cây lo lúa 3.3.1 Giới thiệu bài toán
Lúa gạo chiếm vị trí quan trọng trong xut khẩu ở Việt Nam nói riêng và Châu Á nói chung Lượng đt trng lúa ở Việt Nam hiện nay đang dần eo hẹp (gim khong 39.7 nghìn
ha trong năm 2021 [14] Tuy nhiên, việc pht hiện ra sâu bệnh ở cây lúa vẫn được nông dân thực hiện một cch th công và khó chính xc bởi không phi người nông dân nào cng có đ kiến thc và pht hiện kịp thờ ể đưa ra gii php hữu ích cho cây trng i đChính vì vậy, k thuật deep learning đã có thể gii quyết được vn đ đó trong việc phân loại hình nh
Trong thực tế, cc k thuật phân loạ ng dng rt nhiu Cc ngân hàng sử dng nó i
để phân loại khch hàng (ví d: liệu khch hàng có hoàn lại nợ tín dng hay không?) Cc bệnh viện ng dng nó để phân loại bệnh nhân, cc công ty bo hiểm dùng trong việc phân loại cc thân ch ca mình… Phân loại còn có thể được sử dng ở một mc độ sâu sắc hơn Ví d, cc loại camera hiện đại dùng bài ton classification để nhận diện khuôn mặt, dịch v bưu điện sử dng nó trong việc nhận dạng địa chỉ viết tay Cc thương gia dự đon
th trưị ờng bằng cc thuật ton phân loại, trong khi những nhà khí tượng sử dng nó để dự bo thời tiết
Vậy bài ton classification là gì?
Classification (bài ton phân lớp) [15] là bài ton thuộc loại học có giám sát (do
nh được đnh nhãn) Qu trình bắt đầu với việc dự đon lớp ca cc điểm d liữ ệu đã cho Cc lớp thường được gọi là đích, nhãn hoặc danh mc Mô hình dự bo phân loại là nhiệm v xp xỉ hàm nh xạ từ cc biến đầu vào đến cc biến đầu ra rời rạc Mc tiêu chính là xc định dữ ệu mới sẽ li thuộc lớp hoặc danh mc nào Gi sử 1 bài ton đơn gin như: pht hiện bệnh tim từ những dữ ệu sẵn có là một bài ton phân loại nhị phân (0 – không bị libệnh tim, 1- bị bệnh tim hoặc ngược lại) Trong bài ton này, qua qu trình hun luyện cc
dữ ệu nh v bệnh tim đã có từ li trước, my sẽ được học những đặc trưng cơ bn ca bệnh
Trang 143.3.2 Các nghiên cứu liên quan
Trong những năm gần đây, cc k thuật liên quan đến deeplearning đã đượ ng c dng trong việc phân tích bệnh trên cây chè [17] sử dng mô hình Caffenet để nhận dạng
13 loại bệnh khc nhau trên thực vật Một số nghiên cu v sâu bệnh trên cây lúa cng đã được công bố như k thuật transfer learning ọc chuyển giao) từ mô hình AlexNet (h [18]với 619 b nh v sâu bệnh, [19] sử dng k c thuật SVM (Support Vector Machine) phân loại 9 loại sâu bệnh trên cây lúa vớ ộ chính xc gần 97.5% i đ
Những nghiên cu được nhắ ở trên ch yếu tập trung vào c độ chính xác ca việc nhận dạng và phân loại bệnh trên cây Nhằm mc đích đó thì chúng ta có rt nhiu những
mô hình nổi tiếng với độ chính xc cao như: AlexNet, SVM, VGG16,… Tuy nhiên, với hoạt động ca những mô hình này lại yêu cầu lượng tham số khổng l, chẳng hạ như n VGG16 cần gần 14 triệu tham số [20] dẫn đến việc hun luyện tiêu tốn ngun tài nguyên my lớn, việc thực hiện rt mt thời gian (có thể lên đến 12 tiếng [21] cc thiết bị như ) Mobile hay my tính có phần cng CPU khó có thể đp ng (cần cu hình GPU) Điu này gây bt tiện cho việc pht triển ng dng sau này ca bài ton
3.3.3 Đề ất mô hìnhxu
Như đã đưa ra vn đ ở phần 3.3.2 v độ phc tạp ca những mô hình lớn, nhằm gii quyết điu đó, chúng tôi đ xu một mô hình có tên là Simple CNN Tuy độ chính xc t không cao như những mô hình ở trên p xỉ 94%) nhưng SimpleCNN lại gii quyết cân (xbằng được c 2 khía cạnh: độ tin cậy đ cao và thời gian tiêu tốn ít (lượng parameter chỉ khong vài trăm nghìn) Simple CNN là một mạng CNN được xây dựng toàn bộ từ đầu với
Trang 152 giai đoạn và lượng tham số tương đối nh sẽ phù hợp cho cc thiết bị mobile và những thiết bị có cu hình thp
Mô hình được chia thành 2 giai đoạn:
Giai đoạn 1: Toàn bộ dataset ca 17 lớp sau khi được chia ra từ dữ liệu gốc sẽ là dữ
liệu đầu vào cho giai đoạn này Kết qu cuối cùng ca giai đoạn này là lớp dense (lớp đầy đ) 17 nodes với hàm kích hoạt softmax →được xem là bước pretrained-model (mô hình tin hun luyện)
Giai đoạn 2: Bộ dataset ban đầu với 9 lớp được sử dng Toàn bộ trọng số ca giai
đoạn 1 được transfer sang trừ lớp ngoài cùng Như vậy, lớp dense 17 nodes đã được thay thế bằng lớp dense 9 nodes cùng với hàm kích hoạt là hàm softmax
K thuật transfer learning (học chuyển giao) mang lại nhiu lợi ích, nhưng những
ưu điểm chính là tiết kiệm thời gian đào tạo, hiệu sut tốt hơn ca mạng nơ ron (trong hầu hết cc trường hợp) và không cần lượng dữ liệu qu lớn Thông thường, dữ liệu đầu vào phi lên tới hàng nghìn tới để đào tạo một mạng nơ ron từ đầu nhưng không phi lúc nào -cng có sẵn quyn truy cập vào dữ liệu đó đây là lúc việc học chuyển giao trở nên hữu - ích Với việc học chuyển giao, một mô hình học my vững chắc có thể được xây dựng với
-dữ liệu đào tạo tương đối ít vì mô hình đã được đào tạo trước Ngoài ra, thời gian đào tạo được gim xuống vì đôi khi có thể mt vài ngày hoặc thậm chí vài tuần để đào tạo một mạng nơ-ron sâu từ đầu cho một nhiệm v phc tạp
Trong bài ton phân loại sâu bệnh trên cây lúa em đang trình bày, do lượng data kh
ít nên việc thực hiện transfer learning là một ý tưởng tốt Khc với những cch thông thường thì trong bài này, việc tạo pretrained model là làm từ đầu (tc là sử dng chính data thu thập được)
Kiến trúc của mô hình
Đúng như tên ca model, cu trúc rt đơn gin và không cần bộ tin xử lý Mô hình được trực quan hóa bằng sơ đ hình 13, 14