Kết quả đánh giá

L ỜI CẢM ƠN

3.4. Kết quả đánh giá

Kết quả sử dụng t-SNE để biểu diễn các điểm dữ liệu trên không gian 2D cho thấy mỗi đặc trƣng khi có độ hiệu quả khác nhau khi phân lập so giữa các hành vi. Ví

dụ: dùng khoảng biến thiên làm đặc trung cho thấy sự tách biệt rõ ràng giữa hai nhóm

hành vi động (đi bộ, đi nhanh) và tĩnh (nằm, ngồi, đứng) nhƣng không tách biệt đƣợc các hành vi cụ thể trong mỗi nhóm hành vi trên; đặc trƣng giá trị trung bình tách biệt

đƣợc hai hành vi nằm và ngồi, nhƣng không phân biệt đƣợc rõ ràng 3 hành vi còn lại; 2

đặc trƣng độ lệch chuẩn và phƣơng sai phân tách tốt đi bộvà đi nhanh, nhƣng cho thấy sự chồng lấn giữa 3 hành vi còn lại. Kết hợp cả6 đặc trƣng cho sự phân tách tốt nhất giữa các hành vi nhƣ ở hình 3-5.

ình 3-5: Biểu diễn t-SNE khi kết hợp 6 đặc trưng

Dữ liệu cảm biến gia tốc sau khi đƣợc xử lý và trích chọn đặc trƣng sẽ đƣợc sử

dụng cho mô hình huấn luyện để đánh giá độ hiệu quả của các thuật toán phân loại

trong bƣớc tiếp theo.

Trong việc đánh giá hiệu quả của một thuật toán nhất định, ba thông sốthƣờng

đƣợc xem xét: Accuracy (độ chính xác), Recall (độ nhạy), Precision (độ chỉ rõ) và F1- score [4].

Trong đó:

 True Positives: Tổng các hành vi đƣợc phân loại đúng với nhãn.

 False Negatives: Tổng các hành vi bị phân loại sai thành các hành vi khác.

 False Positives: Tổng các hành vi khác bị phân loại thành hành vi đang xem xét.  True Negatives: Tổng các hành vi khác đƣợc phân loại đúng

Phƣơng pháp đánh giá ở phần này đƣợc áp dụng lên hai bộ dữ liệu, gồm bộ dữ

liệu có sẵn của J. Wang và bộ dữ liệu thu thập đƣợc từ thực nghiệm với cảm biến đƣợc thiết kếở trên.

Kết quảđối chiếu mô hình đã đƣợc phân loại đối với bộ dữ liệu J. Wang cho kết quảđộ chỉ rõ của từng thuật toán nhƣ sau:

ảng 3-4: So sánh độ chỉ rõ chung của 4 mô hình phân loại

Thuật toán Độ chỉ rõ

Gradient Boosted Decision Tree 8 86.5%

Random Forest 84.7%

Support Vector Machines 80%

k-NN 84%

Dễ thấy ở bảng 3-4, mô hình phân loại sử dụng thuật toán GBDT cho kết quả

khả quan nhất. Đi sâu vào hiệu quả chi tiết của G DT đối với từng hành vi, ta có ma trận nhầm lẫn sau khi tiến hành đánh giá trên cả 2 bộ dữ liệu ở bảng 3-5 và 3-6. Dễ

thấy rằng các hành vi phân loại chính xác ở mức độ cao, nhƣng cũng có một số phân loại sai về hành vi xảy ra ởhành vi ăn, đứng và đi bộbình thƣờng.

ảng 3-5: Ma trận nhầm lẫn của thuật toán GBDT đối với từng hành vi cụ thể trên bộ dữ liệu

J. Wang Nhãn đúng Dựđoán Ăn Nằm Đứng Đi bình thƣờng Ăn 238 0 97 0 Nằm 4 271 0 0 Đứng 42 0 488 0 Đi bình thƣờng 0 0 0 294

ảng 3-6: Ma trận nhầm lẫn của thuật toán G DT đối với từng hành vi cụ thể trên bộ dữ liệu

tự thu thập Nhãn đúng Dựđoán Ăn Nằm Đứng Đi bình thƣờng Ăn 221 0 114 0 Nằm 5 270 0 0 Đứng 33 0 498 1 Đi bình thƣờng 3 0 3 290

Hiệu suất của mô hình trên cả hai bộ dữ liệu đƣợc đánh giá dựa trên ba chỉ số là

độ nhạy, độ chỉ rõ và f1-score nhƣ trong ảng 3-7 và 3-8. Hiệu suất tổng thể của mô hình GBDT là hợp lý. Độ chính xác là hơn 86% cho tất cả các loại hành vi đƣợc phân loại. Độ chỉ rõ và độ nhạy là tốt cho tất cả các hành vi, trong đó 2 hành vi nằm và đi bình thƣờng. Độ chính xác tốt nhất đạt đƣợc khi nằm, đi bộ bình thƣờng và đi bộ tích cực. Độchính xác khi cho ăn và đứng thấp hơn một chút, nhƣng tốt hơn đáng kể so với nằm xuống và đứng lên.

ảng 3-7: Hiệu suất tổng thể của mô hình G DT đối với các hành vi đối với bộ dữ liệu của Jun Wang

Precision Recall F1-score Support

Ăn 0.82 0.89 0.85 244 Nằm 1.00 1.00 1.00 291 Đứng 0.82 0.73 0.78 179 Đi bình thƣờng 1.00 1.00 1.00 294 Micro average 0.92 0.92 0.92 1008 Macro average 0.91 0.90 0.91 1008 Weighted average 0.92 0.92 0.92 1008 ảng 3-8: Hiệu suất tổng thể của mô hình G DT đối với các hành vi đối với bộ dữ liệu của tự thu thập

Precision Recall F1-score Support

Ăn 0.83 0.68 0.74 335 Nằm 1.00 0.98 1.99 275 Đứng 0.82 0.93 0.87 532 Đi bình thƣờng 0.99 0.98 0.99 296 Micro average 0.89 1438 Macro average 0.91 0.89 0.90 1438 Weighted average 0.89 0.89 0.89 1438 3.5. Nhận xét

Mô hình dự đoán đƣợc trình bày ở trên cho kết quả khả quan trong việc nhận dạng các thay đổi hành vi bằng cách sử dụng dữ liệu gia tốc kế. Độ chính xác và hiệu suất phân loại tổng thể là rất tốt cho tất cả các loại hành vi. Độ chính xác của mô hình

Đối với 2 hành vi đứng lên và nằm xuống, bộ phân loại không cho kết quả khả quan bằng và có vẻ hay nhầm lẫn giữa hai hành vi này. Mặt khác, các giá trị độ nhạy thƣờng

cao, có nghĩa là không có nhiều trƣờng hợp âm tính đƣợc phân loại sai thành dƣơng

tính. Hiệu suất của thuật toán G DT nhƣ trong ảng 3-4 cao hơn so với các kết quả trƣớc đây của Jun Wang et al. (2018), ngoại trừ 2 hành vi nằm xuống và đứng lên. Kết quả kém của việc phân biệt trạng thái nằm và đứng cho thấy rằng các thông số khác nhau (ví dụ: cửa sổ thời gian giá trị khác thay vì 16 giây) nên đƣợc áp dụng cho quá trình tiền xử lý dữ liệu, tùy thuộc vào các đặc điểm của hành vi đƣợc quan sát. Nhƣng

trong ứng dụng thực tế, khi trạng thái đứng lên và nằm xuống không xảy ra thƣờng

xuyên nhƣ các trạng thái khác và có ảnh hƣởng nhỏđến dựđoán sức khỏe của bò, kết quả tốt của mô hình phân loại trên trong việc dựđoán 5 trạng thái còn lại dƣờng nhƣ là

CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM QUẢN LÝ VÀ PHÂN LOẠI DỮ LIỆU HÀNH VI

4.1. Nhu cầu và mục tiêu

Giải pháp phân loại hành vi bò sữa bằng học máy, cụ thể là thuật toán Gradient Boosted Decision Tree cho kết quả khả quan. Tuy nhiên khi áp dụng vào thực tế trên

đàn bò lớn nảy sinh một số vấn đề.

Thứ nhất, nhu cầu thu thập dữ liệu liên tục trong ngày, nhiều ngày liên tục đối với

đàn bò lớn tạo ra lƣợng dữ liệu không nhỏ, đòi hỏi việc quản lý dữ liệu cảm biến gia tốc một cách tập trung.

Thứ hai, việc thu thập dữ liệu và nạp thành file excel nạp vào thuật toán cho việc phân loại với mô hình đƣợc huấn luyện sẵn là một quá trình mất thủ công mất thời gian, không khả thi đối với số lƣợng lớn đối tƣợng gia súc cần theo dõi và phân loại hành vi.

Thứ ba, cách làm thủcông này cũng không đáp ứng đƣợc việc phân loại hành vi trực tiếp theo thời gian thực. Đồng thời kết quả phân tích cũng không đƣợc quản lý hiệu quả.

Để giải quyết những vấn đề trên, cần có một hệ thống thông tin để tiến hành phân loại, quản lý dữ liệu cảm biến, quản lý dữ liệu kết quả. Hệ thống này cần có các mục tiêu sau:

 Nhận dữ liệu cảm biến gia tốc gián tiếp bằng cách thủ công (tải file excel hoặc csv), hoặc trực tiếp từ cảm biến một cách tựđộng thông qua API.

 Lƣu trữ dữ liệu cảm biến theo từng đối tƣợng gia súc

 Tiến hành phân loại hành vi

 Lƣu trữ dữ liệu phân loại hành vi theo từng đối tƣợng gia súc

 Thống kê

4.2. Yêu cầu kỹ thuật

a) Yêu cầu chức năng: đảm bảo tính phù hợp; tính chính xác; khả năng hợp tác làm việc; tính an toàn.

b) Yêu cầu về chuẩn tiếng Việt: hỗ trợ chuẩn ngôn ngữ Unicode (tiêu chuẩn TCVN 6909); hỗ trợ tiêu chuẩn Unicode về mặt lƣu trữ dữ liệu, hỗ trợ nhiều bộ gõ khác nhau.

c) Yêu cầu về giao diện ứng dụng phần mềm: thiết kế một cách phù hợp và thống nhất; dễ sử dụng, thông báo/chú thích rõ ràng; thân thiện với ngƣời dùng.

d) Yêu cầu về hệ thống báo lỗi: cung cấp tính năng báo lỗi chi tiết đến từng tình huống; trong các thông báo lỗi.

e) Yêu cầu về khảnăng thống kê: cung cấp cho ngƣời sử dụng thống kê hoạt động của từng cá thể gia súc, nhằm định tính sức khỏe từng cá thể.

f) Yêu cầu về bảo mật, an toàn, an ninh hệ thống: hệ thống đƣợc thiết kế, xây dựng có khả chống các cuộc tấn công cơ bản nhƣ: DOS, DDOS, SQL injection, XSS,

giả mạo URL, …

g) Yêu cầu về công nghệ: chƣơng trình thử nghiệm phải đƣợc phát triển trên các nền tảng, thƣ viện, ngôn ngữ... phổ biến, đƣợc phát triển, cập nhật và vá lỗi liên tục. Khảnăng sẵn sàng (avaibility) của chƣơng trình ở mức tốt và hiệu suất cao.

h) Yêu cầu về thiết kế giao diện: Giao diện phải đƣợc thiết kế để phù hợp với nhiều

độ phân giải màn hình khác nhau, phù hợp với chuẩn thiết kế giao diện Web vì thế thiết kế giao diện và các thao tác phải trực quan, đơn giản, dễ nhìn, dễ hiểu. i) Tính mở rộng nâng cấp: giống nhƣ các hệ thống công nghệ thông tin khác, các hệ

thống phải đáp ứng đƣợc yêu cầu mở rộng, nâng cấp trong quá trình vận hành. Phần mềm hệ thống đảm bảo tƣơng thích khi nâng cấp phiên bản. Phần mềm

đƣợc xây dựng có thể nâng cấp đáp ứng yêu cầu thay đổi của nghiệp vụ.

4.3. Giải pháp và phân tích lựa chọn

Nhằm đáp ứng các điều kiện trên, luận văn này chọn giải pháp xây dựng chƣơng

trình thử nghiệm trên nền web, giao tiếp với ngƣời dùng và nhận dữ liệu từ cảm biến qua giao thức HTTP. Lựa chọn này cho phép giảm gánh nặng phát triển, bảo trì, nâng cấp chƣơng trinh; đồng thời cũng phù hợp với xu hƣớng phát triển nền tảng IoT

4.3.1. Kiến trúc vật lý của hệ thống

ình 4-1: Kiến trúc vật lý của hệ thống

Tại trang tại:

- Cảm biến gắn ở gia súc truyền dữ liệu gia tốc về máy chủ thông qua HTTP API Tại Trung tâm dữ liệu:

- Máy chủ CSDL sử dụng điều hành Linux (có thể là Debian, Ubuntu, CentOS...) và hệ quản trị CSDL Posgresql với phần mở rộng TimescaleDB.

- Máy chủứng dụng sử dụng hệđiều hành Linux và dịch vụnginx.

- Kiến trúc ứng dụng này cho phép triển khai đƣợc trên 1 hoặc nhiều máy chủ vật lý.

Đối với ngƣời dùng: Ngƣời dùng sử dụng trình duyệt (Chrome/Firefox/IE) để

4.3.2. Ngôn ngữ Python và nền tảng phát triển

Đối với frontend, giao diện ngƣời dùng thiết kế với HTML, CSS và Javascript.

Đối với backend, ngôn ngữ lập trình Python và nền tảng Django framework

đƣợc chọn để xây dựng chƣơng trình thử nghiệm.Python là một ngôn ngữ bậc cao, với

ƣu điểm vƣợt trội là dễ học, dễđọc và dễ nhớ; phần lớn các dòng lệnh đƣợc viết tƣơng

tự nhƣ ngôn ngữ con ngƣời. Cú pháp của Python nhìn chung ngắn gọn, rành mạch

nhƣng hiệu quả, giúp phát triển nhanh.

Một lợi thế lớn khác của Python là hệ sinh thái phong phú cùng sốlƣợng lớn các bộ thƣ viện, bao gồm cả thƣ viện chuẩn và thƣ viện của các bên thứ ba, phục vụ cho nhiều ứng dụng khác nhau từ khoa học dữ liệu cho đến các nền tảng web. Vì vậy, Python hiện là một số ít những ngôn ngữ lập trình phổ biến nhất trên thế giới hiện nay..

4.3.3. Giải pháp quản trị cơ sở dữ liệu Posgresql

Đối với các nền tảng web hiện nay, việc chọn kiểu cơ sở dữ liệu quan hệ

(Relational Database Management System – RDBMS) là rất phổ biến, và thực tế là

trong chƣơng trình thử nghiệm này, một số kiểu dữ liệu là kiểu dữ liệu quan hệ: Ngƣời

dùng, Đối tƣợng gia súc, Dữ liệu... Tuy nhiên đối với các dữ liệu cảm biến gia tốc đƣợc nạp vào hệ thống, kiểu dữ liệu là dạng time-series với các thông số bao gồm thời điểm,

định danh (ID) của cá thể gia súc, chỉ số đo 3 trục của. Vì vậy, luận văn này chọn PostgreSQL, cùng phần mở rộng TimescaleDB cho quản lý dữ liệu.

Đƣợc cho là phần mềm quản trị CDSL mã nguồn mở tiên tiến nhất hiện nay, Postgreql chỉ là một nền tảng CSDL quan hệ có hiệu năng hoạt động tốt, Postgreql nổi bật hơn so với các giải pháp nguồn mở khác nhƣ MySQL, MariaD … là ở chỗ nó còn

là mô hình CSDL hƣớng đối tƣợng, hỗ trợ các đối tƣợng ngƣời dùng tựđịnh nghĩa và

các hành vi của chúng bao gồm các kiểu dữ liệu, các hàm, các thao tác, các tên miền và các chỉ mục. Điều này làm cho Postgreql cực kỳ mạnh và linh hoạt. Các cấu trúc dữ

liệu phức tạp có thểđƣợc tạo ra, lƣu trữ, và truy xuất.

Trong khi đó, phần mở rộng TimescaleDB biến Postgreql thành một hệ quản trị

CSDL không chỉ phù hợp với kiểu dữ liệu quan hệ, mà còn hoạt động tốt với kiểu dữ

liệu time-series. Để làm đƣợc điều này, TimescaleDB tối ƣu cấu trúc lƣu trữ bằng cách

cách liên tục theo khoảng thời gian. Việc tƣơng tác với dữ liệu sẽ thông qua hypertable

này, nhƣng chỉ cần sử dụng các câu lệnh query SQL cơ bản của kiểu CSDL quan hệ.

4.3.4. Mô hình MVC xây dựng phần mềm thử nghiệm

Django là một nền tảng khá phổ biến để viết các hệ thống backend, đƣợc xây dựng trên ngôn ngữ lập trình Python và hoạt động nhƣ một mô-đun của Python. Tƣơng

tự nhƣ phần lớn các nền tảng phổ biến khác cho việc xây dựng web, Django sử dụng cấu trúc MVC (Model – View – Controller) và đƣợc hình dung nhƣ mô phỏng ở hình 4-2 dƣới đây:

ình 4-2: Mô hình MVC

Mô hình MVC là kiến trúc hệ thống chia ứng dụng ra 3 thành phần logic chính:

model, view và controller. Mỗi một thành phần này có nhiệm vụ xử lý các khía cạnh khác nhau trong quá trình phát triển phẩn mềm.

a) Model: Đây là thành phần đảm nhiệm các nghiệp vụ thao tác trực tiếp với dữ

liệu mà ngƣời dùng làm việc với. Đây mà nơi dữ liệu đƣợc truy xuất hoặc viết vào hệ quản trị cơ sở dữ liệu. Dữ liệu ở đây đƣợc chuyển hoá thành dạng có thể

hiểu đƣợc đối với ngôn ngữ lập trình để có thể chuyển tiếp cho Controller xử lý. b) Controller: Làm nhiệm vụ nhận điều hƣớng các yêu cầu từngƣời dùng và gọi

đúng những phƣơng thức xửlý chúng… Chẳng hạn thành phần này sẽ nhận thao tác yêu cầu từurl và form đểtìm hàm tƣơng ứng xử lý những yêu cầu này. c) View: Đảm nhận việc hiển thị thông tin, tƣơng tác với ngƣời dùng, nơi chứa tất

cảcác đối tƣợng GUI nhƣ văn bản, hình ảnh, các ô nhập liệu... mà ngƣời dùng trực tiếp tƣơng tác lên.

Luồng hoạt động của mô hình MVC: Khi có một yêu cầu từ phía ngƣời dùng (thông qua trình duyệt) gửi đến máy chủ, Thành phần Controller sẽ nhận yêu cầu và thông tin kèm theo (bao gồm URL, dữ liệu gửi lên), xử lý yêu cầu đó. Và nếu cần, nó sẽ gọi đến phần Model, vốn là thành phần làm việc trực tiếp với hệ quản trị cơ sở dữ

liệu. Sau khi xử lý xong, toàn bộ kết quả đƣợc đẩy về phần View và tƣơng tác với

ngƣời dùng.

Đánh giá chung về mô hình MVC là kiến trúc này thể hiện tính chuyên nghiệp trong lập trình, phân tích thiết kế. Do đƣợc chia thành các thành phần độc lập nên giúp phát triển ứng dụng nhanh, đơn giản, dễ nâng cấp, bảo trì. Đối với các nhóm phát triển có từ vài ngƣời trở lên, mỗi ngƣời có thể đƣợc phân công để làm việc với từng thành phần một nhƣng vẫn đảm bảo tính thống nhất và thông suốt của hệ thống phần mềm.

Thiết kế chức năng hệ thống