Khóa luận tốt nghiệp hệ thống dữ liệu lớn hỗ trợ nhận diện khuôn mặt buồn ngủ

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN HỒNG ÂN KHĨA LUẬN TỐT NGHIỆP HỆ THỐNG DỮ LIỆU LỚN HỖ TRỢ NHẬN DIỆN KHUÔN MẶT BUỒN NGỦ Big Data System supports Drowsiness Detection as a Service KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN HỒNG ÂN – 16520021 KHĨA LUẬN TỐT NGHIỆP HỆ THỐNG DỮ LIỆU LỚN HỖ TRỢ NHẬN DIỆN KHUÔN MẶT BUỒN NGỦ Big Data System supports Drowsiness Detection as a Service KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN PGS.TS VŨ ĐỨC LUNG ThS ĐỖ THỊ THANH TUYỀN TP HỒ CHÍ MINH, 2021 THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin -Chủ tịch -Thư ký -Ủy viên -Ủy viên LỜI CẢM ƠN Sau 4.5 năm học tập rèn luyện Trường Đại Học Công Nghệ Thông Tin, bảo giảng dạy nhiệt tình q thầy cơ, đặc biệt q thầy cô khoa Công Nghệ Phần Mềm, em học tập nhiều kiến thức bổ ích lý thuyết thực hành thời gian qua Trong khoảng thời gian thực luận văn tốt nghiệp, em học hỏi thêm nhiều kiến thức, kinh nghiệm để áp dụng hoàn thành luận văn tốt nghiệp Xin chân thành cảm ơn quý thầy cô Khoa Công Nghệ Phần mềm, đặc biệt cô Đỗ Thị Thanh Tuyền thầy Vũ Đức Lung tận tình hướng dẫn em hoàn thành luận văn tốt nghiệp Bên cạnh đó, lần xin cảm ơn nhóm bạn lớp làm khóa luận động viên, thảo luận góp ý cho nhóm đồng thời khơi thêm nguồn động lực cho nhóm để tiếp thêm động lực cho nhóm giai đoạn đầy khó khăn Ngoài ra, chúng em cảm ơn anh, chị, bạn bè gia đình giúp đỡ tạo điều kiện cho chúng em hoàn tất luận văn Mặc dù cố gắng, nhiên khả giới hạn nên không tránh khỏi sai sót, em mong nhận thơng cảm góp ý chân tình từ q thầy bạn Một lần xin chân thành cảm ơn người Thành phố Hồ Chí Minh, tháng năm 2021 TRẦN HỒNG ÂN ĐHQG TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: HỆ THỐNG DỮ LIỆU LỚN HỖ TRỢ NHẬN DIỆN KHUÔN MẶT BUỒN NGỦ Cán hướng dẫn: - ThS Đỗ Thị Thanh Tuyền - PGS.TS Vũ Đức Lung Thời gian thực hiện: Từ ngày 07/09/2020 đến ngày 27/12/2020 Sinh viên thực hiện: Trần Hoàng Ân – 16520021 Nội dung đề tài: Mục tiêu: • Tìm hiểu ưu điểm, nhược điểm hệ thống liệu lớn • Nghiên cứu công cụ hỗ trợ làm data warehouse, data processing, ETL có thị trường • Nghiên cứu kiến trúc hệ thống liệu lớn • Thiết kế hệ thống hỗ trợ liệu lớn phù hợp với yêu cầu phục vụ hệ thống máy học Phạm vi: Các hệ thống liệu lớn đám mây (cloud), hệ thống liệu lớn chỗ (onpremise) công ty vừa nhỏ, tảng mã nguồn mỡ hỗ trợ liệu lớn Đối tượng nghiên cứu: - Hadoop ecosystem Các tảng mã nguồn mở hỗ trợ liệu lớn - Phương pháp thực hiện: Thực đề tài theo bước: • Phân tích đề tài • Nghiên cứu dịch vụ / tảng hữu • Thiết kế yêu cầu • Nghiên cứu cơng nghệ để áp dụng • Phát triển sản phẩm qua giai đoạn • Kiểm thử hồn thiện Kết mong đợi: • Làm rõ định nghĩa xác định Dữ liệu lớn gì? Các khái niệm chuyên ngành cần biết đến • • Đem đến hình từ tổng quát đến chi tiết hệ thống liệu lớn có thị trường • Phân tích phần cốt lõi để tạo nên hệ thống liệu lớn chỗ • Thiết kế chi tiết hệ thống liệu lớn (mức độ triển khai) bao gồm: Apache Hadoop, Apache Spark, Cassandra, Jupyter notebook, Airflow • Triển khai hệ thống máy học dựa Kế hoạch thực hiện: Cơng việc STT Phase 1: Tìm hiểu hệ thống Big Data có thị trường, xây dựng hệ thống Thời gian thực 12 tuần (07/09/2020 – 02/11/2020) 1.1 Sprint 1: Tìm hiểu định nghĩa Big data – Big data gì? Tuần - – Các thuộc tính Big data? (07/09/2020 - – Big data với CSDL 20/09/2020) – Chi phí, bảo mật, tính mở rộng, – Các định nghĩa Batch processing, cluster computing, data storage, ochestration, data mining,HDFS, data lake data warehouse – Hadoop eco system – Kiến trúc big data system – Lựa chọn vấn đề để giải 2.1 Sprint 2: Tìm hiểu mơ hình thực tế, xác định thành phần hệ thống – Tìm hiểu: Cloudera, IBM, Teradata, Oracle,… Tuần (21/09/2020 27/09/2020) Sprint 3: Xây dựng prototype Apache 3.1 Hadoop Ecosystem – Cài đặt môi trường máy ảo VM – Deploy Hadoop, Flume, sqoop, Pig, Tuần - (28/09/202 – 01/11/2020) Airflow, Kafka – Deploy database Cassandra, Mongodb,… – Deploy Analysis tool: D3.JS, Dygaphs, … Sprint 4: Xây dựng thuật toán Máy học Tuần 4.1 9– Xây dựng thuật toán máy học Phase 2: Kết hợp hệ thống Data & Machine learning 12 (02/11/2020 – 29/11/2020) tuần (30/11/2020 – 27/12/2020) Sprint 5: Kết hợp Data warehouse ML system - Đổ data vào Data warehouse 5.1 Tuần 13 - 14 - Kết nối ML system (30/11/2020 - Chạy train model - Sprint 6: Kiểm thử 6.1 - Kiểm thử - Đánh giá 13/12/2020) Tuần 15-16 (14/12/2020 27/12/2020) Xác nhận CBHD TP.HCM, ngày 12 tháng 12 năm (Ký tên ghi rõ họ tên) 2020 (Ký tên ghi rõ họ tên) Trần Hoàng Ân 15 MỤC LỤC Mụ c lụ c TÓM TẮT KHÓA LUẬN MỞ ĐẦU Lý chọn đề tài: Chương TỔNG QUAN ĐỀ TÀI 1.1 Mục tiêu phạm vi 1.1.1 Mục tiêu 1.1.2 Phạm vi 1.2 Nội dung thực Chương DỮ LIỆU LỚN LÀ GÌ .6 2.1 Khảo sát thực trạng .6 2.2 Dữ liệu lớn gì? 2.3 Đặc điểm liệu lớn 2.3.1 Dung lượng 10 2.3.2 Vận tốc 12 2.3.3 Đa dạng 13 2.3.4 Độ xác 14 2.3.5 Tính biến thiên 15 2.3.6 Giá trị 16 2.4 Cách tiếp cận dựa giải pháp cho liệu 17 2.4.1 Dữ liệu - tài sản quý giá 18 2.4.2 Phương pháp truyền thống để lưu trữ liệu 18 2.4.3 Điện toán cụm 21 Chương HỆ SINH THÁI HADOOP – HỆ THỐNG DỮ LIỆU LỚN TẠI CHỖ .23 3.1 Apache Hadoop 24 3.1.1 Hadoop Distributed File System (HDFS) 25 3.1.2 MapReduce 29 3.1.3 YARN (Yet Another Resource Negotiation) .30 3.1.4 Lợi khó khăn dùng hadoop .32 3.2 Apache Kafka 33 3.3.1 Kiến trúc API 33 3.3.2 Kiến trúc kafka cluster 34 3.3.4 Các khái niệm 36 3.3 Apache Spark 37 3.5.1 Kiến trúc thành phần Spark 39 3.5.2 Những ưu điểm bật Spark 40 3.5.3 So sánh Spark Hadoop MapReduce 41 Chương TỔNG QUAN VỀ CÁC HỆ THỐNG BIG DATA TRÊN CLOUD - AMAZON 43 4.1 Amazon S3 44 4.1.1 Kiến trúc khái niệm 45 4.1.2 Quy trình xử dụng Amazon S3 .47 4.1.3 Ưu điểm Amazon 48 4.1.4 Lợi ích amazon S3 49 4.1.5 Các trường hợp nên dùng Amazon S3 51 Logistic regression: Decision Tree: 84 Random Forest: KNN: 85 Naives Bayers: Từ confusion matrix ta thống kê được: Tỉ lệ label Tỉ lệ label Logistic Regression 0.76 0.91 Decision Tree 0.67 0.95 Random Forest 0.65 0.97 KNN 0.17 0.90 Naives Bayers 0.88 0.81 Model Bảng 5.2 Thống kê độ xác label 5.5.6.3 True/False Positive True/False Negative Cách đánh giá thường áp dụng cho tốn phân lớp có hai lớp liệu Cụ thể hơn, hai lớp liệu có lớp nghiêm trọng lớp cần dự đốn xác Ví dụ, tốn xác định có buồn ngủ hay khơng chúng tơi việc khơng bị bỏ xót quan trọng việc dự đốn nhầm 86 Thì tốn vậy, chúng tơi định nghĩa lớp liệu quan trọng Positive, lớp lại Negative Dựa confusion matrix ta định nghĩa True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) sau (ví dụ với lớp Positive): (Predicted result) (Predicted result) (Actual result) True Positive False Negative (Actual result) False Positive True Negative Bảng 5.3 Định nghĩa True/False Positive, True/False Negative Từ chúng tơi suy TPR, FPR, TNR, FNR với R Rate (tỉ lệ) cịn gọi Normalize Confusion matrix: (Predicted result) (Actual result) (Actual result) 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 𝐹𝑃 𝐹𝑃𝑅 = 𝐹𝑃 + 𝑇𝑁 𝑇𝑃𝑅 = (Predicted result) 𝐹𝑁 𝐹𝑁 + 𝑇𝑃 𝑇𝑁 𝑇𝑁𝑅 = 𝐹𝑃 + 𝑇𝑁 𝐹𝑁𝑅 = Bảng 5.4 Định nghĩa True/False Positive Rate, True/False Negative Rate Normalize confusion matrix cho model khóa luận (với 1drowsiness chọn làm Positive): 87 Logistic Regression: Decision Tree: 88 Random Forest KNN: 89 Naives Bayers: 5.5.6.3 Precision, Recall F1 score Định nghĩa tổng quát: Precision: tỉ lệ số điểm true positive điểm phân loại positive (True Positive + False Positive) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 Recall: tỉ lệ số điểm true positive điểm thực positive (True Positive + False Negative) 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 Precision cao đồng nghĩa với việc độ xác điểm tìm cao Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót điểm thực positive thấp Một mơ hình phân lớp tốt mơ hình có Precision Recall cao, tức gần tốt Có hai cách đo chất lượng phân lớp dựa vào Precision Reall: Precision-Recall curve F1-score Chúng chọn F1-Score làm đại lượng để đánh giá model cho toán 90 F1-Score: tỉ lệ tương quan Recall precision F1-Score có giá trị nằm nửa khoảng (0,1](0,1].Gía trị cao, phân lớp tốt 1 = + 𝐹1 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 Thống kê precision, recall f1-score model: Model Logistic Regression Decision Tree Random Forest KNN Naives Bayers Precision Recall F1-Score 0.62 0.76 0.681 0.73 0.82 0.25 0.47 0.67 0.65 0.17 0.88 0.695 0.725 0.202 0.607 Bảng 5.5 Đánh giá model dựa precision,recall f1-score 7.5.7 Convolutional Neuron Network 5.5.7 Độ quan trọng thuộc tính Sau kiểm thử, muốn tổng kết lại để đánh giá thuộc tính (feature) Chúng tơi chọn ngẫu nhiên model random forest làm thí nghiệm Hình 5.15 Độ quan feature EAR (Eye Aspect Ratio) thuộc tính quan trong thuộc tính Điều hồn tồn có lý buồn ngủ, có xu hướng híp mắt lại 91 Tuy nhiên MAR (Mouth Aspect Ratio) khơng xét vì, sau xem video, đối tượng che miệng ngáp Mặc dù model có khả nhận biết mắt họ hẹp lại ngáp (thói quen tự nhiên khn mặt) 5.5.8 Mơ hình Convolutional Neuron Network (CNN) Chúng tiếp tục thử nghiệm xa hơn, cụ thể mơ hình CNN Thơng thường CNN chun dùng để phân tích hình ảnh, nhiên chúng tơi thử xây dựng mơ hình CNN chiều (1D CNN) [11] truyền vào số liệu xếp theo thứ tự (sequence) sau output Model CNN build từ bản, bao gồm lớp: lớp convolutional, lớp flattern, lớp fully connected lớp dropout trước output Lớp flattern có nhiệm vụ làm phẳng output từ lớp convolutional trước truyền dạng input cho lớp fully connected thứ Lớp dropout giúp model không bị overfitting huấn luyện liệu Lớp output cuối có node để output Hình 5.16 CNN Model 92 Đánh giá mơ hình: Mặc dù có độ xác tương đối (0.94) loss thấp (0.1586) nhiên kết khác lại không ý: Và điểm precision,recall f1 score không model phân loại trên: 93 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết đạt - Làm rõ định nghĩa xác định Dữ liệu lớn gì? Các khái niệm chuyên ngành cần biết đến - Phân tích phần cốt lõi để tạo nên hệ thống Dữ liệu lớn - Thiết kế chi tiết hệ thống liệu lớn (mức độ triển khai) bao gồm: Microsoft Azure DataLake Gen1, Apache Kafka, Apache Spark, Apache Cassandra, Apache Airflow Jupyter Hub - Áp dụng thuật tốn máy học nhận diện buồn ngủ tích hợp vào hệ thống liệu lớn - Đánh giá model sau huấn luyện - Chạy demo real-time 6.2 Nhận xét 6.2.1 Ưu điểm 8.2.1.1 Hệ thống liệu lớn - Nghiên cứu nhiều khía cạnh ngành Dữ liệu lớn - Đem lại góc nhìn tổng qua hướng ngành Khoa học liệu - Triểm khai prototype Dữ liệu lớn vào toán thực tế hệ thống máy học - Hệ thống liệu gồm nhiều module bổ sung tháo gỡ dễ dàng - Có tính portable - Hạ bớt giá thành cài đặt bảo trì hệ thống 94 8.2.1.2 Model máy học - Đạt độ xác tương đối (81% với false-negative ~ 0.3) - Gỉai vấn đề thực tế 6.2.2 Khuyết điểm 6.2.2.1 Hệ thống liệu lớn - Chưa thử nghiệm hệ thống tập liệu vài Terabytes - Chưa tính tốn throughput bên hệ thống - Chưa tích hợp thử vào nguồn liệu: ứng dụng, camera,… 6.2.2.2 Model máy học - Thử nghiệm dataset model nâng cao như: LSTM, VGG16 - Cải thiện dataset phân loại nhiều 6.3 Hướng phát triển - Phát triển ứng dụng để tích hợp vào hệ thống liệu - Tích hợp thử hệ thống vào camera - Tiếp tục phát triển tập liệu model đại - Triển khai thử hệ thống Azure Kubernetes 95 TÀI LIỆU THAM KHẢO [1] "statista," [Online] Available: https://www.statista.com/statistics/871513/worldwide-datacreated/ [2] Apache Software Foundation, "Apache Hadoop," Apache Software Foundation, [Online] Available: https://hadoop.apache.org/ [3] Apache Software Foundation, "Apache Kafka," Apache Software Foundation, [Online] Available: https://kafka.apache.org/ [4] Apache Software Foundation, "Apache Spark," Apache Software Foundation, [Online] Available: https://spark.apache.org/ [5] Amazon Web Service, Inc., "Amazon S3," Amazon Web Service, Inc., [Online] Available: https://aws.amazon.com/vi/s3/ [6] The University of Texas at Arlington, "UTA Real-Life Drowsiness Dataset," [Online] Available: https://sites.google.com/view/utarldd/home [7] C Sagonas, "Facial point annotations," Intelligent Behaviour Understanding Group (iBUG), [Online] Available: https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/ 96 [8] N G A A N N Isha Gupta, "Real-Time Driver's Drowsiness Monitoring Based on Dynamically Varying Threshold," in Eleventh International Conference on Contemporary Computing (IC3), 2018 [9] M J Bottema, "Circularity Of Objects In Images," Flinders University of South Australia, Adelaide [10] Wikipedia, "Wikipedia - Standard score," [Online] Available: https://en.wikipedia.org/wiki/Standard_score [11] S Verma, "towarddatasciene," [Online] Available: https://towardsdatascience.com/understanding-1d-and-3dconvolution-neural-network-keras-9d8f76e29610 97 98 ... hệ thống liệu lớn cải thiện tối ưu chúng Xây dựng model nhận diện buồn ngủ 1.2 Nội dung thực Mục tiêu đề tài “Nghiên cứu hệ thống liệu lớn hỗ trợ hệ thống nhận diện buồn ngủ? ??: – Tìm hiểu Dữ liệu. .. CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN HỒNG ÂN – 16520021 KHĨA LUẬN TỐT NGHIỆP HỆ THỐNG DỮ LIỆU LỚN HỖ TRỢ NHẬN DIỆN KHUÔN MẶT BUỒN NGỦ Big Data System supports... − Dữ liệu lớn − Các đặc điểm liệu lớn − Các cân nhắc thiết kế khác cho giải pháp liệu lớn − Thuật ngữ sử dụng giới liệu lớn 2.2 Dữ liệu lớn gì? Dữ liệu lớn hiểu cách đơn giản sau: Dữ liệu lớn

Tiêu đề	Hệ thống dữ liệu lớn hỗ trợ nhận diện khuôn mặt buồn ngủ
Tác giả	Trần Hoàng Ân
Người hướng dẫn	PGS.TS. Vũ Đức Lung, ThS. Đỗ Thị Thanh Tuyền
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Kỹ sư ngành kỹ thuật phần mềm
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	114
Dung lượng	2,86 MB