Đặc biệt trong công cuộc đổi mới và thời đại 4.0 đang diễn ra sôi nổi hơn bao giờ hết thì khoa học dữ liệu dần trở thành xu hướng được các doanh nghiệp hướng tới nhằm đẩy mạnh hoạt động
GIỚI THIỆU
Giới thiệu đề tài
1.2.1 Bối cảnh của đề tài nghiên cứu
- Khoa học dữ liệu đã thể hiện sức mạnh của nó không thể thiếu trong việc ứng dụng vào các lĩnh vực đời sống, đặc biệt là Sức khỏe Vậy nếu chúng ta ứng dụng các mô hình máy học để dự đoán MỨC ĐỘ ẢNH HƯỞNG ĐẾN TÂM LÝ CON NGƯỜI LỰA CHỌN PHƯƠNG THỨC LÀM VIỆC SAU COVID-19 thì điều gì sẽ xảy ra ?
- Vấn đề tâm lý đối với mọi người trên mọi lứa tuổi có vai trò thực sự quan trọng Với góc nhìn là một người trẻ, đại dịch COVID 19 đã gây ra những tổn thất to lớn cho - toàn nhân loại trong suốt 2 năm, không chỉ cướp đi sinh mạng của hơn 4,5 triệu người mà còn gây ra những tổn thất nặng nề về kinh tế, xã hội và đặc biệt là về sức khỏe Trên thực tế, đã có rất nhiều trường hợp bị tác động mạnh mẽ đến tâm lý con người khi chứng kiến cảnh người thân ra đi, sự ra đi đột ngột của những người thân thiết cũng như những di chứng khó hồi phục hoàn toàn sau đại dịch Từ đó ảnh hưởng dần đến tâm lý, sự thay đổi của con người
- Sống chung với dịch bệnh sau một khoảng thời gian dài: học sinh học online nhiều hơn, nhân viên làm việc tại nhà, các hình thức mua bán online cũng trở nên thịnh hành; do đó, sau đại dịch không tránh khỏi sự khó thích ứng với môi trường ban đầu và bất tiện với sự thay đổi nhanh chóng này Vậy câu hỏi được đặt ra: Với mức độ ảnh hưởng của COVID đối với tâm lý con người, nhân viên có cần một số ngày làm việc ở nhà hay không ?
1.2.2 Mục tiêu của đề tài
- Xác định các yếu tố ảnh hưởng đến tâm lý của con người sau đại dịch
- Việc phân tích những dữ liệu đánh giá này sẽ giúp hiểu rõ hơn về tâm lý con người sau đại dịch đã bị tác động như thế nào qua các thuộc tính khác nhau của con người; từ đó, đưa ra những giải pháp để giúp năng suất và hiệu quả của công việc được nâng cao hơn Điều này có thể giúp các công ty, doanh nghiệp hiểu hơn tâm lý của nhân viên, tạo ra môi trường làm việc thoải mái, lý tưởng từ kết quả của mô hình
- Nhóm tác giả mong muốn người dân trên toàn quốc có sự quan tâm và chăm sóc đến sức khỏe tinh thần của bản thân và cũng mong các doanh nghiệp có cái nhìn sâu sắc hơn về quyền lợi của nhân viên.
CƠ SỞ LÝ LUẬN
Phương pháp thống kê mô tả
- Thống kê mô tả là các hệ số mô tả ngắn gọn hay tóm tắt một tập dữ liệu nhất định, có thể là đại diện cho toàn bộ hoặc một mẫu của một tổng thể Các công cụ số dùng để mô tả thường dùng nhất là trung bình cộng và độ lệch chuẩn Các công cụ trực quan thường dùng nhất là các biểu đồ.
- Thống kê mô tả phân làm 2 loại:
• Thống kê trung bình: thường được sử dụng với các biến định lượng, dùng để thống kê các chỉ số phân tích như giá trị trung bình (mean), giá trị lớn nhất, nhỏ nhất (max, min), độ lệch chuẩn (standard deviation),…
• Thống kê tần số: thường được áp dụng cho các biến định tính, dùng để đọc mức độ (tần số) các chỉ số xuất hiện trong tập mẫu.Thông thường, các biến định tính ở đây sẽ là những đặc điểm nhân khẩu học như độ tuổi, giới tính, nghề nghiệp, bộ phận làm việc, thâm niên, học vấn, thu nhập,
- VD: Giả sử các bạn muốn mô tả điểm kiểm tra trong một lớp cụ thể gồm 30 học sinh Dưới đây là tất cả các điểm kiểm tra và tính toán số liệu thống kê tóm tắt được ghi lại và tạo ra các biểu đồ.
- Thống kê mô tả giúp mô tả và hiểu được các tính chất của một bộ dữ liệu cụ thể bằng cách đưa ra các tóm tắt ngắn về mẫu và các thông số của dữ liệu Loại thống kê mô tả phổ biến nhất là các thông số xu hướng tập trung gồm: giá trị trung bình, trung vị và yếu vị, các thông số này được sử dụng ở hầu hết các cấp độ toán học và thống kê.
- Thống kê mô tả được sử dụng để cung cấp những thông tin định lượng phức tạp của một bộ dữ liệu lớn thành các mô tả đơn giản.
2.1.3 Chức năng của thống kê mô tả
- Mô tả và hiểu được các tính chất của một bộ dữ liệu cụ thể bằng cách đưa ra các tóm tắt ngắn về mẫu và các thông số của dữ liệu
- Cung cấp các thông tin cơ bản liên quan đến tập mẫu
- Làm nổi bật các mối quan hệ có thể có giữa các biến
- Tập hợp dữ liệu được tóm tắt và trình bày thông qua sự kết hợp của các mô tả dạng bảng và đồ thị và thảo luận về các kết quả được tìm thấy.
- Tóm tắt dữ liệu định lượng phức tạp.
- VD: Có 100 sinh viên đăng ký cho một học phần cụ thể Để tìm thành tích tổng thể của các sinh viên tham gia học phần tương ứng và phân bố điểm, phải sử dụng thống kê mô tả Lấy điểm dưới dạng dữ liệu thô sẽ chứng minh việc xác định hiệu suất tổng thể và phân phối điểm là một thách thức.
2.1.4 Một số dạng công cụ thống kê
- VD 1: Trên Bảng 2 là một phần trích từ bảng liệt kê tình hình kinh doanh mặt hàng áo sơ mi của công ty may mặc MM trong một tuần của năm 2016 tại các cửa hàng Trên bằng này ta có các biến sau:
• Cua_Hang: ghi mã số của các cửa hàng.
• Tuan: thời gian ghi nhận (tuần thứ 24 của năm 2016)
• Khu_Vuc: nơi đặt cửa hàng, ghi ở dạng mã bốn chữ cái in hoa (ví dụ CTHO là mã của thành phố Cần Thơ)
• San_Pham: số sản phẩm bán được trong thời gian ghi nhận
• Don_Gia: đơn giá bán, đơn vị là ngàn đồng
• CP_Tiep_Thi: chi phí quảng bá sản phẩm trong thời gian ghi nhận, đơn vị là ngàn đồng
• Nhan_Vien: số nhân viên bán hàng
Như vậy ta thấy bảng liệt kê được sử dụng nhiều trong việc ghi nhận các dữliệu thô
- Trong lĩnh vực xử lý dữ liệu, ta thường dùng các loại biểu đồ sau: biểu đồ thanh, biểu đồ xy, biểu đồ tần số, biểu đồ tròn, biểu đồ dạng đường nối Với sự trợ giúp của các phần mềm máy tính, ta có thể thực hiện các loại biểu đồ này một cách dễ dàng Tuy nhiên ta cũng nên lưu ý là thường các biểu đồ chỉ được thực hiện sau khi đãcó
- Biểu đồ dạng thanh là một trong nhũng loại biểu đồ phổ biến nhất Người ta thường dùng nó để thể hiện giá trị số của biến khảo sát của một số đối tượng hay nhóm đối tượng Trong đó chiều cao của thanh hay chiều dài của thanh thể hiện giá trị số của biến.
- Như vậy, mục đích thông thường của biểu đồ dạng thanh là dùng để đối chiếu, so sánh giá trị của biến khảo sát giữa các đối tượng hay các nhóm đối tượng với nhau Trong hai loại nói trên thì biểu đồ thanh đứng được sử dụng nhiều hơn.
- VD: Tình hình sản xuất kinh doanh của công ty X gồm 3 xí nghiệp là A,B và C trong 4 quý của năm 20xx được thể hiện trên Bảng 1.
Bảng 1: Doanh số của các xí nghiệp trong 4 quý của năm 20xx
- Để so sánh doanh số của toàn công ty trong 4 quý, ta lập biểu đồ thanh được thể hiện trên hình bên dưới
Hình 1: Biểu đồ dạng thanh: thanh đứng (1a) và thanh ngang (1b)
- Nếu ta muốn so sánh doanh số của 3 xí nghiệp trong cả 4 quý thì biểu đồ sẽ phức tạp hơn (Hình 2), trong đó doanh số mỗi xí nghiệp trong một quý được biểu diễn bằng một thanh và được ký hiệu riêng để có thể phân biệt được các xí nghiệp với nhau.
- Để sắp xếp các thanh biểu diễn doanh số của các xí nghiệp, ta cũng có hai phương án: các thanh biểu diễn cho các xí nghiệp có thể được đặt cạnh nhau (Hình 2a) hay đặt chồng lên nhau (Hình 2b) Và tất nhiên ta có thể đặt các thanh theo phương đứng như Hình 2 hoặc đặt theo phương nằm ngang theo kiểu Hình 1b.
Hình 2: Biểu đồ dạng thanh: các thanh đặt cạnh nhau (2a) và các thanh đặt chồng lên nhau
- Biểu đồ xy (scatterplot) thường được sử dụng để thể hiện mối tương quan giữa hai biến liên tục Với mỗi giá trị của biến thứ nhất, có một giá trị tương ứng của biến thứ hai và cặp hai giá trị này được biểu diễn bằng một điểm trên biểu đồ x y Trong những trường hợp đơn giản, ta có thể nối các điểm này lại bằng những đoạn thẳng
Ta cũng có thể vẽ thêm các đường thẳng hay đường cong (đường hồi quy) để thể hiện tính chất của mối tương quan giữa hai biến.
- Biểu đồ xy có thể có các dạng sau:
• Chỉ biểu diễn các điểm (Hình 3a và 4a)
Phương pháp phân lớp dữ liệu
2.2.1 Bài toán phân lớp dữ liệu
- Phân lớp dữ liệu là 1 quá trình phân 1 đối tượng dữ liệu vào 1 hay nhiều lớp đã cho trước nhờ 1 mô hình phân lớp Mô hình này được xây dựng trên một tệp dữ liệu đã gắn nhãn ( đã chuẩn bị được dữ liệu trong quá khứ)
- Quá trình gắn nhãn cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu. 2.2.1.2 Quy trình phân lớp
- Bước 1: Xây dựng mô hình ( hay còn gọi là giai đoạn Training)
- Bước 2: Sử dụng mô hình ( lựa chọn thuật toán phân lớp)
• Xuất phát từ một tập dữ liệu có sẵn, sau đó ta sẽ tiến hành tiền xử lý dữ liệu để bộ dữ liệu của ta không có dữ liệu bị thiếu, nhiễu Từ đây ta sẽ
14 tạo được mô hình phân lớp sau khi chạy các thuật toán phân lớp dữ liệu
• Đánh giá mô hình ( kiểm tra tính đúng đắn của mô hình)
2.2.2 Một số mô hình phân lớp cơ bản
2.2.2.1 Hồi quy Logistic (Logistic Regresion)
- Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector).
- Kết quả của hồi quy logistic là bất kỳ giá trị nhị phân nào như Nam hoặc Nữ, Có hoặc Không, Ngày nay nó được sử dụng phổ biến để phân loại mọi thứ.
Hình 6: Mô hình hồi quy 2.2.2.2 Cây quyết định ( Tree )
- Là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định, giúp mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.
- Mô hình cây quyết định cho phép có nhiều kết quả.
• Xử lý được nhiều dữ liệu
• Xử lý tốt dữ liệu trong 1 thời gian ngắn
• Khó giải quyết trong tình trạng dữ liệu phụ thuộc thời gian
• Chi phí xây dựng mô hình cao
- SVM là thuật toán có giám sát, xem dữ liệu như vector và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều để phân cách các lớp dữ liệu.
- Để tối ưu hóa kết quả,ta xác định một mặt phẳng siêu phẳng có khoảng cách đến điểm dữ liệu của tất cả các lớp xa nhất có thể.
- Có nhiều biến thể phù hợp với nhiều bài toán phân lớp.
Hình 8: Các thể biến của SVM Ưu điểm:
- Chạy nhanh, tiết kiệm bộ nhớ
- Linh hoạt: vừa phân loại tuyến tính, vừa phân loại phi tính
- Xử lý được không gian nhiều chiều
- Chưa thể hiện tính xác suất trong phân loại
- Kết quả chưa tốt trong trường hợp lớp dữ liệu quá lớn
- Mạng Neural, còn được gọi là mạng nơ ron nhân tạo hoặc mạng nơ ron mô phỏng, - - là một tập hợp con của học máy và là trung tâm của các thuật toán học sâu Tên và cấu trúc của chúng được lấy cảm hứng từ não người, bắt chước cách các tế bào thần kinh sinh học truyền tín hiệu cho nhau.
- Neural network bao gồm 3 thành phần chủ yếu:
- Mỗi nút, hoặc nơ ron nhân tạo, kết nối với một nút khác và có trọng số và ngưỡng - liên quan Nếu đầu ra của bất kỳ nút riêng lẻ nào vượt quá giá trị ngưỡng được chỉ định, nút đó sẽ được kích hoạt, gửi dữ liệu đến lớp tiếp theo của mạng Nếu không, không có dữ liệu nào được chuyển đến lớp tiếp theo của mạng.
Hình 9: Mạng Neural 2.2.3 Các phương pháp đánh giá mô hình phân lớp
- Là phương pháp kiểm tra hiệu quả của mô hình phân lớp xem có hiệu quả không.
- Một mô hình lý tưởng là không quá đơn giản, không quá phức tạp, không quá nhạy cảm với nhiễu ( tránh không khớp và quá khớp).
2.2.3.1 Ma trận nhầm lẫn (Confusion Matrix)
- Là ma trận chỉ ra có bao nhiêu điểm thật sự thuộc lớp nào Có kích thước k x k với k là số lượng lớp của dữ liệu
- Ví dụ: Ta có lớp bị ung thư (Positive) và lớp không bị ung thư (Negative).
• TP (true positive): số dự báo chính xác được nhận giá trị TP
• TN (true negative): số dự báo chính xác một cách gián tiếp
• FP (false positive): sai lầm loại 1, số liệu dự báo sai lệch (không bị ung thư nhưng dự báo có)
• FN (false negative): sai lầm loại 2, số liệu dự báo sai lệch (bị ung thư nhưng dự báo không)
Hình 10: Ví dụ về ma trận nhầm lẫn
- Tính chính xác (Accuracy) là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ dữ liệu.
Nó chỉ cho ta biết tỷ lệ dữ liệu đúng (chung), còn cụ thể đúng lớp nào thì không rõ
- Precision (độ chính xác) cho biết trong số m mẫu được phân vào lớp i thì có bao nhiêu tỷ lệ mẫu đúng.
- Recall (độ phủ) hay độ nhạy (sensitivity) hay TPR (True Positive Rate) là tỉ lệ giữa số điểm true positive (TP) và những điểm thực sự là positive (TP+FN).
- F1-score (độ đo trung bình điều hòa) là giá trị trung bình điều hòa của precision và recall.
- ROC (Receiver Operating Characteristic) và AUC (Area Under the Curve).
- ROC là đồ thị đánh giá phân loại mô hình nhị phân, tạo ra bằng cách dựa trên tỷ lệ TPR và FPR ROC càng tiệm cận với 0 và 1 thì độ chính xác càng cao.
Hình 11: Ví dụ về ROC
- AUC là diện tích nằm dưới đường cong ROC AUC càng lớn thì mô hình càng tốt
Hình 12: Ví dụ về AUC 2.2.3.2 Phương pháp phân chia dữ liệu Hold-out
- Phương pháp Hold out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ - nhất định.
- Ví dụ: Testing chiếm 30%, Training chiếm 70% hoặc theo tỉ lệ 40-60, 80-20,
- Thích hợp cho tập dữ liệu nhỏ, không đại diện cho toàn bộ dữ liệu; vì vậy ta cần lấy mẫu sao cho nó phân bổ đều trong cả 2 dữ liệu huấn luyện và đánh giá hoặc lấy mẫu ngẫu nhiên rồi thực hiện phương pháp k lần với độ chính xác acc (M) = trung bình cộng k giá trị chính xác.
2.2.3.3 Phương pháp K-fold cross Validation
- Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước Một trong các fold được sử dụng là dữ liệu đánh giá và còn lại thì dùng training Quá trình này lặp lại cho đến khi tất cả các fold đều đã dùng làm tập dữ liệu đánh giá.
PHÂN TÍCH VÀ KẾT QUẢ NGHIÊN CỨU
Mô tả dữ liệu
- Trong các cột dữ liệu, cột Certaindays hw là mục tiêu của bài nghiên cứu, cho biết - khách hàng có rời bỏ hay không Trong bài này, sinh viên sử dụng 80% dữ liệu để huấn luyện và 20% để kiểm tra dữ liệu.
- Các biến khác bao gồm:
Tên cột Miêu tả đặc tính
Certaindays_hw Có cần một số ngày làm việc ở nhà hay không(Có/không/có thể có hoặc không)
Time_bp Thời gian dành cho công việc trước đại dịch
Time_ap Thời gian dành cho công việc sau đại dịch
Travel_time Thời gian di chuyển
Easeof_online Đánh giá công việc trực tiếp home_env Thích môi trường gia đình prod_inc Đánh giá tăng năng suất fam_connect Đánh giá mức độ kết nối của người đó với gia đình relaxed Đánh giá mức độ thư giãn của người đó self_time Đánh giá bao nhiêu thời gian bản thân đã tự được mua
Like_hw Thích làm việc ở nhà
Dislike_hw Không thích làm việc ở nhà
- Tóm tắt hóa dữ liệu: Xác định các thuộc tính tiêu biểu của dữ liệu về xu hướng chung và sự phân tán của dữ liệu
- Chuyển đổi dữ liệu: Dữ liệu thực tế thường nhiễu, thiếu, không nhất quán nhưng trong dữ liệu của nhóm không có biến bị thiếu hay nhiễu nên ta có thể bỏ qua
- Xử lý dữ liệu: Do không có dữ liệu bị thiếu nên sẽ làm sạch dữ liệu bằng cách xử lý các dữ liệu bị nhiễu Trong đây nhóm sẽ chọn giải pháp giảm nhiễu bằng phương pháp hồi quy (regression) để làm sạch dữ liệu
3.1.3 Trực quan hóa dữ liệu
- Nhóm sử dụng “Distribution” bằng phần mềm Orange để trực quan hóa dữ liệu
Hình 13: Trực quan hoá dữ liệu theo giới tính
- Nhìn chung ở cả nam (55%) và nữ (44%) đều muốn làm việc ở nhà sau đại dịch covid 19 Riêng ở cột giới tính còn lại (1%) cột có không nổi trội so với nam và nữ nhưng nhìn chung xu hướng mọi người đều muốn làm việc ở nhà thay vì tới công ty.
- Vậy kết quả không thể hiện rõ rệt ở giới tính.
Hình 14: Trực quan hóa dữ liệu theo độ tuổi
- Theo kết quả trên thì độ tuổi trải dài từ 19 đến hơn 60 tuổi, đa số là những người đã đủ tuổi làm việc Ở độ tuổi 50 tuổi đổ lại đây có thể thấy số lượng người cần một số ngày làm việc ở nhà chiếm đa số Có thể do họ đã được tiếp cận với công nghệ đủ nhiều để đổi mới môi trường làm việc so với trước kia Còn những người hơn 50 tuổi do đã quá quen với cách làm việc truyền thống nên họ chưa quen với cách làm việc trực tuyến dẫn đến có nhiều khó khăn trong quá trình làm việc.
Hình 15: Trực quan hóa dữ liệu theo nghề nghiệp.
- Ta có thể thấy rõ những người đang làm việc và đã tiếp xúc nhiều với công nghệ vô cùng đồng tình với “target” chúng tôi đưa ra như các doanh nhân, nhân viên làm việc chuyên nghiệp hay ngay cả những học sinh, sinh viên Những nghề nghiệp như nội trợ hay những người đã nghỉ hưu hay nghỉ việc mang tính chất đặc thù tại gia nên chắc chắn họ không cần ngày làm việc ở nhà.
- Theo thời gian di chuyển
Hình 16: Trực quan hoá dữ liệu theo thời gian di chuyển
- Thời gian di chuyển cũng là yếu tố quan trọng, nếu khoảng thời gian di chuyển đến chỗ làm quá lâu chắc chắn họ sẽ cần một số ngày làm việc ở nhà Trên biểu đồ thể hiện rõ đa số nhân viên chỉ mất khoảng 30 phút để di chuyển đến địa điểm làm việc, do đó kết quả không thể hiện rõ rệt ở thuộc tính này.
- Thời gian dành cho công việc trước đại dịch:
Hình 17: Trực quan hoá dữ liệu theo thời gian dành cho công việc trước đại dịch
- Dữ liệu cho thấy đa số thời gian dành cho công việc phân bổ khá đều trong một ngày tập trung 6 đến 9 tiếng làm việc
- Thế nhưng qua đó cũng không thể hiện rõ rệt kết quả
- Thời gian dành cho công việc trong đại dịch
Hình 18: Trực quan hoá dữ liệu theo thời gian dành cho công việc trong đại dịch
- Tần suất dành cho công việc trong giai đoạn dịch vẫn không đổi (6 9 giờ một ngày) - Điều đó cho thấy không vì ảnh hưởng của dịch bệnh làm giảm tần suất lao động, tuy
24 nhiên vẫn sẽ có khó khăn nhất định đối với những công việc đặc thù không thể hoạt động trực tuyến Nhưng nhìn chung tần suất lao động của nhân viên là không ảnh hưởng nhiều
- Đánh giá công việc trực tuyến:
Hình 19: Trực quan hoá dữ liệu theo đánh giá công việc trực tuyến
- Dữ liệu cho thấy ở thuộc tính này số người không cần một số ngày làm việc ở nhà cao nhất và tách biệt so với hai biến còn lại.
- Mức độ thích môi trường gia đình:
Hình 20: Trực quan hoá dữ liệu theo mức độ thích môi trường gia đình
- Đa số nhân viên có mức độ thích môi trường gia đình trung bình,ở khoảng 3.5 Chỉ số đạt đỉnh ở biến những người không cần một số ngày làm việc ở nhà Có thể do họ chỉ tập trung trong môi trường làm việc và muốn hoàn toàn thoải mái khi ở với gia đình.
- Mức độ kết nối với gia đình:
Hình 21: Trực quan hoá dữ liệu theo mức độ kết nối với gia đình
- Mức độ kết nối với gia đình khá cao, xấp xỉ 1 cho thấy những người có sự kết nối chặt chẽ với gia đình thường muốn dành nhiều thời gian cho gia đình Ta có thể thấy kết quả thể hiện rõ rệt ở thuộc tính này.
Hình 22: Trực quan hoá dữ liệu theo mức độ thư giãn
- Dữ liệu trên cho thấy mức độ thư giãn của nhân viên ở mức trung bình có thể do tính chất công việc hoặc cường độ làm việc mà mỗi người có mức độ thư giãn khác nhau Thế nhưng mức độ thư giãn ở những người cần một số ngày làm việc ở nhà có sự nhỉnh hơn sao với số còn lại.
- Mức độ tự dành thời gian cho bản thân:
Hình 23: Trực quan hoá dữ liệu theo mức độ tự dành thời gian cho bản thân
- Kết quả thể hiện rõ ràng ở thuộc tính này vì mức độ thời gian tự dành cho bản thân
27 của những người cần một số ngày làm việc ở nhà cao hơn hai biến còn lại
- Mức độ thích làm việc ở nhà:
Hình 24: Trực quan hoá dữ liệu theo mức độ thích làm việc ở nhà
- Theo biểu đồ trên cho thấy đa số mọi người đều thích làm việc ở nhà và cần một số ngày làm việc ở nhà Tuy nhiên chỉ số những người không thích làm việc ở nhà cũng nằm ở mức cao.
- Mức độ không thích làm việc ở nhà:
Hình 25: Trực quan hoá theo mức độ không thích làm việc ở nhà
- Ở thuộc tính này ta có thể dễ dàng thấy các chỉ số tương đương nhau về mặt giá trị nhưng ở những người không cần một số ngày làm việc ở nhà lại có phần nhỉnh hơn ở cuối biểu đồ.
Kết quả nghiên cứu
3.2.1 Kết quả của dữ liệu huấn luyện
- Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ dữ liệu huấn luyện Các thuộc tính của bộ dữ liệu huấn luyện được thiết kế như sau Đối với các biến độc lập Time_bp, Time_ap, Travel_time, Easeof_online, home_env,…) sẽ được khai báo thuộc tính là “feature”, sau đó, chúng ta sẽ khai báo thuộc tính “target” cho Certaindays_hw.
Hình 26: Khai báo các thuộc tính của bộ dữ liệu huấn luyện
- Sau khi đã khai báo các thuộc tính của các dữ liệu cần được chú ý, bài nghiên cứu sẽ lựa chọn phương pháp phân lớp dữ liệu phù hợp nhất thông qua các chỉ số như CA, F1 score, Precison, Recall C– ác phương pháp phân lớp mà bài nghiên cứu sử dụng là Tree Decision, Logistic Regression, SVM, Neural Network Bài nghiên cứu đã vẽ ra sơ đồ của quá trình huấn luyện và dự báo được thể hiện ở hình 27 như sau:
Hình 27: Sơ đồ của quá trình huấn luyện và dự báo được thể hiện
- Sau khi đã có được sơ đồ, bài nghiên cứu sẽ tiếp tục vào phần Test and Score để tổng quan các chỉ số và lựa chọn mô hình phù hợp nhất cho bài nghiên cứu Ở bài nghiên cứu này sử dụng phương pháp đánh giá mô hình phân lớp với Cross
Validation với Number of fold là 5 ( = 5) để đánh giá với tính năng vượt trội hơn và tránh trùng lặp giữa các tập kiểm thử của bộ dữ liệu huấn luyện.
Hình 28: Kết quả của mô hình đánh giá phân lớp bằng Cross Validation
- Ở hình 28, Tree được đánh giá là cao nhất kể cả 4 chỉ số CA, F1, Precision, Recall Giá trị AUC của Neural Network là cao nhất với 94,3% Giá trị này là cao nhất, nhưng tất cả các giá trị khác như CA, F1, Prec, của Tree lại cao hơn ba phương pháp còn lại Để tính được các chỉ số này, bài nghiên cứu sử dụng ma trận nhầm lẫn như hình sau:
Hình 29: Ma trận nhầm lẫn của mô hình Tree
Hình 30: Ma trận nhầm lẫn của mạng Neural
- Từ đó có thể kết luận rằng, mô hình Tree rất thích hợp cho bộ dữ liệu của bài nghiên cứu này và khá phù hợp để dự báo liệu rằng sau đại dịch Covid 19 tâm lý của mọi người như thế nào, muốn làm việc ở nhà hay công ty vì sao, Sau khi đã phân tích chi tiết về bộ dữ liệu huấn luyện Tiếp theo đó, bài nghiên cứu sẽ đi phân tích dự báo để đoán xem mô hình Tree dự báo như thế nào trong bộ dữ liệu dự báo thông qua bộ dữ liệu huấn luyện Kết quả của dữ liệu dự báo được trình bày ở mục 3.2.2.
3.2.2 Kết quả dữ liệu dự báo
- Tree là phương pháp phân lớp thích hợp nhất cho bài nghiên cứu Nhóm chúng em tiến hành các bước tương tự như bộ dữ liệu huấn luyện, đưa bộ dữ liệu dự báo vào chương trình Orange và cho các thuộc tính cho các biến số ở bộ dữ liệu dự báo giống như bộ dữ liệu huấn luyện.
Hình 31: Mô tả thuộc tính của các biến
Hình 32: Mô tả thuộc tính của các biến
- Cũng giống như bộ dữ liệu dự báo, bài nghiên cứu sẽ khai các thuộc tính là
“feature” Tuy nhiên ở bộ dữ liệu này thuộc tính “Muốn biết liệu có cần một số ngày làm việc ở nhà hay không” cũng là “feature”, không giống như bộ dữ liệu huấn luyện là “target” Còn những vấn đề khác không quan trọng chúng ta sẽ khai báo là
“skip” Sau đây, chúng ta vào Predictions để xem dự báo bằng Tree như thế nào.
Hình 33: Bảng dự báo bằng Tree
Kết quả của dự báo bằng Tree thu đươc từ Orange
- Với mô hình Tree và kết quả dự đoán trên, ta có thể dự đoán được từ nghề nghiệp, độ tuổi, giới tính ảnh hưởng như thế nào đến tâm lý của con người trong và sau đại dịch Covid 19 Từ đó , có thể có những giải pháp tốt nhất để cải thiện chất lượng cuộc sống cũng như là trang bị đầy đủ hành trang nếu đại dịch có quay trở lại. 3.2.3 Đánh giá kết quả mô hình
- Việc dự đoán phần trăm đúng khá cao sẽ dễ dàng thấy được thông qua phương pháp Tree, với phần trăm dự đoán đúng trên 85% số người có khả năng sẽ có xu hướng làm việc tại nhà
- Với mô hình Tree và kết quả dự đoán trên, ta có thể giúp mọi người đưa ra một số quyết định điều chỉnh thói quen hằng ngày Sự ảnh hưởng tiêu cực đến tâm lý của mọi người chắc chắn sẽ ảnh hưởng xấu đến hoạt động của công ty Nhiều cách thức khác nhau có thể thực hiện để giảm bớt tình trạng xấu sau đại dịch Covid 19.Tùy từng độ tuổi và nghề nghiệp khác nhau sẽ bị ảnh hưởng bởi đại dịch khác nhau Điều này bao gồm xác định được hướng cải thiện tâm lý của mọi người Dựa trên 4 mô hình, ta nhận thấy mô hình Tree cho kết quả tốt nhất Đối với bộ dữ liệu dự báo, sau khi đã tiến hành chạy mô hình dự báo bằng Orange và cụ thể là sử dụng phương pháp mô hình Tree để dự đoán liệu rằng với nghề nghiệp hiện tại “Mọi người có cần
34 một số ngày làm việc ở nhà hay không”
- Bài nghiên cứu sử dụng chủ yếu trên ứng dụng về công nghệ thông tin, sử dụng phần mềm Orange để chạy các mô hình và từ đó đưa ra một mô hình cụ thể, chính xác, đánh giá bộ dữ liệu dự báo thông qua bộ dữ liệu huấn luyện.