1. Trang chủ
  2. » Luận Văn - Báo Cáo

phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange

78 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích các yếu tố ảnh hưởng đến thu nhập của người trưởng thành đang làm việc tại Mỹ bằng phần mềm Orange
Tác giả Dương Trung Hiếu, Nguyễn Phi Hùng, Lê Đăng Khoa, Đỗ Thị Hoàng My, Trịnh Thị Ái Vy
Người hướng dẫn TS.GVC Nguyễn Quốc Hùng
Trường học ĐẠI HỌC UEH
Chuyên ngành Khoa học Dữ liệu
Thể loại Báo cáo Đồ án Học phần
Năm xuất bản 2022
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 78
Dung lượng 5,22 MB

Cấu trúc

  • 1.1 Giới thiệu về khoa học dữ liệu (10)
  • 1.2 Lý do chọn đề tài (11)
  • CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG (12)
    • 2.1 Các phương pháp của Excel dùng để khai thác dữ liệu (12)
      • 2.1.2 Phương pháp về phân tích dự báo (13)
      • 2.1.3 Phương pháp san bằng mũ (14)
      • 2.1.4 Phương pháp phân tích tối ưu (17)
    • 2.2. Phân cụm (21)
      • 2.2.1 Định nghĩa (21)
      • 2.2.2 Đặc điểm của phân cụm dữ liệu (22)
      • 2.2.3 Ứng dụng của phương pháp phân cụm (23)
      • 2.2.4 Các phương pháp phân cụm trong kinh tế (23)
      • 2.2.5 Phương pháp phân lớp dữ liệu (26)
  • CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ (35)
    • 3.1 Phân tích dữ liệu Adult (35)
    • 3.2 Phân cụm dữ liệu (51)
    • 3.3 Phân lớp (55)
  • CHƯƠNG 4: CÁC KẾT QUẢ THỰC NGHIỆM (69)
    • 4.1 Đánh giá các mô hình phân cụm, chọn mô hình phân cụm tối ưu (69)
    • 4.2 Kết quả phân lớp dữ liệu (71)
  • CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN (76)
    • 5.1 Kết quả đạt được (76)
    • 5.2 Hạn chế (76)
    • 5.3 Hướng phát triển (77)

Nội dung

Trong thời đại 4.0 hiện nay, việc đẩy mạnh thông tin là vô cùng cầnthiết, đi đôi với việc phát triển thì hiện này tràn lan các dữ liệu, số liệu, vì thế việc khoahọc dữ liệu giúp ích khôn

Giới thiệu về khoa học dữ liệu

Khoa học dữ liệu là một lĩnh vực liên ngành sử dụng các phương pháp khoa học, quy trình, thuật toán và hệ thống để trích xuất hoặc ngoại suy kiến thức và hiểu biết sâu sắc từ dữ liệu nhiễu, có cấu trúc và phi cấu trúc, và áp dụng kiến thức từ dữ liệu trên nhiều lĩnh vực ứng dụng Khoa học dữ liệu liên quan đến khai thác dữ liệu, học máy, dữ liệu lớn, thống kê và phân tích tính toán.

Khoa học dữ liệu là một "khái niệm thống nhất thống kê, phân tích dữ liệu, tin học và các phương pháp liên quan" nhằm "hiểu và phân tích các hiện tượng thực tế" với dữ liệu Nó sử dụng các kỹ thuật và lý thuyết rút ra từ nhiều lĩnh vực trong bối cảnh toán học, thống kê, khoa học máy tính, khoa học thông tin và kiến thức miền.Theo như W.E.Deming đã nói rằng “In God we trust All others bring data” Nhìn chung khoa học dữ liệu là sự giao thoa từ kiến thức chuyên ngành, toán & thống kê và khoa học máy tính, và là công cụ lao động quan trọng trong thời chuyển đổi số.

Tuy nhiên có nhiều vấn đề hiện nay mà nhiều doanh nghiệp mắc phải đó là số lượng lớn thông tin khổng lồ được tạo ra từng phút từng giây, vì vậy cách giải quyết là làm sao để trích xuất những dữ liệu này một cách khoa học, chi tiết và hữu ích để tìm ra được những dữ liệu cần thiết trong môi trường xã hội ngày càng cạnh tranh khốc liệt này. Vậy là khoa học dữ liệu xuất hiện để giải quyết các nhu cầu trích xuất và lọc dữ liệu của mọi người

Khoa học dữ liệu là việc quản trị một cách khoa học và phân tích, trích xuất các giá trị từ dữ liệu để nắm bắt được sự dẫn dắt hành vi, hành động của mỗi người.

- Khoa học dữ liệu gồm 3 phần chính

Tạo ra giá trị và quản trị dữ liệu

Phân tích dữ liệu: thống kê toán học, công nghệ thông tin, trí thức về lĩnh vực cụ thể

Chuyển kết quả phân tích thành giá trị hành động

- Khoa học dữ liệu sẽ yêu cầu thực hiện

Quan sát Đặt câu hỏi

Hình thành các giả thuyết

Tạo các bài kiểm tra

Hiện nay một số công ty ứng dụng hàng đầu về khoa học dữ liệu: Google,Amazon, Visa…

TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

Các phương pháp của Excel dùng để khai thác dữ liệu

Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office Giúp khai phá, thống kê dữ liệu, từ đó phân tích, tính toán các số liệu, và trong học phần Khoa học Dữ liệu, Excel được ứng dụng với mục đích thống kê mô tả, phân tích dự báo và lưu các dữ liệu.

2.1.1 Phương pháp Thống kê mô tả

2.1.1.1 Thống kê bằng công cụ Descriptive Statistics

Bước 1: Chuẩn bị bảng số liệu cần thống kê

Bước 2: Click chọn vào hộp Data Data Analysis Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics

Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output

Bảng 2.1 Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong 03 tháng tại siêu thị ABC

Trong hộp thoại Descriptive Statistics, nhập vào Inpute Range là cột chứa dữ liệu thịt Heo, Output Range là ô xuất dữ liệu, Confidence Level for Mean là 95%.

Sau đó ta sẽ nhận được bảng kết quả gồm các giá trị trung bình (Mean), sai số chuẩn (Standard Error)

2.1.2 Phương pháp về phân tích dự báo

2.1.2.1 Phương pháp trung bình trượt (Moving Average)

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Bước 2: Chon lệnh Data -> Data Analysis -> Moving Average

Bước 3: Khai báo các thông số Input và Output options

Bảng 2.2 Bảng kết quả thống kê bằng công cụ

Ví dụ: Dự báo số liệu bán thịt bò của siêu thị ABC

Bảng 2.3 Số liệu bán và hộp thoại Moving Average

Sau khi chọn vùng dữ liệu cần dự báo vào Input Range, chọn các kỳ trước đó muốn ước tính trong Interval, ở bài này cho giá trị là 3, có nghĩa là 3 kì để trượt từ đó dự báo được số liệu thịt bò Sau đó, chọn vùng muốn hiển thị kết quả ở ô Output Range.

2.1.3 Phương pháp san bằng mũ

Bước 1: Chuẩn bị bảng số liệu cần dự báo

Bước 2: Chọn lệnh Data -> Data Analysis -> Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing.

Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Dự báo số liệu bán thịt bỏ tại siêu thị ABC có hệ số điều chỉnh bằng 0,3

Bảng 2.4 Số liệu bán thịt bò và hộp thoại Exponential Smoothing

Input Range là cột dữ liệu cần dự báo Hệ số san bằng Damping

1 - a = 0.3, Ta được hệ số hiệu chỉnh là 0.3, ngày 17 lượng thịt bò là 29,88kg Phương pháp hồi quy (Regression)

Phân tích hồi quy là nghiên cứu sự phụ thuộc của 1 biến (biến phụ thuộc hay còn gọi là biến giải thích) vào 1 hay nhiều biến khác (biến độc lập hay còn gọi là biển giải thích).

Bước 1: Cho bảng số liệu cầu dự báo

Bước 2: Click vào Data -> Data Analysis -> Regression Xuất hiện hộp thoại

Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Tác động của chi phí lên doanh thu

Bảng 2.5 Bảng tác động của chi phí lên doanh thu

Hình 2.1 Hộp thoại của Regression

Input Y Range là cột Doanh thu, Input X Range là cột Chi phí Độ tin cậy hồi quy Confidence Level là 95%.

Bảng 2.6 Bảng kết quả hồi quy

2.1.4 Phương pháp phân tích tối ưu

Ví dụ: Một nhà kinh doanh, quản trị dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:

Hình 2.2: Bảng số liệu của Dự án

- Đầu tiên ta cần thiết lập mô hình theo các bước sau:

Bước 1: Tạo biến quyết định Đặt x1,x2 lần lượt là sản lượng lúa gạo và lúa mì (tấn) cẩn sản xuất

Bước 2 Tạo hàm mục tiêu Để tối ta hóa lợi nhuận ta thực hiện lập hàm mục tiêu: P = Pmax lúa gạo + Plúa mì = 18x1

Bước 3: Tạo hệ ràng buộc

Thiết lập hệ ràng buộc theo từng điều kiện:

- Sử dụng công cụ Solver để giải mô hình kinh tế:

Bước 1: Thiết lập bảng tính

Bảng 2.9: Thiết lập bảng tính

Giả định biển x x = 1, nhập cả hệ ràng buộc tương đương về diện tích, mức1, 2 lương, nhân công Sau đó, dùng hàm SUMPRODUCT để tỉnh các giá trị vế trái theo biến khởi tạo

Bước 2: Chọn lệnh Data Data Analysis Solver

Hình 2.3 Hộp thoại Solver Parameters

Nhập ô chứa hàm mục tiêu Set Objectives là ô sẽ chứa lợi nhuận max $E$5 To:

Max vì đây là bài toán tối đa hóa lợi nhuận By changing Variable Cells, nhập ô chứa các biển quyết định, trong trường hợp này là $C$4:$D$4 Nhập các ràng buộc bằng cách nhấn Add trong Subject to the Constraints

Bước 3: Nhấn nút Solve để giải mô hình, chọn Sensitivity và nhấn Ok để xem kết quả mô hình

Bảng 2.14: Kết quả tính lợi nhuận tối đa

Và ta được lợi nhuận tối đa là 378$ để thỏa mãn các điều kiện ràng buộc.

Phân cụm

Phân cụm (Clustering) thuộc loại học không giám sát (Unsupervised learning) là một dữ liệu là bài toán gom nhóm các đối tượng dữ liệu vào thánh từng cụm (cluster) sao cho các đối tượng trong cùng một cụm có sự tương đồng theo một tiêu chí nào đó.

Lưu ý: Dữ liệu của bài toán phân cụm là các hình ảnh chưa có dán nhãn (tên của mỗi đối tượng khi ta quan sát không cho biết rõ ràng) , đây chỉ là những dữ liệu thường hay gặp trong thực tiễn.

Mô hình chia cụm dữ liệu:

Dữ liệu thực -> Trích chọn đặc trưng (nhận diện từng đặc trưng của dữ liệu rồi gộp vào những nhóm khác nhau) -> Thuật toán gom cụm -> Đánh giá kết quả gom cụm

Biểu diễn kết quả đếm cụm

2.2.2 Đặc điểm của phân cụm dữ liệu

Số cụm dữ liệu là không thể biết trước được

Có rất nhiều cách tiếp cận, mỗi cách lại có các kỹ thuật phân cụm khác nhau Các kỹ thuật khác nhau thường mang lại kết quả khác nhau.

Nhiệm vụ quan trọng là tìm ra và đo đạc được sự khác biệt của các đối tượng dữ liệu

Thuộc nhóm học không giám sát, vì số cụm dữ liệu không được biết trước (đây là điều khác với phương pháp phân lớp).

Một phương pháp phân cụm tốt là phương pháp cần tạo ra các cụm có chất lượng cao: Độ tương đồng bên trong cụm cao Độ tương tự giữa các cụm thấp (các cụm có khác biệt cao)

2.2.3 Ứng dụng của phương pháp phân cụm

Phân cụm dữ liệu độc lập và tiền đề cho các thuật toán khác Ứng dụng kinh tế:

Dự báo khách hàng tiềm năng

Phân tích xu hướng hành vi khách hàng

Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp Phân tích đặc tính sản phẩm dịch vụ Đánh giá kết quả hoạt động kinh doanh

Phân tích hành vi người dùng mạng xã hội

2.2.4 Các phương pháp phân cụm trong kinh tế

2.2.4.1 Phân cụm dựa trên phân cấp (Hierarchical approach) Định nghĩa: Là quá trình xây dựng một cây phân cấp các dữ liệu cần gom cụm, dựa theo 2 tiêu chí:

Ma trâ •n khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix) Độ đo khoảng cách giữa các cụm (single link, complete link…) Đặc điểm: Phân cấp các đối tượng dựa trên một số tiêu chí. Đối với phân cụm dựa trên phân cấp thì không cần xác định trước số cụm, tuy nhiên cần xác định điều kiện dừng.

Một số phương pháp điển hình hay dùng: Diana, Agnes,

Một số phương pháp tính khoảng cách phổ biến:

Single – link: Khoảng cách nhỏ nhất giữa 1 phần tử trong một cụm với một phần tử ở cụm khác.

Average – link: Khoảng cách trung bình giữa 1 phần tử trong một cụm với một phần tử ở cụm khác.

Complete — link: Khoảng cách xa nhất giữa 1 phần tử trong một cụm với một phần tử ở cụm khác.

Mean: khoảng cách giữa các điểm trung bình (mean) của 2 cụm.

Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.

Medoid: khoảng cách giữa các trung tâm cụm (medoid) của 2 cụm.

Nhâ •n xét về phân cụm phân cấp

Không cần tham số đầu vào

Tốc độ châ •m, không thích hợp trên dữ liê •u lớn

Không xử lý được trên dữ liê •u bị thiếu, nhạy cảm với nhiễu

2.2.4.2 Phân cụm dựa trên phân hoạch ( Partitioning Clustering) Định nghĩa: Là quá trình phân tập dữ liệu có n phần tử cho trước thành k tập con (với k chọn Impute Missing Values -> Replace with random Value Tiền xử lý dữ liệu bị lỗi bằng cách thay thế với các giá trị ngẫu nhiên.

Hình 3.4 Dữ liệu lỗi trong Preprocess

Dùng để quan sát dữ liệu bảng biểu đã xử lý bằng cách nối Preprocess vào Data table Ở đây ta thấy đã không còn dữ liệu nào bị lỗi.

Hình 3.5 Quan sát dữ liệu đã xử lý

Lưu dữ liệu đã xử lý Xuất dữ liệu ra file excel mới với tên: Adult đã xử lý.xlsx 3.1.2 Tiền xử lý dữ liệu cho phân cụm và phân lớp

Giải quyết vấn đề số mẫu quá lớn:

- Do kích thước bộ dữ liệu “Adult” quá lớn (32561 mẫu), chính vì vậy sẽ không phân cụm được, nhóm quyết định chọn ra 5000 mẫu để sử dụng cho dự án được lưu là

- Vì sau khi cho máy học để phân lớp thì cần dữ liệu mới để đánh giá hiệu quả mô hình, nên nhóm quyết định trích 100 mẫu được lưu là DuLieuThuNghiem_100.xlsx không trùng với 5000 mẫu dùng cho dự án.

Như vậy, nhóm sẽ trích ngẫu nhiên 5000 mẫu từ bộ dữ liệu lớn “Adult” (32561 mẫu) và chọn 5000 mẫu đầu tiên để dùng cho dự án và 100 mẫu phía sau để dùng thực hành phân lớp mới.

Cách chọn mẫu ngẫu nhiên:

Dùng phần mềm Orange để chọn mẫu ngẫu nhiên:

Hình 3.6 Mô hình orange chọn mẫu ngẫu nhiên 5000 mẫu

-File input: Bộ dữ liệu “Adult” (32561 mẫu)

-Data Sampler: Chọn số lượng chọn mẫu ngẫu nhiên là 5000

-Ở các Data table chọn 5000 mẫu đầu cho bảng dữ liệu dùng cho dự án và 100 mẫu sau cùng cho dữ liệu dùng để phân lớp mới.

3.1.3 Mô tả dữ liệu Adult

Thông tin dữ liệu Adult

Bảng 3.1 Mô tả biến đầu vào

STT Tên biến Ý nghĩa định dạng

1 Độ tuổi - Age Xác định độ tuổi (continuous)

Xác định tầng lớp lao động

Tư nhân - Private Self-emp-not-inc - Hoạt động tự doanh không có tư cách pháp nhân Self-emp-inc - Hoạt động tự doanh hợp nhất Federal-gov - Chính quyền liên bang Local-gov - Chính quyền địa phương State-gov - Chính quyền tiểu bang Without-pay - Nghỉ phép không lương Never-worked - Thất nghiệp

3 fnlwgt Thể hiện bao nhiêu chủ thể có cùng một đặc điểm continuous

4 Giáo dục - Education Xác định trình độ học vấn cao nhất đang có

Cử nhân - Bachelor Cao đẳng - Some-college Lớp 11 - 11th

Tốt nghiệp Trung học - HS-grad Trường chuyên nghiệp sau đại học - Prof-school Học viện trung cấp - Assoc-acdm

Trung cấp dạy nghề - Assoc-voc Lớp 9 - 9th

Lớp 7-8 - 7th-8thLớp 12 - 12thThạc sĩ - MastersLớp 1-4 - 1th-4thLớp 10 - 10thTiến sĩ - Doctorate

Lớp 5-6 - 5th-6th Mầm non - Preschool

Thể hiện trình độ học vấn cao nhất đạt được ở dạng số

Thể hiện tình trạng hôn nhân của chủ thể Vợ/chồng dân sự đã kết hôn - Married-civ- spouse Đã ly hôn - Divorced Chưa kết hôn - Never-married

Ly thân - Separated Góa - Widowed Vợ/chồng đã kết hôn nhưng vắng mặt - Married- spouse-absent

Vợ/chồng đã kết hôn trong Lực lượng Vũ trang - Married-AF-spouse

7 Nghề nghiệp - Occupation Thể hiện các loại hình nghề nghiệp chung của một cá nhân

Hỗ trợ kỹ thuật - Tech-support Sửa chữa thủ công - Craft-repair Dịch vụ khác - Other-service Bán hàng - Sales

Quản lý điều hành - Exec-managerialGiáo sư chuyên môn - Prof-specialtyNhân viên xử lý - Handlers-cleanersKiểm tra máy móc - Machine-op-inspctNhân viên hành chính - Adm-clericalNông dân - Farming-fishingNhân viên vận chuyển - Transport-moving

Tư nhân - Priv-house-serv Nhân viên bảo vệ, nhân viên phục vụ - Protective-serv

Lực lượng vũ trang - Armed-Forces

8 Mối quan hệ - Relationship Thể hiện mối quan hệ chủ chốt của chủ thể đối với những chủ thể khác

Vợ - Wife Con riêng - Own-child Chồng - Husband Không phải người trong gia đình - Not-in-family Người thân khác - Other-relative

Chưa lập gia đình - Unmarried

9 Chủng tộc - Race Mô tả về chủng tộc của một chủ thể

Người da trắng - White Người Châu Á-Thái Bình Dương - Asian-Pac- Islander

Người Mỹ gốc Ấn-Eskimo - Amer-Indian- Eskimo

Người da đen - Black Người tộc khác - Other

10 Giới tính - Sex Thể hiện giới tính sinh học của chủ thể

11 Lợi nhuận - capital-gain Lợi nhuận vốn của chủ thể liên tục-continuous

12 Vốn mất - capital-loss Vốn mất của chủ thể liên tục-continuous

13 Số giờ làm việc một tuần - hours-per-week

Thể hiện số giờ làm việc một tuần của chủ thể đó liên tục-continuous

14 Quốc tịch - native-country Cho biết chủ thể đó có nguồn gốc từ quốc gia nào United-States Cambodia England Puerto-Rico Canada Germany Outlying-US(Guam-USVI-etc) India

JapanGreeceSouthChinaCubaIranHondurasPhilippinesItalyPolandJamaicaVietnamMexicoPortugalIreland

Ecuador Taiwan Haiti Columbia Hungary Guatemala Nicaragua Scotland Thailand Yugoslavia El-Salvador Trinadad&Tobago Peru

Hong Holand-Netherlands Biến đầu ra

Thu nhập trên 50 nghìn đô la một năm - makeover $50K per year (Y)

Xác định xem một người có kiếm được hơn

50 nghìn đô la một năm hay không (binary?)

Từ bộ dữ liệu Adult, ta thực hiện phân tích và xác định xem một người có kiếm được hơn 50 nghìn đô la một năm hay không Từ đó ta nhận xét, đánh giá và đưa ra kết luận cùng biện pháp thực tiễn.

3.1.4 Thống kê mô tả dữ liệu Adult Độ tuổi và nghề nghiệp

Hình 3.7 Biểu đồ thể hiện độ tuổi và nghề nghiệp Đồ thị trên cho thấy đại đa phần độ tuổi trong bộ mẫu dữ liệu đề cập ở bất kỳ nghề nghiệp nào cũng là lứa tuổi lao động (25-60 tuổi) Trong đó, ở độ tuổi 17-24 tuổi thì nghề nghiệp Quản lý điều hành và Giáo sư chuyên môn chiếm tỷ lệ rất thấp (dưới 10%); Lực lượng vũ trang cao nhất (tỷ lệ trên 40%) Với giai đoạn 25-60 tuổi, tỷ lệ của toàn bộ nghề nghiệp trên đều chiếm ở mức tương đối cao từ 50-80% Còn với độ tuổi từ 61 tuổi trở lên thì tỷ lệ vô cùng thấp, đặc biệt là Lực lượng vũ trang có 0% người thuộc bộ mẫu dữ liệu này.

Hình 3.8 Biểu đồ thể hiện chủng tộc

Dựa vào dữ liệu khảo sát, chủng tộc da trắng chiếm tỷ lệ áp đảo với 86%, trong khi người da đen chỉ chiếm 9% Nhóm chủng tộc châu Á - Thái Bình Dương chiếm tỷ lệ 3% Các chủng tộc khác như người Mỹ gốc Ấn-Eskimo và các chủng tộc khác đều chiếm tỷ lệ ít hơn 1%.

Hình 3.9 Biểu đồ thể hiện giới tính

Bộ dữ liệu trên bao gồm 67% khảo sát là nữ, còn lại là nam.

Tầng lớp lao động và lợi nhuận - vốn mất tương ứng

Hình 3.10 Biểu đồ thể hiện tầng lớp lao động

Thống kê mô tả các tầng lớp lao động khác nhau cho thấy mức độ tạo ra lợi nhuận cũng như mức độ hao hụt vốn cũng khác nhau Nổi bật nhất là tầng lớp tư nhân có lợi nhuận cao hơn hẳn các tầng lớp còn lại - gần 2000 USD

Số giờ làm việc trung bình một tuần

Hình 3.11 Biểu đồ thể hiện số giờ làm việc

Khảo sát cho thấy có 73% người phải làm việc từ 40-60 giờ một tuần, tức trung bình họ sẽ phải lao động trong khoảng 6-10 giờ một ngày chưa kể ngày nghỉ Thời gian làm việc từ 1-39 giờ một tuần (dưới lượng thời gian lao động tiêu chuẩn) chiếm tỷ lệ tương đối thấp là 24% Còn lại tỷ lệ khảo sát phải lao động với lượng thời gian cao hơn thời gian lao động tiêu chuẩn có tỷ lệ thấp nhất là 3%.

Hình 3.12 Biểu đồ thể hiện mức thu nhập

Biểu đồ trên cho thấy trong bộ mẫu khảo sát, lượng dữ liệu người có thu nhập trên 50 nghìn đô la một năm chỉ chiếm chưa đến ⅔ số người có mức thu nhập dưới 50 nghìn đô la.

Phân cụm dữ liệu

3.2.1 Phân cụm bằng phương pháp Diana và kết quả a) Dùng phần mềm Orange để phân cụm phân cấp bằng phương pháp Diana và chọn số cụm tốt nhất:

Hình 3.13 Mô hình phân cụm phân cấp bằng phương pháp Diana

-File input: Sử dụng file data_5000mau và giữ nguyên tất cả các biến trong data -Distances: Sử dụng độ đo khoảng cách Euclidean (Euclid=Minkowski (với n=2)) -Hierarchical Clustering: Ở bước này chúng ta phương pháp tính khoảng cách Average- linkage và chia làm 2 cụm để được chỉ số Silhouette Cluster dương nhiều nhất.

Hình 3.14 Dữ liệu bị chia thành 2 cụm

Hình 3.15 Sihouette Plot của mô hình phân cụm bằng phương pháp Diana b) Kết quả

Số cụm tốt nhất là 2 (vì chia làm 2 cụm để được chỉ số Sihouette Cluster dương nhiều nhất)

Phân cụm bộ dữ liệu của dự án (5000 mẫu) thành 2 cụm gồm C1 (26 mẫu) và C2 (4974 mẫu)

3.2.2 Phân cụm phân hoạch bằng thuật toán K-means và kết quả a) Dùng phần mềm Orange để phân cụm phân hoạch bằng thuật toán K-means và chọn số cụm tốt nhất:

Hình 3.16 Mô hình phân cụm phân hoạch bằng thuật toán K-means

-File input: Sử dụng file data_5000mau và giữ nguyên tất cả các biến trong data -K-means: Chạy phân cụm từ 2-12 cụm, so sánh Sihouette Scores được tính ra, chọn chia thành 2 cụm (vì 2 là số cụm có Sihouette Scores cao nhất)

Hình 3.18 Sihouette Plot của mô hình phân cụm bằng thuật toán K-means b) Kết quả:

-Số cụm tốt nhất là 2 (vì 2 là số cụm có Sihouette Scores cao nhất)

-Phân cụm bộ dữ liệu của dự án (5000 mẫu) thành 2 cụm gồm C1 (1300 mẫu), C2 (3700 mẫu)

Phân lớp

Bước 1: Xây dựng mô hình phân lớp, đánh giá mô hình:

Xây dựng mô hình thử nghiệm và huấn luyện, đánh giá mô hình hiệu quả nhất Sử dụng phần mềm Orange để phân lớp dữ liệu, có 3 phương pháp thực hiện bao gồm Hồi quy

Logistic (Logistic Regression), Cây quyết định (Decision Tree) và SVM (Support Vector Machine).

Sử dụng dữ liệu từ file “data_5000mau.xlxs” gồm 5000 mẫu dữ liệu, 14 biến và không có dữ liệu nào bị lỗi để tiền hành phân lớp dữ liệu:

Hình 3.19 Phân lớp dữ liệu

Vì các dữ liệu sau khi lấy mẫu không có dữ liệu bị lỗi nên sẽ bỏ qua bước tiền xử lí dữ liệu tại phần này.

Sử dụng tính năng Test and Score để xem các chỉ số của các mô hình, lựa chọn thuật toán tốt nhất, chính xác nhất để dự báo,

Sử dụng “data_5000mau.xlxs” là tập huấn luyện, chọn biến y là biến target.

Tại bảng Test and Score, chọn chia tỷ lệ mẫu khác nhau tại Cross Validation và Random Sampling để có được chỉ số tốt nhất.

Chọn tỷ lệ mẫu Cross Validation:

1 Chia mẫu dữ liệu thành 2 phần:

Hình 3.20 Kết quả chia mẫu dữ liệu làm 2 phần

2 Chia mẫu dữ liệu thành 5 phần:

Hình 3.21 Kết quả chia mẫu dữ liệu làm 5 phần

3 Chia mẫu dữ liệu làm 10 phần

Hình 3.22 Kết quả chia mẫu dữ liệu làm 10 phần

Chọn tỷ lệ mẫu tại Random Sampling:

Hình 3.23 Kết quả chia mẫu dữ liệu thành 50 – 90%

Hình 3.24 Kết quả chia mẫu dữ liệu thành 20 – 70%

Hình 3.25 Kết quả chia mẫu dữ liệu thành 50 – 60%

Nhận xét: Sau khi đã qua thử nghiệm ta biết được kết quả định lượng của 3 mô hình Hồi quy Logistic (Logistic Regression), Cây quyết định (Decision Tree) và SVM (Support Vector Machine) giá trị nào là tối ưu Khi xem xét tất cả các chỉ số ta thấy được rằng mô hình hồi quy logistic (Logistic Regression) ở trường hợp chia lấy mẫu dữ liệu theo phương thức Cross Validation với k=2 là tối ưu nhất Các thông số cụ thể bao gồm:

Giá trị trung bình điều hòa (F1) 79.1% Độ chính xác (Precision) 79.2% Độ phủ (Recall) 80.7%

Diện tích đường cong (AUC) 84.2%

Ma trận nhầm lẫn (Confusion Matrix)

Hình 3.26 Kết quả của Ma trận nhầm lẫn Tree (Tree Dicision)

Hình 3.27 Kết quả của Ma trận nhầm lẫn SVM (Support Vector Machines)

Hình 3.28 Kết quả của Ma trận nhầm lẫn Logistic Regression

Nhìn vào kết quả ma trận nhầm lẫn hồi quy logistic (Logistic Regression), ta thấy được:

70.4% >50K - >50K: 70.4% người làm việc tại Mỹ ta dự báo là có mức thu nhập lớn hơn 50K($) và trong thực tế là lớn hơn 50K($).

19.3% 50K: 19.3% người làm việc tại Mỹ ta dự báo là có mức thu nhập nhỏ hơn hoặc bằng 50K($) nhưng trong thực tế là lớn hơn 50K($).

29.6% >50K - 50K) và cụm 2 (C2) có tỷ lệ là 25.68% chứa người có thu nhập lớn hơn 50K đô (>50K) thấy rằng đồng đều hơn nhiều so với phương pháp Diana

Hình 4.1 Giá trị Sihouette của mô hình phân cụm bằng phương pháp Diana

-Qua hình 4.1 ta thấy rằng đa số giá trị Sihouette của phương pháp Diana của cụm 1(cụm màu xanh) là nằm trong khoảng 0.485 và giá trị Sihouette của cụm 2 (cụm màu đỏ) là khoảng 0.259

Hình 4.2 Giá trị Sihouette của mô hình phân cụm bằng phương pháp K-means

-Qua hình 4.2 ta thấy rằng đa số giá trị Silhouette của phương pháp K-means của cụm 1 (cụm màu xanh) là nằm trong khoảng 0.486 và giá trị Sihouettecủa cụm 2 (cụm màu đỏ) là khoảng 0.615

4.1.3 Chọn mô hình tối ưu

Sau khi đánh giá ngoài dựa trên sự chênh lệch số mẫu và tỷ lệ phân phối của 2 cụm thì ta thấy phương pháp K-means ít bị chênh lệch số mẫu và tỷ lệ phân phối hơn so với phương pháp Diana

-Tiếp theo là đánh giá dựa vào giá trị Silhouette thì ta thấy rằng giá trị Silhouette của cụm

1 của phương pháp K-means lớn hơn phương pháp Diana (0.486>0.485) và giá trị Silhouette của cụm 2 phương pháp K-means cũng lớn hơn phương pháp Diana (0.615>0.259)

Dựa vào hai đánh giá trên ta thấy rằng phương pháp phân cụm phân hoạch (bằng K- means) có hiệu quả để phân tích thực tiễn hơn phương pháp phân cụm phân cấp (bằngDiana)

Kết quả phân lớp dữ liệu

Sau khi sử dụng nghiên cứu, phân tích sử dụng các mô hình phân lớp gồm: DecisionTree, Support Vector Machine, Logistic Regression trong việc dự báo thu nhập Kết quả

(AUC,CA,F1,Precision, Recall) trong 3 mô hình phân lớp, và mô hình logistis (Logistic Regression) có điểm số thấp nhất trong 3 mô hình phân lớp dựa trên mẫu dữ liệu đã phân tích ở phần trên.

Hình 4.3 Kết quả Test & Score của 3 mô hình phân lớp Để xác minh rằng trong 3 mô hình phân lớp, Logistic mang lại kết quả mô hình tốt nhất và hiệu quả nhất, nhóm nghiên cứu đã sử dụng ROC Analysis, Ma trận nhầm lẫn để đánh giá.

Hình 4.4 Kết quả của ma trận nhầm lẫn Tree (Tree Decision)

Hình 4.5 Kết quả của ma trận nhầm lẫn SVM (Support Vector Machines)

Từ kết quả Confusion matrix và ROC Analysis, ta đều có thể thấy mức độ chính xác lẫn hiệu quả của mô hình logistic (Logistic Regression) đều cho kết quả tốt hơn 3 mô hình phân lớp còn lại.

Hình 4.6 Kết quả của ma trận nhầm lẫn hồi quy logistic (Logistic Regression)

Hình 4.7 Đường cong của ROC với biến y lần lượt là >50k và

Ngày đăng: 19/06/2024, 10:21

HÌNH ẢNH LIÊN QUAN

BẢNG PHÂN CÔNG CÁC THÀNH VIÊN - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
BẢNG PHÂN CÔNG CÁC THÀNH VIÊN (Trang 5)
Bảng 2.1 Thống kê  mô tả cho lượng thịt Heo (theo kg) bán được trong 03 tháng tại siêu thị ABC - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Bảng 2.1 Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong 03 tháng tại siêu thị ABC (Trang 12)
Bảng 2.2 Bảng kết quả thống kê bằng công cụ - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Bảng 2.2 Bảng kết quả thống kê bằng công cụ (Trang 13)
Bảng 2.6 Bảng kết quả hồi quy - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Bảng 2.6 Bảng kết quả hồi quy (Trang 17)
Hình 3.1 Các bước tiến hành xử lý dữ liệu - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 3.1 Các bước tiến hành xử lý dữ liệu (Trang 35)
Hình 3.4 Dữ liệu lỗi trong Preprocess - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 3.4 Dữ liệu lỗi trong Preprocess (Trang 38)
Hình 3.7 Biểu đồ thể hiện độ tuổi và nghề nghiệp - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 3.7 Biểu đồ thể hiện độ tuổi và nghề nghiệp (Trang 46)
Hình 3.8 Biểu đồ thể hiện chủng tộc - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 3.8 Biểu đồ thể hiện chủng tộc (Trang 47)
Hình 3.9 Biểu đồ thể hiện giới tính - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 3.9 Biểu đồ thể hiện giới tính (Trang 48)
Hình 3.10 Biểu đồ thể hiện tầng lớp lao động - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 3.10 Biểu đồ thể hiện tầng lớp lao động (Trang 49)
Hình 3.11 Biểu đồ thể hiện số giờ làm việc - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 3.11 Biểu đồ thể hiện số giờ làm việc (Trang 50)
Hình 3.12 Biểu đồ thể hiện mức thu nhập - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 3.12 Biểu đồ thể hiện mức thu nhập (Trang 51)
Hình 3.26 Kết quả của Ma trận nhầm lẫn Tree (Tree Dicision) - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 3.26 Kết quả của Ma trận nhầm lẫn Tree (Tree Dicision) (Trang 63)
Bảng 4.2: Bảng so sánh kết quả phân cụm bằng thuật toán K-means với nhãn của dữ liệu - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Bảng 4.2 Bảng so sánh kết quả phân cụm bằng thuật toán K-means với nhãn của dữ liệu (Trang 69)
Bảng 4.1: Bảng so sánh kết quả phân cụm bằng phương pháp Diana với nhãn của dữ liệu - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Bảng 4.1 Bảng so sánh kết quả phân cụm bằng phương pháp Diana với nhãn của dữ liệu (Trang 69)
Hình 4.2 Giá trị Sihouette  của mô hình phân cụm bằng phương pháp K-means - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 4.2 Giá trị Sihouette của mô hình phân cụm bằng phương pháp K-means (Trang 71)
Hình 4.3 Kết quả Test & Score của 3 mô hình phân lớp - phân tích các yếu tố ảnh hưởng đến thu nhập củangười trưởng thành đang làm việc tại mỹ bằng phầnmềm orange
Hình 4.3 Kết quả Test & Score của 3 mô hình phân lớp (Trang 72)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w