1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange

78 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích và Dự báo Bộ Dữ Liệu Adult trên Ứng dụng Orange
Tác giả Lê Ngọc Mai, Bùi Hồ Hồng Nhung, Phùng Thị Như Thảo, Trần Hoài An
Người hướng dẫn Huỳnh Văn Đức
Trường học Đại học Kinh tế Tp. Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại Báo cáo đồ án học phần
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 78
Dung lượng 10,82 MB

Cấu trúc

  • Chương 1: GIỚI THIỆU ĐỀ TÀI (5)
    • 1.1 LÝ DO CHỌN ĐỀ TÀI (5)
    • 1.2 THU NHẬP LÀ GÌ? (6)
    • 1.3 MỤC TIÊU NGHIÊN CỨU (6)
  • CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG (6)
    • 2.1 CÁC PHƯƠNG PHÁP CỦA EXCEL DÙNG ĐỂ KHAI THÁC DỮ (6)
      • 2.1.1 Phương pháp thống kê mô tả (6)
      • 2.1.2 Phương pháp về phân tích dự báo (14)
      • 2.1.3 Phương pháp phân tích tối ưu (18)
    • 2.2 CÁC PHƯƠNG PHÁP TRONG PHẦN MỀM (21)
      • 2.2.1 Phương pháp phân cụm dữ liệu (21)
      • 2.2.2 Phương pháp phân lớp dữ liệu (24)
      • 2.2.3 Các phương nhận đánh giá mô hình phân lớp (0)
  • CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ (30)
    • 3.1 PHÂN TÍCH DỮ LIỆU EMPLOYEE ATTRITION (30)
      • 3.1.1 Tiền xử lý dữ liệu (30)
      • 3.1.2 Mô tả dữ liệu Employee Attrition (32)
      • 3.1.3 Thống kê mô tả dữ liệu (36)
    • 3.2 PHÂN CỤM DỮ LIỆU (4)
      • 3.2.1 Một số phương pháp phân cụm (39)
      • 3.2.2 Kết quả xây dự mô hình (39)
      • 3.2.3 Trích xuất dữ liệu và So sánh với nhãn hiện có (52)
    • 3.3 PHÂN LỚP DỮ LIỆU (60)
      • 3.3.1 Một số phương pháp phân lớp (60)
      • 3.3.2 Kết quả xây dựng mô hình (0)
    • 4.1 NHỮNG CÔNG VIỆC ĐÃ THỰC HIỆN (76)
      • 4.1.1 Tóm tắt (76)
      • 4.1.2 Kết luận (76)
    • 4.2 HƯỚNG PHÁT TRIỂN (77)
  • TÀI LIỆU THAM KHẢO........................................................................................... 77 (78)

Nội dung

77 BẢNG PHÂN CÔNG NHIỆM VỤ STT Họ và tên Công việc phụ trách Mức độ hoàn thành 1 Lê Ngọc Mai Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI Chạy dữ liệu trên Orange Chương

GIỚI THIỆU ĐỀ TÀI

LÝ DO CHỌN ĐỀ TÀI

Tự đánh giá tình hình thu nhập cá nhân là một khía cạnh quan trọng trong cuộc sống, và bộ dữ liệu Adult trong phần mềm Orange nghiên cứu xem một người có kiếm được trên 50 nghìn đô la một năm hay không đã đem lại cơ hội thú vị để nghiên cứu và đo lường sự phân bố thu nhập trong xã hội Điều này không chỉ giúp chúng ta hiểu rõ hơn về sự chênh lệch thu nhập giữa các cá nhân mà còn có thể hiểu rõ hơn các yếu tố ảnh hưởng đến sự đạt được mức thu nhập cao hơn.

Thu nhập không chỉ đơn thuần là số tiền mà một người kiếm được, mà còn là một chỉ số quan trọng thể hiện khả năng kinh tế và cơ hội trong cuộc sống Việc xác định xem một người có kiếm được trên 50 nghìn đô la một năm hay không ảnh hưởng đến quyền lợi của họ, ví dụ như khả năng tiếp cận giáo dục chất lượng cao, chăm sóc sức khỏe tốt hơn, và có một chất lượng cuộc sống tốt hơn nói chung Điều này làm cho đề tài này trở nên quan trọng hơn bao giờ hết trong bối cảnh của sự phân bố thu nhập ngày càng không cân đối.

Ngoài ra, việc nghiên cứu về thu nhập cũng có thể giúp xác định các vấn đề liên quan đến chính trị và chính sách kinh tế Các quyết định về thuế thu nhập, bảo hiểm xã hội, và các biện pháp hỗ trợ xã hội dựa trên những thông tin được thu thập từ bộ dữ liệu này có thể có tác động sâu rộng đến cuộc sống của người dân.

Cuối cùng, việc sử dụng công nghệ và phân tích dữ liệu để nghiên cứu về thu nhập cá nhân có thể đem lại cái nhìn toàn diện hơn về những thách thức và cơ hội trong xã hội hiện đại Điều này sẽ giúp chúng ta tạo ra các giải pháp tốt hơn để xây dựng một xã hội công bằng và cải thiện cuộc sống cho tất cả mọi người.

Nhận thức được tính cấp thiết của thu nhập trong cuộc sống, nhóm chúng em đã chọn bộ dữ liệu Adult trong phần mềm Orange là đề tài nghiên cứu của dự án kết thúc học phần.

THU NHẬP LÀ GÌ?

Thu nhập là tổng giá trị của các tài sản, tiền bạc, hoặc giá trị kinh tế mà một người hoặc một hộ gia đình kiếm được trong một khoảng thời gian nhất định,thường tính bằng tiền mặt hoặc giá trị tương đương Thu nhập có thể bao gồm nhiều nguồn khác nhau, và nó thường được sử dụng để đánh giá khả năng kinh tế của cá nhân hoặc hộ gia đình.

MỤC TIÊU NGHIÊN CỨU

● Nghiên cứu các yếu tố ảnh hưởng đến thu nhập

● Những yếu tố có tác động đáng kể đến thu nhập

● Đưa ra kết luận và hướng giải quyết phù hợp để tăng thu nhập.

TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

CÁC PHƯƠNG PHÁP CỦA EXCEL DÙNG ĐỂ KHAI THÁC DỮ

2.1.1 Phương pháp thống kê mô tả

2.1.1.1 Thống kê bằng phương pháp Descriptive Statistics

Bước 1: Chuẩn bị bảng số liệu cần thống kê

Bước 2: Chọn lệnhData➔➔➔➔➔Data Analysis➔➔➔➔➔Descriptive Statistics, xuất hiện hộp thoạiDescriptive Statistics.

Bước 3: Nhập các thông sốInputvà lựa chọn các thông sốOutput Options.

Ví dụ:Thống kê mô tả số lượng thịt heo (kg) bán được trong tháng 03 tại siêu thịABC.

Bảng 1: Thống kê mô tả cho lượng thịt heo trong tháng 03 tại siêu thị ABC và hộp thoại Descriptive Statistics Sau khi hộp thoại Descriptive Statistics xuất hiện, nhập vào Input Range là cột chứa dữ liệu về số lượng của Thịt heo (kg), ở ô Output Range chọn ô xuất kết quả dữ liệu, tích vào ô Summary Statistics và Confidence Level là 95% Sau đó nhấn OK.

Ta được kết quả như hình 1 gồm các giá trị như Mean: giá trị trung bình,Standard Error: sai số chuẩn, Median: trung vị,…

Hình 1: Bảng kết quả thống kê bằng công cụ Descriptive Statistics

2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal

 Cho phép hợp nhất nhóm từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như: tìm nhóm, tìm số lớn nhất, số nhỏ nhất, số trung bình.

 Kết quả tổng hợp được đặt trên hoặc dưới mỗi nhóm.

Bước l: Sắp xếp data theo cột gom nhóm

Bước 2: Chọn toàn bộ cơ sở dữ liệu

Bước 3: Chọn dataOutlineSubtotal, xuất hiện hộp thoại Subtotal

Ví dụ:Cần thống kê tổng số tiền mà mỗi nhân viên thực hiện

Hình 2: Bảng dữ liệu của nhân viên

Trong hộp thoại Subtotal, chọn cột cần gom nhóm (At each change in) là Salesperson, chọn hàm thống kê Use function là Sum, chon cột thống kê giá trị Add Subtotal to là Order Amount.

Sau đó ta được kết quả bảng tổng hợp số tiền mà mỗi nhân viên thực hiện

Hình 4: Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện

2.1.1.3 Hợp nhất dữ liệu với Consolidate

Chức năng:Cho phép cập nhật dữ liệu từ những bảng dữ liệu khác nhau. consolidate có thể hợp nhất dữ liệu dưới 2 hình thức

 Tổng hợp theo vị trí: Các bảng dữ liệu giống nhau về cấu trúc.

 Tổng hợp theo hạng mục (theo hàng và cột): Các bảng dữ liệu khác nhau về cấu trúc.

 Bước 1 : Chọn vùng sẽ chứa dữ liệu được hợp nhất.

 Bước 2: ChonData-> Data Tools -> Consolidate, xuật hiện hộp thoại Consolidate.

Ví dụ:Hợp nhất doanh thu của 3 cửa hàng

Hình 5: Doanh thu của 3 cửa hàng

Hình 6: Hộp thoại của Consolidate

Hình 7: Hợp nhất doanh thu của 3 cửa hàng

2.1.1.4 Tổng hợp đa chiều với Pivot Table

Chức năng:Pivot Table giúp tổng hợp và phân tích dữ liệu với nhiếu góc độ và nhiều cấp độ khác nhau.

Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu

Bước 3: Xuất hiện họp thoại Create Pivot table Chọn dữ liệu nguồn và nơi chứa Pivot Table, click nút Ok.

Bước 4: Drag các tên Field từ PivotTable Fields vào 4 khu vực Filters, Rows, Columns Values.

Chú thích các chức năng trong hộp thoại Create PivotTable: Ở phần Select a table or range:

 Table/Range: vùng dữ liệu muốn thống kê Ở phần Choose where you want the PivotTable to be placed:

 New Worksheet: kết quả sẽ xuất hiện ở một trang tính mới

 Existing Worksheet: kết quả xuất hiện ở trang tính đang làm việc

 Location: vị trí muốn tạo bảng PivotTable

Hình 9: Kết quả tổng hợp đa chiều với Pivot Table

Hình 11: Kết quả tổng hợp đa chiều với PivotTable 2.1.2 Phương pháp về phân tích dự báo

2.1.2.1 Phương pháp trung bình trượt (Moving Average)

Bước l: Chuẩn bị bảng số liệu cần báo

Bước 2:Select command Data -> Data Analysis -> Moving Average Bước 3: Khai báo các tùy chọn đầu vào và đầu ra

Ví dụ:Dự báo số liệu bán thịt bò của siêu thị ABC

Hình 12: Số liệu bán hàng và hộp thoại Moving Average

2.1.2.2 Phương pháp san bằng mũ

Bước l : Chuẩn bi bảng số liệu có thể báo cáo

Bước 2: Chọn lệnh Data -> Data Analysis -> Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing

Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Dự báo số liệu thịt bò tại siêu thi ABC có hệ số điều chỉnh bằng 0,3

Hình 13: Số liệu bán thịt bò và hộp thoại Exponential Smoothing

Input Range la cột dữ liệu cần dự báo Hệ số cân bằng Damping Factor hoặc là a=0.7 -> 1-0,3=0,7 Ta có hệ số điều chỉnh là 0,3, ngày 17 lượng thịt bò là 29,8kg

2.1.2.3 Phương pháp hồi quy Regression

-Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích)

- Phương trình hồi quy có dạng tổng quát:

Y: là biến phụ thuộc (dependent variable)

Xi: là các biến độc lập (independent variable)

Cách thực hiện bằng Excel:

Bước l: Cho bảng số liệu cần dự báo

Bước 2: Chọn lệnhData -> Data Analysis ->Regression Xuất hiện hộp thoại Regression

Bước 3: Khai báo các thông số Input và Output Options.

Ví dụ:Tác động của chi phí lên doanh thu

Hình 14: Hộp thoại của Regression

Input Y Range là cột Doanh thu , Input Y Range là cột Chi phí Độ tin cậy hồi quy Confidence Level là 95%.

Hình 15: Bảng kết quả hồi quy

2.1.3 Phương pháp phân tích tối ưu

Ví dụ:Một nhà quản lý Dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tân lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án trên các số liệu sau:

Số liệu đầu vào đối với một đơn vị sản phẩm

Loại sản phẩm Khả năng lớn nhất của nguồn tài nguyên sẵn có Lúa gạo Lúa mì

Diện tích đất (ha/tấn) 2 3 50 ha

Nhân công (người/ tấn) 15 12 250 người

Bảng 2: Bảng số liệu của dự án

Các bước thiết lập mô hình:

Bước 1: Xác định các biến quyết định

Gọi x1, x2 lần lượt là lượng lúa gạo và lúa mì (tấn) cần sản xuất

Bước 2: Xác định hàm mục tiêu

Mục tiêu của bài toán là tối đa hóa lợi nhuận, ta có:

P= P(lúa gạo) + P(lúa mì) = 18x1 +21x2 tối đa

Bước 3: Xác định ràng buộc ràng buộc hệ thống

Ràng buộc tài nguyên sừ dụng:

Công cụ Solver để giải mô hình kinh tế

Bước 1: Thiết lập bảng tính

Hình 16: Thiết lập bảng tính Giả định biển xl, x2 bằng 1, nhập các hệ thống buộc phải tương ứng với phép đo lường, định mức, nhân công Sau đó, sử dụng hàm SUMPRODUCT đê tính các giá trị để khởi động lại quá trình khởi động.

Bước 2: Chọn lệnh Data -> Data Analysis -> Solver

Hình 17: Hộp thoại Slover Parameter

Nhập ô chứa mục tiêu Set Objective là ô sẽ chứa lợi nhuận tối đa E5 Đến Max vì đây là bài toán tối đa hóa lợi nhuận By Changing Variable Cells, nhập ô chứa các biên quyết định, trong trường hợp này là C4 và D4 Nhập các ràng buộc buộc cách nhập Add in Subject to the Constraints.

Bước 3: Nhấn nút Solve để giải mô hình, chọn Sensitivity và nhấn OK để xem kết quả hình ảnh

Hình 18: Kết quả tính lợi nhuận tối đa

Vậy ta được lợi nhuận tối đa là 378 đô la để thỏa mãn các ràng buộc

CÁC PHƯƠNG PHÁP TRONG PHẦN MỀM

2.2.1 Phương pháp phân cụm dữ liệu

2.2.1.1 Phân cụm dựa trên phân cấp(Hierachical approach) Định nghĩa:Phương pháp này liên quan đến việc xây dựng một cây phân cấp các dữ liệu cần gom cụm Quá trình này dựa trên hai tiêu chí chính:

- Tạo ra một ma trận khoảng cách giữa các phân tử, có thể là ma trận tương đồng hoặc ma trận khác biệt.

- Đo lường khoảng cách giữa các cụm (sử dụng các phương pháp như single-link,complete-link ).

Hình 19: Mô tả phâm cụm bằng Hierachical approach Đặc điểm: Phân cấp các đối tượng đo lường dựa trên một số tiêu chí Phương pháp này không yêu cầu xác định trước số lượng cụm mà tập trung vào điều kiện dừng Một số phương pháp phổ biến bao gồm Diana, Agnes, và các phương pháp tính toán khoảng cách biên như single-link, average-link, complete-link.

- Single-link: Khoảng cách gần nhất giữa một phần tử trong một cụm và một phần tử trong cụm khác.

- Average-link: Khoảng cách trung bình giữa l phần tử trong một cụm và một phần tử trong cụm khác.

- Complete-link: Khoảng cách xa nhất giữa một phần tử trong một cụm và một phần tử trong cụm khác.

Phương pháp phân cụm phân cấp thường cho ra kết quả dễ hiểu và sử dụng giải thuật đơn giản Tuy nhiên, nó có tốc độ chậm, không thích hợp cho dữ liệu lớn và phức tạp, và không xử lý được dữ liệu bị thiếu Nó cũng nhạy cảm với nhiễu 2.2.1.2 Phân cụm dựa trên phân hoạch Định nghĩa:Phương pháp này liên quan đến việc phân tập dữ liệu gồm n phần tử thành k tập con (với k < n), mỗi tập con biểu diễn một cụm Các cụm được hình thành dựa trên việc tối ưu hóa giá trị hàm độ tương tự, đảm bảo rằng:

- Mỗi đối tượng thuộc duy nhất một cụm và các phần tử trong cụm có sự tương tự với nhau.

- Mỗi cụm phải có ít nhất một phần tử.

Hình 20: Mô tả phân cụm bằng thuật toán k-Means

Thuật toán k-Means là một ví dụ của phân cụm dựa trên phân hoạch Quá trình này xem mỗi đối tượng trong dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng) và bao gồm các bước sau:

Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.

Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu việc phân chia không thay đổi so với kết quả trước đó, thuật toán dừng lại.

Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách tính trung bình của tất cả các điểm dữ liệu thuộc cụm đó sau khi phân chia ở bước 2.

Phương pháp phân cụm dựa trên phân hoạch thường nhanh hơn so với phân cụm phân cấp và phù hợp cho dữ liệu lớn Tuy nhiên, nó có thể bị ảnh hưởng bởi trạng thái ban đầu của các trung tâm và cần xác định trước số lượng cụm.

2.2.2 Phương pháp phân lớp dữ liệu

Hồi quy Logistic là một phương pháp trong thống kê và machine learning được sử dụng để dự đoán xác suất của một sự kiện xảy ra hoặc không xảy ra dựa trên một tập dữ liệu đầu vào Kết quả của hồi quy Logistic thường là một giá trị trong khoảng từ 0 đến 1, thể hiện xác suất xảy ra của sự kiện, và sau đó được sử dụng để phân loại dữ liệu vào hai lớp, thường là lớp "1" và lớp "0" hoặc tương đương (ví dụ: "Có" và "Không").

Hình 21: Mô tả hồi quy Logistic 2.2.2.2 Cây quyết định (Decision Tree) Định nghĩa:Cây quyết định là một đồ thị tập hợp các quyết định, cùng các kết quả khả thi kèm theo để hỗ trợ quá trình đưa ra quyết định.

Trong lĩnh vực khai thác, cây quyết định cung cấp kết quả tốt nhất cho các nhiệm vụ phân loại hoặc tổng quát hóa một tập dữ liệu cho trước.

Hình 22 Minh họa phương pháp Cây quyết định

Mô tả:Tiến trình huấn luyện dữ liệu không nhiễu và không bị thiếu, xây dựng mô hình cây quy định từ những cột dữ liệu này bằng cách tách các thuộc tính thành phân tích thành phần và các mode của cây và ứng dụng câu hỏi Yes/No để xét từng trường hợp.

2.2.2.3 SVM Định nghĩa:là một thuật toán học máy có giám sát SVM nhận dữ liệu đầu vào và xem chúng như các vector trong không gian đa chiều Mục tiêu của SVM là phân loại các điểm dữ liệu vào các lớp khác nhau bằng cách xây dựng một siêu phẳng(hyperplane) trong không gian nhiều chiều để làm mặt phân cách giữa các lớp dữ liệu.

Hình 23: Mô tả hồi quy SVM

- Để tối ưu kết quả phân loại, SVM cố gắng xác định siêu phẳng có khoảng cách lớn nhất đến các điểm dữ liệu (được gọi là margin) của tất cả các lớp Margin là khoảng cách từ siêu phẳng đến các điểm dữ liệu gần nhất của các lớp, và SVM cố gắng tối đa hóa giá trị margin này.

- SVM cố gắng tối ưu hóa bằng cách tìm siêu phẳng tốt nhất để phân loại dữ liệu. Điều này giúp giảm thiểu sự phân loại sai lệch cho các điểm dữ liệu mới được đưa vào SVM là một trong những thuật toán phân loại mạnh mẽ và thường được sử dụng trong nhiều ứng dụng khác nhau, bao gồm phân loại hình ảnh, nhận dạng văn bản, và nhiều bài toán phân loại khác.

2.2.3 Các phương pháp nhận đánh giá mô hình phân lớp

2.2.3.1 Ma trận nhầm lẫn (Confusion Matrix)

Ma trận nhầm lẫn (confusion matrix) là một công cụ thường được sử dụng trong lĩnh vực machine learning và thống kê để đánh giá hiệu suất của một mô hình phân loại (classification model) Ma trận này thể hiện sự so sánh giữa các dự đoán của mô hình và thực tế.

Hình 24 Minh họa một ma trận nhầm lẫn Một ma trận nhầm lẫn thường bao gồm bốn ô chính:

 True Positives (TP): Số lượng các trường hợp mô hình dự đoán đúng là positive (dự đoán đúng một sự kiện xảy ra).

 False Positives (FP): Số lượng các trường hợp mô hình dự đoán positive nhưng thực tế là negative (dự đoán sai một sự kiện xảy ra).

 True Negatives (TN): Số lượng các trường hợp mô hình dự đoán đúng là negative (dự đoán đúng một sự kiện không xảy ra).

 False Negatives (FN): Số lượng các trường hợp mô hình dự đoán negative nhưng thực tế là positive (dự đoán sai một sự kiện không xảy ra).

Ma trận nhầm lẫn giúp bạn đánh giá chính xác khả năng của mô hình trong việc phân loại dữ liệu Từ ma trận này, bạn có thể tính toán các chỉ số đánh giá như độ chính xác (accuracy), độ nhạy (sensitivity), độ đặc hiệu (specificity), vàF1-score để hiểu rõ hơn về hiệu suất của mô hình.

ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ

PHÂN CỤM DỮ LIỆU

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1 Lý do chọn đề tài

Tự đánh giá tình hình thu nhập cá nhân là một khía cạnh quan trọng trong cuộc sống, và bộ dữ liệu Adult trong phần mềm Orange nghiên cứu xem một người có kiếm được trên 50 nghìn đô la một năm hay không đã đem lại cơ hội thú vị để nghiên cứu và đo lường sự phân bố thu nhập trong xã hội Điều này không chỉ giúp chúng ta hiểu rõ hơn về sự chênh lệch thu nhập giữa các cá nhân mà còn có thể hiểu rõ hơn các yếu tố ảnh hưởng đến sự đạt được mức thu nhập cao hơn.

Thu nhập không chỉ đơn thuần là số tiền mà một người kiếm được, mà còn là một chỉ số quan trọng thể hiện khả năng kinh tế và cơ hội trong cuộc sống Việc xác định xem một người có kiếm được trên 50 nghìn đô la một năm hay không ảnh hưởng đến quyền lợi của họ, ví dụ như khả năng tiếp cận giáo dục chất lượng cao, chăm sóc sức khỏe tốt hơn, và có một chất lượng cuộc sống tốt hơn nói chung Điều này làm cho đề tài này trở nên quan trọng hơn bao giờ hết trong bối cảnh của sự phân bố thu nhập ngày càng không cân đối.

Ngoài ra, việc nghiên cứu về thu nhập cũng có thể giúp xác định các vấn đề liên quan đến chính trị và chính sách kinh tế Các quyết định về thuế thu nhập, bảo hiểm xã hội, và các biện pháp hỗ trợ xã hội dựa trên những thông tin được thu thập từ bộ dữ liệu này có thể có tác động sâu rộng đến cuộc sống của người dân.

Cuối cùng, việc sử dụng công nghệ và phân tích dữ liệu để nghiên cứu về thu nhập cá nhân có thể đem lại cái nhìn toàn diện hơn về những thách thức và cơ hội trong xã hội hiện đại Điều này sẽ giúp chúng ta tạo ra các giải pháp tốt hơn để xây dựng một xã hội công bằng và cải thiện cuộc sống cho tất cả mọi người.

Nhận thức được tính cấp thiết của thu nhập trong cuộc sống, nhóm chúng em đã chọn bộ dữ liệu Adult trong phần mềm Orange là đề tài nghiên cứu của dự án kết thúc học phần.

Thu nhập là tổng giá trị của các tài sản, tiền bạc, hoặc giá trị kinh tế mà một người hoặc một hộ gia đình kiếm được trong một khoảng thời gian nhất định, thường tính bằng tiền mặt hoặc giá trị tương đương Thu nhập có thể bao gồm nhiều nguồn khác nhau, và nó thường được sử dụng để đánh giá khả năng kinh tế của cá nhân hoặc hộ gia đình.

● Nghiên cứu các yếu tố ảnh hưởng đến thu nhập

● Những yếu tố có tác động đáng kể đến thu nhập

● Đưa ra kết luận và hướng giải quyết phù hợp để tăng thu nhập.

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ

CÁC PHƯƠNG PHÁP SỬ DỤNG

2.1 CÁC PHƯƠNG PHÁP CỦA EXCEL DÙNG ĐỂ KHAI THÁC DỮ

2.1.1 Phương pháp thống kê mô tả

2.1.1.1 Thống kê bằng phương pháp Descriptive Statistics

Bước 1: Chuẩn bị bảng số liệu cần thống kê

Bước 2: Chọn lệnhData➔➔➔➔➔Data Analysis➔➔➔➔➔Descriptive Statistics, xuất hiện hộp thoạiDescriptive Statistics.

Bước 3: Nhập các thông sốInputvà lựa chọn các thông sốOutput Options.

Ví dụ:Thống kê mô tả số lượng thịt heo (kg) bán được trong tháng 03 tại siêu thịABC.

Bảng 1: Thống kê mô tả cho lượng thịt heo trong tháng 03 tại siêu thị ABC và hộp thoại Descriptive Statistics Sau khi hộp thoại Descriptive Statistics xuất hiện, nhập vào Input Range là cột chứa dữ liệu về số lượng của Thịt heo (kg), ở ô Output Range chọn ô xuất kết quả dữ liệu, tích vào ô Summary Statistics và Confidence Level là 95% Sau đó nhấn OK.

Ta được kết quả như hình 1 gồm các giá trị như Mean: giá trị trung bình,Standard Error: sai số chuẩn, Median: trung vị,…

Hình 1: Bảng kết quả thống kê bằng công cụ Descriptive Statistics

2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal

 Cho phép hợp nhất nhóm từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như: tìm nhóm, tìm số lớn nhất, số nhỏ nhất, số trung bình.

 Kết quả tổng hợp được đặt trên hoặc dưới mỗi nhóm.

Bước l: Sắp xếp data theo cột gom nhóm

Bước 2: Chọn toàn bộ cơ sở dữ liệu

Bước 3: Chọn dataOutlineSubtotal, xuất hiện hộp thoại Subtotal

Ví dụ:Cần thống kê tổng số tiền mà mỗi nhân viên thực hiện

Hình 2: Bảng dữ liệu của nhân viên

Trong hộp thoại Subtotal, chọn cột cần gom nhóm (At each change in) là Salesperson, chọn hàm thống kê Use function là Sum, chon cột thống kê giá trị Add Subtotal to là Order Amount.

Sau đó ta được kết quả bảng tổng hợp số tiền mà mỗi nhân viên thực hiện

Hình 4: Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện

2.1.1.3 Hợp nhất dữ liệu với Consolidate

Chức năng:Cho phép cập nhật dữ liệu từ những bảng dữ liệu khác nhau. consolidate có thể hợp nhất dữ liệu dưới 2 hình thức

 Tổng hợp theo vị trí: Các bảng dữ liệu giống nhau về cấu trúc.

 Tổng hợp theo hạng mục (theo hàng và cột): Các bảng dữ liệu khác nhau về cấu trúc.

 Bước 1 : Chọn vùng sẽ chứa dữ liệu được hợp nhất.

 Bước 2: ChonData-> Data Tools -> Consolidate, xuật hiện hộp thoại Consolidate.

Ví dụ:Hợp nhất doanh thu của 3 cửa hàng

Hình 5: Doanh thu của 3 cửa hàng

Hình 6: Hộp thoại của Consolidate

Hình 7: Hợp nhất doanh thu của 3 cửa hàng

2.1.1.4 Tổng hợp đa chiều với Pivot Table

Chức năng:Pivot Table giúp tổng hợp và phân tích dữ liệu với nhiếu góc độ và nhiều cấp độ khác nhau.

Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu

Bước 3: Xuất hiện họp thoại Create Pivot table Chọn dữ liệu nguồn và nơi chứa Pivot Table, click nút Ok.

Bước 4: Drag các tên Field từ PivotTable Fields vào 4 khu vực Filters, Rows, Columns Values.

Chú thích các chức năng trong hộp thoại Create PivotTable: Ở phần Select a table or range:

 Table/Range: vùng dữ liệu muốn thống kê Ở phần Choose where you want the PivotTable to be placed:

 New Worksheet: kết quả sẽ xuất hiện ở một trang tính mới

 Existing Worksheet: kết quả xuất hiện ở trang tính đang làm việc

 Location: vị trí muốn tạo bảng PivotTable

Hình 9: Kết quả tổng hợp đa chiều với Pivot Table

Hình 11: Kết quả tổng hợp đa chiều với PivotTable 2.1.2 Phương pháp về phân tích dự báo

2.1.2.1 Phương pháp trung bình trượt (Moving Average)

Bước l: Chuẩn bị bảng số liệu cần báo

Bước 2:Select command Data -> Data Analysis -> Moving Average Bước 3: Khai báo các tùy chọn đầu vào và đầu ra

Ví dụ:Dự báo số liệu bán thịt bò của siêu thị ABC

Hình 12: Số liệu bán hàng và hộp thoại Moving Average

2.1.2.2 Phương pháp san bằng mũ

Bước l : Chuẩn bi bảng số liệu có thể báo cáo

Bước 2: Chọn lệnh Data -> Data Analysis -> Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing

Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Dự báo số liệu thịt bò tại siêu thi ABC có hệ số điều chỉnh bằng 0,3

Hình 13: Số liệu bán thịt bò và hộp thoại Exponential Smoothing

Input Range la cột dữ liệu cần dự báo Hệ số cân bằng Damping Factor hoặc là a=0.7 -> 1-0,3=0,7 Ta có hệ số điều chỉnh là 0,3, ngày 17 lượng thịt bò là 29,8kg

2.1.2.3 Phương pháp hồi quy Regression

-Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích)

- Phương trình hồi quy có dạng tổng quát:

Y: là biến phụ thuộc (dependent variable)

Xi: là các biến độc lập (independent variable)

Cách thực hiện bằng Excel:

Bước l: Cho bảng số liệu cần dự báo

Bước 2: Chọn lệnhData -> Data Analysis ->Regression Xuất hiện hộp thoại Regression

Bước 3: Khai báo các thông số Input và Output Options.

Ví dụ:Tác động của chi phí lên doanh thu

Hình 14: Hộp thoại của Regression

Input Y Range là cột Doanh thu , Input Y Range là cột Chi phí Độ tin cậy hồi quy Confidence Level là 95%.

Hình 15: Bảng kết quả hồi quy

2.1.3 Phương pháp phân tích tối ưu

Ví dụ:Một nhà quản lý Dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tân lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án trên các số liệu sau:

Số liệu đầu vào đối với một đơn vị sản phẩm

Loại sản phẩm Khả năng lớn nhất của nguồn tài nguyên sẵn có Lúa gạo Lúa mì

Diện tích đất (ha/tấn) 2 3 50 ha

Nhân công (người/ tấn) 15 12 250 người

Bảng 2: Bảng số liệu của dự án

Các bước thiết lập mô hình:

Bước 1: Xác định các biến quyết định

Gọi x1, x2 lần lượt là lượng lúa gạo và lúa mì (tấn) cần sản xuất

Bước 2: Xác định hàm mục tiêu

Mục tiêu của bài toán là tối đa hóa lợi nhuận, ta có:

P= P(lúa gạo) + P(lúa mì) = 18x1 +21x2 tối đa

Bước 3: Xác định ràng buộc ràng buộc hệ thống

Ràng buộc tài nguyên sừ dụng:

Công cụ Solver để giải mô hình kinh tế

Bước 1: Thiết lập bảng tính

Hình 16: Thiết lập bảng tính Giả định biển xl, x2 bằng 1, nhập các hệ thống buộc phải tương ứng với phép đo lường, định mức, nhân công Sau đó, sử dụng hàm SUMPRODUCT đê tính các giá trị để khởi động lại quá trình khởi động.

Bước 2: Chọn lệnh Data -> Data Analysis -> Solver

Hình 17: Hộp thoại Slover Parameter

Nhập ô chứa mục tiêu Set Objective là ô sẽ chứa lợi nhuận tối đa E5 Đến Max vì đây là bài toán tối đa hóa lợi nhuận By Changing Variable Cells, nhập ô chứa các biên quyết định, trong trường hợp này là C4 và D4 Nhập các ràng buộc buộc cách nhập Add in Subject to the Constraints.

Bước 3: Nhấn nút Solve để giải mô hình, chọn Sensitivity và nhấn OK để xem kết quả hình ảnh

Hình 18: Kết quả tính lợi nhuận tối đa

Vậy ta được lợi nhuận tối đa là 378 đô la để thỏa mãn các ràng buộc

2.2 CÁC PHƯƠNG PHÁP TRONG PHẦN MỀM

2.2.1 Phương pháp phân cụm dữ liệu

2.2.1.1 Phân cụm dựa trên phân cấp(Hierachical approach) Định nghĩa:Phương pháp này liên quan đến việc xây dựng một cây phân cấp các dữ liệu cần gom cụm Quá trình này dựa trên hai tiêu chí chính:

- Tạo ra một ma trận khoảng cách giữa các phân tử, có thể là ma trận tương đồng hoặc ma trận khác biệt.

- Đo lường khoảng cách giữa các cụm (sử dụng các phương pháp như single-link,complete-link ).

PHÂN LỚP DỮ LIỆU

3.3.1 Một số phương pháp phân lớp

Sử dụng một số phương pháp phân lớp:

- Hồi quy logistic (Logistic Regression)

- Cây quyết định (Decision Tree)

3.3.2 Kết quả xây dự mô hình

Bước 1: Xây dựng mô hình

- Sử dụng bộ dữ liệu “Adult” gồm mẫu dữ liệu từ Dataset để tiến hành phân lớp.

Hình 62 Bộ dữ liệu Adult

- Vì bộ dữ liệu không có lỗi nên ta tiến hành phân lớp trực tiếp trên bộ dữ liệu.

Hình 63: Thông tin bộ dữ liệu

- Lấy tập dữ liệu gốc làm tập dữ liệu huấn luyện Tập dữ liệu huấn luyện có 32561 mẫu dữ liệu, 14 biến và không có dữ liệu bị lỗi.

- Lấy 10% bộ dữ liệu làm tập dữ liệu kiểm thử Tại Fixed Proportion of data kéo chọn 10% dữ liệu từ tập dữ liệu Employee Attrition sau đó chọn Sample Data để cho ra bảng dữ liệu Huấn luyện mới, rồi lưu về máy với tên Dulieukiemthu.xlxs.

Hình 64:Lấy mẫu dữ liệu kiểm thử

- Tập dữ liệu kiểm thử có 3257 mẫu dữ liệu, 14 biến và không có dữ liệu bị lỗi.

Hình 65: Mẫu dữ liệu kiểm thử

- Trên file excel dulieukiemthu.xlxs đã lưu về máy, tiến hành xóa dữ liệu cột biến

Bước 2: Sử dụng mô hình

- Bởi vì mẫu dữ liệu Huấn luyện sau khi lấy mẫu đã đạt chuẩn, không có dữ liệu bị lỗi nên sẽ bỏ qua bước tiền xử lý dữ liệu.

- Sử dụng Test and Score để so sánh các thuật toán, lựa chọn thuật toán tốt nhất, chính xác nhất phục vụ cho việc dự báo.

- Sử dụng dulieuhuanluyen.xlxs là tập Huấn luyện, trong đó biến Y là biến phụ thuộc (target).

Hình 66: Tập dữ liệu huấn luyện

Hình 67: Mô hình so sánh các thuật toán

- Vì thuật toán Decision Tree bị lỗi “Fitting failed Exhaustive binarization does not handle attributes with more than 16 values trong phần mềm orange” tức là gặp giới hạn với số lượng giá trị độc lập của thuộc tính vượt quá 16 Trong bộ dữ liệu có thuộc tính native-country có hơn 16 giá trị nên nhóm quyết định bỏ qua thuộc tính này để tiến hành phân cụm.

Hình 68: Bỏ qua thuộc tính native-country

Tại bảng Test and Score, chọn tỷ lệ lấy mẫu, chọn tỷ lệ lấy mẫu tại Cross Validation hoặc Random Sampling để có được chỉ số đẹp nhất.

- Chọn tỷ lệ lấy mẫu Cross Validation:

Hình 69: Kết quả chia mẫu dữ liệu thành 20 phần

Hình 70: Kết quả chia mẫu dữ liệu thành 10 phần

Hình 71: Kết quả chia mẫu dữ liệu thành 5 phần

- Chọn tỷ lệ tại Random Sampling:

Hình 72: Kết quả khi chia mẫu dữ liệu thành 50-90%

Hình 73: Kết quả khi chia mẫu dữ liệu thành 20-70%

Hình 74: Kết quả khi chia mẫu dữ liệu thành 50-66%

Về Random Sampling, ta cũng nhận thấy các chỉ số của phương pháp Hồi quy

Sampling thì phương án Hồi quy Tree là phương án tốt nhất để tiến hành phân lớp Cụ thể ta xem xét mô hình Hồi quy Tree ở trường hợp chia lấy mẫu dữ liệu thành 5 phần

 Diện tích đường cong (AUC): 71.9%

 Giá trị trung bình điều hòa (F1): 83%

Ma trận nhầm lẫn (Confusion Matrix):Ở đây ta xét Ma trận nhầm lẫn của bộ dữ liệu khi chia theo kiểu Cross Validation thành 5 phần.

Hình 75: Kết quả ma trận nhầm lẫn của Cây quyết định (Tree Decision)

Hình 76: Kết quả ma trận nhầm lẫn của Hồi quy Logistic (Logistic Regression)

Hình 77: Kết quả ma trận nhầm lẫn của SVM (Support Vector Machines)Nhận xét:Tại Ma trận nhầm lẫn, chỉ số cần quan sát là tỷ lệ sai lầm loại 2, mô hình tốt nhất là mô hình có tỷ lệ sai lầm loại 2 thấp nhất Nhìn vào kết quả của ba phương pháp, tỷ lệ sai lầm loại 2 của phương pháp Hồi quy Tree là thấp nhất với 34.9% Nên với Confusion Matrix, phương pháp Hồi quyTree là phù hợp nhất. ROC Analysis:

Hình 78: Đường cong ROC với biến y là >50K

Hình 79: Đường cong ROC với biến y là

Ngày đăng: 10/10/2024, 16:28

HÌNH ẢNH LIÊN QUAN

Bảng 1: Thống kê mô tả cho lượng thịt heo trong tháng 03 tại siêu thị ABC - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Bảng 1 Thống kê mô tả cho lượng thịt heo trong tháng 03 tại siêu thị ABC (Trang 7)
Hình 1: Bảng kết quả thống kê bằng công cụ Descriptive Statistics - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 1 Bảng kết quả thống kê bằng công cụ Descriptive Statistics (Trang 8)
Hình 3: Hộp thoại Subtotal - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 3 Hộp thoại Subtotal (Trang 9)
Hình 4: Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 4 Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện (Trang 10)
Hình 5: Doanh thu của 3 cửa hàng - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 5 Doanh thu của 3 cửa hàng (Trang 11)
Hình 6: Hộp thoại của Consolidate - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 6 Hộp thoại của Consolidate (Trang 11)
Hình 7: Hợp nhất doanh thu của 3 cửa hàng - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 7 Hợp nhất doanh thu của 3 cửa hàng (Trang 12)
Hình 11: Kết quả tổng hợp đa chiều với PivotTable 2.1.2 Phương pháp về phân tích dự báo - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 11 Kết quả tổng hợp đa chiều với PivotTable 2.1.2 Phương pháp về phân tích dự báo (Trang 14)
Hình 10: PivotTable Fields” - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 10 PivotTable Fields” (Trang 14)
Hình 12: Số liệu bán hàng và hộp thoại Moving Average - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 12 Số liệu bán hàng và hộp thoại Moving Average (Trang 15)
Hình 13: Số liệu bán thịt bò và hộp thoại Exponential Smoothing - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 13 Số liệu bán thịt bò và hộp thoại Exponential Smoothing (Trang 16)
Hình 15: Bảng kết quả hồi quy - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 15 Bảng kết quả hồi quy (Trang 18)
Hình 17: Hộp thoại Slover Parameter - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 17 Hộp thoại Slover Parameter (Trang 20)
Hình 19: Mô tả phâm cụm bằng Hierachical approach - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 19 Mô tả phâm cụm bằng Hierachical approach (Trang 22)
Hình 23: Mô tả hồi quy SVM - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 23 Mô tả hồi quy SVM (Trang 26)
Hình 25 Minh họa đường cong ROC - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 25 Minh họa đường cong ROC (Trang 28)
Hình 26: Mô tả đường cong AUC - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 26 Mô tả đường cong AUC (Trang 29)
Hình 32 Biểu đồ thống kê giới tính 3.1.3.3 Trình độ học vấn - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 32 Biểu đồ thống kê giới tính 3.1.3.3 Trình độ học vấn (Trang 38)
Hình 33: Biểu đồ thống kê trình độ học vấn 3.2 PHÂN CỤM DỮ LIỆU - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 33 Biểu đồ thống kê trình độ học vấn 3.2 PHÂN CỤM DỮ LIỆU (Trang 39)
Hình 36: Thuật toán K-meas báo lỗi và Hieracical Clustering báo lỗi - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 36 Thuật toán K-meas báo lỗi và Hieracical Clustering báo lỗi (Trang 42)
Hình 39 : Các bước thực hiện trước khi phân cụm - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 39 Các bước thực hiện trước khi phân cụm (Trang 44)
Hình 40: Mô hình phân cụm dữ liệu Phân cụm dữ liệu bằng phương pháp Hieracical Clustering - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 40 Mô hình phân cụm dữ liệu Phân cụm dữ liệu bằng phương pháp Hieracical Clustering (Trang 44)
Hình 41: Hộp thoại Hieracical Clustering khi chia dữ liệu thành 2 cụm - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 41 Hộp thoại Hieracical Clustering khi chia dữ liệu thành 2 cụm (Trang 45)
Hình 43: Hộp thoại Hieracical Clustering khi chia dữ liệu thành 4 cụm - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 43 Hộp thoại Hieracical Clustering khi chia dữ liệu thành 4 cụm (Trang 46)
Hình 50: Hộp thoại Silhouette Scores - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 50 Hộp thoại Silhouette Scores (Trang 51)
Hình 55: Câu lệnh dán nhãn cho dữ liệu đã phân cụm. - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 55 Câu lệnh dán nhãn cho dữ liệu đã phân cụm (Trang 55)
Hình 61: Bảng hiển thị kết quả so sánh với nhãn hiện có. - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 61 Bảng hiển thị kết quả so sánh với nhãn hiện có (Trang 60)
Hình 63: Thông tin bộ dữ liệu - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 63 Thông tin bộ dữ liệu (Trang 62)
Hình 80: Tập dữ liệu kiểm thử - Báo cáo Đồ Án học phần khoa học dữ liệu Đề tài phân tích và dự báo bộ dữ liệu adult trên Ứng dụng orange
Hình 80 Tập dữ liệu kiểm thử (Trang 73)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w