1. Trang chủ
  2. » Luận Văn - Báo Cáo

báo cáo đồ án khoa học dữ liệu là gì

31 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 4,28 MB

Nội dung

Sau khi hiểu yêucầu, các biến và bộ dữ liệu liên quan có thể được xác định dễ dàng, giúp quátrình xử lý thuận tiện hơn.- Cuối cùng, bất kể dữ liệu có đáp ứng nhu cầu đã nêu hay không, dữ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH 

Trang 2

Chương I Giới thiệu về khoa học dữ liệu và Giới thiệu đề tài

I.Tổng quan về khoa học dữ liệu.

1.1 Dữ liệu là gì?

“Internet” xuất hiện đầu tiên vào khoảng năm 1974, đó là một bước đột phá và đã tácđộng không ít đến đời sống của chúng ta Cùng với sự phát triển của nó, internet trởthành nền tảng và đã tạo nên một kỷ nguyên mới - một thời đại mới, nơi mà “Côngnghệ thời đại 4.0” đang được ứng dụng và có sức tác động mạnh mẽ đối với thế giớingày nay Sự phát triển vượt bậc ấy cũng đã mang đến một thử thách mới đó là việclưu trữ dữ liệu với số lượng khổng lồ nhưng lại dễ dàng tìm kiếm và phân tích Nhưngđiều đó đã được thay thế bởi những tiến bộ trong công nghệ thông tin như Điện toánđám mây hay Khoa học dữ liệu giúp việc lưu trữ và xử lý dữ liệu trở nên đơn giản hơnbao giờ hết

Vậy dữ liệu là gì mà lại quan trọng đến thế? Jack Ma đã nói: “Trong kinh doanh, dữ

liệu là tất cả.” Dữ liệu là tập hợp các thông tin, số liệu, ký hiệu, hay bất kỳ loại thôngtin nào có thể được lưu trữ, xử lý, và truyền tải bằng các phương tiện kỹ thuật số hoặckhông kỹ thuật số Dữ liệu có thể tồn tại ở nhiều định dạng khác nhau, ví dụ như vănbản, hình ảnh, âm thanh, video, hay các tệp tin khác Dữ liệu được phân làm hai loại:

dữ liệu có cấu trúc và không cấu trúc Phần lớn các dữ liệu trên thế giới là dữ liệukhông cấu trúc Loại này không thể chứa trong cơ sở dữ liệu dạng bảng được Sự hạnchế về cấu trúc khiến cho loại cơ sở dữ liệu này không thể thu thập, lưu trữ và phântích Trong khi dữ liệu có cấu trúc là loại dữ liệu rất dễ dàng thu thập bởi vì nó đượclưu trữ trong cả cột và hàng của bảng Nhờ sự thuận tiện đó, loại dữ liệu có cấu trúc

Trang 3

được áp dụng để lưu giữ thông tin trong mọi lĩnh vực đã giúp doanh nghiệp giảm đượckhá nhiều thời gian và chi phí cho công tác thu thập, quản lý và khai thác.

1.2 Vai trò của dữ liệu

Dữ liệu là điều cần thiết và không thể thiếu đối với cuộc sống hiện đại ngàynay Chính dữ liệu là cơ sở để hình thành một hệ thống thông tin đa ngành, đa lĩnh vựcnhằm tạo một trải nghiệm mới, đem đến lợi ích cho con người, doanh nghiệp và xãhội, dữ liệu là nền tảng để đảm bảo một tương lai phát triển bền vững của nhân loại

3 Cải thiện hiệu quả và hiệu suất: Dữ liệu giúp các tổ chức cải thiện hiệu quả và hiệusuất của mình bằng cách tối ưu hóa quy trình sản xuất, tăng cường quản lý và giảmthiểu lãng phí

4 Phục vụ khách hàng tốt hơn: Dữ liệu giúp các doanh nghiệp hiểu khách hàng của họ

Trang 4

7 Cải thiện giáo dục: Dữ liệu giúp các nhà giáo dục cải thiện chất lượng giáo dục vàđưa ra các quyết định chính xác dựa trên dữ liệu về học sinh và giáo viên.

“Tóm lại, dữ liệu đã và đang đóng góp vô cùng to lớn cho thời kỳ mớinày.Không chỉ được sử dụng trong công tác nghiên cứu, dữ liệu giúp con người pháthuy tối đa năng lực sáng tạo để có thể dự báo và đề ra quyết định trong tương lai ởnhiều lĩnh vực Nhưng để sử dụng được lượng dữ liệu lớn như hiện nay đòi hỏi sự pháttriển vượt bậc của việc tổng hợp, quản lý, phân tích dữ liệu cũng như khả năng đưa raquyết định cuối cùng Đó là nền tảng để một nền khoa học mới hình thành, chính làKhoa học dữ liệu

1.3 Khoa học dữ liệu là gì?

Khoa học dữ liệu (Data Science) là một lĩnh vực liên quan đến việc thu thập, xử

lý và phân tích dữ liệu để rút ra thông tin hữu ích và đưa ra các quyết định dựa trên dữliệu đó Nó bao gồm các phương pháp và công nghệ liên quan đến khoa học máy tính,thống kê, toán học, và các lĩnh vực khác để xây dựng các mô hình dữ liệu và phân tích

dữ liệu

Khoa học dữ liệu có thể được áp dụng trong nhiều lĩnh vực, bao gồm kinhdoanh, y tế, khoa học, chính phủ, và nhiều lĩnh vực khác Các chuyên gia về khoa học

dữ liệu sử dụng các phương pháp và công nghệ để:

 Thu thập và lưu trữ dữ liệu

 Làm sạch và xử lý dữ liệu để chuẩn bị cho việc phân tích

 Phân tích dữ liệu để tìm ra các mẫu và thông tin quan trọng

Too long to read on your phone? Save

to read later on your computer

Save to a Studylist

Trang 5

 Xây dựng các mô hình dữ liệu để dự đoán và đưa ra các quyết định dựa trên dữliệu đó

 Đánh giá và tối ưu hóa các mô hình dữ liệu

Khoa học dữ liệu là một lĩnh vực phát triển rất nhanh trong thời gian gần đây và đóngvai trò quan trọng trong việc tạo ra giá trị từ dữ liệu

1.4 Quy trình phân tích dữ liệu

“Việc đưa ra lựa chọn nào không phải chỉ cần xem xét dữ liệu được thu thập mà

có thể nhanh chóng quyết định ngay Để ban quản trị của doanh nghiệp đưa ra quyếtđịnh chính xác nhất, dữ liệu thô sau khi được thu thập phải tiến hành chuyển đổi thànhnhững dữ liệu trực quan hơn theo một quy trình nhất định Đó được gọi là quy trìnhphân tích dữ liệu, gồm 5 bước cơ bản sau:”

Bước 1: Đặt vấn đề và thu thập dữ liệu

Bước 2: Tiền xử lý dữ liệu

Bước 3: Chuyển đổi dữ liệu

Trang 6

- Đầu tiên, người xử lý cần hiểu rõ yêu cầu và độ phức tạp của dữ liệu trước khi

xử lý Tránh tình trạng thu thập và xử lý số liệu vội vàng, thiếu sự chuẩn bị

- Tiếp theo, bạn cần xác định chính xác các biến và tập dữ liệu Sau khi hiểu yêucầu, các biến và bộ dữ liệu liên quan có thể được xác định dễ dàng, giúp quátrình xử lý thuận tiện hơn

- Cuối cùng, bất kể dữ liệu có đáp ứng nhu cầu đã nêu hay không, dữ liệu cầnđược đánh giá lại để xác minh tính đúng đắn của quá trình xử lý

1.6 Ứng dụng của Khoa học dữ liệu trong thực tế

“Khoa học dữ liệu hiện là lĩnh vực có ảnh hưởng nhất đối với nhiều ngànhnghề Nó chi phối mọi hoạt động của con người Nhờ có khoa học dữ liệu mà mọi nhucầu thiết thực của con người đã được đáp ứng và mang lại nhiều lợi ích cho họ Mộtvài lĩnh vực tiêu biểu có ảnh hưởng lớn đến khoa học dữ liệu Ví dụ: Y tế – chăm sócsức khỏe, thương mại điện tử, giao thông, tài chính, ngân hàng, sản xuất,… cơ chếkiểm soát quốc gia, và phát triển kinh tế quốc gia Hiện nay chúng ta có thẻ căn cướccông dân gắn chíp điện tử rất hữu ích cho việc theo dõi thông tin của người dân Mớiđây nhất, chính phủ đã phạt vi phạm an toàn giao thông bằng cách kết hợp AI với cơ

sở dữ liệu có sẵn dựa trên biển số để phát hiện phương tiện vi phạm giao thông và định

vị chủ phương tiện dựa trên thông tin đăng ký Các bộ, ngành cũng đang ứng dụngkhoa học dữ liệu để dự báo lạm phát, GDP, v.v và có những bước đi phù hợp để pháttriển đất nước.”

“Qua những ứng dụng rộng rãi, đa ngành nghề, đa lĩnh vực và tầm ảnh hưởng

to lớn của Khoa học dữ liệu, có thể khẳng định Khoa học dữ liệu là một phần khôngthể thiếu trong thế giới ngày nay Trong tương lai không xa, mọi ngành nghề có ít

Trang 7

nhiều sẽ cần đến sự can thiệp của Khoa học dữ liệu, giúp cuộc sống mỗi người chúng

ta trở nên dễ dàng và hiện đại hơn.”

II Giới thiệu về đề tài

1.2.1 Lý do chọn đề tài

Việc sử dụng TMĐT trong những năm gần đây đã tăng một cách đáng kể ở cácnước phát triển và đặc biệt tiềm năng hơn ở những nước đang phát triển, nhưng điềunày chưa thật sự phản ánh rõ tầm ảnh hưởng của nó có thật sự đủ mạnh mẽ đến ý địnhmua sắm online của người dùng Tại các cửa hàng vật lý, người bán hàng có thể cónhững chiến lược riêng trong việc tiếp cận đến khách hàng thông qua những trảinghiệm của họ Những trải nghiệm này cực kỳ quan trọng trong việc xây dựng các môhình kinh doanh và tận dụng được tốt các nguồn lực hiện có Đối với TMĐT và công

ty công nghệ, họ sẽ bắt đầu phải dành nhiều công sức hơn để có thể tìm ra tâm lý muahàng của người dùng để có một chỗ đứng vững chắc trong việc mua sắm online nganghàng với các cửa hàng vật lý hiện có

Trong bài phân tích này, chúng em sẽ xem xét hành vi mua sắm của khách hàngtruy cập vào trang web TMĐT trong phiên truy cập hiện tại (thời gian ghi nhận truycập vào trang web vào thời điểm đó) thông qua các thông số được ghi lại trên trangweb Cuối cùng đưa ra kết luận tại thời điểm trước khi rời phiên truy cập, họ có mua

hàng hay là không Đề tài của chúng em sẽ là “Ứng dụng Khoa học dữ liệu trong

việc phân tích ý định mua sắm trực tuyến của người dùng trên website TMĐT để đưa ra các hướng đi tốt nhất cho nhà bán lẻ” với sự hỗ trợ từ những kiến thức của

học phần Khoa học dữ liệu và sự trợ giúp của phần mềm Orange

Thông qua mô hình phân loại của các dữ liê ‚u truy cập của khách hàng để dựđoán viê ‚c người dùng có mua sắm hay không Từ đó, đưa ra những quyết định giảipháp phù hợp cho các nhà bán lẻ để có được những chiến lược giữ chân và thu húthơn Đồng thời tạo thêm lợi nhuâ ‚n cho cửa hàng và có được độ tin cậy của kháchhàng

1.2.2 Mục tiêu nghiên cứu

Mục tiêu tổng quát của bài báo cáo là thông qua viê ‚c phân tích dữ liê ‚u để đánhgiá, dự báo tìm ra khách hàng có khả năng mua hàng Từ đó, phân tích lý do để cóđược các giải pháp nâng cao chất lượng mua sắm, đưa ra các gói ưu đãi hấp dẫn giatăng tỷ suất tiếp tục mua hàng đồng thời thu hút khách hàng mới dựa trên bô ‚ dữ liê ‚uonline_shoppers_intention.csv

Để đạt được mục tiêu này, chúng em sẽ chia nhỏ ra thành 3 phương pháp chính

để giải quyết bài toán này một cách hiệu quả hơn và có sự hỗ trợ của phần mềmOrange để xử lý dữ liệu:

Bài toán 1: Phân tích các đặc điểm về ý định mua sắm của người dùng trêntrang web TMĐT dựa vào lược đồ và các công cụ thống kê

Bài toán 2: Dự đoán ý định mua sắm của người dùng trên trang web TMĐT dựavào các phương pháp phân lớp

Bài toán 3: Phân loại các nhóm khách hàng có ý định mua sắm trên trang webTMĐT dựa vào các phương pháp phân cụm

1.2.3 Đối tượng và phạm vi nghiên cứu

Trang 8

Đối tượng nghiên cứu của bài gồm có 12.330 lượt truy cập trong mỗi phiên vớicác dữ liệu về số trang quản trị, trang thông tin, trang sản phẩm, các thông số rời trang,loại khách hàng, hệ điều hành sử dụng, ngày lễ mua hàng, … Các biến đầu vào có thểđược sử dụng để xây dựng các mô hình dự đoán và phân loại, nhằm đánh giá khả năngngười dùng thực hiện mua hàng trên trang web Biến đầu ra (Revenue) có thể được sửdụng để xác định xem một người dùng cụ thể đã mua hàng hay chưa.

Phạm vi nghiên cứu: Bộ dữ liệu này được thu thập từ một trang web TMĐTtrong giai đoạn từ tháng 1 đến tháng 12 năm 2014

Chương II Tổng quan về chương trình sử dụng và các phương pháp sử dụng

2.1 Các phương pháp của Excel

2.1.1 Phương pháp thống kê mô tả

2.1.1.1Thống kê bằng công cụ Descriptive Statistics

Chức năng của công cụ này bao gồm tính các giá trị trung bình, trung vị, độ lệchchuẩn, phương sai và tỷ lệ phần trăm của các giá trị trong tập dữ liệu Công cụthống kê mô tả giúp người dùng hiểu rõ hơn về tính chất của dữ liệu và đưa ranhững quyết định đúng đắn hơn trong quá trình phân tích dữ liệu

- Bước 1: Chuẩn bị bảng số liệu cần thống kê

- Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộpthoại Descriptive Statistics

- Bước 3: Đưa ra khai báo cho các thông số Input, sau đó chọn thông số OutputOptions

2.1.1.2Báo cáo tổng hợp nhóm với Subtotal

Chức năng: Cho phép người dùng phân tích dữ liệu theo từng nhóm con và tính toán

các giá trị thống kê, chẳng hạn như tổng, trung bình, độ lệch chuẩn, tối đa, tối thiểucủa các giá trị trong từng nhóm con đó Kết quả sau khi được tổng sẽ được đặt trênhoặc dưới từng nhóm

- Bước 1: : Xác định cột muốn gom nhóm rồi sắp xếp dữ liệu

(Nếu là trường hợp Salesperson)

- Bước 2: Click chuột vào ô bất kỳ trên vùng dữ liệu hoặc chọn toàn bộ cơ sở dữ liệu

- Bước 3: Chọn Data → Outline → Subtotal, hộp thoại Subtotal sẽ xuất hiện

2.1.1.3 Hợp nhất dữ liệu với Consolidate

nhau, có cấu trúc tương tự hoặc khác nhau, vào một bảng tính chung.Consolidate

có thể hợp nhất dữ liệu theo 2 hình thức:

- Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc

- Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấutrúc

- Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất

Trang 9

- Bước 2: Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại Consolidate

2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable

trên các giá trị trong bảng tính Excel cung cấp công cụ PivotTable để tổng hợp vàphân tích dữ liệu với nhiều góc độ và nhiều cấp khác nhau Nguồn dữ liệu để tạoPivotTable có thể là một cơ sở dữ liệu của Excel hay từ nguồn dữ liệu bên ngoài(như MS Access, MS SQL Server,…)

- Bước 1: Chọn một ô bất kỳ trên vùng cơ sở dữ liệu

- Bước 2: Nhấn chọn Insert → sau đó chọn PivotTable

- Bước 3: Hộp thoại Create PivotTable sẽ xuất hiện, sau đó chọn nơi chứa PivotTable

và dữ liệu nguồn click nút ok

- Bước 4: Từ PivotTable Fields thực hiện drag các tên field vào 4 khu vực sau :FILTERS,VALUES, COLUMNS và ROWS

 Hiệu chỉnh PivotTable:

 Thay đổi tên Field:

- Khi thả các field vào vùng layout thì PivotTable sẽ tự tạo ra các nền màu đậm

- Tất cả các nội dung trong ô đều tạo tự động dựa trên nơi bố trí và

 Thay đổi phép tổng hợp dữ liệu:

- Nhấn mũi tên tên xổ xuống cạnh field cần định dạng trong khu vực Values

- Chọn Value Field Settings trong danh sách mở ra

- Chọn phương thức xử lý trong mục Summarize value field by

2.1.2 Phương pháp phân tích dự báo

2.1.2.1Trung bình trượt (Moving Average):

Chức năng: Moving Average giúp tính toán trung bình của một phạm vi cụ thể

hoặc tạo ra biểu đồ trung bình trượt dễ dàng

Loại trung bình trượt: Có 4 loại:

 Đường trung bình trượt gản đơn (SMA - Simple Moving Average)

 Đường trung bình trượt tuyến tính có trọng số (LWMA - Linearly WeightedMoving Average)

 Đường trung bình trượt số mũ (EMA - Exponential Moving Average)

 Đường trung bình trượt biến đổi (VMA)

Cách thực hiện:

 Bước 1: Chuẩn bị bảng số liệu cần dự báo

 Bước 2: Chọn lệnh Data → Data Analysis → Moving Average

 Bước 3: Hộp thoại Moving Average hiện ra Điền thông tin các ô tương ứng.Input Range - Dữ liệu đầu vào

Interval - Khoảng thời gian cần tính

Output Range - Dữ liệu đầu ra

2.1.2.2San bằng mũ (Exponential Smoothing):

Trang 10

Chức năng: Dự đoán dữ liệu gần nhất cộng với phần trăm chênh lệch giữa số

dự đoán và số thực tế ở thời điểm dự đoán và còn làm mịn theo cấp số nhân để nhận ranhững điểm bất thường

Cách thực hiện:

 Bước 1: Chuẩn bị bảng số liệu cần dự báo

 Bước 2: Chọn lện Data → Data Analysis → Exponential Smoothing

 Bước 3: Hộp thoại Moving Average hiện ra Điền thông tin các ô tương ứng.Input Range - Dữ liệu đầu vào

Output Range - Dữ liệu đầu ra

Damping Factor - Hệ số san bằng

Labels - Tiêu đề cho hàng/cột đầu tiên

2.1.2.3Hồi quy (Regression):

Chức năng: nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi

là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biếngiải thích)

Cách thực hiện:

 Bằng hàm:

Hàm Trend - Trả về giá trị dọc theo đường hồi quy (theo phương pháp bình phương bénhất)

Cú pháp: TREND(known_y’s, known_x’s, new_x’s, const)

Hàm Forecast - Dự báo giá trị tương lai căn cứ vào các giá trị hiện tại

Cú pháp: FORECAST(x, known_y’s, known_x’s)

Hàm Intercept - Dùng để tính hệ số a của phương trình hồi quy đơn tuyến tính

 Bước 1: Chuẩn bị số liệu cần dự đoán

 Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉchứa biến độc lập X

 Bước 3: Vẽ đồ thi dạng Scatter

 Bước 4: Click chuột phải vào data series, chọn Add Trendline

 Bước 5: Tuỳ chọn hiển thị trong Trendline Options

Linear: dạng đường thẳng

Display Equation on chart

Display R-squared value on chart

2.1.3 Phương pháp phân tích tối ưu

2.1.3.1 Khái niệm: Phương pháp phân tích tối ưu trong Excel là một công

cụ phân tích dữ liệu cho phép người dùng tìm kiếm giá trị tối ưu cho một số đầuvào nhất định với một số hệ thống ràng buộc nhất định Công cụ này có thể được

sử dụng để tối ưu hóa các vấn đề như chi phí vận chuyển, mô hình định lượngkinh tế, lập lịch công việc, tối ưu hoá quỹ đạo đầu tư, tìm kiếm giá trị tối ưu chomột hàm mục tiêu Phương pháp này sử dụng các công thức và bảng tính để tìmkiếm giá trị tối ưu và cung cấp kết quả phân tích một cách dễ hiểu Các công cụ

Trang 11

và tính năng liên quan đến phân tích tối ưu trong Excel bao gồm Solver Add-In

và công thức SUMPRODUCT

2.1.3.2 Công cụ: Để thực hiện phương pháp phân tích tối ưu trong Excel,

ta có thể tham khảo công cụ phân tích như Solver, Goal Seek và ScenarioManager, cùng với các phương pháp phân tích liên quan khác Bên cạnh đó,phân tích tối ưu trong Excel cần phải tập trung vào xử lý dữ liệu và phân tích kếtquả để đưa ra quyết định và giải quyết các vấn đề liên quan đến tối ưu hoá cácgiá trị

Ví dụ: Tối ưu hóa công thức tổng quan giá trị giải trình:

Giả sử rằng bạn đang làm việc với một tệp dữ liệu lớn và cần tìm cách tối ưucông thức tổng quan giá trị giải trình Bạn muốn tìm giá trị tối ưu cho mỗi biến

và giá trị tối ưu của công thức tổng quan

Bước 1: Khai báo biến:

Đầu tiên, bạn cần khai báo các biến trong bài toán của mình Ví dụ, chúng ta có

3 biến: A1, A2, và A3

Bước 2: Thiết lập hàm mục tiêu: Tiếp theo, bạn cần thiết lập hàm mục tiêu đểtìm giá trị tối ưu Ví dụ, bạn có thể sử dụng công thức tổng quan giá trị giải trìnhsau:

Tổng giá trị giải trình = A1 + A2 + A3 Bạn cần thiết lập công thức này trongmột ô như A4

Bước 3: Thiết lập ràng buộc Bạn cần thiết lập ràng buộc cho các biến Ví dụ, giả

sử rằng giá trị của mỗi biến phải nằm trong phạm vi từ 1 đến 10

Bước 4: Thực hiện tối ưu hóa

Sau khi đã thiết lập các ràng buộc và hàm mục tiêu trong Bước 2 và Bước 3, bạn

có thể đi đến Bước 4 để tìm giá trị tối ưu

2.1.3.3 Công cụ Solver trong Excel là một công cụ phổ biến để phân tích tối

ưu các bài toán có nhiều biến Dưới đây là một ví dụ về cách sử dụng công cụSolver trong Excel Ví dụ: Phương pháp phân tích tối ưu Solver trong Excel baogồm các bước sau:

1 Xác định mục tiêu và ràng buộc của bài toán tối ưu hóa

2 Tạo bảng tính Excel và nhập dữ liệu vào bảng tính

3 Thiết lập các ô trong bảng tính làm biến số

4 Thiết lập ô mục tiêu và các ô ràng buộc

Trang 12

5 Mở Solver bằng cách chọn tab Data trên thanh công cụ Excel, chọnSolver và nhập các thông tin cần thiết như ô mục tiêu, các ô biến số vàràng buộc.

6 Thiết lập các điều kiện tối ưu hóa khác như số lần lặp tối đa và độ chínhxác mong muốn

7 Chạy Solver để tìm kiếm giải pháp tối ưu cho bài toán

8 Kiểm tra kết quả và thực hiện các thay đổi nếu cần thiết

2.3 Phần mềm Orange

2.3.1 Mô tả

Phần mềm Orange là một công cụ phân tích dữ liệu mã nguồn mở được thiết kế đểgiúp các chuyên gia dữ liệu và nhà nghiên cứu phân tích dữ liệu dễ dàng hơn Nó cungcấp cho người dùng một giao diện đồ họa trực quan để thực hiện các tác vụ phân tích

dữ liệu phức tạp một cách nhanh chóng và dễ dàng Orange hỗ trợ nhiều loại phân tích

dữ liệu, bao gồm phân tích hồi quy, phân tích phân cụm, phân tích chuỗi thời gian vànhiều hơn nữa Nó cũng cho phép người dùng xây dựng các mô hình dự đoán và tươngtác với các bộ dữ liệu khác nhau Với tính linh hoạt và khả năng tùy chỉnh cao, Orange

là một công cụ mạnh mẽ để giúp người dùng khai thác giá trị từ các bộ dữ liệu của họ

2.3.2 Tính năng

2.3.2.1 Nhóm Data

Nhóm Data trong phần mềm Orange là một tính

năng quan trọng cho phép người dùng quản lý và xử lý

các bộ dữ liệu khác nhau Data dùng để biến đổi, rút

trích và nạp dữ liệu (ETL process), bao gồm:

chép, xóa và chuyển đổi các bộ dữ liệu trong

Trang 13

Nhóm Visualize trong phần mềm Orange là một tính năng quan trọng dùng đểbiểu diễn các biểu đồ (chart) giúp người dùng quan sát dữ liệu một cách trực quan vàtốt hơn Các tính năng chính của Nhóm Visualize bao gồm:

- Hiển thị dữ liệu: Người dùng có thể chọn các biểu đồ và đồ thị để hiển thị dữ

liệu của họ

- Tùy chỉnh biểu đồ: Người dùng có thể tùy chỉnh các biểu đồ và đồ thị của họ

bằng cách thay đổi màu sắc, kích thước, kiểu và các thuộc tính khác

- Phân tích dữ liệu: Nhóm Visualize cho phép người dùng phân tích dữ liệu của họ

bằng cách sử dụng các biểu đồ và đồ thị

2.3.2.3 Nhóm Model

Nhóm Model cho phép người dùng xây dựng và

đánh giá các mô hình dự đoán từ các bộ dữ liệu gồm các

hàm máy học (machine learning) phân lớp dữ liệu với

Tree, SVM, Logictis Regression, …

- Xây dựng mô hình: Người dùng có thể sử dụng

các tính năng của Nhóm Model để xây dựng các

mô hình dự đoán từ các bộ dữ liệu của họ

- Đánh giá mô hình: Nhóm Model cho phép người

dùng đánh giá hiệu suất của các mô hình dự đoán

bằng cách sử dụng các phương pháp đánh giá khác

nhau

- Tinh chỉnh tham số: Người dùng có thể tinh chỉnh các

tham số của các mô hình dự đoán để cải thiện hiệu suất

của chúng

2.3.2.4 Nhóm Evaluate

Nhóm Evaluate là các phương pháp dùng để đánh giá hiệu suất của các mô hình

dự đoán như : Test& Score, Prediction, Confusion,

- Đánh giá hiệu suất: Người dùng có thể

sử dụng các tính năng của Nhóm Evaluate

để đánh giá hiệu suất của các mô hình dự

đoán từ các bộ dữ liệu của họ

- Phân tích kết quả: Nhóm Evaluate cho

phép người dùng phân tích kết quả đánh

giá để hiểu rõ hơn về hiệu suất của các mô

hình

Trang 14

- So sánh mô hình: Người dùng có thể so sánh hiệu suất của các mô hình khác

nhau để tìm ra mô hình tốt nhất cho bộ dữ liệu của họ

2.3.2.5 Nhóm Unsupervised

Nhóm Unsupervised cho phép người dùng khám phá và phân tích các bộ dữliệu mà không cần có các nhãn đầu vào Bao gồm các hàm máy học (machinelearing) gom nhóm dữ liệu như: K-means,

Distance,…

- Phân tích cụm: Người dùng có thể sử

dụng các tính năng của Nhóm

Unsupervised để phân tích cụm của các

đối tượng trong bộ dữ liệu của họ

- Giảm chiều dữ liệu: Nhóm

Unsupervised cho phép người dùng giảm

số chiều của các bộ dữ liệu để dễ dàng

khám phá và trực quan hóa

- Tìm kiếm mẫu: Người dùng có thể sử

dụng các tính năng của Nhóm

Unsupervised để tìm kiếm các mẫu tiềm

năng trong bộ dữ liệu của họ

1.2.6 Nhóm Educational

Nhóm Educational cho phép người dùng học và nghiên cứu các thuật toán vàphương pháp phân tích dữ liệu

- Hướng dẫn: Nhóm Educational cung cấp các hướng dẫn chi tiết về các thuật

toán và phương pháp phân tích dữ liệu, giúp người dùng hiểu rõ hơn về chúng

- Bài tập: Nhóm Educational cung cấp các bài tập để người dùng có thể thực

hành và áp dụng kiến thức của mình vào các ví dụ thực tế

- Tài liệu: Nhóm Educational cung cấp tài liệu tham khảo để người dùng có

thể tìm hiểu sâu hơn về các thuật toán và phương pháp phân tích dữ liệu

- Trực quan hóa: Các tính năng của Nhóm Educational có thể được trực quan

hóa để giúp người dùng hiểu rõ hơn về các khái niệm và kết quả

- Hỗ trợ: Nhóm Educational cung cấp hỗ trợ cho người dùng khi gặp khó

khăn trong việc hiểu các thuật toán và phương pháp phân tích dữ liệu

2.3 Phương pháp phân lớp dữ liệu

2.3.1 Bài toán phân lớp dữ liệu

Trang 15

2.3.1.1 Giới thiệu phân lớp dữ liệu

a Định nghĩa:

“Phân lớp dữ liệu là phân một đối tượng dữ liệu vào một hoặc nhiều lớp (loại) đã chonhờ một mô hình phân lớp Mô hình này được huấn luyện dựa trên một tập dữ liệu đãđược gán nhãn trước đó (thuộc về lớp nào) Quá trình gán nhãn (phân chia lớp) cho đốitượng dữ liệu chính là quá trình phân lớp dữ liệu.”

b Quá trình phân lớp dữ liệu:

“Quá trình phân lớp dữ liệu gồm 2 bước chính:

Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)

 Dữ liệu đầu vào: là dữ liệu mẫu đã được xử lý trước và dán nhãn

 Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập toán

 Kết quả của bước này chính là mô hình phân lớp (trình phân lớp)

Bước 2: Sử dụng mô hình được tách thành 2 bước:

- Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

 Dữ liệu đầu vào: là tập dữ liệu mẫu khác đã được xử lý trước và dán nhãn

 Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gánnhãn của dữ liệu đầu vào và kết quả của mô hình phân lớp

- Phân lớp dữ liệu mới

 Dữ liệu đầu vào: là dữ liệu “khuyết" thuộc tính cần dự đoán lớp

 Mô hình sẽ tự động phân lớp cho các đối tượng dữ liệu này dựa vào dữ liệubước 1

Ngày đăng: 16/06/2024, 15:18

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w