Hiểu biết về khoa học dữ liệu
Khoa học dữ liệu hiện đang ở đỉnh cao của sự phát triển, với yêu cầu ngày càng cao về kỹ năng xử lý dữ liệu Các nhà khoa học dữ liệu không chỉ cần xây dựng các mô hình mà còn phải biết cách giải thích và ứng dụng kết quả để thúc đẩy các quyết định kinh doanh thông minh.
Khoa học dữ liệu là một lĩnh vực đa ngành kết hợp kiến thức từ khoa học máy tính, thống kê và toán học Quy trình phân tích dữ liệu bao gồm nhiều giai đoạn quan trọng như yêu cầu dữ liệu, thu thập, xử lý, làm sạch, phân tích khám phá, mô hình hóa, thuật toán, và cuối cùng là sản phẩm dữ liệu cùng với việc truyền đạt thông tin Những giai đoạn này tương tự như quy trình tiêu chuẩn công nghiệp CRISP-DM trong khai thác dữ liệu.
Các giai đoạn của Phân tích Dữ liệu Khám phá (EDA) là một yếu tố quan trọng trong quá trình phân tích và khai thác dữ liệu Việc nắm vững các giai đoạn này giúp nâng cao hiệu quả trong việc hiểu và xử lý dữ liệu.
•Các giai đoạn của Phân tích dữ liệu:
Yêu cầu dữ liệu là quy trình thu thập, đo lường và phân tích thông tin chính xác cho nghiên cứu thông qua các kỹ thuật tiêu chuẩn đã được xác thực Nhà nghiên cứu sử dụng dữ liệu thu thập được để đánh giá giả thuyết của mình Trong hầu hết các trường hợp, thu thập dữ liệu là bước quan trọng nhất trong nghiên cứu, không phân biệt lĩnh vực Phương pháp thu thập dữ liệu sẽ khác nhau tùy thuộc vào lĩnh vực nghiên cứu và thông tin cần thiết.
Thu thập dữ liệu là bước đầu tiên trong quá trình xử lý dữ liệu, nơi thông tin được chuyển đổi thành dạng có thể sử dụng Quá trình này thường do các nhà khoa học dữ liệu thực hiện, và việc xử lý dữ liệu cần được thực hiện một cách chính xác để đảm bảo không ảnh hưởng tiêu cực đến chất lượng sản phẩm cuối cùng hoặc kết quả đầu ra.
Quá trình xử lý dữ liệu bắt đầu từ dữ liệu thô và chuyển đổi nó thành định dạng dễ đọc hơn như đồ thị hoặc tài liệu Điều này tạo ra hình thức và ngữ cảnh cần thiết để máy tính có thể diễn giải và nhân viên trong tổ chức có thể sử dụng hiệu quả.
Xử lý dữ liệu là quá trình chuyển đổi dữ liệu thô thành thông tin có thể sử dụng, thường do một hoặc nhóm nhà khoa học dữ liệu thực hiện Việc xử lý dữ liệu cần được thực hiện một cách chính xác để đảm bảo không ảnh hưởng tiêu cực đến sản phẩm cuối cùng Quá trình này bắt đầu từ dữ liệu ở dạng thô và biến đổi nó thành định dạng dễ đọc hơn như đồ thị hoặc tài liệu, nhằm tạo ra ngữ cảnh cần thiết cho máy tính và người dùng trong tổ chức.
Làm sạch dữ liệu là một bước quan trọng trước khi tiến hành phân tích chi tiết, nhằm sửa chữa hoặc loại bỏ dữ liệu không chính xác, bị hỏng, định dạng sai, trùng lặp hoặc không đầy đủ Khi kết hợp nhiều nguồn dữ liệu, nguy cơ xảy ra sự trùng lặp hoặc gán nhãn sai là rất cao, dẫn đến kết quả và thuật toán không đáng tin cậy Mặc dù không có quy trình làm sạch dữ liệu nào là tuyệt đối, việc thiết lập một khuôn mẫu cho quy trình này là cần thiết để đảm bảo tính chính xác và hiệu quả trong phân tích dữ liệu.
Phân tích dữ liệu và khám phá (EDA - Exploratory Data Analysis) là giai đoạn quan trọng giúp chúng ta hiểu rõ thông điệp tiềm ẩn trong dữ liệu Trong quá trình này, có thể cần áp dụng một số kỹ thuật chuyển đổi dữ liệu để tối ưu hóa việc thăm dò Để thực hiện EDA hiệu quả, kiến thức vững về thống kê, đặc biệt là thống kê mô tả, là rất cần thiết.
Mô hình hóa và thuật toán trong khoa học dữ liệu sử dụng các mô hình tổng quát và công thức toán học để thể hiện mối quan hệ giữa các biến, bao gồm cả mối tương quan và quan hệ nhân quả Những mô hình này liên quan đến một hoặc nhiều biến phụ thuộc vào các biến khác, nhằm giải thích và dự đoán sự kiện xảy ra.
Sản phẩm dữ liệu là phần mềm máy tính sử dụng dữ liệu đầu vào để tạo ra đầu ra và cung cấp phản hồi nhằm kiểm soát môi trường Những sản phẩm này thường dựa trên các mô hình được phát triển thông qua quá trình phân tích dữ liệu.
Giai đoạn truyền thông trong quy trình phân tích dữ liệu tập trung vào việc phổ biến kết quả để các bên liên quan có thể áp dụng cho hoạt động kinh doanh thông minh Một yếu tố quan trọng trong giai đoạn này là trực quan hóa dữ liệu, bao gồm việc sử dụng các kỹ thuật như bảng, biểu đồ, sơ đồ tóm tắt và biểu đồ thanh để hiển thị các kết quả đã được phân tích một cách rõ ràng và dễ hiểu.
Tầm quan trọng của EDA
Các lĩnh vực khoa học, kinh tế, kỹ thuật và tiếp thị tích lũy dữ liệu chủ yếu trong cơ sở dữ liệu điện tử, và việc ra quyết định dựa trên dữ liệu thu thập là rất quan trọng Để hiểu bộ dữ liệu lớn, cần có sự hỗ trợ từ các chương trình máy tính Nghiên cứu phân tích dữ liệu là bước đầu tiên trong khai thác dữ liệu, giúp hình dung và hiểu rõ dữ liệu, đồng thời tạo ra các giả thuyết cho phân tích sâu hơn Quá trình này tập trung vào việc tóm tắt dữ liệu và cung cấp thông tin chi tiết cho các bước tiếp theo trong dự án khai thác dữ liệu.
Phân tích khám phá dữ liệu (EDA) tiết lộ những sự thật cốt lõi về nội dung mà không dựa vào giả định nào Các nhà khoa học dữ liệu áp dụng EDA để hiểu rõ hơn về các mô hình và giả thuyết có thể hình thành Các thành phần chính của EDA bao gồm tổng hợp dữ liệu, phân tích thống kê và trực quan hóa dữ liệu Python cung cấp những công cụ mạnh mẽ cho việc phân tích, khám phá, khai thác dữ liệu, xử lý và mô hình hóa, cũng như trực quan hóa dữ liệu hiệu quả.
Các giai đoạn trong EDA
Sau khi tìm hiểu EDA là gì và tầm quan trọng của nó, chúng ta cần nắm rõ các bước tham gia vào phân tích dữ liệu, bao gồm bốn bước cơ bản khác nhau.
– Định nghĩa về vấn đề (Problem definition):
Trước khi trích xuất thông tin từ dữ liệu, cần xác định rõ vấn đề kinh doanh cần giải quyết Việc định nghĩa vấn đề hoạt động và động lực thực hiện kế hoạch phân tích dữ liệu là rất quan trọng.
Các nhiệm vụ chính trong việc định nghĩa vấn đề bao gồm xác định mục tiêu phân tích, nhận diện các sản phẩm chính, phân công vai trò và trách nhiệm, thu thập trạng thái hiện tại của dữ liệu, thiết lập thời gian biểu và thực hiện phân tích lợi ích chi phí Từ đó, kế hoạch có thể được hoàn thiện dựa trên định nghĩa vấn đề đã được xác lập.
– Chuẩn bị dữ liệu (Data preparation):
Bước chuẩn bị dữ liệu phân tích thực tế bao gồm việc xác định nguồn dữ liệu, lược đồ dữ liệu và bảng, cũng như hiểu các đặc điểm chính của dữ liệu Quá trình này bao gồm làm sạch dữ liệu, loại bỏ các phần không liên quan, chuyển đổi dữ liệu và chia nhỏ dữ liệu thành các khối cần thiết để phục vụ cho phân tích hiệu quả.
– Phân tích dữ liệu (Data analysis):
Thống kê mô tả và phân tích dữ liệu là bước quan trọng trong nghiên cứu, bao gồm việc tóm tắt thông tin, khám phá mối tương quan và mối quan hệ giữa các dữ liệu Ngoài ra, quá trình này còn liên quan đến việc phát triển và đánh giá các mô hình dự đoán cũng như tính toán độ chính xác của chúng.
Một số kỹ thuật phổ biến để tóm tắt dữ liệu bao gồm bảng tóm tắt, đồ thị, thống kê mô tả, thống kê suy luận, thống kê tương quan, tìm kiếm, phân nhóm và các mô hình toán học.
– Phát triển và trình bày kết quả (Development and representation of the results):
Bước này liên quan đến việc trình bày dữ liệu cho đối tượng mục tiêu thông qua biểu đồ, bảng tóm tắt, bản đồ và sơ đồ Đây là một bước quan trọng, vì các kết quả phân tích từ dữ liệu cần phải được các bên liên quan trong doanh nghiệp hiểu rõ Điều này cũng là một trong những mục tiêu chính của phân tích khám phá dữ liệu (EDA).
Các kỹ thuật phân tích đồ họa chủ yếu bao gồm biểu đồ phân tán, biểu đồ ký tự, biểu đồ, ô hộp, ô còn lại và ô trung bình, cùng với nhiều loại biểu đồ khác.
Ý nghĩa của dữ liệu
Dữ liệu số (Numerical data)
Dữ liệu số, hay còn gọi là dữ liệu định lượng, là dạng dữ liệu được biểu diễn bằng số mà không sử dụng ngôn ngữ hay mô tả Dữ liệu này thường được thu thập dưới dạng số và có khả năng được tính toán thống kê và số học, giúp phân tích và xử lý thông tin một cách hiệu quả.
Dữ liệu số có đặc điểm là được thao tác theo số học, điều này giúp nó trở thành một bộ dữ liệu lý tưởng cho việc phân tích thống kê.
Dữ liệu số có hai dạng chính: dữ liệu rời rạc và dữ liệu liên tục Cả hai loại dữ liệu này đóng vai trò quan trọng trong thống kê và nghiên cứu, và chúng đã được chứng minh là cung cấp thông tin chính xác nhất thông qua các phương pháp nghiên cứu.
– Dữ liệu rời rạc (Discrete data):
Dữ liệu rời rạc là loại dữ liệu có thể đếm được, với các giá trị có thể được liệt kê Nó bao gồm cả dạng số và phân loại, cho phép nhóm chúng vào một danh sách Danh sách này có thể là hữu hạn hoặc vô hạn.
Biến rời rạc là một loại biến thể hiện bộ dữ liệu không liên tục, với một số lượng giá trị riêng biệt và không có thứ tự tự nhiên Ví dụ, biến quốc gia có thể bao gồm các giá trị như Việt Nam, Nhật Bản, Thụy Điển, và các giá trị này là cố định.
*Trong hầu hết các thực tiễn, dữ liệu rời rạc được hiển thị theo đồ thị thanh, biểu đồ thân và lá; biểu đồ hình tròn.
– Dữ liệu liên tục (Continuous data):
*Một biến có thể có vô hạn các giá trị số trong phạm vi cụ thể được phân loại là dữ liệu liên tục.
Biến mô tả dữ liệu liên tục là những biến có giá trị không giới hạn và có thể nằm trong một khoảng liên tục Ví dụ điển hình bao gồm nhiệt độ trong ngày, chiều cao và cân nặng, tất cả đều không thể liệt kê hết các giá trị có thể.
Dữ liệu liên tục được phân loại thành hai loại chính: dữ liệu khoảng (Interval) và dữ liệu tỷ lệ (Ratio) Dữ liệu khoảng là loại dữ liệu có thể đo lường trên thang điểm với các khoảng cách bằng nhau, chẳng hạn như nhiệt độ cơ thể, được đo bằng độ Celsius hoặc Fahrenheit.
C và độ Fahrenheit và cả hai đều có thể là 0. ãDữ liệu tỷ lệ (Ratio data): khụng giống như dữ liệu khoảng, dữ liệu tỷ lệ không có điểm 0.
Dữ liệu phân loại (Categorical data)
Dữ liệu này thể hiện các đặc điểm của một đối tượng, chẳng hạn như giới tính, tình trạng hôn nhân, thể loại phim, nhóm máu hoặc các loại thuốc Trong thống kê, loại dữ liệu này thường được gọi là bộ dữ liệu định tính.
Một biến mô ta dữ liệu phân loại được gọi là biến phân loại, và chúng có thể có một số lượng giá trị hạn chế Có nhiều loại biến phân loại khác nhau.
Figure 1.1: Bảng so sánh giữa biến rời rạc và biến liên tục
Biến phân loại nhị phân, còn được gọi là biến phân đôi, chỉ có hai giá trị chính xác Ví dụ, trong một thí nghiệm, kết quả có thể là thành công hoặc thất bại, do đó, kết quả này được xem là một biến phân loại nhị phân.
Biến đa dạng là các biến phân loại với nhiều hơn hai giá trị, chẳng hạn như thể loại phim Các thể loại phim có thể bao gồm hành động, lãng mạn, phiêu lưu, khoa học viễn tưởng, lịch sử, kinh dị, hài kịch và triết học.
•Hầu hết các bộ dữ liệu phân loại theo quy mô đo lường danh nghĩa (nominal) hoặc thứ tự (ordinal).
Quy mô đo (Measurement scales)
Quy mô đo theo danh nghĩa, hay còn gọi là quy mô định tính, sử dụng các phép đo để thu thập dữ liệu định tính Tuy nhiên, sự phát triển trong nghiên cứu định tính đã dẫn đến sự nhầm lẫn về cách hiểu các biện pháp này Đáng lưu ý, không có phép toán số học nào có thể áp dụng cho các biện pháp đo lường danh nghĩa.
Nếu dữ liệu của bạn thuộc thang đo danh nghĩa, bạn có thể sử dụng biểu đồ hình tròn hoặc biểu đồ thanh để trực quan hóa Hiểu rõ loại dữ liệu này sẽ giúp bạn xác định các phép tính có thể thực hiện, lựa chọn mô hình phù hợp với bộ dữ liệu và tạo ra hình ảnh trực quan hiệu quả.
Sự khác biệt chính giữa quy mô đo theo thứ tự và quy mô đo danh nghĩa nằm ở yếu tố thứ tự Trong quy mô đo thứ tự, thứ tự của các giá trị đóng vai trò quan trọng, ảnh hưởng đến cách mà dữ liệu được phân tích và hiểu.
Thang đo thứ tự là một loại dữ liệu thống kê, trong đó các biến được sắp xếp theo thứ tự hoặc cấp bậc, nhưng không có sự khác biệt về mức độ giữa các loại.
Thang đo Likert và thang đo thứ tự là những công cụ hữu ích để đo lường các khía cạnh như tần suất, mức độ quan trọng, sự hài lòng, khả năng xảy ra, chất lượng và trải nghiệm.
So sánh phân tích khám phá dữ liệu với phân tích dữ liệu cổ điển và phân tích dữ liệu suy luận Bayes
Figure 1.2: So sánh giữa phân tích khám phá dữ liệu với cổ điển và suy luận Bayes
Thống kê mô tả
Đo lường xu hướng trung tâm (Measures of central tendency) 15
Các biến dữ liệu có thể có hàng nghìn giá trị khác nhau, và để khám phá dữ liệu, việc xác định "giá trị điển hình" cho mỗi biến là rất quan trọng Giá trị điển hình này cung cấp ước lượng về vị trí của phần lớn dữ liệu, phản ánh xu hướng trung tâm Một số phương pháp phổ biến để đo lường xu hướng trung tâm bao gồm giá trị trung bình, giá trị trung vị và yếu vị.
Giá trị trung bình là một ước lượng cơ bản trong việc đo lường xu hướng trung tâm Về mặt toán học, nó được tính bằng cách lấy tổng của tất cả các giá trị và chia cho số lượng giá trị đó.
Figure 1.3: Giá trị trung bình trong một phân bố xác suất.
Giá trị trung vị là một chỉ số thống kê quan trọng, được xác định từ một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần hoặc giảm dần Nó có chức năng chia dữ liệu thành hai phần bằng nhau, giúp người dùng hiểu rõ hơn về phân bố của dữ liệu Công thức tính giá trị trung vị rất đơn giản và dễ áp dụng.
+ Nếu n(số mẫu) là lẻ, giá trị trung vị là giá trị phần tử thứ n+ 2 1
+ Nếu n là chẳn, giá trị trung vị là giá trị trung bình của 2 phần tử thứ n 2 và n + 2 2
Yếu vị: là giá trị có tần suất xuất hiện cao nhất trong tập dữ liệu.
Một trong những thách thức với yếu vị là sự không độc nhất của nó, dẫn đến khó khăn khi có hai hoặc nhiều giá trị có tần số cao nhất giống nhau.
Hiện nay, chúng ta gặp khó khăn trong việc xác định yếu vị nào phản ánh chính xác xu hướng trung tâm của dữ liệu, đặc biệt là khi làm việc với dữ liệu liên tục Trong trường hợp này, khả năng xuất hiện của các giá trị giống nhau là rất thấp Chẳng hạn, khi đo cân nặng của 30 người với độ chính xác 0,1 kg, việc tìm thấy hai người có cùng trọng lượng chính xác là điều rất hiếm gặp, ví dụ như 67,4 kg.
Figure 1.4: Giá trị trung vị trong một phân bố xác suất.
Figure 1.5: Yếu vị trong một phân bố xác suất.
Figure 1.6: 2 yếu vị trong một phân bố xác suất. Đây là lý do tại sao yếu vị rất hiếm khi được sử dụng với dữ liệu liên tục.
Cái nào tốt hơn, giá trị trung bình hay giá trị trung vị hay yếu vị?
Không có thước đo nào về bản chất là “tốt hơn” cái kia, mà mỗi thước đo cung cấp thông tin khác nhau về xu hướng trung tâm của một phân phối Khi phân tích tập dữ liệu, việc xem xét tất cả các thước đo của xu hướng trung tâm là cần thiết để có cái nhìn toàn diện về dữ liệu Trong trường hợp phân phối lệch, giá trị trung vị thường là lựa chọn tốt hơn Chẳng hạn, trong thị trường bất động sản, giá nhà thường lệch về bên phải, với một số giá cao bất thường có thể ảnh hưởng lớn đến giá trị trung bình, vì vậy giá trị trung vị sẽ phản ánh chính xác hơn giá của một ngôi nhà "thông thường".
Khi đánh giá sự phát triển kinh tế của hai quốc gia, giá trị trung bình, cụ thể là GDP bình quân đầu người, là một chỉ số hiệu quả hơn so với giá trị trung vị Điều này bởi vì GDP bình quân đầu người không chỉ phản ánh sức mạnh kinh tế trung bình của mỗi cá nhân mà còn cung cấp thông tin sâu sắc về tổng GDP của quốc gia.
Yếu vị thì đặt biệt tốt đối với các biến của dữ liệu phân loại, mà nó cho chúng ta biết danh mục nào là phổ biến nhất.
Figure 1.7: Phân phối của giá nhà
Thước đo phân tán (Meansures of dispersion)
Thống kê mô tả thứ hai, hay còn gọi là thước đo phân tán, là công cụ quan trọng để mô tả sự biến đổi trong một tập dữ liệu, bao gồm cả mẫu và tổng thể Thước đo này thường được sử dụng kết hợp với thước đo xu hướng trung tâm để cung cấp cái nhìn tổng quát về bộ dữ liệu Nó giúp chúng ta hiểu rõ hơn về mức độ đại diện của xu hướng trung tâm đối với dữ liệu Đặc biệt, trong các trường hợp có sự biến đổi lớn, trung bình có thể không phản ánh chính xác dữ liệu, do đó thước đo phân tán trở thành công cụ hiệu quả hơn để thể hiện sự thay đổi trong bộ dữ liệu.
Độ lệch chuẩn là chỉ số đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình Cụ thể, nó thể hiện sự khác biệt trung bình giữa từng giá trị trong bộ dữ liệu và giá trị trung bình của chúng Khi độ lệch chuẩn thấp, các điểm dữ liệu thường gần gũi với giá trị trung bình, ngược lại, độ lệch chuẩn cao cho thấy dữ liệu trải rộng trên một khoảng giá trị rộng hơn.
Phương sai là một chỉ số thống kê quan trọng, được tính bằng bình phương trung bình của sự khác biệt giữa từng giá trị trong bộ dữ liệu và giá trị trung bình Nói cách khác, phương sai chính là bình phương của độ lệch chuẩn, giúp đánh giá mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
Độ xiên (Skewness) là một chỉ số trong lý thuyết xác suất và thống kê, dùng để đo lường mức độ bất đối xứng của biến trong bộ dữ liệu Giá trị độ xiên có thể dương, âm hoặc không xác định, giúp chúng ta hiểu rõ hơn về phân phối của dữ liệu.
Hình 1.9 minh họa sự phân bố của phương sai dữ liệu, cho thấy các dạng dữ liệu khác nhau như sai lệch dương, đối xứng và sai lệch âm Trong hình, bạn có thể thấy rõ sự khác biệt giữa các loại dữ liệu này, giúp hiểu rõ hơn về tính chất của chúng trong phân tích thống kê.
Biểu đồ bên phải cho thấy phần đuôi dài hơn ở phía bên trái, cho thấy sự phân phối dữ liệu bị lệch sang trái Khi chọn bất kỳ điểm nào trong đuôi dài bên trái, giá trị trung bình sẽ nhỏ hơn số yếu vị, điều này được gọi là độ xiên âm.
Biểu đồ bên trái cho thấy phần đuôi dài hơn ở phía bên phải, cho thấy rằng nếu chọn bất kỳ điểm nào ở đuôi bên phải, giá trị trung bình sẽ lớn hơn số yếu vị Tình huống này được gọi là độ xiên dương.
–Biểu đồ ở giữa có đuôi bên phải giống với đuôi bên trái Điều kiện này được gọi là điều kiện đối xứng.
Độ nhọn là thước đo thống kê phản ánh độ "béo" của phần đuôi phân phối so với phân phối chuẩn, giúp xác định sự hiện diện của các giá trị cực trị Trong khi độ xiên đo lường tính đối xứng của phân phối, độ nhọn lại tập trung vào mức độ nặng nề của các đuôi Độ nhọn không liên quan đến đỉnh hay độ phẳng mà chỉ ra sự hiện diện của các ngoại lệ trong phân phối Cả độ nhọn cao và thấp đều là chỉ báo cho thấy dữ liệu cần được xem xét kỹ lưỡng hơn, với độ nhọn cao tương ứng với số lượng giá trị ngoại lai lớn hơn.
–Các kiểu của Độ nhọn: Độ nhọn có 3 kiểu chính là: mesokurtic, leptokurtic và platykurtic.
*Mesokurtic: Nếu bất kỳ bộ dữ liệu nào tuân theo một phân phối chuẩn, nó tuân theo phân phối Mesokurtic Nó có Độ nhọn bằng 0.
*Leptokurtic: Trong trường hợp này, phân phối có Độ nhọn lớn hơn 3 và các đuôi "béo" chỉ ra rằng phân phối tạo ra nhiều ngoại lệ hơn.
*Platykurtic: Trong trường hợp này, phân phối có Độ nhọn âm và đuôi rất mỏng so với phân phối bình thường.
Trong thống kê, phân vị thứ k là giá trị mà dưới đó có k phần trăm số liệu trong phân phối tần số Cụ thể, phân vị thứ 50, hay còn gọi là trung vị, là điểm mà 50% số liệu có giá trị bằng hoặc thấp hơn.
–Công thức tính bách phân vị của X = (Số giá trị bé hơn X)÷(Tổng số quan sát)×100
–Giả sử chúng ta có dữ liệu đã cho: 1, 2, 2, 3, 4, 5, 6, 7, 7, 8, 9, 10 Khi đó, phân vị của 4 = 12 4 ×1003, 33% Điều này đơn giản có nghĩa là 33,33% dữ liệu nhỏ hơn 4.
–Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu.
Tứ phân vị bao gồm ba giá trị: tứ phân vị thứ nhất (Q1), tứ phân vị thứ nhì (Q2) và tứ phân vị thứ ba (Q3), dùng để chia một tập hợp dữ liệu đã được sắp xếp theo thứ tự từ bé đến lớn thành bốn phần có số lượng quan sát bằng nhau Trong đó, tứ phân vị thứ nhì (Q2) tương ứng với giá trị trung vị, tứ phân vị thứ nhất (Q1) là trung vị của phần dữ liệu phía dưới, và tứ phân vị thứ ba (Q3) là trung vị của phần dữ liệu phía trên.
Tập dữ liệu ví dụ gồm các số 5, 7, 9, 14, 25, 34, 48 đã được sắp xếp theo thứ tự tăng dần Giá trị trung vị của toàn bộ tập dữ liệu là 14, trong khi trung vị của phần dưới (5, 7, 9) là 7 và trung vị của phần trên (25, 34, 48) là 34 Do đó, các giá trị Q1, Q2 và Q3 lần lượt là 7, 14 và 34.
Chuẩn bị dữ liệu
Vào năm 2012, Microsoft đã ra mắt cơ sở dữ liệu minh họa mang tên AdventureWorks, được sử dụng trong báo cáo này để thực hành phân tích khám phá dữ liệu.
Cơ sở dữ liệu AdventureWorks mô phỏng một công ty hư cấu mang tên Adventure Works Cycles, chuyên sản xuất và kinh doanh xe đạp từ kim loại và vật liệu tổng hợp Với quy mô lớn và thị trường trải dài ở Bắc Mỹ, Châu Âu và Châu Úc, công ty có trụ sở chính tại Bothell, Washington, với 290 nhân viên và các nhóm kinh doanh khu vực Adventure Works Cycles đang nỗ lực mở rộng thị phần bằng cách tập trung vào khách hàng quan trọng, nâng cao thông tin sản phẩm qua website, và giảm chi phí bán hàng bằng cách giảm sản lượng các sản phẩm không thiết yếu.
Đặt câu hỏi
Với vai trò là chuyên gia phân tích dữ liệu cấp cao tại AdventureWorks, doanh nghiệp đồ thể thao mạo hiểm toàn cầu, chúng tôi đang phát triển chiến lược kinh doanh cho giai đoạn 2021-2025 Dựa trên bộ dữ liệu được cung cấp, chúng tôi cần phân tích và trả lời một số câu hỏi quan trọng để định hướng cho các quyết định chiến lược trong tương lai.
→Khách hàng mà chúng ta cần nhắm đến là ai?
→Thị trường tiêu thụ chính của chúng ta nằm ở đâu?
→Sản phẩm nào là sản phẩm cần được đẩy mạnh hoặc cắt giảm sản xuất?
→Chúng ta đang tiếp thị sản phẩm như thế nào? Liệu có cần thay đổi chiến lược tiếp thị hay không? Nếu có thì thay đổi như thế nào?
Figure 2.1: Tổng quan về dữ liệu
Phân tích theo khách hàng
Phương diện mua hàng
Figure 2.2: Số lượng khách hàng qua các năm
•Hầu hết khách hàng mua ở năm 2017 đều không quay lại mua ở năm 2018.
•Tuy nhiên, phần lớn khách hàng mua ở 2 năm 2017, 2018 quay lại mua hàng ở năm 2019.
Thu nhập của khách hàng
Khách hàng với thu nhập trung bình chiếm tỷ lệ lớn trong tổng số khách hàng của công ty, trong khi đó, chỉ có 8.8% khách hàng có thu nhập trên 100.000 USD.
Figure 2.3: Phần trăm thu nhập của khách hàng
Figure 2.4: Doanh thu theo nhóm thu nhập
Độ tuổi của khách hàng
Khách hàng chủ yếu của công ty nằm trong độ tuổi từ 34 đến 70, tuy nhiên, công ty đang bỏ lỡ một nhóm khách hàng quan trọng dưới 34 tuổi, trong khi nhóm này có nhu cầu thể thao rất lớn.
Figure 2.5: Phần trăm tuổi của khách hàng
Phân tích theo chuỗi thời gian
Doanh thu và số đơn đặt hàng trung bình theo tháng trong năm 27
•Doanh thu, số đơn đặt hàng ở tháng 1 là thấp nhất, và thấp hơn nhiều so với các tháng còn lại.
•Doanh thu, số đơn đặt hàng ở tháng 6 tăng mạnh so với tháng 5, tháng 7.
•Nhìn chung doanh thu, số đơn đặt hàng có xu hướng tăng dần từ đầu năm đến cuối năm, sau đó lại đột ngột giảm mạnh ở tháng 1.
Figure 2.6: Doanh thu trung bình theo tháng trong năm
Figure 2.7: Số đơn hàng trung bình theo tháng trong năm
Những sản phẩm xe đạp, phụ kiện bán chạy nhất qua mỗi năm 30
Figure 2.8: Số lượng bán được của mỗi loại xe đạp qua các năm
Xe đạp đường bộ hiện đang dẫn đầu về số lượng bán ra, nhưng xu hướng thị trường cho thấy xe đạp leo núi có tiềm năng mang lại lợi nhuận cao hơn.
•Vì vậy ta nên đẩy mạnh việc bán những mẫu xe thuộc dòng Xe đạp leo núi(Mountain Bikes).
•Lốp và săm xe đạp(Tires and Tubes) bán chạy nhất đồng thời mang lại lợi nhuận lớn nhất trong các dòng phụ kiện.
•Ngoài ra, Mũ bảo hiểm(Helmets) có biên lợi nhuận ròng rất lớn Cần được thúc đẩy nhiều hơn nữa.
•Nhìn chung, các mặt hàng phụ kiến bán được rất nhiều sản phẩm Nhưng lợi nhuận mang lại không đáng kể so với việc bán xe đạp.
•Vì vậy, chúng ta cần ưu tiên tập trung vào mảng bán xe đạp.
Figure 2.9: Lợi nhuận ròng của mỗi loại xe đạp qua các năm
Phân tích việc bán hàng xe đạp theo mùa
•Giai đoạn trước tháng 6 năm 2018, sản lượng cũng như lợi nhuận chủ yếu đến từ dòng Xe đạp đường bộ (Road Bikes).
Đến năm 2020, lợi nhuận từ dòng xe đạp leo núi (Mountain Bikes) đã tăng mạnh, với con số vào cuối năm 2019 gấp gần 2 lần so với lợi nhuận từ xe đạp đường bộ (Road Bikes).
Xe đạp du lịch (Touring Bikes) là một dòng sản phẩm tiềm năng, mang lại lợi nhuận ròng lớn Mặc dù mới được giới thiệu vào cuối năm 2018, nhưng thị trường xe đạp du lịch đang có xu hướng phát triển nhanh chóng.
Figure 2.10: Số lượng bán được của mỗi loại phụ kiện qua các năm
Figure 2.11: Lợi nhuận ròng của mỗi loại phụ kiện qua các năm
Figure 2.12: Số lượng bán được của mỗi loại xe đạp qua các tháng
Figure 2.13: Lợi nhuận của mỗi loại xe đạp qua các tháng
Phân tích theo khu vực địa lý
Figure 2.14: Tổng doanh thu bán hàng của mỗi quốc gia
•Doanh thu ở Hoa Kỳ là cao nhất (hơn 20 nghìn đơn hàng được bán ra).
•Các nước ở Châu Âu có doanh thu thấp hơn so với Hoa Kỳ và Úc.
•Canada có doanh thu thấp nhất trong tất cả cả quốc gia
•Ở Úc, Xe đạp đường bộ(Road Bikes) có số lượng bán ra vượt trội hơn so với Xe đạp leo núi(Mountain Bikes).
Tại Úc, xe đạp leo núi và xe đạp du lịch có giá thấp hơn so với Hoa Kỳ, trong khi đó, xe đạp đương bộ lại có giá cao hơn.
•Những khách hàng ở Úc nằm ở trình độ Cử nhân là chiếm số lượng lớn nhất.
Figure 2.15: Số lượng xe đạp bán được của mỗi quốc gia
Figure 2.16: Trình độ giáo dục của khách hàng ở mỗi quốc gia
Figure 2.17: Số lượng và phần trăm đơn hàng của các chiến dịch khuyến mãi
Phân tích theo khuyến mãi
Trong tổng số đơn hàng, khách hàng mua hàng không có khuyến mãi chiếm ưu thế với 58,247 đơn, tương đương 96.4% Các chiến dịch khuyến mãi khác như Volume Discount 11 to 14, Touring -3000 Promotion và Touring -1000 Promotion chỉ chiếm chưa đến 4% tổng số đơn hàng.
Figure 2.18: Doanh thu và phần trăm doanh thu của các chiến dịch khuyến mãi
•Chiến dịch Volume Discount 11 to 14 mang lại doanh thu nhiều nhất trong số các chiến dịch khuyến mãi khi chiếm tới hơn 98% trong tổng số các chiến dịch.
Figure 2.19: Doanh thu trung bình của mỗi sản phẩm
•Tuy vậy doanh thu trung bình trên mỗi sản phẩm của chiến dịch Touring -1000 Promotion lại cao nhất.
Figure 2.20: Chiến dịch Volume Discount 11 to 14
Trong chiến dịch giảm giá theo khối lượng từ ngày 11 đến 14, các sản phẩm bán chạy nhất bao gồm săm và lốp xe đạp, xe đạp leo núi và xe đạp đường bộ.
Figure 2.21: Doanh thu và trung bình doanh thu của từng sản phẩm
Trong chiến dịch Giảm Giá Khối Lượng từ 11 đến 14, xe đạp leo núi, xe đạp đường bộ và xe đạp du lịch đã mang lại doanh thu cao nhất và doanh thu trung bình trên từng sản phẩm.
Figure 2.22: Phần trăm doanh thu của các chiến dịch khuyến mãi
•Tuy là khuyến mãi nhưng các chiến dịch lại đóng góp rất nhỏ trong tổng số doanh thu, chiếm chưa tới 3%.
Chiến dịch khuyến mãi Touring -1000 và Touring -3000 diễn ra trong 3 tháng, từ cuối tháng 12/2018 đến cuối tháng 3/2019 Tuy nhiên, khách hàng có thể mua Xe đạp du lịch (Touring Bikes) trong khoảng thời gian kéo dài từ cuối tháng 12/2018 đến cuối tháng 12/2019.
Figure 2.23: Các đơn hàng Touring Bikes được đặt theo thời gian
Figure 2.24: Bảng thông tin các chiến dịch khuyến mãi
Chiến dịch Giảm Giá Theo Khối Lượng từ 11 đến 14 có thời gian khuyến mãi kéo dài, nhưng mức giảm giá quá thấp không đủ sức hấp dẫn để thu hút khách hàng mua sản phẩm trong chương trình này.