1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiểu luận cuối kì báo cáo kết quả khai thác và phân tích dữ liệu để lập kế hoạch cải thiện quyết định và quản lý thông tin của vinamilk

25 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo kết quả khai thác và phân tích dữ liệu để lập kế hoạch cải thiện quyết định và quản lý thông tin của Vinamilk
Tác giả Dương Thỳy Ngõn, Dang Thi Bich Loan, Ha Thuy Anh, Tran Bao Chau, Vừ Ky Duyộn, Dang Thi Thu Hang
Người hướng dẫn Hỗ Hữu Lực
Trường học Trường Đại Học Văn Lang
Chuyên ngành Khai thác và phân tích dữ liệu
Thể loại Tiểu luận cuối kì
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 25
Dung lượng 2,13 MB

Nội dung

Các doanh nghiệp có thê sử dụng khai thác dữ liệu đê: - Phan tích dữ liệu bán hàng để xác định các sản phẩm hoặc dịch vụ phổ biến nhất, từ đó điều chỉnh chiến lược kinh doanh cho phù hợp

Trang 1

TRUONG DAI HOC VAN LANG

W

MON HQC: KHAI THAC VA PHAN TICH DU LIEU

TIEU LUAN CUOI Ki BAO CAO KET QUA KHAI THAC VA PHAN TICH DU LIEU DE LAP KE

HOACH CAI THIEN QUYET DINH VA QUAN LY THONG TIN CUA

VINAMILK GVHD: Hỗ Hữu Lực Ma lép hoe: 231 71MISS40233 02 Thành viên nhóm:

Dương Thúy Ngân — 2173401151082 Dang Thi Bich Loan — 197TM29433 Ha Thuy Anh — 2173401151282 Tran Bao Chau — 2173401150390 Võ Ky Duyén — 2173401150496 Dang Thi Thu Hang — 2173401151416

Thanh pho Hô Chí Minh, ngày 09 tháng 12 năm 2023

Trang 2

MUC LUC CHUONG I: CƠ SỞ LÝ THUYẾTT 25: 2222222222122221112221112211221 21.2 I

1.1 Tông quan về khai thae dit GU ccccccecccsesecseesesessesscsessesessvsevensersesvsees l 1.2 Mét s6 kỹ thuật khai thác dữ liệu phô biễn: 55-55 S222 12511121211 cEe 1

PIN ae 13

Trang 3

DANH MUC SO DO, BIEU DO, BANG BIEU

I Biểu đồ:

Biểu đồ 2.I Doanh thu bán hàng và cung cấp địch vụ Biểu đồ 2.2 Doanh thu thuần về bán hàng và cung cấp dịch vụ Biếu đồ 2.3 Lợi nhuận gộp về bán hàng và cung cấp địch vụ Biểu đồ 2.4 Lợi nhuận thuần từ hoạt động kinh doanh Biểu đồ 2.5 Tong lợi nhuận kế toán trước thuế Biểu đồ 2.6 Lợi nhuận sau thuế thu nhập doanh nghiệp

2 Bảng: Bang 2.1 Két quả tính tác các chi s6 Central Tendency Bang 2.2 Dir ligu phuc vu cho viée phan tich K-Means and/or RFM Bang 2.3 Két qua kiém dinh Sample T-test

Trang 4

CHUONG I: CO SO LY THUYET

Khai thác đữ liệu là một công nghệ đang phát triển nhanh chóng và có nhiều tiềm năng ứng dụng trong các lĩnh vực khác nhau của đời sông xã hội Tại Việt Nam, khai thác đữ liệu đang ngày càng trở nên phô biến, đặc biệt là trong lĩnh vực kinh doanh và v tê

Trong lĩnh vực kinh doanh, khai thác dữ liệu được sử dụng để cải thiện hiệu quả hoạt động và tăng doanh thu Các doanh nghiệp có thê sử dụng khai thác dữ liệu đê:

- Phan tích dữ liệu bán hàng để xác định các sản phẩm hoặc dịch vụ phổ biến nhất, từ đó điều chỉnh chiến lược kinh doanh cho phù hợp

- _ Dự báo nhu cầu trong tương lai để chủ động sản xuất và cung ứng hàng hóa, dịch vụ

- _ Xác định các khách hàng mục tiêu đề triển khai các chiến dịch tiếp thị hiệu quả hơn

Trong lĩnh vực y tế, khai thác dữ liệu được sử dụng để cải thiện chắn đoán và điều trị bệnh Các bác sĩ có thê sử dụng khai thác dữ liệu đề:

- _ Xác định các yếu tố nguy cơ của một căn bệnh cụ thê để đưa ra các biện pháp phòng ngừa hiệu quả

- _ Phát triển các phương pháp điều trị mới dựa trên dữ liệu từ các ca bệnh trước đây

- _ Cải thiện hiệu quả chăm sóc bệnh nhân thông qua việc theo dõi tỉnh trạng sức khỏe của bệnh nhân một cách chủ động

Bên cạnh hai lĩnh vực trên, khai thác đữ liệu còn có thể được ứng dụng trong nhiều lĩnh vực khác như giáo dục, tài chính, ngân hàng, viên thông

1.2 Một số kỹ thuật khai thác dữ liệu phố biến: Các kỹ thuật khai thác dữ liệu được nghiên cứu và phát triển nhăm mục đích tìm kiếm các mau, quy luật hoặc xu hướng trong dữ liệu Các kỹ thuật này có thê được áp dụng trong nhiêu lĩnh vực, với nhiêu dạng dữ liệu khác nhau

Nhin chung, các kỹ thuật khai thác đữ liệu có thể được chia thành hai nhóm chính: - Nhóm kỹ thuật khai thác theo hướng mô tả dữ liệu (descriptive data mining):

tìm kiếm các mẫu hoặc quy luật có thể mô tả về dữ liệu mà con IBƯỜI có thé dé dang nam bắt được Một số hướng chính của nhóm kỹ thuật này bao gồm: +- Bài toán gom cụm (clustering): phân chia dữ liệu thành các nhóm dựa trên

các đặc điểm tương đồng

Trang 5

1.3 1.3.1

+ Tim luat két hop (association rule discovery): tim kiém cac méi lién quan giữa các biến trong đữ liệu

+ Khai thac mau tuan ty (sequential pattern mining): tim kiém các mẫu tuần tự trong dữ liệu

Nhóm kỹ thuật khai thác theo hướng dự đoán (predictive data mining): su dung một số giá trị thuộc tính của dữ liệu đã biết để dự đoán gia tri cua thuộc tính chưa biết Một số hướng chính của nhóm kỹ thuật này bao gồm:

+ Bai toan phan loai (classification): phân loại đữ liệu vào các lớp đã biết + Phát hiện bất thường (outlier analysis): phát hiện các dữ liệu bất thường

trong tập đữ liệu + Hồi quy (regression): dự đoán giá trỊ của một biến dựa trên các biến khác Các phương pháp kiểm định:

Central Tendency: Xu hướng trung tâm (Central Tendeney) là một khái niệm thống kê dùng đề mô tả giá trị trung bình của một tập dữ liệu Có ba thước đo phô biên nhất của xu hướng trung tâm là mode, trung vị vả trung bình

Mode là giá trị xuất hiện thường xuyên nhất trong tập đữ liệu Tập đữ liệu có thê có một mode, nhiều mode hoặc không có mode Đề tìm mode, chúng ta sắp xếp tập dữ liệu theo thứ tự tăng dần hoặc giảm đần và chọn giá trị xuất hiện nhiều nhất

Median là giá trị nằm Ở giữa khi tập dữ liệu được sắp xếp từ thập đến cao Để tim median, chung ta sắp xếp tập dữ liệu từ thấp đến cao Nếu số lượng gia tri trong tap dữ liệu là số lẻ, median là giá trị ở vị trí trung tâm Nếu số lượng giá trị trong tập đữ liệu là số chăn, median là giá trị trung bình của hai giá trị ở giữa

Mean là giá trị trung bình số học của một tập dữ liệu Mean được tính bằng cách cộng tất cả các giá trị trong tập đữ liệu và chia cho số lượng giá trị trong tập đữ liệu Mean là thước đo xu hướng trung tâm được sử dụng phổ biến nhất vì nó phản ánh giá trị trung bình của tất cả các giá trị trong tập dữ liệu Các tập dữ liệu có thể có cùng mean, median và mode nhưng vẫn có thể khác nhau ở các khía cạnh khác Ví dụ, một tập dữ liệu có thé có mean, median và mode thấp nhưng có phương sai cao, trong khi một tập dữ liệu khác có thể có mean, median va mode cao nhưng có phương sai thấp

Phương sai (varlance) là một thước đo mức độ phân tán của các gia tri trong một tập đữ liệu Phương sai được tính băng cách cộng bình phương của độ lệch của mỗi giá trị so với mean của tập dữ liệu và chia cho số lượng giá trị trong tập dữ liệu Phương sai cảng cao thì các giá trị trong tập dữ liệu càng phân tán

Trang 6

- Độ lệch chuân (standard đeviation) là căn bậc hai của phương sai Độ lệch chuân cho biết trung bình mối giá trị nắm bao xa so với mean của tập dữ liệu Độ lệch chuân càng cao thì các giá trị trong tập dữ liệu cảng phân tán 1.3.2 K-Means and/or REM Analyzation:

Thuật toán k-means là một thuật toán phân cụm dữ liệu lặp lại Thuật toán này phân chia tập dữ liệu thành k cụm, trong đó mỗi điểm dữ liệu chỉ thuộc về một cụm Thuật toán k-means cô gắng làm cho các điểm đữ liệu trong củng một cụm cảng giống nhau càng tốt, đồng thời làm cho các cụm càng khác nhau cảng tốt

Cách thức hoạt động của thuật toán k-means như sau: - - Xác định số lượng cụm k

- Khoi tạo các tâm cụm ngẫu nhiên - Lap lai cac bước sau cho đến khi không có thay đổi nào về tâm cụm:

+ Gan mỗi điểm dữ liệu cho cụm có tâm gần nhất + Tính lại tâm cụm cho mỗi cụm bằng cách lay trung bình của tất cả các điểm

đữ liệu thuộc cụm đỏ Thuật toán k-means có thể được sử dụng cho nhiều mục đích khác nhau, chăng hạn như:

- - Phân loại dữ liệu - Tim các nhóm khách hàng tương tự nhau - - Phân tích thị trường

M6 hinh RFM (Recency, Frequency, Monetary) la m6t céng cu phan tích khách hàng dựa trên ba yếu tổ chính: thời gian mua hàng gan nhat (Recency), tan suat mua hang (Frequeney) và giá trị tiền mỗi lần mua hàng (Monetary) Mô hình này giúp doanh nghiệp hiểu rõ hơn về hành vi mua sắm của khách hàng và tập trung hơn vào nhóm khách hàng có tiềm năng cao nhất đề giữ và phat trién

Mô hình REM là viết tắt của ba yếu tố chính: - _ Recency: Thời gian mua hàng gần nhất của khách hàng - Frequency: Số lần mua hàng của khách hàng trong một khoảng thời gian nhất

định - Monetary: Gia tri tiền hoặc giá trị đơn hàng mà khách hàng đã chi tiêu cho mỗi

lần mua hàng

Trang 7

Các yếu tố của mô hình REM có thê được sử dụng đề phân loại khách hàng thành các nhóm khác nhau, chăng hạn như:

Khách hàng mới: Khách hàng mới là những khách hàng chưa từng mua hàng của doanh nghiệp trong khoảng thời gian nhất định

Khách hàng tiềm năng: Khách hàng tiềm năng là những khách hàng đã mua hàng của doanh nghiệp trong khoảng thời gian gần đây nhưng chưa thường xuyên

Khách hàng trung thành: Khách hàng trung thành là những khách hàng mua hàng của đoanh nghiệp thường xuyên và có giá trị tiền cao

Mô hình RFM có thể được sử dụng cho nhiều mục đích khác nhau, chăng hạn như:

1.3.3 Xác định nhóm khách hàng mục tiêu: Mô hình REM có thế giúp doanh nghiệp xác định nhóm khách hàng mục tiêu đề tập trung hơn vào việc giữ chân và phát triển

Tạo chương trình khuyến mãi: Mô hình REM có thê giúp đoanh nghiệp tạo ra các chương trình khuyến mãi phủ hợp với từng nhóm khách hàng

Phân tích hiệu quả marketing: Mô hình REM có thể giúp đoanh nghiệp phân tích hiệu quả của các chiến dịch marketing

Sample T-Test: Kiểm định t-test là một công cụ phân tích thống kê đùng để so sánh trung bình của hai tập dữ liệu Kiêm định này có thê được sử dụng đề so sánh trung bình của một tập dữ liệu với một giá trị cụ thê hoặc so sánh trung bình của hai tập dữ liệu độc lập Kiểm định t-test được chia thành ba loại chính:

1.3.4 Kiểm định t-test một mẫu: Dùng để so sánh trung bình của một tập dữ liệu với mot gia tri cụ thé

Kiểm định t-test hai mẫu độc lập: Dùng để so sánh trung bình của hai tập dữ liệu độc lập

Kiểm định t-test hai mẫu phụ thuộc: Dùng để so sánh trung bình của hai tập dữ liệu phụ thuộc

Kiểm định t-test được thực hiện dựa trên gia tri t Gia tri t được tính bang cach chia cho độ lệch chuẩn của mẫu

Linear Regression: Phân tích hồi quy tuyến tính là một kỹ thuật thống kê được sử dụng đề dự đoán giá trị của một biên dựa trên giá trị của một biên khác Biên bạn muôn dự đoán được gọi là

Trang 8

biến phụ thuộc, còn biến bạn đang sử dụng đề đự đoán giá trị của biến khác được gọi là biến độc lập

Phân tích hồi quy tuyến tính sử dụng một phương trình tuyến tính để mô tả mối quan hệ giữa hai biến Phương trình này có dạng y =mx + b, trong đó:

- y la gia tri cia biến phụ thuộc - x la giá trị của biên độc lập - m và b là các hệ số hồi quy Các hệ số hồi quy được ước tính bằng cách sử dụng phương pháp bình phương tối thiêu Phương pháp này tìm các giá trị của m và b sao cho tổng bình phương của sai 36 giữa các giá trị dự đoán và giá trị thực tế là nhỏ nhất

Phân tích hồi quy tuyến tính có thể được sử dụng cho nhiều mục đích khác nhau, chăng hạn như:

- - Dự đoán giá cả - Dự đoán doanh số - Dự đoán tỷ suất lợi nhuận - - Dự đoán sự cố

Trang 9

CHUONG 2: THUC NGHIEM

- _ Các khoản đầu tư, các khoản vay, các khoản nợ của Vinamlk - _ Xu hướng thị trường sữa

- _ Đối thủ cạnh tranh của Vinamilk Các nguồn dữ liệu mà nhóm dự định thu thập bao gồm:

- Trang web của Vinamilk: Đây là nguồn dữ liệu chính thức của Vinamilk, cung cấp nhiều thông tin quan trọng về tình hình hoạt động của công ty

- VietstockFinance: Day la trang web cung cấp thông tin về thị trường chứng khoán Việt Nam, trong đó có thông tin về giá cô phiêu của Vinamilk

- _ Dữ liệu mở của Chính phủ Việt Nam: Đây là nguồn dữ liệu cung cấp thông tin về tình hình kinh tế - xã hội của Việt Nam, trong đó có thông tin về thị trường sữa

- Bộ Tài Chính: Đây là cơ quan quản lý nhà nước về tài chính, có trách nhiệm công bồ thông tin về tình hình hoạt động của các doanh nghiệp, trong đó có Vinamilk

- Trang web của các tô chức nghiên cứu thị trường: Đây là các tổ chức chuyên nghiên cứu về thị trường, cung cấp nhiều thông tin hữu ích về tình hình thị trường sữa, trong đó có thị phần của Vinamilk

- _ Trang web của các cơ quan báo chí: Đây là nguồn đữ liệu cung cấp thông tin về các sự kiện, tin tức liên quan đến Vinamilk và thị trường sữa

- Trang web Kaggle: Day la trang web cộng đồng dành cho các nhà nghiên cứu dữ liệu, cung cấp nhiều bộ đữ liệu miễn phí, trong đó có thể có đữ liệu về Vinamilk va thị trường sữa

Các phương pháp thu thập dữ liệu mà nhóm dự định sử dụng bao gồm:

Trang 10

Thu thập đữ liệu từ trang web: Đây là phương pháp thu thập đữ liệu phố biến và dễ thực hiện nhất Nhóm sẽ sử dụng các công cụ tìm kiếm đề tìm kiếm các thông tin cần thiết trên các trang web của Vinamilk, VietstockFinance, Dữ liệu mở của Chính phủ Việt Nam, Bộ Tài Chính, các tô chức nghiên cứu thị trường, các cơ quan báo chi, va trang web Kaggle

Thu thập dữ liệu từ báo cáo tài chính: Vinamilk công bố báo cáo tài chính hàng năm và quý Nhóm sẽ tải về các báo cáo này đề thu thập các thông tin về đoanh thu, lợi nhuận, sản lượng, chi phí, của VinamiÌk

Thu thập dữ liệu từ các cuộc khảo sát: Nhóm có thé tiễn hành các cuộc khảo sát khách hàng, đối thủ cạnh tranh, hoặc các chuyên gia trong ngành sữa để thu thập các thông tin bổ sung về thị trường sữa và tình hình hoạt động của Vinamilk

Với các nguồn đữ liệu và phương pháp thu thập đữ liệu được đề xuất, nhóm tin rằng sẽ thu thập được đây đủ và chính xác các thông tin cân thiệt cho bài tiêu luận

Trang 11

- Độ lệch chuẩn của giá là 7.758,78I VNĐ Độ lệch chuẩn này cũng khá lớn, cho thấy giá của các sản phâm có sự phân tán khá lớn

Số lượng bán ra: - _ Số lượng bán ra trung bình của các sản phẩm là 5l - _ Số lượng bán ra cao nhất là 62, số lượng bán ra thấp nhất là 40 - Mode của số lượng bán ra là 62 Điều này cho thấy số lượng bán ra 62 là phổ

biến nhất - _ Độ lệch của số lượng bán ra là 728.975 VNĐ Độ lệch này khá lớn, cho thay SỐ

lượng bán ra của các sản phẩm có sự phân tán khá lớn - _ Độ lệch chuẩn của số lượng bán ra là 26,999 VNĐ Độ lệch chuẩn nảy cũng

khá lớn, cho thấy số lượng bán ra của các sản phẩm có sự phân tán khá lớn Doanh thu (VNĐ):

- _ Doanh thu trung bình của các sản phẩm là 134.947 VNĐ, - _ Doanh thu cao nhất là 220.000 VNĐ, doanh thu thấp nhất 1a 100.000 VND - Mode của doanh thu là không có Điều này cho thấy không có một giá trị nào

xuất hiện nhiều nhất trong dữ liệu về doanh thu - D6 lệch của doanh thu là 7.85081E+L1I VNĐ Độ lệch này cực kỳ lớn, cho thay

doanh thu của các sản phâm có sự phân tán cực kỳ lớn - Độ lệch chuẩn của doanh thu là 886.047.990 VNĐ Độ lệch chuẩn nảy cũng

cực kỳ lớn, cho thấy doanh thu của các sản phâm có sự phân tán cực kỳ lớn

Trang 12

2.2.2, K-Means and/or RFM Analyzation:

Vì lí do bảo mật hệ thống CRM của Vinamilk nên chúng tôi không thê tiến hành lấy dữ liệu khách hàng phục vụ cho việc phân tích dữ liệu được nên chúng tôi đã tham khảo trang web Kaggle - trang web cộng đồng dành cho các nhà nghiên cứu đữ liệu, cung cấp nhiều bộ đữ liệu miễn phí, trong đó có thê có đữ liệu về Vinamilk và thị trường sữa

Ngày đăng: 09/09/2024, 15:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w