Phân tích dữ liệu có cấu trúc

Một phần của tài liệu epsilon vol10 2016 august tạp chí toán học mới (Trang 223 - 228)

Phần kiến thức chuẩn bị

Công ty QK là một công ty chuyên sản xuất các loại thực phẩm ở Mỹ, trong đó có sản phẩm thịt trộn. Sản phẩm thịt trộn được đóng gói trong một lớp giấy bạc chứa bì lợn giòn kèm bột và các gia vị khác nhau. Người mua có thể trộn lẫn các thành phần như trứng và thịt bò để tạo ra phần thịt trộn. Sự trộn lẫn này có tác dụng làm tăng hương vị của sản phẩm.

QK là một thương hiệu có uy tín, mặc dù doanh thu của công ty không quá lớn nhưng công ty luôn có lợi nhuận ổn định. Giả sử bạn là giám đốc thương mại của QK, và phải xem xét lại kế hoạch sản xuất mặt hàng thịt trộn. Nhiệm vụ đầu tiên của bạn là chuẩn bị dự đoán doanh thu bán hàng, và kinh phí cho khuyến mãi và quảng cáo cho năm sau. Bạn có dữ liệu lịch sử của công ty. Dữ liệu này bao gồm doanh số bán hàng cũng như là các chi phí dành cho phần khuyến mãi và quảng cáo trong24 quý vừa qua (đơn vị một ngàn USD). Ngoài ra, dữ liệu cũng bao gồm chỉ số index kinh tế trong thị trường bán thịt trộn. Giá trị chỉ số này cao thể hiện thời kì kinh tế tốt. Sản phẩm thịt trộn được bán thông qua các đại lý thực phẩm tại Texas, Ohio, Utah, và New York. Chi phí quảng cáo thường được dùng để trả các tạp chí về thực phẩm và sức khỏe. Chi phí khuyến mãi thì tập trung chi trả cho các đại lý phân phối và các quản lý cửa hàng. Các chi phí này bao gồm các khuyến mãi đặc biệt, ví dụ như mua bốn tặng một, tặng hoa hồng cho đại lý với doanh thu cao hay các cuộc thi bán hàng giữa các đại lý với giải thưởng là một chuyến đi du lịch ở Hawaii.

Bạn sẽ xem xét dữ liệu lịch sử và có thể thấy những biến đổi lớn trong doanh số bán hàng giữa các quý, và sự khác nhau cho các chi phí quảng cáo và khuyến mãi. Trong một cuộc họp, phó chủ tịch bán hàng giải thích rằng trước đây có một chính sách chung là chỉ nên chi trả cho quảng cáo hoặc khuyến mãi. Tuy nhiên, đã có một tranh cãi lâu dài trong công ty về hiệu quả tương tác giữa khuyến mãi và quảng cáo đối với doanh số thịt trộn. Người tiền nhiệm đã cố gắng thử nhiều phương pháp so sánh khác nhau nhưng chưa thể xác định được quảng cáo hay khuyến mãi là tốt hơn.

Một số ý kiến hoài nghi rằng việc dành chi tiêu cho khuyến mãi và quảng cáo là lãng phí bởi vì chúng không ảnh hưởng lắm đến vệc bán hàng. Một số người khác lại cảm thấy rằng việc khuyến mãi có tác động làm giảm doanh số bán hàng trong tương lai. Nghĩa là, họ cảm thấy các đại lý và quản lý cửa hàng mua rất nhiều trong thời gian khuyến mãi và sau đó không đặt hàng ở các giai đoạn tiếp theo cho đến khi họ cần. Tác động của quảng cáo cũng không rõ rệt, vì doanh số bán hàng thường thay đổi rất nhiều trong các giai đoạn mà chi phí quảng cáo như nhau. Ví dụ, trong hai quý23và24(xem bảng dữ liệu), chi phí quảng cáo gần bằng nhau (36; 000USD và39; 000USD) nhưng doanh thu tương ứng là648; 000USD và343; 000USD.

Ngoài ra, một chuyên viên thuộc phòng tài chính nhấn mạnh rằng thị trường thịt trộn là thị trường “phản chu kỳ” (counter-cyclical) kinh tế, nghĩa là sản phẩm bán tốt hơn trong thời kỳ kinh tế đi xuống, và ngược lại. Anh ta cho rằng thịt trộn rẻ tiền hơn các loại thực phẩm khác, cho nên người ta thường mua nhiều hơn trong thời kỳ khó khăn. Hơn nữa, anh ta cho rằng doanh thu bán hàng có tính chất mùa vụ, với nhiều sản phẩm bán được trong những tháng lạnh hơn là những tháng nóng như mùa hè. Mùa lạnh ở Mỹ là Quý4và Quý1, mùa nóng rơi vào Quý2và Quý3:

Obs Sales Prom Adv. Index

1 504.72 15.6 30 100

2 406.59 22.2 36 102

3 398.55 0.0 45 104

4 587.76 0.0 57 104

5 598.92 0.0 39 104

6 703.62 31.8 21 100

7 387.24 21.3 12 98

8 365.67 3.9 6 96

9 388.71 0.0 6 98

10 372.96 8.4 30 103

11 603.30 45.3 30 105

12 614.73 50.1 33 107

13 484.38 39.6 6 107

14 227.76 4.2 33 107

15 329.13 0.0 6 108

16 308.25 0.0 3 105

17 433.86 0.0 45 103

18 514.98 13.8 48 108

19 404.70 17.7 0 110

20 245.43 0.0 15 112

21 433.20 17.4 9 113

22 627.24 37.8 54 112

23 647.61 42.3 36 113

24 342.81 11.4 39 114

Mean 455.51 16.0 26.6 105.5 Chú thích

Obs (Observation) là dữ liệu thu thập từng quý, bắt đầu từ Quý1:

Sales là doanh số bán hàng của thịt trộn theo quý của QK (ngàn USD).

Prom là chi tiêu dùng trong các hoạt động khuyến mãi trong từng quý (ngàn USD).

Adv là chi tiêu dùng trong việc quảng cáo trong từng quý (ngàn USD).

Index là chỉ số kinh tế của thị trường.

Phần câu hỏi

1:Đề xuất một mô hình hồi quy tuyến tính (linear regression) để dự đoán doanh số bán thịt trộn cho QK.

2: Nếu bạn có $1:000 để dành cho một trong hai việc quảng cáo và khuyến mãi, thì bạn nên chọn cái nào và tại sao? Có những tác động như thế nào đến việc sử dụng $1:000trong mỗi việc quảng cáo hoặc khuyến mãi?

3: Bạn có đồng ý với ý kiến của chuyên viên phòng tài chính rằng thị trường thịt trộn có tính chất “phản chu kỳ” (counter-cyclical) so với chỉ số kinh tế? Tại sao?

4:Bạn có nghĩ rằng có tính chất mùa vụ trong doanh số bán hàng hay không? Tại sao?

Gợi ý trả lời câu hỏi:Các bạn thử cân nhắc các yếu tố sau đây:

- Mùa nóng tương ứng với quý2và3;mùa lạnh tương ứng với quý1và4:

- Điều kiện kinh tế thay đổi như thế nào.

- Ảnh hưởng của Khuyến mãi và Quảng cáo có kéo dài hay không.

Bảng B

Phần I – phân tích dữ liệu phi cấu trúc

Một công ty A hoạt động trong lĩnh vực nghiên cứu thị trường đã tiến hành thu thập dữ liệu từ các trang báo điện tử Việt Nam để khảo sát xem thị hiếu của người dân về các chủ đề xã hội và đời sống như thế nào. Từ đó hỗ trợ cho các công ty bán hàng làm chiến lược marketing hiệu quả hơn. Dữ liệu được lấy về, lưu trên một cơ sở dữ liệu dưới định dạng file văn bản (.txt) mà chưa qua bất kỳ khâu xử lý nào. Do trong quá trình lấy dữ liệu, các kỹ thuật viên của công ty A đã sơ suất quên ghi nhớ chủ đề cho từng bài viết khi được tải về. Những gì công ty A hiện có là một thư mục chứa hơn28:000file văn bản (text), mỗi file văn bản là nội dung một bài viết trên một trang báo nào đó.

Câu hỏi:

1: Với số lượng bài viết lớn như vậy (hơn28:000bài viết), bạn hãy tìm cách nào đó để nhóm các bài viết theo những chủ đề khác nhau. Bạn hãy đề xuất một phương pháp để có thể đặt tên cho từng chủ đề một cách hợp lý nhất. Kết quả công ty A mong đợi sẽ là một file dạng csv gồm 2cột: Cột1là tên bài báo, cột2là tên chủ đề tương ứng.

2:Ngoài ra, công ty A muốn bạn chọn ra một chủ đề nào đó và nhờ bạn đề xuất một phương pháp tự động để đánh giá một bài báo bất kì trong chủ đề đó theo ba mức độ khác nhau (tích cực, tiêu cực và trung hòa). Bạn sẽ làm một chương trình hoàn chỉnh để giúp công ty giải quyết vấn đề này. Kết quả công ty A mong đợi sẽ là một file dạng csv gồm2cột: Cột1là tên bài báo, cột2là đánh giá tương ứng với bài báo đó.

Gợi ý:Các bạn xem xét sử dụng kỹ thuật “Sentiment Analysis” để giải quyết vấn đề này.

File dữ liệu được gửi kèm (Tên file: phan1.zip).

Phần II – Phân tích dữ liệu có cấu trúc

Phần kiến thức chuẩn bị

Công ty QK là một công ty chuyên sản xuất các loại thực phẩm ở Mỹ, trong đó có sản phẩm thịt trộn. Sản phẩm thịt trộn được đóng gói trong một lớp giấy bạc chứa bì lợn giòn kèm bột và các gia vị khác nhau. Người mua có thể trộn lẫn các thành phần như trứng và thịt bò để tạo ra phần thịt trộn. Sự trộn lẫn này có tác dụng làm tăng hương vị của sản phẩm.

QK là một thương hiệu có uy tín, mặc dù doanh thu của công ty không quá lớn nhưng công ty luôn có lợi nhuận ổn định. Giả sử bạn là giám đốc thương mại của QK, và phải xem xét lại kế hoạch sản xuất mặt hàng thịt trộn. Nhiệm vụ đầu tiên của bạn là chuẩn bị dự đoán doanh thu bán hàng, và kinh phí cho khuyến mãi và quảng cáo cho năm sau. Bạn có dữ liệu lịch sử của công ty. Dữ liệu này bao gồm doanh số bán hàng cũng như là các chi phí dành cho phần khuyến mãi và quảng cáo trong24 quý vừa qua (đơn vị một ngàn USD). Ngoài ra, dữ liệu cũng bao gồm chỉ số index kinh tế trong thị trường bán thịt trộn. Giá trị chỉ số này cao thể hiện thời kì kinh tế tốt. Sản phẩm thịt trộn được bán thông qua các đại lý thực phẩm tại Texas, Ohio, Utah, và New York. Chi phí quảng cáo thường được dùng để trả các tạp chí về thực phẩm và sức khỏe. Chi phí khuyến mãi thì tập trung chi trả cho các đại lý phân phối và các quản lý cửa hàng. Các chi phí này bao gồm các khuyến mãi đặc biệt, ví dụ như mua bốn tặng một, tặng hoa hồng cho đại lý với doanh thu cao hay các cuộc thi bán hàng giữa các đại lý với giải thưởng là một chuyến đi du lịch ở Hawaii.

Bạn sẽ xem xét dữ liệu lịch sử và có thể thấy những biến đổi lớn trong doanh số bán hàng giữa các quý, và sự khác nhau cho các chi phí quảng cáo và khuyến mãi. Trong một cuộc họp, phó chủ tịch bán hàng giải thích rằng trước đây có một chính sách chung là chỉ nên chi trả cho quảng cáo hoặc khuyến mãi. Tuy nhiên, đã có một tranh cãi lâu dài trong công ty về hiệu quả tương tác giữa khuyến mãi và quảng cáo đối với doanh số thịt trộn. Người tiền nhiệm đã cố gắng thử nhiều phương pháp so sánh khác nhau nhưng chưa thể xác định được quảng cáo hay khuyến mãi là tốt hơn.

Một số ý kiến hoài nghi rằng việc dành chi tiêu cho khuyến mãi và quảng cáo là lãng phí bởi vì chúng không ảnh hưởng lắm đến vệc bán hàng. Một số người khác lại cảm thấy rằng việc khuyến mãi có tác động làm giảm doanh số bán hàng trong tương lai. Nghĩa là, họ cảm thấy các đại lý và quản lý cửa hàng mua rất nhiều trong thời gian khuyến mãi và sau đó không đặt hàng ở các giai đoạn tiếp theo cho đến khi họ cần. Tác động của quảng cáo cũng không rõ rệt, vì doanh số bán hàng thường thay đổi rất nhiều trong các giai đoạn mà chi phí quảng cáo như nhau. Ví dụ, trong hai quý23và24(xem bảng dữ liệu), chi phí quảng cáo gần bằng nhau (36; 000USD và39; 000USD) nhưng doanh thu tương ứng là648; 000USD và343; 000USD.

Ngoài ra, một chuyên viên thuộc phòng tài chính nhấn mạnh rằng thị trường thịt trộn là thị trường “phản chu kỳ” (counter-cyclical) kinh tế, nghĩa là sản phẩm bán tốt hơn trong thời kỳ

kinh tế đi xuống, và ngược lại. Anh ta cho rằng thịt trộn rẻ tiền hơn các loại thực phẩm khác, cho nên người ta thường mua nhiều hơn trong thời kỳ khó khăn. Hơn nữa, anh ta cho rằng doanh thu bán hàng có tính chất mùa vụ, với nhiều sản phẩm bán được trong những tháng lạnh hơn là những tháng nóng như mùa hè. Mùa lạnh ở Mỹ là Quý4và Quý1, mùa nóng rơi vào Quý2và Quý3:

Obs Sales Prom Adv. Index

1 504.72 15.6 30 100

2 406.59 22.2 36 102

3 398.55 0.0 45 104

4 587.76 0.0 57 104

5 598.92 0.0 39 104

6 703.62 31.8 21 100

7 387.24 21.3 12 98

8 365.67 3.9 6 96

9 388.71 0.0 6 98

10 372.96 8.4 30 103

11 603.30 45.3 30 105

12 614.73 50.1 33 107

13 484.38 39.6 6 107

14 227.76 4.2 33 107

15 329.13 0.0 6 108

16 308.25 0.0 3 105

17 433.86 0.0 45 103

18 514.98 13.8 48 108

19 404.70 17.7 0 110

20 245.43 0.0 15 112

21 433.20 17.4 9 113

22 627.24 37.8 54 112

23 647.61 42.3 36 113

24 342.81 11.4 39 114

Mean 455.51 16.0 26.6 105.5 Chú thích

Obs (Observation) là dữ liệu thu thập từng quý, bắt đầu từ Quý1:

Sales là doanh số bán hàng của thịt trộn theo quý của QK (ngàn USD).

Prom là chi tiêu dùng trong các hoạt động khuyến mãi trong từng quý (ngàn USD).

Adv là chi tiêu dùng trong việc quảng cáo trong từng quý (ngàn USD).

Index là chỉ số kinh tế của thị trường.

Một phần của tài liệu epsilon vol10 2016 august tạp chí toán học mới (Trang 223 - 228)

Tải bản đầy đủ (PDF)

(228 trang)