Thu thập dữ liệu

Chương 2: Phân tích dữ liệu mô tả với các công cụ phân tích dữ liệu

2.1.3. Thu thập dữ liệu

Sau khi xác định các biến mà bạn muốn nghiên cứu, bạn có thể tiến hành nhiệm vụ thu thập dữ liệu. Thu thập dữ liệu là một nhiệm vụ quan trọng bởi vì nếu bạn thu thập dữ liệu thiếu sót do sai lệch hay sự mơ hồ hoặc do các loại lỗi khác thì kết quả bạn sẽ nhận được từ việc sử dụng dữ liệu đó sẽ bị nghi ngờ hoặc sai dù với các phương pháp thống kê tinh vi nhất. Thu thập dữ liệu bao gồm xác định nguồn dữ liệu, quyết định liệu dữ liệu bạn thu thập được từ tổng thể (population) hoặc mẫu, sau đó dọn dẹp dữ liệu của bạn và đôi khi mã lại các biến. Phần này giới thiệu các khía cạnh của việc thu thập dữ liệu.

Bạn thu thập dữ liệu từ nguồn dữ liệu sơ cấp hoặc thứ cấp. Bạn đang sử dụng nguồn dữ liệu sơ cấp nếu bạn thu thập dữ liệu của chính bạn để phân tích. Bạn đang sử dụng nguồn dữ liệu thứ cấp nếu dữ liệu phân tích của bạn do được người khác thu thập. Bạn thu thập dữ liệu bằng cách sử dụng ví dụ các nội dung sau đây:

1 Dữ liệu được phân phối bởi một tổ chức hoặc cá nhân 2 Kết quả của một thí nghiệm được thử nghiệm

3 Các câu trả lời từ cuộc khảo sát 4 Kết quả tiến hành nghiên cứu quan sát

5 Dữ liệu được thu thập bởi các hoạt động kinh doanh đang diễn ra

Các công ty nghiên cứu thị trường và các hiệp hội thương mại phân phối dữ liệu liên quan đến các ngành công nghiệp hoặc thị trường cụ thể. Các dịch vụ đầu tư như Mergent, Inc. cung cấp dữ liệu kinh doanh và tài chính cho các công ty niêm yết công khai. Các dịch vụ được cung cấp bởi Công ty Nielsen cung cấp dữ liệu nghiên cứu người tiêu dùng cho các công ty truyền thông trực tuyến và truyền thống. Các công ty media truyền thống và trực tuyến cũng phân phối dữ liệu mà họ có thể thu thập được hoặc có thể tái xuất bản từ các

nguồn khác. Kết quả của các thí nghiệm thử nghiệm là nguồn dữ liệu thứ 2. Ví dụ, một công ty hàng tiêu dùng có thể thực hiện một thí nghiệm so sánh khả năng tẩy vết bẩn của một số bột giặt.

Các trả lời khảo sát đại diện cho một kiểu thứ 3 của nguồn dữ liệu. những người được khảo sát thường được hỏi về niềm tin, thái độ, hành vi của họ, và các đặc điểm khác. Ví dụ, người ta có thể được hỏi bột giặt nào có khả năng loại bỏ vết bẩn tốt nhất. (Cuộc khảo sát này có thể dẫn đến các dữ liệu khác với dữ liệu thu được từ kết quả của thí nghiệm thử nghiệm ở trước đó, vì thế kết quả khảo sát sẽ không có ý nghĩa vì người tiêu dùng thường không rành về hóa chất tẩy). Khảo sát có thể bị ảnh hưởng bởi bất kỳ loại lỗi nào trong bốn loại lỗi được thảo luận trong phần sau. Kết quả nghiên cứu quan sát là nguồn dữ liệu thứ 4. Một nhà nghiên cứu thu thập dữ liệu bằng cách trực tiếp quan sát một hành vi, thường là trong một môi trường tự nhiên hoặc trong môi trường được làm như tự nhiên. Các nghiên cứu quan sát là một công cụ phổ biến để thu thập dữ liệu trong kinh doanh. Ví dụ, các nhà nghiên cứu thị trường sử dụng các focus group để tạo ra phản ứng phi cấu trúc cho các câu hỏi mở do người điều tiết đưa ra cho đối tượng mục tiêu. Các nghiên cứu quan sát cũng thường được sử dụng để tăng cường làm việc theo nhóm hoặc nâng cao chất lượng sản phẩm và dịch vụ.

Dữ liệu được thu thập bởi các hoạt động kinh doanh là một nguồn dữ liệu thứ 5. Dữ liệu này có thể được thu thập từ các hệ thống hoạt động và giao dịch tồn tại trong cả hai cấu trúc trực tuyến và “bricks-and-mortar-cửa hàng” nhưng cũng có thể được thu thập từ các nguồn thứ cấp : như mạng xã hội và các ứng dụng trực tuyến và các dịch vụ của các trang web thu thập theo dõi người dùng online. Ví dụ: ngân hàng có thể phân tích dữ liệu giao dịch tài chính trong một thập kỷ để xác định các mẫu gian lận và nhà marketers có thể sử dụng dữ liệu theo dõi để xác định hiệu quả của trang web thương mại điện tử. Ngày nay chúng ta nói nhiều về Dữ liệu lớn, nguồn cho "dữ liệu lớn" có xu hướng kết hợp các nguồn sơ cấp và thứ cấp nên việc phân tích nó phải dùng máy tính với các thuật toán của machine learning hay deep learning, ví dụ deep learning được dùng cho AI để giúp máy học như người từ các dữ liệu lớn. Ví dụ: một nhà bán lẻ quan tâm đến việc tăng doanh số bán hàng có thể khai thác dữ liệu social media từ các tài khoản Facebook và Twitter… để xác định tình cảm về một số sản phẩm nhất định hoặc để xác định những người có ảnh hưởng hàng đầu và sau đó kết hợp dữ liệu đó với dữ liệu của chính mình được thu thập trong các giao dịch của khách hàng. Giờ những nhà marketers đều rất hiểu biết về dữ liệu lớn – big data cùng với các công cụ social media listening. Các dữ liệu social media thì các phương pháp phân tích cũng rất khác, trong cuốn bài giảng này sẽ không đề cập đến những kỹ thuật đó hay những kỹ thuật của data mining, text analysis…

Dữ liệu sơ cấp là dữ liệu được ghi lại lần đầu tiên tại nguồn. Dữ liệu sơ cấp có thể là nội bộ (nếu nó được ghi trực tiếp từ quy trình kinh doanh nội bộ, chẳng hạn như quy trình ứng dụng máy robot và tự động trong quản lý doanh nghiệp, hóa đơn bán hàng, chứng khoán và hồ sơ đi làm) hoặc bên ngoài (ví dụ như thu được thông qua các cuộc điều tra như khảo sát nguồn nhân lực, điều tra kinh tế và điều tra người tiêu dùng (nghiên cứu thị trường)).

Dữ liệu thứ cấp là dữ liệu đã tồn tại ở định dạng đã được xử lý. Nó đã được thu thập và xử lý trước đây bởi những người khác cho một mục đích khác với vấn đề đó. Có thể có nguồn nội bộ (ví dụ: báo cáo cổ phiếu hàng tháng hoặc báo cáo vắng mặt hàng quý) hoặc nguồn bên ngoài (ví dụ: chuỗi thời gian kinh tế về thương mại, xuất khẩu, thống kê việc làm từ cục thống

kê hoặc xu hướng chi tiêu quảng cáo ở Lào hoặc theo ngành từ CP) hay điều tra hộ gia đình, khảo sát lối sống và xu hướng xã hội, bảng tiêu dùng, điều tra thái độ, điều tra mức bán lẻ…từ các công ty nghiên cứu thị trường hay CP.

Chia độ đánh giá các biến

Tổ chức và trình bày nhiều biến