Dữ liệu thu thập từ quá trình theo dõi có thể được sử dụng để tìm hiểu tâm lý. Khái niệm này ám chỉ cách mà con người nghĩ hay cảm nhận về một đối tượng (ví dụ, như một thương hiệu hay một ứng cử viên chính trị). Sự tâm lý thiên nhiều về cảm xúc hơn lý trí nhưng nó sẽ đưa ra ý kiến về một đối tượng nào đó. Vì vậy, thu thập và phân tích dữ liệu tâm lý có thể như một giải pháp thay thế khảo sát khách hàng, và nó sẽ chỉ ra mọi người đang nói gì trên các không gian xã hội.
Các nhà marketing sử dụng phân tích tâm lý như thế nào? Họ có thể phân tích các bài nhận xét sản phẩm để hiểu hơn về thứ mà khách hàng muốn và ưu nhược điểm của sản phẩm. Khách hàng cũng có thể dùng phân tích tâm lý để sử dụng cho việc ra quyết định mua hàng của mình. Việc phân tích tâm lý có thể được gọi là khai thác ý kiến (opinion mining).
Trong ngữ cảnh của dữ liệu trên phương tiện truyền thông xã hội, phân tích tâm lý là một cấp độ rất căn bản trong phân tích nội dung để tìm hiểu thái độ của người viết. Khi một người cảm nhận về một sản phẩm, họ sẽ sử dụng một số từ nhất định để diễn tả cảm xúc của họ. Từ đó, nhà nghiên cứu có thể tạo ra từ điển cụm từ để mã hóa dữ liệu. Chương trình này sẽ quét các văn bản để nhận biết các từ có trong từ điển. Những từ đó sẽ được sử dụng để phân loại các cuộc hội thoại cho việc phân tích sau này. Việc mã hóa dữ liệu sẽ được đảm nhiệm bởi các phần mềm khai thác văn bản (text mining software), và cảm nhận của khách hàng sẽ được lưu trong cơ sở dữ liệu để phân tích. Quá trình này bao gồm các bước sau:
- Bước 1: Tìm kiếm, bám vào, và loại bỏ. Dữ liệu từ nhiều nguồn sẽ được thu thập qua các con bọ web (crawler). Bằng việc sử dụng từ điển cụm từ, các con bọ sẽ chỉ chọn những nội dung chứa những từ khóa có trong từ điển. Quá trình này gọi là fetching (tìm dữ liệu). Nhưng nội dung thu thập được cũng cần phải loại bỏ những thông tin không cần thiết, và một công cụ phân loại văn bản được sử dụng để lọc những nội dung không phù hợp trước khi lưu vào cơ sở dữ liệu. - Bước 2: Trích xuất những nội dung ưa thích. Từ những tập nội dung đã được sàng lọc, những bài viết phù hợp sẽ được trích xuất ra. Một bài viết có thể bao gồm thông tin về nhiều thương hiệu chứ không chỉ những thông tin mà bài nghiên cứu cần. Dữ liệu này được lọc lại một lần nữa để thu hẹp dữ liệu.
- Bước 3: Trích xuất tâm lý. Từ đây, người phân tích bắt đầu trích xuất tâm lý bằng việc sử dụng các chỉ số tâm lý. Đó là những từ được sử dụng để chỉ ra tâm lý tích cực hoặc tiêu cực. Từ điển tâm lý sẽ chi tiết hóa những chỉ thị tâm lý và các quy tắc sử dụng trong phân tích.
- Bước 4: Tổng hợp dữ liệu tâm lý thô lại với nhau. Những dữ liệu thô này được tổng hợp lại để tạo ra bản tóm tắt tâm lý.
Tuy nhiên, cũng có một số thách thức đi kèm với việc sử dụng phân tích tâm lý: - Đầu tiên là sự chính xác của việc sử dụng các công cụ tự động để thu thập dữ liệu tâm lý. Khối lượng cuộc trò chuyện tuyệt đối tạo ra vấn đề quá tải thông tin cho hầu hết các thương hiệu muốn sử dụng truyền thông xã hội theo dõi và nghiên cứu. Giải pháp là việc sử dụng một hệ thống tự động, nhưng các hệ thống này vẫn đang trong giai đoạn tranh cãi về độ chính xác trong việc viết mã ý nghĩa. Chính vì vậy, trên thực tế, các hệ thống sử dụng kết hợp phân tích con người, ý nghĩa từ khóa và xử lý ngôn ngữ tự nhiên có xu hướng phổ biến và cung cấp điểm chính xác tốt hơn.
- Thứ hai là các yếu tố văn hóa, ngôn ngữ, và ngữ cảnh đa dạng khiến việc phân loại văn bản dưới dạng tích cực hay tiêu cực là rất khó. Hãy xem xét ví dụ này: nếu chúng ta muốn biết thái độ của khách hàng về một video quảng cáo của 1 nhà hàng (xoay quanh các câu chuyện về món ăn) với chủ đề các món ăn truyền thống. Những những người làm marketing có thể tìm kiếm và sáng lọc các web xã hội, các cộng đồng... cho nhận xét về video này. Nhưng một máy có thể mã hóa chính xác những nhận xét đó không? Ví dụ, từ “ngon tuyệt“ (một từ thể hiện thông điệp) có thể được biểu thị dưới dạng khác, dưới ngôn ngữ phổ thông hơn hoặc khác đi như “tuyệt ngon“ hay “tuyệt đỉnh“, thậm chí các từ phổ thông, nói lóng khi mọi người bình luận trong các cộng đồng. Các sắc thái ngôn ngữ khiến cho việc khai thác phần mềm khó đạt được mức độ chính xác cao hơn. - Thứ ba, tạo ra từ điển tâm lý là một thách thức bởi nó ảnh hưởng lớn đến việc
trích xuất ra những từ phù hợp. Tuy nhiên, từ ngữ rất đa nghĩa và có rất nhiều từ đồng nghĩa với nhau.
- Cuối cùng, độ chính xác của dữ liệu phân loại cũng là một vấn đề vì rất khó để xác định được người viết bình luận là ai, đang ở đâu. Thật khó để đánh giá ai đang đưa ra nhận xét (cái nào các phân đoạn mà họ đại diện) về mặt nhân khẩu học và mô tả địa lý. Nguồn gốc cuộc hội thoại có thể được nhận dạng bằng cách sử dụng URL, địa chỉ IP hoặc ngôn ngữ được sử dụng, nhưng tất cả các phương pháp này đều có sai sót. URL và địa chỉ IP không phải lúc nào cũng hữu ích (ví dụ như Facebook, với người dùng trên toàn thế giới). Các chỉ số ngôn ngữ tương tự như vậy để lại rất nhiều điều mà những người làm marketing mong muốn.