BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG TRỰC TUYẾN THEO CHỦ ĐỀ

Một phần của tài liệu (Luận văn Đại học Thương mại) NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN (Trang 34 - 37)

CHƯƠNG 3 BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG THEO CHỦ ĐỀ

3.2. BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG TRỰC TUYẾN THEO CHỦ ĐỀ

Phân tích dữ liệu khách hàng là các quy trình, các phương pháp, các công nghệ được ứng dụng để nắm bắt, trích xuất những tri thức, những thơng tin hữu ích tiềm ẩn trong dữ liệu khách hàng của tổ chức, doanh nghiệp.

Mục đích chính của phân tích dữ liệu khách hàng là tạo ra cái nhìn chi tiết và chính xác về khách hàng để tổ chức, doanh nghiệp ứng dụng vào các kế hoạch, các chiến lược kinh doanh ngắn hạn và dài hạn phù hợp, hiệu quả nhằm thu hút nhiều khách hàng và giữ chân khách hàng lâu dài.

Một quy trình phân tích dữ liệu khách hàng thường có ba giai đoạn gồm: Tìm hiểu khách hàng của tổ chức, doanh nghiệp; Phân tích dữ liệu và phân khúc khách hàng và cuối cùng là xác định các chiến dịch marketing, các chiến lược bán hàng, các chiến lược giới thiệu sản phẩm mới đến từng phân khúc khách hàng.

Bài tốn phân tích dữ liệu khách hàng trực tuyến là một bài tốn con trong bài tốn phân tích dữ liệu khách hàng, tuy nhiên, với sự phát triển nhanh chóng của cơng nghệ thông tin và các phương tiện truyền thơng xã hội, bài tốn phân tích dữ liệu khách hàng trực tuyến đã trở thành một bài toán được rất nhiều tổ chức, doanh nghiệp quan tâm. Trong báo cáo của đề tài này, chúng tôi tập trung mô phỏng việc sử dụng các thuật tốn học máy trong ứng dụng phân tích dữ liệu khách hàng để phân nhóm khách hàng. Có thể mơ tả bài tốn phân tích dữ liệu khách hàng dựa theo các thuật tốn học máy một cách tổng quát như sau:

Hình 3.1: Mơ phỏng bài tốn nghiên cứu

Trong các bài toán phân tích dữ liệu khách hàng ở trên, chúng tơi tập trung và phân tích dữ liệu khách hàng trực tuyến được thu thập từ các phương tiện truyền thông xã hội (social media), các kênh bán hàng trực tuyến (online sale channels), các website, … dựa trên các bài đăng (post), các bình luận (comment), các đánh giá (review), các ý kiến (sentiment) của các khách hàng trực tuyến về các sản phẩm và dịch vụ của các tổ chức, danh nghiệp bằng cách ứng dụng một số thuật tốn học máy vào phân tích, sau đó đánh giá dựa trên kết quả thu được.

Dữ liệu khách hàng trực tuyến được sử dụng là các kiểu dữ liệu văn bản, vì vậy, bài tốn phân tích dữ liệu khách hàng trực tuyến được quy về bài toán phân tích dữ liệu văn bản sau đó gom nhóm hay phân nhóm dựa trên các nhãn đánh dấu.

Các thuật toán được sử dụng để so sánh được lựa chọn dựa trên các nhóm ở mục 1.2 để đưa vào làm thực nghiệm nhằm đưa ra cách đánh giá tổng qt cho các nhóm thuật tốn khác nhau.

3.3. CÁC HƯỚNG TIẾP CẬN CỦA BÀI TOÁN

Theo Adedoyin et al., Fattane etal. và Guy Ido et al. thì bài tốn phát hiện chủ đề quan tâm của khách hàng trực tuyến trên các phương tiện truyền thông xã hội thường được xem xét dựa trên nguồn thơng tin được phân tích, cách thức biểu diễn các chủ đề được so sánh, các kỹ thuật được sử dụng để khai thác các mơ hình và các phương pháp để đánh giá:

- Các nguồn thông tin (information sources): Nguồn thông tin là các nguồn được sử dụng để trích chọn thơng tin nhằm tìm kiếm chủ đề quan tâm của khách hàng. Chẳng hạn như nội dung văn bản (posts text, comments, tags), cấu trúc mạng xã hội (social network structures), ảnh và video (images and video)... Các nguồn thông tin thường được chia thành nguồn thông tin bên trong (internal) và nguồn thơng tin bên ngồi (external). Nguồn thông tin bên trong thường là các mạng xã hội đơn (single – OSN)

như LinkedIn, Facebook, Twitter... và các mạng xã hội liên kết chéo (cross-system) như các trang Google+, các trang có thơng tin kết nối liên quan... Nguồn thơng tin bên ngồi thường là các bài đăng trên các website, các mạng tri thức, các từ điển tri thức...

- Cách thức biểu diễn các chủ đề quan tâm của khách hàng (user interest representation units): Là cách thức dùng để biểu diễn các chủ đề quan tâm của khách hàng được làm cơ sở để phát hiện, ước lượng hoặc so sánh. Thường các chủ đề quan tâm của khách hàng có thể biểu diễn dựa trên từ khóa (keywords), hoặc biểu diễn dựa trên nhóm từ khóa (group of keywords), có thể biểu diễn dựa trên khái niệm (concepts) hoặc biểu diễn dựa trên nhóm các khái niệm (group of concepts) dựa trên mạng tri thức như thông qua thực thể hoặc các thể loại.

- Các kỹ thuật khai thác và phân tích cơ sở dữ liệu liên quan đến khách hàng (underlying techniques): Hiện nay có khá nhiều kỹ thuật được sử dụng trong khai thác và phân tích để phát hiện các chủ đề quan tâm của khách hàng. Điển hình như các mạng nơ ron nhúng (embeddings neuron); các hệ thống lọc cộng tác (collaborative filtering); mơ hình chủ đề (topic modelling); dự đốn liên kết (link prediction); hồi quy tuyến tính (regression); các phương pháp dựa trên đồ thị (graph methods); các kỹ thuật khai thác web ngữ nghĩa. Bên cạnh đó, hiện nay các cơ sở dữ liệu chuẩn để phát hiện và phân tích về chủ đề quan tâm của khách hàng vẫn chưa có một bộ dữ liệu chuẩn, các cơ sở dữ liệu phân tích hầu hết được các nghiên cứu tự thu thập dựa trên các API hoặc dựa trên phương pháp thủ công.

- Các phương thức để đánh giá (evaluation methodology): Đánh giá bên trong và đánh giá bên ngoài (intrinsic và extrinsic) là các phương pháp được sử dụng trong đánh giá các kỹ thuật và phương pháp phát hiện chủ đề quan tâm của khách hàng. Đánh giá bên trong là phương pháp đánh giá về chất lượng của cấu trúc các thông tin quan tâm của khách hàng dựa trên nghiên cứu khách hàng hay dựa trên đánh giá của chính khách hàng. Đánh giá bên ngồi là phương pháp đánh giá cấu trúc thơng tin quan tâm của khách hàng dựa trên xem xét ảnh hưởng của các chủ đề quan tâm đến các ứng dụng như các hệ thống khuyến nghị khách hàng, các hệ thống dự báo ...

Theo khảo sát của nhóm nghiên cứu, bài tốn phân tích khách hàng theo chủ đề quan tâm trên các phương tiện truyền thơng xã hội có hai hướng tiếp cận chính:

Một là, tập trung vào các mối liên kết của khách hàng bao gồm theo cấu trúc của mạng xã hội, theo các kết nối, các liên kết của khách hàng còn gọi là tập trung vào khách hàng (user-centric)

Hai là tập trung vào các đối tượng được sinh ra bởi khách hàng các phương tiện truyền thông xã hội như các bài viết, các bài chia sẻ, các hành vi như thích, bình luận cịn gọi là hướng đối tượng (object-centric).

Với hướng tiếp cận user-centric, các nghiên cứu tập trung phát hiện chủ đề quan tâm của khách hàng bằng cách phân tích các mối liên kết, các cấu trúc mạng, các đặc trưng ít thay đổi của khách hàng trên các mạng xã hội như thông tin cá nhân của khách hàng (profile’s user), vị trí địa lý (locality), các tương tác và các hành vi di chuyển (mobility and social interactions), các kết nối bạn bè, hàng xóm (friends, neighbors),

các liên kết được theo dõi (follows experts, follow famous people), các kết nối và tương tác thông qua các ứng dụng (internet connections), các kết nối của khách hàng (node in

social network), các cộng đồng (community extraction) ...

Với hướng tiếp cận object-centric, các nghiên cứu tập trung phát hiện quan tâm của khách hàng bằng cách phân tích các đối tượng được tạo ra trong quá trình tương tác của khách hàng trên các mạng xã hội như nội dung các bài đăng (post, tweets…), các thẻ đánh dấu (tags), các bình luận (comment), các thơng tin trong các bài chia sẻ (content of

sharing), các hành vi thích (like), thả cảm xúc (emotions) ...

Một phần của tài liệu (Luận văn Đại học Thương mại) NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN (Trang 34 - 37)