Các tổ chức hàng đầu đang chuyên đổi tư duy của họ về dữ li[lu, từ viLle coi dữ HLu như một chỉ phí hoạt động cần được giảm thiểu sang nuôi dưỡng dữ liLu như một tài sản chiến lược cần đ
Trang 1
ĐẠI HỌC QUOC GIA THANH PHO HO CHi MINH
TRUONG DAI HOC KINH TE - LUAT
KHOA QUAN TRI KINH DOANH
NGHIEN CUU MARKETING
Dé tai: SU TROI DAY CUA BIG DATA TRONG NGHIEN CUU
MARKETING GVHD: ThS VO THI NGOC TRINH
Thành phố Hồ Chí Minh, tháng 11 năm 2021
Trang 2MỤC LỤC
1.1 Khái niệm 2 1.2 Phân loại 3 1.3 Các giả định của Big Data 4 1.4 Thách thức khi sử dung Big Data 6 CHƯƠNG 2: BIG DATA TRONG NGHIÊN CỨU MARKETING 8 2.1 Khái niệm nghiên cứu Marketing 8 2.2 Nghiên cứu Marketing truyền thống và Nghiên cứu Marketing sử dụng Big Data 8 2.3 Mô hình trích xuất thông tin từ Big Data cho nghiên cứu marketing 9 2.3.1 Thu thập và lưu trữ dữ liệu 10 2.3.2 Xử lý làm sạch dữ liệu 10
2.3.4 Mô hình hóa va phân tích dữ liệu 11
2.4 Phân tích Big Data và mô hình 5Ps 12 2.4.1 Phan tich két hop (Association analysis) 13 2.4.2 Phân tich g6p nhém (Clustering analysis) 14 2.4.3 Phương pháp phân loại (Classification anaÌySÏS) .- «<< <e<<es<essesee 14 2.4.4 M6 hinh chu dé (Topic modelling) 14 2.4.5 Lọc tương tác (Collaborative filtering) 15 2.4.6 Phân tích hồi quy (regression analysis) 15
CHƯƠNG 3: ỨNG DUNG CUA BIG DATA TRONG NGHIEN CỨU
MARKETING CUA AMAZON 17
3.1.1 Nguồn thông tin cần thu thập 17 3.1.2 Cách xử lý nguồn thông tin 17 3.1.3 Vận dụng những thông tin đã xử lý 18
Trang 3
3.2 Mô hình giao hàng dự đoán 19
3.2.1 Nguồn thông tin cần thu thập 19 3.2.2 Cách xử lý nguồn thông tin 19 3.2.3 Vận dụng những thông tin đã xử lý 19
3.3.1 Nguồn thông tin cần thu thập 19 3.3.2 Cách xử lý nguồn thông tin 20 3.3.3 Vận dụng những thông tin đã xử lý 20 3.4 Dịch vụ khách hàng Alexa 20 3.4.1 Nguồn thông tin cần thu thập 20 3.4.2 Cách xử lý nguồn thông tin 21 3.4.3 Vận dụng những thông tin đã xử lý 21
CHUONG 4: NHUNG CO HOI VIEC LAM MO RA DOI VOI MANG DATA
4.1 Marketing Insight and Analysis (1000 - 3000 USD) .-«eeses se 23 4.2 Chuyên viên phân tích chỉ số Marketing (1000 - 2500 USD) 23 4.3 Social Data Analysis (700 - 2000 USD) 23
Trang 4
iti
DANH MUC BANG
Bảng 1.1 So sánh Dữ liệu cấu trúc và Dữ liệu phi cấu trtiC cccccccccecseeseessesssessessssesssessesseee 4 Bảng 2.1 So sánh nguyên cứu Marketing truyền thống và nghiên cứu Marketing sử dựng 7 9 ; nn8n8®ee 9 [17/1.027m7m 01).09 01 0n nen e.< 12 Bảng 3.1 Tóm tắt các ứng dụng Big Data trong nghiên cứu Marketing của Amazon 21
DANH MỤC HÌNH
Hình 2.1 Process for Extracting Insights From Big DAqIA c.eccexeeeeeexee 10
Trang 5
IV
DANH SÁCH THÀNH VIÊN
Họ tên MSSV Nhiệm vụ cụ thê
thành
1 Phan Van Duc K194070896 Nội dung + Thuyết trình 100%
2 Dương Thị Hoàng Hạ KI194070898_ | Nội dung + Thuyết trình 100%
(Nhóm trưởng)
3 NeguyUin Thi HOng Hu} K194070904 Nội dung + Thuyết trình 100%
4 Võ Hoàng Nhật Vy K194070957 Nội dung + Slide 100%
Trang 6LOI MO DAU
Cuộc Cách mạng cong nghilp lần thứ tư đã đi qua được một thập kỷ, tuy còn những bất cập mà chúng ta chưa giải quyết được nhưng tầm quan trọng và lợi ích mà nó mang
lại là điều không thể chối cãi Mặc dù không phải là một khái mm mới nhưng đến giai
đoạn này, thể giới mới thực sự chứng kiến sự bùng nỗ của ký nguyên Big data Big Data thê hiLìn vai trò của mình trong mọi lĩnh vực từ y té, vin thông, sản xuất, hàng không, tài
chính, ngân hàng, điLIn tử, giải trí, Có thê thấy, dir liu là vũ khí hết sức quan trọng, ai
năm được thông tin, người đó sẽ vượt lên dẫn đầu và bỏ xa những đồi thủ còn lại Thật vậy, trong thế giới phẳng như hiLln nay, viLlc nắm bắt tâm lý và hành vi của khách hàng cũng ngày càng khó khăn hơn Doanh nghiLlp muốn bắt kịp xu hướng chung
và phát triển bền vững cần tập trung vào chuyên đổi số, đầu tư vào công nghỉ], đặc biL)t là trong lĩnh vực Marketing Nhằm thấu hiểu khách hàng, tạo ra trải nghiLÌm mua hàng tốt
nhất Kết hợp với Big Data, doanh nghiL]p sẽ nắm được nhiều thông tin hơn, thấu hiểu
khách hàng hơn, từ đó gia tăng trải nghiLlm khách hàng và giúp doanh nghiL]p nắm được lợi thế cạnh tranh so với các đôi thủ Đó cũng chính là lý do nhóm chúng em chọn đề tài
“Sư bùng nỗ của Big data trong Nghiên cứu Marketing” dé tiễn hành tìm hiểu và nghiên cứu
Chúng em xin cảm ơn Cô Võ Thị Ngọc Trinh đã cho nhóm những kiến thức bồ ích
cũng như cơ hội đề tiễn hành đề tài này
Với thời gian và năng lực còn hạn chế sẽ không thê tránh những sai sót Chúng em rất mong cô thông cảm và được nhận những nhận xét, góp ý từ cô
Một lần nữa chúng em chân thành cảm ơn
Trang 7CHUONG 1: SO LUOC VE BIG DATA
1.1 Khai niém
Big Data duoc xem là xu hướng công nghi] xuất hiLIn trong thời đại Cách mang
công nghiLIp 4.0 và hứa hẹn là lời giải cho rất nhiều bài toán kinh doanh hóc búa không
chỉ đối với các doanh nghiL]p trên thế giới mà còn cả với các doanh nghi[}p ViLlt Nam trong bối cảnh hội nhập sâu và rộng vào nền kinh tế quốc tế Các tổ chức hàng đầu đang chuyên đổi tư duy của họ về dữ li[lu, từ viLle coi dữ HL)u như một chỉ phí hoạt động cần được giảm thiểu sang nuôi dưỡng dữ liL)u như một tài sản chiến lược cần được mua lại, làm sạch, được chuyên đổi, làm giàu và phân tích để mang lại thông tin chỉ tiết hữu ích
Vậy, Dữ liệu lớn (Big data) là một thuật ngữ về việc xử lý một tập dữ liệu rất
lớn và phức tạp khác với cách truyền thông Dữ liệu này bao gồm các hoạt động khác nhau như: thu thập, tìm kiếm, giám sát, dự báo, phân tích hành vi người dùng, hoặc một sô phương pháp phân tích đữ liệu tiên tiễn khác nhằm trích xuất những giá trị từ
dữ liệu mà ít khi đề cập đến kích thước dữ liệu này Cụ thê, nó có thể truy vấn những
tập tin phi cầu trúc (unstructured ñles) như video kỹ thuật số, hình ảnh, dữ liL]u cảm biến, tập tin lưu nhật ký, thực sự bất cứ dữ liLlu nào không có trong hL] sơ với các phạm vi tìm kiếm khác
Năm 2014, Gartner đưa ra một khái niÌm mới về Big Data với mô hình “5Vs” tương ứng với năm tính chất quan trọng, như sau:
Volume: là sự tăng trưởng về mặt khối lượng Dữ l[ lu trong các h[] thống thông
tin luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng) Chúng ta có thê tim thay dữ li[)u trong các định dạng video, music, image lớn trên các kênh truyền thông
xã hội Khối lượng dữ li[ìu của một hL) thống thông tin có thể lên đến hàng Terabyte và Petabyte Theo tài lilu của Intel hL1¡i tháng 9/2013, cứ mỗi 11 giây, l PBI dữ lilu được tạo ra trên toàn thê giới, tương đương với một đoạn video HD dài 13 năm Facebook phải
xử lý khoảng 500 TB2 dữ liElu mỗi ngày
Velocity: la sw tăng trưởng về mặt tốc độ xử lý Bên cạnh sự tăng trưởng về khối lượng, tốc độ tăng trưởng của dữ liLiu cũng tăng lên một cách chóng mặt Các ứng dụng được sử dụng phô biến trên các lĩnh vực Internet, tài chính, ngân hàng, hàng không, quân
sự, y tế - sức khỏe ngày nay phần lớn đều được xử lý trong thời gian thực thông qua hL
Trang 8thống Big Data Đơn cử, trên các mạng xã hội, đôi khi các thông báo cách đó vài giây (tweet, status ) đã là cũ và không được người dùng quan tâm Người dùng thường loại
bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất Sự chuyển động của dir lidu giờ đây hầu như là tức thời (real time), và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây
Variety: la sy tang lén vé tinh da dang cua dit liu Dit liu khong chi 6 dang có cầu trúc, mà còn bao gLìm rất nhiều kiểu dữ liLu phi cầu trúc nữa (như video, hình ảnh, dữ liLlu cám biến, giọng nói, blog, .) Big Data cho phép chúng ta phân tích và liên kết đa
đạng các chủng loại dữ li[lu với nhau ví dụ như các bình luận, bài đăng của một nhóm
người dùng nào đó trên Facebook với thông tin các video đã được chia sẻ từ các kênh xã hoi khac nhau nhu YouTube, Twitter
Veracity: la tinh xac thuc cua dit liu Voi xu hudng “Social” ngày nay và sự gia tăng mạnh mẽ tính tương tac va chia sẻ của người dùng di động đã làm cho khả năng xác
định về độ tin cậy và tính chính xác của dữ li[lu ngày một khó khăn hơn Bài toán phân
tích và loại bỏ dữ li[)u thiếu chính xác và gây nhi[]u đang là một trong những tính chất quan trọng của Big data
Value: Gia tri thông tin mang tính chất quan trọng nhất của xu hướng công ngh[] Big Data Thật vậy, doanh nghi[lp phải hoạch định được những giá trị thông tin hữu ích của Big Data một cách phù hợp nhằm giải quyết cho những vấn đề, bài toán mà doanh nghiL]p đang gặp phải hoặc mô hình hoạt động kinh doanh của mình Có thể nói vic dau tiên các doanh nghiL lp cần làm trước khi bắt tay vào thực hiLin Big Data là phải làm sao
xac dinh duoc tinh chat “Value” cua nó
1.2 Phan loai
De liOu đến từ nhiều ngu[In và thuộc các định dạng khác nhau nên chúng rat da
dang Chinh vi vay, vic phan loai dit liu cting co nhiéu cach Va mét trong nhitng cach
cơ bản nhat va thé hin duoc su khac bilt giữa các loại dữ liLlu là phân loại dựa vào cầu
trúc của chúng: Dữ liL)u có cầu trúc và Dữ liLlu phi cấu trúc
Dữ liệu có cấu trúc là những thông tin được thê hiLIn trong các cột và hàng có tiêu
đề, có thể dL] dàng đặt hàng và xử lý bằng các công cụ tìm kiếm dữ liLìu Chúng ta có thê
Trang 9xem chúng như một tủ hL] sơ được tô chức hoàn hảo, các dữ li[lu được xác định, dán nhãn
và dL] dàng truy cập
Dữ liệu phi cấu trúc là những thông tin không được tổ chức thông qua các mô
hình hoặc lược đL] dữ liLlu được xác định trước
Bảng 1.1 So sánh Dữ liệu cấu trúc và Dữ liệu phi cấu trúc
Dữ liệu có cấu trúc Dữ liệu phi cấu trúc
Ví dụ - Ngày tháng - Cac file van ban (text), file PDF
- Tên khách hàng, địa chí - Tin nhắn, Email
- Tên sản phâm, SỐ lượng - File Audio, Video, ảnh
- Các thông tin giao dịch - Các nội dung truyền thông trên
mạng xã hội
Đặc trưng - Mô hinh dữ lLlu được xác| - Không có mô hình dữ lí lu được
định trước (thường chỉ có | xác dinh trước
dang van ban) - Có thể là dạng văn bản, hình ảnh,
- DO tim kiém video, âm thanh hoặc định dang
khác
- Khó tìm kiếm
Ứng dụng chính | - Kiểm soát hàng tL1n kho - Xử lý văn bản
- HO théng CRM, ERP - Phan mém trinh chiéu
- HO thong dat vé may bay | - Email
- Cac công cụ hiển thị và chính sửa
N=All
Trang 10Nếu thu thập thông tin dựa trên mẫu nhỏ, thậm chí những kết quả được thu thập
“một cách khoa học” thì thông tin đó cũng không đáng tin cậy (phương sai cao trên các
mẫu lặp lại), không mang tính đại diLln và không đủ sức mạnh về mặt thông kê (tức là,
các suy luận hợp lý bị hạn chế) Một số nhà nghiên cứu cho rằng Big Data có thể khắc phục những hạn chế này và sẵn sàng cung cấp các bài kiểm tra về các thông số dân số vì
nó tương đối rẻ, tương đôi đại diLln, được bố sung liên tục và dL] dàng sao chép Tuy nhiên, một lưu ý quan trọng liên quan đến giả định này: Big Data loại trừ những người không sử dụng internet hoặc công nghi! xử lý thông tin kỹ thuật số ViLle tham gia vào nền táng trực tuyến, cho dù thương mại hay không, thì cũng có sự khác biL)t đáng kê theo
vị trí địa lý, tuổi tác, giới tính, chủng tộc và các yêu tô xã hội học khác
(www.statista.com)
Today = Tomorrow
Bởi vì nó di động và có mặt khắp nơi, cuộc sống kỹ thuật số năng động hơn nhiều
so với cuộc sông thực Người tiêu dùng liên tục chuyên đổi, thir va tir bé sy hin din ky
thuật số của họ Các dấu vết của hành vi đó có thê trở thành đối tượng của cuộc điều tra
Ban đầu, Facebook giới hạn thành viên cho người dùng trong ngành giáo dục; do đó, chí
cần đăng ký một tài khoản email edu Khi Facebook mở rộng, nó đã được mở cho cả
những người dùng phi giáo dục
Online behavior = Offline behavior
Newoi tiéu ding co thé hin cac mé hinh hanh vi giéng nhau ca trén trực tuyên và ngoại tuyến không? Điều này rất phức tạp và các nhà tiếp thị phải tìm hiểu cách người tiêu dùng biểu hiL1n trong cá hai mô hình hành vi mua hàng đôi với các sản phâm cụ thé Behavior of all today = Behavior of all tomorrow
Gia dinh nay tong hop ba gia dinh noi trén Big Data là sự phản ánh sô hóa không hoàn hảo về cuộc sông trực tuyến và ngoại tuyến của con người Các mô hình mô tả hành
vi của người tiêu dùng đang thay đổi để giải thích cho ảnh hưởng của công ngh[] và
internet
Những giả định này giúp kiêm soát những thông tin co duge tir ville phan tích Big Data Nhiều nhà tiếp thị tin rằng tất cả người tiêu dùng của họ đều có mặt trực tuyến và
Trang 11sẽ cư xử giống nhau cho dù trực tuyến hay ngoại tuyên Tuy nhiên, vi[)c không đặt câu hỏi hoặc không quan tâm các giả định nói trên có thể cản trở khả năng tLln tại của các
phân tích Big Data đối với doanh nghi ]p
1.4 Thách thức khi sử dụng Big Data
Big Data là bước ngoặt đánh dấu sự phát triển của Cách mạng Công nghiLJp 4.0, viLlc ứng dụng công nghL] này mang lại tiềm năng phát triển tuyL]t vời cho doanh nghiL]p Tuy nhiên viLìc ứng dụng Big Data một cách hiL1u quả thì không phải là diéu dO dang va còn rất nhiều thách thức mà các doanh nghiLlp cần phải đôi mặt
Sự đa dạng thông tin: Trước khi tiễn hành phân tích dữ lilu, doanh nghiFlp cần dam bao nguUin dir liu la chính xác và có định dạng phù hợp cho vILlc phân tích Trên thực tế thì sự tLIn tại của một dữ liL1u đLIng nhất và có cấu trúc tốt với cùng kích thước và
câu trúc là rất cần thiết Chính vì vậy, vI[lc làm sạch và xử lý các lỗi từ các ngu[1n đữ li lu
không đầy đủ hay các đữ liLlu gây nhi )u là tối quan trọng và không thể thiếu Tuy nhiên,
điều đó đòi hỏi doanh nghiLlp cần đầu tư một khoản chỉ phí (thời gian, ngân sách) lớn để
có được kết quả mang giá frỊ cao
Quy mô: Thực tế cho thấy rằng khối lượng dữ liLlu đang gia tăng khá lớn và gần như đã vượt qua khả năng sức mạnh xử lý và lưu trữ của máy tính Bên cạnh đó, viLlc truyền đữ liL1u lớn thường phải gánh chịu chỉ phí cao Đây là “nút cô chai” của viL!c tính toán Big Data
Yếu tô thời gian: Khi số lượng dữ liLlu tăng nhanh chóng, các kết quả phân tích thi cần phải được đưa ra một cách tức thì nghĩa là trong thời gian thực nên cần phải có sự phát triển các quy trình xử lý dựa vào sự gia tăng của các cấu trúc dữ liLlu nhằm đạt được mục đích cuối cùng đó là đáp ứng yêu cầu truy cập thông tin một cách tức thì của người
sử dụng
Tính cá nhân và Bảo mật dữ liệu: Các yếu tô luật pháp liên quan đến các hạn chế
về quyền cá nhân hiLìn đang trở thành một mối đe dọa vì nó có thể hạn chế các ích lợi tiềm năng Chính vì lý do đó mà các chính sách an ninh mạng hay cụ thê là an ninh thông
Trang 12tin chia sẻ các dữ li[?u liên quan đến người dùng cá nhân cần phải được xem xét một cách
thận trọng và nghiêm túc Bên cạnh đó, một số ví dụ trong thực tế cho thấy, không chỉ
thông tin cá nhân người tiêu dùng, thông tin mật của các tô chức mà ngay cả bí mật an ninh quốc gia cũng có thể bị xâm phạm Do đó, giải quyết các vấn đề an ninh dữ liL'u băng các công cụ kỹ thuật và các chính sách trở nên vô cùng câp bách
Thiếu chuyên gia công nghệ: Dù là thời đại công nghL) 4.0, hoạt động bằng máy móc chiếm ưu thế, nhưng nêu không có con người vận hành, quản lý thì dù máy móc có hiLIn đại đến đâu cũng khó có thể mang đến hiL)u quả tốt nhất Công nghị] Big Data cũng vậy Các đánh giá của chuyên gia là hết sức cần thiết để có thể hiểu các nguLìn đữ liLu và
để khai thác một cách tối ưu các tiềm năng của nó đòi hỏi sự phối hợp nhịp nhàng và nhuân nhuyLÌn giữa máy móc và con người
Đòi hỏi thay đối văn hóa doanh nghiệp: Văn hóa doanh nghiL]p được xây dựng và phát triển không phải chỉ trong ngày một ngày hai Chính vì vậy, để một doanh nghi ]p thay đối văn hóa làm viLìc của mình, đặc biLlt là từ truyền thông sang hiLìn đại, không phải
là điều đơn giản Theo khảo sát của New Vantage, chỉ có 32.4% doanh nghiL]p thành công trong viLIc thay đôi văn hóa doanh nghiL ]p theo hướng hiLIn đại mới
Trang 13CHƯƠNG 2: BIG DATA TRONG NGHIÊN CỨU MARKETING
2.1 Khái niệm nghiên cứu Marketing
Theo Philip Kotler (2003) “Nghién ctu marketing là xác định một cách có h[] thống những tư liLlu cần thiết do tình huồng marketing đặt ra cho một công ty, thu thập, phân tích chúng và báo cáo kết quả”
Theo Hillp hội Marketing Mỹ (AMA): Nghiên cứu marketing là quá trình thu thập
và phân tích có hL thống những dữ li_'u về các vấn đề liên quan đến các hoạt động marketing cua doanh nghillp
Tư tưởng chủ đạo của Marketing là “Mọi quyết định kinh doanh đều xuất phát từ thị trường” Muốn thực hiL]n được tư tưởng chủ đạo này thì phải có đầy đủ thông tin về thị trường, về môi trường kinh doanh Căn cứ vào các thông tin thu được qua nghiên cứu Marketing, các nhà quản lý sẽ vạch ra chiến lược, chính sách kinh doanh phù hợp nhắm
vào thị trường mục tiêu
2.2 Nghiên cứu Marketing truyền thống và Nghiên cứu Marketing sử dụng Big Data
Nhìn chung mục đích của nghiên cứu marketing là để chuyên đổi dữ liLJu thu thập
được thành thông tin có giá trị và hiểu biết hữu ích cho viLlc ra quyết định Mặc dù khái
ni(]m và mục tiêu của nghiên cứu marketing vẫn không thay đôi trong bối cảnh Big Data, nhưng với lợi ích ngày càng lớn của viLle phân tích big data như hiL)n nay thì đòi hỏi cần
có một quan điêm nghiên cứu marketing rộng hơn
Nhóm chúng tôi đưa ra một số điểm khác biLJt giữa nghiên cứu Marketing truyền thống và nghiên cứu Marketing sử dụng Big Data, các tiêu chí so sánh chủ yếu là về thu thập và phân tích dữ li[ìu Nghiên cứu Marketing truyền thông theo nhóm là nghiên cứu thường dựa trên sự giả định đữ lilu ngẫu nhiên và sử dụng các phương pháp thông kê truyền thống, còn Nghiên cứu Marketing str dung Big Data gia định dữ li['u có độ phức tạp cao và sử dụng thêm các phương pháp thống kê nâng cao bên cạnh các phương pháp thống kê truyền thống đã được cải tiễn Đặc biLlt, trong quá khứ chưa có sự bùng nô của
tiễn bộ khoa học kỹ thuật như hiL]n nay.
Trang 14Bang 2.1 So sánh nguyên cứu Marketing truyền thống và nghiên cứu Marketing sử
dung Big Data Tiêu chí Nghiên cứu Marketing truyền Nghiên cứu Marketing str dung Big Data
thống
lượng dữ mô tả theo khoảng thời gian theo thời gian thực phong phủ hơn
liJu nhất định
Ngundữ Chủ yếu là khảo sát trực tiếp Từ các thiết bị lưu trữ dữ li[lu người dùng liu khách hàng qua phong van, nhu dilin thoại thông minh, phương til bảng câu hỏi và các trang truyền thông xã hội, các thiết bị cảm biến, cung cấp dữ liL)u thứ cấp
Lưutrữ Thiết bị lưu trữ, quán lý có Công ngh[] điL1n toán dam may cung cap ki
va quan ly dung lượng lưu nhỏ thuật lưu trữ, quản lý với lưu lượng lớn và dtr liu hiLlu quả Một số nền tảng lưu trữ đám mây
hidn nay g[Ìm: Google Store, Amazon
Microsoft Azure, IBM Blue Cloud
Phuong Phương pháp phân tích dữ Phương pháp phân tích bịg data là các mô pháp phân lirlu truyền thống bắt nguLli hình thuật toán cũng dựa trên thống kê và tíchdữ từ thống kê và khoa học máy khoa học máy tinh hiln dai hon cho phép lidu — tính như phân tích cụm, phân trích xuất thông tin và tạo ra các mô hình dự tích nhân tố, phân tích tương đoán hiLlu quả cao ví dụ như mô hình thuật quan, phân tích hL]1 quy toán MapReduce do Google đề xuất, kỹ thuật
phân tích và giải mã NLP
(Nguôn: Nhóm tự tông hợp) Thực tế hiLìn nay chưa có nhiều phương pháp phân tích dữ liL1u big data duoc phat triển vì khối lượng và tốc độ của nó quá lớn Tuy nhiên trong thời đại công nghiL'p 4.0 như hiLIn nay, ville doanh nghiL]p biết cách phân tích dữ liLlu big data sẽ là một loi thé rat
lớn
2.3 Mô hình trích xuất thông tin từ Big Data cho nghiên cứu marketing
Điều thực sự mang lai gia tri cho villc sử dung big data la phân tích dữ liệu Néu không có phân tích, big data chỉ là một tập dữ liL?u với viLJc sử dung han chế
Trang 1510
Khi mà sự xuất hiLin cua big data dang dần định hình lại quá trình nghiên cứu
marketing M6 hình dưới đây trình bày năm giai đoạn chính của nghiên cứu marketing sử dung big dafa Trong đó, năm giai đoạn này được nhóm thành guản lý đữ liệu (dafa management) và phân tích (analytics) Quản lý đữ liệu là những quy trình và công ngh[ ]
hỗ trợ được thiết kế và sử dụng đề thu thập, lưu trữ và trích xuất dữ liu cho ville phan
tích ở giai đoạn sau Còn Phân tích là tập hợp các kỹ thuật được sử dụng để phân tích, phác họa và tạo ra những thong tin co giả trị từ nguLln dữ liL lu bịg data
Hinh 2.1 Process for Extracting Insights From Big Data
(Nguồn: Gandomi & Haider, 2015; Japkowicz & Stefanowski, 2016; Labrinidis &
Jagadish, 2012) 2.3.1 Thu thập và lưu trữ dữ liệu
Để có dữ liLJu thì đầu tiên cần phải thu thập, vẫn đề chính gây khó khăn cho viLJc
thu thap dit liu tir big data đó là sự phân tán của dữ li[?u ở nhiều ngu[Jn khác nhau Các công cụ thu thập dữ liLìu từ thiết bi cảm biến người dùng (cảm biến là sự đo lường và biến
đôi đại lượng vật lý thành tín hiL)u số có thể đọc được, dữ liL)u cảm biến có thê là sóng âm
thanh, giọng nói, rung động ), thiết bị có định vị vị trí, các phương ti 1n truyền thông xã
hội, giao dịch tài chính, đi[1n thoại thông mình,
Dir liu sẽ được ghi lại và lưu trữ trên nhiều thiết bị lưu trữ như kho dữ liLlu truyền
thong, data lakes hay din toan dam may
Dữ liLlu được thu thập và lưu trữ ở giai đoạn này là dữ li[ lu thô, chưa có giá trị sử
dụng cao
2.3.2 Xử lý làm sạch dữ liệu
Thông thường dữ liLlu từ các ngu[}n công khai thường không đầy đủ, không có cầu
trúc nhất quán (dữ liL)u ở nhiều kiểu khác nhau như: văn bản, âm thanh, video ), bị lỗi
định dạng hay đơn gián là sai Ví dụ, những người tham gia khảo sát có thé trả lời sai hay
dữ liL)u thu được từ các thiết bị theo dõi trên điL1n thoại thông minh (các app được hỗ trợ
Trang 1611
GPS) co thé sai do thiết bị đó bị hỏng Đề biến những dữ li[)u thô này thành đữ liLlu có giá trị chúng ta cần tiễn hành xử lý dữ Hr)u
Xử lý đữ lirlu là quá trình xác định và sửa lỗi dữ liL!u để đảm bảo chất lượng của
dữ hLu bằng các thuật toán Ví dụ khi xác định được với dữ li[lu bị lỗi định đạng thì tiến hành thay đổi về định dạng phù hợp, hay tiền hành xóa bỏ những dữ liLlu bị sai
Đây là bước quan trọng cân thiết để đảm báo các tLlp dữ liL)lu đáp ứng các tiêu chuân về chât lượng và co gia tri su dung
2.3.3 Tông hợp, đối chiếu dữ liệu
Đề tiến hành phân tích dữ liLlu cần hợp nhất các tLlp dữ liL1u không đLìng nhất với
kích thước đa dạng ở bước trên thành một tập dữ liLJu tích hợp phù hợp với nhu cầu
nghiên cứu Sau đó, tiễn hành đối chiếu dữ li[)u, tìm những dữ liLlu giống nhau, bị trùng
lap dé loại bỏ Sự trùng lặp dữ liLJu là rất phố biến trong các tLlp đữ li[L)u từ các nguL1n khác nhau, viLIc loại bỏ những dữ liL0u bị lặp nhằm tránh lãng phí không gian lưu trữ cũng như
để có cơ sở phân tích chính xác Ví dụ như một công ty thẻ tín dụng và một nhà bán lẻ có
thê ghi lại các giao dịch giống nhau của một khách hàng
2.3.4 Mô hình hóa và phân tích dữ liệu
Có rất nhiều loại phân tích được sử dụng đề tìm ra các mẫu thông tin có ý nghĩa trong nguL1n dữ liLlu big data Phân tích văn bán có thê chuyền đổi văn bản như các tweet đánh giá thương hiL lu của người tiêu dùng thành bản tóm tắt các ý chính có ý nghĩa Phân tích âm thanh đê trích xuất thông tin từ âm thanh không có cấu tric, chang han nhu tUp
âm thanh cuộc gọi phản nàn của khách hàng Tương tự, phân tích nội dung video để trích xuất thông tin từ video, ví dụ như các unboxing video do người tiêu dùng tạo Phân tích nội dung hình ảnh cho phép các nhà nghiên cứu trích xuất những dữ li[lu từ những từ được 1n trong một bức ảnh của người tiêu dùng, chang han trén Twitter bi gidi han 5000
ký tự nên người tiêu dùng thường chuyến dữ liLiu văn bản vào ảnh Phương tiL)n truyền thông xã hội và phân tích mạng để khám phá nội dung mà người tiêu dùng tạo trên các nền táng truyền thông xã hội và chuyên các nội dung đó thành âm thanh, video hay các phân tích khác
Sau khi phân tích các kiêu dữ liL1u trên thì nhà nghiên cứu đã có thể xây dựng một
mô hình về hảnh vi, thái độ và tình cảm của khách hảng.