Dữ liệu này bao gồm các hoạt động khác nhan như: thu thập, tìm kiếm, giám sát, dự báo, phân tích hành vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác nhằm trích x
Trang 1
DAI HOC QUOC GIA THANH PHO HO CHI MINH TRUONG DAI HOC KINH TE - LUAT KHOA QUAN TRI KINH DOANH
NGHIEN CUU MARKETING
Dé tai: SU TROI DAY CUA BIG DATA TRONG NGHIEN CUU
MARKETING
GVHD: ThS VO THI NGOC TRINH
Thành phố Hồ Chí Minh, tháng 11 năm 2021
Trang 2
MỤC LỤC
INH.( ii in .a 2 1.2 Phân loại - c c2 00 HH 9 1 Họ in min nu hờn 3 1.3 Các giả đỉnh của Big ÏDa(a 0 0 000000000 00 300 5 19 5 1 s5 sơ sex 4
2.1 Khái niệm nghiên cứu Marketin
2.2 Nghiên cứu Marketing truyền thong và Nghiên cứu Marketing sử dung Big
2.3 Mô hình trích xuất thông tin từ Big Data cho nghiên cứu marketing 9 2.3.1 Thu thập và lưu trữ dữ liệu - co c cc k0 0 00 99 09 05 10 2.3.2 Xử lý làm sạch dữ liệu - c0 0000000090020 0.005.000.090 190 005.08 055 9 555 10
2.3.4 Mô hình hóa và phân tích dữ liệu - - (Sen xe, ll
2.3.5 Trình bày, diễn giai dir li@u sssssssssssssssssssssssssssssssssssssssssssssssssssssssssssessasssooss 12
2.4 Phân tích Big Data và mô hình ŠP$ - 03c HH nh ng ng 12
2.4.2 Phân tích gộp nhóm (Clustering anaÌySÏS) - co ng xe, 14 2.4.3 Phương pháp phân loại (Classificafion anaÌySiS) oe co Y S y sẽ sẽ se sẽ 14 2.4.4 Mô hình chủ đề (Topic modellin
2.4.5 Loc twong tac (Collaborative filterimg) cccccccccsssccssssssssssssnsssssssesnnssscenanen 15 2.4.6 Phan tich hoi quy (regression analySi) -s- sec scssesessesseseeessessssese 15
MARKETING CUA AMAZON HH TT TY TH an 17
3.1 Hệ thống giới thiệu cá nhân + £©EEVseEEEEEEEEEEEEEEEEEEEEEsEEssseszvse 17
3.1.1 Nguồn thông tin cần thu thập ¿- s5 se5eseesseseessessersersessersesse 17
3.1.2 Cách xử lý nguồn thông (in 5+-++v+eeserketetrkseeerksrsrrkrrrve 17
3.1.3 Vận dụng những thông tin đã xử lý
Trang 33.2 Mô hình giao hàng dự đoán uc 20 0n 0 0 S10 5 355 19
3.3 Ti ưu giá CC 2E 5E EE EEkE2EkEEEESEEESEEEESSEEEES SE 3 3515 5E3 3 E11 2 kế E22 19
3.3.1 Nguồn thông tin cần thu thậ
Trang 4DANH MỤC BẢNG
Bảng 1.1 So sánh Dữ liệu cấu trúc và Dữ liệu phi CẤU HFÚC SH n1 Ha 4 Bang 2.1 So sénh nguyên cứu Marketing truyền thông và nghiên cứu Àñarketing sử dụng Big Data
3
Bảng 2.2 5P» qnd Big DdtQ ÁHQỈVÍÍCS HH TT TH TH nà 12 Bang 3.1 Tom tat cdc tng dung Big Data trong nghién cirtu Marketing cura Amazon 21
DANH MUC HINH
Hinh 2.1 Process for Extracting Insights From Big [QÍ@ Tnhh nh TT ng kg bay T0
Trang 51 Phan Van Duc K194070896 Nội dung + Thuyết trình 100%
2 Dương Thị Hoàng Hạ K194070898 Nội dung + Thuyết trình 100% (Nhóm trưởng)
3 Nguy0n Thị Hlng Huê 3 K194070904 Nội dung + Thuyết trình 100%
Trang 6
LỜI MỞ ĐẦU
Cuộc Cách mạng công nghiêÿ lần thứ tư đã đi qua được một thập kỷ, tuy còn những bất cập mà chúng ta chưa giải quyết được nhưng tầm quan trọng và lợi ích mà nó mang lại là điều không thể chối cãi Mặc dù không phải là một khái niêđ mới nhưng đến giai đoạn này, thế giới mới thực sự chứng kiến sự bùng nỗ của kỷ nguyên Big data Big Data thé hié vai trò của mình trong mọi lĩnh vực từ y tế, vi0n thông, sản xuất, hàng không, tài
chính, ngân hàng, điê8 tử, giải trí, Có thê thấy, dữ liêđ là vũ khí hết sức quan trọng, ai
năm được thông tin, người đó sẽ vượt lên dẫn đầu và bỏ xa những đối thủ còn lại
Thật vậy, trong thế giới phẳng như hiêr8 nay, viê8 nắm bắt tâm lý và hành vi của
khách hàng cũng ngày càng khó khăn hơn Doanh nghiê8 muốn bắt kịp xu hướng chung
và phát triển bền vững cần tập trung vào chuyên đôi số, đầu tư vào công nghê 3đặc biêØlà trong lĩnh vực Marketing Nhằm thấu hiểu khách hàng, tạo ra trải nghiêđi mua hàng tốt nhất Kết hợp với Big Data, doanh nghiêổ sẽ nắm được nhiều thông tin hơn, thấu hiểu khách hàng hơn, từ đó gia tăng trải nghiê® khách hàng và giúp doanh nghiê8 nắm được lợi thế cạnh tranh so với các đôi thủ Đó cũng chính là lý do nhóm chúng em chon dé tai
“Sự bùng nô của Big data trong Nghiên cứu Marketing” đề tiễn hành tìm hiểu và nghiên cứu
Chúng em xin cảm ơn Cô Võ Thị Ngọc Trinh đã cho nhóm những kiến thức bô ích cũng như cơ hội đề tiến hành đề tài này
Với thời gian và năng lực còn hạn chế sẽ không thể tránh những sai sót Chúng em rất mong cô thông cảm và được nhận những nhận xét, góp ý từ cô
Một lần nữa chúng em chân thành cảm ơn
Trang 7CHUONG 1: SO LUQC VE BIG DATA
1.1 Khai niém
Big Data duoc xem là xu hướng công nghê 3 xuất hiê 3rong thời đại Cách mạng
céng nghié 4.0 và hứa hẹn là lời giải cho rất nhiều bài toán kinh doanh hóc búa không
chỉ đối với các doanh nghiê§ trên thế giới mà còn cả với các doanh nghiê8 Viê8Nam trong bối cảnh hội nhập sâu và rộng vào nền kinh tế quốc tế Các tổ chức hàng đầu đang
chuyên đổi tư duy của họ về dữ liêđ, từ vi&3co¡ dữ liêô như một chỉ phí hoạt động cần
được giảm thiểu sang nuôi dưỡng dữ liêđ như một tài sản chiến lược cần được mua lại, làm sạch, được chuyển đối, làm giàu và phân tích để mang lai thong tin chi tiết hữu ích Vậy, Dữ liệu lớn (Big dafa) là một thuật ngữ về việc xử lÿ một tập dữ liệu rất lớn và phức tạp khác với cách truyền thông Dữ liệu này bao gồm các hoạt động khác nhan như: thu thập, tìm kiếm, giám sát, dự báo, phân tích hành vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác nhằm trích xuất những giả trị từ
dữ liệu mà ít khi đề cập đến kích thước dữ liệu này Cụ thê, nó có thê truy vẫn những tập tin phi cau tric (unstructured files) nhu video kỹ thuật số, hình ảnh, dữ liê8 cảm biến, tập tin lưu nhật ký, thực sự bất cứ dữ liê8 nào không có trong hl sơ với các phạm vi tìm
xã hội Khối lượng dữ liêđ của một hê 3 thống thông tin có thê lên đến hàng Terabyte và Petabyte Theo tài liêđ của Intel h1i tháng 9/2013, cứ mỗi I1 giây, I PBI đữ liê6 được tạo
ra trên toàn thế giới, tương đương với một đoạn video HD dài 13 năm Facebook phải xử
lý khoảng 500 TB2 dữ liê8 mỗi ngày
Velocity: là sự tăng trưởng về mặt tốc độ xử lý Bên cạnh sự tăng trưởng về khối lượng, tốc độ tăng trưởng của dữ liêđ cũng tăng lên một cách chóng mặt Các ứng dụng được sử dụng phô biến trên các lĩnh vực Internet, tài chính, ngân hàng, hàng không, quân
sự, y tế - sức khỏe ngày nay phần lớn đều được xử lý trong thời gian thực thông qua hê 3
Trang 8thống Big Data Đơn cử, trên các mạng xã hội, đôi khi các thông báo cách đó vài giây (tweet, status ) đã là cũ và không được người dùng quan tâm Người dùng thường loại
bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất Sự chuyên động của dữ liê8 giờ đây hầu như là tức thời (real time), và tốc độ cập nhật thông tin đã giảm xuống đơn vị hang mili gidy
Variety: là sự tăng lên về tính đa dạng của dữ liêđ Dữ liê8không chỉ ở dạng có cầu trúc, mà còn bao gIm rất nhiều kiêu dữ liê8 phi cầu trúc nữa (như video, hình ảnh, dữ liê8 cảm biến, giọng nói, blog, .) Big Data cho phép chúng ta phân tích và liên kết đa dạng các chủng loại dữ liêđ với nhau ví dụ như các bình luận, bài đăng của một nhóm người dùng nào đó trên Facebook với thông tin các video đã được chia sẻ từ các kênh xã hội khác nhau như YouTube, Twitter
Veracity: là tính xác thực của dữ liêđ Với xu hướng “Social” ngay nay va sự gia tăng mạnh mẽ tính tương tác va chia sẻ của người dùng di động đã làm cho khả năng xác định về độ tin cậy và tính chính xác của dữ liêđ ngày một khó khăn hơn Bài toán phân tích và loại bỏ dữ liê6 thiếu chính xác và gây nhi0u đang là một trong những tính chất quan trọng của Big data
Value: Giá trị thông tin mang tính chất quan trọng nhất của xu hướng công nghê 3 Big Data Thật vậy, doanh nghiêg phải hoạch định được những giá trị thông tin hữu ích của Big Data một cách phù hợp nhằm giải quyết cho những vấn đề, bài toán mà doanh
nghiêj đang gặp phải hoặc mô hình hoạt động kinh doanh của mình Có thể nói viêØ đầu
tiên các doanh nghiê8 cần làm trước khi bắt tay vào thực hiê8Big Data là phải làm sao xác định được tính chất “Value” của nó
Dữ liệu có cấu trúc là những thông tin được thê hiê8 trong các cột và hàng có tiêu
dé, cd thé dO dang dat hàng và xử lý bằng các công cụ tìm kiếm dữ liêđ Chúng ta có thê
Trang 9xem chúng như một tủ hl sơ được tô chức hoàn hảo, các dữ liêđ được xác định, dán nhãn
- Tên khách hàng, địa chi - Tin nhắn, Email
- Tên sản pham, SỐ lượng - File Audio, Video, anh
- Cac théng tin giao dich -_ Các nội dung truyền thông trên
mạng xã hội Đặc trưng - Mô hình dữ hê@ được xác | - Không có mô hình dữ liêø được
định trước (thường chỉ có| xác định trước dạng văn bản) - Có thé là dang van ban, hinh anh,
- DO tim kiém video, âm thanh hoặc định dạng
khác
- Khó tìm kiếm
Ứng dụng chính | - Kiểm soát hàng tIn kho - Xử ly văn bản
- Hê ống CRM, ERP - Phần mềm trình chiều
- Hê fhồng đặt vé máy bay - Email
- Các công cụ hiển thị và chỉnh sửa truyền thông
Trang 10Nếu thu thập thông tin dựa trên mẫu nhỏ, thậm chí những kết quả được thu thập
“một cách khoa học” thì thông tin đó cũng không đáng tin cậy (phương sai cao trên các
mẫu lặp lại), không mang tính đại diê8 và không đủ sức mạnh về mặt thống kê (tức là,
các suy luận hợp lý bị hạn chế) Một số nhà nghiên cứu cho rằng Big Data có thể khắc phục những hạn chế này và sẵn sàng cung cấp các bài kiểm tra về các thông số dân số vì
nó tương đối rẻ, tương đối đại diê8, được bồ sung liên tục và d0 dàng sao chép Tuy nhiên, một lưu ý quan trọng liên quan đến giả định này: Big Data loại trừ những người không sử dụng internet hoặc công nghê %ử lý thông tin kỹ thuật số Viê@tham gia vào nền tang trực tuyến, cho dù thương mại hay không, thì cũng có sự khác biêGđáng kẻ theo vị trí địa lý, tuôi tác, giới tính, chủng tộc và các yêu tô xã hội học khác (www.statista.com) Today = Tomorrow
Bởi vì nó di động và có mặt khắp nơi, cuộc sống kỹ thuật số năng động hơn nhiều
so với cuộc sông thực Người tiêu dùng liên tục chuyên đối, thử và từ bỏ sự hiê8 diê8 kỹ thuật số của họ Các dấu vết của hành vi đó có thể trở thành đối tượng của cuộc điều tra Ban đầu, Facebook giới hạn thành viên cho người dùng trong ngành giáo dục; do đó, chi cần đăng ký một tài khoản email edu Khi Facebook mở rộng, nó đã được mo cho ca những người dùng phi giáo dục
Online behavior = Offline behavior
Người tiêu dùng có thê hiê8 các mô hình hành vi giống nhau cả trên trực tuyến và ngoại tuyến không? Điều này rất phức tạp và các nhà tiếp thị phải tìm hiểu cách người
tiêu dùng biểu hiêổ trong cả hai mô hình hành vi mua hàng đối với các sản phẩm cụ thê
Behavior of all today = Behavior of all tomorrow
Giả định này tổng hợp ba giả định nói trên Big Data là sự phản ánh số hóa không hoàn hảo về cuộc sống trực tuyến và ngoại tuyến của con người Các mô hình mô tả hành
vi của người tiêu dùng đang thay đổi để giải thích cho ảnh hưởng của công nghê 3 và internet
Những giả định này giúp kiểm soát những thông tin có được từ viê@phân tích Big Data Nhiều nhà tiếp thi tin rang tat cả người tiêu dùng của họ đều có mặt trực tuyến và
Trang 11sẽ cư xử giống nhau cho dù trực tuyến hay ngoại tuyến Tuy nhiên, viê@không đặt câu hỏi hoặc không quan tâm các giả định nói trên có thể cản tré kha nang tln tại của các phân tích Big Data đối với doanh nghiê†8
1.4 Thách thức khi sử dụng Big Data
Big Data là bước ngoặt đánh dấu sự phát triển của Cách mạng Céng nghiép 4.0, viê8ứng dụng công nghê ®ày mang lại tiềm năng phát triển tuyê@3vời cho doanh nghiêổ Tuy nhiên viêöứng dụng Big Data một cách hiê6 quá thì không phải là điều d0 dàng và còn rất nhiều thách thức mà các doanh nghiê†8 cần phải đối mặt
Sự đa dạng thông tin: Trước khi tiễn hành phân tích dữ liêđ doanh nghiép can dam bảo nguIn dữ liêđ là chính xác và có định dạng phù hợp cho viê6 phân tích Trên thực tế thì sự tLn tại của một dữ liê8 ding nhất và có cầu trúc tốt với cùng kích thước và
cầu trúc là rất cần thiết Chính vì vậy, viêổ làm sạch và xử lý các lỗi từ các nguIn dữ liê8 không đầy đủ hay các dữ liêđ gây nhi0u là tối quan trọng và không thẻ thiếu Tuy nhiên, điều đó đòi hỏi doanh nghiê cần đầu tư một khoản chỉ phí (thời gian, ngân sách) lớn để
có được kết quả mang giá trị cao
Óuy mô: Thực tế cho thấy rằng khối lượng dữ liêđ đang gia tăng khá lớn và gần như đã vượt qua khả năng sức mạnh xử lý và lưu trữ của máy tính Bên cạnh đó, viê truyền dữ liêđ lớn thường phải gánh chịu chỉ phí cao Đây là “nút cô chai” của viêđtính toán Big Data
Yếu tô thời gian: Khi số lượng đữ liê8tăng nhanh chóng, các kết quả phân tích thì cần phải được đưa ra một cách tức thì nghĩa là trong thời gian thực nên cần phải có sự phát triển các quy trình xử lý dựa vào sự gia tăng của các cầu trúc dữ liêđ nhằm đạt được mục ổích cuối cùng đó là đáp ứng yêu câu truy cập thông tin một cách tức thì của người
sử dụng
Tính cá nhân và Bảo mật dữ liệu: Các yêu tô luật pháp liên quan đến các hạn chế
về quyền cá nhân hiê8 đang trở thành một mỗi đe dọa vì nó có thể hạn chế các ích lợi tiềm năng Chính vì lý do đó mà các chính sách an ninh mạng hay cụ thể là an ninh thông
Trang 12tin chia sẻ các dữ liêđ liên quan đến người dùng cá nhân cần phải được xem xét một cách thận trọng và nghiêm túc Bên cạnh đó, một số ví dụ trong thực tế cho thấy, không chỉ thông tin cá nhân người tiêu dùng, thông tin mật của các tổ chức mà ngay cả bí mật an ninh quốc gia cũng có thể bị xâm phạm Do đó, giải quyết các vấn đề an ninh dữ liêđ bằng các công cụ kỹ thuật và các chính sách trở nên vô cùng cấp bách
Thiếu chuyên gia công nghệ: Dù là thời đại công nghê 3.0, hoạt động bằng máy móc chiếm ưu thế, nhưng nêu không có con người vận hành, quản lý thì dù máy móc có hiê8 đại đến đâu cũng khó có thể mang đến hiêđ quả tốt nhất Công nghê ®8ig Data cũng vậy Các đánh giá của chuyên gia là hết sức cần thiết dé co thé hiéu cac nguln dit liéB va
để khai thác một cách tối ưu các tiềm năng của nó đòi hỏi sự phối hợp nhịp nhàng và nhuân nhuy0n giữa máy móc và con người
Doi héi thay đổi văn hóa doanh nghiệp: Văn hóa doanh nghiê8 được xây dựng và phát triển không phải chỉ trong ngày một ngày hai Chính vì vậy, để một doanh nghiép
thay đối văn hóa làm viê@của mình, đặc biêđïlà từ truyền thống sang hiê8 đại, không phải
là điều đơn giản Theo khảo sát của New Vantage, chí có 32.4% doanh nghiê§ thành công trong viêđthay đổi văn hóa doanh nghiê§ theo hướng hiêồ đại mới
Trang 13CHƯƠNG 2: BIG DATA TRONG NGHIÊN CỨU MARKETING
2.1 Khái niệm nghiên cứu Marketing
Theo Philip Kotler (2003) “Nghién cứu marketing là xác định một cách có hê 3 thống những tư liêđ cần thiết do tình huống marketing đặt ra cho một công ty, thu thập, phân tích chúng và báo cáo kết qua”
Theo Hiê8hội Marketing Mỹ (AMA): Nghiên cứu marketing là quá trình thu thập
và phân tích có hê3 thông những dữ liê 3 các vấn đề liên quan đến các hoạt động marketing cua doanh nghiép
Tư tưởng chủ đạo của Marketing là “Mọi quyết định kinh doanh đều xuất phát từ thị trường” Muốn thực hiê8 được tư tưởng chủ đạo này thì phải có đầy đủ thông tin về thị trường, về môi trường kinh doanh Căn cứ vào các thông tin thu được qua nghiên cứu Marketing, các nhà quản lý sẽ vạch ra chiến lược, chính sách kinh doanh phù hợp nhắm vào thị trường mục tiêu
2.2 Nghiên cứu Marketing truyền thống và Nghiên cứu Marketing sử dụng Big Data
Nhìn chung mục đích của nghiên cứu marketing là để chuyên đối dữ liêđ thu thập được thành thông tin có giá trị và hiểu biết hữu ích cho viê@ra quyết định Mặc dù khái niêf® và mục tiêu của nghiên cứu marketing vẫn không thay đổi trong bối cảnh Big Data, nhưng với lợi ích ngày càng lớn của viê8phân tích big data như hiê8 nay thì đòi hỏi cần
có một quan điểm nghiên cứu marketing rộng hơn
Nhóm chúng tôi đưa ra một sô điểm khác biêÔgiữa nghiên cứu Marketing truyền thống và nghiên cứu Marketing sử dụng Big Data, các tiêu chí so sánh chủ yếu là về thu thập và phân tích dữ liêđ Nghiên cứu Marketing truyền thông theo nhóm là nghiên cứu thường dựa trên sự giả định dữ liê8 ngẫu nhiên và sử dụng các phương pháp thống kê truyền thông, còn Nghiên cứu Marketing sử dụng Big Data giả định dữ liêö có độ phức tạp cao và sử dụng thêm các phương pháp thông kê nâng cao bên cạnh các phương pháp thống kê truyền thống đã được cải tiến Đặc biê6 trong quá khứ chưa có sự bùng nỗ của tiền bộ khoa học kỹ thuật như hiê8 nay.
Trang 14Bảng 2.1 So sánh nguyên cứu Marketing truyền thong va nghién citu Marketing
su dung Big Data
Chỉ thu được dữ liêđ hạn chế
mô tả theo khoảng thời gian
liê8 Chủ yếu là khảo sát trực tiếp khách hàng qua phỏng vấn,
bảng câu hỏi và các trang
cung cấp dữ liêđ thứ cấp
Từ các thiết bị lưu trữ dữ liê8 người dùng
như điệ8ầ thoại thông mình, phương tiêm truyền thông xã hội, các thiết bị cảm biến,
Lưu trữ
và quản lý
dữ liêø
Thiết bị lưu trữ, quản lý có
dung lượng lưu nhỏ
Công nghê 3 điê3oán đám mây cung cấp kỹ thuật lưu trữ, quản lý với lưu lượng lớn và hiê8 quả Một số nền tảng lưu trữ đám mây hiêầ nay glm: Google Store, Amazon, Microsoft Azure, IBM Blue Cloud
Phuong
phap phan
tich dir
hes Phương pháp phân tích dữ
liê8 truyền thống bat nguln
từ thống kê và khoa học máy
tính như phân tích cụm, phân
tích nhân tố, phân tích tương
quan, phân tích hl1 quy Phương pháp phân tich big data là các mô
hình thuật toán cũng dựa trên thống kê và khoa học máy tính hiêầ đại hơn cho phép trích xuất thông tin và tạo ra các mô hình dự đoán hiêđ quả cao ví dụ như mô hình thuật toán MapReduce do Google đề xuất, kỹ thuật phân tích và giải mã NLP
(Nguồn: Nhóm tự tông họp) Thực tế hiê8 nay chưa có nhiều phương pháp phân tích dữ liê® big data được phát triển vì khối lượng và tốc độ của nó quá lớn Tuy nhiên trong thời đại công nghiêổ 4.0 như hiê8 nay, viéSdoanh nghiép biét cach phan tich dit lié@ big data sẽ là một lợi thé rat lớn
2.3 Mô hình trích xuất thông tin từ Big Data cho nghiên cứu marketing
Điều thực sự mang lại giá tri cho viéG str dung big data là phân tích dữ liệu Nếu không có phân tích, big data chỉ là một tập dữ liêđ với viê@sử dụng hạn chế
Trang 15Khi mà sự xuất hiê8 của big data đang dần định hình lại quá trình nghiên cứu marketing Mô hình dưới đây trình bảy năm giai đoạn chính của nghiên cứu marketing sử dung big data lrong đó, năm giai đoạn này được nhóm thành quản lý đữ liệu (data management) va phán tích (analytics) Quản lý đữ liệu là những quy trình và công nghê 3
hỗ trợ được thiết kế và sử dụng đề thu thập, lưu trữ và trích xuất dữ liê cho vi&3phân tích ở giai đoạn sau Còn ân tích là tập hợp các kỹ thuật được sử dụng để phân tích, phác họa và tạo ra những thông tin có giá frỊ ty nguln dữ liêđ bịg data
Hình 2.1 Process for Extracting Insights From Big Data
(Nguồn: Gandomi & Haider, 2015; Japkowicz & Stefanowski, 2016; Labrinidis &
Jagadish, 2012)
2.3.1 Thu thập và lưu trữ dữ liệu
Để có dữ liê6 thì đầu tiên cần phải thu thập, vấn đề chính gây khó khan cho vié thu thập dữ liê6 từ big data đó là sự phân tán của dữ liê8 ở nhiều nguln khác nhau Các công cụ thu thập dữ liê6 từ thiết bị cảm biến người dùng (cảm biến là sự đo lường và biến đôi đại lượng vật lý thành tín hiêđ số có thê đọc được, dữ liêđ cảm biến có thể là sóng âm thanh, giọng nói, rung động ), thiết bị có định vị vị trí, các phương tiê8truyền thông xã hội, giao dịch tài chính, điêthoại thông minh
Dữ liê6 sẽ được ghi lại và lưu trữ trên nhiều thiết bị lưu trữ như kho dữ liê8 truyền thong, data lakes hay điê8ể toán đám mây
Dữ liêđ được thu thập và lưu trữ ở giai đoạn này là dữ liê6 thô, chưa có giá trị sử dụng cao
2.3.2 Xử lý làm sạch dữ liệu
Thông thường dữ liêđ từ các ngu1n công khai thường không đầy đủ, không có cầu
trúc nhất quán (đữ liêđ ở nhiều kiểu khác nhau như: văn bản, âm thanh, video ), bị lỗi
định dạng hay đơn giản là sai Ví dụ, những người tham gia khảo sát có thé trả lời sai hay
dữ liêđ thu được từ các thiết bị theo dõi trên điêể thoại thông minh (các app được hỗ trợ
Trang 16GPS) co thé sai do thiết bị đó bị hỏng Để biến những dữ liê@thô này thành dữ liê6 có
giá trị chúng ta cần tiền hành xử lý dữ liê8
Xử lý dữ liêđ là quá trình xác định và sửa lỗi dữ liê8 để đảm bảo chất lượng của
dữ liê8 bằng các thuật toán Ví dụ khi xác định được với dữ liêđ bị lỗi định dạng thì tiến
hành thay đối về định dạng phù hợp, hay tiến hành xóa bỏ những đữ liêđ bị sai
Đây là bước quan trọng cần thiết để đảm bao cac tép dữ liêđ đáp ứng các tiêu chuân về chất lượng và có gia tri su dung
2.3.3 Tông hợp, đối chiếu dữ liệu
Đề tiến hành phân tích dữ liêđ cần hợp nhất các tê dữ liêđ không đlng nhất với kích thước đa dạng ở bước trên thành một tập dữ liê@ tích hợp phù hợp với nhu cầu nghiên cứu Sau đó, tiễn hành đối chiếu dữ liêđ, tìm những dữ liêđ giống nhau, bị trùng lap dé loại bỏ Sự trùng lặp dữ liêđ là rất phố biến trong các têổ dữ liê 8 từ các nguIn khác nhau, viêđloại bỏ những dữ liê6 bị lặp nhằm tránh lãng phí không gian lưu trữ cũng như
để có cơ sở phân tích chính xác Ví dụ như một công ty thẻ tín dụng và một nhà bán lẻ có thê ghi lại các giao dịch giống nhau của một khách hàng
2.3.4 Mô hình hóa và phân tích dữ liệu
Có rất nhiều loại phân tích được sử dụng để tìm ra các mẫu thông tin có ý nghĩa trong ngu1n đữ liê8big data Phân tích văn bản có thê chuyển đối văn bản như các tweet đánh giá thương hiêđ của người tiêu dùng thành bản tóm tắt các ý chính có ý nghĩa Phân tích âm thanh đề trích xuất thông tin từ âm thanh không có cấu trúc, chăng hạn như tê
âm thanh cuộc gọi phàn nàn của khách hàng Tương tự, phân tích nội dung video đề trích xuất thông tin từ video, ví dụ như các unboxing video do người tiêu dùng tạo Phân tích nội dung hình ánh cho phép các nhà nghiên cứu trích xuất những dữ liêđ từ những từ được ïn trong một bức ảnh của người tiêu dùng, chẳng hạn trên Twitter bị giới hạn 5000
ký tự nên người tiêu dùng thường chuyên dữ liêđ văn bản vào ảnh Phương tiêr8 truyền thông xã hội và phân tích mạng để khám phá nội dung mà người tiêu dùng tạo trên các nền tảng truyền thông xã hội và chuyên các nội dung đó thành âm thanh, video hay các phân tích khác
Sau khi phân tích các kiểu dữ liêđ trên thì nhà nghiên cứu đã có thê xây dựng một
mô hình về hành vi, thái độ và tình cảm của khách hàng