1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tiểu luận môn dữ liệu lớn trong kinh tế và kinh doanh phân tích đặc trưng 5v của dữ liệu lớn

27 23 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiểu Luận Môn Dữ Liệu Lớn Trong Kinh Tế Và Kinh Doanh Phân Tích Đặc Trưng 5V Của Dữ Liệu Lớn
Trường học Học Viện Chính Sách Và Phát Triển
Chuyên ngành Dữ Liệu Lớn Trong Kinh Tế Và Kinh Doanh
Thể loại tiểu luận
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 27
Dung lượng 618,94 KB

Nội dung

Việc sử dụng mạng xã hội để tương tác với khách hàng có thểgiúp tăng sự hài lòng, trung thành và doanh số của khách hàng.Theo em, để có thể tận dụng tối đa tiềm năng của mạng xã hội tron

Trang 1

BỘ KẾ HOẠCH VÀ ĐẦU TƯ HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN

TIỂU LUẬN MÔN DỮ LIỆU LỚN TRONG KINH TẾ VÀ

KINH DOANH

Hà Nội, năm 2024

Trang 2

MỤC LỤC

CHƯƠNG I TRẢ LỜI CÂU HỎI SỐ 2 5

1.1 Đặc trung 5V của dữ liệu lớn 5

1.1.1 Kích thước (Volume) 5

1.1.2 Tốc độ (Velocity) – Vận tốc 6

1.1.3 Đa dạng (Variety) 7

1.3.5 Giá trị (Value) 8

1.2 Trả lời ý số 2 của câu hỏi 9

CHƯƠNG II TRẢ LỜI CÂU HỎI SỐ 3 13

2.1 Sơ lược 4 kỹ thuật phân tích dữ liệu lớn 13

2.1.1 Phân lớp dữ liệu 13

2.1.2 Phân cụm dữ liệu 18

2.1.3 Phát hiện luật kết hợp 21

2.1.4 Hồi quy 23

2.2 So sánh sự khác biệt giữa phân cụm và phân lớp dữ liệu 23

2.3 Ví vụ minh họa trong thực tế mà em biết về kỹ thuật phân cụm và phân lớp.24 TÀI LIỆU THAM KHẢO 28

FILE THỰC HÀNH TABLEAU 28

Trang 3

DANH MỤC HÌNH ẢNH

Hình 1 1 Mô hình 5V của dữ liệu lớn 5

Hình 1 2 Các bước tìm hiểu và phân tích thông tin khách hàng 11

Hình 2 1 Hệ thống phân loại thư rác 13

Hình 2 2 Ví dụ về dữ liệu huấn luyện 14

Hình 2 3 Hồ sơ quá trình huấn luyện 14

Hình 2 4 Sơ đồ biểu diễn quá trình sử dụng mô hình phân lớp 15

Hình 2 5 Phân lớp những người gian lận đóng thuế dựa trên mô hình cây quyết định 15

Hình 2 6 Mô hình phân lớp của rừng ngẫu nhiên 16

Hình 2 7 Ví dụ phân lớp dữ liệu dựa trên thuật toán K-NN 17

Hình 2 8 Ví dụ về phân cụm 18

Hình 2 9 Minh họa liên thông mật độ 20

Trang 4

CHƯƠNG I TRẢ LỜI CÂU HỎI SỐ 2

Phân tích đặc trưng 5V của dữ liệu lớn Nếu giả sử em là chủ sở mộtnguồn dữ liệu của 1 tỷ người sử dụng mạng xã hội thì em sẽ có giải phápkinh doanh hợp pháp nào từ kho dữ liệu lớn này

I.1 Đặc trung 5V của dữ liệu lớn

Năm 2014, công ty nghiên cứu và tư vấn công nghệ thông tin hàngđầu thế giới là Gartner đã công bố mô hình “5V” - năm tính chất quan trọngcủa dữ liệu lớn để miêu tả về những gì Bia Data có thể làm được và hoạtđọng mạnh như nào

Hình 1 1 Mô hình 5V của dữ liệu lớn

I.1.1 Kích thước (Volume)

Bản thân cái tên dữ liệu lớn có liên quan đến một kích thước rấtlớn, một dữ liệu có thực sự được coi là “Big Data” hay không phụ thuộc vàokhối lượng dữ liệu Chúng ta không phải nói về dữ liệu hàng Terabyte mà lànhững dữ liệu hàng Zettebyte hay Brontobyte

Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ởChâu Âu làm ví dụ cho “Big Data” Khi các thí nghiệm này được tiến hành,kết quả sẽ được ghi nhận bởi 150 triệu cảm biến với nhiệm vụ truyền tải dữliệu khoảng 40 triệu lần mỗi giây Kết quả là nếu như LHC ghi nhận hết kết

Trang 5

quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến

150 triệu Petabyte mỗi năm, hoặc 500 Exabyte mỗi ngày, cao hơn 200 lần sovới tất cả các nguồn dữ liệu khác trên thế giới gộp loại

Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữacác hạt vật chất diễn ra, nhưng sau khi chọn lọc lại từ khoảng 99,999% cácluồng dữ liệu đó, chỉ có tầm 100 vụ va chạm là được các nhà khoa học quantâm Điều này có nghĩa là cơ quan chủ quản của hệ thống LHC phải tìmnhững biện pháp mới để quản lý và xử lí hết mớ dữ liệu khổng lồ này Với ốlượng lớn thông tin hàng ngày liên tục được cập nhật trên mạng xã hội, ví dụnhư: Facebook nhận được gần 350 triệu hình ảnh, hơn 4,5 tỷ lượt like, vàgần 10 tỷ tin nhắn và bình luận mỗi ngày

Việc tăng trưởng này khiến cho dữ liệu trở nên quá lớn để có thể lưutrữ và phân tích theo công nghệ CSDL truyền thống Với công nghệ điệntoán đám mây (cloud computing), tại các trung tâm dữ liệu (data center)chúng ta đã có thể lưu trữ và sử dụng những tập dữ liệu này với sự giúp đỡcủa các hệ thống phân tán, nơi mà dữ liệu chỉ được lưu trữ một phần tại cácđịa điểm khác nhau và được quản trị bởi các phần mềm chuyên dụng

I.1.2 Tốc độ (Velocity) – Vận tốc

Ngoài đặc trưng đầu tiên là khối lượng rất lớn thì khi nói đến “Bigdata” là phải nói đến tốc độ dữ liệu mới được tạo ra và tốc độ xử lý dữ liệuhiện nay Hãy tưởng tượng đó là các thông điệp của mạng xã hội lan truyềntheo đơn vị giây hay đó là tốc độ mà các giao dịch thẻ tín dụng gian lậnđược kiểm tra Một ví dụ cụ thể cho khối lượng dữ liệu đã tạo ra, vào năm

2016 lượng truy cập toàn cầu chỉ là 6.2 exabytes/tháng, tuy nhiên đến năm

2020 thì con số này đã lên đến 40.000 exabytes/tháng Điều đó có thể giảithích được, dữ liệu hiện nay phát triển nhanh đến mức nào

Công nghệ dữ liệu lớn cho phép chúng ta có thể phân tích dữ liệungay khi chúng đang được tạo ra mà không cần lưu trữ chúng trong cácCSDL Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ

Trang 6

liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằngmili giây).

I.1.3 Đa dạng (Variety)

Đặc trưng thứ ba của “Big Data” là sự đa dạng của các loại dữ liệu

Sự đa dạng về định dạng dữ liệu lớn được thể hiện thông qua các yếu tố sau:

+ Đa dạng về nguồn gốc: Dữ liệu lớn có thể được thu thập từ nhiềunguồn khác nhau, bao gồm các nguồn dữ liệu nội bộ của tổ chức, dữ liệu từcác nguồn bên ngoài như mạng xã hội, trang web, máy cảm biến, thiết bị IoT(Internet of Things), các hệ thống giao thông, và nhiều nguồn dữ liệu khác

+ Đa dạng về định dạng: Dữ liệu lớn có thể tồn tại dưới nhiều địnhdạng khác nhau như văn bản, hình ảnh, âm thanh, video, tệp log, tệp đồ thị,tệp dạng bảng, và nhiều định dạng dữ liệu khác

+ Đa dạng về kích thước: Dữ liệu lớn thường có kích thước rất lớn,

từ hàng terabyte đến petabyte hoặc thậm chí exabyte Điều này có nghĩa là

dữ liệu lớn bao gồm một lượng lớn thông tin và chi tiết về các sự kiện, giaodịch, hành vi người dùng, và nhiều thông tin khác

+ Đa dạng về tốc độ: Dữ liệu lớn thường được tạo ra và cập nhật liêntục từ nhiều nguồn khác nhau Ví dụ, dữ liệu từ các mạng xã hội được tạo ratrong thời gian thực, dữ liệu từ máy cảm biến IoT được gửi với tốc độnhanh Điều này yêu cầu khả năng xử lý dữ liệu lớn và phân tích nhanhchóng để tận dụng được giá trị của dữ liệu

Sự đa dạng của dữ liệu lớn đòi hỏi các công nghệ và phương pháp xử

lý dữ liệu phù hợp, bao gồm kho lưu trữ dữ liệu, công cụ phân tích dữ liệu,thuật toán thông minh để tìm ra những thông tin quan trọng, xu hướng vàhiểu biết từ dữ liệu đa dạng này

1.3.4 Độ tin cậy (Veracity)

Một trong những tính chất phức tạp nhất của “Big data” là độ tincậy/chính xác của dữ liệu vì khối lượng lớn thường đi kèm với việc thiếuchính xác và chất lượng của dữ liệu

Trang 7

Tính xác thực là một đặc tính của “Big data” liên quan đến tính nhấtquán, độ chính xác, chất lượng hay độ tin cậy của dữ liệu Tính xác thực của

dữ liệu đề cập đến sự sai lệch, nhiễu, bất thường trong dữ liệu Nó cũng đềcập đến dữ liệu không đầy đủ hoặc sự hiện diện của lỗi, giá trị ngoại lệ Đểchuyển đổi loại dữ liệu này thành một nguồn thông tin nhất quán, thống nhất

sẽ một thách thức lớn cho các tổ chức và doanh nghiệp

Trong khi trọng tâm chính của các doanh nghiệp là sử dụng toàn bộtiềm năng của dữ liệu để thu thập thông tin chi tiết, họ có xu hướng bỏ lỡ cácvấn đề do quản trị dữ liệu kém gặp phải Khi chúng ta nói về độ chính xáccủa dữ liệu lớn, nó không chỉ là về chất lượng của dữ liệu mà còn phụ thuộcvào mức độ đáng tin cậy của nguồn dữ liệu và các quy trình dữ liệu của bạn

Chẳng han, ta lấy một ví dụ để biết tác động của tính tin cậy của dữliệu bằng cách có thông tin của hàng triệu người có nhu cầu tiêu dùng mộtloại hàng hóa của doanh nghiệp Tuy nhiên, dữ liệu này không thể chuyểnđổi thành dữ liệu bán hàng do thông tin khách hàng không chính xác Chấtlượng dữ liệu kém hoặc dữ liệu không chính xác có thể dẫn đến việc nhắmmục tiêu sai khách hàng và thông tin liên lạc, điều này cuối cùng gây ra thiệthại về doanh thu cho doanh nghiệp

Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang làtính chất quan trọng của Big data Tất nhiên dữ liệu không được phép saihoàn toàn, nhưng chúng ta sẵn sàng hy sinh một chút trong sự chính xác đểđổi lại hiểu biết về xu hướng chúng Dữ liệu lớn biến đổi các con số thànhmột cái gì đó mang tính xác suất nhiều hơn là tính chính xác

1.3.5 Giá trị (Value)

Chữ V cuối cùng trong 5V của “Big data” và cũng là chữ V quantrọng nhất chính là giá trị Nó đề cập đến giá trị mà “Big data” có thể cungcấp và nó liên quan trực tiếp đến những gì tổ chức có thể làm với dữ liệuđược thu thập đó Việc tiếp cận được dữ liệu lớn sẽ chẳng có ý nghĩa gì nếuchúng ta không chuyển được chúng thành những thứ có giá trị vì giá trị của

dữ liệu lớn tăng lên đáng kể tùy thuộc vào những hiểu biết sâu sắc có thể thuđược từ chúng

Trang 8

Ví dụ, nếu chúng ta có một bộ dữ liệu của hàng tỷ hoạt động khámchữa bệnh của các bệnh nhân tại một bệnh viện lớn trong thời gian 5 nămgần đây mà được lưu trữ một cách cơ học trên hệ thống máy chủ thì cũng sẽkhông mang lại giá trị gì cho bệnh viện cũng như các bệnh nhân Tuy nhiên,nếu bộ dữ liệu đó được đem ra phân tích nhằm tìm được các xu hướng khámchữa bệnh, các loại thuốc nào điều trị hiệu quả hơn, loại bệnh nào ngườibệnh hay mắc phải, bác sỹ nào khám chữa bệnh tốt hơn, thời gian điều trịbệnh tối ưu là bao nhiêu ngày,… thì điều này sẽ mang lại giá trị rất lớn cho

cả bệnh viện và cộng đồng vì sẽ giúp dự báo về sức khỏe được chính xáchơn, sẽ giảm được chi phí điều trị và các chi phí liên quan đến y tế

Một ví dụ khác để thể hiện giá trị của dữ liệu lớn là quá trình chuyểnđổi số của mỗi tổ chức mà doanh nghiệp Trong những năm gần đây, khi nhucầu về chuyển đổi số ngày một tăng lên, dữ liệu lớn đã nổi lên như mộtnguồn nhiên

liệu chính tiếp sức cho cuộc hành trình này Khả năng phân tích mộtlượng lớn dữ liệu cấu trúc (structured data) và dữ liệu phi cấu trúc(unstructured data) để có được những thông tin chi tiết, thường là theo thờigian thực, là cơ sở nền tảng của hầu hết các nỗ lực chuyển đổi số, vì thôngtin chi tiết thu được thông qua phân tích dữ liệu lớn được sử dụng để thúcđẩy quá trình số hóa và tự động hóa quy trình làm việc Khi các tổ chức cóthể tận dụng dữ liệu lớn cho mục đích báo cáo và cải tiến quy trình thì “giátrị đích thực sẽ đến từ khả năng kết hợp dữ liệu lớn với các nỗ lực chuyểnđổi số để cho phép số hóa và tự động hóa toàn bộ hoạt động nhằm thúc đẩyhiệu quả và các mô hình kinh doanh mới” Nếu chuyển đổi số cho mỗi tổchức và doanh nghiệp là con đường thì dữ liệu lớn là một trong nhữngphương tiện giúp đi nhanh trên con đường đó

I.2 Trả lời ý số 2 của câu hỏi

Nếu giả sử em là chủ sở một nguồn dữ liệu của 1 tỷ người sử dụngmạng xã hội thì em sẽ có giải pháp kinh doanh hợp pháp nào từ kho dữ liệulớn này

Trang 9

Mạng xã hội là một công cụ hiệu quả để quảng bá thương hiệu, tăngdoanh số bán hàng và xây dựng mối quan hệ với khách hàng Nếu em là chủ

sở hữu một nguồn dữ liệu của 1 tỷ người dùng mạng xã hội thì em sẽ sửdụng các thông tin đó để tương tác với khách hàng Bằng việc sử dụng cáckênh truyền thông hai chiều để giao tiếp, hỗ trợ và thúc đẩy sự gắn kết vớikhách hàng Việc sử dụng mạng xã hội để tương tác với khách hàng có thểgiúp tăng sự hài lòng, trung thành và doanh số của khách hàng

Theo em, để có thể tận dụng tối đa tiềm năng của mạng xã hội trongviệc giao tiếp với khách hàng cần quan tâm đến các đặc trưng của dữ liệu để

từ đó có cách sử dụng thông tin hiệu quả

- Dựa vào đặc trưng về kích thước (Volume): do kích thước thông tin

mà hàng ngày các khách hàng cập nhật trên mạng xã hội là rất lớn, nênkhông thể lưu trữ và phân tích bằng CSDL truyền thống nên em sẽ áp dụng

kỹ thuật phân tích đám đông để xác định được hành vi người tiêu dùng vàtính năng của họ Từ đó đưa ra nhwuxng chiến lược tiếp thị, quảng cáo vàmarketing phù hợp

- Dựa vào đặc trưng tốc độ (Velocity): các thông tin được cập nhậtnhanh chóng có thể phân tích ngay khi chúng đang được tạo ra mà khôngcần lưu trữ chúng trong các CSDL Xử lý thông tin khách hàng nhanh ở mứcthời gian thực (real-time) có thể giúp chủ doanh nghiệp nắm bắt các xuhướng mua sắm nhanh chóng

- Dựa vào đặc trưng về độ tin cậy (Veracity): bằng việc xác thựcthông tin người dùng của khách hàng của các ứng dụng trên mạng xã hội,

em có thể dễ dàng đánh giá tính chính xác của các thông tin mà khách hàngcung cấp bao gồm bài đăng, hình ảnh, bình luận và các hoạt động khác liênquan Các lịch sử giao dịchvà hoạt động của khách hàng có thể cung cấpxem họ có lịch sử gian lận, lừa đảo hoặc dính vào các dư luận tiêu cực haykhông để từ đó loại bỏ họ ra khỏi tệp khách hàng tiềm năng

- Dựa vào đặc trưng về giá trị (Values): sử dụng dữ liệu thu được từngười dùng trên mạng xã hội như việc người dung đang quan tâm về một

Trang 10

vấn đề nào đang hot, xu hướng của người dùng hiện nay và từ đó đem lạithêm giá trị cho người dùng bằng cách phát triển sản phẩm và dịch vụ dựatheo những xu hướng đó

- Dựa vào đặc trưng về đa dạng (Variety): tìm kiếm các tệp kháchhàng tiềm năng thông qua nhiều loại dữ liệu khác nhau như hình ảnh, video,các văn bản thể hiện thông tin ngườidùng, v.v để từ đó tìm ra những đặcđiểm chung của các phân khúc khách hàng tiềm năng như sởthích, phongcách, độ tuổi… và đưa ra những chiến lược quảng cáo và marketing đánhthẳng vàonhu cầu của các tệp khách hàng đó

Các bước tìm hiểu và phân tích thông tin khách hàng trước khi bắtđầu tương tác:

Hình 1 2 Các bước tìm hiểu và phân tích thông tin khách hàng

xã hội (2)

Tạo nội dung tương tác (3)

Giải pháp tương tác hiệu quả (4)

Trang 11

 Kênh Facebook: chia sẻ các nội dung về sản phẩm/dịch vụ,tin tức, sự kiện hay chương trình khuyến mãi Ngoài ra còn có thể tạo trang

và nhóm để thu hút và tương tác với khách hàng tiềm năng

 Kênh hình ảnh và video – Instagram: kênh có lượng ngườidùng trẻ và năng động Có thể dùng để chia sẻ hình ảnh, video về sản phẩmhay tạo các story để tăng sự gắn kết với khách hàng

 Kênh Tiktok: kênh giải trí và sáng tạo rất phong phú và đadạng, được đánh giá là thị trường đầy tiềm năng trong những kênh bán hàngonline tại Việt Nam do giải quyết đúng insights của thị trường (nội dunggiải trí, video ngắn cô đọng, thu hút cực nhiều khách hàng trẻ, ), nộidung mang tính giải trí cao & gây nghiện

(3) Tạo nội dung tương tác với khách hàng: tạo nội dung có giátrị cao cho khách hàng, có thể giải quyết vấn đề, đáp ứng nhu cầu, cung cấpthông tin hay mang lại cảm xúc tích cực Ngoài ra nội dung cũng cần độcđáo, sáng tạo và phù hợp với bản sắc thương hiệu của sản phẩm/dịch vụ

(4) Giải pháp tương tác hiệu quả: tương tác là chìa khóa Cầnđưa ra các chiến lược marketing tương tác hiệu quả để xây dựng thươnghiệu, gia tăng lợi nhuận, doanh số cũng như giúp chúng ta có sự gắn bó vớikhách hàng

Trang 12

CHƯƠNG II TRẢ LỜI CÂU HỎI SỐ 3

Trình bày sơ lược 4 kỹ thuật phân tích dữ liệu lớn So sánh sự khácbiệt giữa phân cụm và phân lớp dữ liệu? Hãy lấy một ví dụ minh họa trongthực tế mà em biết về kỹ thuật phân cụm và phân lớp

2.1 Sơ lược 4 kỹ thuật phân tích dữ liệu lớn

Với các tập dữ liệu lớn thì thường sử dụng các kỹ thuật của học máy

để phân tích dữ liệu thông qua các thuật toán học dữ liệu tự động Các kỹthuật phân tích dữ liệu lớn phổ biến đó là: phân lớp dữ liệu, phân cụm dữliệu, phát hiện luật kết hợp và hồi quy

2.1.1 Phân lớp dữ liệu

Phân lớp (Classification) là kỹ thuật phổ biến và được quan tâmnhiều nhất trong phân tích dữ liệu, đặc biệt là các tập dữ liệu lớn Bản chấtcủa việc phân lớp là quá trình gán nhãn cho một đối tượng dữ liệu mới vàomột lớp (trong tập nhãn lớp đã cho trước) nhờ một mô hình phân lớp

Ví dụ về phân loại Email Spam

Hình 2 1 Hệ thống phân loại thư rác

2.1.1.1 Quá trình phân loại dữ liệu

Quá trình phân lớp được thực hiện qua hai giai đoạn là: giai đoạn họchay huấn luyện (learning) và giai đoạn phân lớp (classification)

Bước 1: Giai đoạn học (huấn luyện)

Trang 13

Giai đoạn học là giai đoạn xây dựng mô hình mô tả dữ liệu dựa trên

bộ dữ liệu đã biết trước nhãn lớp hay dữ liệu huấn luyện Dữ liệu huấn luyện

là một tập các phần tử dữ liệu có gán nhãn, trong đó có một thuộc tính làthuộc tính lớp cho biết phần tử dữ liệu này được gán nhãn cho lớp nào

Hình 2 2 Ví dụ về dữ liệu huấn luyện

Quá trình huấn luyện được thực hiện bằng một thuật toán phân lớp,thuật toán thực hiện học dữ liệu huấn luyện để từ đó trích rút thông tin vàxác định một mô hình mô tả dữ liệu

Hình 2 3 Hồ sơ quá trình huấn luyện

Bước 2: Giai đoạn phân lớp:

Giai đoạn phân lớp là giai đoạn sử dụng mô hình xây dựng được ởgiai đoạn huấn luyện để phân lớp dữ liệu mới nếu hiệu quả phân lớp chấpnhận được Để đánh giá mô hình phân lớp là chấp nhận được hay không, ta

sử dụng một bộ dữ liệu kiểm tra đã biết trước nhãn lớp của các phần tử dữliệu Bộ dữ liệu kiểm tra này độc lập với bộ dữ liệu huấn luyện trước đó Tathực hiện phân lớp các mẫu dữ liệu trong bộ dữ liệu kiểm tra, từ đó xác địnhxem có bao nhiêu phần tử dữ liệu được phân lớp đúng và bao nhiêu phân tử

Ngày đăng: 22/02/2024, 16:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w