III NỘI DUNG NGHIÊN CỨU VÀ KẾT QUẢ ĐẠT ĐƯỢC
4. Cơ sở khoa học công nghệ về thu thập, quản lý, chia sẻ và khai thác thông tin dữ liệu
4.7 Khả năng ứng dụng của công nghệ Data Mining
4.7.1 Tổng quan về công nghệ Data Mining
Data mining, hay được dịch ra là khai thác dữ liệu. Đó là một q trình khám phá các mẫu trong các tệp dữ liệu rất lớn, liên quan đến các phương thức tại giao điểm của máy học, thống kê học và hệ thống cơ sở dữ liệu. Data mining là một lĩnh vực liên ngành của khoa học và thống kê máy tính với mục tiêu tổng thể là trách xuất thông tin (bằng phương pháp thông minh) từ bộ dữ liệu và chuyển đổi thông tin thành cấu trúc dễ hiểu để sử dụng tiếp.
Data mining là bước phân tích của quy trình “khám phá tri thức trong cơ sở dữ liệu”. Ngồi bước phân tích thơ, nó cịn liên quan đến các khía cạnh quản lý dữ liệu và cơ sở dữ liệu, xử lý trước dữ liệu, cân nhắc mơ hình và suy luận, cân nhắc phức tạp, xử lý hậu của các cầu trúc được phát hiện, trực quan hóa và cập nhật trực tuyến.
Trên thực tế, thuật ngữ “Data mining” là một cách gọi sai, vì mục tiêu là khai thác các mẫu và kiến thức từ một lượng lớn dữ liệu, chứ không phải khai thác (mining) dữ liệu. Tuy nhiên, đây là một tên gọi thông dụng và thường được áp dụng cho bất kỳ dạng dữ liệu hoặc xử lý thông tin quy mơ lớn nào (thu thập, trích xuất, lưu trữ, phân tích và thống kê) cũng như mọi ứng dụng của hệ thống hỗ trợ quyết định máy tính, bao gồm cả trí tuệ nhân tạo và trí tuệ kinh doanh.
Tóm lại, Data mining là một q trình biến dữ liệu thơ thành các thơng tin hữu ích. Đó là q trình tìm kiếm sự bất thường, mơ hình và mối tương quan trong các tập dữ liệu lớn để dự đoán kết quả. Bằng cách sử dụng cơng cụ này để tìm kiếm các mẫu trong một lô dữ liệu lớn, doanh nghiệp có thể tìm hiểu thêm về khách hàng, đồng thời có cơ sở để phát triển chiến lược tiếp thị có hiệu quả hơn, tăng doanh số và giảm những chi phí khơng cần thiết. Data mining phụ thuộc vào việc thu thập dữ liệu, lưu kho và xử lý máy tính hiệu quả.
Quá trình đào sâu dữ liệu để khám phá các kết nối, mối tương quan giữa dữ liệu và dự đoán xu hướng trong tương lai đã xuất hiện từ rất lâu. Q trình đó cịn được gọi là “khám phá tri thức trong cơ sở dữ liệu”, thuật ngữ “Data mining” hay “khai phá dữ liệu” mới được biết đến trong những năm 1990. Sự ra đời của Data mining cùng với ba ngành khoa học khác: thống kê (Statistics), trí tuệ nhân tạo (AI-Artificial Intelligence) và học máy (Machine Learning) nhấn mạnh tầm quan trọng, và lợi ích của dữ liệu.
Ngày nay, khi Big Data trổi dậy, và tác động đến mọi ngành, lĩnh vực thì các cơng cụ, phương pháp Data mining ngày càng được biết đến, được ứng dụng rộng rãi, và nhu cầu cải tiến ngày càng cao để có thể bắt kịp khả năng tính tốn, tốc độ phân tích, khối lượng dữ liệu, sự đa dạng của Big Data. Do đó, “what was old is new again”, Data mining tuy cũ nhưng rất mới và lạ lẫm đối với các công ty đang bắt đầu tiếp cận Big Data.
Trong những năm vừa qua, sự tiến bộ của công nghệ, kỹ thuật cung cấp các phần mềm với khả năng, tốc độ xử lý thông tin cực kỳ cao cho phép nhiều công ty vượt ra khỏi các công việc thủ công, tẻ nhạt và tốn thời gian để phân tích dữ liệu nhanh chóng, dễ dàng và tự động. Các bộ dữ liệu được thu thập ngày càng phức tạp, nhưng lại chứa đựng nhiều thơng tin hữu ích, có giá trị để chúng ta khám phá.
Số lượng người sử dụng các thiết bị thông minh như smartphone, tablet hay PC, laptop có kết nối Internet để tìm kiếm thơng tin, giải trí, trị chuyện, mua sắm,… trên tồn thế giới đang gia tăng với tốc độ tên lửa. Ngoài ra sự xuất hiện của thuật ngữ I.o.T (Internet of Things) miêu tả sự kết nối giữa tất cả các thiết bị với nhau bằng Internet, cho phép trao đổi, truyền tải dữ liệu. I.o.T hỗ trợ con người rất nhiều lĩnh vực không chỉ là vấn đề sinh hoạt trong cuộc sống hàng ngày mà cả công nghiệp, nông nghiệp, bán lẻ đến y tế, xã hội. Các công ty cũng ứng dụng công nghệ I.o.T trong các hoạt động kinh doanh, sản xuất với mục đích tìm kiếm cơ hội gia tăng lợi nhuận, phát hiện sớm các rủi ro. Chính vì những lý do trên mà khối lượng dữ liệu và nhu cầu thu thập, phân tích ngày càng lớn, từ dữ liệu người tiêu dùng, dữ liệu khách hàng đến dữ liệu thị trường, dữ liệu sản xuất,… đa dạng, và phức tạp hơn. Theo tập đồn cơng nghệ Cisco, khối lượng Big Data dự báo trong những năm tới, hay trong năm 2019 có thể đạt 500 Zettabytes một năm.
Nguồn dữ liệu Big Data là nguồn lực quan trọng của mỗi tổ chức ngồi nguồn nhân lực và tài chính. Nhưng để tận dụng hiệu quả dữ liệu để đạt được giá trị trong kinh doanh, trong sản xuất,.. thì Data mining là cơng cụ khơng thể thiếu, nó giúp chúng ta hiểu được các tập dữ liệu đang thể hiện cái gì, đang cung cấp các thơng tin, kiến thức hữu ích nào, …
Lợi ích của Data Mining:
- Xét về lợi ích trong q trình phân tích dữ liệu:
+ Chọn lọc, loại bỏ tất cả các dữ liệu không liên quan và dữ liệu trùng lặp trong tập dữ liệu.
+ Xác định các mẫu dữ liệu, dữ liệu có liên quan và dùng các thuật tốn phân tích, tận dụng dữ liệu để dự báo kết quả đầu ra ví dụ như xu hướng, hành vi tiêu dùng
+ Với Data mining, chúng ta có thể phân tích khối lượng lớn dữ liệu trong thời gian ngắn và sau đó chuyển đổi dữ liệu đó thành thơng tin, kiến thức có ý nghĩa.
- Xét về lợi ích sau cùng của Data mining: + Hỗ trợ ra quyết định tự động:
Data mining cho phép các tổ chức liên tục phân tích dữ liệu và tự động hóa cả các quyết định thơng thường và quan trọng mà khơng bị trì hỗn bởi yếu tố con người. Ví dụ các ngân hàng có thể ngay lập tức phát hiện các giao dịch gian lận, yêu cầu xác minh và thậm chí bảo mật thơng tin cá nhân để bảo vệ khách hàng chống lại hành vi trộm cắp, tội phạm. Các mơ hình tự động của Data mining có thể thu thập, phân tích và xử lý dữ liệu một cách độc lập để hợp lý hóa việc ra quyết định và tăng năng suất hoạt động, tăng lợi nhuận của tổ chức thông qua việc giảm thiểu thời gian, tăng tốc độ các quy trình làm việc, sản xuất, các cơng việc thơng thường hàng ngày.
+ Hỗ trợ đưa ra dự báo chính xác:
Dự báo là một quá trình quan trọng trong mỗi tổ chức. Data mining tạo điều kiện lập kế hoạch và cung cấp cho các nhà quản lý dự báo đáng tin cậy dựa trên các xu hướng trong quá khứ và các điều kiện hiện tại. Chuỗi cửa hàng bán lẻ Macy’s của Mỹ thực hiện các mơ hình dự báo để dự đốn nhu cầu cho từng loại quần áo tại mỗi cửa hàng và định tuyến hàng tồn kho phù hợp để đáp ứng hiệu quả nguồn cung ra thị trường.
+ Hỗ trợ giảm thiểu chi phí:
Data mining cho phép sử dụng nguồn lực hiệu quả hơn. Các tổ chức có thể kiểm sốt các hoạt động sản xuất, marketing, bán hàng,.. và phân bổ nguồn lực hợp lý thông qua các cơng cụ phân tích tự động của Data mining đồng thời phát hiện và ngăn chặn kịp thời các rủi ro, sai sót, qua đó tránh lãng phí, và giảm chi phí hiệu quả. Hãng hàng không Delta gắn chip RFID trong hành lý (đã được kiểm tra) của khách hàng và triển khai các mơ hình Data mining để xác định các lỗ hổng trong quá trình vận chuyển và bảo quản hành lý của khách hàng an tồn, giảm tối đa sai sót có thể xảy ra, qua đó làm tăng sự hài lịng của hành khách và giảm chi phí tìm kiếm và định vị hành lý thất lạc.
+ Hỗ trợ khả năng thấu hiểu khách hàng:
Các cơng ty triển khai các mơ hình Data mining chun biệt để phân tích dữ liệu khách hàng nhằm khám phá các đặc điểm chính, các điểm khác biệt về sở thích, thói quen, hành vi,…của mỗi phân khúc khách hàng, xác định nhu cầu mỗi khách hàng một cách chính xác nhất. Dựa vào kết quả thu được, các công ty sẽ triển khai các dịch vụ, sản phẩm, giao tiếp với khách hàng một cách cá nhân hóa hơn. Đặc biệt trong thời đại công nghệ 4.0 ngày nay người tiêu dùng khắp thế giới đang chú trọng vào các hình thức dịch
vụ cá nhân hóa nhiều hơn hay cịn được gọi “Personlization” nhằm tăng tối đa trải nghiệm khách hàng. Điển hình nhất là ứng dụng Chatbot, hệ thống robot tương tác tự động với khách hàng, phản hồi theo suy nghĩ, lời nói của khách hàng, hay các trang thương mại điện tử như Tiki, Lazada,… đưa ra các gợi ý sản phẩm phù hợp cho chúng ta sau mỗi lần tìm kiếm, tra cứu sản phẩm trên các website, hay Netflix, Youtube đưa ra các gợi ý về video, bộ phim,.. phù hợp với sở thích, mong muốn của chúng ta qua việc phân tính lịch sử xem và lịch sử tìm kiếm.
4.7.2 Khả năng ứng dụng của công nghệ Data Mininga) Các nguồn dữ liệu có thể sử dụng Data Mining: a) Các nguồn dữ liệu có thể sử dụng Data Mining:
- Các giao dịch trong kinh doanh: tất cả các thông tin, dữ kiện lịch sử về giao dịch phát sinh trong kinh doanh đều được các công ty lưu trữ trong thời gian rất lâu thậm chí vĩnh viễn vì tầm quan trọng của chúng. Các thông tin về giao dịch kinh doanh bên ngồi cơng ty như mua bán, trao đổi hàng hóa giữa các cơng ty và khách hàng, giao dịch tài chính với các ngân hàng, đầu tư chứng khốn,… ngồi ra cũng có những thơng tin về giao dịch bên trong nội bộ cơng ty như các chi phí quản lý kho hàng, tài sản,… Ví dụ điển hình chính là việc các cửa hàng bách hóa, cửa hàng tiện lợi, siêu thị áp dụng rộng rãi quét mã vạch để tính tiền khách hàng đồng thời lưu trữ khối lượng lớn dữ liệu về tất cả giao dịch mỗi ngày; các trang web thương mại điện tử lưu lại lịch sử mua hàng trực tuyến của khách hàng.
- Dữ liệu khoa học: không chỉ lĩnh vực kinh tế, công nghệ phát triển mà khoa học, kỹ thuật cũng có những sự thay đổi mạnh mẽ kể từ khi Big Data và AI (Artificial Intelligence, trí tuệ nhân tạo) ra đời. Khối lượng lớn dữ liệu thu thập được từ các nghiên cứu khoa học trong xã hội ngày nay có thể được phân tích bằng các cơng cụ Data mining để đạt được những kết quả phục vụ đời sống con người.
- Dữ liệu nhân khẩu học và dữ liệu cá nhân khách hàng: các dữ liệu từ điều tra dân số, nhân khẩu học, dữ liệu về các nhân viên trong mỗi công ty, đến dữ liệu về khách hàng đều là những thơng tin hữu ích cần được khai thác bằng Data mining. Những tổ chức chính phủ, các cơng ty kinh doanh và tổ chức phi lợi nhuận như bệnh viện, đang thu thập, lưu trữ khối lượng lớn dữ liệu cá nhân rất quan trọng để phục vụ việc thống kê, quản lý trật tự xã hội, quản lý nguồn nhân lực, hiểu rõ hơn về thị trường và người tiêu dùng, dự báo và kiểm soát các dịch bệnh,…. Mặc dù việc thu thập, sử dụng và chia sẻ dữ liệu cá nhân có thể ảnh hưởng đến vấn đề bảo mật thơng tin và quyền riêng tư, nhưng nếu có thể tiếp cận và kết hợp dữ liệu nhân khẩu học, dữ liệu khách hàng với các dữ liệu khác thì một cơng ty sẽ có được cái nhìn tổng quan về hành vi, xu hướng tiêu dùng.
- Dữ liệu video và hình ảnh: sự xuất hiện của các thiết bị điện tử đa chức năng như smartphone, máy tính bảng có tính năng chụp hình, quay phim và các camera giám sát ở các cửa hàng, nơi công cộng,.. ngày càng nhiều đồng thời do việc chụp hình, quay phim đã trở thành thói quen, sở thích của nhiều người cũng như các tổ chức, công ty thu thập video, hình ảnh để ngăn chặn các hành vi tội phạm nghiêm trọng, làm chứng cứ trong kinh doanh, hơn nữa các nhà khoa học, tập đồn cơng nghệ sử dụng hình ảnh để nghiên cứu, mô phỏng robot, phát triển các sản phẩm AI. Chính vì vậy, khối lượng dữ liệu là rất lớn và nhu cầu khai thác từ đó gia tăng. Đặc biệt các cơng cụ Data mining ngày nay đã có thể hỗ trợ phân tích dữ liệu video và hình ảnh.
- Dữ liệu dạng text (văn bản) và các bản ghi: ví dụ cụ thể, các cơng ty thường lưu trữ các báo cáo, các hợp đồng, dữ liệu quan trọng khác,… dưới dạng văn bản hoặc các bản ghi để tiện trao đổi thông tin giữa các cá nhân trong công ty và bên ngồi cơng ty (ví dụ qua e-mail). Ngày nay các dữ liệu trên được mã hóa, và số hóa phục vụ cho việc bảo mật và phân tích trong tương lai bằng các công cụ Data mining.
- Dữ liệu trong lĩnh vực games, thể thao: sự phát triển của loại hình trị chơi trực tuyến, thể thao điện tử cho đến việc ứng dụng công nghệ trong các môn thể thao vua để tăng sự cơng bằng như bóng đá (ví dụ gần đây nhất như cơng nghệ VAR, Goal – line), tennis,… cùng với việc các nhà báo, nhà phân tích thể thao, các huấn luận viên tổng hợp các thông tin, các dữ liệu thống kê về các vận động viên, cầu thủ, các đội bóng, để đánh giá, phân tích phong độ theo thời gian, đề ra chương trình huấn luyện thích hợp, … khiến cho dữ liệu trong lĩnh vực thể thao ngày càng được quan tâm, thu thập nhiều hơn. Các cơng cụ phân tích thơng thường và cơng cụ Data mining cho phép đưa ra các dự báo, thống kê có ý nghĩa trong mỗi trận đấu, trong mỗi mùa giải.
- Dữ liệu truyền thông kỹ thuật số: sự phổ biến rộng rãi của các thiết bị có chức năng quay phim, chụp ảnh và thói quen, sở thích của nhiều người đăng tải, chia sẻ các hình ảnh cá nhân, video, clip,.. lên các trang, mạng xã hội ngày càng tăng, hay lịch sử về hành vi khách hàng trên các website, các trang, mạng xã hội như lịch sử tra cứu sản phẩm dịch vụ, tương tác như lượt click, lượt like, lượt comment, các đoạn đối thoại bằng văn bản với khách hàng,.. được các công ty thương mại điện tử, kinh doanh trực tuyến thu thập hàng ngày, khiến cho dữ liệu truyền thông kỹ thuật số trở thành yếu tố quyết định trong khối lượng dữ liệu Big Data. Bằng cách sử dụng công cụ Data mining, mỗi công ty sẽ tự tạo cho mình khả năng dự báo xu hướng, hành vi và nhu cầu người tiêu dùng trong thực tại và tương lai để phát triển các chiến dịch marketing, khuyến mãi hiệu quả. Ngồi ra các đài truyền hình, đài phát thanh có thể mã hóa, số hóa các dữ liệu video, phim, âm thanh để bảo vệ, phân tích và quản lý hiệu quả.
- Dữ liệu khác: các dữ liệu phục vụ trong ngành kiến trúc như dữ liệu từ các phần mềm thiết kế và kiến trúc (ví dụ CAD – computer-aided design); các dữ liệu trong lĩnh vực nghiên cứu thực tế ảo, khơng gian 3 chiều,… Tất cả đều có thể khai thác bằng các công cụ Data mining nhằm phục vụ các mục đích riêng.
b) Ứng dụng của Data Mining:
- Lĩnh vực tài chính, ngân hàng:
Khối lượng dữ liệu thu thập trong ngành tài chính, ngân hàng là rất lớn khơng chỉ riêng dữ liệu, hồ sơ cá nhân của khách hàng mà còn dữ liệu khác như lịch sử giao dịch của từng khách hàng,.. Một hệ thống Data mining hoàn chỉnh và hiệu quả cho phép tăng khả năng lưu trữ, bảo mật tốt hơn phục vụ cho việc phân tích sau này.
Data mining có thể hỗ trợ các tổ chức tăng thời gian sử dụng dịch vụ (lòng trung thành) của khách hàng bằng cách thu thập và phân tích dữ liệu để tìm hiểu thói quen chi