Một số vấn đề đang tồn tại trong quản lý dữliệu hiện tại của tổ chức

Một phần của tài liệu 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp (Trang 70 - 77)

- Hiệu suất cơ sở dữ liệu

+Phần cứng chưa đáp ứng được dung lượng dữ liệu lớn hàng ngày thu thập và xử lý trong tổ chức nên gây sự chậm chễ trong thời gian tổng hợp báo cáo. Dữ liệu nhiều trong khi bộ nhớ máy tính ít gây ra không đủ không gian để lưu trữ dẫn đến phải lược bỏ một phần dữ liệu. Vì vậy cần phải nâng cấp phần cứng

+Hiệu chỉnh framework chưa tốt ÷ cần bỏ thời gian để tìm hiểu và tối ưu lại framework

+Phương pháp lấy báo cáo chưa tốt ÷ tối ưu lại phương pháp lấy báo cáo

+ Các bảng dữ liệu được thiết kế chưa tốt, gây ra dư thừa dữ liệu, tốn không gian lưu trữ và làm giảm khả năng truy xuất dữ liệu.

- Chất lượng dữ liệu

+Dữ liệu không nhất quán, vì cùng một trường/ cột nhưng khi được lưu dưới hai bảng khác nhau thì lại có giá trị (value) dạng categorical được ký hiệu không đồng nhất. Ví dụ ở bảng A, một loại giao dịch quét mã có ký hiệu là ‘10004’ nhưng và cũng cùng loại giao dịch đó thì trong bảng B thì lại có mã là ‘A00001’. Hiện tượng dữ liệu không nhất quán không chỉ xảy ra ở trên nhiều bảng, thậm chí còn xảy ra ngay ở trong một bảng dữ liệu. Có thể lấy ví dụ như: bảng khách hàng có trường giới tính được định nghĩa trong siêu dữ liệu Nam/ Nữ ký hiệu là 0-1. Tuy nhiên, trong thực tế, khi thực hiện thêm (insert) dữ liệu từ các hệ thống, hay quá trình kéo dữ liệu về, trường giới tính không được mã hóa đồng nhất, giá trị bao gồm: F, M, Female, Male, và một số giá trị ngoại lệ/missing value khác như: 9, null,

Mã khách hàng Số điện thoại Số CMT Quê

quán Ngàysinh Giớitính Ngàysinh Họtên

Mã giao dịch Thời gian giao dịch Loại giao dịch Số tiền Mã khách hàng

Họ tên Ngày sinh

Số CMT Quê quán Giới tính Số điện thoại

Khoá luận tốt nghiệp

NaN. Nguyên nhân ở đây có thể xuất phát từ lỗi của người nhập dữ liệu bằng tay, hệ thống thiết kế chưa tốt hoặc do quá trình thu thập, xử lý dữ liệu, ...

+Dữ thừa dữ liệu: Hiện tượng dư thừa dữ liệu thường xảy ra nhiều ở dữ liệu khách hàng và giao dịch. Cùng một bản ghi về giao dịch của một khách hàng nhưng lại được lưu ở hai bảng khác nhau thuộc hai cơ sở dữ liệu khác nhau. Dư thừa không chỉ ở dư thừa bản ghi (dữ liệu chưa đạt chuẩn 1NF), mà còn xảy ra ở việc dư thừa trường dữ liệu. Ta có ví dụ sau:

- Bảng khách hàng có một số trường sau:

Ngày sinh của khác hàng

Họ tên Quê quán Nơi

giao dịch Số tiền giao dịch Giá trị âm, lớn hơn ngày insert dữ liệu vào hệ thống, ngày sinh không hợp lệ với quy định đăng ký sử dụng ứng dụng

Họ tên không hợp lệ với định dạng, như: chứa ký tự số, không có dấu cách, thiếu họ hoặc tên, hoặc họ tên quá ngắn, quá dài, hoặc không xác định Sai quê quán, hoặc không đúng format định dạng được thiết kế trong metadata

Sai nơi giao dịch hoặc không đúng định dạng format được thiết kế Số tiền âm, xuất hiện ký tự chữ cái hoặc số tiền quá lớn so với thực tế Vl dụT 1/1/2022, - 23/10/1996 NTK_123456643, BuiThiNga, Congtytrachnhiemhuuhan ^Hn BinkDinh, TPM, Ho Chí Mi,... -200000, õ" HN, 1000000000,...

Có thể thấy rằng, dữ liệu đang bị dư thừa ở hai bảng khác hàng và giao dịch khi trùng rất nhiều trường chung như: Số điện thoại, ngày sinh, giới tính, họ tên, quê quán, .Ví dụ: bảng giao dịch trung bình sẽ có khoảng 5 đến 6 triệu giao dịch mỗi ngày thì việc lưu trữ dữ liệu dư thừa hay không cần thiết sẽ tốn rất nhiều tài nguyên, gây ra chi phí lưu trữ cho tổ chức, đồng thời khiến dữ liệu được lưu tại các bảng không đồng nhất, dẫn đến sai sót khi tổng hợp hay báo cáo phân tích.

Nguyên nhân của dư thừa dữ liệu bao gồm:

+Dữ liệu chưa chuẩn hóa trong quá trình thiết kế cơ sở dữ liệu.

+Việc tạo ra các bảng tổng hợp mới (bảng đích) từ các bảng nguồn thiếu quy hoạch và thiết kế bảng đích chưa chuẩn, dẫn đến bảng đích chứa nhiều trường đã sẵn có từ bảng ngu()n÷ gây ra dữ liệu dư thừa

Bùi Thị Doan Hằng- Lớp K19HTTTA 58

Khoá luận tốt nghiệp

+ Các bảng dữ liệu trong cơ sở dữ liệu thiết kế không tốt, tức chưa đạt chuẩn 1NF, 2NF, 3NF

- Dữ liệu sai: Đây là vấn đề lớn nhất trong việc quản lý dữ liệu của tổ chức hiện nay đó là dữ liệu sai, không đúng. Một số minh chứng về dữ liệu sai ở các trường dữ liệu trong bảng dữ liệu lưu trữ thông tin của khách hàng:

Bảng 3: Mô tả các trường hợp dữ liệu sai

Về nguyên nhân dữ liệu, có thể kể đến như: do hệ thống nghiệp vụ đã được phát triển trong một thời gian khá dài (gần 10 năm) chưa được tối ưu, thiết kế không nhất quán, dữ liệu không chuẩn, các bước nghiệp vụ đi qua nhiều hệ thống phức tạp dẫn đến việc thu thập dữ liệu về kho dữ liệu gặp khó khăn. Hệ thống to cũng dẫn tới việc mất kiểm soát nên khi thêm dữ liệu vào cơ sở dữ liệu bị sai. Ngoài ra, dữ liệu sai còn do việc thiết kế, xây dựng hệ thống chưa được tối ưu, dẫn đến các dữ liệu không hợp lệ cũng được thêm vào cơ sở dữ liệu. Dữ liệu sai còn xuất phát từ phía

Khoá luận tốt nghiệp

khác hàng cố tình nhập sai thông tin như ngày sinh, quê quán, số điện thoại, số chứng minh thư, hoặc là nhân viên nhập vô tình/ cố tình nhập sai thông tin... Hoặc thậm chí nguyên nhân còn xuất phát từ chính những người thiết kế cơ sở dữ liệu, thiết kế sai, ....

- Khó khăn về cơ sở hạ tầng khi triển khai công nghệ và khai thác Bigdata

+Hạ tầng mạng (network) đôi lúc không ổn định, dẫn đến lost task (mất phiên làm việc khi chạy dữ liệu) ÷ phải chạy lại phiên làm việc đó÷ mất thời gian ÷ hiệu suất tlιap÷ ảnh hưởng đến hiệu quả của quản lý dữ liệu

(càng nhiều server , network không ổn định ÷ pp: replication)

+Bộ nhớ lưu trữ it÷ khó khăn trong việc lưu trữ dữ liệu do dữ liệu thu thập hàng ngày rất nhiều (khoảng 1TB)

+Khả năng tính toán của máy chủ (computing power) không đủ÷ chạy các jobs tổng hợp dữ liệu lâu ÷ hiệu suất làm việc thấp

+Hệ điều hành cu÷ khó tích hợp hay cài đặt các phần mềm khác và rất khó nâng cấp hệ thống

+ Phần mềm: dùng nhiều phần mềm miễn phí ÷ có những phần mềm không thật sự tốt, hạn chế nhiều tính năng ÷ không khai thác và tận dụng triệt để ÷ năng suất công việc không đạt hiệu quả cao nhất.

- Thiếu nhân sự chất lượng cao tham gia khai thác và quản lý dữ liệu

Việc quản lý dữ liệu chưa bao giờ là đơn giản cả, đặc biệt trong giai đoạn phát triển hướng tới thời đại công nghệ 4.0 thì sự gia tăng và lớn mạnh về dữ liệu lớn thì việc quản lý dữ liệu lớn ngày càng có nhiều thách thức hơn, không chỉ thách thức về mặt công nghệ, quy trình, ... và còn thách thức cả về mặt con người, về nguồn nhân lực chất lượng cao tham gia vào công việc quản lý dữ liệu. Việc sử dụng nguồn nhân lực chất lượng không cao thường gây ra một số khó khăn xảy ra thực tế trong doanh nghiệp, như: năng suất công việc không cao, các chương trình chạy tổng hợp dữ liệu không được tối ưu, gây ra việc tốn tài nguyên, triển khai cơ sở hạ tầng gặp nhiều khó khăn khi thiếu các chuyên gia giỏi tham gia vào việc tư vấn, lập kế hoạch. Đặc biệt, việc sử dụng nhân sự kém chất lượng cũng có thể gây ra về mặt tổng hợp dữ liệu, sai, thiếu, .... gây hậu quả nghiêm trọng trong việc đưa ra các quyết định trong điều hành kinh doanh.

Khoá luận tốt nghiệp

- Kinh doanh thông minh và khai thác dữ liệu phục vụ cho các bài toán khai phá dữ liệu còn nhiều hạn chế

Kinh doanh thông minh (Bussiness Intelligence), khai phá dữ liệu (Data mining), dữ liệu lớn (Big data), học máy (Machine learning), học sâu (Deep learning), trí tuệ nhân tạo (Artificial Intelligence) là những chủ đề nóng đang được rất nhiều người, đặc biệt là các chuyên gia công nghệ đề cập, bàn luận đến. Đây đều là những lĩnh vực mới, và cũng là xu hướng hiện tại và trong tương lai. Để bắt kịp xu hướng đó, các công ty, đặc biệt là những công ty công nghệ đang mạnh tay đầu tư cho những mảng này để tạo ra lợi thế cạnh tranh cho mình. Không nằm ngoài cuộc chơi, công ty nghiên cứu hiện tại đang mạnh mẽ đầu tư cả về nhân lực và công nghệ để đáp ứng được xu hướng, đồng thời tận dụng sức mạnh của kinh doanh thông minh, khai phá dữ liệu để nâng cao phục vụ trải nghiệm khách hàng, tạo lợi thế cạnh tranh cho công ty trong lĩnh vực Fintech. Xuất phát từ tầm nhìn và mục tiêu của công ty, thì việc quản lý dữ liệu, đặc biệt là việc khai thác giá trị từ dữ liệu càng trở nên vô cùng quan trọng, cấp thiết hơn bao giờ hết. Và dữ liệu chuẩn chính là “nguồn nguyên liệu” vô cùng quan trọng, là đầu vào của khai phá dữ liệu, học máy, học sâu. Tuy nhiên, vấn đề lớn nhất ở đây là chưa đảm bảo được chất lượng dữ liệu, dẫn đến việc khai thác trở nên nhiều thách thức hơn. Thách thức ở trong khai phá dữ liệu thể hiện ở chỗ: các chuyên gia phải mất rất nhiều công sức, thời gian để chuẩn hóa lại dữ liệu bị sai, không đúng chuẩn, dẫn tới ảnh hưởng tới năng suất xây dựng mô hình, thử nghiệm hay cũng tạo lên mối nghi ngại của ban lãnh đạo trong việc đưa ra quyết định hay tích hợp các mô hình học máy vào một số sản phẩm như: thực hiện chấm điểm tín dụng khi cho khách hàng vay, tìm kiếm tập khách hàng tiềm năng, phân khúc khách hàng để lập kế hoạch thực hiện các chiến dịch quảng cáo. Vì như chúng ta đã biết, việc đưa ra quyết định trong kinh doanh đòi hỏi độ chính xác cao vì các quyết định đó sẽ ảnh hưởng rất nhiều việc đưa ra các kế hoạch, chiến lược ngắn hạn, dài hạn và sự phát triển của doanh nghiệp trong tương lai. Doanh nghiệp sẽ không thể làm được kinh doanh thông minh hay xây dựng được các mô hình khai phá dữ liệu tốt nếu dữ liệu mà họ sử dụng có chất lượng kém. Khó khăn còn tồn tại ở việc sử dụng các khung BI trong tạo báo cáo còn chưa thống nhất trong tổ chức, hoặc do phần mềm quá đắt nên việc đầu tư cho nhiều

Khoá luận tốt nghiệp

nhân viên sử dụng chưa thể thực hiện được. Hiện tại thì trong công ty đang sử dụng Tableau, một công cụ trực quan hóa dữ liệu và tạo báo cáo, tạo báo cáo KPI, ...

Như vậy, có thể thấy rằng, việc quản lý dữ liệu trong tổ chức thực tập hiện nay vẫn còn rất nhiều thách thức, hạn chế, nổi bật là vấn đề về quản lý chất lượng dữ liệu và đầu tư cơ sở hạ tầng, phần mềm triển khai cũng như cần một nguồn nhân lực chất lượng cao tham gia vào công việc quản lý dữ liệu của tổ chức.

Khoá luận tốt nghiệp

CHƯƠNG 3

ĐỀ XUẤT MỘT SỐ GIẢI PHÁP QUẢN LÝ DỮ LIỆU HIỆU QUẢ TẠI DOANH NGHIỆP THỰC TẬP

Trọng tâm của các giải pháp hướng đến việc nâng cao chất lượng dữ liệu, từ đó giúp tổ chức quản lý dữ liệu hiệu quả hơn. Vì mục tiêu quan trọng nhất của tổ chức là dữ liệu cần tạo ra giá trị cho chính tổ chức đó.

Một phần của tài liệu 814 nghiên cứu thực trạng quản lý dữ liệu và đề xuất giải pháp quản lý dữ liệu hiệu quả tại doanh nghiệp thực tập,khoá luận tốt nghiệp (Trang 70 - 77)

Tải bản đầy đủ (DOCX)

(103 trang)
w