TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN TRUNG THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH VIỄN THÔNG VIỆT NAM VNPT LUẬN VĂN THẠC SĨ
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN TRUNG
THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH
VIỄN THÔNG VIỆT NAM (VNPT)
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2008
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN VĂN TRUNG
THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA TỔNG CÔNG TY BƯU CHÍNH
VIỄN THÔNG VIỆT NAM (VNPT)
Chuyên ngành: Công nghệ thông tin
Mã số: 1 01 10
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: PGS.TS Đặng Hữu Đạo
HÀ NỘI - 2008
Trang 3MỤC LỤC
MỤC LỤC 1
DANH SÁCH HÌNH VẼ 3
CÁC THUẬT NGỮ VÀ VIẾT TẮT 5
MỞ ĐẦU 6
Chương 1: TỔNG QUAN 8
1.1 Thị trường viễn thông 8
1.2 Dữ liệu ngành viễn thông 9
1.3 Mục tiêu của luận văn 10
1.4 Phạm vi của luận văn 10
1.5 Công cụ thực hiện 10
1.6 Phương pháp xây dựng kho dữ liệu 12
Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE 15
2.1 Định nghĩa kho dữ liệu 15
2.2 Đặc tính của kho dữ liệu 16
2.3 Kho dữ liệu và các cơ sở dữ liệu 17
2.4 Lợi ích của kho dữ liệu 18
2.5 Kho dữ liệu hiện nay 18
2.6 Xu hướng tương lai của kho dữ liệu 20
2.7 Kiến trúc của kho dữ liệu 22
2.7.1 Nguồn dữ liệu 23
2.7.2 Công cụ trích xuất chuyển đổi và nạp dữ liệu (ETL) 24
2.7.3 Siêu dữ liệu 24
2.7.4 Kho dữ liệu chủ đề 25
2.7.5 Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu 26
2.8 Tổ chức dữ liệu lôgíc 26
2.8.1 Lược đồ kho dữ liệu 26
2.8.2 Mô hình dữ liệu đa chiều 28
2.8.3 Bảng sự kiện 29
2.8.4 Bảng chiều 30
2.8.5 Bảng sự kiện tổng hợp 30
2.9 Tổ chức dữ liệu vật lý 31
2.9.1 Phân vùng 31
2.9.2 Chỉ mục 31
Chương 3: PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG 33
3.1 Phân tích 33
3.1.1 Tìm hiểu hệ thống nguồn CCBS 33
3.1.2 Xác định yêu cầu phân tích 37
3.2 Thiết kế 42
3.2.1 Kiến trúc của kho dữ liệu 43
3.2.2 Thiết kế mô hình dữ liệu 45
Trang 43.2.2 Thiết kế mô hình vật lý 72
3.2.4 Thiết kế trích xuất chuyển đổi nạp dữ liệu 84
3.2.5 Thiết kế công cụ báo cáo, tra cứu động 92
3.2.6 Thiết kế công cụ quản trị hệ thống 99
3.3 Cài đặt, triển khai 101
3.3.1 Cài đặt hệ thống 101
3.3.2 Triển khai 101
Chương 4: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 103
4.1 Kết quả 103
4.2 Giao diện chương trình 103
4.3 Báo cáo phân tích 107
4.4 Hướng phát triển của đề tài 115
KẾT LUẬN VÀ KIẾN NGHỊ 117
TÀI LIỆU THAM KHẢO 118
Phụ lục 1: SƠ ĐỒ CSDL BẢNG SỰ KIỆN CỦA DWH 119
Phụ lục 2: LỆNH SCRIPT CỦA CÁC ÁNH XẠ ETL SẢN SINH TỪ OWB 125 Phụ lục 3: CÂU LỆNH SQL LẤY DỮ LIỆU CỦA CÁC BÁO CÁO PHÂN TÍCH131
Trang 5
DANH SÁCH HÌNH VẼ
Hình 1 Mô hình thác nước với thiết lập cơ sở hạ tầng và quản lý dự án 12
Hình 2 Định nghĩa DWH 15
Hình 3 Kiến trúc DWH cơ bản 22
Hình 4 Kiến trúc DWH với Staging Area 23
Hình 5 Kiến trúc kho dữ liệu với Staging Area và Data Mart 23
Hình 6 Lược đồ hình sao 27
Hình 7 Lược đồ bông tuyết rơi 28
Hình 8 Mô hình đa chiều 28
Hình 9 Hệ thống CCBS tổng thể 34
Hình 10 Kiến trúc của DWH thử nghiệm 43
Hình 11 Sơ đồ kho dữ liệu Bán hàng 46
Hình 12 Chiều thời gian 47
Hình 13 Phân cấp thời gian 48
Hình 14 Chiều dịch vụ viễn thông 48
Hình 15 Chiều khách hàng 49
Hình 16 Chiều kênh giao tiếp 50
Hình 17 Chiều điểm giao dịch 51
Hình 18 Phân cấp điểm giao dịch 51
Hình 19 Chiều địa chỉ 52
Hình 20 Phân cấp địa chỉ 52
Hình 21 Chiều kiểu yêu cầu 53
Hình 22 Chiều khuyến mãi 53
Hình 23 Sơ đồ kho dữ liệu Phát triển thuê bao 54
Hình 24 Chiều thuê bao 55
Hình 25 Chiều đơn vị quản lý 56
Hình 26 Chiều đối tượng khách hàng 56
Hình 27 Sơ đồ kho dữ liệu chủ đề Điều hành thi công 57
Hình 28 Chiều hướng giao 57
Hình 29 Sơ đồ kho dữ liệu Khiếu nại 58
Hình 30 Chiều nhóm khiếu nại 58
Hình 31 Sơ đồ kho dữ liệu Xử lý khiếu nại 59
Hình 32 Chiều kết quả khiếu nại 60
Hình 33 Sơ đồ kho dữ liệu Cước khách hàng 60
Hình 34 Chiều mã vùng 61
Hình 35 Chiều kiểu dịch vụ 62
Hình 36 Chiều đối tượng khách hàng 63
Hình 37 Sơ đồ kho dữ liệu tổng hợp cước khách hàng 63
Hình 38 Chiều thanh toán 64
Hình 39 Chiều khoản mục cước 65
Hình 40 Sơ đồ kho dữ liệu thanh toán nợ khách hàng 65
Hình 41 Chiều hình thức thanh toán 66
Hình 42 Sơ đồ kho dữ liệu nợ cước khách hàng 66
Hình 43 Sơ đồ kho dữ liệu nhắc nợ cước khách hàng 67
Hình 44 Sơ đồ kho dữ liệu khóa mở nợ cước 67
Hình 45 Sơ đồ kho dữ liệu xử lý nợ cước 68
Hình 46 Chiều hình bước xử lý nợ 68
Trang 6Hình 47 Sơ đồ kho dữ liệu báo hỏng 69
Hình 48 Chiều tình trạng 69
Hình 49 Sơ đồ kho dữ liệu xử lý báo hỏng 70
Hình 50 Chiều nguyên nhân 70
Hình 51 Sơ đồ kho dữ liệu sử dụng dịch vụ viễn thông 71
Hình 52 Sơ đồ kho dữ liệu sử dụng dịch vụ gia tăng 71
Hình 53 Kiến trúc vật lý kho dữ liệu viễn thông 72
Hình 54 Mô hình quan hệ bán hàng 74
Hình 55 Bảng thống kê cuộc gọi theo giờ bắt đầu 79
Hình 56 Bảng thống kê cuộc gọi theo dịch vụ 80
Hình 57 Bảng thống kê cuộc gọi theo mã vùng 80
Hình 58 Bảng thống kê doanh thu 80
Hình 59 Bảng thống kê tiền nợ cước 81
Hình 60 Bảng thống kê tiền thanh toán 81
Hình 61 Bảng tổng hợp cước sử dụng khách hàng 82
Hình 62 Bảng tổng hợp tiền nợ khách hàng 82
Hình 63 Bảng tổng hợp tiền thanh toán khách hàng 82
Hình 64 Sơ đồ ánh xạ DICHVU_VT_MAP 85
Hình 65 Sơ đồ ánh xạ DIACHI_MAP 86
Hình 66 Sơ đồ ánh xạ KIEU_YC_MAP 86
Hình 67 Sơ đồ ánh xạ KHACHHANG_MAP 86
Hình 68 Sơ đồ ánh xạ THANHTOAN_MAP 87
Hình 69 Sơ đồ ánh xạ THUEBAO_MAP 87
Hình 70 Sơ đồ ánh xạ DANGKY_DVVT_MAP 87
Hình 71 Sơ đồ ánh xạ PHATTRIEN_TB_MAP 88
Hình 72 Sơ đồ ánh xạ DIEUHANH_TC_MAP 88
Hình 73 Sơ đồ ánh xạ KHIEUNAI_MAP 89
Hình 74 Sơ đồ ánh xạ XL_KHIEUNAI_MAP 89
Hình 75 Sơ đồ ánh xạ BAOHONG_MAP 89
Hình 76 Sơ đồ ánh xạ XL_BAOHONG_MAP 90
Hình 77 Sơ đồ ánh xạ CT_CUOC_KH_MAP 90
Hình 78 Sơ đồ ánh xạ TH_CUOC_KH_MAP 90
Hình 79 Sơ đồ ánh xạ CT_NO_KH_MAP 91
Hình 80 Sơ đồ ánh xạ CT_TTNO_KH_MAP 91
Hình 81 Sơ đồ ánh xạ SUDUNG_DVVT_MAP 91
Hình 82 Mô hình báo cáo truyền thống 92
Hình 83 Mô hình báo cáo từ xa sử dụng Webservice 93
Hình 84 Kiến trúc và công nghệ hệ thống báo cáo, tra cứu 94
Hình 85 Mô hình cở sở dữ liệu của hệ thống báo cá, tra cứu 95
Hình 86 Mô hình cở sở dữ liệu của công cụ quản trị hệ thống 100
Hình 87 Giao diện chính 104
Hình 88 Giao diện định nghĩa báo cáo và tra cứu 104
Hình 89 Giao diện chung hiển thị báo cáo 104
Hình 90 Giao diện tra cứu động 105
Hình 91 Giao diện cấu hình form nhập dữ liệu từ điển 105
Hình 92 Giao diện chung nhập dữ liệu từ điển 106
Hình 93 Giao diện định nghĩa quyền 106
Hình 94 Giao diện phân quyền cho nhóm người dùng 107
Trang 7CÁC THUẬT NGỮ VÀ VIẾT TẮT
BI (Business Intelligence): Quản trị doanh nghiệp thông minh
CCBS (Customer Care and Billing System): Hệ thống Tính cước và Chăm sóc khách hàng
CDI (Customer Data Integration): Tích hợp dữ liệu khách hàng
CSDL: Cơ sở dữ liệu
CRM (Customer relationship management): Quản lý mối quan hệ với khách hàng
DM (Data mart): Kho dữ liệu chủ đề
DOLAP (Database Online Analytical Processing): Xử lý phân tích trực tuyến CSDL
DWH (Data Warehouse): Kho dữ liệu
EIS (Executive Information System): Hệ thống thông tin điều hành
ETL (Extract Transform Load): Trích xuất chuyển đổi dữ liệu
HOLAP (Hybric Online Analytical Processing): Xử lý phân tích trực tuyến kết hợp
MDM (Master Data Management): Quản lý dữ liệu chủ
MOLAP (Multi dimensional Online Analytical Processing): Xử lý phân tích trực tuyến đa chiều
ODS (Operational data store): Kho dữ liệu vận hành
OLTP (Online Transaction Processing): Xử lý giao dịch trực tuyến
OLAP (Online Analytical Processing): Xử lý phân tích trực tuyến
OWB (Oracle Warehouse Builder): Công cụ xây dựng kho dữ liệu của Oracle
SOA (Service-Oriented Architecture): Kiến trúc hướng dịch vụ
ROLAP (Relational Online Analytical Processing): Xử lý phân tích trực tuyến quan hệ
VNPT (Vietnam Posts and Telecommunications Group): Tập đoàn Bưu chính Viễn thông Việt nam
VLDB (Very large DB): Cơ sở dữ liệu rất lớn
Trang 8MỞ ĐẦU
Trong nền kinh tế thị trường hiện nay, thông tin là yếu tố sống còn đối với bất
kỳ một doanh nghiệp nào Việc nắm bắt thông tin giúp cho các doanh nghiệp hoạch định chiến lược kinh doanh cho mình một cách chính xác
Sự ra đời của công nghệ kho dữ liệu (Data Warehouse - DWH) trong những năm gần đây đã đáp ứng nhu cầu quản lý, lưu trữ một khối lượng dữ liệu lớn và có khả năng khai thác dữ liệu đa chiều và theo chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý
Trong nước hiện nay có rất nhiều doanh nghiệp đã và đang nghiên cứu, tiến hành triển khai hệ thống DWH
Đối với nước ngoài, hệ thống kho dữ liệu được áp dụng từ lâu và đã phát huy được những hiệu quả rất lớn giúp ích cho các doanh nghiệp trong việc hoạch định chiến lược kinh doanh cũng như việc nghiên cứu phát triển các ứng dụng
Đối với Tổng công ty Bưu chĩnh Viễn thông Việt Nam (VNPT), xây dựng hệ thống Data Warehouse có ý nghĩa hết sức quan trọng Ngoài việc thu thập lưu trữ các thông tin từ các hệ thống như Tính cước và chăm sóc khách hàng nói chung và các hệ thống khác nói riêng hệ thống DWH còn cung cấp các thông tin hữu ích giúp cho các nhà phát triển cập nhật các thay đổi hệ thống một cách nhanh chóng Hơn thế nữa, hệ thống còn cung cấp cho nhà quản lý những thông tin quan trọng chính xác và nhanh chóng giúp họ có tầm nhìn chiến lược và hỗ trợ nhà quản lý ra những quyết định kịp thời và có lợi nhất cho doanh nghiệp trong điều kiện cạnh tranh của ngành viễn thông đang diễn ra rất gay gắt
Xuất phát từ thực tế đó, đồ án tốt nghiệp này trình bày về việc ứng dụng công nghệ kho dữ liệu trên môi trường Oracle vào “Thiết kế và triển khai kho dữ liệu khách hàng sử dụng dịch vụ viễn thông của Tổng công ty Bưu chinh Viễn thông Việt Nam (VNPT)” được thực hiện với mong muốn xây dựng được một DWH ban đầu để hỗ trợ VNPT đặc biệt là các Viễn thông tỉnh trong việc quản lý, điều hành doanh nghiệp Nội dung luận văn này bao gồm các phần chính như sau:
Trang 9Nội dung chính của chương này là trình bày tổng quan về DWH gồm định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lô gíc, tổ chức vật lý của DWH
Chương 3: Phân tích, thiết kế và triến khai DWH khách hàng sử dụng dịch
vụ viễn thông
Nội dung chính của chương này bao gồm: Tìm hiểu hệ thống nguồn CCBS; xác định yêu cầu phân tích; thiết kế mô hình dữ liệu dựa trên yêu cầu phân tích và CSDL (Cở sở dữ liệu) của Hệ thống Tính cước và Chăm sóc khách hàng (Customer Care and Billing System – CCBS); thiết kế mô hình vật lý; thiết kế trích xuất chuyển đổi và nạp số liệu từ hệ thống CCBS vào DWH; xây dựng công cụ báo cáo, tra cứu động và quản trị hệ thống; cài đặt và triển khai DWH
Chương 4: Kết quả và hướng phát triển
Nội dung chính của chương này là trình bày các kết quả của luận văn; một số giao diện của công cụ báo cáo, tra cứu, quản trị hệ thống; một số báo cáo phân tích; hướng phát triển của luận văn
Trang 10Chương 1: TỔNG QUAN
Tóm lược nội dung:
Nội dung chính của chương này là trình bày tổng quan về thị trường viễn thông;
dữ liệu của ngành viễn thông; mục tiêu và phạm vi của luận văn; công cụ và phương pháp xây dựng DWH
1.1 Thị trường viễn thông
Trong thập niên qua, mọi lĩnh vực công nghiệp đã có kinh nghiệm biến đổi sâu sắc trong môi trường kinh doanh của họ Việc bãi bỏ các quy định (cho phép thị trường viễn thông tự do cạnh tranh), sự cạnh tranh, sự tiến bộ công nghệ và toàn cầu hóa kết hợp lại tạo ra sức ép khổng lồ lên những nhà cung cấp lĩnh vực viễn thông và khả năng của họ phản ứng lại với những sự thay đổi này
Những nhà cung cấp trong lĩnh vực viễn thông hôm nay đang phải đối mặt với những thách thức như:
- Tiếp tục cạnh tranh xuất phát từ việc cho phép thị trường viễn thông tự do cạnh tranh
- Tỷ lệ dời bỏ nhà cung cấp cao trong sự gia tăng thâm nhập thị trường
- Sự suy giảm mang tính hệ thống lợi ích sử dụng dịch vụ thoại
- Những yêu cầu cơ sở hạ tầng do cuộc chạy đua về công nghệ mới
- Sự suy giảm về sự thu nhận
Trong công nghiệp viễn thông, sự tự do cạnh tranh dẫn đến sự cạnh tranh không chỉ trong nước mà mang tính quốc tế Điều này làm cho thị phần bị chia sẽ và đe dọa những nguồn lợi tức
Sự cạnh tranh đã tạo ra những sản phẩm mới ra thị trường 3G, VOIP, dịch vụ định vị, ứng dụng dữ liệu di động và sự tích hợp đa phương tiện,…có quy mô rủi ro cao bổ sung tới nền công nghiệp mà yêu cầu sự đầu tư vốn lớn để nâng cấp mạng lưới, tính cước, sự hỗ trợ và cơ sở hạ tầng khác Trong lúc đó những lợi tức và những lợi nhuận trong kinh doanh dịch vụ thoại suy giảm mang tính hệ thống
Trong những năm qua, thị trường viễn thông ở Việt Nam phát triển rất nhanh Với chính sách mở cửa, khuyến khích cạnh tranh của Nhà nước, trên thị trường đã xuất hiện nhiều nhà cung cấp dịch vụ mới, cạnh tranh gay gắt với VNPT, khiến cho thị phần của VNPT bị chia sẻ đáng kể Đặc biệt, trong điều kiện Việt Nam đã chính thức gia nhập WTO, thị trường viễn thông sẽ ngày càng sôi động hơn, VNPT sẽ phải đối mặt với sự cạnh tranh ngày càng gay gắt hơn không chỉ với các đối thủ trong nước mà còn với các đối thủ nước ngoài Để có thể đứng vững và phát triển trong môi trường kinh doanh mới, VNPT cần phải không ngừng nâng cao năng lực cạnh tranh nói chung
và đặc biệt là nâng cao năng lực cạnh tranh dịch vụ di động, băng thông rộng
Trang 11Tính đến cuối năm 2007, có 44 triệu thuê bao điện thoại; trong đó thuê bao di động 30 triệu thuê bao chiếm 75,5%; mật độ điện thoại đạt 52 máy / 100 dân; 1,2 triệu thuê bao ADSL; đã có 18,64 triệu người sử dụng Internet (quy đổi)
Trên thị trường viễn thông, nhu cầu về dịch vụ điện thoại cố định có chiều hướng giảm dần và giữ mức tăng khoảng 9% trong giai đoạn 2007-2011 do người tiêu dùng chuyển hướng sang sử dụng các dịch vụ di động và băng rộng
Cạnh tranh sôi động nhất đang diễn ra trên thị trường di động giữa 7 nhà cung cấp dịch vụ như Vinaphone, Mobifone, Viettel, EVN Telecom, SPT, HTC, GTel qua
đó thúc đẩy thị trường di động đạt mức tăng trưởng nhanh
Các mạng di động của Việt Nam hiện thời vẫn theo chuẩn 2G hay 2.5 G cung cấp chủ yếu dịch vụ thoại và một số loại dịch vụ giá trị gia tăng như SMS, WAP, GPRS Hiện các nhà khai thác di động đang tập trung chuyển đổi sang mạng 3G, nhưng với tốc độ chậm chạp do còn gặp nhiều khó khăn về dịch vụ nội dung thông tin
và thiết bị đầu cuối đắt đỏ Dự kiến đến 2011, thị trường dịch vụ 3G đạt khoảng 3 triệu thuê bao chiểm 6% tổng thuê bao di động
Hàng loạt dịch vụ điện thoại cố định không dây ra đời thời gian qua đã tạo điều kiện cho người sử dụng có cơ hội thử nghiệm và lựa chọn Trước Gphone của VNPT, Tập đoàn Điện lực Việt Nam (EVN) đã cho ra đời dịch vụ điện thoại cố định không dây E-Com và Tổng Cty Viễn thông Quân đội tung ra HomePhone
WiMAX đang được các doanh nghiệp viễn thông thử nghiệm Hiện nay VNPT cũng đã thử nghiệm dịch vụ WiMax thành công ở trên Lào Cai, đang triển khai thử nghiệm ở Hà Nội và TP HCM
Cạnh tranh thị trường viễn thông lâu nay chủ yếu là cạnh tranh bằng giá, mà chưa phải là bằng chất lượng và cách thức phục vụ Cuộc đua giữa các đại gia ngày càng quyết liệt, bên cạnh các gói giảm cước cũng như dịch vụ mới, các doanh nghiệp trong lĩnh vực này cũng cần nâng cao chất lượng của dịch vụ vì đây mới là vấn đề mấu chốt trong chiến lược thu hút khách hàng về với doanh nghiệp mình Chính vì thế sự cạnh trang quyết liệt này sẽ còn diễn ra không chỉ trên mặt trận giá cước mà còn cả về chất lượng của dịch vụ
1.2 Dữ liệu ngành viễn thông
Ngành công nghiệp viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm chi tiết cuộc gọi, thông tin cảnh báo trình trạng của hệ thống mạng viễn thông và thông tin dữ liệu về khách hàng:
- Dữ liệu chi tiết cuộc gọi( call detail data ): Mỗi một cuộc gọi của khách hàng
trên mạng viễn thông đều phát sinh một mẫu tin chi tiết cuộc gọi Các mẫu tin này bao gồm các thông tin đặc tả thuộc tính quan trọng của cuộc gọi như: số chủ gọi, số bị gọi, thời gian bắt đầu và thời gian đàm thoại Thông thường các
dữ liệu chi tiết cuộc gọi không được sử dụng trực tiếp cho các ứng dụng data
Trang 12mining mà thường kết hợp với thông tin cá nhân khách hàng để tổng quát hóa
thành thông tin về hành vi sử dụng điện thoại của khách hàng
- Dữ liệu trạng thái mạng ( network data ): Mạng viễn thông có cấu hình rất
phức tạp, được cấu trúc bởi hàng ngàn thiết bị viễn thông kết nối với nhau Các thông điệp trạng thái (status message) của mỗi thiết bị phải được lưu trữ thành một kho dữ liệu trạng thái mạng (network data) và chúng được phân tích theo trình tự để hỗ trợ chức năng quản lý mạng Mỗi thông điệp trạng thái ít nhất phải bao gồm thời gian phát sinh và thông tin mã hóa về lỗi hay trạng thái của thiết bị
- Dữ liệu khách hàng ( customer data ): Cũng như các lĩnh vực kinh doanh lớn
khác, các thông tin về khách hàng cần được lưu trữ để dùng cho các ứng dụng như tính cước, tiếp thị Thông tin về khách hàng bao gồm số điện thoại, họ tên, địa chỉ và các thuộc tính quan trọng khác như quá trình thanh toán nợ, quá trình
sử dụng các dịch vụ, thu nhập Thông thường dữ liệu khách hàng phải được kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiết cuộc gọi) trong khi sử dụng data mining
1.3 Mục tiêu của luận văn
Xây dựng và triển khai DWH khách hàng sử dụng dịch vụ viễn thông cho Viễn thông tỉnh dựa trên việc tìm hiểu và phân tích hệ thống nguồn CCBS mà các viễn thông tỉnh đang sử dụng nhằm hỗ trợ lảnh đạo, các phòng ban,…đưa ra các chiến lược kinh doanh nhanh chóng chính xác Xây dựng được CSDL tương đối hoàn chỉnh cho DWH; xây dựng các ánh xạ thu thập số liều từ hệ thống nguồn CCBS; xây dựng công
cụ báo cáo, tra cứu và quản trị hệ thống; xây dựng được một số báo cáo phân tích ban đầu Trong thiết kế hệ thống hướng tới tính mở và thiết kế tổng thể để dễ dàng mở rộng và áp dụng cho các doanh nghiệp viễn thông khác
1.4 Phạm vi của luận văn
Xây dựng DWH đặc biệt là DWH viễn thông là một quá trình lâu dài với nhiều công việc Trong luận văn này, dữ liệu DWH được xây dựng chủ yếu tập trung vào dữ liệu khách hàng và dữ liệu chi tiết cuộc gọi (Dữ liệu từ hệ thống nguồn CCBS) Quy
mô hệ thống thử nghiệm được xây dựng áp dụng cho một Viễn Thông Tỉnh của Tập Đoàn Bưu Chính Viễn Thông Việt Nam VNPT Mỗi Viễn Thông Tỉnh coi như mô hình thu nhỏ của VNPT, là nơi cung cấp đầy đủ các dịch vụ viễn thông tại địa bàn đó như dịch vụ: Điện thoại cố định, điện thoại di động, dịch vụ Gphone, điện thoại vệ tinh, Internet, kênh thuê riêng,….Tập trung thiết kế mô hình dữ liệu và thu thập số liệu
từ hệ thống nguồn CCBS, thiết kế một số các báo cáo, tra cứu cơ bản
1.5 Công cụ thực hiện
Hệ quản trị cở sở dữ liệu cho kho dữ liệu:
Trang 13Một số yêu cầu kĩ thuật dùng để đánh giá khả năng của hệ quản trị cơ sở dữ liệu trong quá trình xây dựng DWH:
- Có khả năng mở rộng: khả năng mở rộng là yêu cầu rất cần thiết trong việc xây dựng kho dữ liệu vì có nhiều trường hợp, ban đầu kho dữ liệu có thể có kích thước vừa phải nhưng sau đó do nhu cầu phát triển nên kho dữ liệu cần được
mở rộng thêm
- Hỗ trợ cơ sở dữ liệu lớn: do đặc trưng của kho dữ liệu là có kích thước lớn
- Năng lực tính toán song song: Kho dữ liệu lớn cũng đồng nghĩa với việc sẽ có nhiều dữ liệu cần được xử lý, do đó khả năng tính toán song song của hệ thống
là rất cần thiết
- Khả năng quản trị: quản trị và bảo trì một Kho dữ liệu lớn là một công việc rất phức tạp như sao lưu và phục hồi dữ liệu, đòi hỏi những công cụ trợ giúp hữu hiệu, tiện lợi và dễ sử dụng Đối với kho dữ liệu lớn công việc bảo trì và quản trị không được làm gián đoạn hoạt động của hệ thống
- Đáp ứng được các truy vấn phức tạp, có nhiều điều kiện và phải tham chiếu đến nhiều liên kết khác nhau
- Hỗ trợ đánh chỉ mục và truy vấn hình sao nhằm cải thiện thời gian truy vấn
- Hỗ trợ các công cụ xử lý phân tích trực tuyến
Trong những năm gần đây, trên thế giới xu hướng phát triển của thị trường cung cấp các giải pháp cho công nghệ kho dữ liệu dần dần thuộc về các hãng CSDL truyền thống như Oracle, DB2, Microsoft Sql Server, Oracle là một trong số các hãng hàng đầu trên thế giới về lĩnh vực quản trị cơ sở dữ liệu có công nghệ xây dựng DWH tiên tiến (Theo báo cáo thị phần hệ thống Quản lý cơ sở dữ liệu trên toàn cầu của Gartner, Oracle chiếm 47,1% thị phần năm 2006) Đặc biệt Oracle 11g hỗ trợ rất nhiều cho cở
sở dữ liệu rất lớn
- Oracle Database 11g có khả năng đáng kể về nén và phân vùng dữ liệu mới đối với khả năng quản lý lưu trữ và vòng đời dữ liệu với chi phí hiệu qủa hơn
- Oracle Database 11g tự động hóa nhiều hoạt động phân vùng dữ liệu thủ công
và mở rộng phương pháp phân vùng theo khoảng giá trị, hash và liệt kê phân vùng hiện có để có khoảng đệm, tham chiếu và phân vùng ảo theo cột
- Thêm vào đó, Oracle Database 11g cung cấp một bộ hoàn chỉnh các lựa chọn phân vùng hỗn hợp cho phép quản lý lưu trữ được thực hiện theo các qui định kinh doanh
- Oracle Database 11g đưa đến khả năng nén dữ liệu tiên tiến cho cả dữ liệu có cấu trúc và không có cấu trúc được xử lý trong quy trình giao dịch, lưu trữ dữ liệu và các môi trường quản trị nội dung Tỷ lệ nén tất cả các dữ liệu lớn từ 2 - 3 lần hoặc cao hơn có thể đạt được với khả năng nén tiên tiến mới trong Oracle Database 11g
Trang 14- Khối dữ liệu xử lý giao dịch trực tuyến (Online Transaction Processing – OLAP) nhúng được tăng cường để hoạt động như những thông số hiển thị được cụ thể hóa trong cơ sở dữ liệu
Hệ thống Tính cước và Chăm sóc khách hàng ở hầu hết Viễn thông các tỉnh có CSDL là Oracle Nếu chọn Oracle làm hệ quản trị cở sở cho kho dữ liệu sẽ dễ dàng cho việc xây dựng công cụ thu thập số liệu
Công cụ xây dựng và quản trị kho dữ liệu
Oracle Warehouse Builder, công cụ xây dựng DWH của hãng Oracle, cho phép người phân tích và thiết kế hệ thống xây dựng DWH đáp ứng được các yêu cầu kĩ thuật trên đây là sự lựa chọn của đồ án nhằm xây dựng kho dữ liệu Công cụ này thường đi kèm với Oracle Database
Công cụ xây dựng quản trị báo cáo
Crystal Report thiết kế các mẫu báo cáo phân tích
Crystal Report Server quản trị hệ thống báo cáo từ xa
Ngôn ngữ lập trình
Sử dụng ngôn ngữ C#, Asp.Net để xây dựng hệ thống báo cáo động và quản trị hệ thống kho dữ liệu
1.6 Phương pháp xây dựng kho dữ liệu
Dựa trên cở sở của công nghệ phần mềm như mô hình thác nước để xây dựng DWH, nó bao gồm các bước chính sau: Nghiên cứu khả thi, yêu cầu, kiến trúc, thiết
kế, phát triển, kiểm thử, triển khai, hoạt động Có thể bổ sung vào mô hình thác nước hai bước thiết lập cơ sở hạ tầng và quản lý dự án
Hình 1 Mô hình thác nước với thiết lập cơ sở hạ tầng và quản lý dự án
Trang 15Có thể cải tiến bằng nhiều cách: nhận dạng các tác vụ lặp, định nghĩa các tác vụ một cách nhất quán, xác định các tiêu chuẩn đảm bảo chất lượng và sự đầy đủ của dữ liệu, định nghĩa việc quản lí tác vụ, tối ưu hóa các tác vụ
Chu trình xây dựng một DWH chủ đề bao gồm nhiều pha Ta sẽ xem xét chi tiết
về từng pha cụ thể trong quá trình xây dựng kho dữ liệu chủ đề bằng công cụ Oracle Warehouse Builder Việc xây dựng kho dữ liệu thử nghiệm sử dụng Oracle Warehouse Builder có thể chia thành các giai đoạn sau:
Phân tích yêu cầu:
o Tìm hiểu hệ thống nguồn
o Xác định yêu cầu
Thiết kế mô hình dữ liệu:
o Xác định, thiết kế các chiều (dimension table)
o Xác định, thiết kế các bảng fact (fact table)
o Xác định, thiết kế các khối cube (Lược đồ hình sao)
Thiết kế vật lý:
o Kiến trúc DWH
o Ước lượng dung lượng
o Tạo cấu trúc database: từ các định nghĩa logic ở giai đoạn đầu, sử dụng các DDL (Data definition Language) để xây dựng kho cùng với các lược
o Ánh xạ các chiều
o Ánh xạ bảng sự kiện
Xây dựng hệ thống báo cáo, quản trị hệ thống
o Xây dựng hệ thống báo cáo động
o Xây dựng công cụ quản trị hệ thống
Cài đặt, triển khai và quản trị dữ liệu:
o Cài đặt các thành phần của hệ thống
o Tạo cấu trúc cở sở dữ liệu DWH Lúc này cơ sở hạ tầng của kho dữ liệu
đã được hoàn chỉnh
Trang 16o Thu thập số liệu ban đầu Sử dụng các công cụ Proccess flow và schedule tạo các luồng công việc và đặt lịch cho chúng
o Quản trị người dùng, xây dựng báo cáo tra cứu, quản trị dữ liệu
Trang 17Chương 2: TỔNG QUAN VỀ DATA WAREHOUSE
Tóm lược nội dung:
Nội dung chính của chương này là trình bày tổng quan về DWH gồm định nghĩa, đặc tính, lợi ích, xu hướng tương lai, kiến trúc, tổ chức lô gíc, tổ chức vật lý của DWH
2.1 Định nghĩa kho dữ liệu
Định nghĩa do W.H Inman đề xướng: DWH được hiểu là một tập hợp các dữ liệu tương đối ổn định (không hay thay đổi), cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý
Được xây dựng bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp, đa bộ:
Cơ sở dữ liệu quan hệ (relational databases), flat files, các bảng ghi giao dịch trực tuyến
Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng:
Trang 18– Đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo, thuộc tính,…giữa các nguồn khác nhau
– Khi dữ liệu được chuyển đến kho dữ liệu, nó sẽ được chuyển đổi
Biến thời gian (time-variant):
Yêu cầu quan trong cho kho dữ liệu là phạm vi về thời gian dài hơn so với các
hệ thống tác nghiệp
– Cơ sở dữ liệu tác nghiệp: dữ liệu có giá trị hiện thời
– Dữ liệu của kho dữ liệu: cung cấp thông tin lịch sử (ví dụ như, 5-10 năm trước)
Yếu tố thời gian được lưu trữ trong CSDL
Bền vững (non-volatile):
Là một lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp
Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi trường kho dữ liệu – Không yêu cầu các cơ chế xử lý giao dịch, phục hồi và điều khiển tương tranh
– Chỉ yêu cầu hai thao tác trong truy cập dữ liệu: Nạp dữ liệu và truy cập dữ liệu
2.2 Đặc tính của kho dữ liệu
Trước hết ta tìm hiểu khái niệm về vùng chủ đề (Subject Area – SA): một SA là một chủ đề được tách ra từ tập hợp lớn các chủ đề mà người sử dụng cuối quan tâm trong một lĩnh vực tác nghiệp cụ thể nào đó
Những đặc điểm cơ bản của DWH:
Tính tích hợp
Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất
Một kho dữ liệu là một khung nhìn tổng thể thống nhất các khung nhìn khác nhau
Ví dụ: một hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung một dạng thông tin về khách hàng, nhưng các vấn đề về tài chính cần một khung nhìn khác cho thông tin về khách hàng Một kho sẽ có một khung nhìn toàn thể về một khách hàng Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ các hệ thống tác nghiệp khác nhau
Trang 19dữ liệu trong kho được tạo ra và gắn liền với một giá trị thời gian nhất định
Dữ liệu tổng hợp và chi tiết
Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau
2.3 Kho dữ liệu và các cơ sở dữ liệu
DWH về bản chất cũng là một database bình thường, các hệ quản trị cơ sở dữ liệu quản lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn) Thực ra nét khác biệt của DWH so với database là ở quan niệm, cách nhìn vấn đề:
- Trước tiên DWH là database rất lớn (very large database-VLDB)
- Database hướng về xử lý thời gian thực, DWH hướng về tính ổn định
- Database phục vụ xử lý transaction, cập nhật Datawarehouse thường chỉ đọc, phục vụ cho những nhu cầu báo cáo VD: Chúng ta sẽ yêu cầu hãy cho biết trong 5 năm, bộ phận phần mềm đã làm được những dự án nào từ đó chúng ta
sẽ có quyết định về hiệu năng của nhóm này
- DWH sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver thậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó-đó là VLDB(very large database) DWH rất lớn nên muốn cho từng
bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thông dễ dàng thì bản thân DWH phải được chuyên hoá, phân ra thành những chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Database chuyên biệt-đó là Data mart VD: DWH của Microsoft là rất lớn, trong một núi thông tin đó làm sao khai thác? Vì thế có rất nhiều Data mart về kinh doanh, tiếp thị, kỹ thuật, testing,… Có một điểm lưu ý ở đây là có một công cụ hay đúng hơn là một chuẩn công cụ mà mọi hệ quản trị Database hỗ trợ cho việc truy vấn thông tin
Trang 20trong Datamart rồi đưa ra những quyết định, nhận dịnh những thông tin trong Datamart - Đó là OLAP, bộ phân tích trực tuyến
- Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1, 2, 3, BCK) để khai thác DWH phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo start chema trong Data mart, điều này đồng nghĩa vớI việc DWH sẽ trùng lắp thông tin Thật ra điều này theo tôi nghĩ là hiển nhiên vì việc chuẩn hoá nhằm tránh sự trùng lắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa, tuy nhiên DWH là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắp thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn Đây cũng
là một quy luật: Càng trùng lắp thông tin thì tìm kiếm càng dễ dàng và ngược lại
2.4 Lợi ích của kho dữ liệu
Tạo ra những quyết định có ảnh hưởng lớn: Một DWH cho phép trích rút tài nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào cơ sở dữ liệu hoạt động và sản xuất Điều này tạo ra sự tiết kiệm đáng kể Có kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp
Công việc kinh doanh trở nên thông minh hơn: Tăng thêm chất lượng và tính linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh cho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và ổn định (trusted data)
Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan
hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một kho dữ liệu riêng
Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích không ngừng thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được những hạn chế và mục tiêu kinh doanh một cách chính xác hơn
Tái sáng tạo hệ thống thông tin: Một DWH là nền tảng cho các yêu cầu dữ liệu trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo chuẩn quốc tế
2.5 Kho dữ liệu hiện nay
Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp thông minh làm tăng mối quan hệ khách hàng (CRM - Customer Relationship
Trang 21Management) và khai thác dữ liệu Một số được sử dụng để báo cáo tổng hợp, một số được sử dụng để tích hợp dữ liệu Các cách sử dụng này đều tương quan với nhau; ví
dụ, quản trị doanh nghiệp thông minh (Business Intelligence - BI) và CRM sử dụng khai thác dữ liệu, kinh doanh thông minh sử dụng báo cáo, còn BI và CRM còn sử dụng tích hợp dữ liệu Trong các phần sau sẽ mô tả cách sử dụng chính, bao gồm quản trị doanh nghiệp thông minh, CRM và khai thác dữ liệu
Quản trị doanh nghiệp thông minh:
Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thông minh hơn là DWH Nói cách khác, họ tập trung hơn vào việc xem DWH có thể làm gì cho doanh nghiệp Nhiều DWH hiện nay được dùng cho BI: giúp nhà kinh doanh hiểu công việc kinh doanh của họ hơn; giúp họ đưa ra các quyết định hành động, chiến lược, và mục tiêu kinh doanh tốt hơn; giúp họ cải tiến hoạt động kinh doanh
Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu
Và 1 công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của kho dữ liệu
có thể là một công cụ hỗ trợ tốt cho mục đích đó Điều này có được là do sử dụng báo cáo và OLAP Báo cáo DWH được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong DWH tới những người kinh doanh OLAP cho phép doanh nghiệp phân tích sự ảnh hưởng lẫn nhau của dữ liệu giao dịch kinh doanh được lưu trữ trong DWH đa chiều
Quản lý mối quan hệ khách hàng:
Một hệ thống quản lý mối quan hệ khách hàng (CRM - Customer Relationship Management) gồm có những ứng dụng mà hỗ trợ quản lý mối quan hệ khách hàng Trong một hệ thống CRM, chức năng lý tưởng sau đây được xây dựng trong một DWH đa chiều:
Trang 22ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị
y học, giáo dục, viễn thông,…
MDM là quá trình chiết, làm sạch, lưu trữ, cập nhật, và phân phối dữ liệu chủ Một hệ thống MDM khôi phục dữ liệu chủ từ hệ thống OLTP Hệ thống MDM cũng
cố dữ liệu chủ và xử lý dữ liệu thông qua việc định nghĩa trước các quy tắc về chất lượng dữ liệu Dữ liệu chủ sau đó được nạp tới DWH chủ Bất kỳ sự thay đổi nào trên
dữ liệu chủ trong hệ thống OLTP được gửi tới hệ thống MDM, và DWH chủ được cập nhật để phản ánh những thay đổi đó Hệ thống MDM sau đó chuyển dữ liệu chính tới những hệ thống khác
Tích hợp dữ liệu khách hàng:
Tích hợp dữ liệu khách hàng (CDI- Customer Data Integration) là MDM cho dữ liệu khách hàng CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ liệu của khách hàng CDI hệ thống chiết dữ liệu khách hàng từ hệ thống OLTP, làm sạch nó, lưu trữ trong một kho dữ liệu khách hàng chính, duy trì dữ liệu của khách hàng, lưu giữ nó, và phân phối các dữ liệu khách hàng cho các hệ thống khác
Hệ thống CDI cho phép bạn có một phiên bản dữ liệu khách hàng sạch hơn, duy nhất, đáng tin cậy mà các ứng dụng khác trong các doanh nghiệp có thể sử dụng Điều này cũng có thể gia tăng lợi ích kinh doanh chẳng hạn như tăng sự hài lòng của khách hàng và phân tích kinh doanh tốt hơn, và nó làm giảm sự phức tạp của các quá trình sử dụng dữ liệu khách hàng Tất cả các loại khác nhau của quản lý dữ liệu chính, CDI là
sử dụng rộng rãi nhất bởi vì mỗi tổ chức có khách hàng CDI cung cấp dữ liệu tích hợp sạch cho quản lý mối quan hệ khách hàng
2.6 Xu hướng tương lai của kho dữ liệu
Dữ liệu phi cấu trúc:
Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ
sở dữ liệu quan hệ như Oracle, MS SQL Server, MySQL,… trong đó các thực thể và các thuộc tính được định nghĩa sẵn Ví dụ, dữ liệu của một thí sinh dự thi đại học có thể bao gồm các thông tin như họ tên, năm sinh, trường dự thi, điểm thi các môn Trong khi đó dữ liệu phi cấu trúc (Unstructured Data) thường dùng để chỉ dữ liệu ở
Trang 23dạng tự do (free type) và không cần có cấu trúc định nghĩa sẵn Các trang web, video, ảnh, âm thanh là các ví dụ của dữ liệu phi cấu trúc
Dữ liệu phi cấu trúc được lưu trữ trong kho dữ liệu như thế nào ? Và, sau khi lưu giữ, làm thế nào để nhận được những thông tin mà bạn cần ra khỏi dữ liệu này ?
Để trả lời câu hỏi thứ nhất, đối với mỗi thành phần dữ liệu phi cấu trúc bạn định nghĩa thuộc tính và sau đó thiết lập những thành phần đó theo các thuộc tính Bạn có thể lưu trữ các thành phần dữ liệu phi cấu trong một cơ sở dữ liệu quan hệ như là một cột đối tượng nhị phân, với các thuộc tính như là các cột khác Hoặc bạn có thể lưu trữ các thành phần dữ liệu phi cấu trúc trong hệ thống tập tin và chỉ cần lưu trữ các con trỏ vào tập tin trong cơ sở dữ liệu
Mỗi kiểu của dữ liệu phi cấu trúc có thuộc tính về vật lý và nội dung khác nhau Các thuộc tính có thể được lưu giữ trong một hay nhiều cơ sở dữ liệu để cho phép người sử dụng dễ dàng tìm thấy dữ liệu phi cấu trúc riêng chi tiết Nội dung của các dữ liệu phi cấu trúc chính nó có thể được phân tích, trích xuất, phân loại, lưu trữ và để hỗ trợ truy vấn thông tin
Tìm kiếm:
Phần này câu trả lời câu hỏi thứ hai, làm thế nào để bạn nhận được những thông tin ra? Câu trả lời là bằng cách tìm kiếm (Search) Để có được thông tin từ dữ liệu có cấu trúc, bạn có thể sử dụng các câu truy vấn như báo cáo tỉnh, hoặc câu truy vấn tự xây dựng Nếu bạn sử dụng một ứng dụng BI, các ứng dụng có thể đi qua các siêu dữ liệu và hiển thị các cấu trúc dữ liệu, và sau đó hỗ trợ bạn trong việc điều hướng qua các dữ liệu để lấy lại thông tin bạn cần
Để có được thông tin từ dữ liệu phi cấu trúc, đặc biệt là các văn bản dữ liệu như các tài liệu, email, và các trang web, bạn thực hiện tìm kiếm Giống như trên Internet, các công cụ tìm kiếm đã thu thập thông tin kho dữ liệu và đánh chỉ mục các dữ liệu phi cấu trúc Các công cụ tìm kiếm có phân loại các dữ liệu phi cấu trúc dựa trên kiểu và thuộc tính của nó và , trong trường hợp các trang web, liên kết của nó
Khi bạn gõ thông tin tìm kiếm vào ô tìm kiếm, và các công cụ tìm kiếm sẽ đi qua các chỉ mục, tìm đến vị trí của những thông tin, và hiển thị các kết quả Nó cũng
có thể cung cấp giới hạn trước tìm kiếm, nó có thể hiển thị cấu trúc cây cho bạn để điều hướng và lựa chọn Nó cũng có thể nhớ người sử dụng tìm kiếm mà có thể hỗ trợ bạn trong việc xác định những gì để loại khi tìm kiếm
Hiện nay tìm kiếm đã trở thành một xu hướng trong quản trị doanh nghiệp thông minh và kho dữ liệu, bởi họ có thể lựu chọn dữ liệu phi cấu trúc của kho trong kho dữ liệu khổng lồ
Kiến trúc hướng dịch vụ:
Kiến trúc hướng dịch vụ (Service-Oriented Architecture - SOA) là một hướng tiếp cận với việc thiết kế và tích hợp các phần mềm, chức năng, hệ thống theo dạng
Trang 24module, trong đó mỗi module đóng vai trò là một dịch vụ và có khả năng truy nhập thông qua môi trường mạng Hiểu một cách đơn giản thì một hệ thống SOA là một tập hợp các dịch vụ được chuẩn hóa trên mạng trao đổi với nhau trong nhữ cảnh một tiến trình nghiêp vụ
Một DWH hệ thống bao gồm nhiều thành phần: hệ thống nguồn, hệ thống ETL,
hệ thống siêu dữ liệu, hệ thống báo cáo, hệ thống cơ sở dữ liệu riêng của mình,… Bạn
có thể xây dựng nó như một ứng dụng khổng lồ với tất cả các thành phần quan hệ chặt chẽ; có nghĩa là, bạn không thể thay thế một phần mà không ảnh hưởng đến các thành phần khác Hoặc bạn có thể xây dựng theo kiến trúc hướng dịch vụ với nhiều thành phần nhỏ hơn, các thành phần độc lập mà nói chuyện với nhau bằng cách cung cấp và
sử dụng các dịch vụ của nó Trong tương lai, nó cũng có thể dễ dàng hơn để cập nhật một thành phần không ảnh hưởng của những người khác và các thành phần khác nhau
để kết nối được thực hiện bằng cách sử dụng các công nghệ khác nhau
Kho dữ liệu thời gian thực:
DWH ngày nay thông thường được cập nhật từng ngày, từng tuần, từng tháng, Có một số yêu cầu của những người sử dụng muốn nhìn thấy dữ liệu trong kho
dữ liệu được cập nhật cứ hai phút một lần hay thậm chí thời gian thực Một DWH thời gian thực (Real-Time Data Warehouse) là một DWH mà được cập nhật (bởi ETL) ngay thời điểm giao dịch xảy ra trong hệ thống nguồn
2.7 Kiến trúc của kho dữ liệu
DWH và kiến trúc của nó tùy thuộc vào vị trí của từng tổ chức Có 3 kiến trúc phổ biến của DWH:
Kiến trúc DWH cơ bản: Đây là kiến trức đơn giản cho DWH
Hình 3 Kiến trúc DWH cơ bản
Kiến trúc DWH với Staging Area: thêm thành phần làm sạch và xử lý dữ liệu trước khi đưa vào DWH
Trang 25Hình 4 Kiến trúc DWH với Staging Area
Kiến trúc DWH với Staging Area và Data Mart: So với kiến trúc trên có thêm data mart, dữ liệu được chuyển đổi và biểu diễn theo yêu cầu bởi một nhóm các người dùng đặc biệt
Hình 5 Kiến trúc kho dữ liệu với Staging Area và Data Mart
2.7.1 Nguồn dữ liệu
Nguồn dữ liệu của DWH gồm nhiều loại khác nhau:
Dữ liệu từ các hệ thống tác nghiệp
o Chứa dữ liệu chi tiết và hiện tại
o Được sử dụng cho các giao dịch hàng ngày
o Chứa dữ liệu thích hợp hiện hành
o Là nguồn dữ liệu được tích hợp để xây dựng kho dữ liệu
Hệ thống kế thừa
Trang 26o Các sưu tập dữ liệu cũ không được dùng cho các mục đích hoạt động
o Phương pháp khác nhau của việc tổ chức dữ liệu ngược lại với mô hình hiện tại
o Được mã hóa nếu cần thiết khi hệ thống đã qua xử dụng
o Thông tin không đầy đủ về cấu trúc và ngữ nghĩa của dữ liệu hệ thống kế thừa
Các nguồn dữ liệu bên ngoài
o Dữ liệu được lấy từ các nguồn bên ngoài
o Vi dụ: dl phân tích thị trường, dl báo cáo thời tiết, thuế,…
o Không phải là dữ liệu được tạo ra trong công ty
o Có thể có cấu trúc và mã hóa hoàn toàn khác nhau phụ thuộc vào nhà cung cấp
o Được yêu cầu cho các phân tích chi tiết
2.7.2 Công cụ trích xuất chuyển đổi và nạp dữ liệu (ETL)
Làm sạch
o Tìm và loại trừ các bộ trùng nhau
o Kiểm tra tính nhất quán, khám phá ra dữ liệu sai, không nhất quán:
o Ngay trong bản thân nó: số phone đúng không, dữ liệu có ngoài vùng xác định không…
o Sửa, hoàn chỉnh dữ liệu thiếu, không đọc được, hay các giá trị rỗng (NULL)
o Chỉ ra các lỗi, và (có thể là chèn các giá trị mặc định)
o Cảnh báo cho các nguồn các kho dữ liệu về các lỗi tìm được
Chuyển đổi
o Loại trừ các dữ liệu gây nhiễu
o Chuyển đổi dữ liệu vào một lược đồ nhất quán
o Các luật cho việc chuyển đổi
o Trước khi một kho dữ liệu có thể được truy cập một cách có hiệu quả, thực sự
là cần thiết để hiểu, dữ liệu gì sẵn có trong kho dữ liệu, và chúng lưu trữ ở đâu
o Dữ liệu miêu tả quá trình xây dựng, quản lí và hoạt động của kho dữ liệu
Trang 27o Siêu dữ liệu được lưu trữ trong một kho chứa và được truy cập bởi tất cả các thành phần của kho dữ liệu
Sự quan trọng của siêu dữ liệu
o Rất quan trọng trong kho dữ liệu
o Không phải là dữ kiện phân tích
o Là chìa khóa quyết định sự thành công của kho dữ liệu
o Là thành phần luôn được thay đổi, cấp nhật theo sự phát triển của kho dữ liệu
o Dùng để quản lý, điều khiển kho dữ liệu
Miêu tả kho dữ liệu và các thành phần
Tạo điều kiện cho việc truy cập kho dữ liệu ở mọi cấp
o Bảo trì:
Phục vụ cho các mục đích bảo mật
Lưu trữ thông tin về người dùng
Các bước tạo lập siêu dữ liệu
o Định nghĩa các chức năng chính của siêu dữ liệu trong hệ thống kho dữ liệu
ra các DM
DM là một DWH thứ cấp các dữ liệu tích hợp của kho dữ liệu DM được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề (Subject Area-SA) được tạo ra dành cho một nhóm người sử dụng Dữ liệu trong DM cho thông tin về một chủ
đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ
Trang 28chức Thể hiện thường xuyên nhất của DM là một kho dữ liệu riêng rẽ trên phương diện vật lý và thường được lưu trữ trên một server riêng, trên một mạng cục bộ phục
vụ cho một nhóm người nhất định
DM gồm hai loại: DM độc lập và DM phụ thuộc:
DM phụ thuộc: chứa những dữ liệu được lấy từ kho dữ liệu và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ cho một chủ đề nhất định của kho dữ liệu
DM độc lập: không giống như DM phụ thuộc, DM loại này được xây dựng trước kho dữ liệu và dữ liệu được trực tiếp lấy từ các nguồn Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu Mỗi DM độc lập tạo ra cho riêng chúng những giả thiết về cách thống nhất dữ liệu và dữ liệu trong một vài DM là không đồng nhất với nhau DM thể hiện 2 vấn đề:
o Thứ nhất là tính ổn định trong mọi tình huống khi DM phát triển theo nhiều chiều;
o Thứ hai là sự tích hợp dữ liệu Vì vậy khi thiết kế DM tổ chức cần chú ý kỹ tới tính ổn định của hệ thống, sự đồng nhất của dữ liệu và vấn đề về khả năng quản lý
2.7.5 Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu
Công cụ tạo báo cáo và câu hỏi truy vấn (Report):
Dễ sử dụng, các câu hỏi được xây dựng trước hoặc được người dùng tự tạo ra dưới dạng SQL dựa trên mô hình quan hệ Kết quả tạo ra dưới dạng báo cáo
Công cụ phân tích trực tuyến (OLAP):
Tương đối khó sử dụng Người dùng thao tác với dữ liệu dưới dạng mô hình nhiều chiều (thường có chiều thời gian) Công cụ này cho phép phân tích dữ liệu nhanh chóng, liên tục, lặp đi lặp lại, theo quá trình mịn dần
Công cụ phân tích, tìm kiếm cấp cao (Data Mining):
Dựa trên các nghiên cứu lĩnh vực trí tuệ nhân tạo Chúng giúp phát hiện những
sự kiện, hình mẫu, phụ thuộc dữ liệu trước kia chưa biết hoặc giúp chúng xây dựng những mô hình dự báo
2.8 Tổ chức dữ liệu lôgíc
2.8.1 Lƣợc đồ kho dữ liệu
Lược đồ là một tập hợp các đối tượng cơ sở dữ liệu bao gồm bảng, view, index,…Lược đồ kho dữ liệu hay được sử dụng: lược đồ hình sao, lược đồ bông tuyết rơi, lược đồ kết hợp,…
a Lược đồ hình sao
Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu:
- Các sự kiện được tổ chức thành bảng Fact
Trang 29- Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng Dimension
Ưu điểm của sơ đồ hình sao:
- Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả
- Phù hợp với cách mà NSD nhận và sử dụng dữ liệu và qua đó làm cho dữ liệu được hiểu trực quan hơn
- Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu cải thiện sự thực hiện các truy vấn Sự phi chuẩn hóa có thể coi là sự tiền kết nối các bảng
để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện
- Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi Tất cả các khóa đều được xác định với cùng một chuẩn đặt tên
Hình 6 Lược đồ hình sao
b Lược đồ bông tuyết rơi
Sơ đồ hình tuyết rơi là một sự mở rộng của sơ đồ hình sao tại đó mỗi cánh sao không phải là một bảng Dimension mà là nhiều bảng
Sơ đồ hình tuyết rơi cải thiện năng suất truy vấn, tối thiểu không gian đĩa cần thiết
để lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng có kích thước nhỏ hơn thay vì phải kết hợp những bảng có kích thước lớn lại không chuẩn hóa
Nó cũng làm tăng tính linh hoạt của các ứng dụng bởi sự chuẩn hóa và ít mang bản chất theo chiều hơn Nó làm tăng số lượng các bảng và làm tăng tính phúc tạp của một vài truy vấn cần có sự tham chiếu tới nhiều bảng
Trang 30Hình 7 Lược đồ bông tuyết rơi
c Lược đồ kết hợp
Là kết hợp giữa sơ đồ hình sao và sơ đồ hình tuyết rơi Một vài cơ sở dữ liệu và các công cụ truy vấn của người sử dụng đầu cuối nhất là các công cụ xử lí phân tích trực tuyến (OLAP) đòi hỏi mô hình dữ liệu phải là sơ đồ hình sao bởi vì nó là một mô hình
dữ liệu quan hệ nhưng lại được thiết kế để hỗ trợ mô hình dữ liệu đa chiều là điểm cốt lõi của OLAP
2.8.2 Mô hình dữ liệu đa chiều
Bản chất đa chiều của các câu hỏi trong nghiệp vụ được phản ánh trong thực tế chẳng hạn như những người quản lí thị trường không được thoả mãn với câu hỏi theo một chiều đơn giản, thay vào đó là những câu hỏi phức tạp Một cách để quan sát một
mô hình dữ liệu nhiều chiều là nhìn nó như một hình khối Hình sau thể hiện câu truy vấn theo bốn chiều: khách hàng, dịch vụ, thời gian
Hình 8 Mô hình đa chiều
Trang 31Thời gian trả lời một truy vấn nhiều chiều phụ thuộc vào số lượng các ô được thêm vào trong quá trình thực hiện Khi số lượng chiều tăng thì số ô của khối này tăng theo cấp số mũ Bên cạnh đó, những truy vấn đa chiều đều liên quan tới những dữ liệu ở mức cao và dữ liệu tổng Vì vậy, giải pháp để xây dựng một cơ sở dữ liệu đa chiều có hiệu quả là phải kết hợp từ trước tất cả các tổng con logic và các tổng theo tất cả các chiều Sự kết hợp trước này đặc biệt có giá trị khi các chiều mang tính phân cấp
Sự phân cấp về kích thước, quản lí dữ liệu thưa hơn và sự kết hợp trước là quan trọng vì chúng làm giảm đáng kể kích cỡ của cơ sở dữ liệu và những yêu cầu tính toán các giá trị Một thiết kế như vậy loại bỏ việc phải kết hợp nhiều bảng và cung cấp sự truy nhập trực tiếp và nhanh tới các câu trả lời vì vậy cải thiện đáng kể tốc độ trong việc thực hiện các truy vấn đa chiều
Các thành phần chính
Các dữ kiện (Facts)
o Miêu tả các vùng kinh doanh
o Không thay đổi khi nó đã được sinh ra
o Được lưu tại một cấp thô nào đó
Các chiều (Dimensions)
o Thông tin tham chiếu qua đó các dữ kiện có thể được cấu trúc cho việc phân tích
o Định nghĩa các phân cấp
Và các khối đa chiều (Cubes)
o Một khối có thể có nhiều chiều
o Một khối bao gồm nhiều ô dữ liệu
2.8.3 Bảng sự kiện
Bảng sự kiện điển hình có hai kiểu cột, chúng chứa đựng những sự kiện số (thường gọi là thước đo), và chứa khóa của các bảng dimension Bảng sự kiện chứa đựng những sự kiện mức chi tiết hoặc những sự kiện mà đã được tổng hợp lại Bảng sự kiện
mà chứa sự kiện tổng hợp thường được gọi là những bảng tóm tắt Bảng sự kiện thông thường chứa đựng những sự kiện với cùng mức của sự tổng hợp Tuy nhiên hầu hết những sự kiện liên kết tất cả các chiều, nó có thể liên kết với 1 số chiều hoặc không liên kêt
Bảng sự kiện là bảng chứa dữ liệu chi tiết nên có số lượng bản ghi rất lớn và còn thường xuyên được cập nhật, bổ sung dữ liệu, trong khi đó các bảng dimension thường
cố định nói đúng hơn là có sự thay đổi không đáng kể theo thời gian Bảng theo chiều chứa đựng các thuộc tính có thể được sử dụng như các tiêu chí tìm kiếm và thường có kích thước nhỏ hơn rất nhiều, rất quen thuộc với người sử dụng từ trước
Trang 322.8.4 Bảng chiều
Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu số trong khối được phân chia để phân tích Khi xác định một chiều, chọn một hoặc nhiều cột của một trong các bảng liên kết (bảng chiều) Nếu ta chọn các cột phức tạp thì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn
Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể nhất Ví dụ: một chiều thời gian được tạo ra từ các cột năm, qúy, tháng, ngày
Mỗi cột trong chiều góp phần vào một cấp độ cho chiều Các cấp độ được sắp đặt theo nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp logic cho việc đào sâu (drill_down) Ví dụ: chiều thời gian được miêu tả ở trên cho phép người dùng khối đào sâu từ năm tới qúy, từ qúy tới tháng và từ tháng tới ngày
Chiều có phân cấp:
Phân cấp là cột sống của việc gộp dữ liệu hay nói một cách khác là dựa vào các phân cấp mà việc gộp dữ liệu mới có thể thực hiện được Phần lớn các chiều đều có một cấu trúc đa mức hay phân cấp Nếu chúng ta làm những quyết định về giá sản phẩm để tối đa doanh thu thì chúng ta cần quan sát ở những dữ liệu về doanh thu sản phẩm được gộp theo giá sản phẩm, tức là chúng ta đã thực hiện một cách gộp Khi cần làm những quyết định khác thì chúng ta cần thực hiện những phép gộp tương ứng khác Như vậy có thể có quá nhiều tiến trình gộp Thế nên các tiến trình gộp này cần phải được thực hiện một cách rất dễ dàng, linh hoạt để có thể hỗ trợ những phân tích không hoạch định trước Điều này có thể được giải quyết trên cơ sở có sự trợ giúp của những phân cấp rộng và sâu
2.8.5 Bảng sự kiện tổng hợp
Bảng tổng hợp
Bảng tổng hợp nhằm mục đích trả lời nhanh các câu hỏi thường gặp Các bước tạo bảng tổng hợp:
– Nhận diện các câu hỏi thường gặp
– Nhận diện các chiều và các tổng hợp tương ứng
– Định nghĩa phân cấp của các tổng hợp
– Tạo một cách có chọn lựa các bảng dữ kiện tổng hợp tính toán trước
– Tạo các bảng chiều tổng hợp
Bảng sự kiện tổng hợp
– Nhận diện các bảng dữ kiện yêu cầu
– Các tổng hợp ở thứ tự cao có thể được tính toán từ các tổng hợp thứ tự thấp,
• Ví dụ: lượng hàng bán được theo từng tháng có thể tính được dựa trên lượng hàng bán được từng ngày trong tháng
Trang 33– Ước lượng dung lượng
– Kiểm tra sự sẵn có của dữ liệu
– Kiểm tra các bảng tổng hợp chiều cần thiết
2.9 Tổ chức dữ liệu vật lý
2.9.1 Phân vùng
Phân vùng (partition) là kĩ thuật được sử dụng trong kho dữ liệu nhằm tối ưu hiệu suất truy vấn bằng cách cho phép người thiết kế phân vùng các vùng nhớ để chứa
dữ liệu thoả mãn những yêu cầu do người thiết kế đặt ra Khi phân vùng, người thiết
kế chọn điều kiện phân vùng, ví dụ như ngân sách quyết toán thu số liệu chẳng hạn, người thiết kế sẽ phân vùng theo năm Khi dữ liệu được đưa và kho sẽ được lưu trên các phân vùng nhớ dành cho từng năm Khi có truy vấn theo năm, giả sử truy vấn dữ liệu trong ba năm là 1999, 2000, 2001 các truy vấn sẽ chỉ thực hiện trên các vùng nhớ dành cho ba năm này chứ không tiến hành truy vấn trên toàn bộ vùng nhớ lưu dữ liệu quyết toán thu số liệu
2.9.2 Chỉ mục
Đánh chỉ mục (Index) là kỹ thuật phổ biến nhằm tăng hiệu suất các truy vấn dữ liệu Chuyên gia thiết kế sẽ chọn trường phù hợp của một bảng để đánh chỉ số, khi đó trường chỉ số đó sẽ được lưu ra một bảng tham chiếu, được sắp xếp sẵn Khi có truy vấn dữ liệu, thời gian truy vấn sẽ giảm do dữ liệu cần truy vấn đã được sắp xếp từ trước
Các bảng thông thường trong database đều thuộc loại bảng không phân vùng Chỉ mục phân vùng dùng cho các bảng lớn, lưu các mục chỉ mục của chỉ mục này có thể nằm trên nhiều segments Việc phân vùng sẽ cho phép một chỉ mục có thể trải rộng trên nhiều tablespaces, giảm bớt tình trạng quá tải khi chỉ mục được truy xuất và quản
lý Các chỉ mục phân vùng hay được sử dụng cùng với các bảng phân vùng để tăng cường hiệu năng và dễ quản lý Chỉ mục phân vùng sẽ được tạo ra ứng với mỗi bảng phân vùng
Đánh chỉ số kiểu Bitmap
Một cách khác để tăng công suất thực hiện các truy vấn là sử dụng kỹ thuật đánh chỉ số theo kiểu Bitmap nhằm tăng tốc độ truy vấn dữ liệu Mỗi lần dữ liệu được tải vào, tất cả dữ liệu được chuyển đổi thành các chuỗi bitmap, những chuỗi này sau
đó được nén lại và được lưu trữ trên đĩa Khác với việc đánh chỉ số thông thường, những chỉ số không chỉ tới dữ liệu được lưu trữ ở nơi khác mà tất cả dữ liệu được lưu trữ trong cấu trúc chỉ số này Tuy nhiên phương thức đánh chỉ số vẫn sẽ gặp khó khăn trong việc truy vấn dữ liệu nếu phạm vi dữ liệu là quá lớn
So sánh giữa B-TREE và Bitmap Index
Bảng trên đây so sánh giữa B-TREE và Bitmap Index, Bitmap index được sử dụng nhiều hơn trong trường hợp các cột có giá trị khác nhau rất ít
Trang 34Việc cập nhật các cột làm khoá trong Bitmap index thì sẽ chậm hơn bởi vì Bitmap index sử dụng phương pháp khoá đoạn bitmap (bitmap segment level locking), trong khi đó trong một B-TREE index khoá thực hiện trên các điểm vào tương ứng với từng row riêng lẻ trên table
Bitmap index có thể thực hiện các hoạt động với các toán hạng logic OR Khi
đó Oracle Server sử dụng hai phân đoạn bitmap để thực hiện việc so sánh từng bit trong toán hạng OR và trả về kết quả là một chuỗi Bitmap Tính chất này cho phép sử dụng hiệu quả chuỗi Bitmap trong câu lệnh truy vấn có sử dụng toán hạng logic OR
Nói chung B-TREE index thích hợp hơn trong môi trường OLTP cho việc truy vấn các bảng động Trong khi đó, Bitmap index thích hợp hơn trong môi trường DSS có sử dụng nhiều câu lệnh truy vấn phức tạp trên các table lớn (large) và tĩnh (static)
Trang 35Chương 3: PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI KHO DỮ LIỆU KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG
Tóm lược nội dung:
Nội dung chính của chương này bao gồm: Tìm hiểu hệ thống nguồn CCBS; xác định yêu cầu phân tích; thiết kế mô hình dữ liệu dựa trên yêu cầu phân tích và CSDL của hệ thống nguồn CCBS; thiết kế mô hình vật lý; thiết kế trích xuất chuyển đổi và nạp số liệu từ hệ thống CCBS vào DWH; xây dựng công cụ báo cáo, tra cứu động và quản trị hệ thống; cài đặt và triển khai DWH
3.1 Phân tích
Trong phần phân tích, tác giả sẽ tập trung vào 2 vấn đề chính:
Tìm hiểu hệ thống nguồn CCBS đang được triển khai tại các Viễn thông tỉnh: Tìm hiểu hoạt động và cơ sở dữ liệu của hệ thống nguồn
Xác định các yêu cầu phần tích: Yêu cầu xuất phát từ nhu cầu cùa Viễn thông tỉnh và yêu cầu cần có của một DWH viễn thông
3.1.1 Tìm hiểu hệ thống nguồn CCBS
- Hệ thống Tính cước và Chăm sóc khách hàng (CCBS - Customer Care and Billing System) đã và đang triển khai tại các đơn vị trực thuộc của Tổng công ty Bưu Chính Viễn Thông Việt Nam (VNPT) phù hợp với các quy trình nghiệp vụ của các doanh nghiệp viễn thông nhất là quy trình hiện hành của VNPT về nguyên tắc phát triển thuê bao, tính cước, in hóa đơn, quản lý nợ, các dịch vụ về chăm sóc khách hàng và cắt mở thuê bao dịch vụ tự động, điều hành sửa chữa báo hỏng,…
- Hệ thống CCBS thực hiện các chức năng tính cước, chăm sóc khách hàng, phục
vụ công tác điều hành sản xuất kinh doanh của các doanh nghiệp viễn thông
Trang 36Khách hàng Khách hàng Khách hàng
Call Center Điểm giao dịch Web Email
Hệ thống tính
cước & hỗ trợ
khách hàng
Hệ thống Quản lý mạng ngoại vi thuê bao dịch vụ tựHệ thống Cắt mở
động
Hệ thống Điều hành sửa chữa báo hỏng
Hệ thống CCBS tổng thể
Hình 9 Hệ thống CCBS tổng thể 3.1.1.1 Phát triển thuê bao
Tiếp nhận và quản lý các yêu cầu khách hàng, thanh toán tiền hợp đồng, hoàn thiện hồ sơ, quản lý danh bạ của khách hàng liên quan đến việc đăng ký, sử dụng tất cả các loại dịch vụ viễn thông Bao gồm các chức năng chính:
o Tiếp nhận yêu cầu: Thực hiện việc tiếp nhận và nhập các yêu cầu khách hàng liên quan đến việc đăng ký và sử dụng dịch vụ viễn thông
o Thanh toán tiền hợp đồng: Thực hiện thanh toán tiền lắp đặt, đăng ký dịch vụ gia tăng,…
o Điều hành thi công: Giao phiếu cho các đơn vị thi công, cập nhật kết quả hoàn công,…
o Hoàn thiện hồ sơ: Thực hiện hoàn thiện các hợp đồng, chuyển vào danh bạ quản lý khách hàng
o Quản lý danh bạ: Thực hiện quản lý danh bạ khách hàng, thanh toán, danh bạ thuê bao, danh bạ trang vàng, danh bạ nội bộ,…
3.1.1.2 Xử lý dữ liệu cước
Xử lý cước thô CDR để phân hệ Tính cước tính tiền (charging) cho thuê bao, bao gồm các chức năng chính:
o Thu thập dữ liệu từ các nguồn
o Chuyển đổi số liệu
o Chuẩn hóa số liệu
o Lọc dữ liệu
Trang 37o Kiểm tra tính đúng đắn của dữ liệu (Với dữ liệu phục vụ các hệ thống tính cước các chức năng được thực hiện bao gồm xử lý trùng, xử lý chờm, ghép cuộc và đánh mã cho các cuộc gọi)
o Thiết lập tham số xử lý dữ liệu
o Dữ liệu đầu ra của xử lý dữ liệu cước là dữ liệu đầu vào cho hệ thống Tính cước
3.1.1.3 Tính cước
Đảm nhiệm chức năng tính cước cho thuê bao, bao gồm các chức năng chính:
o Tính cước các cuộc gọi với dữ liệu đã được chuẩn hóa đến công đoạn cuối cùng
o Cho phép tính nhiều lần trong tháng
o Tính cước cho các chỉ số đồng hồ
o Cho phép xử lý lại các cuộc lỗi
o Có thể tính nhiều dịch vụ trên 1 cuộc gọi
o Cho phép tính cước các trường hợp đổi số, chuyển đối tượng trong tháng, chuyển mạng
o Giảm giá theo thời gian
o Mỗi thuê bao có thể được tính theo một chính sách cước riêng biệt và mỗi một chính sách cước được thiết lập hoàn toàn dựa trên tham số cho phép đáp ứng được các thay đổi về sau
o Thiết lập tham số, định nghĩa các loại hóa đơn
o Tổng hợp dữ liệu in hoá đơn: thực hiện việc tổng hợp dữ liệu từ CSDL tập trung đã được mô đun Tính cước thực hiện, hoặc từ nguồn dữ liệu bất kỳ
o Cho phép định nghĩa các mẫu hóa đơn mới theo yêu cầu
o Có thể in theo nhiều tiêu chí khác nhau: đồ họa, text, theo đơn vị, dịch vụ
o Tạo các loại hoá đơn: Cho phép xem, in ấn, lưu trữ các loại hoá đơn theo biểu mẫu đã được định nghĩa trước
Trang 38o Thực hiện tạo dữ liệu báo cáo và tra cứu thông tin nợ đọng và thanh toán
nợ đọng
o Quản lý, theo dõi và thực hiện các xử lý nợ khó đòi của khách hàng
3.1.1.6 Quản lý giải quyết khiếu nại
Quản lý thông tin và xử lý khiếu nại của khách hàng, bao gồm các chức năng chính như sau:
o Tiếp nhận yêu cầu khiếu nại của khách hàng
o Giao xử lý khiếu nại
o Thực hiện xử lý khiếu nại của khách hàng
o Đóng và kết thúc khiếu nại
3.1.1.7 Cắt mở thuê bao dịch vụ tự động
SA cung cấp cho người dùng một giao diện thống nhất cho quá trình thao tác lệnh vào/ra tổng đài mà không cần phải nhớ đến các cú pháp lệnh Nghĩa là hệ thống phải trừu tượng hóa để có thể mô tả các lệnh vào/ra tổng đài của các loại tổng đài khác nhau, với các cú pháp lệnh khác nhau theo một cách duy nhất Hệ thống SA bao gồm nhiều hệ thống con đảm nhận các chức năng khác nhau từ hệ thống tương tác với người dùng, nhận yêu cầu ở mức logic rồi phân tích để đưa ra được các lệnh tương ứng để truyền xuống từng tổng đài cụ thể với cú pháp lệnh phù hợp, sau đó thu thập thông tin trả ra từ tổng đài, phân tích để xác định kết quả thực hiện yêu cầu… Các phân hệ con này bao gồm:
o Phân hệ chuyển đổi giao thức FlexAdapter
o Phân hệ điều khiển quá trình vào/ra lệnh tổng đài NE Operator
o Phân hệ nhận các yêu cầu từ người sử dụng, sinh ra các lệnh tương ứng
để đáp ứng cho các yêu cầu đó và truyền các yêu cầu đến từng hệ thống
Trang 39điều khiển (NE Operator) tướng ứng Hệ thống này được gọi là Dispatcher
3.1.1.8 Quản lý điều hành sửa chữa báo hỏng
Quản lý thông tin và điều hành xử lý báo hỏng, sự cố của khách hàng, bao gồm các chức năng chính như sau:
o Tiếp nhận yêu cầu báo hỏng, sự cố của khách hàng
o Đo thử tự động đường dây, dịch vụ phục vụ kiểm tra nguyên nhân báo hỏng; tự động đo quét đảm bảo duy trì chất lượng dịch vụ
o Giao sửa chữa hỏng, sự cố
o Thực hiện và cập nhật kết quả sửa chữa
o Nghiệm thu yêu cầu báo hỏng
3.1.1.9 Quản lý mạng ngoại vi
Quản lý mạng ngoại vi trên nền công nghệ GIS, đảm bảo mối quan hệ chặt chẽ giữa các số liệu mạng cáp, mạng hạ tầng và số liệu thuê bao trên giao diện bản đồ số; hỗ trợ quản lý và thiết kế mạng; thực hiện các nhiệm vụ đi dây, đấu nối mạng theo yêu cầu phát triển thuê bao, bao gồm các chức năng chính như sau:
o Quản lý mạng hạ tầng với các số liệu chi tiết đến từng lỗ cống, mặt cắt cống, tuyến cống Các chức năng khảo sát, thống kê trên mạng hạ tầng giúp cho người quản lý mạng biết được khả năng mở rộng mạng của mạng cáp, việc đi cáp, việc sửa cáp
o Quản lý mạng cáp, chi tiết đến từng đôi cáp, đấu nối đôi cáp vào các tủ cáp, hộp cáp, card thuê bao của Tổng đài, chi tiết đi cáp trên mạng hạ tầng Các chức năng tra cứu trực quan cho phép hiển thị các đôi cáp còn rỗi, số thuê bao liên quan đến từng đôi cáp
o Quản lý phát triển thuê bao, tích hợp với hệ thống quản lý phát triển thuê bao để tiến hành triển khai lắp đặt theo yêu cầu của khách hàng Các số liệu đấu nối thuê bao cho phép in tuyến cáp và phiếu xử lý thuê bao, giúp cho việc khắc phục sự cố được nhanh chóng, chính xác
3.1.2 Xác định yêu cầu phân tích
Các yêu cầu phân tích tập trung vào 6 nhóm chủ đề sau: bán hàng, quản lý mối quan hệ, kế toán, sử dụng dịch vụ, doanh thu và điều hành
3.1.2.1 Bán hàng
Phân tích chương trình khuyến mãi
Hệ thống cho phép nhà cung cấp phân tích các chương trình khuyến mãi để đánh giá hiệu quả của các chương trình khuyến mãi Phân tích sự thu nhận khách hàng của các chương trình khuyến mãi theo các tiêu chí như thời gian, dịch vụ, kênh giao tiếp, địa chỉ, Phân tích sự dời bỏ nhà cung cấp trong thời gian khuyến mãi
Trang 40Sự phân tích chiến dịch ngày càng quan trọng Nhà cung cấp sử dụng sự phân tích chương trình khuyến mãi để đẩy nhanh hoạt động tiếp thị có hiệu quả và sử dụng trong việc đặt mục tiêu và lập kế hoạch cho các chiến dịch tiếp theo
Thường nhà cung cấp dựa trên một số thước đo không rõ về lợi nhuận để đánh giá hiệu quả như số thuê bao mới và số dịch vụ gia tăng sử dụng Tuy nhiên, nhà cung cấp ngày càng quan tâm đến lợi nhuận chính xác của các hoạt động tiếp thị
Phân tích cung cấp sản phẩm chéo nhau
Hệ thống cho phép phân tích nhân khẩu, địa lý và những khuynh hướng sử dụng của khách hàng mà họ đã đăng ký sử dụng dịch vụ, để nhà cung cấp có thể tạo ra những gói sản phẩm sẽ phù hợp và hấp dẫn nhất đối với người sử dụng Nhà cung cấp
có khả năng để đoán nhận những sản phẩm nó nào bổ sung tốt nhất đối với những sản phẩm khác Từ đây, bằng cách sử dụng những đề xuất hướng tới hơn những khách hàng tiềm năng, nhà cung cấp có thể tăng sự thu hút của những sản phẩm và nhằm giảm bớt chi phí chiến dịch
Hệ thống cho phép nhà cung cấp có thể theo dõi hiệu quả của một chiến dịch tiêu thụ chéo nhau cũng như tính chính xác của các giả định cung cấp
Ví dụ như phân tích các chương trình khuyến mãi bán adsl kèm điện thoại cố định
Phân tích sự phát triển thuê bao
Hệ thống cho phép phân tích sự thu nhận khách hàng theo các tiêu chí như thời gian, dịch vụ, kênh giao tiếp, địa chỉ, kiểu yêu cầu (trả trước sang trả sau, hòa mạng adls trên đường cố định có sẵn, từ doanh nghiệp khác,…),…
Bằng việc phân tích các đặc tính của thuê bao hiện hữu, nhà cung cấp có thể thực hiện phân đoạn thị trường đến các khách hàng triển vọng với những sản phẩm và dịch vụ đặc biệt Sử dụng thông tin lấy từ DWH để có thể phát triển những sản phẩm
và những dịch vụ mới để thu hút thêm khách hàng đăng ký
Mối quan hệ giữa sự thu nhận và sự ra đi là phức tạp mà yêu cầu sự phân tích chi tiết Đồng thời, chi phí liên quan trong việc thu nhận khách hàng mới ngày càng gia tăng Sự thu nhận khách hàng mới tối đa có thể không tất yếu dẫn tới tối ưu hóa lợi nhuận Đặc biệt, việc thu nhận những khách hàng mới mất thời gian gấp 5 lần so với
sự duy trì khách hàng hiện hữu
Phân tích kênh bán hàng
Nhà cung cấp viễn thông sử dụng nhiều kênh khác nhau để bán và cung cấp dịch vụ tới khách hàng như điểm giao dịch, đại lý, qua điện thoại, email, website, Chi phí và số lượng hàng bán của các kênh là khác nhau Một kênh có thể tạo ra nhiều khách hàng mới, nhưng tỷ lệ lớn những khách hàng đó là lợi nhuận thấp, hay
có khuynh hướng rời bỏ nhà cung cấp sau một thời gian ngắn Hệ thống cho phép phân tích những yếu tố này và so sánh những kênh bán hàng khác, nhà cung cấp có