1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Ứng dụng các kĩ thuật khai phá dữ liệu vào lĩnh vực viến thông

5 700 9

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 296,44 KB

Nội dung

Bài báo này giới thiệu một cách tổng quan về các kĩ thuật khai phá dữ liệu, mô hình, kiến trúc, phạm vi ứng dụng, lợi ích, và đề xuất giải pháp để áp dụng kĩ thuật khai phá dữ liệu vào

Trang 1

ỨNG DỤNG CÁC KĨ THUẬT KHAI PHÁ DỮ LIỆU

VÀO LĨNH VỰC VIẾN THÔNG

KS Nguyễn Anh Trung Trung tâm Công nghệ Thông tin Tóm tắt: Khám phá tri thức trong Cơ sở dữ liệu (Knowledge Discovery in Databases) đang

là một xu hướng quan trọng của nền CNTT thế giới Nó có khả năng ứng dụng vào rất nhiều

lớp bài toán thực tế khác nhau Bước quan trọng nhất của quá trình này là Khai phá dữ liệu,

giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ liệu

khổng lồ khác Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật khai phá

dữ liệu vào hoạt động sản xuất kinh doanh của mình và đã thu được những lợi ích to lớn

Trong lĩnh vực viễn thông, Khai phá dữ liệu tỏ ra đặc biệt hiệu quả vì Viễn thông là ngành có

số lượng khách hàng rất lớn và có lượng dữ liệu cần lưu trữ khổng lồ Bên cạnh đó, thị

trường viễn thông luôn luôn biến động và đầy cạnh tranh VNPT là doanh nghiệp viễn thông

lớn nhất ở Việt Nam Ngoài những đặc trưng của một doanh nghiệp viễn thông, VNPT còn

mang những đặc điểm của một doanh nghiệp nhà nước Chính vì vậy việc nghiên cứu và áp

dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của VNPT là cần thiết

Bài báo này giới thiệu một cách tổng quan về các kĩ thuật khai phá dữ liệu, mô hình, kiến

trúc, phạm vi ứng dụng, lợi ích, và đề xuất giải pháp để áp dụng kĩ thuật khai phá dữ liệu vào

hoạt động sản xuất kinh doanh của VNPT

1 Giới thiệu chung

Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành công nghiệp phần

cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh

một cách chóng mặt Bên cạnh đó việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt

động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một

lượng dữ liệu lưu trữ khổng lồ Hàng triệu CSDL đã được sử dụng trong các hoạt động sản

xuất, kinh doanh, quản lí , trong đó có nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là

Terabyte Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và công

cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích Từ đó, các

kĩ thuật Khai phá dữ liệu đã trở thành một lĩnh vực thời sự của nền CNTT thế giới hiện nay

Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin có giá trị

tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… Hiện nay,

ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương

tự như: khai phá tri thức từ CSDL (knowlegde mining from databases), trích lọc dữ liệu

(knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data

archaeology), nạo vét dữ liệu (data dredging) Nhiều người coi khai phá dữ liệu và một thuật

ngữ thông dụng khác là khám phá tri thức trong CSDL (Knowlegde Discovery in Databases –

KDD) là như nhau Tuy nhiên trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong

quá trình Khám phá tri thức trong CSDL Quá trình này bao gồm các bước sau:

1) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu không thích hợp

2) Tích hợp dữ liệu (data integration): tích hợp dữ liệu từ các nguồn khác nhau như:

CSDL, Kho dữ liệu, file text

3) Chọn dữ liệu (data selection): ở bước này, những dữ liệu liên quan trực tiếp đến

nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu

Trang 2

4) Chuyển đổi dữ liệu (data transformation): trong bước này, dữ liệu sẽ được chuyển

đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp

5) Khai phá dữ liệu (data mining): là giai đoạn thiết yếu, trong đó các phương pháp

thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu

6) Đánh giá mẫu (pattern evaluation): đánh giá sự hữu ích của các mẫu biểu diễn tri

thức dựa vào một số phép đo

7) Trình diễn dữ liệu (knowlegde presentation): sử dụng các kĩ thuật trình diễn và trực

quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng

Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác như: hệ CSDL, thống

kê, trực quan hóa Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể

áp dụng một số kĩ thuật như mạng nơ ron, lí thuyết tập thô hoặc tập mờ, biểu diễn tri thức…

So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt:

ƒ So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không quá lớn

ƒ Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn nhiều so với các dữ liệu trong CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng Hơn nữa các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được

ƒ Phương pháp thống kê là một trong những nền tảng lí thuyết của Khai phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kê còn tồn tại một số điểm yếu mà Khai phá dữ liệu đã khắc phục được:

o Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều các CSDL

o Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực

o Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được

o Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích

dữ liệu như thế nào và ở đâu

Với những ưu điểm đó, khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới đã áp dụng kĩ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích to lớn: Bảo hiểm y tế Australia phát hiện ra rằng trong nhiều trường hợp các xét nghiệm không hợp lí, tiết kiệm 1 triệu $ / năm; British Telecom đã phát hiện những nhóm người thường xuyên gọi cho nhau bằng mobile và thu lại được hàng triệu USD; JPL và Palomar Observatory đã phát hiện ra 22 quasars nhờ kĩ thuật KPDL; IBM Surf-Aid áp dụng KPDL phân tích các lần đăng nhập Web vào các trang có liên quan đến thị trường để phát hiện sở thích khách hàng, phục vụ việc đánh giá hiệu quả của việc tiếp thị qua Web (Web marketing)

và cải thiện hoạt động của các Website Các công ty phần mềm lớn trên thế giới cũng rất quan tâm và chú trọng tới việc nghiên cứu và phát triển kĩ thuật khai phá dữ liệu: Oracle tích hợp các công cụ khai phá dữ liệu vào bộ Oracle9i, IBM đã đi tiên phong trong việc phát triển các ứng dụng khai phá dữ liệu với các ứng dụng như Intelligence Miner

2 Các kỹ thuật khai phá dữ liệu

Các kĩ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:

Trang 3

ƒ Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính

chung của dữ liệu trong CSDL hiện có Các kĩ thuật này gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hóa (visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules)

ƒ Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn

trên dữ liệu hiện thời Các kĩ thuật này gồm có: phân lớp (classification), hồi quy (regression)

Tuy nhiên, do khuôn khổ có hạn nên trong bài báo này, chúng tôi chỉ giới thiệu 3 phương pháp thông dụng nhất là: phân cụm dữ liệu, phân lớp dữ liệu và khai phá luật kết hợp

ƒ Phân cụm dữ liệu: Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một

lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy Không giống như phân lớp

dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example) Trong

phương pháp này bạn sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình Vì vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web… Ngoài ra phân cụm

dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác

ƒ Phân lớp dữ liệu và hồi qui: Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn

lớp cho các mẫu dữ liệu Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu

• Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn

có Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc

tính lớp Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện (training data set) Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy (unsupervised learning)

• Bước 2: sử dụng mô hình để phân lớp dữ liệu Trước hết chúng ta phải tính độ chính xác của mô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai

Phương pháp hồi qui khác với phân lớp dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tục còn phân lớp dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc

ƒ Khai phá luật kết hợp: mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên

hệ giữa các giá trị dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được Chẳng hạn: phân tích CSDL bán hàng nhận được thông tin về những khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả trong luật kết hợp sau:

“Máy tính => Phần mềm quản lý tài chính”

[Độ hỗ trợ: 2%, độ tin cậy: 60%]

Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật Chúng tương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá Độ hỗ trợ 2% có nghĩa là 2% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phần mềm quản lý tài chính là đã được mua cùng nhau Còn độ tin cậy 60% có nghĩa là 60% các khách hàng mua máy tính cũng mua phần mềm Khai phá luật kết hợp được thực hiện qua 2 bước:

Trang 4

• Bước 1: tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua tính

độ hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu

• Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ

hỗ trợ cực tiểu và độ tin cậy cực tiểu

Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing có chủ đích, phân tích quyết định, quản lí kinh doanh, phân tích giỏ thị trường…

3 Ứng dụng công nghệ khai phá dữ liệu trong Viễn thông

Viễn thông là ngành đã có những bước phát triển ngoạn mục trong những năm gần đây Số lượng các thuê bao và các dịch vụ viễn thông kèm theo đang gia tăng một cách chóng mặt Các công nghệ mới cũng phát triển hết sức mạnh mẽ Đây lại là ngành có tỉ lệ tin học hóa cao, hầu hết các giao dịch, thao tác, hoạt động đều được lưu lại trong CSDL Từ đó, lượng dữ liệu thu thập và lưu trữ được về các hoạt động sản xuất kinh doanh cũng trở nên ngày càng khổng

lồ Tiềm ẩn bên trong lượng dữ liệu này là những tri thức hết sức quí báu về thị trường, khách hàng, sản phẩm…

Đối với ngành viễn thông, thị phần và khách hàng là hai yếu tố hết sức quan trọng, quyết định

sự thành công của doanh nghiệp Chính vì vậy, việc nắm bắt được các nhu cầu, sở thích của khách hàng cũng như những xu hướng, biến động của thị trường sẽ là một lợi thế to lớn cho các doanh nghiệp trong việc cạnh tranh và mở rộng thị trường của mình Bên cạnh đó, cùng với sự phát triển của các kĩ thuật, công nghệ, những gian lận trong việc sử dụng dịch vụ viễn thông cũng gia tăng theo và gây ra những thiệt hại đáng kể cho ngành này, lấy ví dụ: tạp chí

Telecom and Network Security Review (tập 4 – 04/1997) công bố là khoảng 4%-6% doanh thu ngành viễn thông Hoa Kỳ bị thất thoát do gian lận, Mobile Europe(2000) đưa ra con số thất

thoát của ngành viễn thông là 13 tỷ USD/ năm…

Những vấn đề trên đã được rất nhiều doanh nghiệp viễn thông trên thế giới nhìn nhận và tìm cách giải quyết Và khai phá dữ liệu chính là một trong những kỹ thuật hữu ích nhất để giải quyết những vấn đề này VNPT là doanh nghiệp bưu chính viễn thông lớn nhất Việt Nam Nhận thấy những lợi ích thu được từ việc áp dụng kĩ thuật khai phá dữ liệu, lãnh đạo VNPT

đã quyết định áp dụng các kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của VNPT

4 Giải pháp ứng dụng DataMining tại VNPT

Sau quá trình nghiên cứu về tình hình sản xuất kinh doanh hiện nay của VNPT, chúng tôi đã

đề xuất một hệ thống áp dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của VNPT Hệ thống này gồm có các chức năng sau:

• Dự đoán các dịch vụ gia tăng có xu hướng được khách hàng sử dụng nhiều tại các bưu điện tỉnh, thành phố: mục tiêu của chức năng này là từ các thông tin về tình hình kinh doanh của dịch vụ và thông tin đăng kí dịch vụ của khách hàng, đưa ra được các dịch vụ

có xu hướng được sử dụng nhiều trong tương lai Hướng giải quyết nhiệm vụ này là sử dụng phương pháp phân lớp dữ liệu, từ dữ liệu đã có chúng ta sẽ xây dựng nên một mô hình phân lớp, sau đó khi có dữ liệu mới, hệ thống sẽ áp dụng mô hình để phân các dịch

vụ vào các lớp như: lớp các dịch vụ sẽ được sử dụng nhiều, lớp các dịch vụ sẽ được sử dụng vừa phải, lớp các dịch vụ sẽ được sử dụng ít…

• Phân tích và dự đoán xu hướng phát triển của các sản phẩm, dịch vụ có lợi nhuận lớn nhất trong thời điểm hiện tại: mục tiêu của chức năng này là từ thông tin về tình hình sản xuất, kinh doanh của các dịch vụ, sản phẩm tại các bưu điện tỉnh, thành phố và đơn vị thành viên Từ những phân tích trên, áp dụng phương pháp phân lớp dữ liệu để xác định các dịch vụ có lợi nhuận lớn nhất trong thời điểm hiện tại và xu hướng phát triển của các sản phẩm dịch vụ đó

Trang 5

• Dự đoán nhu cầu tăng dung lượng đường truyền của các bưu điện tỉnh, thành: mục tiêu của chức năng này là từ thông tin về tình hình sử dụng đường truyền ở các bưu điện, đưa

ra nhu cầu dung lượng đường truyền của các bưu điện tỉnh thành trong thời gian tới Phương pháp đề xuất để giải quyết nhiệm vụ này là phương pháp hồi quy

• Đánh giá xu hướng biến đổi sản lượng của các sản phẩm, dịch vụ: mục tiêu của chức năng này là từ thông tin về tình hình sản xuất, kinh doanh các sản phẩm, dịch vụ, đưa ra được

xu hướng biến đổi sản lượng của các sản phẩm, dịch vụ: tăng lên, giữ nguyên hay giảm sút… Hướng giải quyết nhiệm vụ này cũng là áp dụng phương pháp phân lớp dữ liệu

• Nhận dạng và dự đoán các biểu hiện gian lận trong sử dụng dịch vụ viễn thông tại các bưu điện tỉnh, thành phố: mục tiêu của chức năng này là từ thông tin về tình trạng sử dụng dịch

vụ viễn thông ở các bưu điện tỉnh thành, xác định các đối tượng bị nghi ngờ là có gian lận

và các khu vực có nhiều khả năng xảy ra gian lận Phương pháp đề xuất để giải quyết nhiệm vụ này là sử phương pháp phân cụm dữ liệu và tìm điểm ngoại lai

Hầu hết các chức năng trên đều được giải quyết bằng phương pháp phân lớp dữ liệu Trong phương pháp này và phương pháp hồi quy thì vấn đề được quan tâm hàng đầu là độ chính xác của mô hình Để tăng độ chính xác cho mô hình thì với mỗi nhiệm vụ chúng ta sẽ không chỉ xây dựng một bộ phân lớp mà sẽ xây dựng một số bộ phân lớp Sau đó, với mỗi mẫu dữ liệu cần dự đoán, mỗi bộ phân lớp sẽ cho một kết quả dự đoán và nhãn lớp nào được dự đoán nhiều nhất bởi các bộ phân lớp sẽ được gán cho mẫu mới Bên cạnh đó, lượng dữ liệu được lưu trữ để xây dựng mô hình của chúng ta là rất lớn Vì vậy, quá trình xây dựng mô hình sẽ diễn ra trong thời gian khá lâu Mặt khác, chu kỳ cập nhật của dữ liệu là khá dài (thường là theo tháng) Để giảm thời gian chờ đợi của người sử dụng, chúng ta sẽ tách riêng bước xây dựng mô hình và bước áp dụng mô hình Mô hình sau khi xây dựng sẽ được lưu lại để sử dụng khi người dùng muốn dự đoán số liệu mới Mô hình sẽ được định kỳ xây dựng lại hoặc được xây dựng lại khi người dùng thấy hệ thống dự đoán không còn chính xác nữa

5 Kết luận

Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hướng nghiên cứu thu hút được sự quan tâm của nhiều chuyên gia về CNTT trên thế giới Trong những năm gần đây, rất nhiều các phương pháp và thuật toán mới liên tục được công bố Điều này chứng tỏ những ưu thế, lợi ích và khả năng ứng dụng thực tế to lớn của khai phá dữ liệu Bài báo đã trình bày một

số kiến thức tổng quan về khai phá dữ liệu, những kiến thức cơ bản nhất về các phương pháp phân cụm dữ liệu, phân lớp dữ liệu và khai phá luật kết hợp; đồng thời đề xuất một giải pháp

để áp dụng những kĩ thuật này vào hoạt động sản xuất kinh doanh của VNPT

Tài liệu tham khảo

[1] Introduction to Data Mining and Knowledge Discovery - Third Edition - 1999, by

Two Crows Corporation

[2] Web Data Mining and Applications in Business Intelligence and Counter-Terrorism -

2003, by Bhavani Thuraisingham (Auerbach)

[3] Data Mining: Opportunities and Challenges -2003, by John Wang (Idea Group

Publishing)

[4] Principles of Data Mining - 2001, by David Hand, Heikki Mannila and Padhraic

Smyth (The MIT Press)

Ngày đăng: 03/01/2016, 19:33

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w