1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài tiểu luận môn Công nghệ tri thức CƠ SỞ KHAI THÁC DỮ LIỆU

26 349 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 98,23 KB

Nội dung

PHẦN I: GIỚI THIỆU KHAI THÁC DỮ LIỆUCHƯƠNG 1: TỔNG QUAN Khai thác dữ liệu, khai thác thông tin dự báo ẩn từ cơ sở dữ liệu lớn, là một công nghệ mới mạnh mẽ với tiềm năng tuyệt vời để giú

Trang 1

GIỚI THIỆU

Khai khoáng dữ liệu (data mining), hiện nay đang được rất nhiều người chú ý Nó

thực sự đã đem lại những lợi ích đáng kể trong việc cung cấp những thông tin tiềm ẩn trong các cơ sở dữ liệu lớn Ngày nay đang trong tình trạng bùng nổ thông tin, lượng thông tin càng trở nên phong phú, đa dạng và khổng lồ Thế nhưng để có được những thông tin quí giá, đáng quan tâm, chúng ta lại phải tốn rất nhiều công sức để tìm kiếm nó trong một khối lượng thông tin khổng lồ ấy Xét về lĩnh vực này thì khối lượng thông tin càng lớn công việc càng trở nên khó khăn hơn Những phương pháp thống kê truyền thống, phần lớn đều đã được định trước mục đích của công việc, và sau đó chỉ việc sử dụng những phương pháp thích hợp để có được những thông tin mà chúng ta cần Đối với khai khoáng dữ liệu đúng nghĩa như tên gọi của nó, chúng ta đi tìm “mỏ”, không biết “có mỏ hay không?” nếu có thì

“mỏ đó là vàng hay bạc, hay chì ?” Khai khoáng dữ liệu như là một công cụ, giúp chúng

ta tìm ra “mỏ” trong những “dãy núi khổng lồ”, núi càng lớn, càng dài thì hy vọng tìm ra

mỏ càng cao nhưng cũng hết sức khó khăn phức tạp

Tất nhiên khi tìm ra được những thông tin cuối cùng thì việc ứng dụng những thông tin đó vào trong thực tế lại đòi hỏi cả một quá trình vận dụng từ lý thuyết vào thực tiễn Những luật kết hợp, những mẫu thông tin chưa từng gặp sẽ là tiền đề cho những dự đoán,

để từ đó có được những hoạch định đúng cho hướng phát triển trong tương lai, đây chính là những yếu tố mà cơ quan đơn vị nào cũng cần tới nó, dù ở mức qui mô lớn hay nhỏ

Khai khoáng dữ liệu trong Giáo dục và Đào tạo thật sự là một việc làm có ý nghĩa,

nó sẽ cung cấp những thông tin dựa trên những cơ sở khoa học đáng tin cậy, và đây cũng chính là những thông tin quí giá hỗ trợ rất nhiều trong công tác quản lý giáo dục

Hiện nay khai khoáng dữ liệu đã được ứng dụng rất nhiều trong thực tế, nhất là trong lĩnh vực kinh doanh, công nghệ sinh học Tuy nhiên trong lĩnh vực Giáo dục và Đào tạo, quả thật còn rất ít

Dữ liệu trong giáo dục có những đặc điểm riêng của nó, đòi hỏi chúng ta phải có những phương pháp khám phá phù hợp thì mới phát huy được tốc độ, cũng như không gian

bộ nhớ Mặt khác để có được những thông tin mang tính xã hội và thực tế cao thì việc đưa khái niệm tập mờ để đánh giá phân loại học sinh sẽ có tính thuyết phục hơn

Với phương pháp khai khoáng luật kết hợp mờ trong cơ sở dữ liệu là kết quả thi tốt nghiệp THPT

Trang 2

PHẦN I: GIỚI THIỆU KHAI THÁC DỮ LIỆU

CHƯƠNG 1: TỔNG QUAN

Khai thác dữ liệu, khai thác thông tin dự báo ẩn từ cơ sở dữ liệu lớn, là một công nghệ mới mạnh mẽ với tiềm năng tuyệt vời để giúp các đối tượng cần quản lý tập trung vào các thông tin quan trọng nhất trong kho dữ liệu Công cụ khai thác dữ liệu dự đoán xu hướng tương lai và thực hiện, cho phép các đối tượng quản lý để quyết định chủ động, kiến thức theo định hướng Tự động phân tích tiềm năng được cung cấp bởi động thái khai thác

dữ liệu vượt ra ngoài phân tích các sự kiện trong quá khứ được cung cấp bởi các công cụ truy vấn điển hình của hệ thống hỗ trợ quyết định

Công cụ khai thác dữ liệu có thể trả lời các câu hỏi quản lý truyền thống là quá tốn thời gian để giải quyết Cơ sở dữ liệu cho các mô hình ẩn, tìm kiếm thông tin tiên đoán mà các chuyên gia có thể bỏ lỡ bởi vì nó nằm ngoài mong đợi của họ.Hầu hết các đối tượng quản lý đã thu thập và sàng lọc số lượng lớn dữ liệu Kỹ thuật khai thác dữ liệu có thể được thực hiện nhanh chóng trên phần mềm và phần cứng hiện có nền tảng để nâng cao giá trị của tài nguyên thông tin hiện có, và có thể được tích hợp với sản phẩm mới và hệ thống khi chúng được đưa trên mạng

Khi thực hiện hiệu suất cao, khách hàng / máy chủ hoặc máy tính xử lý song song, các công cụ khai thác dữ liệu có thể phân tích cơ sở dữ liệu lớn để cung cấp nhu cầu đáp ứng

Giới thiệu về các công nghệ cơ bản của khai thác dữ liệu Ví dụ về các ứng dụng

có lợi nhuận cho thấy sự liên quan của nó đến môi trường kinh doanh ngày nay cũng như

mô tả cơ bản của kiến trúc kho dữ liệu có thể phát triển để cung cấp những giá trị khai thác dữ liệu cho người dùng cuối

Trang 3

CHƯƠNG 2: CƠ SỞ KHAI THÁC DỮ LIỆU

1 Kỹ thuật khai thác dữ liệu

Kỹ thuật khai thác dữ liệu là kết quả của một quá trình lâu dài nghiên cứu và phát triển sản phẩm Sự tiến hóa này bắt đầu khi dữ liệu kinh doanh lần đầu tiên được lưu trữ trên máy tính, tiếp tục với những cải tiến trong truy cập dữ liệu, và gần đây hơn, tạo

ra công nghệ cho phép người dùng điều hướng thông qua các dữ liệu của họ trong thời gian thực Khai thác dữ liệu có quá trình tiến hóa vượt ra ngoài truy cập dữ liệu hồi cứu

và chuyển hướng cung cấp thông tin và chủ động tương lai Khai thác dữ liệu đã sẵn sàng cho ứng dụng trong cộng đồng doanh nghiệp bởi vì nó được hỗ trợ bởi ba công nghệ

hiện nay đủ trưởng thành:

• Thu thập dữ liệu

• Máy tính đa xử lý

• Thuật tóan khai thác dữ liệu

2 Khảo sát dữ lịêu

Cơ sở dữ liệu thương mại đang phát triển với tốc độ chưa từng thấy META

Nhóm khảo sát gần đây của dự án kho dữ liệu cho thấy rằng 19% số người trả lời là

vượt quá mức 50 GB, trong khi 59% mong đợi để có quý thứ hai của 1.996,1 Trong một

số ngành công nghiệp, chẳng hạn như bán lẻ, những con số này có thể lớn hơn nhiều Sự cần thiết phải đi kèm cho các công cụ cải thiện tính toán có thể được đáp ứng một cách hiệu quả với công nghệ máy tính song song Các thuật toán khai thác dữ liệu thể hiện các

kỹ thuật đã tồn tại ít nhất 10 năm, nhưng chỉ gần đây mới được thực hiện như trưởng thành, đáng tin cậy, các công cụ dễ hiểu mà luôn tốt hơn phương pháp thống kê cũ

Trong quá trình tiến hóa từ các dữ liệu kinh doanh thông tin kinh doanh, từng bước tiến mới đã được xây dựng trên trước đó Ví dụ, truy cập dữ liệu động là rất quan trọng cho khoan thông qua ứng dụng điều hướng dữ liệu, và khả năng lưu trữ cơ sở dữ liệu lớn là rất quan trọng để khai thác dữ liệu Từ quan điểm của người sử dụng xem, bốn bước được liệt kê trong Bảng 1 là cách mạng bởi vì họ cho phép các câu hỏi doanh nghiệp mới được trả lời chính xác và nhanh chóng

Bước tiến hóa Câu hỏi kinh doanh Kích họat công

nghệ

Sản phẩm nhà cung cấp

Đặc điểm

Tập hợp dữ liệu Tổng doanh thu trong

năm năm qua là gì? "

Computers, tapes, disks

IBM, CDC Hồi cứu,

cung cấp dữ liệu tĩnhtruy cập dữ liệu "Đơn vị bán hàng ở

New England cuối tháng ba?"

Cơ sở dữ liệu quan

hệ (RDBMS), Structured Query

Oracle, Sybase, Informix,

Truy dữ liệu giao hàng, năng động ở

Trang 4

Language (SQL), ODBC

IBM, Microsoft

Phân tích xử lý trực tuyến (OLAP), cơ

sở dữ liệu đa chiều, kho dữ liệu

Pilot, Comshare, Arbor, Cognos, Microstrategy

Truy, năng động, dữ liệu giao hàng ở nhiều cấp độKhai thác dữ

liệu

"Có gì có thể xảy ra với doanh số bán hàng đơn vị Boston vào tháng tới?"

Các thuật toán tiên tiến, máy tính đa năng, cơ sở dữ liệu khổng lồ

Pilot, Lockheed, IBM, SGI, numerous startups (nascent industry)

Tiềm năng, chủ động thông tin giao hàng

Bảng 1.Các bước trong tiến trình của Khai thác dữ liệu

Các thành phần cốt lõi của công nghệ khai thác dữ liệu đã được phát triển trong nhiều thập

kỷ, trong lĩnh vực nghiên cứu như số liệu thống kê, trí thông minh nhân tạo, và học máy Ngày nay, sự trưởng thành của các kỹ thuật, cùng với động cơ hiệu suất cao cơ sở dữ liệu quan hệ và những nỗ lực tích hợp dữ liệu rộng, làm cho các công nghệ thiết thực cho các môi trường kho dữ liệu hiện tại

Trang 5

4 Ứng dụng chức năng:

Với cơ sở dữ liệu kích thước đầy đủ và chất lượng, công nghệ khai thác dữ liệu có thể tạo

ra các cơ hội kinh doanh mới bằng cách cung cấp những khả năng:

a động Tự dự báo xu hướng và thực hịên Khai thác dữ liệu tự động hóa quá trình tìm

kiếm thông tin dự đoán trong cơ sở dữ liệu lớn Câu hỏi truyền thống yêu cầu tay-on

mở rộng phân tích có thể được trả lời trực tiếp từ các dữ liệu một cách nhanh chóng Một ví dụ điển hình của một vấn đề tiên đoán được nhắm mục tiêu tiếp thị Khai thác

dữ liệu sử dụng dữ liệu trên các thư quảng cáo trong quá khứ để xác định các mục tiêu

có thể để tối đa hóa lợi nhuận trên đầu tư vào các thư trong tương lai Các vấn đề khác tiên đoán bao gồm phá sản dự báo và các hình thức mặc định, và các phân đoạn xác định của một dân số có khả năng đáp ứng tương tự như sự kiện được đưa ra

b Công cụ khai thác dữ liệu: quét qua cơ sở dữ liệu và xác định các mẫu trước đó ẩn trong một bước Một ví dụ về mô hình phát hiện ra là việc phân tích các dữ liệu doanh

số bán lẻ để xác định các sản phẩm dường như không liên quan với nhau Các mô hình phát hiện ra vấn đề khác bao gồm phát hiện các giao dịch thẻ tín dụng gian lận

và xác định các dữ liệu bất thường có thể do lỗi nhập từ bàn phím

c Kỹ thuật khai thác dữ liệu: mang lại lợi ích của tự động hóa phần mềm và là nền tảng cho sự phát triển của phần cứng, và có thể được thực hiện trên hệ thống mới hiện tại được nâng cấp Khi các công cụ khai thác dữ liệu được thực hiện trên các hệ thống xử

lý song song hiệu năng cao, họ có thể phân tích cơ sở dữ liệu lớn trong vài phút Xử

lý nhanh hơn có nghĩa rằng người dùng có thể tự động thử nghiệm với các mô hình để hiểu các dữ liệu phức tạp Tốc độ cao làm cho nó thực tế cho người sử dụng để phân tích một lượng lớn dữ liệu Cơ sở dữ liệu lớn hơn, lần lượt, sản lượng dự đoán được cải thiện

5 Các kỹ thuật phổ biến nhất được sử dụng trong khai thác dữ liệu

a Các thuật toán di truyền : Tối ưu hóa kỹ thuật sử dụng các quá trình như sự kết hợp

di truyền, đột biến và chọn lọc tự nhiên trong một thiết kế dựa trên khái niệm của sự tiến hóa

b Phương pháp hàng xóm gần nhất : Một kỹ thuật phân loại mỗi bản ghi trong một

tập dữ liệu dựa trên sự kết hợp của các lớp học của các kỷ lục k (s) tương tự như trong một tập dữ liệu lịch sử (mà k ³ 1) Đôi khi được gọi là kỹ thuật hàng xóm k gần nhất

c Quy tắc cảm ứng : Việc khai thác hữu ích nếu sau đó quy định từ dữ liệu dựa trên ý

nghĩa thống kê

Nhiều người trong số các công nghệ này đã được sử dụng trong hơn một thập kỷ trong các công cụ phân tích chuyên môn làm việc với khối lượng tương đối nhỏ của dữ liệu Những khả năng này được phát triển để tích hợp trực tiếp với tiêu chuẩn công nghiệp nền tảng kho dữ liệu và OLAP

6 Sự họat động của khai thác dữ liệu

Trang 6

Làm thế nào chính xác là khai thác dữ liệu có thể cho bạn biết những điều quan trọng mà bạn không biết hay những gì sẽ xảy ra tiếp theo?

Kỹ thuật được sử dụng để thực hiện những kỳ công trong khai thác dữ liệu được gọi

là mô hình hóa Mô hình chỉ đơn giản là hành động của việc xây dựng một mô hình trong một tình huống mà bạn biết câu trả lời và sau đó áp dụng nó vào một tình huống mà bạn không biết Ví dụ, nếu bạn đang tìm kiếm một thuyền buồm Tây Ban Nha bị chìm trên vùng biển cao, điều đầu tiên bạn có thể làm là nghiên cứu lần khi Tây Ban Nha kho báu đã được tìm thấy bởi những người khác trong quá khứ Bạn có thể lưu ý rằng các tàu này thường có

xu hướng được tìm thấy ngoài khơi bờ biển của Bermuda và có những đặc điểm nhất định

để các dòng chảy đại dương, và các tuyến đường nhất định đã có thể được thực hiện bởi thuyền trưởng của con tàu trong thời đại đó Bạn lưu ý những điểm tương đồng và xây dựng một mô hình bao gồm các đặc điểm được phổ biến đến các địa điểm của những kho tàng chìm đắm Với các mô hình này trong tay bạn đi thuyền tìm kiếm kho báu mà mô hình của bạn cho thấy nó có khả năng nhất có thể được đưa ra một tình huống tương tự trong quá khứ Hy vọng rằng, nếu bạn đã có một mô hình tốt, bạn tìm thấy kho báu của bạn.Đây là hành vi xây dựng mô hình như vậy, một cái gì đó mà mọi người đã được làm trong một thời gian dài, chắc chắn trước khi sự ra đời của máy tính hoặc khai thác dữ liệu công nghệ Điều gì sẽ xảy ra trên máy tính, tuy nhiên, không phải là nhiều hơn so với cách mọi người xây dựng mô hình khác nhau Máy tính được nạp với nhiều thông tin về một loạt các tình huống mà một câu trả lời được biết đến và sau đó phần mềm khai thác dữ liệu trên máy tính phải chạy thông qua các dữ liệu đó và chưng cất các đặc tính của dữ liệu có nên đi vào

mô hình Một khi mô hình được xây dựng sau đó có thể được sử dụng trong các tình huống tương tự mà bạn không biết câu trả lời Ví dụ, nói rằng bạn là giám đốc tiếp thị cho một công ty viễn thông và bạn muốn để có được một số điện thoại đường dài khách hàng mới Bạn có thể chỉ là ngẫu nhiên đi ra ngoài và gửi phiếu giảm giá cho dân số nói chung cũng giống như bạn ngẫu nhiên có thể đi thuyền biển tìm kiếm kho báu Trong trường hợp không phải, bạn sẽ đạt được kết quả bạn mong muốn và tất nhiên bạn có cơ hội để làm tốt hơn nhiều hơn ngẫu nhiên - bạn có thể sử dụng kinh nghiệm kinh doanh của bạn được lưu trữ trong cơ sở dữ liệu của bạn để xây dựng một mô hình

Là giám đốc tiếp thị, bạn có thể truy cập đến rất nhiều thông tin về tất cả các khách hàng của bạn: tuổi tác, giới tính, lịch sử tín dụng và gọi điện thoại đường dài sử dụng Các tin tốt

là bạn cũng có rất nhiều thông tin về khách hàng tiềm năng của bạn: tuổi, giới tính, họ, lịch

sử tín dụng, vv Vấn đề của bạn là bạn không biết cách sử dụng gọi điện thoại đường dài của những khách hàng tiềm năng (kể từ khi họ có khả năng nhất hiện nay khách hàng của đối thủ cạnh tranh của bạn) Bạn muốn tập trung vào những triển vọng những người có số lượng lớn của việc sử dụng khoảng cách dài Bạn có thể thực hiện điều này bằng cách xây dựng một mô hình Bảng 2 minh họa các dữ liệu được sử dụng để xây dựng một mô hình mới cho khách hàng khảo sát trong một nhà kho dữ liệu

Trang 7

Khách hàng Triển vọngThông tin chung Được biết Được biết

Thông tin độc quyền Được biết Mục tiêu

Bảng 2 - Khai thác dữ liệu cho khảo sát

7 Mục đích của sự khảo sát

Mục đích của việc khảo sát là để làm cho một số dự đoán tính toán về những thông tin ở góc tọa độ dưới bên phải dựa trên mô hình mà chúng ta xây dựng từ thông tin khách hàng chung để thông tin khách hàng phần mềm sở hữu Ví dụ, một mô hình đơn giản cho một

98% khách hàng của tôi những người làm nhiều hơn $ 60.000 / năm chi tiêu nhiều hơn $

Mô hình này sau đó có thể được áp dụng cho các dữ liệu khách hàng tiềm năng để cố gắng nói điều gì đó về thông tin độc quyền mà công ty viễn thông này hiện tại không có quyền truy cập Với mô hình này trong tay khách hàng mới có thể được lựa chọn nhắm mục tiêu.Kiểm tra tiếp thị là một nguồn tuyệt vời của dữ liệu cho các loại hình của mô hình Khai thác các kết quả của một thị trường thử nghiệm đại diện cho một mẫu rộng lớn nhưng tương đối nhỏ của khách hàng tiềm năng có thể cung cấp một nền tảng để xác định triển vọng tốt trong thị trường tổng thể Bảng 3 cho thấy một kịch bản phổ biến khác cho các mô hình xây dựng: dự đoán những gì sẽ xảy ra trong tương lai

Hôm qua Hôm nay Ngày mai

Kế họach hiện tại Được biết Được biết Được biết

Kế họach tương lai – thông tin

có thay đổi

Được biết Được biết Mục tiêu

Bảng 3 - Khai thác dữ liệu cho dự báo

Để tốt nhất áp dụng những kỹ thuật tiên tiến, phải được tích hợp đầy đủ với một nhà kho dữ liệu cũng như các công cụ phân tích kinh doanh tương tác linh hoạt Nhiều công cụ khai thác dữ liệu đang hoạt động bên ngoài của kho, yêu cầu các bước bổ sung để chiết xuất, nhập khẩu, và phân tích dữ liệu Hơn nữa, khi những hiểu biết mới yêu cầu hoạt động thực hiện, tích hợp với các kho hàng đơn giản hoá việc áp dụng các kết quả từ khai thác dữ liệu Các kết quả phân tích kho dữ liệu có thể được áp dụng để cải thiện quy trình kinh doanh trong toàn bộ tổ chức, trong các lĩnh vực như quản lý chiến dịch quảng cáo, phát hiện gian lận, triển khai sản phẩm mới

Trang 8

Điểm khởi đầu lý tưởng là một kho dữ liệu có chứa một sự kết hợp dữ liệu nội bộ theo dõi tất cả liên lạc của khách hàng cùng với các dữ liệu thị trường bên ngoài về hoạt động của đối thủ cạnh tranh Bối cảnh thông tin về khách hàng tiềm năng cũng cung cấp một cơ sở tuyệt vời cho các khảo sát Kho này có thể được thực hiện trong một loạt các hệ thống cơ sở

dữ liệu quan hệ: Sybase, Oracle, Redbrick, và như vậy, và cần được tối ưu hóa cho việc truy

Một máy chủ OLAP (On-Line Analytical Processing) cho phép người dùng cuối một mô hình kinh doanh phức tạp hơn để được áp dụng khi điều hướng các kho dữ liệu Các cấu trúc đa chiều cho phép người sử dụng để phân tích các dữ liệu như họ muốn xem kinh doanh của họ - tóm tắt bởi dòng sản phẩm, khu vực, và quan điểm quan trọng khác của kinh doanh của họ Server Khai thác dữ liệu phải được tích hợp với các kho dữ liệu và máy chủ OLAP để nhúng ROI tập trung vào phân tích kinh doanh trực tiếp vào cơ sở hạ tầng này Một tiên tiến, trung tâm siêu dữ liệu mẫu quá trình xác định mục tiêu khai thác dữ liệu cho các vấn đề kinh doanh cụ thể như quản lý chiến dịch, khảo sát, và tối ưu hóa khuyến mại Tích hợp với các kho dữ liệu cho phép quyết định hoạt động được trực tiếp thực hiện và theo dõi Khi các kho hàng phát triển với các quyết định và kết quả mới, tổ chức có thể tiếp tục khai thác tốt nhất và áp dụng chúng để quyết định tương lai.Thiết kế này đại diện cho một sự thay đổi cơ bản từ các hệ thống hỗ trợ quyết định thông thường Thay vì chỉ đơn giản là cung cấp dữ liệu cho người dùng cuối thông qua các truy vấn và báo cáo phần mềm, Server Phân tích chi tiết áp dụng mô hình kinh doanh của người

sử dụng trực tiếp với nhà kho và trả về một phân tích chủ động của các thông tin có liên quan nhất Những kết quả này tăng cường các siêu dữ liệu trong các máy chủ OLAP cung cấp một lớp siêu dữ liệu năng động đại diện cho một cái nhìn cất dữ liệu Với các công cụ phân tích khác sau đó có thể được áp dụng để lập kế hoạch hành động trong tương lai và xác nhận tác động của những kế hoạch đó

Trang 9

CHƯƠNG 3: MỘT SỐ ỨNG DỤNG

Các công ty đã triển khai ứng dụng thành công khai thác dữ liệu Trong khi chấp nhận đầu tiên của công nghệ này có xu hướng được nhiều thông tin ngành công nghiệp như dịch vụ tài chính và tiếp thị thư trực tiếp, công nghệ này áp dụng đối với bất kỳ công ty tìm kiếm để sử dụng một kho dữ liệu lớn để quản lý tốt hơn các mối quan hệ khách hàng của họ Hai yếu tố quan trọng cho sự thành công với các dữ liệu khai thác khoáng sản là: lớn, tích hợp các kho dữ liệu và sự hiểu biết một định nghĩa của quá trình kinh doanh mà trong đó khai thác dữ liệu được áp dụng (chẳng hạn như khách hàng khảo sát, lưu giữ, quản lý chiến

1 Một số lĩnh vực ứng dụng thành công bao gồm :

a Một công ty dược phẩm có thể phân tích hoạt động gần đây lực lượng bán hàng và các kết quả của họ để cải thiện nhắm mục tiêu của các bác sĩ có giá trị cao và xác định các hoạt động tiếp thị sẽ có ảnh hưởng lớn nhất trong vài tháng tới Dữ liệu cần phải bao gồm các hoạt động thị trường đối thủ cạnh tranh cũng như thông tin về hệ thống chăm sóc y tế địa phương Các kết quả có thể được phân phối cho các lực lượng bán hàng thông qua một mạng diện rộng cho phép các đại diện để xem xét các khuyến nghị từ quan điểm của các thuộc tính quan trọng trong quá trình ra quyết định , Phân tích năng động liên tục của các kho dữ liệu cho phép thực hành tốt nhất từ khắp tổ chức để được áp dụng trong các tình huống bán hàng cụ thể

b Một công ty thẻ tín dụng có thể tận dụng kho rộng lớn của dữ liệu giao dịch của

khách hàng để xác định khách hàng có thể là quan tâm đến một sản phẩm tín dụng mới Sử dụng gửi thư thử nghiệm nhỏ, các thuộc tính của khách hàng với một sự ham thích cho sản phẩm có thể được xác định Dự án gần đây đã chỉ ra nhiều hơn giảm 20 lần chi phí cho các chiến dịch gửi thư có mục tiêu qua các phương pháp thông

thường

c Một công ty vận tải đa dạng với một lực lượng lớn bán hàng trực tiếp có thể áp dụng khai thác dữ liệu để xác định các triển vọng tốt nhất cho các dịch vụ của nó Sử dụng khai thác dữ liệu để phân tích kinh nghiệm khách hàng riêng của mình, công ty này có thể xây dựng một phân khúc duy nhất xác định các thuộc tính của khách hàng tiềm năng có giá trị cao Áp dụng phân khúc này với một cơ sở dữ liệu kinh doanh nói chung như những người được cung cấp bởi Dun & Bradstreet có thể mang lại một danh sách ưu tiên của triển vọng của khu vực

d Một người tiêu dùng lớn công ty gói hàng hóa có thể áp dụng khai thác dữ liệu để cải thiện quá trình bán hàng của mình cho các nhà bán lẻ Dữ liệu từ các tấm tiêu dùng, vận chuyển, và hoạt động của đối thủ cạnh tranh có thể được áp dụng để hiểu lý do chuyển đổi thương hiệu và cửa hàng Thông qua phân tích này, các nhà sản xuất có thể lựa chọn chiến lược quảng cáo tốt nhất đạt được các phân khúc khách hàng mục tiêu của họ

2 Kết luận :

Trang 10

- Kho dữ liệu toàn diện tích hợp dữ liệu hoạt động với khách hàng, nhà cung cấp, và thông tin thị trường đã dẫn đến một sự bùng nổ thông tin

- Cạnh tranh đòi hỏi phải phân tích kịp thời và tinh tế trên một cái nhìn tích hợp của dữ liệu Tuy nhiên, có một khoảng cách ngày càng tăng giữa lưu trữ và hệ thống thu hồi

và khả năng của người sử dụng có hiệu quả phân tích và hành động trên những thông tin chúng chứa Cả hai công nghệ quan hệ và OLAP có khả năng to lớn để điều

hướng các kho dữ liệu khổng lồ

- Một bước nhảy vọt công nghệ mới là cần thiết để cấu trúc và ưu tiên thông tin cho các vấn đề cụ thể của người dùng cuối

3 Thuật ngữ của Điều khoản khai thác dữ liệu :

phân tích mô hình Cấu trúc và quá trình phân tích một tập dữ liệu Ví dụ, một cây

quyết định là một mô hình để phân loại của một tập dữ liệu

dữ liệu bất thường Dữ liệu có lỗi (ví dụ, nhập dữ liệu lỗi keying) hoặc đại diện cho các

sự kiện bất thường Dữ liệu bất thường nên được kiểm tra cẩn thận

vì nó có thể mang thông tin quan trọng

Hệ thống mạng Mô hình học thông qua đào tạo và tương tự như mạng lưới thần

kinh sinh học trong cơ cấu

CART Cây phân loại và hồi quy Kỹ thuật cây quyết định được sử dụng

cho phân loại của một tập dữ liệu Cung cấp tập hợp các quy tắc mà

có thể áp dụng cho một tập dữ liệu mới (không được phân loại) để

dự đoán các hồ sơ sẽ có một kết quả như thế nào Phân đoạn một tập dữ liệu bằng cách tạo ra 2 cách chia tách Cần chuẩn bị dữ liệu

ít hơn CHAID

CHAID Tương tác phát hiện tự động.Kỹ thuật cây quyết định được sử dụng

cho phân loại của một tập dữ liệu Cung cấp một tập hợp các quy tắc mà bạn có thể áp dụng cho một tập dữ liệu mới (không được phân loại) để dự đoán các hồ sơ sẽ có một kết quả nào Phân đoạn một tập dữ liệu bằng cách sử dụng kiểm tra chia vuông để tạo ra nhiều cách chia tách Trước, và đòi hỏi phải chuẩn bị dữ liệu nhiều hơn, CART

Phân loại Phân chia theo từng thành phần cấu trúc trong dữ liệu

Phân nhóm Quá trình phân chia một tập dữ liệu thành các nhóm dữ liệu khác

nhau Tùy theo từng lọai yêu cầu mà các dữ liệu được phân chia theo nhóm khác nhau

Trang 11

Làm sạch dữ liệu Quá trình đảm bảo rằng tất cả các giá trị trong một tập dữ liệu phù

hợp và ghi lại một cách chính xác

Khai thác dữ liệu Khai thác thông tin dự báo ẩn từ cơ sở dữ liệu lớn

Dữ liệu định vị Quá trình xem kích thước khác nhau, lát, và mức độ chi tiết của

một cơ sở dữ liệu đa chiều

Dữ liệu trực quan Việc giải thích hình ảnh của mối quan hệ phức tạp trong các dữ liệu

đa chiềuKho dữ liệu Một hệ thống để lưu trữ và cung cấp số lượng lớn dữ liệu

Cây quyết định Một cấu trúc hình cây đại diện cho một tập hợp các quyết định

Những quyết định này tạo ra quy tắc cho việc phân loại của một tập

dữ liệu Xem CART và CHAID

Kích thước Trong một cơ sở dữ liệu hoặc quan hệ, mỗi lĩnh vực trong một bản

ghi đại diện cho một kích thước Trong một cơ sở dữ liệu đa chiều, kích thước là một tập hợp của các thực thể tương tự

Mô hình tuyến tính Mô hình phân tích mối quan hệ tuyến tính trong các hệ số của các

biến được nghiên cứu

Hồi quy tuyến tính Một kỹ thuật thống kê được sử dụng để tìm các mối quan hệ tốt

nhất phù hợp tuyến tính giữa một mục tiêu (phụ thuộc) biến và những dự báo của nó (các biến độc lập)

Hồi quy Hồi quy tuyến tính dự đoán tỷ lệ của một biến mục tiêu phân loại,

chẳng hạn như loại của khách hàng, trong dân số

Cơ sở dữ liệu đa

chiều

Một cơ sở dữ liệu được thiết kế để xử lý phân tích trực tuyến Cấu trúc như một hypercube đa chiều với một trục trung bình kích thước

Máy tính đa xử lý Một máy tính bao gồm nhiều bộ xử lý kết nối mạng Xem như xử

Trang 12

lý song song.

Lân cận gần nhất Kỹ thuật phân loại mỗi bản ghi trong một tập dữ liệu dựa trên sự

kết hợp của các đối tượng tương tự Đôi khi được gọi là một kỹ thuật hàng xóm k gần nhất

Mô hình phi tuyến

tính

Mô hình phân tích mà không thừa nhận mối quan hệ tuyến tính trong các hệ số của các biến đang được nghiên cứu

OLAP On-line phân tích chế biến Đề cập đến các ứng dụng cơ sở dữ liệu

mảng cho phép người dùng xem, điều hướng thông qua, thao tác,

và phân tích cơ sở dữ liệu đa chiều

outlier Mục dữ liệu có giá trị nằm ngoài giới hạn kèm theo hầu hết các giá

trị tương ứng khác trong mẫu Có thể chỉ ra dữ liệu bất thường Nên được kiểm tra cẩn thận, có thể mang thông tin quan trọng

xử lý song song Việc sử dụng phối hợp nhiều bộ xử lý để thực hiện các nhiệm vụ

tính toán Xử lý song song có thể xảy ra trên một máy tính hoặc trên một mạng lưới các máy trạm hoặc máy tính

mô hình tiên đoán Cấu trúc và quá trình để dự đoán các giá trị của biến quy định trong

RAID Công nghệ lưu trữ song song hiệu quả của dữ liệu cho hệ thống

máy tính hiệu suất cao

Phân tích hồi cứu

Ngày đăng: 10/04/2015, 17:04

TỪ KHÓA LIÊN QUAN

w