Hồi quy và dự báo ( Regression and Prediction)

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu (Trang 34)

5. Phƣơng pháp nghiên cứu:

2.2.3. Hồi quy và dự báo ( Regression and Prediction)

2.2.3.1. Hồi quy

Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đốn cĩ giá trị thực. Nhiệm vụ của hồi quy tƣơng tự nhƣ phân lớp, điểm khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ khơng phải rời rạc. Việc dự báo các giá trị số thƣờng đƣợc làm bởi các phƣơng pháp thống kê cổ điển, chẳng hạn nhƣ hồi quy tuyến tính. Tuy nhiên, phƣơng pháp mơ hình hố cũng đƣợc sử dụng, ví dụ: cây quyết định.

Ứng dụng của hồi quy là rất nhiều, ví dụ: dự đốn số lƣợng sinh vật phát quang hiện thời trong khu rừng bằng cách dị tìm vi sĩng bằng các thiết bị cảm biến

từ xa; ƣớc lƣợng sác xuất ngƣời bệnh cĩ thể chết bằng cách kiểm tra các triệu chứng; dự báo nhu cầu của ngƣời dùng đối với một sản phẩm…

2.2.3.2. Dự báo

Dự báo là một chủ đề rộng và đi từ dự báo về lỗi của các thành phần hay máy mĩc đến việc nhận ra sự gian lận và thậm chí là cả dự báo về lợi nhuận của cơng ty nữa. Đƣợc sử dụng kết hợp với các kỹ thuật khai phá dữ liệu khác, dự báo gồm cĩ việc phân tích các xu hƣớng, phân loại, so khớp mẫu và mối quan hệ. Bằng cách phân tích các sự kiện hoặc các cá thể trong quá khứ, ta cĩ thể đƣa ra một dự báo về một sự kiện.

Khi sử dụng quyền hạn thẻ tín dụng, chẳng hạn, bạn cĩ thể kết hợp phân tích cây quyết định của các giao dịch riêng lẻ trong quá khứ với việc phân loại và các sự so khớp mẫu lịch sử để nhận biết liệu một giao dịch cĩ gian lận hay khơng. Rất cĩ thể là việc thực hiện một sự so khớp giữa việc mua vé các chuyến bay đến Mỹ và các giao dịch tại Mỹ cho thấy giao dịch này hợp lệ.

2.2.4. Tổng hợp (summarization)

Là cơng việc liên quan đến các phƣơng pháp tìm kiếm một mơ tả tập con dữ liệu[1],[2],[5]. Kỹ thuật tổng hợp thƣờng áp dụng trong việc phân tích dữ liệu cĩ tính thăm dị và báo cáo tự động. Nhiệm vụ chính là sản sinh ra các mơ tả đặc trƣng cho một lớp. Mơ tả loại này là một kiểu tổng hợp, tĩm tắt các đặc tính chung của tất cả hay hầu hết các mục của một lớp. Các mơ tả đặc trƣng thể hiện theo luật cĩ dạng sau: “Nếu một mục thuộc về lớp đã chỉ trong tiền đề thì mục đĩ cĩ tất cả các thuộc tính đã nêu trong kết luận”. Lƣu ý rằng luật dạng này cĩ các khác biệt so với luật phân lớp. Luật phát hiện đặc trƣng cho lớp chỉ sản sinh khi các mục đã thuộc về lớp đĩ.

2.2.5. Mơ hình hố sự phụ thuộc (dependency modeling).

Là việc tìm kiếm một mơ hình mơ tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức: Mức cấu trúc của mơ hình mơ tả (thƣờng dƣới dạng đồ thị). Trong đĩ, các biến phụ thuộc bộ phận vào các biến khác. Mức định lƣợng mơ hình mơ tả mức độ phụ thuộc. Những phụ thuộc này thƣờng đƣợc biểu thị dƣới dạng theo luật “nếu - thì” (nếu tiền đề là đúng thì kết luận đúng). Về nguyên tắc, cả tiền đề và kết luận đều cĩ thể là sự kết hợp logic của các giá trị thuộc tính. Trên thực tế, tiền đề thƣờng

là nhĩm các giá trị thuộc tính và kết luận chỉ là một thuộc tính. Hơn nữa hệ thống cĩ thể phát hiện các luật phân lớp trong đĩ tất cả các luật cần phải cĩ cùng một thuộc tính do ngƣời dùng chỉ ra trong kết luận.

Quan hệ phụ thuộc cũng cĩ thể biểu diễn dƣới dạng mạng tin cậy Bayes. Đĩ là đồ thị cĩ hƣớng, khơng chu trình. Các nút biểu diễn thuộc tính và trọng số của liên kết phụ thuộc giữa các nút đĩ.

2.2.6. Phát hiện sự biến đổi và độ lệch (change and deviation dectection)

Nhiệm vụ này tập trung vào khám phá hầu hết sự thay đổi cĩ nghĩa dƣới dạng độ đo đã biết trƣớc hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ liệu thực và nội dung mong đợi. Hai mơ hình độ lệch hay dùng là lệch theo thời gian hay lệch theo nhĩm. Độ lệch theo thời gian là sự thay đổi cĩ ý nghĩa của dữ liệu theo thời gian. Độ lệch theo nhĩm là sự khác nhau giữa dữ liệu trong hai tập con dữ liệu, ở đây tính cả trƣờng hợp tập con dữ liệu này thuộc tập con kia, nghĩa xác định dữ liệu trong một nhĩm con của đối tƣợng cĩ khác đáng kể so với tồn bộ đối tƣợng khơng? Theo cách này, sai sĩt dữ liệu hay sai lệch so với giá trị thơng thƣờng đƣợc phát hiện.

Vì những nhiệm vụ này yêu cầu số lƣợng và các dạng thơng tin rất khác nhau nên chúng thƣờng ảnh hƣởng đến việc thiết kế và chọn phƣơng pháp khai phá dữ liệu khác nhau. Ví dụ nhƣ phƣơng pháp cây quyết định tạo ra đƣợc một mơ tả phân biệt đƣợc các mẫu giữa các lớp nhƣng khơng cĩ tính chất và đặc điểm của lớp.

2.3. Ứng dụng và phân loại khai phá dữ liệu.

2.3.1 Ứng dụng

Khai phá dữ liệu tuy là một hƣớng tiếp cận mới nhƣng thu hút đƣợc rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nĩ. Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật tốn, tính tốn song song và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu... Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phƣơng pháp thống kê để mơ hình dữ liệu và phát hiện các mẫu, luật... Ngân hàng dữ liệu (Data Warehousing) và các cơng cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) cũng liên quan rất chặt chẽ với phát hiện tri thức và khai phá dữ liệu.

Khai phá dữ liệu cĩ nhiều ứng dụng trong thực tế, ví dụ như:

* Bảo hiểm, tài chính và thị trường chứng khốn: phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trƣờng chứng khốn. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận...

* Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định.

* Điều trị y học và chăm sĩc y tế: Một số thơng tin về chuẩn đốn bệnh lƣu trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đốn và phƣơng pháp điều trị (chế độ dinh dƣỡng, thuốc...).

* Sản xuất và chế biến: Quy trình, phƣơng pháp chế biến và xử lý sự cố. * Text mining và Web mining: Phân lớp văn bản và các trang Web, tĩm tắt văn bản... * Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thơng tin di truyền, mối liên hệ gene và một số bệnh di truyền...

* Mạng viễn thơng: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố, chất lƣợng dịch vụ...

2.3.2 Phân loại

Khai phá dữ liệu đƣợc chia nhỏ thành một số hƣớng chính nhƣ sau:

* Mơ tả khái niệm (concept description): thiên về mơ tả, tổng hợp và tĩm tắt khái niệm. Ví dụ nhƣ tĩm tắt văn bản.

* Luật kết hợp (Association rules): Là dạng luật biểu diễn tri thức ở dạng khá đơn giản. "Ví dụ 60% nam giới vào siêu thị nếu mua bia thì cĩ tới 80% trong số họ sẽ mua thêm thịt bị khơ". Luật kết hợp đƣợc ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính và thị trƣờng chứng khốn…

* Phân lớp và dự đốn (classification & prediction): xếp một đối tƣợng vào một trong những lớp đã biết trƣớc. Ví dụ phân lớp vùng địa lý theo dữ liệu thời tiết. Hƣớng tiếp cận này thƣờng sử dụng một số kỹ thuật của machine learning nhƣ cây quyết định (decision tree), mạng nơron nhân tạo (neural network)… Ngƣời ta cịn gọi phân lớp là học cĩ giám sát ( học cĩ thầy).

* Phân cụm (clustering): xếp các đối tƣợng theo từng cụm (số lƣợng cũng nhƣ tên của cụm chƣa đƣợc biết trƣớc). Ngƣời ta cịn gọi phân cụm là học khơng giám sát ( học khơng thầy).

* Khai phá chuỗi (sequential/ temporal patterns): tƣơng tự nhƣ khai phá luật kết hợp nhƣng cĩ thêm tính thứ tự và tính thời gian. Hƣớng tiếp cận này đƣợc ứng dụng nhiều trong lĩnh vực tài chính và thị trƣờng chứng khốn vì nĩ cĩ tính dự báo cao.

2.4 Những thách thức và khĩ khăn trong khai phá dữ liệu.

2.4.1. Những thách thức trong khai phá dữ liệu.

- Chƣa cĩ những hệ thống giao diện lập trình ứng dụng API chuẩn nên tạo ra những khĩ khăn cho các kỹ sƣ tích hợp, phát triển ứng dụng.

- Yêu cầu kỹ sƣ phải cĩ nền tảng tốn vững chắc trong khi đa số các kỹ sƣ chỉ thành thạo với các kỹ thuật cơ sở dữ liệu, ngơn ngữ lập trình...

- Tiếp tục là những thách thức về nguồn nhân lực: Phân tích dữ liệu ngày càng trở nên quan trọng, tuy nhiên hầu hết những kỹ sƣ vẫn chƣa hiểu và thành thạo các kỹ thuật phân tích dữ liệu.

- Những hạn chế của các thuật tốn: Hầu hết các thuật tốn đều khá là tổng quát, nĩ sinh ra nhiều luật. Mặc dù các luật sinh ra đa số đều hữu ích nhƣng ta vẫn phải đo độ đáng quan tâm của các mẫu nên vẫn cần sự can thiệp của các chuyên gia nghiệp vụ. Nhiều lĩnh vực mới, ví dụ nhƣ phân tích chuỗi DNA trong cơng nghệ sinh học hiện vẫn chƣa tìm đƣợc thuật tốn chuyên dụng hiệu quả, đang là những đề tài mở để nghiên cứu.

2.4.2. Những khĩ khăn trong khai phá dữ liệu. 2.4.2.1 Các vấn đề về cơ sở dữ liệu 2.4.2.1 Các vấn đề về cơ sở dữ liệu

Đầu vào chủ yếu của một hệ thống khai thác tri thức là các dữ liệu thơ trong cơ sở phát sinh trong khai phá dữ liệu chính là từ đây. Do các dữ liệu trong thực tế thƣờng động, khơng đầy đủ, lớn và bị nhiễu. Trong những trƣờng hợp khác, ngƣời ta khơng biết cơ sở dữ liệu cĩ chứa các thơng tin cần thiết cho việc khai thác hay khơng và làm thế nào để giải quyết với sự dƣ thừa những thơng tin khơng thích hợp này.

* Dữ liệu lớn: Cho đến nay, các cơ sở dữ liệu với hàng trăm trƣờng và bảng, hàng triệu bản ghi và với kích thƣớc đến gigabytes đã là chuyện bình thƣờng. Hiện nay đã bắt đầu xuất hiện các cơ sở dữ liệu cĩ kích thƣớc tới terabytes. Các phƣơng pháp giải quyết hiện nay là đƣa ra một ngƣỡng cho cơ sở dữ liệu, lấu mẫu, các phƣơng pháp xấp xỉ, xử lý song song.

* Kích thước lớn: khơng chỉ cĩ số lƣợng bản ghi lớn mà số các trƣờng trong cơ sở dữ liệu cũng nhiều. Vì vậy mà kích thƣớc của bài tốn trở nên lớn hơn. Một tập dữ liệu cĩ kích thƣớc lớn sinh ra vấn đề làm tăng khơng gian tìm kiếm mơ hình suy diễn. Hơn nữa, nĩ cũng làm tăng khả năng một giải thuật khai phá dữ liệu cĩ thể tìm thấy các mẫu giả. Biện pháp khắc phục là làm giảm kích thƣớc tác động của bài tốn và sử dụng các tri thức biết trƣớc để xác định các biến khơng phù hợp.

* Dữ liệu động: Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là nội dung của chúng thay đổi liên tục. Dữ liệu cĩ thể thay đổi theo thời gian và việc khai phá dữ liệu cũng bị ảnh hƣởng bởi thời điểm quan sát dữ liệu. Ví dụ trong cơ sở dữ liệu về tình trạng bệnh nhân, một số giá trị dữ liệu là hằng số, một số khác lại thay đổi liên tục theo thời gian (ví dụ cân nặng và chiều cao), một số khác lại thay đổi tùy thuộc vào tình huống và chỉ cĩ giá trị đƣợc quan sát mới nhất là đủ (ví dụ nhịp đập của mạch). Vậy thay đổi dữ liệu nhanh chĩng cĩ thể làm cho các mẫu khai thác đƣợc trƣớc đĩ mất giá trị. Hơn nữa, các biến trong cơ sở dữ liệu của ứng dụng đã cho cũng cĩ thể bị thay đổi, bị xĩa hoặc là tăng lên theo thời gian. Vấn đề này đƣợc giải quyết bằng các giải pháp tăng trƣởng để nâng cấp các mẫu và coi những thay đổi nhƣ là cơ hội để khai thác bằng cách sử dụng nĩ để tìm kiếm các mẫu bị thay đổi.

* Các trường khơng phù hợp: Một đặc điểm quan trọng khác là tính khơng thích hợp của dữ liệu, nghĩa là mục dữ liệu trở thành khơng thích hợp với trọng tâm hiện tại của việc khai thác. Một khía cạnh khác đơi khi cũng liên quan đến độ phù hợp là tính ứng dụng của một thuộc tính đối với một tập con của cơ sở dữ liệu. Ví dụ trƣờng số tài khoản Nostro khơng áp dụng cho các tác nhân.

* Các giá trị bị thiếu: Sự cĩ mặt hay vắng mặt của giá trị các thuộc tính dữ liệu phù hợp cĩ thể ảnh hƣởng đến việc khai phá dữ liệu. Trong hệ thống tƣơng tác, sự thiếu vắng dữ liệu quan trọng cĩ thể dẫn đến việc yêu cầu cho giá trị của nĩ hoặc kiểm tra để xác định giá trị của nĩ. Hoặc cũng cĩ thể sự vắng mặt của dữ liệu đƣợc coi nhƣ một điều kiện, thuộc tính bị mất cĩ thể đƣợc coi nhƣ một giá trị trung gian và là giá trị khơng biết.

* Các trường bị thiếu: Một quan sát khơng đầy đủ cơ sở dữ liệu cĩ thể làm cho các dữ liệu cĩ giá trị bị xem nhƣ cĩ lỗi. Việc quan sát cơ sở dữ liệu phải phát hiện đƣợc tồn bộ các thuộc tính cĩ thể dùng để giải thuật khai phá dữ liệu cĩ thể áp dụng nhằm giải quyết bài tốn. Giả sử ta cĩ các thuộc tính để phân biệt các tình huống đáng quan tâm. Nếu chúng khơng làm đƣợc điều đĩ thì cĩ nghĩa là đã cĩ lỗi trong dữ liệu. Đối với một hệ thống học để chuẩn đốn bệnh sốt rét từ một cơ sở dữ liệu bệnh nhân thì trƣờng hợp các bản ghi của bệnh nhân cĩ triệu chứng giống nhau nhƣng lại cĩ các chẩn đốn khác nhau là do trong dữ liệu đã bị lỗi. Đây cũng là vấn đề thƣờng xảy ra trong cơ sở dữ liệu kinh doanh. Các thuộc tính quan trọng cĩ thể sẽ bị thiếu nếu dữ liệu khơng đƣợc chuẩn bị cho việc khai phá dữ liệu.

* Độ nhiễu và khơng chắc chắn: Đối với các thuộc tính đã thích hợp, độ nghiêm trọng của lỗi phụ thuộc vào kiểu dữ liệu của các giá trị cho phép. Các giá trị của các thuộc tính khác nhau cĩ thể là các số thực, số nguyên, chuỗi và cĩ thể thuộc vào tập các giá trị định danh. Các giá trị định danh này cĩ thể sắp xếp theo thứ tự từng phần hoặc đầy đủ, thậm chí cĩ thể cĩ cấu trúc ngữ nghĩa.

Một yếu tố khác của độ khơng chắc chắn chính là tính kế thừa hoặc độ chính xác mà dữ liệu cần cĩ, nĩi cách khác là độ nhiễu trên các phép đo và phân tích cĩ ƣu tiên, mơ hình thống kê mơ tả tính ngẫu nhiên đƣợc tạo ra và đƣợc sử dụng để định nghĩa độ mong muốn và độ dung sai của dữ liệu. Thƣờng thì các mơ hình thống kê đƣợc áp dụng theo cách đặc biệt để xác định một cách chủ quan các thuộc tính để đạt đƣợc các thống kê và đánh giá khả năng chấp nhận của các (hay tổ hợp các) giá trị thuộc tính. Đặc biệt là với dữ liệu kiểu số, sự đúng đắn của dữ liệu cĩ thể là một yếu tố trong việc khai phá. Ví dụ nhƣ trong việc đo nhiệt độ cơ thể, ta thƣờng cho phép chênh lệch 0.1 độ.

Nhƣng việc phân tích theo xu hƣớng nhạy cảm nhiệt độ của cơ thể lại yêu cầu độ chính xác cao hơn. Để một hệ thống khai thác cĩ thể liên hệ đến xu hƣớng này để chuẩn đốn thì lại cần cĩ một độ nhiễu trong dữ liệu đầu vào.

* Mối quan hệ phức tạp giữa các trường: Các thuộc tính hoặc các giá trị cĩ cấu trúc phân cấp, các mối quan hệ giữa các thuộc tính và các phƣơng tiện phức tạp

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu (Trang 34)

Tải bản đầy đủ (PDF)

(70 trang)