Mơ hình hồi quy phi tuyến tính

2.2.1.4. Hồi quy phi tuyến đa biến

Hồi quy phi tuyến tính đa biến đề cập đến hồi quy phi tuyến với hai hoặc nhiều yếu tố dự đoán ( 1, 2, … , ). Khi sử dụng nhiều dự đoán, mối quan hệ phi tuyến khơng thể được hình dung trong khơng gian hai chiều.

Các kỹ thuật phân tích hồi quy rất hữu ích trong khoa học dữ liệu và thuật ngữ "hồi quy logistic" (logistic regression), xuất hiện gần như ở mọi khía cạnh trong lĩnh vực này. Điều này, đặc biệt đúng với trường hợp do tính hữu ích và sức mạnh của mạng nơ-ron sử dụng kỹ thuật dựa vào hồi quy để tạo ra những chức năng phức tạp mà bắt chước chức năng của bộ não người.

2.2.2. Kết hợp (Association)

Phát hiện quy tắc kết hợp là một phương pháp mơ tả quan trọng trong khai thác dữ liệu [11]. Đó là một phương pháp rất đơn giản, nhưng được đánh cao về mức độ thông

minh và đưa ra kết quả dự đốn chính xác. Kỹ thuật của phương pháp là phát hiện và tìm ra trong tập dữ liệu cần khai phá những mối liên hệ giữa các giá trị [11]. Đầu ra của phương pháp này là tập luật kết hợp tìm được từ tập dữ liệu ban đầu [11].

Ví dụ, những khách hàng mua ngũ cốc tại cửa hàng tạp hóa thường sẽ mua kèm sữa. Trong thực tế, phân tích kết hợp có thể tìm ra 85% các lần kiểm tra hành vi mua sắm của khác hàng mua ngũ cốc sẽ bao gồm sữa.

2.2.3. Phân lớp (Classification)

Phân lớp là một kỹ thuật khai phá dữ liệu mà gán các mục trong một bộ dữ liệu để nhằm mục tiêu phân loại [11]. Mục tiêu của phân lớp là dự đốn chính xác lớp mục tiêu cho từng trường hợp dữ liệu.

Một kỹ thuật phân lớp bắt đầu với một tập dữ liệu trong đó các phép gán lớp được biết. Ví dụ, một mơ hình phân lớp dự đốn rủi ro tín dụng có thể được phát triển dựa trên dữ liệu quan sát của nhiều người nộp đơn vay trong một khoảng thời gian. Ngồi xếp hạng tín dụng lịch sử, dữ liệu cịn theo dõi lịch sử việc làm, quyền sở hữu nhà hoặc cho thuê, số năm cư trú, số lượng và loại hình đầu tư, v.v… Xếp hạng tín dụng sẽ là mục tiêu, các thuộc tính khác sẽ là các yếu tố dự báo và dữ liệu cho từng khách hàng sẽ tạo thành một trường hợp.

2.2.4. Phân cụm (Clustering)

Phân cụm cơ sở dữ liệu là tương tự như phân lớp, nghĩa là chúng ta xác định các yếu tố trong một tập dữ liệu có đặc điểm chung và nhóm chúng lại với nhau dựa trên những đặc điểm chung này [11]. Sự khác biệt với phân cụm, chúng ta để các thuật tốn xác định các nhóm dựa vào lựa chọn một hoặc thậm chí tất cả các dữ liệu có sẵn, trong khi với phân lớp chúng ta đã có các nhóm được định nghĩa. Sự khác biệt này cũng được xác định là có giám sát (phân lớp) so với khơng có giám sát (phân cụm).

Phân cụm là kỹ thuật tìm ra các cụm dữ liệu có đặc điểm tương tự nhau trong tập dữ liệu cần khai phá. Các thành viên của một cụm giống nhau hơn so với các thành viên của các cụm khác. Mục đích của phân cụm là tìm các cụm chất lượng cao sao cho độ tương đồng giữa các cụm thấp và tương đồng của dữ liệu trong cụm cao. Phân cụm hữu ích cho việc khám phá dữ liệu. Nếu có nhiều trường hợp dữ liệu khơng có nhóm rõ ràng, thuật tốn phân cụm có thể được sử dụng để tìm nhóm tự nhiên. Phân cụm cũng có thể phục vụ như là một bước tiền xử lý dữ liệu hữu ích để xác định các nhóm thuần nhất và xây dựng các mơ hình được giám sát.

2.3. Dữ liệu chuỗi thời gian (time series data)

Dữ liệu trong khai phá dữ liệu gồm nhiều loại: dữ liệu bảng (table data), dữ liệu chéo (cross sectional data), dữ liệu chuỗi thời gian,… Định hướng phân tích của luận văn trên tập dữ liệu của Google Flu Trends là dạng dữ liệu chuỗi thời gian, tập dữ liệu này ghi nhận về diễn biến dịch cúm của các nước trên thế giới từ năm 2003 – 2015,

nên luận văn giới thiệu kiểu dữ liệu chuỗi thời gian.

Dữ liệu chuỗi thời gian là chuỗi các giá trị đo một đại lượng nào đó và giá trị đó được ghi nhận theo diễn biến thời gian. Chúng ta có thể hiểu chuỗi dữ liệu thời gian là một dãy các vector hoặc một dãy các giá trị phụ thuộc vào các mốc thời gian:

{ ( 0), ( 1), ( 2), … , ( −1), ( ), ( +1), … }. Việc phân tích dữ liệu chuỗi thời gian chính là việc tìm ra mối liên hệ giữa P và tương ứng với giá trị ( ), ta

có cơng

thức như sau: → ( ).

Ta thấy nhiều ví dụ về dữ liệu chuỗi thời gian như: số lượng người mắc cúm diễn biến theo thời gian, số liệu thu nhập bình quân đầu người của Việt Nam diễn biến qua nhiều năm,..… Có thể chia dữ liệu chuỗi thời gian thành hai dạng: rời rạc và liên tục. Các chuỗi dữ liệu có thời gian khơng liền mạch kéo theo dữ liệu khơng liền mạch đó là chuỗi dữ liệu rời rạc. Với dữ liệu đảm bảo tính liên tục, t là các mốc thời gian và ( ) là các dữ liệu tương ứng với thời gian t đó là chuỗi dữ liệu liên tục.

Với đặc điểm của tập dữ liệu dịch bệnh cúm do Google Flu Trends là các số liệu được ghi nhận theo diễn biến thời gian, và giá trị các số liệu chỉ có một thuộc tính duy nhất là số ca mắc cúm. Sự tương quan của các dữ liệu trong tập dữ liệu ở đây là sự biến đổi dữ liệu theo thời gian. Chính vì vậy, qua phân tích chi tiết các phương pháp khai phá dữ liệu ở phần trên, luận văn quyết định lựa chọn phương pháp phân tích hồi quy trên tập dữ liệu thời gian (time series regression), với hai đặc tính của hai biến: biến độc lập và biến phụ thuộc, được thể hiện tương quan giữa thời gian và số ca mắc cúm tại thời điểm tương ứng.

2.4. Các công cụ, phần mềm hỗ trợ khai phá dữ liệu

Các phần mềm hỗ trợ khai phá dữ liệu rất đa dạng, trong phạm vi luận văn này chỉ đề cập tới một số phần mềm đang thông dụng, đang sử dụng rộng rãi. Trên cơ sở đó, nghiên cứu, lựa chọn một công cụ phù hợp và áp dụng trên tập dữ liệu dịch bệnh cúm do Google Flu Trends công bố. Các công cụ đã được luận văn nghiên cứu đề cập:

- Phần mềm Weka;

- Phần mềm phân tích số liệu SPSS; - Phần mềm phân tích thống kê R.

2.4.1. Phân tích số liệu bằng phần mềm Weka

Weka (viết tắt của Waikato Environment for Knowledge Analysis) là một công cụ khai thác dữ liệu ban đầu được phát triển tại Đại học Waikato tại New Zealand [12]. Weka bắt đầu như là một dự án chính phủ tài trợ vào năm 1993 [12]. Mặc dù Pentaho đã thông qua các công cụ Weka làm công cụ khai thác dữ liệu của nó, nó chỉ là một phần của nền tảng BI. Việc tích hợp trong nền tảng Pentaho được giới hạn một plugin đặc biệt cho Kettle để gọi một thuật toán điểm Weka. Năm 1996, phiên bản đầu tiên đã được phát hành vào năm 1999 và phiên bản 3 (100% được viết bằng Java) đã được

phát hành. Phiên bản hiện tại 3.6 là một bản phát hành nâng cấp vẫn dựa trên mã 3.0, làm Weka có lẽ là phần trưởng thành hầu hết các nền tảng Pentaho BI.

Giao diện phần mềm weka

Giao diện phần mềm R