5. Phƣơng pháp nghiên cứu:
3.1.1. Khái niệm phân lớp
3.1.1.1. Khái niệm
Phân lớp dữ liệu là kỹ thuật dựa trên tập huấn luyện và những giá trị hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nĩ trong việc phân lớp dữ liệu mới. Phân lớp cũng là tiên đốn loại lớp của nhãn. Bên cạnh kỹ thuật phân lớp cĩ một hình thức tƣơng tự là kỹ thuật tiên đốn, kỹ thuật tiên đốn khác với phân lớp ở chỗ phân lớp chỉ liên quan đến tiên đốn loại lớp của nhãn cịn kỹ thuật tiên đốn mơ hình những hàm đánh giá liên tục. Kỹ thuật phân lớp đƣợc tiến hành bao gồm 2 bƣớc: Xây dựng mơ hình và sử dụng mơ hình.
Xây dựng mơ hình: là mơ tả một tập những lớp đƣợc định nghĩa trƣớc trong đĩ: mỗi bộ hoặc mẫu đƣợc gán thuộc về một lớp đƣợc định nghĩa trƣớc nhƣ là đƣợc xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ đƣợc sử dụng trong việc sử dụng mơ hình đƣợc gọi là tập huấn luyện. Mơ hình đƣợc biểu diễn là những luật phân lớp, cây quyết định và những cơng thức tốn học.
Sử dụng mơ hình: Việc sử dụng mơ hình phục vụ cho mục đích phân lớp dữ liệu trong tƣơng lai hoặc phân lớp cho những đối tƣợng chƣa biết đến. Trƣớc khi sử dụng mơ hình ngƣời ta thƣờng phải đánh giá tính chính xác của mơ hình trong đĩ nhãn đƣợc biết của mẫu kiểm tra đƣợc so sánh với kết quả phân lớp của mơ hình, độ chính xác là phần trăm của tập hợp mẫu kiểm tra mà phân loại đúng bởi mơ hình, tập kiểm tra là độc lập với tập huấn luyện.
Thực tế đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thơng tin ẩn, con ngƣời cĩ thể trích rút ra các quyết định nghiệp vụ thơng minh. Phân lớp và dự đốn là hai dạng của phân tích dữ liệu nhằm trích rút ra một mơ hình mơ tả các lớp dữ liệu quan trọng hay dự đốn xu hƣớng dữ liệu tƣơng lai. Phân lớp dự đốn giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), cĩ nghĩa là phân lớp thao tác với những đối tƣợng dữ liệu mà cĩ bộ giá trị là biết trƣớc. Trong khi đĩ, dự đốn thì xây dựng lại mơ hình với các hàm nhận giá trị liên tục.
Ví dụ: Mơ hình phân lớp dự báo thời tiết cĩ thể cho biết thời tiết ngày mai là mƣa hay nắng dựa vào những thơng số độ ẩm, sức giĩ, nhiệt độ,… của ngày hơm nay và ngày trƣớc đĩ. Hay nhờ vào các luật về xu hƣớng mua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh cĩ thể ra những quyết sách đúng đắn về lƣợng mặt hàng cũng nhƣ chủng loại bày bán. Một mơ hình dự đốn cĩ thể dự đốn đƣợc lƣợng tiền tiêu dùng của khách hàng tiềm năng dựa trên những thơng tin về thu nhập và nghề nghiệp của khách hàng.
Trong những năm qua phân lớp dữ liệu đã thu hút sự quan tâm của các nhà nghiên cứu trong nhiều lĩnh vực khác nhau nhƣ học máy (machine learning), hệ chuyên gia (expertsystem), thống kê (statistics)… Cơng nghệ này cũng đã ứng dụng trong nhiều lĩnh vực khác nhau nhƣ: thƣơng mại, nhà băng, kinh doanh, nghiên cứu thị trƣờng, bảo hiểm, y tế, giáo dục …. Phần lớn các thuật tốn ra đời trƣớc đều sử dụng cơ chế dữ liệu cƣ trú trong bộ nhớ (memory resident), thƣờng thao tác với lƣợng dữ liệu nhỏ. Một số thuật tốn ra đời sau này đã sử dụng kỹ thuật cƣ trú trên đĩa cải thiện đáng kể khả năng mở rộng của thuật tốn với tập dữ liệu lớn lên tới hàng tỉ bản ghi.
3.1.1.2. Mục đích của phân lớp
Cĩ nhiều lý do mà tại sao chúng ta xây dựng mơ hình học phân lớp, ở đây chúng ta giới thiệu tĩm tắt một số ví dụ:
- Nhanh hơn: Chẳng hạn trong việc đọc mã bƣu điện bằng máy để cĩ thể sắp xếp và phân loại thƣ từ, tránh khĩ khăn cho nhân viên.
- Xác định độ rủi ro trong các đơn xin vay tiền: dựa vào thơng tin khách hàng vay tiền, chúng ta cĩ thể xếp khách hàng xin vay tiền vào nhĩm khách hàng cĩ độ rủi ro cao, thấp hay bình thƣờng để cĩ thể đƣa ra quyết định đúng đắn.
- Xác định đƣợc mức độ, tỉ lệ phần trăm lƣợng thơng tin rác khi hệ thống tiếp nhận thƣ.
- Trong lĩnh vực y khoa, chúng ta hy vọng là tránh đƣợc các phẫu thuật do chẩn đốn sai lầm, do vậy một hệ thống chẩn đốn độc lập, đáng tin cậy dựa vào các triệu chứng bên ngồi là rất cần thiết.
- Dự đốn trƣớc để đƣa ra các quyết định đầu tƣ tín dụng hay mua bán chứng khốn.
3.1.1.3. Các tiêu chí để đánh giá thuật tốn phân lớp
Trong từng ứng dụng cụ thể cần lựa chọn mơ hình phân lớp phù hợp. Việc lựa chọn phải dựa trên căn cứ so sánh các mơ hình phân lớp với nhau theo các tiêu chuẩn sau:
- Độ chính xác dự đốn (predictive accuracy): Độ chính xác là khả năng của mơ hình để dự đốn chính xác nhãn lớp của dữ liệu mới hay dữ liệu chƣa biết.
- Tốc độ (speed): Tốc độ là những chi phí tính tốn liên quan đến quá trình tạo ra và sử dụng mơ hình.
- Sức mạnh (robustness): Sức mạnh là khả năng mơ hình tạo ra những dự đốn đúng từ những dữ liệu nhiễu hay dữ liệu với những giá trị đặc biệt.
- Khả năng mở rộng (scalability): Khả năng mở rộng là khả năng thực thi hiệu quả trên lƣợng lớn dữ liệu của mơ hình đã học.
- Tính hiểu đƣợc (interrpretability): Tính hiểu đƣợc là mức độ hiểu và hiểu rõ những kết quả sinh ra bởi mơ hình đã học.
- Tính đơn giản (simplicity): Tính đơn giản liên quan đến kích thƣớc của cây quyết định hay độ đo cơ đọng của các luật.
Trong các tiêu chuẩn trên, khả năng mở rộng của mơ hình phân lớp đƣợc nhấn mạnh và chú trọng phát triển, đặc biệt với cây quyết định.
3.1.1.4. Các phương pháp đánh giá độ chính xác của mơ hình phân lớp
Ƣớc lƣợng độ chính xác của bộ phân lớp là quan trọng ở chỗ nĩ cho phép dự đốn đƣợc độ chính xác của các kết quả phân lớp những dữ liệu tƣơng lai. Độ chính xác cịn giúp so sánh các mơ hình phân lớp khác nhau. Luận văn này sẽ đề cập đến hai phƣơng pháp đánh giá phổ biến là holdout và k-fold cross-validation. Cả hai kỹ thuật này đều dựa trên các phân hoạch ngẫu nhiên tập dữ liệu ban đầu. Trong phƣơng pháp holdout, dữ liệu đƣa ra đƣợc phân chia ngẫu nhiên thành hai phần: tập dữ liệu đào tạo và tập dữ liệu kiểm tra. Thơng thƣờng 2/3 dữ liệu cấp cho tập dữ liệu đào tạo, phần cịn lại cấp cho tập dữ liệu kiểm tra.
Hình 3.1 Ước lượng độ chính xác mơ hình phân lớp với phương pháp holduot
Trong phƣơng pháp k-fold cross-validation tập dữ liệu ban đầu đƣợc chia ngẫu nhiên thành k tập con (fold) cĩ kích thƣớc xấp xỉ nhau S1, S2, … Sk. Quá trình học và kiểm tra đƣợc thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ liệu kiểm tra, các tập cịn lại đƣợc hợp thành tập dữ liệu đào tạo. Cĩ nghĩa là, đầu tiên việc dạy đƣợc thực hiện trên các tập S2,S3,….., Sk, sau đĩ kiểm tra trên tập S1; tiếp tục quá trình dạy đƣợc thực hiện trên tập S1, S3, S4,…., Sk, sau đĩ kiểm tra trên tập S2; và cứ tiếp tục. Độ chính xác là tồn bộ số phân lớp đúng từ k lần lặp chia tổng số mẫu của tập dữ liệu ban đầu.
3.1.2 Phân lớp dựa trên phương pháp học Nạve bayes 3.1.2.1. Giới thiệu
Phân lớp dựa trên phƣơng pháp học Nạve Bayes là phƣơng pháp phân loại dựa vào xác suất đƣợc áp dụng nhiều nhất lĩnh vực học máy. Trong một số lĩnh vực
áp dụng thì khả năng của nĩ cĩ thể so sánh với các phƣơng pháp học khác nhƣ mạng nơron hoặc cây quyết định và Support vector machine.
Phân lớp dựa trên phƣơng pháp học Nạve Bayes đƣợc áp dụng cho quá trình học trong các trƣờng hợp mà ở đĩ mỗi thể hiện đƣợc mơ tả bởi một kết hợp các giá trị thuộc tính và hàm đích f(x) cĩ thể nhân bất kỳ giá trị nào trong tập hữu hạn V. Hàm đích đƣợc cung cấp một tập dữ liệu học cùng với một thể hiện mới với một bộ giá trị của các thuộc tính <a1,a2,…,an>. Bộ phân lớp sẽ đƣợc yêu cầu dự đốn giá trị hàm đích hoặc lớp của thể hiện mới này.
Cách tiếp cận để phân lớp một thể hiện mới là gán giá trị đích cĩ xác suất cao nhất VMAP cho thể hiện mới này.
(2.1) Chúng ta sử dụng định lý Bayes để viết lại nhƣ sau:
(2.2) Cĩ hai số hạng mà chúng ta cần phải dự đốn trong biểu thức (2.2), đĩ là P(vj) và P(a1,a2,…,an|vj).Chúng ta nhận thấy rằng cĩ thể dễ dàng đốn đƣợc mỗi P(vj) bằng cách đếm tần số xuất hiện của giá trị đích vj trong tập dữ liệu học. Tuy nhiên dự đốn các số hạng khác nhau P(a1,a2,…,an|vj). Theo cách này là khơng khả thi nếu chúng ta khơng cĩ tập dữ liệu học rất lớn. Vấn đề là ở chỗ số hạng này tƣơng đƣơng với số các thể hiện cĩ thể cĩ nhân với số các giá trị đích cĩ thể cĩ. Do vậy, chúng ta cần quan sát nhiều lần mọi thể hiện trong khơng gian thể hiện để cĩ đƣợc các kết quả dự đốn tin cậy.
3.1.2.2. Bộ phân lớp Nạve bayes
Bộ phân lớp Nạve Bayes dựa trên việc đơn giản hĩa giả định ban đầu là các giá trị thuộc tính độc lập điều kiện với giá trị đích cho trƣớc. Nĩi cách khác, chúng
ta giả sử rằng với giá trị đích cho trƣớc của một thể hiện, xác suất của bộ kết hợp quan sát đƣợc a1,a2,…,an chỉ là tích của các khả năng đối với các thuộc tính riêng biệt: P(a1,a2,…,an|vj)= iP(ai | vi ). Sử dụng đẳng thức này để thay thế vào đẳng thức (2.2), chúng ta sẽ cĩ cách tiếp cận đƣợc sử dụng bởi bộ phân lớp Nạve Bayes.
(2.3)
Trong đĩ, VNB: giá trị đích đƣợc cho bởi bộ phân lớp Nạve Bayes. Lƣu ý rằng trong bộ phân lớp Nạve bayes số lƣợng các số hạng phân biệt P(ai|vj) cần phải đƣợc dự đốn từ tập dữ liệu học chỉ là số các giá trị riêng biệt của thuộc tính nhân với số các giá trị đích riêng biệt (một số nhỏ hơn nhiều so với cách ƣớc đốn các số hạng P(a1,a2,…,an|vj) nhƣ trƣớc đây.
Tĩm lại, bộ phân lớp Nạve Bayes liên quan đến một bƣớc học mà trong đĩ các số hạng P(vj) và P(a1,a2,…,an|vj) đƣợc ƣớc đốn dựa trên tần số xuất hiện của chúng trên tồn bộ tập dữ liệu học. Tập các dự đốn này tƣơng ứng với kết luận đƣợc học. Kết luận này sau đĩ đƣợc sử dụng để phân lớp thể hiện mới bằng cách áp dụng luật (2.3). Bất kỳ khi nào giả định của Nạve Bayes các điều kiện độc lập đƣợc thỏa mãn thì phân lớp Nạve Bayes VNB đồng nhất với phân lớp MAP. Một ƣu điểm của phƣơng pháp Nạve Bayes so với các phƣơng pháp học khác là phƣơng pháp Nạve Bayes khơng cĩ sự tìm kiếm khơng rõ ràng nào trong khơng gian các giả định cĩ thể cĩ.
3.1.3 Phân lớp dựa trên cây quyết định (Decision Tree) 3.1.3.1. Khái niệm cây quyết định 3.1.3.1. Khái niệm cây quyết định
Cây quyết định (Decision Tree) là một cây phân cấp cĩ cấu trúc đƣợc dùng để phân lớp các đối tƣợng dựa vào dãy các luật (Series of rules). Các thuộc tính của đối tƣợng (ngoại trừ thuộc tính phân lớp –Category attribute) cĩ thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, Ordinal, Quantitative values) trong khi đĩ thuộc tính phân lớp phải cĩ kiểu dữ liệu là Binary (nhị phân) hoặc Ordinal (thứ tự).
Việc xây dựng cây quyết định đƣợc tiến hành một cách đệ qui, lần lƣợt từ nút gốc xuống tới tận nút lá. Tại mỗi nút hiện hành đang xét, nếu kiểm tra thấy thỏa điều kiện dừng: thuật tốn sẽ tạo nút lá. Nút này đƣợc gán một giá trị của nhãn lớp
tùy điều kiện dừng đƣợc thỏa. Ngƣợc lại, thuật tốn tiến hành chọn điểm chia tốt nhất theo một tiêu chí cho trƣớc, phân chia dữ liệu hiện hành theo điều kiện chia này. Lƣu ý dữ liệu hiện hành khơng phải hồn tồn là tập dữ liệu ngay khi bắt đầu thuật tốn, cĩ thể là tập dữ liệu đã đƣợc phân chia theo điều kiện chia của nút liền trƣớc đĩ (nút cha).
3.1.3.2. Giải thuật qui nạp cây quyết định (ID3)
Giải thuật quy nạp cây quyết định (gọi tắt là ID3) là một giải thuật học đơn giản nhƣng tỏ ra thành cơng trong nhiều lĩnh vực. ID3 là một giải thuật hay vì cách biểu diễn tri thức học đƣợc của nĩ, tiếp cận của nĩ trong việc quản lý tính phức tạp, khám phá của nĩ dùng cho việc chọn lựa các khái niệm ứng viên, và tiềm năng của nĩ đối với việc xử lý dữ liệu nhiễu. ID3 biểu diễn các khái niệm (concept) ở dạng các cây quyết định (decision tree). Biểu diễn này cho phép chúng ta xác định phân loại của một đối tƣợng bằng cách kiểm tra các giá trị của nĩ trên một số thuộc tính nào đĩ. Nhƣ vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các ví dụ rèn luyện (Training example) hay cịn gọi là dữ liệu rèn luyện (Training data). Hay nĩi khác hơn, giải thuật cĩ:
- Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mơ tả một tình huống, hay một đối tƣợng nào đĩ, và một giá trị phân loại của nĩ.
- Đầu ra: Cây quyết định cĩ khả năng phân loại đúng đắn các ví dụ trong tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chƣa gặp trong tƣơng lai.
Giải thuật cơ bản (giải thuật tham lam) được chia thành các bước như sau:
- Cây đƣợc xây dựng đệ qui từ trên xuống dƣới (top-down) và theo cách thức chia để trị (divide-conquer).
- Ở thời điểm bắt đầu, tất cả những ví dụ huấn luyện ở gốc.
- Thuộc tính đƣợc phân loại (nếu là giá trị liên tục chúng đƣợc rời rạc hĩa).
- Những ví dụ huấn luyện đƣợc phân chia đệ qui dựa trên thuộc tính mà nĩ chọn lựa. - Kiểm tra những thuộc tính đƣợc chọn dựa trên nền tảng của heristic (khám phá) hoặc của một định lƣợng thống kê.
Điều kiện để dừng việc phân chia:
- Tất cả những mẫu huấn luyện đối với một node cho trƣớc thuộc về cùng một lớp. - Khơng cịn thuộc tính cịn lại nào để phân chia tiếp.
- Khơng cịn mẫu nào cịn lại.
3.1.3.3. Độ lợi thơng tin (Information Gain) trong cây quyết định
Độ lợi thơng tin là đại lƣợng đƣợc sử dụng để chọn lựa thuộc tính với độ lợi thơng tin lớn nhất. Giả sử cĩ hai lớp, P và N. Cho tập hợp của những ví dụ S chứa p phần tử của lớp P và n phần tử của lớp N. Khối lƣợng của thơng tin, cần để quyết định nếu những mẫu tùy ý trong S thuộc về P hoặc N đƣợc định nghĩa nhƣ là:
I(p,n) = -[p/(p+n)] [p/(p+n)] –[n/(p+n)] [n/(p+n)]
Giả sử rằng sử dụng thuộc tính A một tập hợp S đƣợc phân hoạch thành những tập hợp {S1,S2,..,Sv}. Nếu Si chứa những mẫu của P và ni mẫu của Ni entropy hoặc thơng tin mong đợi cần để phân loại những đối tƣợng trong cây con Si là:
Thơng tin nhận đƣợc ở nhánh A là: Gain(A) = I(p,n)-E(A)
3.1.3.4. Nội dung giải thuật học cây quyết định cơ bản ID3
ID3 là một giải thuật học cây quyết định đƣợc phát triển bởi Ross Quinlan (1983). Ý tƣởng cơ bản của giải thuật ID3 là để xây dựng cây quyết định bằng việc sử dụng một cách tìm kiếm từ trên xuống trên những tập hợp cho trƣớc để kiểm tra mỗi thuộc tính tại mỗi nút của cây. Để chọn ra thuộc tính là hữu ích nhất cho sự phân loại trên những tập hợp cho trƣớc, chúng ta sẽ đƣa ra một hệ số độ lợi thơng tin.
Để tìm ra một cách tối ƣu để phân loại một tập hợp thơng tin, vấn đề đặt ra là chúng ta cần phải làm tối thiểu hĩa (chẳng hạn, tối thiểu chiều cao của cây). Nhƣ vậy chúng ta cần một số chức năng mà cĩ thể đánh giá trƣờng hợp nào cho ra một sự phân chia cân bằng nhất. Hệ số độ lợi thơng tin sẽ là hàm nhƣ vậy.
ID3 ( Learning Sets S, Attributes Sets A, Attributesvalues V) Return Decision Tree.