1. Trang chủ
  2. » Thể loại khác

ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP CHO SINH VIÊN TẠI TRƯỜNG ĐẠI HỌC QUẢNG BÌNH LUẬN VĂN THẠC SĨ KỸ THUẬT

79 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 6,28 MB

Nội dung

ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP CHO SINH VIÊN TẠI TRƯỜNG ĐẠI HỌC QUẢNG BÌNH Học viên: Lê Quốc Hoàng Chuyên ngành: Khoa học m y tính Mã số: 0.. Việc tự xây dựng một

Trang 1

ĐẠI HỌC ĐÀ NẴNG

ĐẠI HỌC BÁCH KHOA ĐÀ NẴNG

LÊ QUỐC HOÀNG

ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU ĐỂ

TƯ VẤN HỌC TẬP CHO SINH VIÊN TẠI

TRƯỜNG ĐẠI HỌC QUẢNG BÌNH

Chuyên ngành:Khoa học máy tính

Mã số:8480101

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: TS PHẠM XUÂN HẬU

Đà Nẵng - Năm 2018

Trang 2

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của TS Phạm Xuân Hậu

Mọi tham khảo dùng trong luận văn được trích dẫn rõ ràng và trung thực về tên tác giả, tên công trình, thời gian và địa điểm công bố

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn trách nhiệm

Tác giả

Lê Quốc Hoàng

Trang 3

TRANG BÌA

LỜI CAM ĐOAN

TRANG TÓM TẮT LUẬN VĂN

MỤC LỤC

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

DANH MỤC BẢNG

DANH MỤC CÁC H NH

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Tính cấp thiết của đề tài 2

3 Mục tiêu đề tài 2

Nội dung nghiên c u 3

5 Đối tượng và phạm vi nghiên c u 3

hư ng ph p nghiên c u 3

7 Ý nghĩa khoa học, tính khả thi của đề tài 3

8 Bố cục của luận văn 3

CHƯƠNG 1 TỔNG QUAN KHAI HÁ DỮ LIỆU 5

1.1 Giới thiệu 5

1.2 C c ng dụng của khai ph dữ liệu 5

1.3 C c bước của qu trình khai ph dữ liệu 6

1.4 C c phư ng ph p trong khai phá dữ liệu 7

1.4.1 hân lớp (classification) 7

1.4.2 Hồi qui (regression) 8

1.4.3 Phân nhóm (clustering) 8

1.4.4 Tổng hợp (summarization) 8

1.4.5 Mô hình ho sự phụ thuộc (dependency modeling) 8

1.4.6 h t hiện sự biến đổi và độ lệch (change and deviation dectection) 9

1.5 C c Kỹ thuật khai ph dữ liệu 9

1.5.1 C c thành phần của qu trình khai ph dữ liệu 10

1.5.2 Kỹ thuật suy diễn/quy nạp 11

1.5.3 Kỹ thuật ng dụng K-l ng giềng gần 12

1.5.4 Kỹ thuật sử dụng cây quyết định và luật 12

1.5.5 Kỹ thuật ph t hiện luật kết hợp 13

1.6 Những th ch th c trong nghiên c u và ng dụng kỹ thuật khai ph dữ liệu 14

1.7 Một số vấn đề th ch th c của khai ph dữ liệu 16

Trang 4

H NH DỰA TRÊN MẠNG NƠRON 18

2.1 Giới thiệu về mạng n ron nhân tạo 18

2.1.1 Kh i niệm 18

2.1.2 Lịch sử ph t triển của mạng n ron nhân tạo 18

2.2 Mạng n ron nhân tạo 20

2.2.1 Mô hình mạng n ron nhân tạo 20

2.2.2 hân loại cấu trúc mạng n ron nhân tạo 22

2.3 C c hình th c học của mạng n ron nhân tạo 26

2.3.1 Kh i niệm 26

2.3.2 Học có giám sát 26

2.3.3 Học không có gi m s t 28

2.3.4 Học tăng cường 28

2.4 Một số phư ng ph p huấn luyện mạng n ron nhân tạo: 32

2.5 Mô tả bài to n đào tạo tại Trường Đại học Quảng Bình 33

2.6 Áp dụng mô hình để tư vấn chọn môn học tự chọn CCNN dựa trên ANN 35

2.7 Phân tích bài toán 38

2.8 Áp dụng mô hình để tư vấn môn tự chọn cho sinh viên Đại học Quảng Bình 41

2.9 Huấn luyện mô hình bằng thuật to n lan truyền ngược 42

2.10 Kết luận 43

CHƯƠNG 3 HÁT TRIỂN ỨNG DỤNG 44

3.1 Thiết kế hệ thống 44

3.1.1 Ch c năng Quản lý User 44

3.1.2 Ch c năng xây dựng tập dữ liệu 47

3.1.3 Ch c năng dự b o kết quả 49

3.2 Công nghệ ng dụng trong đề tài 51

3.3 Chư ng trình thực nghiệm và kết quả 52

3.3.1 Môi trường cài đặt 52

3.3.2 Cấu trúc tập tin 52

3.3.3 Một số giao diện chính của hệ thống 52

3.3.4 Kết quả thực nghiệm 56

KẾT LUẬN VÀ HƯỚNG HÁT TRIỂN 59

TÀI LIỆU THAM KHẢO 61 QUYẾT Đ NH GIAO Đ TÀI LUẬN VĂN THẠC (BẢN AO)

BẢN AO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN AO NHẬN XÉT CỦA CÁC HẢN BIỆN

Trang 5

ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU ĐỂ TƯ VẤN HỌC TẬP

CHO SINH VIÊN TẠI TRƯỜNG ĐẠI HỌC QUẢNG BÌNH

Học viên: Lê Quốc Hoàng Chuyên ngành: Khoa học m y tính

Mã số: 0 8.01.01 Khóa: 3 Trường Đại học B ch khoa - ĐHĐN

Tóm tắt - Trong học chế tín ch , qu trình chọn môn học tự chọn của sinh viên được xem

là một hệ thống với nhiều đầu vào và một đầu ra, trong đó c c kết quả điểm tổng kết t ng môn học trong qu kh là đầu vào và kết quả điểm tổng kết của môn tự chọn là đầu ra Để giải quyết bài to n, luận văn tập trung vào nghiên c u tổng quan về khai ph dữ liệu cụ thể là c c phư ng ph p, kỹ thuật trong khai ph dữ liệu và ng dụng của khai ph dữ liệu, lựa chọn phư ng ph p để ng dụng cho đề tài T những nghiên c u về khai ph dữ liệu

t c giả đi sâu vào tìm hiểu thuật to n mạng n ron nhân tạo nhiều lớp, c c hình th c học

và phư ng ph p huấn luyện mạng n ron nhân tạo với giải thuật học lan truyền ngược có thể p dụng vào thực hiện ch c năng tư vấn môn tự chọn cho sinh viên dựa vào kết quả học tập c c k trước đó Và t đó tư vấn cho giảng viên, cố vấn học tập có thể chọn cho sinh viên hoặc sinh viên tự chọn cho mình môn tư chọn đạt kết quả cao nhất t đó chọn được học phần tự chọn phù hợp với năng lực sinh viên

Từ khóa – mạng n ron nhân tạo; khai ph dữ liệu; lan truyền ngược; tư vấn học tập; dự

b o kết quả

APPLICATION OF DATA MINING TECHINQUE TO RECOMMEND SUBJECTS FOR STUDENT AT QUANGBINH UNIVERSITY

Abstract - In the course credit, students’ seclecting an optional course is considered as a

system with multiple inputs and one output, in which the results of the final credits of each subject in the past are inputs and the final scores of the optional course are outputs To address the issue, the thesis focuses on studying data mining overview, namely methods, techniques in data mining and application of data mining, and selecting the method to apply for topic From the previous studies, the author emphasizes on getting a deep insight in data mining to the study of artificial neural network multiplicity algorithms, learning methods and methods of artificial neural network training with backpropagation algorithm that could be possibly applied to the reality It is a function of counseling electives for students based on the results of previous studies From then on, faculty advisors, learning adviser students can choose their own electives to achieve the highest results, thereby selecting the appropriate electives for the students

Key words - artificial neural networks; Data mining; back propagation; academic

counseling; Forecast results

Trang 6

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

Trang 7

Bảng 2.1 Chư ng trình đào tạo học k 1 33

Bảng 2.2 Học phần tự chọn trong học k tiếp theo 34

Bảng 2.3 Dữ liệu điểm môn tự chọn văn học 36

Bảng 2 Dữ liệu điểm môn tự chọn mỹ học 36

Bảng 2.5 Dữ liệu điểm môn tự chọn gi o dục dân số và môi trường 37

Bảng 2 Dữ liệu điểm của sinh cần tư vấn 38

Bảng 2.7 Học phần b t buộc học k 1 của ngành gi o dục mầm non 38

Bảng 2.8 Bảng tổng hợp kết quả học k 1 của sinh viên 39

Bảng 2.9 Học phần b t buộc học k 2 40

Bảng 2.10 Nhóm học phần tự chọn 40

Bảng 3.1 Kịch bản “Quản lý User” 45

Bảng 3.2 Kịch bản “xây dựng tập dữ liệu” 47

Bảng 3.3 Kịch bản “dự b o kết quả” 49

Trang 8

DANH MỤC CÁC HÌNH

Hình 1.1 Quy trình ph t hiện tri th c 6

Hình 2.1 Mô hình mạng n ron nhân tạo 21

Hình 2.2 Hàm dạng dấu 22

Hình 2.3 Hàm bước nhị phân 23

Hình 2.4 Hàm sigmoid 23

Hình 2.5 Mạng n ron truyền thẳng nhiều lớp 24

Hình 2 Mạng hồi qui 25

Hình 2.7 Mô hình dự b o kết quả học phần CCNN 37

Hình 2.8 Mô hình dự b o chọn môn tự chọn 42

Hình 3.1 Mô hình use case tổng qu t 44

Hình 3.2 Biểu đồ tuần tự của ch c năng Quản lý user 46

Hình 3.3 Biểu đồ tuần tự của cộng t c Quản lý user 47

Hình 3 Biểu đồ tuần tự của ch c năng xử lý dữ liệu 48

Hình 3.5 Biểu đồ cộng t c của ch c năng xây dựng tập dữ liệu 49

Hình 3 Biểu đồ tuần tự của ch c năng dự b o 50

Hình 3.7 Biểu đồ cộng t c của ch c năng dự b o 51

Hình 3.8 Màn hình chính 53

Hình 3.9 Ch c năng xử lý dữ liệu 53

Hình 3.10 Thông số mạng 54

Hình 3.11 Huấn luyện mạng 54

Hình 3.12 Kiểm thử dữ liệu 55

Hình 3.13 Dự b o cho sinh viên 55

Hình 3.1 Dự b o giảng viên/chuyên viên/cố vấn học tập 56

Trang 9

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm gần đây, khi công nghệ thông tin đang ngày càng ph t triển mạnh mẽ thì vấn đề khai ph dữ liệu đã và đang tr thành một trong những hướng nghiên c u chính trong lĩnh vực khoa học m y tính và công nghệ tri th c Khai ph dữ liệu được ng dụng thành công vào rất nhiều c c lĩnh vực kh c nhau như thư ng mại, tài chính, thị trường ch ng kho n, y học, sinh học, gi o dục và viễn thông,

Hình th c đào tạo tín ch là một phư ng ph p đào tạo tiên tiến trên thế giới và đang được p dụng rộng rãi tại một số trường đại học của Việt Nam hiện nay Ưu điểm của hình th c đào tạo này là tính liên thông giữa c c hệ đào tạo, giữa c c trường để tạo điều kiện cho việc hội nhập với gi o dục thế giới Vì lý do đó mà chủ trư ng của nhà nước là m rộng p dụng hình th c đào tạo tín ch trong mạng lưới c c trường đại học, cao đẳng trong nước giai đoạn 2001- 2010

Trường Đại học Quảng Bình đã p dụng hình th c học theo tín ch t năm học

2008 đến nay Theo tinh thần của học chế tín ch sinh viên có thể tự xây dựng kế hoạch học tập cho cả qu trình học của mình suốt khóa học Có nghĩa là tùy theo năng lực và điều kiện của bản thân sinh viên sẽ đăng ký học phần nhiều hay ít trong mỗi học

k nhưng vẫn đảm bảo đúng thời hạn đào tạo theo qui định của Nhà trường Nhưng thực trạng hiện nay là hầu hết sinh viên vẫn đăng ký học phần theo kế hoạch đào tạo của chư ng trình khung theo học k mà chưa có một sự định hình riêng con đường học tập của bản thân Trường hợp những sinh viên giỏi có thể đăng ký để đẩy nhanh tiến

độ học tập và rút ng n thời gian đào tạo mà vẫn đảm bảo kết quả học tập tốt, phù hợp với điều kiện thời gian và năng lực Trường hợp những sinh viên có năng lực yếu h n

có thể đăng ký dàn trải h n sao cho kết quả học tập được giữ m c tốt nhưng vẫn tuân thủ thời gian đào tạo tại trường Việc tự xây dựng một lộ trình tối ưu phù hợp với năng lực học tập của t ng sinh viên theo tinh thần học chế tín ch hầu như vẫn chưa thể hiện được tính hiệu quả của nó Do đó việc xây dựng một công cụ hỗ trợ đề xuất cho sinh viên c c lộ trình học tập phù hợp theo năng lực và điều kiện thời gian trong suốt khóa học là một nhu cầu cần thiết và h a hẹn sẽ là công cụ đ c lực giúp cho sinh

Trang 10

viên quản lý kế hoạch học tập một c ch hiệu quả để chủ động h n trong việc chuẩn bị hành trang cho tư ng lai của mình

Trước những th ch th c đặt ra về khai ph dữ liệu, để hỗ trợ tốt nhất cho sinh viên và tăng cường ng dụng công nghệ thông tin trong hoạt động và quản lý đào tạo nhằm tăng hiệu quả và nâng cao chất lượng đào tạo tại Trường Đại học Quảng Bình thì việc xây dựng c c hệ thống phục vụ sinh viên là rất cần thiết Vì vậy tôi quyết định lựa chọn chọn đề tài “Ứng dụng kỹ thuật khai ph dữ liệu để tư vấn học tập cho sinh viên tại Trường Đại học Quảng Bình” làm đề tài tốt nghiệp luận văn cao học

2 Tính cấp thiết của đề tài

Với thực trạng đã nêu trên, việc xây dựng một công cụ hỗ trợ đề xuất cho sinh viên c c lộ trình học tập phù hợp theo năng lực và điều kiện thời gian trong suốt khóa học là một nhu cầu cần thiết và h a hẹn sẽ là công cụ đ c lực giúp cho sinh viên quản

lý kế hoạch học tập một c ch hiệu quả, chủ động h n trong việc chuẩn bị hành trang cho tư ng lai của mình

Đối với hình th c đào tạo tín ch sinh viên phải đăng ký học phần b t buộc và tự chọn dưới sự tư vấn của CVHT Vậy làm sao để đảm bảo sinh viên chọn được những học phần phù hợp với năng lực bản thân và s p xếp lộ trình học sao cho đạt hiệu quả nhất ? Liệu CVHT có thể tư vấn cho sinh viên cả lớp chọn kế hoạch học tập phù hợp trong khi không thể tiếp cận toàn bộ dữ liệu điểm của sinh viên?

Để giải quyết c c vấn đề nêu trên, chúng tôi tiến hành nghiên c u thực hiện đề tài Ứng dụng kỹ thuật khai ph dữ liệu để tư vấn học tập cho sinh viên tại Trường Đại học Quảng Bình

3 Mục tiêu đề tài

- Hiểu được c c vấn đề liên quan đến khai ph dữ liệu

- Nghiên c u lý thuyết mạng n ron

- Áp dụng thuật to n mạng n ron để xây dựng ng dụng tư vấn chọn môn học tự chọn cho sinh viên

- Hỗ trợ phòng Đào tạo, c c Khoa chuyên ngành và c c CVHT, gi o viên chủ nhiệm có thể tư vấn cho sinh viên trong việc chọn học phần

- Nâng cao chất lượng đào tạo tại Trường Đại học Quảng Bình

Trang 11

4 N i dung nghiên c u

- Nghiên c u lý thuyết về kỹ thuật ph t hiện tri th c và khai ph dữ liệu

- Chuẩn bị nguồn dữ liệu, bao gồm dữ liệu điểm kết quả học tập của sinh viên

- Cài đặt thử nghiệm mô hình khai ph dữ liệu: Mạng n ron nhân tạo (Neural Network)

- Áp dụng mô hình để giải quyết bài to n

5 Đối tượng và phạm vi nghiên c u

- Đối tượng nghiên c u của đề tài là khai ph dữ liệu điểm sinh viên, thuật to n mạng n ron nhân tạo và lan truyền ngược

- Trong khuôn khổ của một luận văn, tôi ch giới hạn thực nghiệm tạo ng dụng

tư vấn môn học tự chọn cho sinh viên ngành Gi o dục mầm non – Khoa ư phạm Tiểu học Mầm non - Trường Đại học Quảng Bình

7 Ý nghĩa khoa học, tính khả thi của đề tài

Trường Đại học Quảng Bình đang thực hiện việc ng dụng công nghệ thông tin vào công t c dạy và học rất tốt Việc xây dựng ng dụng tự vấn môn tự chọn sẽ hỗ trợ cho sinh viên trong việc lựa chọn phư ng ph p học và môn học để đạt kết quả tốt trong c c học k kế tiếp

Ý tư ng xuất ph t t nhu cầu thực tế của Nhà trường nên đề tài mang tính ng dụng cao, thiết thực hỗ trợ nâng cao hoạt đào tạo của nhà trường

8 Bố cục của luận văn

Ngoài phần m đầu và kết luận, luận văn gồm ba chư ng:

Trang 12

Chương 1: Chư ng này chủ yếu nghiên c u tổng quan về khai phá dữ liệu cự thể

là c c phư ng ph p, kỹ thuật trong khai phá dữ liệu và ng dụng của khai phá dữ liệu, lựa chọn phư ng ph p để ng dụng cho đề tài

Chương 2: Nghiên c u và đi sâu vào tìm hiểu thuật to n mạng n ron nhân tạo,

c c hình th c học và một số phư ng ph p huấn luyện mạng n ron nhân tạo ng dụng thuật to n lan truyền ngược cho mô hình mạng n ron

Chương 3: Nghiên c u xây dựng ng dụng, trong chư ng này c c nội dung đề

cập đến đó là: Mô tả bài to n, đề xuất mô hình p dụng thuật to n lan truyền ngược để xây dựng ng dụng h t triển xây dựng demo ng dụng thực hiện ch c năng tư vấn học phần cho sinh viên dựa vào kết quả học tập c c k Và t đó tư vấn cho giảng viên, CVHT có thể chọn cho sinh viên hoặc V tự chọn cho mình môn tư chọn đạt kết quả cao nhất t đó chọn được học phần tự chọn phù hợp nhất với sinh viên

Trang 13

Chương 1: TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu

Khai ph dữ liệu được dùng để mô tả qu trình ph t hiện ra tri th c trong C DL Quá trình này là việc tính to n để tìm ra c c mẫu trong c c bộ dữ liệu liên quan đến

c c bộ dữ liệu lớn giúp cho việc dự b o trong m y học, thống kê và c c hệ thống c s

dữ liệu

Tùy vào c ch tiếp cận, mục tiêu khai ph dữ liệu mà c c Nhà khoa học đã đưa ra một số định nghĩa như sau [1]:

Định nghĩa của Ferruzza: “Khai ph dữ liệu là tập hợp c c phư ng ph p được

dùng trong tiến trình kh m ph tri th c để ch ra sự kh c biệt c c mối quan hệ và c c mẫu chưa biết bên trong dữ liệu”

Định nghĩa của Parsaye: “Khai ph dữ liệu là qu trình trợ giúp quyết định,

trong đó chúng ta tìm kiếm c c mẫu thông tin chưa biết và bất ngờ trong C DL lớn”

Định nghĩa của Fayyad: “Khai ph tri th c là một qu trình không tầm thường

nhận ra những mẫu dữ liệu có gi trị, mới, hữu ích, tiềm năng và có thể hiểu được” 1.2 Các ng dụng của khai phá dữ liệu

h t hiện tri th c và khai ph dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực:

dự b o, trí tuệ nhân tạo, c s dữ liệu, thuật to n, tính to n song song và tốc độ cao, thu thập tri th c cho c c hệ chuyên gia, quan s t dữ liệu Đặc biệt ph t hiện tri th c

và khai ph dữ liệu rất gần gũi với lĩnh vực dự b o, sử dụng c c phư ng ph p dự b o

để mô hình dữ liệu và ph t hiện c c mẫu, luật

Khai ph dữ liệu có nhiều ng dụng trong thực tế, ví dụ như:

+ Bảo hiểm, tài chính và thị trường ch ng kho n: phân tích tình hình tài chính

và dự b o gi của c c loại cổ phiếu trong thị trường ch ng kho n Danh mục vốn và gi , lãi suất, dữ liệu thẻ tín dụng, ph t hiện gian lận,

+ Dự b o, phân tích dữ liệu và hỗ trợ ra quyết định

+ Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đo n bệnh lưu trong c c hệ thống quản lý bệnh viện hân tích mối liên hệ giữa c c triệu

ch ng bệnh, chuẩn đo n và phư ng ph p điều trị (chế độ dinh dưỡng, )

Trang 14

+ ản xuất và chế biến: Quy trình, phư ng ph p chế biến và xử lý sự cố

+ Khai phá văn bản và khai ph Web: hân lớp văn bản và c c trang Web, tóm

t t văn bản,

+ Lĩnh vực khoa học: Quan s t thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so s nh c c hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền,

Mạng viễn thông: hân tích c c cuộc gọi điện thoại và hệ thống gi m s t lỗi, sự

cố, chất lượng dịch vụ,

1.3 Các bước của quá trình khai phá dữ liệu

Quy trình khai ph dữ liệu thường tuân theo c c bước sau:[2]

Hình 1.1 Quy trình phát hiện tri thức [2]

Bước 1: Hình thành, xác định và định nghĩa bài toán Là tìm hiểu lĩnh vực ng

dụng t đó hình thành bài to n, x c định c c nhiệm vụ cần phải hoàn thành Bước này

sẽ quyết định cho việc rút ra được c c tri th c hữu ích và cho phép chọn c c phư ng

ph p khai ph dữ liệu thích hợp với mục đích ng dụng và bản chất của dữ liệu

Trang 15

Bước 2: Thu thập và tiền xử lý dữ liệu Là thu thập và xử lý thô, còn được gọi là

tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu), xử lý việc thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình ph t hiện tri th c Do dữ liệu được lấy t nhiều nguồn kh c nhau, không đồng nhất, … có thể gây ra c c nhầm lẫn au bước này, dữ liệu sẽ nhất qu n, đầy đủ, được rút gọn và rời rạc ho

Bước 3: Khai phá dữ liệu, rút ra các tri thức Là khai ph dữ liệu, hay nói c ch

kh c là trích ra c c mẫu hoặc/và c c mô hình ẩn dưới c c dữ liệu Giai đoạn này rất quan trọng, bao gồm c c công đoạn như: ch c năng, nhiệm vụ và mục đích của khai

ph dữ liệu, dùng phư ng ph p khai ph nào? Thông thường, c c bài to n khai ph dữ liệu bao gồm: c c bài to n mang tính mô tả - đưa ra tính chất chung nhất của dữ liệu,

c c bài to n dự b o – bao gồm cả việc ph t hiện c c suy diễn dựa trên dữ liệu hiện có

Tu theo bài to n x c định được mà ta lựa chọn c c phư ng ph p khai ph dữ liệu cho phù hợp

Bước 4: Sử dụng các tri thức phát hiện được Là hiểu tri th c đã tìm được, đặc

biệt là làm s ng tỏ c c mô tả và dự đo n C c bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả c c lần thực hiện C c kết quả của qu trình ph t hiện tri th c có thể được đưa và ng dụng trong c c lĩnh vực kh c nhau Do c c kết quả có thể là c c dự đo n hoặc c c mô tả nên chúng có thể được đưa vào c c hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này

1.4 Các phương pháp trong khai phá dữ liệu

Qu trình khai ph dữ liệu là qu trình ph t hiện ra mẫu thông tin Trong đó, giải thuật khai ph tìm kiếm c c mẫu đ ng quan tâm theo dạng x c định như c c luật, phân lớp, hồi quy, cây quyết định,

1.4.1 Phân lớp (classification)

Là việc x c định một hàm nh xạ t một mẫu dữ liệu vào một trong số c c lớp đã được biết trước đó Mục tiêu của thuật to n phân lớp là tìm ra mối liên kết giữa thuộc tính dự b o và thuộc tính phân lớp Như thế qu trình phân lớp có thể sử dụng mối liên kết này để dự b o cho c c mục mới C c kiến th c được ph t hiện biểu diễn dưới dạng

Trang 16

c c luật theo c ch sau: “Nếu các thuộc tính dự báo của một mục thoả mãn điều kiện

của các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận” [5]

1.4.2 Hồi qui (regression)

Là việc học một hàm nh xạ t một mẫu dữ liệu thành một biến dự đo n có gi trị thực Nhiệm vụ của hồi quy tư ng tự như phân lớp, ch kh c chỗ thuộc tính để dự

b o là liên tục ch không phải rời rạc [5] Việc dự b o c c gi trị số thường được làm

b i c c phư ng ph p thống kê cổ điển, chẳng hạn như hồi quy tuyến tính Tuy nhiên, phư ng ph p mô hình ho cũng được sử dụng, ví dụ: cây quyết định

1.4.3 Phân nhóm (clustering)

Là việc mô tả chung để tìm ra c c tập hay c c nhóm, loại mô tả dữ liệu C c nhóm có thể t ch nhau hoặc phân cấp hay gối lên nhau Có nghĩa là dữ liệu có thể v a thuộc nhóm này lại v a thuộc nhóm kh c C c ng dụng khai ph dữ liệu có nhiệm vụ phân nhóm như ph t hiện tập c c kh ch hàng có phản ng giống nhau trong C DL tiếp thị; x c định c c quang phổ t c c phư ng ph p đo tia hồng ngoại, … Liên quan chặt chẽ đến việc phân nhóm là nhiệm vụ đ nh gi dữ liệu, hàm mật độ x c suất đa biến/ c c trường trong CSDL [5, 6]

1.4.4 Tổng hợp (summarization)

Là công việc liên quan đến c c phư ng ph p tìm kiếm một mô tả tập con dữ liệu

Kỹ thuật tổng hợp thường p dụng trong việc phân tích dữ liệu có tính thăm dò và b o

c o tự động Nhiệm vụ chính là sản sinh ra c c mô tả đặc trưng cho một lớp Mô tả loại này là một kiểu tổng hợp, tóm t t c c đặc tính chung của tất cả hay hầu hết c c mục của một lớp C c mô tả đặc trưng thể hiện theo luật có dạng sau: “Nếu một mục thuộc về lớp đã ch trong tiền đề thì mục đó có tất cả c c thuộc tính đã nêu trong kết luận” Lưu ý rằng luật dạng này có c c kh c biệt so với luật phân lớp Luật ph t hiện đặc trưng cho lớp ch sản sinh khi c c mục đã thuộc về lớp đó

1.4.5 Mô hình hoá sự phụ thuộc (dependency modeling)

Là việc tìm kiếm một mô hình mô phỏng sự phụ thuộc giữa c c biến, thuộc tính theo hai m c: M c cấu trúc của mô hình mô tả thường dưới dạng đồ thị Trong đó, c c biến phụ thuộc bộ phận vào c c biến kh c M c định lượng mô hình mô tả m c độ phụ thuộc Những phụ thuộc này thường được biểu thị dưới dạng theo luật “nếu – thì” (nếu

Trang 17

tiền đề là đúng thì kết luận đúng) Về nguyên t c, cả tiền đề và kết luận đều có thể là

sự kết hợp logic của c c gi trị thuộc tính Trên thực tế, tiền đề thường là nhóm c c gi trị thuộc tính và kết luận ch là một thuộc tính H n nữa hệ thống có thể ph t hiện c c luật phân lớp trong đó tất cả c c luật cần phải có cùng một thuộc tính do người dùng

ch ra trong kết luận

1.4.6 Phát hiện sự biến đổi và độ lệch (change and deviation dectection)

Nhiệm vụ này tập trung vào kh m ph hầu hết sự thay đổi có nghĩa dưới dạng độ

đo đã biết trước hoặc gi trị chuẩn, ph t hiện độ lệch đ ng kể giữa nội dung của tập con dữ liệu thực và nội dung mong đợi Hai mô hình độ lệch hay dùng là lệch theo thời gian hay lệch theo nhóm Độ lệch theo thời gian là sự thay đổi có ý nghĩa của dữ liệu theo thời gian Độ lệch theo nhóm là sự kh c nhau của giữa dữ liệu trong hai tập con

dữ liệu, đây tính cả trường hợp tập con dữ liệu này thuộc tập con kia, nghĩa x c định

dữ liệu trong một nhóm con của đối tượng có kh c đ ng kể so với toàn bộ đối tượng không? Theo c ch này, sai sót dữ liệu hay sai lệch so với gi trị thông thường được

ph t hiện [5, 6]

Vì những nhiệm vụ này yêu cầu số lượng và c c dạng thông tin rất kh c nhau nên chúng thường ảnh hư ng đến việc thiết kế và chọn phư ng ph p khai ph dữ liệu kh c nhau Ví dụ như phư ng ph p cây quyết định (sẽ được trình bày dưới đây) tạo ra được một mô tả phân biệt được c c mẫu giữa c c lớp nhưng không có tính chất và đặc điểm của lớp

1.5 Các Kỹ thuật khai phá dữ liệu

Khai ph dữ liệu là lĩnh vực mà con người luôn tìm c ch đạt được mực đích sử dụng thông tin của mình Qu trình khai ph dữ liệu là qu trình ph t hiện mẫu, trong

đó kỹ thuật khai ph dữ liệu để tìm kiếm c c mẫu đ ng quan tâm theo dạng x c định Một số kỹ thuật thường được p dụng trong c c hệ thống: sử dụng công cụ truy vấn, xây dựng cây quyết định, dựa theo khoảng c ch (K-l ng giềng gần), gi trị trung bình,

ph t hiện luật kết hợp, … [6,7] Các kỹ thuật trên có thể được mô phỏng và được tích hợp vào c c hệ thống lai để khai ph dữ liệu theo dự b o

Trang 18

1.5.1 Các thành phần của quá trình khai phá dữ liệu

Giải thuật khai ph dữ liệu bao gồm 3 thành phần chính như sau: biểu diễn mô hình, đ nh gi mô hình và phư ng ph p tìm kiếm [6, 7]

a Biểu diễn mô hình: Mô hình được biểu diễn theo một ngôn ngữ L nào đó để

miêu tả c c mẫu có thể khai phá được Mô tả mô hình rõ ràng thì học m y sẽ tạo ra mẫu có mô hình chính x c cho dữ liệu Tuy nhiên, nếu mô hình qu lớn thì khả năng

dự đo n của học m y sẽ bị hạn chế Như thế sẽ làm cho việc tìm kiếm ph c tạp h n cũng như hiểu được mô hình là không đ n giản hoặc sẽ không thể có c c mẫu tạo ra được một mô hình chính x c cho dữ liệu Ví dụ mô tả cây quyết định sử dụng phân chia c c nút theo 1 trường dữ liệu, chia không gian đầu vào thành c c siêu phẳng song song với trục c c thuộc tính hư ng ph p cây quyết định như vậy không thể khai ph được dữ liệu dạng công th c X=Y dù cho tập học có quy mô lớn thế nào đi nữa Vì vậy, việc quan trọng là người phân tích dữ liệu cần phải hiểu đầy đủ c c giả thiết miêu

tả Một điều cũng kh quan trọng là người thiết kế giải thuật cũng phải diễn tả được

c c giả thiết mô tả nào được tạo ra b i giải thuật nào Khả năng miêu tả mô hình càng lớn thì càng làm tăng m c độ nguy hiểm do bị học qu và làm giảm đi khả năng dự

đo n c c dữ liệu chưa biết H n nữa, việc tìm kiếm sẽ càng tr lên ph c tạp h n và việc giải thích mô hình cũng khó khăn h n

Mô hình ban đầu được x c định bằng c ch kết hợp biến đầu ra (phụ thuộc) với

c c biến độc lập mà biến đầu ra phụ thuộc vào au đó phải tìm những tham số mà bài

to n cần tập trung giải quyết Việc tìm kiếm mô hình sẽ đưa ra được một mô hình phù hợp với tham số được x c định dựa trên dữ liệu (trong một số trường hợp kh c thì mô hình và c c tham số lại thay đổi để phù hợp với dữ liệu) Trong một số trường hợp, tập

c c dữ liệu được chia thành tập dữ liệu học và tập dữ liệu thử Tập dữ liệu học được dùng để làm cho tham số của mô hình phù hợp với dữ liệu Mô hình sau đó sẽ được

đ nh gi bằng c ch đưa c c dữ liệu thử vào mô hình và thay đổi c c tham số cho phù hợp nếu cần Mô hình lựa chọn có thể là phư ng ph p thống kê như , … một số giải thuật học m y (ví dụ như cây quyết định và c c quyết định học có thầy kh c), mạng neuron, suy diễn hướng tình huống (case based reasoning), c c kỹ thuật phân lớp

Trang 19

b Đánh giá mô hình: Là việc đ nh gi , ước lượng c c mô hình chi tiết, chuẩn

trong qu trình xử lý và ph t hiện tri th c với sự ước lượng có dự b o chính x c hay không và có thoả mãn c s logic hay không? Ước lượng phải được đ nh gi chéo (cross validation) với việc mô tả đặc điểm bao gồm dự b o chính x c, tính mới lạ, tính hữu ích, tính hiểu được phù hợp với c c mô hình Hai phư ng ph p logic và thống kê chuẩn có thể sử dụng trong mô hình kiểm định

c Phương pháp tìm kiếm: hư ng ph p này bao gồm hai thành phần: tìm kiếm

tham số và tìm kiếm mô hình Trong tìm kiếm tham số, giải thuật cần tìm kiếm c c tham số để tối ưu hóa c c tiêu chuẩn đ nh gi mô hình với c c dữ liệu quan s t được

và với một mô tả mô hình đã định Việc tìm kiếm không cần thiết đối với một số bài

to n kh đ n giản: c c đ nh gi tham số tối ưu có thể đạt được bằng c c c ch đ n giản

h n Đối với c c mô hình chung thì không có c c c ch này, khi đó giải thuật “tham lam” thường được sử dụng lặp đi lặp lại Ví dụ như phư ng ph p giảm gradient trong giải thuật lan truyền ngược (backpropagation) cho c c mạng neuron Tìm kiếm mô hình xảy ra giống như một vòng lặp qua phư ng ph p tìm kiếm tham số: mô tả mô hình bị thay đổi tạo nên một họ c c mô hình Với mỗi một mô tả mô hình, phư ng

ph p tìm kiếm tham số được p dụng để đ nh gi chất lượng mô hình C c phư ng

ph p tìm kiếm mô hình thường sử dụng c c kỹ thuật tìm kiếm heuristic vì kích thước của không gian c c mô hình có thể thường ngăn cản c c tìm kiếm tổng thể, h n nữa

c c giải ph p đ n giản (closed form) không dễ đạt được

1.5.2 Kỹ thuật suy diễn/quy nạp

Một c s dữ liệu là một kho thông tin nhưng c c thông tin quan trọng h n cũng

có thể được suy diễn t kho thông tin đó Có hai kỹ thuật chính để thực hiện việc này

là suy diễn và quy nạp [6, 7]

Kỹ thuật suy diễn: Nhằm rút ra thông tin là kết quả logic của c c thông tin trong

c s dữ liệu Ví dụ như to n tử liên kết p dụng cho bảng quan hệ, bảng đầu ch a thông tin về c c nhân viên và phòng ban, bảng th hai ch a c c thông tin về c c phòng ban và c c trư ng phòng Như vậy sẽ suy ra được mối quan hệ giữa c c nhân viên và

c c trư ng phòng hư ng ph p suy diễn dựa trên c c sự kiện chính x c để suy ra c c tri th c mới t c c thông tin cũ Mẫu chiết xuất được bằng c ch sử dụng phư ng ph p này thường là c c luật suy diễn

Trang 20

Kỹ thuật quy nạp: Phư ng ph p quy nạp suy ra c c thông tin được sinh ra t c

s dữ liệu Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri th c ch không phải b t đầu với c c tri th c đã biết trước C c thông tin mà phư ng ph p này đem lại là c c thông tin hay c c tri th c cấp cao diễn tả về c c đối tượng trong c s dữ liệu hư ng

ph p này liên quan đến việc tìm kiếm c c mẫu trong C DL Trong khai ph dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật

1.5.3 Kỹ thuật ứng dụng K-láng giềng gần

ự miêu tả c c bản ghi trong tập dữ liệu khi trỏ vào không gian nhiều chiều là rất

có ích đối với việc phân tích dữ liệu Việc dùng c c miêu tả này, nội dung của vùng lân cận được x c định, trong đó c c bản ghi gần nhau trong không gian được xem xét thuộc về lân cận (hàng xóm – l ng giềng) của nhau Kh i niệm này được dùng trong khoa học kỹ thuật với tên gọi K-l ng giềng gần, trong đó K là số l ng giềng được sử dụng hư ng ph p này rất hiệu quả nhưng lại đ n giản Ý tư ng thuật to n học K-

l ng giềng gần là “thực hiện như c c l ng giềng gần của bạn đã làm”

1.5.4 Kỹ thuật sử dụng cây quyết định và luật

Với kỹ thuật phân lớp dựa trên cây quyết định, kết quả của qu trình xây dựng

mô hình sẽ cho ra một cây quyết định Cây này được sử dụng trong qu trình phân lớp

c c đối tượng dữ liệu chưa biết hoặc đ nh gi độ chính x c của mô hình Tư ng ng với hai giai đoạn trong qu trình phân lớp là qu trình xây dựng và sử dụng cây quyết định

Qu trình xây dựng cây quyết định b t đầu t một nút đ n biểu diễn tất cả c c mẫu dữ liệu au đó, c c mẫu sẽ được phân chia một c ch đệ quy dựa vào việc lựa chọn c c thuộc tính Nếu c c mẫu có cùng một lớp thì nút sẽ tr thành l , ngược lại ta

sử dụng một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm c s để phân chia

c c mẫu ra c c lớp Theo t ng gi trị của thuộc tính v a chọn, ta tạo ra c c nh nh

tư ng ng và phân chia c c mẫu vào c c nh nh đã tạo Lặp lại qu trình trên cho tới khi tạo ra được cây quyết định, tất cả c c nút triển khai thành l và được g n nhãn

Qu trình đệ quy sẽ d ng lại khi một trong c c điều kiện sau được thỏa mãn:

+ Tất cả c c mẫu thuộc cùng một nút

+ Không còn một thuộc tính nào để lựa chọn

Trang 21

+ Nh nh không ch a mẫu nào

hần lớn c c giải thuật sinh cây quyết định đều có hạn chế chung là sử dụng nhiều bộ nhớ Lượng bộ nhớ sử dụng tỷ lệ thuận với kích thước của mẫu dữ liệu huấn luyện Một chư ng trình sinh cây quyết định có hỗ trợ sử dụng bộ nhớ ngoài song lại

có nhược điểm về tốc độ thực thi Do vậy, vấn đề t a bớt cây quyết định tr nên quan trọng C c nút l không ổn định trong cây quyết định sẽ được t a bớt

1.5.5 Kỹ thuật phát hiện luật kết hợp

Kỹ thuật này nhằm ph t hiện ra c c luật kết hợp giữa c c thành phần dữ liệu trong c s dữ liệu Mẫu đầu ra của giải thuật khai ph dữ liệu là tập luật kết hợp tìm được Ta có thể lấy một ví dụ đ n giản về luật kết hợp như sau: sự kết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A => B

Cho một lược đồ R={A1, …, Ap} c c thuộc tính với miền gi trị {0,1}, và một quan hệ r trên R Một luật kết hợp trên r được mô tả dưới dạng X=>B với X R và

B R\X Về mặt trực gi c, ta có thể ph t biểu ý nghĩa của luật như sau: nếu một bản ghi của bảng r có gi trị 1 tại mỗi thuộc tính thuộc X thì gi trị của thuộc tính B cũng

là 1 trong cùng bản ghi đó Ví dụ như ta có tập c s dữ liệu về c c mặt hàng b n trong siêu thị, c c dòng tư ng ng với c c ngày b n hàng, c c cột tư ng ng với c c mặt hàng thì gi trị 1 tại ô (20/10, b nh mì) x c định rằng b nh mì đã b n ngày hôm đó cũng kéo theo sự xuất hiện gi trị 1 tại ô (20/10, b )

Cho W R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ của

c c hàng trong r có gi trị 1 tại mỗi cột thuộc W Tần số xuất hiện của luật X=>B trong

r được định nghĩa là s(X {B}, r) còn gọi là độ hỗ trợ của luật, độ tin cậy của luật là s(X {B}, r)/s(X, r) Ở đây X có thể gồm nhiều thuộc tính, B là gi trị không cố định Nhờ vậy mà không xảy ra việc tạo ra c c luật không mong muốn trước khi qu trình tìm kiếm b t đầu Điều đó cũng cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ của số lượng c c thuộc tính đầu vào Do vậy cần phải chú ý khi thiết kế dữ liệu cho việc tìm kiếm c c luật kết hợp

Nhiệm vụ của việc ph t hiện c c luật kết hợp là phải tìm tất cả c c luật X=>B sao cho tần số của luật không nhỏ h n ngưỡng σ cho trước và độ tin cậy của luật không

Trang 22

nhỏ h n ngưỡng θ cho trước T một c s dữ liệu ta có thể tìm được hàng nghìn và thậm chí hàng trăm nghìn c c luật kết hợp

Ta gọi một tập con X R là thường xuyên trong r nếu thỏa mãn điều kiện s(X, r)≥σ Nếu biết tất cả c c tập thường xuyên trong r thì việc tìm kiếm c c luật rất dễ dàng Vì vậy, giải thuật tìm kiếm c c luật kết hợp trước tiên đi tìm tất cả c c tập thường xuyên này, sau đó tạo dựng dần c c luật kết hợp bằng c ch ghép dần c c tập thuộc tính dựa trên m c độ thường xuyên

1.6 Những thách th c trong nghiên c u và ng dụng kỹ thuật khai phá dữ liệu

Trong phần này, một số vấn đề liên quan đến CSDL và các th ch th c trong việc nghiên c u và ng dụng kỹ thuật khai ph dữ liệu được trình bày để cho thấy xu hướng và tiềm năng của lĩnh vực này hiện nay [7]

Khai ph c c dữ liệu thô để ph t hiện ra tri th c mới Do c c dữ liệu trong thực tế thường động, không đầy đủ, lớn và bị nhiễu Trong những trường hợp kh c, người ta không biết c s dữ liệu có ch a c c thông tin cần thiết cho việc khai phá hay không

và làm thế nào để giải quyết với sự dư CSDL với hàng trăm trường và bảng, hàng triệu bản ghi và với kích thước đến gigabytes đã là chuyện bình thường Hiện nay đã b t đầu xuất hiện c c CSDL có kích thước lên tới terabytes C c phư ng ph p giải quyết hiện nay là đưa ra một ngưỡng cho c s dữ liệu, lấy mẫu, c c phư ng ph p xấp x , xử

lý song song

Kích thước lớn: không ch có số lượng bản ghi lớn mà số c c trường trong c s

dữ liệu cũng nhiều Vì vậy mà kích thước của bài to n tr nên lớn h n Một tập dữ liệu

có kích thước lớn sinh ra vấn đề làm tăng không gian tìm kiếm mô hình suy diễn H n nữa, nó cũng làm tăng khả năng một giải thuật khai ph dữ liệu có thể tìm thấy c c mẫu giả Biện ph p kh c phục là làm giảm kích thước t c động của bài to n và sử dụng c c tri th c biết trước để x c định c c biến không phù hợp

Dữ liệu động: Đặc điểm c bản của tất cả các CSDL là nội dung của chúng thay

đổi liên tục Dữ liệu có thể thay đổi theo thời gian và việc khai ph dữ liệu cũng bị ảnh

hư ng b i thời điểm quan s t dữ liệu Một số kh c lại thay đổi tùy thuộc vào tình huống và ch có gi trị được quan s t mới nhất là đủ Vậy thay đổi dữ liệu nhanh chóng có thể làm cho c c mẫu khai phá được trước đó mất gi trị H n nữa, c c biến

Trang 23

trong c s dữ liệu của ng dụng đã cho cũng có thể bị thay đổi, bị xóa hoặc là tăng lên theo thời gian Vấn đề này được giải quyết bằng c c giải ph p tăng trư ng để nâng cấp c c mẫu và coi những thay đổi như là c hội để khai phá bằng c ch sử dụng nó để tìm kiếm c c mẫu bị thay đổi

Các trường không phù hợp: Một đặc điểm quan trọng kh c là tính không thích

hợp của dữ liệu, nghĩa là mục dữ liệu tr thành không thích hợp với trọng tâm hiện tại của việc khai phá Một khía cạnh kh c đôi khi cũng liên quan đến độ phù hợp là tính

ng dụng của một thuộc tính đối với một tập con của c s dữ liệu Ví dụ trường số tài khoản Nostro không p dụng cho c c t c nhân

Các giá trị bị thiếu: ự có mặt hay v ng mặt của gi trị c c thuộc tính dữ liệu

phù hợp có thể ảnh hư ng đến việc khai ph dữ liệu Trong hệ thống tư ng t c, sự thiếu v ng dữ liệu quan trọng có thể dẫn đến việc yêu cầu cho gi trị của nó hoặc kiểm tra để x c định gi trị của nó Hoặc cũng có thể sự v ng mặt của dữ liệu được coi như một điều kiện, thuộc tính bị mất có thể được coi như một gi trị trung gian và là gi trị không biết

Các trường bị thiếu: Một quan s t không đầy đủ c s dữ liệu có thể làm cho c c

dữ liệu có gi trị bị xem như có lỗi Việc quan s t c s dữ liệu phải ph t hiện được toàn bộ c c thuộc tính có thể dùng để giải thuật khai ph dữ liệu có thể p dụng nhằm giải quyết bài to n Giả sử ta có c c thuộc tính để phân biệt c c tình huống đ ng quan tâm Nếu chúng không làm được điều đó thì có nghĩa là đã có lỗi trong dữ liệu Đối với một hệ thống học để chuẩn đo n bệnh sốt rét t một c s dữ liệu bệnh nhân thì trường hợp c c bản ghi của bệnh nhân có triệu ch ng giống nhau nhưng lại có c c chẩn đo n kh c nhau là do trong dữ liệu đã bị lỗi Đây cũng là vấn đề thường xảy ra trong c s dữ liệu kinh doanh C c thuộc tính quan trọng có thể sẽ bị thiếu nếu dữ liệu không được chuẩn bị cho việc khai ph dữ liệu

Độ nhiễu và không chắc chắn: Đối với c c thuộc tính đã thích hợp, độ nghiêm

trọng của lỗi phụ thuộc vào kiểu dữ liệu của c c gi trị cho phép C c gi trị của c c thuộc tính kh c nhau có thể là c c số thực, số nguyên, chuỗi và có thể thuộc vào tập

c c gi trị định danh C c gi trị định danh này có thể s p xếp theo th tự riêng lẽ hoặc đầy đủ, thậm chí có thể có cấu trúc ngữ nghĩa

Trang 24

Một yếu tố kh c của độ không ch c ch n chính là tính kế th a hoặc độ chính x c

mà dữ liệu cần có, nói c ch kh c là độ nhiễu trên c c phép đo và phân tích có ưu tiên,

mô hình dự b o mô tả tính ngẫu nhiên được tạo ra và được sử dụng để định nghĩa độ mong muốn và độ dung sai của dữ liệu Thường thì c c mô hình dự b o được p dụng theo c ch đặc biệt để x c định một c ch chủ quan c c thuộc tính để đạt được c c dự báo và đ nh gi khả năng chấp nhận của c c gi trị thuộc tính Đặc biệt là với dữ liệu kiểu số, sự đúng đ n của dữ liệu có thể là một yếu tố trong việc khai ph Ví dụ như trong việc đo nhiệt độ c thể, ta thường cho phép chênh lệch 0.1 độ Nhưng việc phân tích theo xu hướng nhạy cảm nhiệt độ của c thể lại yêu cầu độ chính x c cao h n Để một hệ thống khai phá có thể liên hệ đến xu hướng này để chuẩn đo n thì lại cần có một độ nhiễu trong dữ liệu đầu vào

Mối quan hệ phức tạp giữa các trường: c c thuộc tính hoặc c c gi trị có cấu trúc

phân cấp, c c mối quan hệ giữa c c thuộc tính và c c phư ng tiện ph c tạp để diễn tả tri th c về nội dung của c s dữ liệu yêu cầu c c giải thuật phải có khả năng sử dụng một c ch hiệu quả c c thông tin này Ban đầu, kỹ thuật khai ph dữ liệu ch được ph t triển cho c c bản ghi có gi trị thuộc tính đ n giản Tuy nhiên, ngày nay người ta đang tìm c ch ph t triển c c kỹ thuật nhằm rút ra mối quan hệ giữa c c biến này

1.7 M t số vấn đề thách th c của khai phá dữ liệu

Quá phù hợp (Overfitting): Khi một giải thuật tìm kiếm c c tham số tốt nhất để

sử dụng một tập dữ liệu hữu hạn, nó có thể sẽ bị tình trạng “qu độ” dữ liệu (nghĩa là tìm kiếm qu m c cần thiết gây ra hiện tượng ch phù hợp với c c dữ liệu đó mà không có khả năng đ p ng cho c c dữ liệu lạ), làm cho mô hình hoạt động rất kém đối với c c dữ liệu thử C c giải ph p kh c phục bao gồm đ nh gi chéo (cross-validation), thực hiện theo nguyên t c nào đó hoặc sử dụng c c biện ph p dự b o khác [7]

Khả năng biểu đạt của mẫu: Trong rất nhiều ng dụng, điều quan trọng là những

điều khai phá được phải càng dễ hiểu với con người càng tốt Vì vậy, c c giải ph p thường bao gồm việc diễn tả dưới dạng đồ họa, xây dựng cấu trúc luật với c c đồ thị

có hướng, biểu diễn bằng ngôn ngữ tự nhiên và c c kỹ thuật kh c nhằm biểu diễn tri

th c và dữ liệu

Trang 25

Sự tương tác với người sử dụng và các tri thức sẵn có: rất nhiều công cụ và

phư ng ph p khai ph dữ liệu không thực sự tư ng t c với người dùng và không dễ dàng kết hợp cùng với c c tri th c đã biết trước đó Việc sử dụng tri th c miền là rất quan trọng trong khai ph dữ liệu Đã có nhiều biện ph p nhằm kh c phục vấn đề này như sử dụng CSDL suy diễn để ph t hiện tri th c, những tri th c này sau đó được sử dụng để hướng dẫn cho việc tìm kiếm khai ph dữ liệu hoặc sử dụng sự phân bố và x c suất dữ liệu trước đó như một dạng mã hóa tri th c có sẵn

Kết luận chương 1: Chư ng này chủ yếu nghiên c u tổng quan về khai phá dữ

liệu cự thể là c c phư ng ph p, kỹ thuật trong khai phá dữ liệu và ng dụng của khai

phá dữ liệu, lựa chọn phư ng ph p để ng dụng cho đề tài

Trang 26

Chương 2: NGHIÊN CỨU MẠNG NƠRON NHÂN TẠO VÀ XÂY DỰNG

MÔ HÌNH DỰA TRÊN MẠNG NƠRON 2.1 Giới thiệu về mạng nơron nhân tạo

2.1.1 Khái niệm

Mạng n ron nhân tạo, Artificial Neural Network (ANN) gọi t t là mạng n ron Mạng n ron là một mô hình xử lý thông tin phỏng theo c ch th c xử lý thông tin của

c c hệ n ron sinh học Nó được tạo lên t một số lượng lớn c c phần tử (gọi là phần tử

xử lý hay n ron) kết nối với nhau thông qua c c liên kết (gọi là trọng số liên kết) làm

việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó [4]

Một mạng n ron nhân tạo được cấu hình cho một ng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu, dự b o) thông qua một qu trình học t tập c c mẫu huấn

luyện Về bản chất học chính là qu trình hiệu ch nh trọng số liên kết giữa c c n ron

2.1.2 Lịch sử phát triển của mạng nơron nhân tạo

C c nghiên c u về bộ não con người đã được tiến hành t hàng nghìn năm nay Cùng với sự ph t triển của khoa học kĩ thuật, đặc biệt là những tiến bộ trong ngành điện tử hiện đại, việc con người b t đầu nghiên c u c c n ron nhân tạo là hoàn toàn tự nhiên ự kiện đầu tiên đ nh dấu sự ra đời của mạng n ron nhân tạo diễn ra vào năm

19 3 khi nhà thần kinh học Warren McCulloch và nhà to n học Walter itts viết bài

b o mô tả c ch th c c c n ron hoạt động Họ cũng đã tiến hành xây dựng một mạng

n ron đ n giản bằng c c mạch điện C c n ron của họ được xem như là c c thiết bị nhị phân với ngưỡng cố định Kết quả của c c mô hình này là c c hàm logic đ n giản chẳng hạn như “a OR b” hay “a AND b” [4] Năm 19 9 Donald Hebb cho xuất bản cuốn s ch Organization of Behavior Cuốn s ch đã ch ra rằng c c n ron nhân tạo sẽ

tr nên hiệu quả h n sau mỗi lần chúng được sử dụng

Những tiến bộ của m y tính đầu những năm 1950 giúp cho việc mô hình hóa c c nguyên lý của những lý thuyết liên quan tới c ch th c con người suy nghĩ đã tr thành hiện thực Nathanial Rochester sau nhiều năm làm việc tại c c phòng thí nghiệm nghiên c u của IBM đã có những nỗ lực đầu tiên để mô phỏng một mạng n ron Trong thời kì này tính to n truyền thống đã đạt được những thành công rực rỡ, trong khi đó những nghiên c u về n ron còn giai đoạn s khai Mặc dù vậy những người

Trang 27

ủng hộ triết lý “thinking machines” (c c m y biết suy nghĩ) vẫn tiếp tục bảo vệ cho lập

trường của mình

Năm 195 dự n Dartmouth nghiên c u về trí tuệ nhân tạo (Artificial Intelligence) đã m ra thời k ph t triển mới cả trong lĩnh vực trí tuệ nhân tạo lẫn mạng n ron T c động tích cực của nó là thúc đẩy h n nữa sự quan tâm của c c nhà khoa học về trí tuệ nhân tạo và qu trình xử lý m c đ n giản của mạng n ron trong

bộ não con người

Những năm tiếp theo của dự n Dartmouth, John von Neumann đã đề xuất việc

mô phỏng c c n ron đ n giản bằng c ch sử dụng r le điện p hoặc đèn chân không Nhà sinh học chuyên nghiên c u về n ron Frank Rosenblatt cũng b t đầu nghiên c u

về erceptron au thời gian nghiên c u này erceptron đã được cài đặt trong phần

c ng m y tính và được xem như là mạng n ron lâu đời nhất còn được sử dụng đến ngày nay erceptron một tầng rất hữu ích trong việc phân loại một tập c c đầu vào có

gi trị liên tục vào một trong hai lớp erceptron tính tổng có trọng số c c đầu vào, rồi

tr tổng này cho một ngưỡng và cho ra một trong hai gi trị mong muốn có thể Tuy nhiên erceptron còn rất nhiều hạn chế, những hạn chế này đã được ch ra trong cuốn

s ch về erceptron của Marvin Minsky và eymour apert viết năm 19 9

Năm 1959, Bernard Widrow và Marcian Hoff thuộc trường đại học tanford đã xây dựng mô hình ADALINE (ADAptive LINear Elements) và MADALINE (Multiple ADAptive LINear Elements) C c mô hình này sử dụng quy t c học Least-Mean- quares (LM : Tối thiểu bình phư ng trung bình) MADALINE là mạng n ron đầu tiên được p dụng để giải quyết một bài to n thực tế Nó là một bộ lọc thích ng

có khả năng loại bỏ tín hiệu dội lại trên đường dây điện thoại Ngày nay mạng n ron

này vẫn được sử dụng trong c c ng dụng thư ng mại

Năm 197 aul Werbos đã ph t triển và ng dụng phư ng ph p học lan truyền ngược ( back-propagation) Tuy nhiên phải mất một vài năm thì phư ng ph p này mới

tr nên phổ biến C c mạng lan truyền ngược được biết đến nhiều nhất và được p

dụng rộng dãi nhất cho đến ngày nay

Năm 1982 trong bài b o gửi tới viện khoa học quốc gia, John Hopfield bằng sự phân tích to n học rõ ràng, mạch lạc, ông đã ch ra c ch th c c c mạng n ron làm việc

Trang 28

và những công việc chúng có thể thực hiện được Cống hiến của Hopfield không ch

gi trị của những nghiên c u khoa học mà còn sự thúc đẩy tr lại c c nghiên c u về mạng n ron

Cũng trong thời gian này, một hội nghị với sự tham gia của Hoa K và Nhật Bản bàn về việc hợp t c, cạnh tranh trong lĩnh vực mạng n ron đã được tổ ch c tại Kyoto, Nhật Bản au hội nghị, Nhật Bản đã công bố những nỗ lực của họ trong việc tạo ra

m y tính thế hệ th 5 Tiếp nhận điều đó, c c tạp chí định k của Hoa K bày tỏ sự lo

l ng rằng nước nhà có thể bị tụt hậu trong lĩnh vực này Vì thế, ngay sau đó, Hoa K nhanh chóng huy động quĩ tài trợ cho c c nghiên c u và ng dụng mạng n ron Năm

1985, viện vật lý Hoa K b t đầu tổ ch c c c cuộc họp hàng năm về mạng n ron ng dụng trong tin học (Neural Networks for Computing) Năm 1987, hội thảo quốc tế đầu tiên về mạng n ron của Viện c c kỹ sư điện và điện tử IEEE (Institute of Electrical and Electronic Engineer)

Ngày nay, không ch d ng lại m c nghiên c u lý thuyết, c c nghiên c u ng dụng mạng n ron để giải quyết c c bài to n thực tế được diễn ra kh p mọi n i C c

ng dụng mạng n ron ra đời ngày càng nhiều và ngày càng hoàn thiện h n Điển hình

là c c ng dụng: xử lý ngôn ngữ (Language rocessing), nhận dạng kí tự (Character Recognition), nhận dạng tiếng nói (Voice Recognition), nhận dạng mẫu ( attern Recognition), xử lý tín hiệu ( ignal rocessing), Lọc dữ liệu (Data Filtering),…

2.2 Mạng nơron nhân tạo

2.2.1 Mô hình mạng nơron nhân tạo

Một n ron là một đ n vị xử lý thông tin và là thành phần c bản của một mạng

n ron Cấu trúc của một n ron được mô tả như hình 2.1

Trang 29

Hình 2.1 Mô hình mạng nơron nhân tạo [4]

C c thành phần c bản của một n ron nhân tạo bao gồm:

+ Tập c c đầu vào: Là c c tín hiệu vào (input signals) của n ron, c c tín hiệu này thường được đưa vào dưới dạng một vector N chiều

+ Tập c c liên kết: Mỗi liên kết được thể hiện b i một trọng số (gọi là trọng số liên kết – ynaptic weight) Trọng số liên kết giữa tín hiệu vào th j với n ron k thường được kí hiệu là wkj Thông thường, c c trọng số này được kh i tạo một

c ch ngẫu nhiên thời điểm kh i tạo mạng và được cập nhật liên tục trong qu trình học mạng

+ Bộ tổng ( umming function): Thường dùng để tính tổng của tích c c đầu vào với trọng số liên kết của nó

+ Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như một thành phần của hàm truyền

+ Hàm truyền (Transfer function): Hàm này được dùng để giới hạn phạm vi đầu

ra của mỗi n ron Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho Thông thường, phạm vi đầu ra của mỗi n ron được giới hạn trong đoạn [0,1] hoặc [-1, 1] C c hàm truyền rất đa dạng, có thể là c c hàm tuyến tính hoặc phi tuyến Việc lựa chọn hàm truyền nào là tùy thuộc vào t ng bài to n và kinh nghiệm của người thiết kế mạng

+ Đầu ra: Là tín hiệu đầu ra của một n ron, với mỗi n ron sẽ có tối đa là một đầu ra

Trang 30

2.2.2 Phân loại cấu trúc mạng nơron nhân tạo

Mạng n ron nhân tạo là một mạng gồm một tập c c đ n vị (unit) được kết nối

với nhau bằng c c cạnh có trọng số

Một đ n vị thực hiện một công việc rất đ n giản: Nhận tín hiệu vào t c c đ n vị phía trước hay một nguồn bên ngoài và sử dụng chúng để tính tín hiệu ra Mỗi đ n vị

có thể có nhiều tín hiệu đầu vào nhưng ch có một tín hiệu đầu ra duy nhất Đôi khi các

đ n vị còn có một gi trị gọi là độ lệch (bias) được gộp vào c c tín hiệu đầu vào để tính tín hiệu ra Để đ n giản ký hiệu, độ lệch của một đ n vị được xem như là trọng số nối t một đ n vị giả có gi trị xuất luôn là 1 đến đ n vị đó

Trong một mạng n ron có ba kiểu đ n vị:

+ C c đ n vị đầu vào, nhận tín hiệu t bên ngoài

+ C c đ n vị đầu ra, gửi dữ liệu ra bên ngoài

+ C c đ n vị ẩn, tín hiệu vào của nó được truyền t c c đ n vị trước nó và

tín hiệu ra được truyền đến c c đ n vị sau nó trong mạng

Khi nhận được c c tín hiệu đầu vào, một đ n vị sẽ nhận mỗi tín hiệu với trọng số

tư ng ng rồi lấy tổng c c gi trị v a nhận được Kết quả sẽ được đưa vào một hàm số gọi là hàm kích hoạt (activation function) để tính toán tín hiệu đầu ra C c đ n vị kh c nhau có thể có c c hàm kích hoạt kh c nhau

C c đầu ra của n ron sinh học là c c xung, có giới hạn chặn Trong mô phỏng,

để đảm bảo hệ ổn định đầu ra, người ta g n hàm chặn lối ra cho c c tín hiệu Để đặc trưng cho điều đó, đầu ra của mỗi n ron phải đặt một hàm chặn, thường dạng phi tuyến Kết quả của hàm này là một gi trị đặc trưng cho m c độ kích hoạt của n ron

Có bốn loại hàm kích hoạt thường dùng [4]:

+ Hàm dấu (Hard Limiter Function):

g(x)

x 1

-1 0

Hình 2.2 Hàm dạng dấu

+ Hàm bước nhị phân (Binary tep Function):

Trang 31

Gi trị đầu ra của hàm này được giới hạn vào một trong 2 gi trị:

Dạng hàm này thường được sử dụng trong c c mạng ch có một lớp và θj = 1

g(x)

x

1 0

Hình 2.3 Hàm bước nhị phân

+ Hàm sigmoid (Sigmoid Function)

x e x

g

1

1)

(

Hàm này sử dụng cho c c mạng được huấn luyện (trained) b i thuật to n lan truyền ngược (Back – ropagation), b i vì nó dễ lấy đạo hàm, do đó giảm đ ng kể c c phép tính trong qu trình huấn luyện mạng Hàm này được sử dụng cho những ng dụng mà gi trị đầu ra nằm trong khoảng [0 , 1]

Hình 2.4 Hàm sigmoid

C c hàm chuyển đối với c c n ron lớp ẩn là cần thiết để biểu diễn sự phi tuyến vào trong mạng Lý do là hợp thành của c c hàm đồng nhất là một hàm đồng nhất Mặc dù vậy nhưng nó mang tính chất phi tuyến (nghĩa là, khả năng biểu diễn c c hàm phi tuyến) làm cho c c mạng nhiều lớp có khả năng rất tốt trong biểu diễn c c nh xạ phi tuyến Tuy nhiên, đối với luật học lan truyền ngược, hàm phải khả vi (differentiable) và sẽ có ích nếu như hàm được g n trong một khoảng nào đó Do vậy, hàm sigmoid là lựa chọn tốt nhất

Trang 32

Đối với c c đ n vị đầu ra, c c hàm chuyển được chọn sao cho phù hợp với sự phân phối của c c gi trị đích mong muốn Nếu gi trị ra trong khoảng [0;1] thì hàm sigmoid là phù hợp nhất

là c c liên kết giữa chúng

Hình 2.5 Mạng nơron truyền thẳng nhiều lớp

+ Mạng hồi qui (Recurrent Neural Network)

Cấu trúc mạng được kết nối chuyển tiếp tín hiệu t lớp vào thông qua lớp ẩn đến lớp ra và đồng thời hồi tiếp tín hiệu về đ n vị xử lý chính nó hoặc c c đ n vị xử lý trong lớp hoặc lớp kh c Mạng hồi qui cho phép c c liên kết n ron tạo thành chu

Trang 33

trình Vì c c thông tin ra của c c n ron được truyền lại cho c c n ron đã góp phần kích hoạt chúng, nên mạng hồi qui còn có khả năng lưu trữ trạng th i trong của nó dưới dạng c c ngưỡng kích hoạt ngoài c c trọng số liên kết n ron

Hình 2.6 Mạng hồi qui

+ Mạng tự tổ ch c ( elf Origanizing Feature Maps – SOM)

Con người có khả năng sử dụng kinh nghiệm qu kh để thích nghi với những thay đổi của môi trường ự thích nghi đó không cần hướng dẫn hay ch đạo t bên ngoài Mạng n ron thực hiện theo nguyên lý đó gọi là mạng tự tổ ch c OM được Kohonen ph t triển vào đầu thập những năm 80, nên cũng thường được gọi là mạng Kohonen OM được dùng để gom cụm dữ liệu (data clustering), nghĩa là học không

có hướng dẫn (unsupervised learning)

Cấu trúc OM thường có hai lớp: lớp đầu vào (input layer) và lớp Kohonen (Kohonen layer) C c n ron của lớp đầu vào tư ng ng với một thành phần trong vector đặc trưng đang xét Ví dụ nếu xét dữ liệu có vector đặc trưng là thành phần thì lớp đầu vào sẽ có n ron Mỗi n ron của lớp đầu vào được nối với tất cả c c n ron của lớp Kohonen C c n ron trong lớp Kohonen được tổ ch c thành một không gian n chiều N được gọi là số chiều của OM Ví dụ N=2: lớp Kohonen là một lưới 2 chiều c c n ron Với N=3: lớp Kohonen là một khối 3 chiều c c n ron Mỗi n ron thuộc lớp Kohonen ngoài c c gi đầu vào, đầu ra còn có vector trọng số liên kết với

c c n ron thuộc lớp đầu vào Hay nói c ch kh c, mỗi n ron của lớp Kohonen sẽ có thêm một vector trọng số N chiều Có thể xem mỗi n ron trong lớp Kohonen như là

Trang 34

đại diện cho một cụm với vector trọng số chính là vector trọng tâm của cụm đó Thật

sự điều này không hẳn lúc nào cũng như vậy mà cần có sự linh hoạt trong việc x c định cấu hình (số chiều) và số n ron trong lớp Kohonen, đây ch là một gợi ý cho những ai chưa biết về OM trong cài đặt sau này

2.3 Các hình th c học của mạng nơron nhân tạo

Có ba hình th c học học phổ biến: Học có gi m s t (supervised learning), Học không gi m s t (unsupervised learning), Học tăng cường (Reinforcement learning) [4]:

2.3.2 Học có giám sát

Là quá trình học có sự tham gia giám sát của một “thầy gi o” Cũng giống như việc ta dạy một em nhỏ các chữ c i Ta đưa ra một chữ “a” và bảo với em đó rằng đây

là chữ “a” Việc này được thực hiện trên tất cả các mẫu chữ c i au đó khi kiểm tra ta

sẽ đưa ra một chữ cái bất kì (có thể viết h i kh c đi) và hỏi em đó đây là chữ gì?

Với học có giám sát, tập mẫu huấn luyện được cho dưới dạng D = {(x,t) | (x,t) ∈ [IRN x RK]}, trong đó: x = (x

Trang 35

Như vậy với học có giám sát, số lớp cần phân loại đã được biết trước Nhiệm vụ của thuật toán là phải x c định được một cách th c phân lớp sao cho với mỗi vector đầu vào sẽ được phân loại chính xác vào lớp của nó

Học có giám sát có thể được xem như việc xấp x một ánh xạ: X→ Y, trong đó X

là tập các vấn đề và Y là tập các lời giải tư ng ng cho vấn đề đó Các mẫu (x, y) với

x = (x1, x2, , xn) ∈ X, y = (yl, y2, , ym) ∈ Y được cho trước Học có giám sát trong các mạng n ron thường được thực hiện theo c c bước sau[4]:

+ Bước 1: Xây dựng cấu trúc thích hợp cho mạng n ron, chẳng hạn có (n + 1)

n ron vào (n n ron cho biến vào và 1 n ron cho ngưỡng x 0), m n ron đầu ra,

và kh i tạo c c trọng số liên kết của mạng

+ Bước 2: Đưa một vector x trong tập mẫu huấn luyện X vào mạng

+ Bước 3: Tính vector đầu ra o của mạng

+ Bước 4: o s nh vector đầu ra mong muốn y (là kết quả được cho trong tập

huấn luyện) với vector đầu ra o do mạng tạo ra; nếu có thể thì đ nh gi lỗi

+ Bước 5: Hiệu ch nh c c trọng số liên kết theo một c ch nào đó sao cho lần

tiếp theo khi đưa vector x vào mạng, vector đầu ra o sẽ giống với y h n

+ Bước 6: Nếu cần, lặp lại c c bước t 2 đến 5 cho tới khi mạng đạt tới trạng

th i hội tụ Việc đ nh gi lỗi có thể thực hiện theo nhiều c ch, c ch dùng

nhiều nhất là sử dụng lỗi t c thời: Err = (o - y), hoặc Err = |o - y|; lỗi trung bình bình phư ng (M E: mean-square error): Err = (o- y) 2

/2

Có hai loại lỗi trong đ nh gi một mạng n ron Th nhất, gọi là lỗi rõ ràng (apparent error), đ nh gi khả năng xấp x các mẫu huấn luyện của một mạng đã được huấn luyện Th hai, gọi là lỗi kiểm tra (test error), đ nh gi khả năng tổng quá hóa của một mạng đã được huấn luyện, t c khả năng phản ng với c c vector đầu vào mới

Để đ nh gi lỗi kiểm tra chúng ta phải biết đầu ra mong muốn cho các mẫu kiểm tra Thuật toán tổng quát trên cho học có giám sát trong các mạng n ron có nhiều cài đặt khác nhau, sự khác nhau chủ yếu là cách các trọng số liên kết được thay đổi trong suốt thời gian học Trong đó tiêu biểu nhất là thuật toán lan truyền ngược

Trang 36

2.3.3 Học không có giám sát

Học không có giám sát là việc học không cần có bất k một sự giám sát nào Trong bài toán học không giám sát, tập dữ liệu huấn luyện được cho dưới dạng: D = {(x1, x2, , xN)}, với {(x1, x2, , xN) là vector đặc trưng của mẫu huấn luyện Nhiệm vụ của thuật toán là phải phân chia tập dữ liệu D thành các nhóm con, mỗi nhóm ch a các vector đầu vào có đặc trưng giống nhau

Như vậy với học không giám sát, số lớp phân loại chưa được biết trước và tùy theo tiêu chuẩn đ nh gi độ tư ng tự giữa các mẫu mà ta có thể có các lớp phân loại khác nhau

2.3.4 Học tăng cường

Học tăng cường hay còn được gọi là học thư ng - phạt, là sự tổ hợp của cả hai

mô hình trên hư ng ph p này cụ thể như sau: với vector đầu vào, quan s t vector đầu

ra do mạng tính được Nếu kết quả được xem là “tốt” thì mạng sẽ được thư ng theo nghĩa tăng c c trọng số kết nối lên; ngược lại mạng sẽ bị phạt, các trọng số kết nối không thích hợp sẽ được giảm xuống Do đó học tăng cường là học theo nhà phê bình, ngược với học có giám sát là học theo thầy giáo

* Thuật to n lan truyền ngược:

Thuật to n lan truyền ngược[4]:

Thuật to n lan truyền ngược hướng được sử dụng để hiệu ch nh c c trọng số kết nối sao cho tổng sai số E nhỏ nhất

2 1

hư ng ph p hiệu ch nh trọng số liên kết n ron dựa trên nguyên t c lan truyền ngược sai số có thể lý giải dựa trên nguyên lý tìm kiếm gradient trong không gian tham số trọng số kết nối sao cho cực tiểu hàm sai số tổng cộng:

2 1

) (

2

1

k k K

k

z d

K

k k

e E

1

22 1

Lấy đạo hàm riêng của E theo vjk:

Trang 37

z z

e e

E v

E

(1) Trong đó:

k k

K

k k

k

e e

e e

22

1

(1.1)

1 )

(

k

k k

k

k

z

z d z

e

(1.2)

) ( ' ))

( (

k k

k

k

k

a f a

a f a

z

(1.3)

j jk

J

j

j jk

jk

v

y v v

a

1

1

(1.4) Thay (1.1), (1.2), (1.3), (1 ) vào công th c (1) ta được:

j k j

k k

jk

y y

a f e v

E

) (

j j

a a

y y

E w

E

(2) Trong đó:

) ( ' )) ( (

j j

j j

j

a f a

a f a

y

(2.1)

i ij

n i

j ij ij

j

x w

x w w

a

1 1

(2.2)

Trang 38

k k j

K

k k

e e y

e y

E

1 1

2

2

e y

e

(2.3.1)

) ( ' ))

( (

) (

k k

k k

k

k k

k

a

a f d a

z d a

e

(2.3.1.1)

jk j

J

j

j jk

j

k

v y

y v y

a

1

1

(2.3.1.2) Thay (2.3.1.1), (2.3.1.2) vào (2.3.1) ta được:

jk k j

k

v a f y

j

v a f e y

E

1

)).

( '

Thay (2.1), (2.2), (2 ) vào (2) ta được:

i j i

K

k

jk k j

i j K

k

jk k k

ij

x x

v a

y x

a f v a f e w

E

.

).

( ' ).

( ' ).

)).

( ' (

(

1 1

(2.5)

K

k

jk k j

j K

k

jk k j

1 1

).

( 1 ).(

(

).

(

Việc hiệu ch nh vect trọng số W={wij}, V={vjk} sao cho E mindẫn tới việc

x c định vect gia số W w ij, V v jk ngược hướng với vect gradient E w ij

E v jk Nói cách khác:

i k i

k

Trang 39

i j i

Bước 1: Nhập tập mẫu huấn luyện vào, ra mong muốn {Xs, Ds}

Trong đó: Xs là vect mẫu vào Xs = {x1, x2, x3,… ,xn}

Ds là vect mẫu ra Ds ={d1,d2,d3,…, dJ}

Kh i tạo w ij [ 0.5,0.5]

Bước 2: Tính gi trị đầu vào và đầu ra cho n ron lớp ẩn

j n

i

i ij

j

j jk

( ).

i j jk

v theo (3) v jk ( k.y i) k.y i

jk jk

j

1 ).

( 1 ).(

i j ij

ij ij

Ngày đăng: 28/03/2021, 22:57

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w