Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
454,66 KB
Nội dung
1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Phạm Duy An
PHƯƠNG PHÁPKHAIPHÁDỮLIỆU
BẰNG CÂYQUYẾTĐỊNH
Chuyên ngành : Truyền dữliệu và Mạng máy tính
Mã số : 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
2
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS VŨ ĐỨC THI
Phản biện 1: …………………………………………
Phản biện 2: …………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ
tại Học viện Công nghệ Bưu chính Viễn thông.
Vào lúc: giờ ngày tháng năm 2012
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
26
KẾT LUẬN
Luận văn “ Phươngphápkhaiphádữliệubằngcây
quyết định” đã trình bày một số kết quả sau đây:
Những nghiên cứu về khaiphádữliệu và ứng dụng
trong nhiều lĩnh vực khác nhau nhằm khai thác nguồn dữliệu
phong phú được lưu trữ trong các hệ thống thông tin. Khaiphá
dữ liệu cũng được áp dụng nhiều trong việc tư vấn, dự báo , đặc
biệt là những ứng dụng cho tư vấn trong lĩnh vực giáo dục.
Khai phádữliệu có rất nhiều hướng tiếp cận (nhiều
nhiệm vụ, mục đích), nhưng có 3 nhiệm vụ phổ biến là: Luật
kết hợp (Association rules), Phân cụm (Clustering) và Phân loại
(Classification). Trong đó nhiệm vụ phát hiện và phân loại là
một trong những nhiệm vụ được quan tâm, nghiên cứu nhiều
nhất.
Tìm hiểu được những ưu điểm cũng như những khó
khăn trong việc đào tạo theo tín chỉ, sử dụng phần mềm mã
nguồn mở Weka cho việc sinh ra các luật kết hợp nhằm phục
vụ việc phân loại. Xây dựng một hệ thống tư vấn môn học cho
sinh viên nhằm trợ giúp sinh viên định hướng được trong việc
lựa chọn môn học,chuyên ngành học phù hợp.
Hướng phát triển tiếp theo của luận văn:
Để quá trình đào tạo theo tín chỉ hoạt động có hiệu quả,
cần thiết phải xây dựng một hệ thống hoàn chỉnh hỗ trợ cả quá
trình đào tạo (xây dựng thêm nhiều chức năng: sắp xếp lịch
học, thời khóa biểu, đăng ký học trực tuyến,…)
Hiện nay, dữliệu được lưu trữ ngày một tăng, để ứng dụng khai
phá dữliệu vào các bài toán này cần tiếp tục nghiên cứu các
phương pháp xử lý cho bài toán với dữliệu lớn. xem xét nghiên
cứu thêm một số ứng dụng khác của Khaiphádữ liệu.
3
MỞ ĐẦU
Trong thời đại ngày nay, yếu tố quyếtđịnh thành công
trong mọi lĩnh vực luôn gắn liền với việc nắm bắt, thống kê và
khai thác thông tin hiệu quả. Dữliệu ngày càng lớn nên việc
tìm ra những thông tin tiềm ẩn trong chúng càng khó khăn hơn.
Khám phá tri thức là một lĩnh vực nghiên cứu mới, mở
ra một thời kỳ trong việc tìm ra thông tin hữu ích. Nhiệm vụ cơ
bản của lĩnh vực này là khám phá tri thức trong cơ sở dữ liệu,
khám phádữliệu trong cơ sở dữliệu không phải là một hệ
thống phân tích tự động mà là một quá trình tương tác thường
xuyên giữa con người với cơ sở dữliệu được sự trợ giúp của
nhiều phươngpháp và công cụ tin học.
Nội dung luận văn tôi xin trình bày bao gồm ba chương:
Chương một giới thiệu chung về công nghệ khám phá
trí thức, các khái niệm cơ bản, ý nghĩa và tầm quan trọng của
việc khám phá tri thức.
Chương hai trình bày các phươngphápkhaiphádữliệu
bằng câyquyết định, khái niệm cơ bản về câyquyết định, các
thuật toán ID3, C4.5, và rút gọn các luật quyết định.
Chương ba là xây dựng chương trình thử nghiệm cho
bài toán Tư vấn chọn chuyên ngành phù hợp với khả năng sinh
viên tại Đai học Phương Đông.
Tôi xin bày tỏ sự biết ơn sâu sắc của mình tới PGS.TS
Vũ Đức Thi người đã trực tiếp hướng dẫn, chỉ bảo tận tình,
cung cấp tài liệu và phươngpháp luận nghiên cứu khoa học để
tôi hoàn thành bản luận văn này. Tôi xin gửi lời cảm ơn tới các
thầy cô giáo đã dạy dỗ trong quá trình tôi theo học tại Học viện.
Trong suốt quá trình nghiên cứu, mặc dù đã hết sức cố
gắng nhưng chắc chắn luận văn không tránh khỏi những thiếu
sót, rất mong quý thầy cô góp ý để luận văn được hoàn chỉnh
hơn.
4
Chương 1- GIỚI THIỆU CHUNG VỀ CÔNG NGHỆ
KHÁM PHÁ TRI THỨC
1.1. Phát hiện tri thức và khaiphádữ liệu.
Trong thời đại bùng nổ công nghệ thông tin hiện nay, và
các cộng nghệ lưu trữ dữliệu ngày càng phát triển tạo điều kiện
cho các đơn vị thu thập dữliệu tốt hơn. Đặc biệt trong các lĩnh
vực kinh doanh và quản lý, các doanh nghiệp, công ty đã nhận
được tầm quan trọng của việc nắm bắt và xử lý thông tin, nhằm
giúp các chủ công ty, doanh nghiệp trong việc vạch ra các chiến
lược kinh doanh kịp thời mang lại những lợi nhuận to lớn cho
doanh nghiệp của mình. Tất cả lý do đó khiến cho các cơ quan,
doanh nghiệp đã tạo ra một lượng dữliệu khổng lồ cỡ Gigabyte
thậm chí là Terabyte.
Nhiều người coi khaiphádữliệu và khám phá tri thức
trong cơ sở dữliệu là như nhau, tuy nhiên trong thực tế chúng
có quan hệ mật thiết với nhau, khaiphádữliệu chỉ là một bước
thiết yếu trong quá trình phát hiện tri thức trong cơ sở dữ liệu.
1.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu.
Quá trình phát hiện tri thức có thể chia thành các bước
như sau:
- Làm sạch dữliệu (Data cleaning): Loại bỏ
những dữliệu nhiễu, không thích hợp, dư thừa hoặc
không đầy đủ.
- Tích hợp dữliệu (Data intergration):Tích hợp dữ
liệu từ nhiều nguồn khác nhau
- Lựa chọn dữliệu (Data selection): Chọn những
dữ liệu có liên quan trực tiếp đến nhiệm vụ.
- Chuyển đổi dữliệu (Data transformation): Các
dữ liệu sau khi được xử lý ở các giai đoạn trên được biến
đổi về dạng phù hợp với việc khai phá.
25
Hình 3.8 : Giao diện truy cập demo
24
Phần 2: Tư vấn cho người dùng.
Chương trình được viết trên giao diện Web, sử dụng
ngôn ngữ lập trình ASP. NET. Đưa các luật được sinh ra từ
phần 1 vào cơ sở dữliệu SQL server của Website, ta có bảng
luật lưu trữ các luật định hướng chuyên ngành. Ngoài ra có các
bảng liên quan như bảng môn học, bảng sinh viên, bảng điểm
của người dùng cập nhật.
Xây dựng chương trình cho phép:
- Người dùng cập nhật điểm các môn đại cương.
- Yêu cầu hệ thống đưa ra các luật định hướng chuyên
ngành
Chương trình sẽ hiện thị ra các luật cùng với độ tin cậy
của luật đó.
Sau khi người dùng cập nhật điểm môn đại cương của
mình, toàn bộ số điểm đó sẽ được lưu vào một bảng
“bangdiem” trong cơ sở dữliệu SQL, (bangdiem bao gồm các
trường mammon, diem, loai).
Với mỗi luật ta so sánh cặp giá trị mammon (mã môn)
và loai (loại điểm) trong vế trái của luật đó với từng cặp giá trị
mammon (mã môn) và loai (loại điểm) trong bangdiem (bảng
điểm đại cương mà người dụng vừa cập nhật). Nếu tất cả các
cặp mammon (mã môn) và loai (loại điểm) đều có mặt trong
bảng điểm thì luật đó sẽ là luật được đưa ra tư vấn. Trong
trường hợp có một cặp mã môn _ loại điểm không thuộc trong
bảng điểm, thì luật đó sẽ không được tư vấn cho người dùng.
3.4. Xây dựng và thiết kế giao diện của chương trình.
Sinh viên sử dụng mạng Internet để vào phần cổng
thông tin Đại học Phương Đông: http://dhpd.edu.vn/
5
- Lựa chọn thuật toán khaiphá (Choosing the data
mining algorithms): Lựa chọn các phươngpháp phù hợp
với dữliệu hiện có và nhiệm vụ đề ra.
- Khaiphádữliệu (Data mining): Đây là bước
quan trọng nhất của quá trình, ta sử dụng thuật toán đã
chọn để trích xuất ra những thông tin hữu ích, có tiềm
năng.
- Đánh giá mẫu (Pattern evaluation): Các mẫu, tri
thức được đánh giá dựa trên các tiêu chí sẵn có.
- Trình diễn tri thức (Knowledge representation):
Đây là bước cuối cùng, tại bước này dữliệu được củng cố,
biểu diễn và sử dụng.
Hình 1.1. Quá trình khám phá tri thức từ cơ sở dữ liệu.
1.2.1. Xác định vấn đề.
1.2.2. Thu thập và xử lý dữ liệu.
1.2.3. Khai thác dữ liệu.
1.2.4. Minh họa, đánh giá và đưa kết quả vào thực tế.
1.3. Khaiphádữ liệu.
1. hi
ểu v
à xác đ
ịnh
v
ấn đề
2. Thu th
ập v
à ti
ền xử
lý d
ữ liệu
3. Khai thác dữliệu – trích
ra các m
ẫu/mô h
ình
4. Minh h
ọa v
à đánh
giá tri thức
5. Đưa k
ết quả v
à
o
th
ực tiễn
6
1.3.1. Các quan niệm về khaiphádữ liệu.
Khai phádữliệu là tập hợp các thuật toán nhằm
chiết xuất những thông tin có ích từ kho dữliệu khổng lồ.
Khai phádữliệu được định nghĩa như một quá trình
phát hiện mẫu trong dữ liệu, quá trình này có thể là tự động
hay bán tự động, song phần nhiều là bán tự động. Các mẫu
được phát hiện thường hữu ích theo định nghĩa:các mẫu
mang lại cho người sử dụng một lợi thế nào đó, thường là
lợi ích về kinh tế.
Khai phádữliệu giống như quá trình tìm ra và mô
tả mẫu dữ liệu. Dữliệu như là một tập hợp các vật hay sự
kiện, còn đầu ra của quá trình khaiphádữliệu thường như
là những dự báo của các vật hay các sự kiện mới.
Khai phádữliệu được áp dụng trong các cơ sở dữ
liệu quan hệ, giao dịch, cơ sở dữliệu không gian, cũng như
các kho dữliệu phi cấu trúc, mà điển hình là World Wide
Web.
Khám phá tri thức là quá trình nhận biết các mẫu
hoặc các mô hình trong dữliệu với các tính chất: Đúng đắn,
mới, khả ích và có thể hiểu được. Khaiphádữliệu là một
bước trong quá trình khám phá tri thức bao gồm các thuật
toán khaiphádữliệu chuyên dùng dưới một số quy định về
hiệu quả tính toán chấp nhận được để tìm ra các mẫu và các
mô hình trong dữ liệu.
Như vậy, mục đích của khám phá tri thức và khai
phá dữliệu là tìm ra các mẫu hoặc mô hình đang tồn tại
trong các cơ sở dữliệu nhưng vẫn còn bị khuất bởi số lượng
dữ liệu khổng lồ.
1.3.2. Nhiệm vụ của khaiphádữ liệu.
* Phân cụm, phân nhóm, phân loại, phân lớp. Nhiệm vụ
này trả lời câu hỏi: Một dữliệu mới thu thập được sẽ thuộc về
23
Giai đoạn 1: Sử dụng dữliệu sau khi đã xây dựng để tiến hành
tập huấn. Tìm tất cả các tập mục thường xuyên.
Giai đoạn 2: Khaiphá luật kết hợp.
3.3.3. Thiết kế cơ sở dữ liệu.
Tiến hành xây dựng cơ sở dữliệu với các bảng sau:
Bảng 3.1 : Lưu trữ danh sách sinh viên toàn trường
Bảng 3.2: Lưu trữ danh sách các môn học trong trường
Bảng 3.3: Lưu trữ danh sách sinh viên đã tốt nghiệp.
3.3.4. Tập huấn và xử lý dữ liệu.
Phần 1: khaiphádữ liệu.
Trong phần này, phần mềm Weka được sử dụng để sinh
ra các luật kết hợp từ dữliệu thu thập được. Trường Đại học
Phương Đông cung cấp cho dữliệu về cựu sinh viên, dữliệu
được cung cấp với các thông tin về điểm của sinh viên, các
môn học, điểm tổng kết.
Các bước chuẩn bị dữ liệu:
Xóa bỏ và sửa chữa dữliệu theo một định dạng cụ thể
nhưng không làm mất đi tính chính xác của dữ liệu.
Các môn học có điểm sẽ được sẽ được phân thành các
loại điểm cụ thể như sau:
Trung bình (TB): Nếu điểm môn học trong khoảng 4.5
đến 6.4;
Khá (K): Nếu điểm môn học trong khoảng 6.5 đến 7.9;
Giỏi (G): Nếu điểm môn học trong khoảng 8 đến 10;
Ta cần dự đoán điểm của các ngành tốt nghiệp trên cơ
sở các môn học đại cương, vì vậy sẽ giữ lại thông tin về điểm
các môn học đại cương.
22
khoa nào đó, hay nói cách khác là các môn mà các
chuyên ngành thuộc một khoa nào đó phải học
Môn chuyên ngành: đây là những môn dạng chuyên
ngành hẹp của riêng từng ngành.
Một số đặc điểm cơ bản của đào tạo tín chỉ:
Sinh viên chủ động đăng ký môn học theo một tiến trình
được sắp xếp trước.
Sinh viên sẽ tốt nghiệp sau khi hoàn thành khoảng 90
tín chỉ trình đại cương, và 120 tín chỉ trình chuyên ngành.
Sinh viên dễ dàng chuyển đổi chuyên ngành mà vẫn
được bao lưu điểm tương ứng và có thể đăng ký học thêm
chuyên ngành hai.
Sinh viên chủ động sắp xếp lịch học của mình sao cho
phù hợp với sức học, và tài chính của mình.
Sinh viên có thể học lại, thi lại các môn với các lớp sau mà
không cần tổ chức thi lại.
3.3.2. Mô tả hệ thống dữliệu của bài toán.
Bài toán đặt ra: Cho một kho dữliệu lưu giữ các thông
tin về kết quả học tập của sinh viên đã tốt nghiệp. Hãy tìm ra
những quy luật lựa chọn các chuyên ngành một cách hợp lý sao
cho đạt được kết quả tốt nhất.
Nhằm mục đích này người ta mong muốn nhận được từ
dữ liệu những phát biểu như: “80% sinh viên học tốt môn Kinh
tế chính trị và Tiếng Anh khá thì tốt nghiệp chuyên ngành Kế
toán ngân hàng loại giỏi”, …
Để đạt được những phát biểu như trên, chúng ta sử dụng các
thuật toán Khaiphá luật kết hợp từ cơ sở dữ liệu. Mặc dù hiện
tại đã có nhiều thuật toán khaiphádữliệu với luật kết hợp
nhưng nhìn chung mỗi thuật toán đều qua hai giai đoạn.
7
nhóm nào? Qúa trình này thường được thực hiện một cách tự
động.
* Khaiphá luật kết hợp. Nhiệm vụ là phát hiện ra
những mối quan hệ giống nhau của các bản ghi giao dịch. Luật
kết hợp X => Y có dạng tổng quát là: Nếu một giao dịch đã sở
hữu các tính chất X thì đồng thời nó cũng sở hữu các tính chất
Y, ở một mức độ nào đó. Khaiphá luật kết hợp được hiểu theo
nghĩa: Biết trước các tính chất X, vậy các tính chất Y là những
tính chất nào?
* Lập mô hình dự báo, bao gồm 2 nhiệm vụ: Hoặc là
phân nhóm dữliệu vào một hay nhiều lớp dữliệu đã xác định
từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ
liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của các
trường hợp khác.
* Phân tích đối tượng ngoài cuộc: Một cơ sở dữliệu có
thể chứa các đối tượng không tuân theo mô hình dữ liệu. Các
đối tượng dữliệu như vậy gọi là các đối tượng ngoài cuộc, hầu
hết các phươngphápkhaiphádữliệu đều coi các đối tượng
ngoài cuộc là nhiễu và loại bỏ chúng. Tuy nhiên trong một số
ứng dụng, chẳng hạn như phát hiện nhiễu thì sự kiện hiếm khi
xảy ra lại được chú ý hơn những gì thường xuyên gặp phải. Sự
phân tích dữliệu ngoài cuộc được coi như là khaiphá các đối
tượng ngoài cuộc, một số phươngpháp được ứng dụng để phát
hiện đối tượng ngoài cuộc.
1.3.3. Một số ứng dụng khaiphádữliệu
Hiện nay, kỹ thuật khaiphádữliệu đang được áp dụng
một cách rộng rãi trong rất nhiều lĩnh vực kinh doanh và trong
đời sống khác nhau như:
- Thương mại: Phân tích dữliệu bán hàng và thị
trường, phân tích đầu tư, quyếtđịnh trong các lĩnh vực tài
chính, ngân hàng, …
8
- Thông tin sản xuất: Điều khiển và lập kế hoạch,
hệ thống quản lý, phân tích kết quả thử nghiệm, …
- Thông tin khoa học: Dự báo thời tiết, khaiphá
cơ sở dữliệu sinh học ngân hàng gen, …
- Trong các lĩnh vực khác như Y tế, giáo dục, viễn
thông, du lịch, …
1.3.4. Các kỹ thuật khaiphádữ liệu.
Thường được chia thành hai nhóm chính:
- Kỹ thuật khaiphádữliệu mô tả: có nhiệm vụ
mô tả về các tính chất hoặc các đặc tính chung của dữ
liệu string hiện có. Các kỹ thuật này bao gồm: Phân cụm
(Clustering), tóm tắt (Summerization), trực quan hóa
(Visualization), phân tích sự phát triển và độ lệch
(Evolution and Deviation analyst), phân tích luật kết hợp
(Association rules), …
- Kỹ thuật khaiphádữliệudự đoán: Có nhiệm vụ
đưa ra các dự đoán dựa vào các suy diễn trên dữliệu hiện
thời. Các kỹ thuật này gồm có: Phân lớp (Classifacation),
hồi quy (regession), …
Tuy nhiên, chỉ có một số phươngpháp thông dụng nhất
là: Phân cụm dữ liệu, phân lớp dữ liệu, phươngpháp hồi quy,
và khaiphá luật kết hợp.
1.3.5. Kiến trúc của hệ thống khaiphádữ liệu.
Kiến trúc của hệ thống khaiphádữliệu có các thành
phần như sau:
- Cơ sở dữ liệu, kho dữ liệu: Đó là một hoặc nhiều
tập cơ sở dữ liệu, kho dữ liệu,… Các kỹ thuật làm sạch
dữ liệu, tích hợp, lọc dữliệu có thể thực hiện trên dữ liệu.
- Cơ sở dữliệu hoặc kho dữliệu phục vụ: Là kết
quả lấy dữliệu có liên quan trên cơ sở khaiphádữliệu
của người dùng.
21
Server computer. Một RDBMS bao gồm databases, database
engine và các ứng dụng dùng để quản lý dữliệu và các bộ phận
khác nhau trong RDBMS.
SQL Server cung cấp các công cụ quản trị và phát triển để cho
người sử dụng dễ dàng cài đặt, sử dụng và quản lý hệ thống.
SQL Server được sử dụng trong luận văn với mục đích
lưu trữ các dữliệu liên quan đến luật để phục vụ cho quá trình
truy vấn của sinh viên.
3.2.3. Ngôn ngữ lập trình ASP.NET
ASP.NET 2.0 là công nghệ được sử dụng rộng rãi nhất
hiện nay. Công nghệ này cho phép xây dựng những ứng dụng
web hoàn chỉnh có qui mô lớn, độ phức tạp và yêu cầu bảo mật
cao. ASP.NET 2.0 là một phần trong kiến trúc .NET
Framework 2.0 được Microsoft thiết kế nhằm hướng tới những
ứng dụng bảo mật, tin cậy và hiệu suất trên môi trường Internet.
Áp dụng công nghệ ASP.NET cho việc xây dựng và
thiết kế trang web, và sử dụng môi trường internet giao tiếp với
người sử dụng.
3.3. Phân tích và thiết kế hệ thống.
3.3.1. Giới thiệu về mô hình đào tạo theo tín chỉ.
Trường Đại học Phương Đông được thành lập từ năm
1994 và có 5 khoa với 15 chuyên ngành đào tạo, và từ năm
2005 Trường có chuyển từ hình thức đào tạo niên chế sang đào
tạo tín chỉ theo quy định của Bộ giáo dục. Với hình thức đào
tạo này sinh viên có thể chủ động về thời gian học tập, tài chính
sao phù hợp nhất. Sau đây chúng ta xét một số đặc điểm cơ bản
theo hình thức tín chỉ tại Trường Đại học Phương Đông.
Giáo dục đại cương: bao gồm các môn theo khung của
Bộ giáo dục và một số môn đặc thù của Trường.
Giáo dục chuyên ngành gồm có 2 phần
Môn cơ sở khối ngành: là môn cơ sở bắt buộc với một
20
Hình 3.1 Giao diện phần mềm Weka
Trong phần Application có 4 mục lựa chọn:
Explorer: Sử dụng menu lựa chọn. Explorer sử
dụng cho những bộ dữliệu vừa và nhỏ.
Experimenter: Cho phép người dùng thực hiện
những bài tập cơ bản khi ứng dụng phân lớp và kỹ thuật
hồi quy, với những công việc có giá trị, phươngpháp và
tham số tốt nhất cho vấn đề đã cho. Cho phép bạn tự động
hóa xử lý, làm cho nó phân lớp và lọc dễ dàng với những
cách thiết lập tham số khác nhau trên toàn bảngdữ liệu.
KnowledgeFlow: Cho phép người dùng kéo thả
những chiếc hộp tượng trưng cho các giải thuật và dữliệu
để kết nối chúng lại với nhau và đưa ra cấu trúc.
Simple CLI: Sử dụng câu lệnh thực thi.
3.2.2. Hệ quản trị cơ sở dữliệu SQL 2000 server
SQL Server 2000 là một hệ thống quản lý cơ sở dữliệu
(Relational Database Management System (RDBMS) ) sử dụng
Transact-SQL để trao đổi dữliệu giữa Client computer và SQL
9
- Cơ sở tri thức: Đó là lĩnh vực tri thức được sử
dụng để hướng dẫn việc tìm hoặc đánh giá các mẫu kết
quả thu được.
- Mô tả khaiphádữ liệu: Bao gồm tập các modul
chức năng để thực hiện các nhiệm vụ mô tả các đặc điểm,
kết hợp, phân lớp, phân cụm dữ liệu,…
- Đánh giá mẫu: Thành phần này sử dụng các độ
đo và tương tác với modul khaiphádữliệu để tập chung
vào tìm các mẫu quan tâm.
- Giao diện người dùng: Đây là modul giữa người
dùng và hệ thống khaiphádữ liệu, cho phép người dùng tương
tác với hệ thống trên cơ sở những truy vấn hay tác vụ, cung cấp
thông tin cho việc tìm kiếm.
1.3.6. Những khó khăn trong khaiphádữ liệu.
- Dữliệu lớn.
- Kích thước lớn.
- Dữliệu động.
- Các trường dữliệu không phù hợp.
- Các giá trị bị thiếu.
- Các trường dữliệu bị thiếu.
1.4. Một số phươngphápkhaiphádữ liệu.
1.4.1. Câyquyết định.
Để xây dựng câyquyếtđịnh có nhiều cách song tựu
trung ta có một khung chung cho quá trình này như sau:
- Lựa chọn thuộc tính “tốt nhất” nhờ một độ đo lựa chọn
(thường là Entropy).
- Mở rộng câybằng cách thêm vào các nhánh mới với
từng giá trị thuộc tính.
- Sắp xếp các mẫu huấn luyện cho các nút lá.
- Kiểm tra: nếu mẫu huấn luyện đã được phân loại thì
dừng, ngược lại thì lặp lại quá trình trên cho mỗi nút lá.
10
- Tỉa bớt những nút lá không ổn định.
1.4.2. Luật kết hợp.
Chẳng hạn như có luật: âm nhac, thể thao => thiếu nhi,
nghĩa là những người mua sách âm nhạc và thể thao thì cũng
mua sách thiếu nhi. Lúc đó ta sẽ quan tâm đến số lượng trường
hợp khách hàng thỏa mãn luật này trong cơ sở dữliệu hay độ
hỗ trợ (Support) cho luật này. Độ hỗ trợ cho luật chính là phần
trăm số bản ghi có cả sách âm nhạc, thể thao và thiếu nhi hay
tất cả những người thích cả ba loại sách nói trên.
Tuy nhiên, giá trị độ hỗ trợ là không đủ, có thể có trường
hợp ta có một nhóm tương đối những người đọc cả ba loại trên
nhưng lại có một nhóm với lực lượng lớn hơn những người
thích sách thể thao, âm nhạc mà không thích sách thiếu nhi.
Trong trường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ
tương đối cao, như vậy chúng ta cần thêm một độ đo thứ hai đó
là độ tin cậy (confidence). Độ tin cậy chính là phần trăm các
bản ghi có sách thiếu nhi trong số các bản ghi có sách âm nhạc
và thể thao.
1.4.3. Mạng Nơron.
Có nhiều kiến trúc khác nhau cho mạng nơron và mỗi
trong số chúng sử dụng các cách kết nối mạng khác nhau và
chiến lược học khác nhau để thực hiện các nhiệm vụ. Khi sử
dụng mạng nơron chúng ta phải phân biệt hai giai đoạn: giai
đoạn mã hóa trong mạng nơron được học trên các mẫu dữliệu
huấn luyện, thực hiện một nhiệm vụ nào đó và giai đoạn giải
mã trong đó mạng được sử dụng để phân lớp, làm dự báo hoặc
thực hiện bất cứ nhiệm vụ học nào liên quan. Có nhiều dạng
mạng nơron nhưng về cơ bản có các loại chính sau:
- Perceptrons
- Mạng lan truyền ngược (Back propagation networks)
- Mạng tự tổ chức Konhonen (Kohonen self –
organizedmap)
19
Chương 3- XÂY DỰNG CHƯƠNG TRÌNH ỨNG DỤNG
KHAI PHÁDỮLIỆU
“Tư vấn lựa chọn chuyên ngành tại trường đại học
Phương Đông”
3.1. Giới thiệu khaiphádữliệu trong giáo dục.
Các nhà nghiên cứu về việc khaiphádữliệu trong giáo
dục tập chung vào nhiều vấn đề bao gồm việc học của cá nhân
từ phần mềm giáo dục, học cộng tác với sự giúp đỡ của máy
tính, kiểm nghiệm khả năng thích ứng với máy tính, và nhiều
nhân tố được kết hợp với các sinh viên không có khả năng hoặc
thiếu định hướng trong quá trình học tập.
Mỗi lĩnh vực chính của việc ứng dụng khaiphádữliệu
vào giáo dục là phát triển các mô hình hướng đối tượng sinh
viên. Các mô hình sinh viên thể hiện thông tin về một nét đặc
trưng hay tình trạng của sinh viên, như kiến thức hiện tại của
sinh viên, động cơ thúc đẩy học tập, quan điểm nguyện vọng
của sinh viên, … Việc ứng dụng khaiphádữliệu trong giáo
dục đóng vai trò rất quan trọng trong việc phát triển giáo dục
cũng như trợ giúp đáng kể cho các hoạt động giáo dục.
3.2. Các công cụ sử dụng trong thiết kế chương trình.
3.2.1. Phần mềm mã nguồn mở Weka.
Weka đã được phát triển ở trường Đại học Waikato và là tên
viết tắt của Waikato Environment for Knowledge Analysis, hệ
thống này được viết bằng ngôn ngữ Java, chạy trên bất kỳ
flatform nào, đã được thử nghiệm với Linux và Windows, và hệ
điều hành Macintosh. Nó cung cấp một giao diện thống nhất
với nhiều thuật toán khác nhau, cùng với các phươngpháp cho
việc xử lý trước, xử lý sau và dành cho việc đánh giá kết quả
của các sơ đồ học trên bất kỳ tập dữliệu cho trước nào.
Giao diện chính của phần mềm weak:
[...]... 2- PHƯƠNG PHÁP KHAIPHÁDỮLIỆU BẰNG CÂYQUYẾTĐỊNH 2.1 Câyquyếtđịnh 2.1.1 Giới thiệu Giả sử có một bài toán đặt ra là phải phân loại các căn bệnh và các triệu chứng bệnh, chúng ta có thể giải quyết vấn đề này bằng các cách truyền thống như thống kê (Statistics) hoặc máy học (Machine learning) Nhưng ngày nay, với lượng dữliệu quá lớn thì các phươngpháp cũ có nhiều hạn chế, khaiphá 12 17 dữ liệu. .. Độ cao, mức: trong một cây, độ cao của một đỉnh a là độ dài của đường đi dài nhất từ a đến một lá Độ cao của gốc được gọi là độ cao của cây, mức của đỉnh a là độ dài của đường đi từ gốc đến a 2.1.3 Ưu điểm của câyquyếtđịnh So với các phương phápkhaiphádữliệu khác, câyquyếtđịnh là phươngpháp có một số ưu điểm: Câyquyếtđịnh dễ hiểu Người ta có thể hiểu mô hình câyquyếtđịnh sau khi được giải... các quyếtđịnh dựa trên thống kê, nên kết quả tìm kiếm của ID3 rất ít bị ảnh hưởng bởi một vài dữ liệu sai (hay dữliệu nhiễu) Trong quá trình tìm kiếm, giải thuật ID3 có xu hướng chọn câyquyếtđịnh ngắn hơn là những câyquyếtđịnh dài 2.2.6 Đánh giá hiệu suất của câyquyếtđịnh Để đánh giá hiệu suất của một câyquyếtđịnh người ta thường sử dụng một tập ví dụ tách rời, tập này khác với tập dữ liệu. .. (information gain), khả năng giảm sai số, Nếu kết quả đánh giá nhỏ hơn một ngưỡng cho trước thì dừng quá trình tách tập dữliệu và cây cho tập dữliệu này chỉ là một lá 2.4.2 Phươngpháp tỉa cây sau Khác với phươngpháp trên, quá trình tỉa cây sau chỉ được thực hiện khi đã có một câyquyếtđịnh hoàn chỉnh 16 13 c SplitInformation(S,A) = - i 1 Si S log 2 Si S GainRatio: Sự đánh giá thay đổi các giá trị... bị thiếu không nhiều) 2.3.4 Thí dụ mô phỏng thuật toán C4.5 2.4 Cắt tỉa cây 2.4.1 Phươngpháp tỉa cây trước Theo phươngpháp này, quá trình tỉa cây được thực hiện ngay trong khi dựng cây Ta sẽ dừng việc chia nhỏ một tập dữliệu nếu việc phân chia này không đem lại hiệu quả Ðể xác định được điểm dừng, cần đánh giá việc tách tập dữliệu theo một tiêu chuẩn nào đó như giá trị thông tin (information gain),... Khi đó, việc chia một tập dữliệu thành quá nhiều các tập con dẫn đến số lượng các lớp tại mỗi nút giảm và do đó Entropy trên thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng Câyquyếtđịnh có thể xử lý cả dữliệu có giá trị bằng số và dữliệu có giá trị là tên thể loại Các kỹ thuật khác thường chuyên để phân tích các bộ dữliệu chỉ gồm một loại biến... thuyết các câyquyếtđịnh của ID3 là một không gian đầy đủ các câyquyếtđịnh trên các thuộc tính đã cho trong tập rèn luyện Điều này có nghĩa là không gian mà ID3 tìm kiếm chắc chắn có chứa câyquyếtđịnh cần tìm Trong khi tìm kiếm, ID3 chỉ duy trì một giả thuyết hiện tại Vì vậy, giải thuật này không có khả năng biểu diễn được tất cả các câyquyếtđịnh khác nhau có khả năng phân loại đúng dữliệu hiện...18 Phươngpháp này sẽ loại bỏ một số phần trên cây nhằm tối thiểu hoá sai số dự đoán Tỉa cây sau tuy gây ra tốn kém về mặt thời gian và bộ nhớ do tạo ra các nút dư thừa nhưng cây thu được sau khi tỉa thường đạt được độ chính xác phân lớp cao Vì những lí do trên, quá trình thu gọn cây thường được thực hiện bằngphươngpháp tỉa cây sau 2.5 Thuật toán rút gọn các luật quyếtđịnh Sau khi sinh... Việc chuẩn bị dữliệu cho một câyquyếtđịnh là cơ bản hoặc không cần thiết Các kỹ thuật khác Thuộc tính thiếu giá trị: Nếu giá trị của thuộc tính A bị mất trên một số bộ dữ liệu, hướng giải quyết sẽ thế nào ? Giả sử rằng (x, C(x)) là một trong những tập huấn luyện trong S và giá trị A(x) là không được biết đến Giải pháp: - Thay bằng giá trị xuất hiện nhiều nhất của thuộc tính A - Thay bằng giá trị... cũ có nhiều hạn chế, khaiphá 12 17 dữliệu có thể giải quyết vấn đề với lượng dữliệu khổng lồ Một trong những kỹ thuật khaiphá là phân loại (Classification), với kỹ thuật này chúng ta phân tích dữliệu và sinh ra một tập các luật, các luật này được dùng để phân loại dữliệu mới (Future data) Phân loại gồm tìm ra các luật hoặc tìm ra câyquyếtđịnh sẽ được trình bày trọng tâm trong luận văn này 2.1.2 .
2.1.3. Ưu điểm của cây quyết định.
So với các phương pháp khai phá dữ liệu khác, cây
quyết định là phương pháp có một số ưu điểm:
Cây quyết định dễ hiểu khai phá dữ liệu.
Khai phá dữ liệu là tập hợp các thuật toán nhằm
chiết xuất những thông tin có ích từ kho dữ liệu khổng lồ.
Khai phá dữ liệu được định