1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng mô hình phân lớp bài báo bằng phương pháp kết hợp boosting

57 568 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 57
Dung lượng 2,95 MB

Nội dung

Theo định nghĩa của các nhà nghiên cứu YH Tseng [8], khai phá văn bản là việc xử lý các qua tài liệu văn bản hoặc các kho dữ liệu để có được những thông tin dạng thô hoặc không có cấu tr

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ

XÂY D ỰNG MÔ HÌNH PHÂN LỚP BÀI BÁO BẰNG

PHƯƠNG PHÁP KẾT HỢP BOOSTING

Giáo Viên hướng dẫn: TS Nguyễn Đình Hoa Cương

Sinh viên thực hiện: Võ Đức Nguyên

Trang 2

L ỜI CÁM ƠN

thành nhất của mình đến những người đã hỗ trợ, giúp đỡ em về mọi mặt trong quá

Thứ nhất, em xin chân thành cám ơn TS Nguyễn Đình Hoa Cương, Giảng

thực hiện đề tài

Lotus Outsourcing đã giúp đỡ em rất nhiệt tình từ việc tìm tài liệu cho đến kinh nghiệm để em hoàn tốt đề tài này

khóa luận tốt nghiệp lần này

không tránh khỏi những thiếu sót, em rất mong nhận được sự đóng góp của quý

Em xin chân thành cám ơn!

Sinh viên thực hiện

Trang 3

M ỤC LỤC

PH ẦN MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục tiêu nghiên cứu 1

3 Phương pháp nghiên cứu 2

4 Bố cục báo cáo khĩa luận 2

PHẦN NỘI DUNG 3

CHƯƠNG I: CƠ SỞ LÝ THUYẾT 3

1.1 Tổng quan về khám phá tri thức và khai phá dữ liệu 3

1.1.1 Khám phá tri thức và quy trình khám phá tri thức 3

1.1.2 Khai phá dữ liệu 5

1.1.3 Các phương pháp chính trong khai phá dữ liệu 5

1.1.4 Ứng dụng của khai phá dữ liệu 6

1.2 Tổng quan về khai phá văn bản 7

1.2.1 Khái niệm khai phá văn bản 7

1.2.2 Quy trình khai phá văn bản 8

1.2.3 Một số bài tốn trong khai phá văn bản 9

1.3 Phát biểu bài tốn phân lớp tin tức 9

1.4 Các cơng trình liên quan 10

1.5 Một số mơ hình phân lớp được sử dụng trong khĩa luận 22

1.5.1 Mơ hình phân lớp kết hợp Boosting (Adaboost) 22

1.5.2 Mơ hình phân lớp Support Vector Machines (SVM) 23

1.5.3 Mơ hình phân lớp cây quyết định (J48) 26

1.5.4 Mơ hình phân lớp k- Lân cận (kNN) 26

1.5.5 Mơ hình phân lớp Nạve Bayes 27

CHƯƠNG II: QUY TRÌNH XÂY DỰNG MƠ HÌNH PHÂN LỚP VĂN BẢN B ẰNG PHƯƠNG PHÁP BOOSTING DỰA TRÊN MƠ HÌNH PHÂN LỚP SVM 29

2.1 Quy trình xây dựng mơ hình phân lớp văn bản 29

2.2 Mơ hình vector trong quá trình phân lớp văn bản 30

I H ỌC

KINH

TẾ HU

Trang 4

2.2.1 Mô hình giỏ từ (Bag-of-Words) 30

2.2.2 Phương pháp tính trọng số TF-IDF 30

2.3 Loại bỏ từ thừa (stopwords) 31

2.4 Đặc trưng bài toán phân lớp văn bản 32

2.5 Các phương pháp chuẩn bị dữ liệu 32

2.5.1 Phương pháp Hold-Out 33

2.5.2 Phương pháp K – Fold Cross Validation 33

2.6 Phương pháp đánh giá các mô hình phân lớp 35

2.6.1 Độ chính xác (Accuracy) 35

2.6.2 Phương pháp đánh giá theo Precision và Recall 35

2.6.3 Phương pháp đánh giá F1-score 36

2.6.4 Phương pháp đánh giá ma trận nhầm lẫn (Confusion Matrix) 37

2.6.5 Phương pháp đánh giá bằng đường ROC 38

CHƯƠNG III: XÂY DỰNG THÍ NGHIỆM 39

3.1 Xây dựng mô hình phân lớp tin tức tự động 39

3.1.1 Thu thập dữ liệu và tiền xử lý dữ liệu 39

3.1.2 Xây dựng mô hình 40

3.2 Kết quả thí nghiệm 42

3.2.1 Hiệu năng của các mô hình 42

3.2.2 Đường ROC của các mô hình phân lớp 43

3.2.3 Ma trận nhãn lớp của mô hình phân lớp 45

3.3 Ứng dụng mô hình vào phần mềm tổng hợp tin tức tự động 46

PHẦN KẾT LUẬN 48

DANH MỤC TÀI LIỆU THAM KHẢO vii

I H ỌC

KINH

TẾ HU

Trang 5

DANH M ỤC HÌNH VẼ

Hình 1 1: Quy trình khám phá tri thức 3

Hình 1 2: Quy trình khai phá văn bản 8

Hình 1 3: Mô hình phân lớp kết hợp Boosting – Adaboost 23

Hình 1 4: Cơ chế hoạt động của mô hình cơ sở SVM 24

Hình 1 5: Cơ chế hoạt động của mô hình phân lớp cơ sở SVM 24

Hình 1 6: Cơ chế hoạt động của mô hình phân lớp cơ sở SVM 25

Hình 1 7: Mô hình cây quyết định 26

Hình 1 8: Mô hình phân lớp cơ sở kNN 27

Hình 1 9: Mô hình phân lớp cơ sở kNN 27

Hình 1 10: Mô hình phân lớp NaiveBayes 28

Hình 2 1: Kiến trúc mô hình phân lớp văn bản 29

Hình 2 2: Phương pháp Hold-out 33

Hình 2 3: Phương pháp Cross validation 34

Hình 2 4: Phương pháp Cross validation 35

Hình 2 5: Cách tính Precision và Recall 36

Hình 2 6: Phương pháp đánh giá ma trận nhầm lẫn trong weka 37

Hình 2 7: Đường ROC của các mô hình 38

Hình 3 1: Xác định nhãn lớp 39

Hình 3 2: Phương pháp giảm từ thừa trong weka 40

Hình 3 3: Tính TF-IDF và giảm từ trong weka 40

Hình 3 4: Tiến hành xây dựng mô hình bằng các phương pháp phân lớp 41

Hình 3 5: Kiểm thử mô hình test set trong weka 41

Hình 3 6: Lưu mô hình trong weka 42

Hình 3 7: Sơ đồ xây dựng các mô hình phân lớp 42

Hình 3 8: Sơ đồ ROC của các mô hình 44

Hình 3 9: Sơ đồ ROC cho nhiều nhãn lớp của mô hình Boosting(SVM) 45

Hình 3 10: Ma trận các nhãn lớp của mô hình 46

Hình 3 11: Kết quả phân lớp theo mô hình 47

I H ỌC

KINH

TẾ HU

Trang 6

PH ẦN MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm gần đây, cùng với sự phát triển nhanh chóng của khoa học

kỹ thuật là sự bùng nỗ về tri thức Kho dữ liệu, nguồn tri thức của nhân loại cũng trở nên đồ sộ, vô tận làm cho vấn đề khai thác các nguồn tri thức đó ngày càng trở nên nóng bỏng và đặt ra thách thức lớn cho nền công nghệ thông tin thế giới

Cùng với những tiến bộ vượt bậc của công nghệ thông tin là sự phát triển mạnh mẽ của mạng thông tin toàn cầu, nguồn dữ liệu Web trở thành kho dữ liệu khổng lồ Nhu cầu về tìm kiếm và xử lý thông tin, cùng với yêu cầu về khả năng kịp thời khai thác chúng để mạng lại những năng suất và chất lượng cho công tác quản

lý, hoạt động kinh doanh…đã trở nên cấp thiết trong xã hội hiện đại Nhưng vấn đề tìm kiếm và sử dụng nguồn tri thức đó như thế nào để phục vụ cho công việc của mình lại là một vấn đề khó khăn đối với người sử dụng Để đáp ứng phần nào yêu cầu này, người ta đã xây dựng các công cụ tìm kiếm và xử lý thông tin nhằm giúp cho người dùng tìm kiếm được các thông tin cần thiết cho mình, nhưng với sự rộng lớn, đồ sộ của nguồn dữ liệu trên Internet đã làm cho người sử dụng cảm thấy khó khăn trước những kết quả tìm được

Với các phương pháp khai thác cơ sở dữ liệu truyền thống chưa đáp ứng được các yêu cầu đó Để giải quyết vấn đề này, một hướng đi mới đó là nghiên cứu

và áp dụng kỹ thuật khai phá dữ liệu và khám phá tri thức trong môi trường Web

Do đó, việc nghiên cứu các mô hình dữ liệu mới và áp dụng các phương pháp khai phá dữ liệu trong khai phá tài nguyên Web là một xu thế tất yếu vừa có ý

nghĩa khoa học vừa mang ý nghĩa thực tiễn cao Vì vậy, em chọn đề tài “Xây dựng

mô hình phân lớp bài báo bằng phương pháp kết hợp Boosting” để làm luận văn tốt

nghiệp cho mình

2 Mục tiêu nghiên cứu

 M ục tiêu tổng quát

Trang 7

ta có thể sử dụng mô hình để phân lớp những bài báo bất kỳ vào danh mục tương

ứng tự động một cách nhanh chóng và chính xác nhất

M ục tiêu cụ thể

hành xây dựng mô hình phân lớp tối ưu nhất với dữ liệu là các bài báo được thu

mục tương ứng một cách chính xác nhất

3 Phương pháp nghiên cứu

Các phương pháp nghiên cứu được sử dụng trong bài:

- Thu thập và phân tích các tài liệu và thông tin liên quan đến đề tài

- Kiểm tra, thử nghiệm và đánh giá kết quả trong quá trình khai phá

4 Bố cục báo cáo khóa luận

Chương I: Cơ sở lý thuyết, trình bày và giới thiệu cơ sở lý thuyết về khám

Chương II: Quy trình xây dựng mô hình khai phá văn bản bằng phương pháp

dữ liệu, chuyển dạng dữ liệu, phân chia dữ liệu, khai phá dữ liệu và trình diễn dữ liệu

Chương III: Xây dựng thí nghiệm, trình bày chi tiết quá trình xây dựng mô

hình phân lớp bằng dữ liệu đã thu thập cụ thể là trên các tập dữ liệu 500, 1000, 1500

bài báo Sau đó sẽ tiến hành xây dựng mô hình phân lớp bằng các phương pháp kết

Cuối cùng là phần đánh giá, kết luận và hướng phát triển của đề tài

Trang 8

PH ẦN NỘI DUNG CHƯƠNG I: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan về khám phá tri thức và khai phá dữ liệu

1.1.1 Khám phá tri th ức và quy trình khám phá tri thức

1.1.1.1 Khám phá tri thức

Theo R Feldman [1], khám phá tri thức là một khám phá tự động phân tích

các mô hình hợp lệ, mới lạ, hữu ích và dễ hiểu từ các mô hình lớn và bộ dữ liệu

quy tắc và nội dung thông thường chưa được biết trước có khối lượng lớn dữ liệu

xác định hợp lý, mới lạ, hữu ích và dễ hiểu từ các bộ dữ liệu lớn và phức tạp

định giá trị, cái mới lạ, tri thức tiềm ẩn và tri thức trong một khối lượng dữ liệu khổng lồ để đáp ứng được nhu cầu thông tin của xã hội

Trang 9

Trong đó, các bước trong quy trình khám phá tri thức thể hiện rõ từng tính chất riêng, có vai trò và nhiệm vụ khác nhau Bao gồm:

Bước 1: Chọn lọc dữ liệu (Selection)

Ở giai đoạn này, chúng ta sẽ tập hợp các dữ liệu được khai phá từ một cơ sở

dữ liệu, từ kho dữ liệu, các nguồn dữ liệu web vào một cơ sở dữ liệu chúng ta để

khổng lồ nên cần chọn lọc một cách thận trọng và chính xác

Bước 2: Tiền xử lý dữ liệu (Processing)

liệu Phần lớn dữ liệu thường sẽ không được đồng nhất cũng như mắc một số lỗi như

lý trước khi khai phá dữ liệu Ở giai đoạn này sẽ dùng các kỹ thuật làm sạch, tích hợp,

Bước 3: Chuyển đổi dữ liệu (Transformation)

Đây là giai đoạn chuyển đổi dữ liệu, giai đoạn này giúp cho dữ liệu được

sẽ chuyển về dạng vector để khai phá dữ liệu

Bước 4: Khai phá dữ liệu (Data Mining)

Đây là giai đoạn quan trọng nhất của quy trình, các thuật toán chuyên ngành sẽ được sử dụng để tiến hành khai phá dữ liệu, mục đích để tìm ra dữ liệu chính xác nhất theo mục tiêu đề ra Một số kỹ thuật được ứng dụng đó là: phân lớp, phân cụm,

Bước 5: Đánh giá kết quả (Evaluation of Result)

Bước cuối cùng của quy trình này đó là đánh giá kết quả, các mẫu dữ liệu sau khi đã khai phá không phải mẫu nào cũng chính xác, cũng đều hữu ích vì vậy

Trang 10

Nếu khám phá tri thức là toàn bộ quá trình chiết xuất tri thức từ các cơ sở dữ liệu thì khai phá dữ liệu là giai đoạn quan trọng nhất của quá trình đó Khâu khai

1.1.2 Khai phá dữ liệu

trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu

thông tin này để ra quyết định

khám phá những quy tắc và cải thiện những quyết định trong tương lai

đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắt trong cơ sở dữ liệu

trị ẩn trong lượng lớn dữ liệu có khối lượng khổng lồ để đáp ứng được nhu cầu ra

1.1.3 Các phương pháp chính trong khai phá dữ liệu

1.1.3.1 Phân lớp (Classification)

mô hình mô tả các phân lớp dữ liệu quan trọng [8] Phân tích như vậy giúp chúng ta

lớp cho dữ liệu vào tương ứng Hướng tiếp cận này thường sử dụng một số kỹ thuật

Trang 11

Quá trình phân lớp dữ liệu thường gồm hai giai đoạn chính: (i) xây dựng mô hình; và (ii) sử dụng mô hình để phân lớp dữ liệu

networks), mạng Bayesian (Bayesian networks), tập mờ và tập thô (Rough and Fuzzy Sets)

1.1.3.2 Phân cụm (Clustering)

Phân cụm [9] (clustering) là quá trình gộp dữ liệu vào các nhóm hay các lớp

biệt (dissimilarities) được đánh giá dựa trên các giá trị thuộc tính được dùng để mô

hiện mục đích này Không giống như phân lớp dữ liệu, phân nhóm dữ liệu không

bằng ví dụ

như: nghiên cứu thị trường, nhận dạng mẫu, phân tích dữ liệu và xử lý ảnh Ví dụ: trong kinh doanh, phân cụm có thể giúp chúng ta khám phá các nhóm khách hàng

1.1.3.3 Khai phá luật kết hợp (Association Rule)

Luật kết hợp [9] là dạng biểu diễn tri thức dưới dạng tương đối đơn giản

kết hợp tìm được

Thông tin mà dạng luật này đem lại rất có lợi trong việc hỗ trợ ra quyết định

1.1.4 Ứng dụng của khai phá dữ liệu

nào trên thế giới Nó đã được áp dụng rất nhiều vào để tìm kiếm ra những thông tin

Trang 12

hữu ích cung cấp cho việc ra quyết định cũng như nhu cầu cần thiết của con người Sau đây là một số ứng dụng mà khai phá dữ liệu được triển khai nhiều nhất và đã

Dự đoán các mô hình về tài chính: khai phá dữ liệu được sử dụng để tạo ra

những mô hình dự đoán rủi ro tài chính cho các khoảng đầu tư cũng như các khoản

Hỗ trợ về mảng thương mại điện tử: khai phá triệu để tâm lý khách hàng

đặc trưng của khách hàng để đề xuất những phương pháp chăm sóc khách hàng phù hợp, giúp uy tín của doanh nghiệp tăng lên và chiếm được sự chú ý của khách hàng

Phân tích dữ liệu y – sinh học: khai phá dữ liệu được ứng dụng để xây

dựng các mô hình để phòng chống cũng như đề xuất các phương án chữa bệnh các căn bệnh ung thư trên thế giới hiện nay Ngoài ra, khai phá dữ liệu còn được sử

Protein và xây dựng các công cụ trực quan để phân tích dữ liệu di truyền

như điều trị y học, dự đoán điện tải, dự báo thời tiết, v.v

1.2 Tổng quan về khai phá văn bản

1.2.1 Khái ni ệm khai phá văn bản

bắt buộc để biến tài liệu văn bản hoặc các tài nguyên phi cấu trúc thành những

văn bản bán tự cấu trúc và không có cấu trúc

Theo P Zweigenbaum [14], khai phá văn bản là quá trình phân tích các bộ

sưu tập các tài liệu văn bản để nắm bắt các khái niệm, chủ để quan trọng và khám

chính xác hoặc thuật ngữ mà các tác giả đã sử dụng để thể hiện những khái niệm đó

Trang 13

Theo định nghĩa của các nhà nghiên cứu YH Tseng [8], khai phá văn bản là

việc xử lý các qua tài liệu văn bản hoặc các kho dữ liệu để có được những thông tin

dạng thô hoặc không có cấu trúc

các dữ liệu là các văn bản được thu thập từ các khối dữ liệu để đưa ra các quyết định một cách chính xác nhất để phục vụ cho nhu cầu của con người

1.2.2 Quy trình khai phá văn bản

Quy trình khai phá văn bản được thể hiện khái quát qua Hình 2

Cũng như khai phá dữ liệu, quy trình khai phá văn bản cũng bao gồm các bước như sau:

Bước 1: Thu thập dữ liệu từ nguồn khác nhau để làm cơ sở dữ liệu thực hiện

Bước 2: Tiền xử dữ liệu bao gồm các bước: giảm các từ thừa, tính trọng số tf-idf

Bước 3: Xây dựng 2 tập dữ liệu huấn luyện (train set) và kiểm thử (test set)

để huấn luyện mô hình

Bước 4: Chuyển định dạng sang vector (ví dụ: arff)

Trang 14

Bước 5: Tiến hành huấn luyện mô hình bằng các phương pháp kết hợp như

boosting, bagging, voting, stacking

Bước 6: Đánh giá và kiểm thử các mô hình đã thực hiện trên

1.2.3 M ột số bài toán trong khai phá văn bản

1.2.3.1 Tìm kiếm văn bản

là các từ khóa Có thể hình dùng hệ tìm kiếm văn bản sắp xếp tập văn bản trong

thỏa mãn với yêu cầu

1.2.3.2 Phân l ớp văn bản

Người ta có thể phân lớp các văn bản một cách thủ công, tức là đọc nội dung

đó Hệ thống quản lý tập gồm rất nhiều văn bản cho nên cách này sẽ tốn rất nhiều

học máy trong tri tuệ nhân tạo như Cây Quyết Định, Bayes, KNN, Bagging, Boosting, Stacking, Voting

1.2.3.3 Phân cụm

Đây là bài toán tự động lập ra các nhóm văn bản sao cho trong cùng một nhóm thì các văn bản sẽ tương tự nhau về chủ đề, về cấu trúc, còn các văn bản khác nhóm thì ít tương tự nhau Số nhóm có thể do người cài đặt tùy chọn hoặc thống tự tính toán số nhóm phù hợp nhất

1.3 Phát biểu bài toán phân lớp tin tức

Trang 15

Gọi C là tập các danh mục bài báo tin tức, 𝐂 = {𝒄𝒋 | 𝒋 = 𝟏, 𝒎} với trong đĩ

hàm f), dùng để phân lớp một bài báo bất kỳ vào một danh mục tương ứng Một cách tổng quát, mơ hình phân lớp được biểu diễn như sau:

𝒇: 𝑫 → 𝑪

1.4 Các cơng trình liên quan

Sau đây là một số cơng trình liên quan đến khai phá văn bản trên thế giới từ trước đến nay:

để xây dựng bộ phân lớp dự đốn trường hợp nhập viện sử dụng các hồ sơ bệnh án

đề nghiêm trọng đối với các bệnh viện Thơng tin ban đầu về nhu cầu giường ngủ ngắn từ bệnh nhân đang được chăm sĩc tại phịng mạch cĩ thể làm giảm tình trạng quá tải, và tối ưu hĩa việc sử dụng các nguồn lực bệnh viện Trong nghiên cứu này,

sử dụng các phương pháp văn bản để xử lý dữ liệu từ các hồ sơ bệnh án sớm của bệnh viện sử dụng khuơn khổ SOAP và dự đốn các trường hợp nhập viện và thải

bỏ trong tương lai Tám phương pháp khai phá văn bản được sử dụng trong nghiên

AdaBoost, Logistic Regression, Multinomial Nạve Bayes, Support Vector Machine (Kernel linear) và Nu-Support Vector Machine (Kernel linear) Và Nu-Support Vector Machine là phương pháp khai phá văn bản với hiệu suất tổng thể tốt nhất Điểm trung bình F1 trong dự đốn nhập viện là 77,70%, với độ lệch chuẩn (SD) là

hằng ngày từ bệnh viện cấp cứu như hoạch định năng lực và phân bổ năng lực Khai phá văn bản cĩ thể cung cấp thơng tin cĩ giá trị và tạo điều kiện thuận lợi cho việc

ra quyết định của các đội quản lý bên trong

Trang 16

Zhu F., Patumcharoenpol P và cộng sự [16] đã giới thiệu về khai phá văn

bản và các ứng dụng của nó trong việc nghiên cứu ung thư với nội dung cụ thể như

Lịch sử nghiên cứu về nó khoảng hơn 100 năm trước Đã có rất nhiều ấn phẩm về nghiên cứu ưng thư Sự phát triển nhanh chóng của văn bản y học về ung thư đã dẫn đến sự xuất hiện của một số lượng lớn các kỹ thuật khai phá văn bản nhằm khai phá những kiến thức mới từ văn bản khoa học Khai phá văn bản y sinh học về nghiên cứu ung thư là tính toán tự động và thông lượng cao trong tự nhiên Tuy nhiên, nó

dễ gặp lỗi do sự phức tạp của việc xử lý ngôn ngữ tự nhiên Trong tổng quan bài

công cụ và tập dữ liệu thường xuyên, cũng như đánh giá các thuật toán được sử dụng như thế nào Sau đó thảo luận về các ứng dụng khai phá văn bản tiên tiến hiện tại trong nghiên cứu ung thư và cung cấp một số tài nguyên cho việc khai phá văn bản Cuối cùng là mô tả quy trình làm việc chung của khai phá văn bản và từng giai đoạn của quy trình làm việc Qua bài này có thể giúp cung cấp thông tin tổng quan hữu ích về các công việc trong lĩnh vực này cũng như hỗ trợ việc nghiên cứu căn bênh ung thư hiện nay

triển tính bền vững trong các ngành công nghiệp dựa trên khai phá văn bản với nội

trọng nhất mà thế giới ngày nay phải đối mặt Các công ty xuất bản báo cáo về sự bền vững trình bày những nỗ lực và thành tựu đạt được các mục tiêu và mục đích bền vững Trong bài báo này, khai phá văn bản được sử dụng để xác định các xu hướng và thực tiễn bền vững trong các ngành công nghiệp quy trình Bốn lĩnh vực chính của ngành được nghiên cứu: dầu/hoá dầu, hóa chất số lượng lớn/đặc sản, dược phẩm, và các sản phẩm tiêu dùng Nghiên cứu của cho thấy rằng tính bền vững hàng đầu của bốn ngành rất giống nhau: sức khoẻ và an toàn, nhân quyền, giảm lượng khí nhà kính, tiết kiệm năng lượng/hiệu suất năng lượng và đầu tư của cộng đồng Các vấn đề về tính bền vững theo ngành cụ thể cũng đã được xác định,

ví dụ như dự án phòng chống tràn dầu trong ngành dầu khí và tiếp cận dược phẩm

Trang 17

trong ngành dược Môi trường được xác định là khía cạnh bền vững chủ yếu trong các ngành công nghiệp chế biến Phương pháp khai phá văn bản, kết quả và kết quả được trình bày chi tiết trong bài báo

để xem xét sự tương tác của học sinh trong môi trường video trực tuyến với nội dung như sau: Nghiên cứu này phân tích các câu hỏi trực tuyến và tin nhắn trò

các kỹ thuật khai phá dữ liệu và khai phá văn bản Áp dụng các kỹ thuật khai phá dữ

nhắn trò chuyện tương ứng Nghiên cứu tìm thấy sự khác biệt cũng như những điểm tương đồng về mô hình và chủ đề tham gia giữa các câu hỏi trực tuyến (tương tác giữa sinh viên với giáo viên) và các tin nhắn trò chuyện trực tuyến (tương tác sinh

tuyến sinh viên hỏi và điểm cuối cùng của học sinh Dữ liệu cho thấy việc kết hợp

có giá trị trong hành vi học tập của học sinh Hạn chế với dữ liệu và khai phá văn

mô hình phát hiện lỗi trong của các chiếc ô tô từ dữ liệu chuẩn đoán với nội dung:

các nguyên văn sửa chữa được thu thập trong quá trình chẩn đoán lỗi Ở đây, mục đích của việc khám phá kiến thức bằng cách sử dụng nhiệm vụ khai phá văn bản là khám phá những kiến thức sửa chữa tốt nhất từ hàng triệu thuật ngữ sửa chữa cho phép chính xác trong quá trình chẩn đoán lỗi Tuy nhiên, sự phức tạp của vấn đề

quan được chôn vùi và không có cấu trúc nguyên văn Trong bài báo này, đề xuất một hệ thống khai phá văn bản dựa trên bản thể học mới, sử dụng ontology chẩn

Trang 18

đoán để chú thích các thuật ngữ chính được ghi lại trong nguyên văn bản sửa chữa Các thuật ngữ chú thích được trích ra trong các bộ khác nhau, được sử dụng để xác định các trường hợp bất thường Các bộ trích xuất được sử dụng bởi thuật toán phân cụm đồng thời gom cụm dữ liệu nguyên bản để khắc phục các triệu chứng thường gặp liên quan đến các phần bị lỗi có thể được phát hiện Hiệu suất của hệ thống đã được xác nhận bằng cách sử dụng dữ liệu thế giới thực và nó đã được thực hiện thành công trong kiến trúc phân tán dựa trên web trong ngành công nghiệp thực

Oberreuter G và VeláSquez J.D [20] đã đề xuất giải pháp kiểm tra đạo văn

bằng cách phát hiện các sai lệch trong cách viết sử dụng khai phá văn bản với các nội dung như sau: việc phát hiện đạo văn là mối quan tâm đặc biệt đối với các cơ sở giáo dục Mặc dù đã có các phương pháp truyền thống để tự động phát hiện sự ăn cắp đo lường tính tương đồng trên cơ sở tài liệu, nhưng điều này không phải lúc nào cũng có thể vì tài liệu nguồn không phải lúc nào cũng có sẵn Trong việc khai phá văn bản, khám phá việc sử dụng các từ như một tính năng ngôn ngữ để phân tích một tài liệu bằng cách mô hình hóa phong cách hiện có trong nó Đây có thể được xem là một vấn đề phân loại sử dụng thông tin tương tự, trong đó các đoạn văn có

độ lệch đáng kể trong phong cách được coi là ngoại lệ Phương pháp này được gọi

là cách tiếp cận xác định đạo văn nội tại không cần phải so sánh với các nguồn có thể, và mô hình của chúng ta chỉ dựa vào việc sử dụng các từ, vì vậy nó không phải

là một ngôn ngữ cụ thể Bài này chứng minh rằng tính năng này cho thấy lời hứa trong lĩnh vực này, đạt được kết quả hợp lý so với các mô hình điểm chuẩn

người tiêu dùng đối với các thương hiệu thông qua khai phá văn bản với nội dung:

quan điểm khai phá trong các lĩnh vực đa dạng như quản lý quan hệ khách hàng, theo dõi ý kiến công chúng và lọc văn bản Trong thực tế, kiến thức thu được từ các mạng xã hội như Twitter và Facebook đã được hiển thị rất có giá trị cho các công ty nghiên cứu thị trường, các tổ chức ý kiến công chúng và các thực thể khai phá văn bản khác Tuy nhiên, văn bản Web đã được phân loại là tiếng ồn vì chúng đại diện cho các vấn đề đáng kể cả ở cấp độ từ vựng và cú pháp Trong nghiên cứu này, đã

Trang 19

sử dụng một mẫu ngẫu nhiên của 3516 tweet để đánh giá tình cảm của người tiêu dùng đối với những thương hiệu nổi tiếng như Nokia, T-Mobile, IBM, KLM và

khoảng 6800 tính từ hạt với định hướng đã biết để tiến hành phân tích Kết quả cho thấy tình hình tiêu dùng tích cực nói chung đối với một số thương hiệu nổi tiếng Bằng cách sử dụng cả phương pháp định tính và định lượng để phân tích các tweet của các thương hiệu, nghiên cứu này cho biết thêm chiều sâu và chiều sâu đối với các cuộc tranh luận về thái độ đối với thương hiệu quốc tế

Harrag F và các cộng sự [22] đã đề xuất việc khai phá tri thức tại Sahîh

thông tin và khai phá thông tin là chủ đề nghiên cứu tích cực trong nhiều năm trong cộng đồng Trí tuệ nhân tạo và Khai phá văn bản Với sự xuất hiện của các kho văn bản lớn trong những năm gần đây, nên cần phải tích hợp các mô-đun để khai phá thông tin trong các hệ thống thu hồi thông tin hiện có Việc xử lý các kho văn bản lớn dẫn các nhu cầu nằm ở ranh giới của việc khai phá thông tin và các khu vực thu thập thông tin Nghiên cứu trong bài báo này, tập trung vào việc khai phá thông tin

bề mặt, tức là thông tin không yêu cầu xử lý ngôn ngữ phức tạp được phân loại Mục đích là để phát hiện và trích các đoạn văn hoặc các chuỗi, các từ có chứa thông tin có liên quan từ các văn bản tường thuật tiên tri Đề xuất hệ thống dựa trên bộ chuyển đổi trạng thái hữu hạn để giải quyết vấn đề đọc hiểu văn bản một cách liên tục Các kết quả đánh giá thử nghiệm cho thấy phương pháp tiếp cận là khả thi Hệ thống đạt được độ chính xác và tỷ lệ thu hồi đáng khích lệ, độ chính xác tổng thể và thu hồi lần lượt là 71% và 39%

dụng khai phá văn bản để phân tích và phân loại cấu trúc mã trong các nhóm phần

thoại thông minh trong vài năm qua đã đi kèm với sự tăng trưởng ấn tượng về số lượng và sự gian xảo của các ứng dụng độc hại nhắm mục tiêu đến người dùng điện

sử dụng và các công cụ sản xuất phần mềm độc hại tự động tạo ra rất nhiều mẫu vật

Trang 20

mới dễ dàng Kết quả là các nhà phân tích thị trường và các nhà phân tích phần mềm độc hại đang ngày càng bị choáng ngợp bởi số lượng các mẫu mới được phát

thông minh để tự động hóa các phần của quá trình phân tích phần mềm độc hại Trong bài báo này, giới thiệu Dendroid, một hệ thống dựa trên việc khai phá văn

trong một bộ dữ liệu của các gia đình phần mềm độc hại trong Hệ điều hành

Sau đó áp dụng mô hình Vector Space Tiêu chuẩn và định dạng lại quá trình lập mô hình trong các ứng dụng khai phá văn bản Điều này cho phép đo lường sự tương đồng giữa các mẫu phần mềm độc hại, sau đó được sử dụng để phân loại chúng một

đối với các vector đặc điểm thu được cho mỗi nhóm phần mềm độc hại Các bản vẽ

phỏng đoán về các mối quan hệ tiến hóa giữa các nhóm Kết quả thử nghiệm cho

Öztürk N và Ayvaz S và các cộng sự [24] đã giới thiệu mô hình phân tích

phá văn bản với cụ thể như sau: việc sử dụng phương tiện truyền thông xã hội đã trở thành một phần không thể tách rời của thói quen hàng ngày trong xã hội hiện đại Các cổng thông tin xã hội cung cấp nền tảng công cộng mạnh mẽ nơi mọi người có thể tự do chia sẻ quan điểm và cảm xúc của mình về các chủ đề khác nhau với đám đông lớn Trong nghiên cứu hiện nay,đã điều tra các ý kiến và tình cảm của công

người và đã trở thành chủ đề phân cực được thảo luận rộng rãi trong các phương tiện truyền thông xã hội trên toàn thế giới Để phân tích tình cảm của công chúng về chủ đề trên Twitter, đã thu thập được tổng cộng 2381,297 tweets có liên quan bằng hai thứ tiếng là tiếng Thổ Nhĩ Kỳ và tiếng Anh Thổ Nhĩ Kỳ đã được coi là quan

Trang 21

trọng vì Thổ Nhĩ Kỳ đã hoan nghênh số người tị nạn người Syria lớn nhất và tweet Thổ Nhĩ Kỳ mang thông tin phản ánh sự nhận thức của công chúng về nước tị nạn trước tiên Nghiên cứu này đã thực hiện phân tích tình cảm so sánh các tweets đã tải

về Các kết quả chỉ ra rằng những cảm xúc trong các bài tweet tiếng Thổ Nhĩ Kỳ khác biệt đáng kể so với những cảm xúc trong các bài tweet tiếng Anh Qua nghiên cứu này, nhận thấy rằng những bài báo của Thổ Nhĩ Kỳ có những cảm xúc tích cực hơn đối với người Syri và người tị nạn hơn là những cảm xúc không trung lập và tiêu cực, tuy nhiên, tình cảm của các tweet gần như đều được phân phối giữa ba loại chính Mặt khác, số lượng lớn nhất các tweets tiếng Anh có chứa những cảm xúc trung lập, tiếp theo là những cảm xúc tiêu cực So với tỷ lệ các cảm xúc tích cực trong các bài tweet của Thổ Nhĩ Kỳ, 35% trong số các tweet của Thổ Nhĩ Kỳ, tỷ lệ tweets tiếng Anh có ít cảm xúc tích cực đối với người Syri và người tị nạn, chỉ có 12% trong tổng số tweets tiếng Anh

trong bài báo này, mô tả cách họ sử dụng khai phá văn bản và phân tích để xác định

và dự đoán trường hợp lạm dụng trẻ em trong một cơ sở y tế công cộng Các tổ chức như vậy ở Hà Lan cố gắng xác định và ngăn chặn các loại lạm dụng khác nhau Một phần quan trọng của dữ liệu y tế mà các tổ chức có về trẻ em là không có cấu trúc, được tìm thấy dưới dạng các ghi chú văn bản miễn phí Họ đã khám phá liệu những dữ liệu tham khảo có chứa các mẫu có ý nghĩa để xác định lạm dụng hay không Sau đó, đào tạo các mô hình học máy trên các vụ lạm dụng do hơn 500 chuyên gia về trẻ em xác định từ một đô thị ở Hà Lan Mô hình kết quả đạt được điểm cao trong phân loại các trường hợp lạm dụng có thể xảy ra Họ đã đánh giá theo phương pháp luận và so sánh hiệu suất của các nhà phân loại Sau đó, mô tả việc thực hiện API hỗ trợ quyết định tại một đô thị ở Hà Lan

Sunikka A và Bragge J [26] đã áp dụng khai phá văn bản để cá nhân hóa và

Nghiên cứu này kết hợp phương pháp tiếp cận khai phá văn bản để nghiên cứu cá

Trang 22

nhân và nghiên cứu tuỳ biến với một bài tổng quan tài liệu truyền thống để phân biệt các đặc điểm chính của hai luồng nghiên cứu này Nghiên cứu định hình với

tùy biến được xác định Nghiên cứu cá nhân đã tập trung mạnh mẽ vào công nghệ

cũng như việc thu thập thông tin cho các mô hình người sử dụng và các hệ thống tư vấn Tùy chỉnh là một dòng nghiên cứu cũ hơn, và cơ quan chính của nghiên cứu đã

lĩnh vực dịch vụ Dựa vào những hiểu biết sâu sắc từ quá trình nghiên cứu và nghiên cứu tài liệu, nghiên cứu này đề xuất một phân loại mới các khái niệm liên quan đến cá nhân

phát hiện và dự báo hotspot tại các diễn đàn trực tuyến với nội dung chính như sau:

thành một ranh giới hưng thịnh trong cộng đồng khai phá văn bản Bài báo này nghiên cứu phát hiện và dự báo hotspot tại các diễn đàn trực tuyến sử dụng phương pháp phân tích tình cảm và các phương pháp khai phá văn bản Trước tiên, họ tạo ra một thuật toán để tự động phân tích độ phân cực cảm xúc của một văn bản và để có được giá trị cho mỗi đoạn văn bản Thứ hai, thuật toán này được kết hợp với máy phân cụm K-means và máy vector hỗ trợ (SVM) để phát triển cách tiếp cận văn bản không được giám sát Họ sử dụng cách tiếp cận khai phá văn bản được đề xuất để nhóm các diễn đàn vào các cụm khác nhau, với trung tâm của mỗi đại diện cho một diễn đàn điểm nóng trong khoảng thời gian hiện tại Các bộ dữ liệu được sử dụng trong nghiên cứu thực nghiệm của họ được thu thập và định dạng từ các diễn đàn thể thao của Sina, trong đó có khoảng 31 diễn đàn chủ đề khác nhau và 220.053 bài viết Kết quả thí nghiệm chứng minh rằng dự báo SVM đạt được kết quả cao nhất với cụm K-means 10 diễn đàn hotspot hàng đầu được liệt kê bởi dự báo của SVM giống với 80% kết quả phân nhóm có nghĩa là K Cả SVM và K-means đều đạt kết quả tương tự cho 4 diễn đàn hotspot hàng đầu của năm

Trang 23

Hsu J.-L., Chou H.-W., và Chang H.-H [28] đã đề xuất phương pháp đánh giá quá trình tự động bằng việc sử dụng khai phá dữ liệu, cụ thể như sau: đánh giá quá trình và đánh giá tổng thể là hai phương pháp đánh giá được chấp nhận rộng rãi Mặc dù đánh giá tổng thể là một đánh giá chính thức được sử dụng khi kết thúc một bài học hoặc khĩa học, đánh giá quá trình là một quá trình liên tục giám sát tiến trình xây dựng kiến thức của người học Mặc dù các bằng chứng thực nghiệm đã thừa nhận rằng đánh giá chính thức thật sự tốt hơn đánh giá tổng kết, tuy nhiên các hệ thống đánh giá điện tử hiện nay tuy hiếm khi cung cấp các giải pháp hợp lý để tiến hành đánh giá quá trình Các nút cổ chai lớn trong việc đưa đánh giá quá trình vào thực tiễn nằm ở tính sử dụng nhiều lao động và tốn nhiều thời gian nên hầu như khơng thể đánh giá thành tích một cách khả thi đặc biệt là khi thường cĩ nhiều người học trong mơi trường học tập điện tử Về vấn đề này, nghiên cứu này đã phát triển EduMiner để giảm gánh nặng cho giảng viên và người học bằng cách tận dụng hàng loạt các kỹ thuật khai phá văn bản Một nghiên cứu thực nghiệm đã được tổ chức để kiểm tra hiệu quả và để khám phá các kết quả của các tính năng mà EduMiner hỗ trợ Trong nghiên cứu này, 56 người

nhĩm thực nghiệm hoặc nhĩm đối chứng Kết quả của nghiên cứu này chỉ ra rằng các thuật tốn được giới thiệu trong nghiên cứu này là một phương pháp tiếp cận khả thi để tiến hành đánh giá quá trình trong mơi trường học tập điện tử Ngồi ra, người học trong các nhĩm thực nghiệm cĩ động lực cao để diễn đạt các nội dung

cĩ trình độ nhận thức cao hơn Vì vậy, một phản hồi kịp thời của các đại diện hình ảnh là cĩ lợi để tạo điều kiện cho người học trực tuyến để thể hiện ý tưởng sâu hơn trong các bài thuyết giảng

Poelmans J., Van Hulle M.M., Viaene S và cộng sự [29] đã giới thiệu mơ

với các bản đồ sắp xếp tự lập và quy mơ đa chiều: trong bài báo này,họ so sánh tính khả dụng của ESOM và MDS như các cơng cụ thăm dị văn bản trong các cuộc điều tra của cảnh sát Họ kết hợp chúng với các cơng cụ phân loại truyền thống như SVM và Nạve Bayes Họ thực hiện một trường hợp khai phá dữ liệu thực tế bằng

Trang 24

cách sử dụng một tập dữ liệu bao gồm các báo cáo của cảnh sát mô tả một loạt các

sự cố bạo lực xảy ra trong năm 2007 tại khu vực cảnh sát Amsterdam-Amstelland (Hà Lan) Sau đó so sánh các khả năng của ESOM và MDS để làm phong phú thêm các tính năng của họ, khám phá các tình huống khó hiểu, ghi nhãn trường hợp sai và nâng cao đáng kể độ chính xác phân loại Các kết quả nghiên cứu của họ hiện đang hoạt động tại khu vực cảnh sát Amsterdam-Amstelland để nâng cấp định nghĩa bạo lực gia đình được sử dụng, cải thiện việc đào tạo cảnh sát và xây dựng một mô hình phân loại trường hợp chính xác cao và dễ hiểu

đầu tư kinh doanh bằng sử dụng khai phá văn bản với nội dung như sau: trong một môi trường kinh doanh không chắc chắn, trí thông minh cạnh tranh đòi hỏi tầm nhìn ngoại vi để xem xét và xác định các tín hiệu yếu có thể ảnh hưởng đến môi trường kinh doanh trong tương lai Các tín hiệu yếu được định nghĩa là các chỉ số không chính xác và sớm của các sự kiện hoặc xu hướng sắp tới đang được coi là chìa khóa

để xây dựng các mục kinh doanh tiềm năng mới Tuy nhiên, các phương pháp hiện tại để phát hiện các tín hiệu yếu dựa vào kiến thức và chuyên môn của các chuyên gia, những dịch vụ của họ không phổ biến rộng rãi và có xu hướng tốn kém Họ thậm chí có thể cung cấp kết quả phân tích khác nhau Do đó, bài báo này trình bày một phương pháp định lượng xác định các chủ đề tín hiệu yếu bằng cách khai phá văn bản dựa trên từ khóa Phương pháp được đề xuất được minh họa bằng các bài báo trên web liên quan đến pin mặt trời Là một công cụ hỗ trợ cho phương pháp tiếp cận dựa trên chuyên gia, phương pháp này có thể được kết hợp vào các quy trình lập kế hoạch kinh doanh dài hạn để hỗ trợ các chuyên gia xác định các mục kinh doanh tiềm năng

thông tin vị trí không đồng nhất nhau trên internet, nên rất khó để tổ chức tổng quan đầy đủ về thông tin không gian địa lý cho các nhiệm vụ mua lại tri thức liên quan đến các vị trí địa lý cụ thể Các kiểu văn bản và ảnh của tập dữ liệu địa lý chứa nhiều dữ liệu vị trí, chẳng hạn như thông tin du lịch dựa trên vị trí, do đó xác định

Trang 25

không gian chiều cao của các thuộc tính có mối tương quan cao Trong nghiên cứu này, họ đã sử dụng các loại hình thông tin về vị trí và văn bản bằng một cách tiếp cận mới của sự kết hợp thông tin để khai phá các chú thích hình ảnh hiệu quả và các phương pháp khai phá văn bản theo vị trí để tăng cường nhận dạng vị trí địa lý và nhận thức không gian Trong bài báo này, mô tả các phương pháp chiết xuất tính năn để chú thích hình ảnh và sử dụng cách tiếp cận khai phá văn bản để phân tích hình ảnh và văn bản cùng một lúc để thực hiện các nhiệm vụ phân loại hình ảnh không gian địa lý Sau đó, hình ảnh và tài liệu văn bản được dự đoán là một không gian đặc trưng thống nhất, để tạo ra một không gian ngữ nghĩa được xây dựng đồng nhất để kết hợp thông tin Ngoài ra, sử dụng các phương pháp khai phá văn bản để phân loại các tài liệu thành các loại khác nhau dựa trên các đặc điểm địa lý của chúng, với mục đích khám phá mối quan hệ giữa các tài liệu và các vùng địa lý Các kết quả thực nghiệm cho thấy rằng phương pháp được đề xuất có thể nâng cao hiệu quả các nhiệm vụ khám phá kiến thức dựa trên vị trí

bản để dự đoán mức độ nghiêm trọng của việc cảnh báo lừa đảo cụ thể như sau:

tính toán dữ liệu để đánh giá mức độ nghiêm trọng của các cuộc tấn công lừa đảo Phương pháp tính toán liên quan đến thuật toán K-means và Perceptron nhiều lớp làm việc theo cùng Ứng dụng lai được áp dụng để thay thế các giá trị còn thiếu của

dữ liệu tài chính được sử dụng để dự đoán mức độ nghiêm trọng của các cuộc tấn công lừa đảo trong các công ty tài chính Sau khi đưa ra các giá trị còn thiếu, chúng

ta sẽ khai phá dữ liệu tài chính liên quan đến các doanh nghiệp cùng với các dạng

dữ liệu có cấu trúc sử dụng perceptron đa tầng, mạng lưới thần kinh xác suất và cây quyết định Có ý nghĩa đặc biệt là độ chính xác phân loại tổng thể là 81,80%, 82,58% và 82,19% thu được bằng cách sử dụng perceptron đa tầng, mạng lưới thần kinh xác suất và cây quyết định tương ứng Nó được quan sát thấy rằng các kết quả hiện nay tốt hơn những nghiên cứu trước Độ chính xác phân loại chung cho ba mức

độ nguy cơ tấn công lừa đảo bằng cách sử dụng perceptron đa tầng, mạng lưới thần kinh xác suất và cây quyết định cũng cao hơn

Trang 26

Cao Q., Duan W., và Gan Q [33] đã giới thiệu phương pháp tìm hiểu các yếu tố quyết định việc bỏ phiếu cho sự hữu ích các bài đánh giá người sử dụng trực

tuyến giúp người tiêu dùng đối phó với tình trạng quá tải thông tin và tạo thuận lợi cho quá trình ra quyết định Tuy nhiên, nhiều người dùng đánh giá trực tuyến không nhận được phiếu bầu hữu ích cho người dùng khác để đánh giá mức độ hữu ích thực

sự của họ Nghiên cứu này thực nghiệm kiểm tra tác động của các tính năng khác nhau, đó là các đặc điểm cơ bản, phong cách, và ngữ nghĩa của các bài đánh giá người dùng trực tuyến về số lượng phiếu ủng hộ những nhận xét nhận được Kỹ

quan Các phát hiện trong bài báo này cho thấy rằng các đặc điểm ngữ nghĩa có ảnh hưởng nhiều hơn các đặc điểm khác ảnh hưởng đến việc nhận được phiếu đánh giá hữu ích bao nhiêu Các phát hiện cũng gợi ý rằng các bài đánh giá với các ý kiến cực đoan sẽ nhận được phiếu ủng hộ nhiều hơn những người có ý kiến hỗn hợp hoặc trung lập Bài viết này làm sáng tỏ sự hiểu biết về hành vi bỏ phiếu thuận lợi của người sử dụng trực tuyến và thiết kế một cơ chế bỏ phiếu hữu ích hơn cho các

hệ thống xem xét người sử dụng trực tuyến

khám phá kiến thức y học cổ truyền Trung Quốc với nội dung: trích xuất thông tin

có ý nghĩa và kiến thức từ văn bản miễn phí là chủ đề quan tâm nghiên cứu đáng

kể trong lĩnh vực máy học và khai phá dữ liệu Khai phá dữ liệu văn bản (hoặc

tích cực nhất trong khai phá dữ liệu Sự phát triển đáng kể trong lĩnh vực khai phá văn bản y sinh học trong những năm vừa qua đã hỗ trợ các nhà khoa học trong việc phát triển các giả thuyết mới và kiến thức mới từ các tài liệu y sinh học Y học cổ truyền Trung Quốc cung cấp một phương pháp luận riêng biệt để xem đời sống con người Đây là một trong những loại thuốc truyền thống hoàn chỉnh và nổi bật nhất có lịch sử vài nghìn năm nghiên cứu và thực hành việc chẩn đoán và điều trị bệnh ở người Nó đã được chỉ ra rằng kiến thức y học cổ truyền Trung Quốc thu được từ thực hành lâm sàng đã trở thành một nguồn bổ sung đáng kể

Trang 27

thơng tin cho khoa học y sinh học hiện đại Tài liệu y học cơ truyền Trung Quốc thu được từ giai đoạn lịch sử và từ các nghiên cứu lâm sàng hiện đại gần đây đã được chuyển thành dữ liệu số dưới dạng cơ sở dữ liệu quan hệ hoặc tài liệu văn bản cung cấp nền tảng cho việc chia sẻ và tìm kiếm thơng tin hiệu quả Điều này thúc đẩy và tạo điều kiện nghiên cứu và phát triển thành các phương pháp tiếp cận khám phá kiến thức và hiện đại hĩa y học cổ truyền Để đĩng gĩp cho lĩnh vực đang phát triển này, bài báo này trình bày (i) một bài giới thiệu so sánh với TCM

và y sinh học hiện đại, (ii) khảo sát các nguồn thơng tin cĩ liên quan của TCM,

khai phá văn bản TCM và các hướng tương lai

1.5 Một số mơ hình phân lớp được sử dụng trong khĩa luận

1.5.1 Mơ hình phân lớp kết hợp Boosting (Adaboost)

Tư tưởng của phương pháp Boosting là xây dựng mơ hình kết hợp nền tảng

là mơ hình Nạve Bayes hoặc đều là mơ hình SVM Quyết định phân lớp nào chiếm

đa số sẽ được chọn là quyết định cuối cùng của mơ hình Boosting Mỗi tập dữ liệu

định của các bộ phân lớp riêng lẻ lại để cho ra quyết định cuối cùng

phương pháp Boosting được đề xuất bởi Freund và Schapire [36] vào năm 1996

và được biểu diễn theo cơng thức:

𝐅(𝐱) = sign( � 𝜽𝒎𝒇𝒎(𝒙))

𝑴 𝒎=𝟏

Trang 28

Hình 1.3: Mô hình phân lớp kết hợp Boosting – Adaboost (Nguồn: Machine Learning FAQ)

1.5.2 Mô hình phân l ớp Support Vector Machines (SVM)

Đây là mô hình phân lớp có thể áp dụng được cho cả dữ liệu tuyến tính lẫn

Đặc trưng của SVM là tuy thời gian huấn luyện tương đối lớn nhưng bù lại

Cơ chế hoạt động của SVM:

buys_computer = no) Để dễ hình dung xét ví dụ chỉ gồm 2 thuộc tính là 𝑨𝟏 và 𝑨𝟐như trong hình

Ngày đăng: 10/07/2018, 23:50

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w