Cơng cụ thế hệ 2.0

6. Bố cục của luận văn

2.3.3. Cơng cụ thế hệ 2.0

Google Prediction API:

Google đã trở thành một nhà cung cấp hàng đầu các giao diện lập trình ứng dụng (API) và các sản phẩm Machine Learning như một dịch vụ (MLaaS).

Ra mắt vào tháng Chín năm 2010, Dự án API7 Google là một ví dụ về khả năng cung cấp hệ thống máy học như là dịch vụ (MLaaS). Nĩ hoạt động bằng cách cho phép các nhà khoa học dữ liệu tải dữ liệu của mình thơng qua một giao diện người dùng lên Google Cloud Storage, khi đĩ họ cĩ thể gọi các thư viện xử lý dữ liệu thơng qua các truy vấn HTTP. Google Machine Learning sử dụng các kỹ thuật phân loại dữ

liệu và hồi quy đơn giản và được dùng nhiều trong lĩnh vực phân tích dữ liệu, thăm dị và dự đốn xu hướng bất động sản. Nhược điểm của Google Machine Learning là nĩ bị giới hạn kiểu dữ liệu và người sử dụng khơng thể biết được các kỹ thuật mơ hình được áp dụng trên các tập dữ liệu của họ. Phương pháp này, gần giống như sử dụng thư viện NumPy và Scikit để khai phá một tập dữ liệu huấn luyện và cĩ một máy chủ Website và đưa ra dự đốn dựa trên giải thuật SVM.

Directions API Google hiện nay được ứng dụng cho phép tính tốn đường đi giữa các vị trí, cho phép người dùng tìm đường đi bằng các phương tiện khác nhau: đi bộ, xe đạp, xe ơ tơ….

Dịch vụ này thực hiện tìm kiếm thơng qua nhiều đối số, trong đĩ cĩ 2 đối số quan trọng là: Điểm nguồn và điểm đích. Các đối số cĩ thể ở dạng Text String (ví dụ: điểm nguồn = Cơng viên phần mềm Đà Nẵng và điểm đích = trường Đại học Sư phạm) hoặc thay vào đĩ là kinh độ – vĩ độ tương ứng với từng địa điểm.

Amazon Machine Learning:

Gần đây nhất, vào ngày 09 tháng 4 năm 2015, một trong những gã khổng lồ Internet đã cơng bố giải pháp MLaaS. Amazon cung cấp giải pháp rất giống với đối thủ Google của mình. Người sử dụng cũng phải sử dụng một dịch vụ của Amazon (S3, Redshift hoặc RDS) để tải lên một tập tin dữ liệu với định dạng CSV, và nhãn của dữ liệu đã được xác định. Ngồi ra, người dùng cũng chỉ cĩ thể sử dụng kỹ thuật đơn giản với rất ít tùy biến như phân loại hoặc hồi quy.

Amazon Machine Learning cho phép thiết lập web service để đưa ra dự đốn trong thời gian thực, nhưng việc cấu hình sẽ tương đối phức tạp. Chính vì những hạn chế này, Mlaas của Amazon chỉ được sử dụng bởi những người dùng cĩ rất ít kinh nghiệm với máy học và muốn thiết lập một dịch vụ máy học đơn giản. Bên cạnh đĩ, hiệu suất của hệ thống dự báo trên nền tảng Mlaas của Amazon sẽ dựa nhiều vào kỹ năng cấu hình được thực hiện bởi người sử dụng, điều này làm mất tính linh hoạt của hệ thống.

Azure Machine Learning:

Cĩ hai phases lớn là Training phase và Testing phase. Xin nhắc lại là với các bài tốn Supervised learning, ta cĩ các cặp dữ liệu đầu vào và dữ liệu đầu ra (input, output), với các bài tốn áp dụng mơ hình học khơng giám sát, ta chỉ cĩ input mà thơi.

TRAINING PHASE

Cĩ hai khối cĩ nền màu xanh lục chúng ta cần phải thiết kế:

Feature Extractor

ĐẦU RA

Luận văn xin đề cập đầu ra của khối này trước vì mục đích của việc áp dụng các phương pháp khai phá dữ liệu là nhằm tạo ra một bộ dữ liệu “mẫu” (Feature Extractor) cĩ thể đại diện cho tồn bộ khối dữ liệu thơ ban đầu, được xem như là ‘chìa khĩa’ để khai thác dữ liệu thơ ban đầu thành dữ liệu phù hợp với từng mục đích khác nhau.

ĐẦU VÀO

• Raw training input: Raw input là tất cả các thơng tin ta biết về dữ liệu. Ví dụ: Với ảnh thì là giá trị của từng pixel; với văn bản thì là từng từ, từng câu; với tập tin âm thanh thì nĩ là một đoạn tín hiệu; với cơ sở dữ liệu về ‘hoa’ thì nĩ là các thuộc tính về độ dài các cánh hoa và đài hoa, … Dữ liệu thơ này thường khơng ở dạng vector, khơng cĩ số chiều như nhau. Thậm chí cĩ thể cĩ số chiều như nhau nhưng số chiều quá lớn, như một bức ảnh màu 1000 pixel x 1000 pixel thì số phần tử đã là 3×1063×106 (3 vì ảnh màu thường cĩ 3 hệ màu chủ đạo: Đỏ, xanh lá cây, xanh dương). Đây là một con số quá lớn, khơng thuận lợi cho lưu trữ và tính tốn.

• (optional) output của training set. Trong các bài tốn áp dụng mơ hình học khơng giám sát, ta khơng biết output nên hiển nhiên sẽ khơng cĩ đầu vào này. Trong các bài tốn áp dụng mơ hình học cĩ giám sát, cĩ khi dữ liệu này cũng khơng được sử dụng. Ví dụ: nếu dữ liệu thơ đầu vào đã cĩ cùng số chiều rồi nhưng số chiều quá lớn, ta muốn giảm số chiều của nĩ thì cách đơn giản nhất là chiếu vector đĩ xuống một khơng gian cĩ số chiều nhỏ hơn bằng cách lấy một ma trận ngẫu nhiên nhân với nĩ. Ma trận này thường là ma trận béo (số hàng ít hơn số cột, tiếng Anh - fat matrices) để đảm bảo số chiều thu được nhỏ hơn số chiều ban đầu. Việc làm này mặc dù làm mất đi thơng tin, trong nhiều trường hợp vẫn mang lại hiệu quả vì đã giảm được lượng

tính tốn ở phần sau. Đơi khi ma trận chiếu khơng phải là ngẫu nhiên mà cĩ thể được học dựa trên tồn bộ raw input, ta sẽ cĩ bài tốn tìm ma trận chiếu để lượng thơng tin mất đi là ít nhất. Trong nhiều trường hợp, dữ liệu output của training set cũng được sử dụng để tạo ra “mẫu”. Ví dụ: trong bài tốn phân lớp, ta khơng quan tâm nhiều đến việc mất thơng tin hay khơng, ta chỉ quan tâm đến việc những thơng tin cịn lại cĩ đặc trưng cho từng class hay khơng. Ví dụ, dữ liệu thơ là các hình vuơng và hình tam giác cĩ màu đỏ và xanh. Trong bài tốn phân loại đa giác, các output là hình tam giác và hình vuơng, thì ta khơng quan tâm tới màu sắc mà chỉ quan tâm tới số cạnh của đa giác. Ngược lại, trong bài tốn phân loại màu, các class là xanh và đỏ, ta khơng quan tâm tới số cạnh mà chỉ quan tâm đến màu sắc mà thơi.

• (optional) Prior knowledge about data: Đơi khi những giả thiết khác về dữ liệu cũng mang lại lợi ích. Ví dụ, trong bài tốn phân lớp (classification), nếu ta biết dữ liệu là linearly separable (gần như) thì ta sẽ đi tìm một ma trận chiếu sao cho ở trong khơng gian mới, dữ liệu vẫn đảm bảo tính linearly separable, việc này thuận tiện hơn cho phần classification vì các thuật tốn linear, nhìn chung, đơn giản hơn.

Sau quá trình khai phá dữ liệu của hệ thống máy học ta cũng sẽ thu được bộ đặc tính xem như là “mẫu” để phân loại cho dữ liệu thơ đầu vào. Những đặc tính này sẽ được dùng để huấn luyện các thuật tốn Classification, Clustering, Regression, … ở phía sau.

Main Algorithms

Khi cĩ được các tập dữ liệu “mẫu” rồi, chúng ta sử dụng những thơng tin này cùng với các tập dữ liệu huấn luyện để tạo ra các mơ hình phù hợp.

Chú ý: Trong một số thuật tốn cao cấp, việc huấn luyện feature extractor và main algorithm được thực hiện cùng lúc với nhau chứ khơng phải từng bước như trên. Một điểm rất quan trọng: khi xây dựng bộ feature extractor và main algorithms, chúng ta khơng được sử dụng bất kỳ thơng tin nào trong tập test data. Ta phải giả sử rằng những thơng tin trong test data là chưa được đưa vào hệ thống máy học trong suốt quá trình khai phá, phân tích dữ liệu. Nếu sử dụng thêm thơng tin về test data thì rõ ràng hệ thống máy học này khơng thể sử dụng được! Bởi vì, nếu sử dụng tập dữ

liệu test data để huấn luyện hệ thống nhằm đưa ra mơ hình tối ưu rồi sau đĩ lại dùng chính mơ hình đĩ để kiểm tra trên test data trước, như vậy hệ thống máy học này chỉ thực hiện chức năng tương tự như một hệ thống tìm kiếm thơng thường.

TESTING PHASE

Bước này đơn giản hơn nhiều. Với raw input mới, ta sử dụng feature extractor đã tạo được ở trên (tất nhiên khơng được sử dụng output của nĩ vì output là cái ta đang đi tìm) để tạo ra feature vector tương ứng. Feature vector được đưa vào main algorithm đã được học ở training phase để dự đốn output.

2.3.5. Mơ hình khối máy học MLBlocks

Hình 2.3. Mơ hình chung của khối máy học

Mơ hình trên cĩ thể diễn giải như sau: Trong bước thứ nhất, hệ thống sẽ thu thập, trích xuất và tổng hợp dựa trên dữ liệu thơ ban đầu. Dữ liệu thơ là tập hợp những kiểu dữ liệu khác nhau như: Hình ảnh, tập tin văn bản, video, cơ sở dữ liệu quan hệ,…Sau khi thu thập dữ liệu và hồn thành các bước tiền xử lý, quá trình tiếp theo là sử dụng các phương pháp kỹ thuật được gọi là: "Trích xuất, tổng hợp" và "mơ phỏng", kết quả của bước này sẽ là ma trận các đối tượng. Các hàng của ma trận này biểu diễn các đối tượng, và cột tương ứng được xem như là "thuộc tính" của dữ liệu. Ví dụ: Ứng dụng máy học xây dựng một hệ thống thơng minh cĩ thể phân loại các lồi hoa, như vậy tương ứng với từng lồi hoa và các thuộc tính như màu sắc, và độ dài trung bình của các cánh hoa, mùi thơm… Chúng ta sẽ xây dựng được một “mẫu” để so sánh với các mẫu khác. Bước áp dụng phương pháp kỹ thuật này rất quan trọng cho việc cĩ hệ thống dự báo tốt. Nếu một nhà khoa học dữ liệu quyết định sử dụng các phương pháp sai, nĩ cĩ thể làm cho việc học tập của một mơ hình khơng tốt. Trong ví dụ trên, nếu các nhà khoa học dữ liệu thay đổi phương pháp kỹ thuật, thay

lại lớp của nhãn.

Cĩ nhiều bài tốn phân lớp dữ liệu, như phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị,…. Phân lớp nhị phân là quá trình tiến hành việc phân lớp dữ liệu vào một trong hai lớp khác nhau dựa vào việc dữ liệu đĩ cĩ hay khơng một số đặc tính theo quy định của bộ phân lớp. Phân lớp đa lớp là quá trình phân lớp với số lượng lớp lớn hơn hai.

Trong phân lớp đa trị, mỗi đối tượng dữ liệu trong tập huấn luyện cũng như các đối tượng mới sau khi được phân lớp cĩ thể thuộc từ hai lớp trở lên.

Với ví dụ là bài tốn dự đốn lộ trình Giao thơng. Mỗi một đối tượng dữ liệu trong tập huấn luyện là một trường hợp giao thơng với một số điều kiện nhất định. Các dữ liệu huấn luyện sẽ khơng đơn giản chỉ là thơng tin tại một thời điểm mà một bộ huấn luyện sẽ ra rất nhiều thời điểm khác nhau. Một lớp chính là một tập hợp các dữ liệu được đánh giá theo giá trị bao gồm từ 1 đến 5 tương ứng với mật độ giao thơng từ thưa thớt cho tới đơng đúc. Mỗi một dữ liệu phân lớp sẽ cĩ các giá trị khác nhau, dựa vào các giá trị này, áp dụng các thuật tốn phân lớp sẽ phân tích dữ liệu đầu vào và phân các giá trị đĩ vào các lớp tương ứng.

Việc Dự đốn lộ trình Giao thơng cĩ 3 hướng tiếp cận chính là thơng qua quy luật, mơ hình hĩa và học máy. Trong phương pháp tiếp cận thì học máy cĩ nhiều ưu điểm như khơng mất thời gian đưa ra các luật, học từ dữ liệu huấn luyện, dễ dàng mở rộng và tái cấu trúc. Các bộ phân loại thường sử dụng trong phương pháp học máy là Support Vector Machine(SVM), Naive Bayes, J48, Neural Network,Maximum Entropy, Decision Tree, Nearest-Neighbors, Sparse Network of Winnows(SNoW)[4].

Trong luận văn nghiên cứu này, tơi sẽ xây dựng khối máy học sử dụng mơ hình chính là Cây quyết định “Decision Tree” để học dữ liệu mẫu và đưa ra các dự đốn về mật độ giao thơng từ các dữ liệu mẫu.

Quá trình phân lớp dữ liệu thường gồm hai bước: Xây dựng mơ hình và Sử dụng mơ hình

đề phân lớp dữ liệu là tìm ra được một thuật tốn phân lớp nhanh, hiệu quả, cĩ độ chính xác cao và cĩ khả năng mở rộng được. Trong đĩ khả năng mở rộng được của thuật tốn được đặc biệt trú trọng và phát triển.

Một số kỹ thuật phân lớp được sử dụng và phát triển với đề tài dự đốn lộ trình Giao thơng:

 Máy vector hỗ trợ (Support Vector Machine – SVM);

 Tiếp cận xác suất thống kê (Nạve Bayes – NB);

 Cây quyết định (Decision Tree – DT);

 Sử dụng mạng nơron (Neural Network – Nnet);

Với kỹ thuật phân lớp SVM kernel sẽ được sử dụng trong mơ hình là Polynomial Kernel. Trong học máy, Polynomial Kernel là một hàm kernel được SVM sử dụng, nĩ thể hiện sự tương đồng của các vector (mẫu huấn luyện) trong khơng gian đặc trưng trên đa thức của các biến và cho phép học theo mơ hình phi tuyết tính.

Mỗi kỹ thuật phân lớp cĩ ưu điểm và đặc điểm riêng. Độ chính xác của các kỹ thuật cũng khác nhau.

2.5. TIỂU KẾT CHƯƠNG

Trong chương này, luận văn trình bày khái niệm và mơ hình MLBlocks, nghiên cứu cách thức xử lý dữ liệu và kết xuất dữ liệu của MLBlocks, từ đĩ đưa ra mơ hình khối máy học cĩ thể áp dụng để giải quyết bài tốn tối ưu trong giao thơng.

CHƯƠNG 3

ỨNG DỤNG MLBLOCKS TRONG VIỆC DỰ ĐỐN LỘ TRÌNH TỐI ƯU TRONG GIAO THƠNG TẠI THÀNH PHỐ ĐÀ NẴNG

3.1. THỰC TRẠNG VÀ GIẢI PHÁP

3.1.1. Thực trạng giao thơng tại thành phố Đà nẵng

Là thành phố được xem là trung tâm kinh tế của miền trung với mật độ dân số ngày càng tăng, phương tiện tham gia giao thơng ngày càng nhiều nên vào giờ cao điểm, tại một số tuyến đường ở thành phố thường xuyên xảy ra ùn tắc giao thơng cục bộ. Nhằm giải quyết triệt để tình trạng này, thành phố phối hợp với lực lượng liên quan đưa ra nhiều giải pháp bảo đảm trật tự an tồn giao thơng (TTATGT) theo hướng thuận tiện cho người tham gia giao thơng trong giờ cao điểm.

Nhờ thực hiện nhiều giải pháp hiệu quả, TP cơ bản giảm thiểu tình trạng ùn tắc giao thơng cục bộ vào giờ cao điểm trên các tuyến đường trọng điểm.

Theo thống kê của sở giao thơng, tại Đà Nẵng, 3 tháng đầu năm 2017 cĩ tất cả 21 điểm ùn tắc giao thơng thường xuyên, trong đĩ cĩ:

 5 điểm xuất hiện ở các khu nhà ở cao tầng, nơi cĩ mật độ dân cư cao

 11 điểm xuất hiện ở các cơng trình đang xây dựng

 5 điểm thường xuyên ùn tắc do là tuyến đường trọng điểm, trục đường chính với lưu lượng giao thơng lớn

Theo các thống kê từ VOV giao thơng thì việc tắc đường thưởng xảy ra theo khung giờ nhất định:

 6h30-8h00: đây là khung giờ đi làm của người lớn và đi học của học sinh sinh viên nên khung giờ này cĩ độ tắc rất cao.

 11h00-12h00: đây là khung giờ nghỉ trưa, khung giờ thường xuyên xảy ra hiện tượng ùn ứ do lượng xe cộ trong khung giờ này là rất cao.

 16h30-18h00: đây là giờ tan học của học sinh, sinh viên và tan làm của người lớn nên khung giờ này thường xuất hiện tắc nghẽn nghiêm trọng ở rất nhiều khung đường khác nhau.

để phân tích và đưa ra các dự báo một cách tương đối chính xác cho những người tham gia giao thơng.

3.1.2. Giải pháp

Phương pháp dự báo tình trạng giao thơng ngắn hạn cĩ thể được giải quyết bằng một số giải pháp như sau:

+ Phương pháp thống kê: Dựa vào thơng tin về trạng thái giao thơng của ngày hơm trước để dự báo cho ngày hơm sau. Phương pháp này cĩ ưu điểm là đơn giản, dựa trên thực tế là trong các giờ làm việc là cố định khơng thay đổi nên thơng thường tình trạng giao thơng là ổn định theo các khung giờ, ngoại trừ một số trường hợp bất thường xảy ra (như cĩ sự kiện được tổ chức cĩ thể dẫn đến cấm một số tuyến phố, dẫn đến một số tuyến khác phải gánh thêm lưu lượng của người tham gia giao thơng

Phương pháp học bán giám sát (Semi-Supervised Learning)

Học tăng cường (reinforcement learning)