Các thuật toán học máy Machine Learning sử dụng phát hiện xâm nhập mạng

nktung

Super Moderator
Thành viên BQT
08/10/2013
400
985 bài viết
Các thuật toán học máy Machine Learning sử dụng phát hiện xâm nhập mạng
Phát hiện xâm nhập mạng (Network Intrustion Detection) luôn là một vấn đề được quan tâm từ trước đến nay bởi có phát hiện được thì mới có thể ngăn chặn. Do vậy các công ty luôn chú trọng đầu tư hệ thống phát hiện xâm nhập mạng (IDS) để bảo vệ cho mạng của mình. Bài viết này đề cập đến các kỹ thuật phát hiện xâm nhập mạng dựa trên kỹ thuật học máy.

Network Intrustion Detection.jpg

Khác với hệ thống dựa trên chữ ký, hệ thống IDS sử dụng kỹ thuật học máy sẽ thực hiện dự đoán một truy cập bất kỳ là bình thường hay đó là dấu hiệu một vụ tấn công mạng. Vậy làm thế nào để dự đoán được điều này? Các hệ thống IDS sẽ được huấn luyện từ dữ liệu về các hoạt động mạng, được thu thập trong quá khứ. Các dữ liệu này được tiền xử lý, gán nhãn để phân biệt đâu là dữ liệu truy cập thông thường và đâu là dữ liệu của các vụ tấn công. Tiếp đó bộ dữ liệu này được chia ra thành 2 tập con: dữ liệu huấn luyện (DLHL) và dữ liệu test (DLT). DLHL để sử dụng trong pha huấn luyện nhằm training cho các thuật toán học máy. DLT được sử dụng trong pha kiểm tra để đánh giá tính hiệu quả của mô hình trong việc dự đoán.

1649580092748.png

Hình 1. Phương pháp phát hiện xâm nhập mạng dựa trên học máy

Các thuật toán học máy thường được sử dụng ở pha huấn luyện là:

1649580172815.png

Hình 2. Các thuật toán học máy được sử dụng trong hệ thống IDS
  • Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật. Đầu vào là dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ cho đầu ra là các luật để dự đoán lớp của các dữ liệu chưa biết.
  • K láng giềng gần nhất (K-Nearest Neighbor - KNN) là một kĩ thuật học máy có giám sát dùng để phân loại một quan sát mới, bằng cách tìm sự tương đồng giữa quan sát mới này với dữ liệu sẵn có.
  • Máy vectơ hỗ trợ (Support Vector Machine - SVM) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau.
  • Thuật toán phân cụm K-Means: sử dụng phương pháp tạo và cập nhật trung tâm để phân nhóm các quan sát cho trước vào các nhóm khác nhau.
  • Mạng Nơron nhân tạo (ANN): là một chuỗi những thuật toán được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu, thông qua việc bắt bước cách thức hoạt động từ não bộ con người.
 
Chỉnh sửa lần cuối bởi người điều hành:
Mời các bạn tham gia Group WhiteHat để thảo luận và cập nhật tin tức an ninh mạng hàng ngày.
Lưu ý từ WhiteHat: Kiến thức an ninh mạng để phòng chống, không làm điều xấu. Luật pháp liên quan
  • Thích
Reactions: Vampires1607
Bên trên