Phát hiện URL độc hại dựa trên học máy

nktung

Super Moderator
Thành viên BQT
08/10/2013
400
985 bài viết
Phát hiện URL độc hại dựa trên học máy
URL hay còn gọi là Uniform Resource Locator được dùng như một đường dẫn tới một tài nguyên trên mạng. Những kẻ tấn công thường thay đổi một hoặc nhiều thành phần cấu trúc của URL để đánh lừa người dùng và phân tán URL độc hại. Bài viết này trình bày cách phát hiện URL độc hại dựa trên kỹ thuật học máy.

Anh-whitehat-vn.png

Một số hệ thống phát hiện URL độc hại dựa trên thuật toán học máy đã được nghiên cứu bao gồm SVM, Logistic Regression, Naive Bayes, Decision Trees, Ensembles, Online Learning,... Các hành vi và các kí tự của URLs có thể được chia thành hai nhóm chính, tĩnh và động.

Bộ dữ liệu sử dụng có tên là Malicious URLs dataset bao gồm hơn 650.000+ URLs được các nhà nghiên cứu thu thập từ nhiều nguồn khác nhau bao gồm hơn 400.000 URLs an toàn được đánh nhãn benign, còn lại là những URL độc hại bao gồm 96.000+ URLs defacement, 94.000+ URLs phishing và 32.000+ URLs malware.
1680859067630.png

H1. Quá trình học máy phát hiện URL
Từ tập dữ liệu URL nêu trên, đầu tiên ta sẽ trích xuất các đặc trưng của dữ liệu + gán nhãn.

1680859286783.png

H2. Ví dụ một vài thuộc tính được trích xuất

Bộ dữ liệu được chia thành 2 tập, một tập để cho quá trình huấn luyện (training stage) các thuật toán học máy. Một tập để sử dụng để test. Nếu hiệu suất của mô hình học máy tốt (có độ chính xác cao) mô hình sẽ được sử dụng để phát hiện URL độc hại (trong pha phát hiện - Detection stage). Pha phát hiện là để phân loại (classification) một URL là an toàn hay độc hại.
Sau quá trình huấn luyện + test, có thể thấy được thuật toán Gradient Boosting Classifier cho kết quả là các độ đo hiệu năng (Accuracy, F1, Recall, Pricision) tốt nhất, như trong bảng dưới.

1680860106574.png

H3. Kết quả chạy các mô hình

Kết luận: đối với bộ dữ liệu Malicious URLs dataset thì mô hình học máy sử dụng thuật toán Gradient Boosting hiệu quả để phát hiện các URL độc hại.
 
Chỉnh sửa lần cuối bởi người điều hành:
Mời các bạn tham gia Group WhiteHat để thảo luận và cập nhật tin tức an ninh mạng hàng ngày.
Lưu ý từ WhiteHat: Kiến thức an ninh mạng để phòng chống, không làm điều xấu. Luật pháp liên quan
Thẻ
học máy machine learning url độc hại
Bên trên