Bộ dữ liệu lưu vết các vụ tấn công IoT 23

nktung

Super Moderator
Thành viên BQT
08/10/2013
400
985 bài viết
Bộ dữ liệu lưu vết các vụ tấn công IoT 23
Để có thể phát hiện các cuộc tấn công vào hệ thống IoT thì cách tiếp cận dựa trên học máy (Machine Learning) đang là hướng khả thi nhất hiện nay. Các mô hình học máy cần phải được huấn luyện trên một bộ dữ liệu (training data) để có được khả năng phân biệt các vụ tấn công vào hệ thống IoT. Bộ dữ liệu vì thế rất quan trọng trong quá trình huấn luyện. Trong bài này sẽ giới thiệu về bộ dữ liệu IoT 23.

IOT 23.png

IoT23 là bộ dữ liệu được tạo bởi phòng thí nghiệm Avast AIC. Bộ dữ liệu chứa 20 capture độc hại từ các thiết bị IoT khác nhau và 3 capture bình thường. Dữ liệu được thu thập hợp tác với Đại học Kỹ thuật Séc tại Prague, dữ liệu được thu thập từ năm 2018 đến 2019.

Tập dữ liệu ở dạng hoàn chỉnh chứa: Các tệp .pcap, là các tệp capture mạng ban đầu, các tệp conn.log.labeled, được tạo bằng cách chạy máy phân tích mạng gọi là Zeek, các chi tiết và thông tin khác nhau về từng capture. Tập dữ liệu chứa tổng cộng 325.307.990 capture, trong đó 294.449.255 là độc hại. Tập dữ liệu bao gồm loại tấn công sau:
Loại tấn công
Mô tả
Attacknhãn chung được quy cho
đến những bất thường không thể xác định được
Benignnhãn chung cho một bản chụp không đáng ngờ
C&Ckiểm soát và chỉ huy, một kiểu tấn công chiếm quyền kiểm soát thiết bị để ra lệnh cho thiết bị thực hiện các cuộc tấn công khác nhau trong tương lai
C&C - File-Downloadmáy chủ điều khiển thiết bị bị nhiễm đang gửi cho nó một tệp
C&C - Miraicuộc tấn công được thực hiện bởi mạng bot Mirai
C&C - Toriicuộc tấn công được thực hiện bởi mạng bot Torii, một phiên bản tinh vi hơn của mạng Mirai
DDoSthiết bị bị nhiễm đang thực hiện từ chối dịch vụ phân tán
C&C - Heart-Beatmáy chủ điều khiển thiết bị bị nhiễm gửi tin nhắn định kỳ để kiểm tra trạng thái của thiết bị bị nhiễm, điều này được nắm bắt bằng cách tìm kiếm các gói nhỏ được gửi định kỳ từ một nguồn đáng ngờ
C&C - Heart-Attackgiống như trên, nhưng phương pháp không rõ ràng, chỉ có một thực tế là cuộc tấn công đến định kỳ từ một nguồn đáng ngờ
C&C - Heart-Beat - FileDownloadquá trình kiểm tra được thực hiện thông qua một tệp nhỏ được gửi thay vì gói dữ liệu
C&C - PartOfA - Horizontal - PortScanmạng đang gửi các gói dữ liệu để thu thập thông tin cho một cuộc tấn công trong tương lai
Okirucuộc tấn công được thực hiện bởi mạng bot Okiru, một phiên bản phức tạp hơn của mạng Mirai
Okiru - Attackkẻ tấn công được công nhận là mạng bot Okiru, nhưng phương thức tấn công khó xác định hơn
PartOfAHorizontal - PortScanthông tin được thu thập từ một thiết bị cho một cuộc tấn công trong tương lai
PartOfAHorizontal - PortScan Attackgiống như trên, nhưng các phương pháp tấn công không thể được xác định chính
Bảng 1. Mô tả chi tiết các loại tấn công
Mỗi tệp conn.log.labeled chứa 23 cột dữ liệu, có loại được trình bày trong bảng trên. Các cột này là:

CộtMô tảLoại dữ liệu
tsthời điểm capture xong, được biểu thị bằng Unix Timeint
uidID của capturestr
id_orig.hđịa chỉ IP nơi xảy ra cuộc tấn công, IPv4 hoặc IPv6str
id_orig.pcổng được sử dụng bởi bộ phản hồiint
id_resp.hđịa chỉ IP của thiết bị mà quá trình capture xảy rastr
id_resp.pcổng được sử dụng cho phản hồi từ thiết bị nơi xảy ra quá trình chụpint
protogiao thức mạng được sử dụng cho gói dữ liệustr
servicegiao thức ứng dụngstr
durationlượng thời gian dữ liệu được giao dịch giữa thiết bị và kẻ tấn côngfloat
orig_byteslượng dữ liệu được gửi đến thiết bịint
resp_byteslượng dữ liệu được gửi bởi thiết bịint
conn_statetrạng thái của kết nốistr
local_origcó kết nối cục bộ hay khôngbool
local_respcó phản hồi cục bộ hay khôngbool
missed_bytessố byte bị miss trong một tin nhắnint
historylịch sử của trạng thái kết nốistr
orig_pktssố lượng gói tin được gửi đến thiết bịint
orig_ip_bytessố byte được gửi đến thiết bịint
resp_pktssố lượng gói tin được gửi từ thiết bịint
resp_ip_bytessố byte được gửi từ thiết bịint
tunnel_parentsID của kết nối, nếu tunnelledstr
labelloại capture, an toàn hay độc hạistr
detailed_labelchi tiết capture nếu là loại độc hạistr
Bảng 2. Mô tả chi tiết kiểu dữ liệu
Cột conn-state là một biến dành riêng cho Zeek và biểu thị trạng thái kết nối giữa hai thiết bị. Ví dụ: S0 có nghĩa là một thiết bị đã thử kết nối nhưng phía bên kia không trả lời. Trong tập dữ liệu này, tất cả các giá trị bị thiếu trong bất kỳ mục nhập nào đều được đánh dấu bằng dấu gạch ngang (“-”), ngoại trừ địa chỉ IP, được đánh dấu bằng hai dấu hai chấm (“::”).
 
Chỉnh sửa lần cuối bởi người điều hành:
Mời các bạn tham gia Group WhiteHat để thảo luận và cập nhật tin tức an ninh mạng hàng ngày.
Lưu ý từ WhiteHat: Kiến thức an ninh mạng để phòng chống, không làm điều xấu. Luật pháp liên quan
Thẻ
iot iot 23
Bên trên