Giới thiệu phân tích file văn bản Office và PDF.

hnahkcad

W-------
22/10/2013
0
9 bài viết
Giới thiệu phân tích file văn bản Office và PDF.
Trong quá trình tìm hiểu exploit, một kỹ năng quan trọng là phân tích được các dạng file khác nhau. Nội dung bài viết sẽ trình bày các gợi ý cũng như công cụ để phân tích file văn bản ( Office và PDF) – dạng file chủ yếu dùng để khai thác thực thi mã độc.
Phương pháp tiếp cận phân tích
  • Xác định được vị trí của shellcode, VB marco hay đoạn javascript có thể có nguy cơ trong văn bản.
  • Trích xuất lọc ra được đoạn mã độc hại ra khỏi file
  • Nếu có thể ( giải mã đơn giản) thì disassembly/debug đoạn shellcode
  • DeObfuscate (nếu có thể) đoạn mã Javascript, ActionScript hay VB marco
  • Đọc và phân tích, tìm hiểu cơ chế lây nhiễm của đoạn code
Thành phần của Office file
  • Tìm hiểu cấu trúc OLE file -> phân tích được hệ thống các trường trong file Office.
  • Dữ liệu thành phần trong OLE file bao gồm 2 dạng quan trọng cần chú ý gồm “storage” – thư mục và “stream” – file.
  • Excel file có thành phần chứa dữ liệu nằm trong trường “workbook”.
  • PPT file chứa dữ liệu trong trường “PowerPoint Document”.
  • Word file chứa dữ liệu trong trường bổ sung
Công cụ phân tích Office file
  • OfficeMalScanner phân tích tìm kiếm shellcode và VB marco trong file word và excel.
  • MalHost-Setup trích xuất lọc ra shellcode nằm trong Office file và lưu ra file exe để phân tích tiếp (là một module độc lập nằm trong tool OfficeMalScanner)
  • Offvis cho phép đọc nội dung và cấu trúc header trong file Office và các thành phần có khả năng khai thác ( công cụ được công cụ từ microsoft)
  • Office Binary Translator chuyển đổi Office file sang dạng Open XML file ( tích hợp công cụ Biffview để so sánh)
  • pyOLEScanner.py công cụ python giúp decode nội dụng Binary của file Office. Giải mã một phần nội dung.
  • Các công cụ hex view, hex editor với các module phân tích cấu trúc header file Office v.v.
Phân tích file Office _ các lệnh cơ bản

OfficeMalScanner file.doc scan

“Scan” để phát hiện shellcode dựa trên shellstruct GetPC

“Info” các thông tin trong cấu trúc OLE file cũng như các đoạn VB-marco nếu có

MalHost-Setup để trích xuất shellcode ra file thực thi

Thành phần của PDF file
  • Cấu trúc một file PDF bao gồm header, đối tượng, các bảng tham chiếu chéo( xác định các đối tượng liên kết) và các phần bổ sung.
  • “/OpenAction” hoặc “/AA” (Additional Action) gồm các script hoặc các action tự động thực thi
  • “/Name”, “AcroForm”,”/Action” chứa thông tin và các tác vụ thực thi
  • “/JavaScript” thực thi js
  • “/GoTo” view file PDF nguồn và các file PDF tiếp theo
  • “/Launch” gọi một chương trình hay mở một nội dung ngoài file PDF
  • “/URI” tác vụ trợ giúp truy cập các đường link
  • Chú ý tới các mã obfuscation với mã hex ( ví dụ “JavaScript” -> “J#61vaScript).
Công cụ phân tích Adobe PDF file
  • PDFiD xác định các chuỗi string trong file PDF cũng như các đoạn scripts và action có thể đọc được.
  • PDF-Parser đọc cấu trúc file PDF.
  • Origami’s pdfextract và Jsunpack-n’s pdf.py giải nén các đoạn JavaScript.
  • PDF Stream Dumper gồm các công cụ phân tích PDF với giao diện trực quan.
  • PDF X-Ray Lite tạo file HTML kết quả chứa nội dung của cấu trúc PDF file cũng như giải mã.
  • SWF mastah trích xuất nội dung SWF trong file PDF.
  • MalzillaSpiderMonkey giúp deobfuscate mã nhúng JavaScript trong file PDF
  • Wepawet,VirusTotal hoặc sanbox tools cho phép tạo môi trường ảo để phân tích hành vi của file PDF.
  • ExeFilter lọc mã scripts trong file Office hay PDF.
 
Chỉnh sửa lần cuối bởi người điều hành:
Mời các bạn tham gia Group WhiteHat để thảo luận và cập nhật tin tức an ninh mạng hàng ngày.
Lưu ý từ WhiteHat: Kiến thức an ninh mạng để phòng chống, không làm điều xấu. Luật pháp liên quan
Thẻ
office pdf
Bên trên