PhishFingerprint:一種基於視覺線索的釣魚網頁身份檢索實用方法
解決什麼問題
在本文中,我們提出了一個框架來維護網絡釣魚網頁的存儲庫並檢索新報告的網絡釣魚網頁的身份。
用什麼方式解決
首先,我們提出了一種半自動化方法來創建非冗餘網絡釣魚網頁數據庫。
其次,我們基於可疑頁面和數據庫中註冊的頁面之間的視覺相似性,提出了穩健有效的兩階段方法來檢索報告的網絡釣魚網頁的身份。
提出的框架基於網頁的感知散列指紋。
引用
美國在線網絡系統 (AOL) 在 1990 年代初期報告了第一次網絡釣魚攻擊 [1]
之前的一些工作還報告了基於圖像相似性的使用視覺外觀進行網絡釣魚檢測的方法 [2,5-12]。
周等人 [2],提出了一種基於視覺相似性的網絡釣魚檢測方法,他們使用網頁的局部和全局圖像特徵來比較它們。
馬歇爾等人 [12],提出了基於 212 個特徵的方法,包括 HTML 頁面文本,並學習了一個模型來將頁面分類為網絡釣魚和非網絡釣魚。
在 [11] 中,作者回顧了各種基於相似性的網絡釣魚檢測方法。
我們評估了四種基於感知散列的方法來提取特徵來衡量網頁相似性:平均散列 (aHash) [5]、感知散列 (pHash) [7]、差異散列 (dHash) [6] 和小波散列 (wHash) [8]。
我們還考慮了一種快速關鍵點描述符來計算網頁之間的視覺相似性:定向快速和旋轉簡要 (ORB) [4]。
通常,感知哈希碼是可以表示為二進制序列(例如 64 位)的短代碼。 因此,可以將兩個哈希碼與漢明距離進行比較[3]。
感知哈希碼還可以容忍各種圖像轉換,如縮放、輕微的色彩調整(例如對比度、亮度)、傾斜、不同的縱橫比或不同的壓縮/格式 [7]。
在感知散列方法的情況下,使用漢明距離 [3] 執行匹配。
提出問題、困難
網絡釣魚網頁識別的最大挑戰之一是零小時網絡釣魚攻擊檢測。
本文描述性的
為了提高識別率,通常的反網絡釣魚技術會將可疑網頁與大量合法網頁或屬於以前網絡釣魚案例的網頁進行比較。
維護網頁數據庫是網絡釣魚檢測過程中的關鍵步驟。