原文标题:Your Style Your Identity: Leveraging Writing and Photography Styles for Drug Trafficker Identification in Darknet Markets over Attributed Heterogeneous Information Network
原文作者:Zhang, Yiming, Yujie Fan, Wei Song, Shifu Hou, Yanfang Ye*, Xin Li, Liang Zhao, Chuan Shi, Jiabin Wang, and Qi Xiong
发表会议:WWW "19: The World Wide Web Conference
原文链接:https://dl.acm.org/doi/abs/10.1145/3308558.3313537
主题类型:图数据挖掘、暗网生态研究
笔记作者:ShuiChang
主编:黄诚@安全学术圈
通过分析毒品贩运者(即供应商)是否在不同的市场或同一个市场内维护的多个账户来打击毒品运输地下贩毒市场:如DreamMarket、Valhalla。
作者提出并开发了一个名为uStyle-uID的系统,其集成了“写作风格”(writing style)和“摄影风格”(photography style),分别提取了文字和图像的特征。
对于分析系统中起核心作用的AHIN(Attributed Heterogeneous Information Network, 属性异构信息网络),作者提出了一种新的网络嵌入模型Vendor2Vec来学习AHIN中节点的低维表示。其根据节点附加的互补属性信息来引导基于元路径的随机漫步进行路径实例采样,再用skip-gram模型来学习AHIN的有效节点表示。之后,作者提出了一个二分类学习模型,称为vIdentifier,来判断给定的一对毒品贩运者是否相同。
论文的主要方法(uStyle-uID的系统框架)如下:
使用doc2vec将不等长的文本转换为固定长度的特征向量 - 依据经验,特征维度设置为100
文风提取:
词汇特征(lexical feature)
字符数(number of characters)
数字数、空格数、特殊字符数
单词数
平均词长度
词汇丰富度(vocabulary richness)
句法特征(syntactic feature)
标点符号频率
功能词频率(frequency of function word)
以大写字母开头的句子数
parts-of-speech n-grams的频率(n设为3)
结构特征(Structural feature)
段落总数
段落的缩进
段落之间是否存在分隔符
每个段落的单词、句子、字符数量
对每个文本,将doc2vec转换后的特征向量直接连接起来,表示发布的文本内容;将描述写作风格的特征直接连接起来,作为文本相关联的属性。
使用image2vec将其转换为固定长度的特征向量 - 依据经验,特征维度设置为100
分为低级特征和高级特征进行提取。
低级特征(low-level feature),即EXIF信息
相机的型号
相机角度
曝光时间
焦距
图片大小
高级特征(high-level feature) - 首先先转换为HSV(hue、saturation、value)值表示,然后提取内容特征
色彩丰富度(colorfulness)
光曝光(exposure of light)
饱和度
色调计数(hue count)
对比度
对于每个贩毒者发的图片,将image2vec转换后特征向量连接起来,表示发布的照片内容;将描述摄影风格的特征直接连接起来,作为照片相关联的属性。
提取贩毒者特征
用户名 - 首先通过标准字符串匹配衡量两个用户名的相似性,如若相似程度大于某个阈值则直接视为相同用户
PGP密钥
联系人信息
提取毒品特征
类别
托管信息(escrow information)
运输信息
使用独热编码将提取的特征转化为二进制向量作为每个贩毒者和毒品的属性
贩毒者卖 毒品
贩毒者编写 文本
贩毒者上传 图片
文本描述 毒品
图片说明 毒品
四个实体,三种元路径。
meta-path的随机漫步+skipgram
在第i步转换概率的公式如下图。
组合通过每个元路径采样的路径实例,然后输入skipgram模型来学习节点嵌入。
分类模型,预测两个节点间存在一条链接的可能性
首先应用深度神经网络,输入节点嵌入,输出低维流形(low-dimensional manifold),将该过程定义为函数f
在获取低维流形后,可将通用链路函数g(u,v)分解为两个节点,u和v嵌入通过f转化后,f(u)乘L的转置、f(v)乘R。
然后进行优化,优化函数定义如下。
其中Duv是贩毒者u和v在元路径游走时,采样的路径实例中出现在特定窗口中的频率。
通过自研爬虫(Valhalla、DreamMarket)和可公共获取的datadump(SilkRoad2、Evolution)收集了四个不同的暗网数据。
仅保留了至少发布两种毒品的毒贩。
对于给定的毒贩,将其发布文本和照片随机分为两个部分作为正例;将其随机匹配其他供应商作为负例。
使用了10-fold,用ACC和F1来评估。
Vendor2Vec参数经验性地设置为:节点维度D=100,行走r=10,行走长度l=80,窗口大小w=10。
vIdentifier的参数设置为:降维到d=30。
Hybrid-DNN:直接把特征放到深度学习模型里
AHIN-DNN:把vIdentifier换成深度学习模型
AHIN-SVM:把vIdentifier换成SVM
作者还做了case study,发现了某个芬兰贩毒团伙。
Yanfang Ye 目前是圣母大学计算机科学与工程系(CSE)计算机科学与工程学院副教授,研究领域主要包括网络安全、数据挖掘、机器学习和健康智能。https://community.wvu.edu/~yaye/
通讯地址:北京市海淀区海淀南路甲21号中关村知识产权大厦A座2层206、207室 邮政编码:100080
电话:010-62565314 刘莉 京ICP证16064523号-2 版权所有:北京软件和信息服务业协会
技术支持:中科服 内容支持:鑫网安