pdflink

基于域学习的行人重识别

项目描述

偏工业项目。主要针对解决公交车的出入口行人重识别课题,来达到自动判断乘客的乘车区间的目的。难点有三:1. 本数据集的出入口的摄像机种类不同(RGB和近红外线) 2. 为保护隐私分辨率较低无法使用面部特征 3. 外部光照影响较大。数据集来源为日本公交公司。

基本思路

难点的关键在于我们无法使用过去的方法:颜色特征和面部特征。因此解决的关键是实现提取颜色光照无关的特征(更深层的特征,或域无关的特征)。考虑了以下三种解决方法:

  1. 利用深度网络学习域无关特征(DANN,AGW)
  2. 手动提取域无关特征(HeadReID)
  3. 姿态估计(TODO)

DANN [1]

在一般的分类预测期以外加上了域分类器,以提高特征的抽象度。我们希望提取出的特征无法被域分类器成功判别,以确认生成的特征是域无关的。

AGW [2]

考虑到表层特征差异大的问题,还尝试了通过分开卷积层的方法。首先使用域单独的卷积层提取出表层特征,再进入相同的Resnet+NoLocal块的网络,增加对全域特征的提取能力。

HeadReID

根据文献 [3],仅仅是头部特征也有惊人的表达能力。因此尝试了增加提取头部特征的网络,以抵御域变换带来的影响。

实现过程

主要为以下步骤:

  1. 数据处理:视频转换为图片,根据真值切割出每一帧的正确的行人图片,为每个行人制作文件夹,形成最后的数据库
    • 对于HeadReID使用的头部图片由于没有真值,简单的利用原行人图片的上部20%进行提取。
  2. DANN:两个域的行人图片集分别传入Resnet50,提取出特征向量。利用此特征向量分别进行:

    1. 度量学习:Triplet Loss
    2. 标签预测:Person ID预测 → label loss
    3. 域预测:属于入口/出口 → domain loss → 梯度翻转 → ${y(domain loss)}$

      三个loss之和最小化

      AGW:两个域的行人图片集分别传入各自的特征提取层。最小化分类损失。

      HeadReID:行人图片集及其头部图片分别传入对应的特征提取网络。最小化分类损失。

  3. 使用测试集,求出两两行人图片之间的特征类似度,得出结果。

参数选择

根据实验,使用sin函数作为类似度函数,以及对于每个ID的行人使用所有图片的平均特征量时效果过最好。

实验结果

最终结果说明,AGW的手法在里面的效果最好。尤其在人多时造成特征不完全时带来的收益最大。但是当有明显的局部特征如帽子耳机等时,DANN对其的学习能力更强。

HeadReID的失败原因:

  1. 虽然头部特征在前手法中论证有用,但实际本数据集的分辨率远远低于文献使用的数据集。
  2. 因为没有使用头部识别网络而仅仅进行了剪裁操作,衣服等域有关的特征不可避免的被混入。
  3. 数据集中有儿童的存在:他们无法使用简单的剪裁操作生成头部图片。

参考文献

[1] Y. Ganin and V. Lempitsky. Unsupervised domain adaptation by backpropa- gation. In ICML, Vol. 37, pp. 1180–1189, 2015.

[2] M. Ye, J. Shen, G. Lin, T. Xiang, L. Shao, and S. C. H. Hoi. Deep Learning for Person Re-identification: A Survey and Outlook. TPAMI, pp. 1–1, 2021. doi:10.1109/TPAMI.2021.3054775.

[3] Junliang Guo, Yanbing Xue, Jing Cai, Zan Gao, Guangping Xu, and Hua Zhang. A bus passenger re-identification dataset and a deep learning baseline using triplet embedding. Multimedia Tools and Applications, Vol. 80, No. 11, pp. 16425–16440, 2021.