- MCNN论文复现 -

MCNN是CVPR2016年的一篇论文, 作者提出了一种简单而有效的多列卷积神经网络架构(Multi-column Convolutional Neural Network, MCNN)，通过使用大小不同的卷积核去适应人/头部大小的变化，以将图片映射为人群密度图。作者在文章中使用了几何自适应高斯核去计算人群密度图(Ground Truth)，同时收集并标记了一个大型的新数据集(ShanghaiTech数据集)，其中包括1198幅图像，数据集可以在AI Studio上下载到: https://aistudio.baidu.com/aistudio/datasetdetail/10675 .

MCNN受MDNNs的启发，由三列并行的CNN组成，每列CNN卷积核大小不同。为了简化，所有列使用相同的网络结构(即conv-pooling-conv-pooling)。每次池化都会使用2*2的Max Pooling，而激活函数全部选择Relu。堆叠三列CNN的输出特征图，并使用1*1的卷积核将其映射为密度图。MCNN的整体架构图如Figure 1所示：

图 1：用于人群密度图估计的多列卷积神经网络(MCNN)的结构
Figure 1：The structure of the proposed multi-column convolutional neural network for crowd density map estimation.

MCNN在训练时，存在数据样本少和梯度消失的问题，受预训练模型RBM的启发，作者将三列CNN单独进行预训练，将这些预训练的CNN参数初始化为对应的MCNN参数并微调。需要补充的是，MCNN使用了最简单的均方误差作为损失函数。

论文中使用几何自适应高斯核去计算数据图片的Ground Truth：

在Figure 2中，显示了两张图片的人群密度图。值得说明的是，由于经过了两次下采样，所以预测出人群密度图的分辨率变为原来的1/4.

图 2：原始图像和通过几何自适应高斯核进行卷积获得的相应的人群密度图。
Figure 2：Original images and corresponding crowd density maps obtained by convolving geometry-adaptive Gaussian kernels.

MCNN几乎可以从任何观察角度准确估计单个图像中的人群数，在2016年，取得了人群计数领域state-of-art的成绩。同时作者还指出，仅需要对模型最后几层进行微调，便可以将模型轻松迁移到目标问题，验证了模型的鲁棒性。

在论文中，还有很多细节，本篇不再赘述，可以查看原论文MCNN

1.基于飞桨开源框架(Paddlepaddle)复现MCNN

环境依赖:

paddlepaddle >= 1.7.0
numpy
matplotlib
PIL 
opencv-python

2. 训练策略

MCNN受到预训练模型的启发，先将三列CNN单独训练，之后将CNN的参数初始化为MCNN对应的参数之后，整体再进行训练，在原论文中，训练策略为批随机梯度下降法。

3.模型复现效果

我们可以对比使用飞桨的训练效果和原论文的训练效果，可以看出在AI Studio平台的算力加持下，基于飞桨的训练效果更加精确，多了更多细节.

图 3：原论文中两张测试集图片的结果对比，从左到右分别是原图, Ground True,原论文复现图和基于飞桨的复现结果图
Figure 3：Comparing results

drryanhuang / mcnn_paddlepaddle Goto Github PK

mcnn_paddlepaddle's Introduction

- MCNN论文复现 -

1.基于飞桨开源框架(Paddlepaddle)复现MCNN

2. 训练策略

3.模型复现效果

mcnn_paddlepaddle's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

Jobs