Skip to content

Latest commit

 

History

History
94 lines (67 loc) · 4 KB

README.md

File metadata and controls

94 lines (67 loc) · 4 KB

2022年中国高校计算机大赛-微信大数据挑战赛

赛题详细信息点此

一、赛题摘要

多模态短视频分类 短视频数据中存在模态缺失、相关性弱、分类标签分布不均衡等问题。我们需要基于微信视频号短视频数据(文字、音频、视频三种模态信息)以及对应的分类标签标注,采用合理的机器学习技术对短视频进行分类预测。

初赛提供百万量级的无标注数据十万量级的有标注数据;复赛阶段训练数据和初赛相同,主要区别是初赛阶段只提供视频抽帧特征,而复赛阶段提供视频抽帧原始图像。

P.S: 抽帧算法为 Swin Transformer Tiny 算法,复赛阶段会提供相应的算法,确保我们可以复现。

数据格式

数据集

评估方法 采用F1 microF1 macro的平均值。同时,分类体系包含一级分类和二级分类,在评测中会分别计算并取平均值。

最终指标为:

(category1_f1_micro + category1_f1_macro + category2_f1_micro + category2_f1_macro) / 4

评估代码可直接援引Baseline

二、算法框架与思路

1、数据处理与特征工程

数据中frames_feature字段维度高达768维,不经过处理直接放入模型不现实,初步设想采用如下的方法对特征进行降维

  • LSTM
  • 图神经网络
  • 三维卷积神经网络
  • 等等······

其次,asr ocr 字段含有大量中文文本信息,需要通过语义分析,提取有效信息,得到相应的清洗后的特征,初步设想:

2、分类器

采用半监督学习的方向,首先将十万量级的有标注数据切分为子训练集与子测试集,初步训练一个基础分类器,而后利用自训练对初步分类器进行迭代升级,具体步骤如下:

  • ①用子训练集训练基础分类器;
  • ②将分类器在无标注数据上进行预测,将预测结果中概率/相关性高于阈值的认作“伪标签”;(可以通过概率为伪标签进行加权)
  • ③将带“伪标签”的数据与子训练集拼接,作为新的训练集重新训练分类器;
  • ④将重训后的分类器在子测试集上进行测试,计算相应的F1值,评估分类器性能 重复②③④步,直到②中没有满足阈值的数据

2.1 分类器算法

  • Gaussian Mixed Model(评估指标:model.predict_proba())
  • ?

三、文件结构

.
├── baseline
├── checkpoints
├── config.py
├── data
│   ├── dataset.py
│   ├── _init_.py
│   ├── test
│   └── train
├── LICENSE
├── logs
├── main.py
├── models
│   └── _init_.py
├── README.md
├── requirements.txt
└── utils
    ├── _init_.py
    └── visualize.py

四、提交记录

提交序号 category1_f1_macro category1_f1_micro category2_f1_macro category2_f1_micro 得分 提交方案
1 0.660832 0.67616 0.419784 0.54980 0.576644 Baseline: Pure
2 0.639944 0.65552 0.389201 0.52444 0.552276 Baseline: macBERT -> PERT
3 0.677707 0.68292 0.431685 0.55224 0.586138 Baseline: BERT -> ERNIE
4 0.686663 0.7042 0.459916 0.577 0.606945 Baseline:ERNIE -> Roberta, +asr
5