多模态短视频分类 短视频数据中存在模态缺失、相关性弱、分类标签分布不均衡等问题。我们需要基于微信视频号短视频数据(文字、音频、视频三种模态信息)以及对应的分类标签标注,采用合理的机器学习技术对短视频进行分类预测。
初赛提供百万量级的无标注数据和十万量级的有标注数据;复赛阶段训练数据和初赛相同,主要区别是初赛阶段只提供视频抽帧特征,而复赛阶段提供视频抽帧原始图像。
P.S: 抽帧算法为 Swin Transformer Tiny 算法,复赛阶段会提供相应的算法,确保我们可以复现。
数据格式
数据集
评估方法
采用F1 micro
和F1 macro
的平均值。同时,分类体系包含一级分类和二级分类,在评测中会分别计算并取平均值。
最终指标为:
(category1_f1_micro + category1_f1_macro + category2_f1_micro + category2_f1_macro) / 4
评估代码可直接援引Baseline
数据中frames_feature字段维度高达768维,不经过处理直接放入模型不现实,初步设想采用如下的方法对特征进行降维
- LSTM
- 图神经网络
- 三维卷积神经网络
- 等等······
其次,asr
ocr
字段含有大量中文文本信息,需要通过语义分析,提取有效信息,得到相应的清洗后的特征,初步设想:
- ?
采用半监督学习
的方向,首先将十万量级的有标注数据
切分为子训练集与子测试集,初步训练一个基础分类器,而后利用自训练对初步分类器进行迭代升级,具体步骤如下:
- ①用子训练集训练基础分类器;
- ②将分类器在无标注数据上进行预测,将预测结果中概率/相关性高于阈值的认作“伪标签”;(可以通过概率为伪标签进行加权)
- ③将带“伪标签”的数据与子训练集拼接,作为新的训练集重新训练分类器;
- ④将重训后的分类器在子测试集上进行测试,计算相应的F1值,评估分类器性能 重复②③④步,直到②中没有满足阈值的数据
- Gaussian Mixed Model(评估指标:model.predict_proba())
- ?
. ├── baseline ├── checkpoints ├── config.py ├── data │ ├── dataset.py │ ├── _init_.py │ ├── test │ └── train ├── LICENSE ├── logs ├── main.py ├── models │ └── _init_.py ├── README.md ├── requirements.txt └── utils ├── _init_.py └── visualize.py
提交序号 | category1_f1_macro | category1_f1_micro | category2_f1_macro | category2_f1_micro | 得分 | 提交方案 |
---|---|---|---|---|---|---|
1 | 0.660832 | 0.67616 | 0.419784 | 0.54980 | 0.576644 | Baseline: Pure |
2 | 0.639944 | 0.65552 | 0.389201 | 0.52444 | 0.552276 | Baseline: macBERT -> PERT |
3 | 0.677707 | 0.68292 | 0.431685 | 0.55224 | 0.586138 | Baseline: BERT -> ERNIE |
4 | 0.686663 | 0.7042 | 0.459916 | 0.577 | 0.606945 | Baseline:ERNIE -> Roberta, +asr |
5 |