2022年中国高校计算机大赛-微信大数据挑战赛

赛题详细信息点此

一、赛题摘要

多模态短视频分类 短视频数据中存在模态缺失、相关性弱、分类标签分布不均衡等问题。我们需要基于微信视频号短视频数据（文字、音频、视频三种模态信息）以及对应的分类标签标注，采用合理的机器学习技术对短视频进行分类预测。

初赛提供百万量级的无标注数据和十万量级的有标注数据；复赛阶段训练数据和初赛相同，主要区别是初赛阶段只提供视频抽帧特征，而复赛阶段提供视频抽帧原始图像。

P.S：抽帧算法为 Swin Transformer Tiny 算法，复赛阶段会提供相应的算法，确保我们可以复现。

数据格式

数据集

评估方法 采用F1 micro和F1 macro的平均值。同时，分类体系包含一级分类和二级分类，在评测中会分别计算并取平均值。

最终指标为：

(category1_f1_micro + category1_f1_macro + category2_f1_micro + category2_f1_macro) / 4

评估代码可直接援引Baseline

二、算法框架与思路

1、数据处理与特征工程

数据中frames_feature字段维度高达768维，不经过处理直接放入模型不现实，初步设想采用如下的方法对特征进行降维

LSTM
图神经网络
三维卷积神经网络
等等······

其次，asr ocr 字段含有大量中文文本信息，需要通过语义分析，提取有效信息，得到相应的清洗后的特征，初步设想：

？

2、分类器

采用半监督学习的方向，首先将十万量级的有标注数据切分为子训练集与子测试集，初步训练一个基础分类器，而后利用自训练对初步分类器进行迭代升级，具体步骤如下：

①用子训练集训练基础分类器；
②将分类器在无标注数据上进行预测，将预测结果中概率/相关性高于阈值的认作“伪标签”；（可以通过概率为伪标签进行加权）
③将带“伪标签”的数据与子训练集拼接，作为新的训练集重新训练分类器；
④将重训后的分类器在子测试集上进行测试，计算相应的F1值，评估分类器性能重复②③④步，直到②中没有满足阈值的数据

2.1 分类器算法

Gaussian Mixed Model(评估指标：model.predict_proba())
?

三、文件结构

.
├── baseline
├── checkpoints
├── config.py
├── data
│   ├── dataset.py
│   ├── _init_.py
│   ├── test
│   └── train
├── LICENSE
├── logs
├── main.py
├── models
│   └── _init_.py
├── README.md
├── requirements.txt
└── utils
    ├── _init_.py
    └── visualize.py

四、提交记录

提交序号	category1_f1_macro	category1_f1_micro	category2_f1_macro	category2_f1_micro	得分	提交方案
1	0.660832	0.67616	0.419784	0.54980	0.576644	Baseline: Pure
2	0.639944	0.65552	0.389201	0.52444	0.552276	Baseline: macBERT -> PERT
3	0.677707	0.68292	0.431685	0.55224	0.586138	Baseline: BERT -> ERNIE
4	0.686663	0.7042	0.459916	0.577	0.606945	Baseline：ERNIE -> Roberta, +asr
5

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2022年中国高校计算机大赛-微信大数据挑战赛

一、赛题摘要

二、算法框架与思路

1、数据处理与特征工程

2、分类器

2.1 分类器算法

三、文件结构

四、提交记录

About

Releases

Packages

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
baseline		baseline
data		data
models		models
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.py		config.py
evaluate.py		evaluate.py
inference.py		inference.py
main.py		main.py
requirements.txt		requirements.txt

License

pengchzn/Algo-Wechat-2022

Folders and files

Latest commit

History

Repository files navigation

2022年中国高校计算机大赛-微信大数据挑战赛

一、赛题摘要

二、算法框架与思路

1、数据处理与特征工程

2、分类器

2.1 分类器算法

三、文件结构

四、提交记录

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages