Multi-Still: A lightweight Multi-modal Cross Attention Knowledge Distillation method for real-time Emotion Recognition
😊 대회 소개
- 인간과 교감할 수 있는 인공지능을 구현하기 위한 목적으로 개최 되었습니다.
- 사람의 행동과 감정을 이해하는 기술 연구를 가능토록 하기위해 구축한 데이터셋을 활용하여 휴먼이해 인공지능 기술 연구를 확산시키고자 합니다.
- 이에 창의적은 연구를 발굴하고자 합니다.
😊 주최/주관
- 주최 : 한국전자통신연구원 (ETRI)
- 후원 : 과학정보기술통신부, 국가과학기술연구회 (NST)
- 운영 : 인공지능팩토리 (AIFactory)
😊 논문 주제
멀티모달 감정 데이터셋 활용 감정 인식 기술 분야
논문주제: Emotion Recognition in Conversation (ERC)분야
Multi-Still: 실시간 감정 인식을 위한 경량화된 멀티모달 교차 어텐션 지식 증류 방법
* Emotion Recognition in Conversation이란? 두 명 이상의 참여자 간의 대화(dialogue)과정에서 대화 참여자의 감정을 인식 또는 예측하기 위한 감정인식 연구분야입니다.
😊 활용 데이터: ETRI 한국어 감정 데이터셋 활용 연구
😊 Environment
python version : python3.9
OS type : WSL
requires packages: {
😊 Docker container run
docker container run -d -it --name multi_still --gpus all python:3.9
😊 Environment Setting
git clone
cd Multi-Still_ETRI
😊 Preprocessing
# 데이터 전처리
- 7가지 감정 레이블의 데이터 불균형 완화 전후 분포 비교
😊 Train
# 멀티모달 교사 모델 훈련
python --model_name multimodal_teacher
# 교사모델을 활용해, 데이터셋에 증류 데이터(Softmax) 추가
#--teacher_name 옵션으로 MultiModal 교사모델의 이름_epoch수를 입력한다.
#--data_path 옵션으로 softmax 데이터를 추가할 기존 데이터셋의 경로를 입력 (기본값, "data/train_preprocessed_data.json")
python --teacher_name multimodal_teacher_epoch4
# 를 수정해서 Epoch를 포함한 하이퍼파라미터 변경
# 멀티모달 학생 모델 지식증류 훈련
python --model_name multimodal_student
# 문자모달 학생 모델 지식증류 훈련
python --model_name text_student --text_only True
# 음성모달 학생 모델 지식증류 훈련
python --model_name audio_student --audio_only True
😊 Test
# pt 파일은 훈련의 5번째 Epoch마다 생성됨. (예: 5, 10, 11....)
# 여러 파일을 테스트 하기위해 test_all파일에 복사
mkdir ckpt/test_all
cp ckpt/* ckpt/test_all/
python --all
# test.py의 결과는 "result_all_model2.csv"에서
😁 Directory
- 코드 구현을 위해서는 ETRI에서 제공하는 파일(KEMDy19 & KEMDy20)과 AI Hub 감정 데이터 파일이 알맞은 위치에 있어야합니다.
+--module_for_clossattention # 멀티헤드 어텐션 # 포지셔널 임베딩 # 트랜스포머 # 멀티모달, encoding진행 # 음성 및 텍스트를 포함한 멀티모달 인코딩 및 크로스 어텐션
+--data ( 실행 후 생성)
+--total_data.json # 모든 데이터셋을 전처리한 파일
+--preprocessed_data.json # 모든 데이터셋에서 음성파일이 존재하지 않는 데이터를 제거 후, 테스트데이터와 훈련 데이터를 분리한 파일
+--test_preprocessed_data.json # preprocessed_data.json에서 테스트 데이터를 추출한 파일
+--train_preprocessed_data.json # preprocessed_data.json에서 훈련 데이터를 추출한 파일
+--ckpt (, 실행 후 생성)
+--test_all # 여러 모델들을 한번에 테스트할 때 복사해줄 폴더
+--*.pt # 모델 훈련 후, 5의 배수 Epoch마다 저장되는 모델 파일
+--TOTAL( 실행 후 생성) # 모든 데이터를 TOTAL 폴더에 복사한 후, 전처리 및 훈련 진행
+--hidden_states # 훈련 및 추론을 빨리 진행하기 위해, 미리 훈련된 Wav2Vec2모델에서 인코딩한 결과를 미리 저장하여 활용. # update, upgrade 및 모델 생성 시 필요한 라이브러리 설치 # 데이터 전처리 및 훈련, 테스트 데이터셋 분리 저장 # 교사모델 훈련시 필요한 하이퍼파라미터 정의 # 데이터셋 전처리 및 훈련, 테스트 데이터셋 분리 저장 # 훈련된 교사 모델을 이용해, 데이터 셋에 증류된 지식(Softmax) 데이터 추가저장 # 증류된 지식을 통해, 학생모델을 훈련 # 모든 데이터를 TOTAL 폴더로 이동 후, 데이터셋으로 가공 # 데이터를 읽고, 모델 훈련시 데이터를 제공해주는 DataLoader 파일 # 학생모델 훈련시 필요한 하이퍼파라미터 정의 # ckpt 폴더에 저장되어 있는 모델을 테스트 # 크로스 어텐션 기반 교사모델을 훈련하는 파일 # logger, get_params 등 모델 정보를 볼 수 있는 기능 포함
😆 Base Model
Encoder | Architecture | pretrained-weights |
Audio Encoder | pretrained Wav2Vec 2.0 | kresnik/wav2vec2-large-xlsr-korean |
Text Encoder | pretrained Electra | monologg/koelectra-base |
😃 Arguments
Arguments | Description |
--epochs | 모델 반복 훈련 수 |
--batch | 데이터 batch 사이즈 |
--shuffle | 훈련 데이터의 shuffle 여부 |
--lr | 훈련시 사용할 Learning rate 값 |
--cuda | 사용할 GPU 정의 (default="cuda:0") |
--save | 모델의 저장 여부 |
--model_name | 모델 저장시, 저장할 모델의 이름 |
--text_only | 텍스트 데이터 및 인코더만 사용해서 훈련 |
--audio_only | 오디오 데이터 및 인코더만 사용해서 훈련 |
Arguments | Description |
--cuda | 사용할 GPU 정의 (default="cuda:0") |
--teacher_name | 지식 증류할 저장된 모델의 이름 |
--data_path | 지식 증류할 데이터의 경로 |
Arguments | Description |
--epochs | 모델 반복 훈련 수 |
--batch | 데이터 batch 사이즈 |
--shuffle | 훈련 데이터의 shuffle 여부 |
--lr | 훈련시 사용할 Learning rate 값 |
--cuda | 사용할 GPU 정의 (default="cuda:0") |
--save | 모델의 저장 여부 |
--model_name | 모델 저장시, 저장할 모델의 이름 |
--text_only | 텍스트 데이터 및 인코더만 사용해서 훈련 |
--audio_only | 오디오 데이터 및 인코더만 사용해서 훈련 |
Arguments | Description |
--batch | 데이터 batch 사이즈 |
--cuda | 사용할 GPU 정의 (default="cuda:0") |
--model_name | 테스트할 모델의 이름(예: ckpt/[모델이름].pt) |
--all | "ckpt/test_all" 경로 안에 있는 모든 모델 테스트 |
😀 Model Architecture
경량화 기술 중 하나인 지식 증류 (Knowledge Distillation)를 사용하여 실시간 감정인식을 위한 멀티모달 구조를 경량화하는 방법- 👩🏫➡👨💻 Muti-Still Architecture
- 👩🏫 Teacher Model
😆 Experiments
- 텍스트 모델(KoELECTRA)
- 오디오 모델(WAV2VEC 2.0)
- 교사 모델(Multimodal Cross-Attention)
- 학생모델((a)Text-OnlyStudent, (b)Audio-OnlyStudent, (c)MultimodalStudent)
🙂 Contact
- Hyun-Ki Jo : [email protected]
- Yu-Ri Seo : [email protected]
- Seol Roh : [email protected]