DFEPT: Data Flow Embedding For Enhancing Pre-Training Model Based Vulnerability Detection

Requirements

Python 3.8
pytorch 2.0.0
transformers 4.36.2
tree-sitter 0.20.4
scikit-learn

Usage

The repository is partially based on CodeXGLUE.

Fine-tuning

Fine-tune CodeBERT/UnixCoder

cd code
python run.py \
    --output_dir=./saved_models \
    --model_type=roberta \
    --tokenizer_name=microsoft/codebert-base \
    --model_name_or_path=microsoft/codebert-base \
    --do_train \
    --train_data_file=../dataset/train.jsonl \
    --eval_data_file=../dataset/valid.jsonl \
    --test_data_file=../dataset/test.jsonl \
    --epoch 5 \
    --block_size 400 \
    --train_batch_size 32 \
    --eval_batch_size 64 \
    --learning_rate 2e-5 \
    --max_grad_norm 1.0 \
    --evaluate_during_training \
    --seed 123456  2>&1 | tee train.log

Fine-tune GraphCodeBERT

cd GraphCodeBERT+DFG
python run.py \
    --output_dir=./checkpoint \
    --model_type=roberta \
    --config_name=microsoft/graphcodebert-base \
    --tokenizer_name=microsoft/graphcodebert-base \
    --model_name_or_path=microsoft/graphcodebert-base \
    --do_train \
    --train_data_file=./dataset/train.jsonl \
    --eval_data_file=./dataset/valid.jsonl \
    --test_data_file=./dataset/test.jsonl \
    --epoch 10 \
    --code_length 384 \
    --data_flow_length 128 \
    --train_batch_size 16 \
    --eval_batch_size 64 \
    --learning_rate 2e-5 \
    --max_grad_norm 1.0 \
    --evaluate_during_training \
    --seed 123456  2>&1 | tee ../logs/train.log

Fine-tune CodeT5

cd CodeT5+DFG/code
python run_exp.py --model_tag codet5_base --task defect --sub_task none
python run_exp.py --model_tag codet5_base --task defect_reveal --sub_task none

How do different graph embedding and pooling methods affect model performance?

cd DifferentGNN
python run.py \
    --output_dir=./saved_models \
    --model_type=roberta \
    --tokenizer_name=microsoft/unixcoder-base \
    --model_name_or_path=microsoft/unixcoder-base \
    --do_train \
    --train_data_file=../dataset/train.jsonl \
    --eval_data_file=../dataset/valid.jsonl \
    --test_data_file=../dataset/test.jsonl \
    --epoch 5 \
    --block_size 400 \
    --train_batch_size 32 \
    --eval_batch_size 64 \
    --learning_rate 2e-5 \
    --max_grad_norm 1.0 \
    --evaluate_during_training \
    --seed 123456  2>&1 | tee train.log

Ablation Study

cd ablation
python run.py \
    --output_dir=./saved_models \
    --model_type=roberta \
    --tokenizer_name=microsoft/unixcoder-base \
    --model_name_or_path=microsoft/unixcoder-base \
    --do_train \
    --train_data_file=../dataset/train.jsonl \
    --eval_data_file=../dataset/valid.jsonl \
    --test_data_file=../dataset/test.jsonl \
    --epoch 5 \
    --block_size 400 \
    --train_batch_size 32 \
    --eval_batch_size 64 \
    --learning_rate 2e-5 \
    --max_grad_norm 1.0 \
    --evaluate_during_training \
    --seed 123456  2>&1 | tee train.log

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.idea		.idea
CodeT5+DFG		CodeT5+DFG
DifferentGNN		DifferentGNN
GraphCodeBERT+DFG		GraphCodeBERT+DFG
ablation		ablation
code		code
dataset		dataset
Fig3.pdf		Fig3.pdf
Fig4.pdf		Fig4.pdf
README.md		README.md
plot.py		plot.py
rq1_plot.py		rq1_plot.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DFEPT: Data Flow Embedding For Enhancing Pre-Training Model Based Vulnerability Detection

Requirements

Usage

Fine-tuning

Fine-tune CodeBERT/UnixCoder

Fine-tune GraphCodeBERT

Fine-tune CodeT5

How do different graph embedding and pooling methods affect model performance?

Ablation Study

About

Releases

Packages

Languages

GCVulnerability/DFEPT

Folders and files

Latest commit

History

Repository files navigation

DFEPT: Data Flow Embedding For Enhancing Pre-Training Model Based Vulnerability Detection

Requirements

Usage

Fine-tuning

Fine-tune CodeBERT/UnixCoder

Fine-tune GraphCodeBERT

Fine-tune CodeT5

How do different graph embedding and pooling methods affect model performance?

Ablation Study

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages