Skip to content

Commit

Permalink
escopo, referências e draft da rubrica
Browse files Browse the repository at this point in the history
  • Loading branch information
fbarth committed Oct 11, 2024
0 parents commit 30a839d
Show file tree
Hide file tree
Showing 9 changed files with 146 additions and 0 deletions.
Empty file added .gitignore
Empty file.
Binary file added Projeto_HRD-Dasa.docx
Binary file not shown.
14 changes: 14 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,14 @@
# Sprint session 4o semestre 2024/2

Tema: **CNN para detecção de deficiência de recombinação homologa (HRD)**

Empresa parceira: **DASA**

## Documentos relacionados

* [Escopo do projeto](escopo.md)
* [Rubrica](rubrica.md)

## Referências

* [*1.* Pozzorini, Christian et al. **"GIInger predicts homologous recombination deficiency and patient response to PARPi treatment from shallow genomic profiles"** *Cell reports. Medicine* vol. 4,12 (2023): 101344. doi:10.1016/j.xcrm.2023.101344](./referencias/gIInger_paper.pdf)
13 changes: 13 additions & 0 deletions TODO.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,13 @@
# TODO

[ ] Comitê de ética aprovando o estudo com os dados já coletados. Precisa? Falar com o Miranda.
[ ] Contratos de confidencialidade com quem for mexer com esses dados - o que seria todos os alunos e professores do sprint. Falar com o pessoal da DASA
[ ] disponibilização dos dados em algum local acessível porém privado. Falar com o pessoal da DASA.

Início da sprint session: 18/11/2021

Requisitos de:

[ ] MLEng / CD
[ ] MLOps
[ ] Montar rubrica
40 changes: 40 additions & 0 deletions escopo.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,40 @@
**CNN para detecção de deficiência de recombinação homologa (HRD)**

Felipe Aristides Simao Neto, DASA.

**Objetivo:**

O objetivo deste projeto é desenvolver uma *Convolutional neural
network* (CNN) para a detecção e análise da Deficiência de Recombinação
Homóloga (HRD) em amostras de câncer a partir de dados de sequenciamento
genético de nova geração (NGS). HRD é uma condição em que a via de
reparo de DNA através da recombinação homóloga está comprometida,
levando à instabilidade genômica e aumentando a susceptibilidade a
determinadas terapias, como os inibidores de PARP. Esta CNN poderá fazer
parte de uma pipeline para identificar o status de HRD em pacientes com
câncer, permitindo estratégias de tratamento personalizadas e melhorando
os resultados clínicos.

**Escopo:**

Desenvolvimento de uma CNN para identificação do status de HRD,
implementada em Python. Dados para treinamento e validação da CNN serão
disponibilizados em formato de heatmaps de duas dimensões mostrando
dados normalizados de cobertura, com cada cromossomo representado por
uma fileira e colunas representando áreas de 3 milhões de bases no
genoma humano (Figura 1B). Como referência, será utilizado o algoritmo
GIInger da SOPHiA genetics publicado no final de 2023 (Figura 1C).

![](img/cnn.png)

**Figura 1** -- Exemplo de heatmaps e CNN implementadas no GIInger \[1\].


**Entregáveis:**

Uma CNN implementada em Python capaz de calcular o status HRD em
amostras de NGS

**Referencias**

*1.* Pozzorini, Christian et al. **"GIInger predicts homologous recombination deficiency and patient response to PARPi treatment from shallow genomic profiles"** *Cell reports. Medicine* vol. 4,12 (2023): 101344. [doi:10.1016/j.xcrm.2023.101344](doi:10.1016/j.xcrm.2023.101344)
Binary file added img/cnn.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added referencias/gIInger_paper.pdf
Binary file not shown.
Empty file added requirements.txt
Empty file.
79 changes: 79 additions & 0 deletions rubrica.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,79 @@
# Rubrica

A rubrica deste projeto será dividida em algumas categorias:

## Compreensão do problema

[ ] Todos os membros da equipe precisam participar do curso ministrado pela equipe da DASA.

[ ] A equipe precisa entregar um documento respondendo as seguintes perguntas:

- O que é homologous recombination deficiency (HRD) e por que é importante no tratamento do câncer?
- O que é GIInger e como ele aborda as limitações dos métodos existentes?
- O que é genomic instability index (GII) e qual sua relação com HRD?
- Como foi validado o GIInger e quais foram os resultados?

As respostas para estas perguntas precisam ser feitas depois da leitura do artigo: Pozzorini, Christian et al. **"GIInger predicts homologous recombination deficiency and patient response to PARPi treatment from shallow genomic profiles."** *Cell reports. Medicine* vol. 4,12 (2023): 101344. doi:10.1016/j.xcrm.2023.101344

## Análise exploratória de dados

[ ] A equipe de MLEng precisa entregar um relatório com a análise exploratória dos dados, respondendo as seguintes perguntas:

- Qual o tamanho do dataset?
- Quais são as variáveis disponíveis?
- Quais os tipos de dados disponíveis?
- Quais são as variáveis de entrada e saída do modelo?
- Qual a distribuição das variáveis?

## Pré-processamento e armazenamento dos dados

A equipe da DASA irá disponibilizar o dataset para treinamento e validação em algum serviço de armazenamento de dados privado.

[ ] A equipe de MLOps precisa garantir que os dados estejam disponíveis e acessíveis para a equipe de MLEng. Todo o processo de cópia do dataset para o ambiente de treinamento deve ser automatizado. A equipe de MLOps deve garantir que os dados estejam disponíveis em um ambiente seguro e privado, e que estejam sempre atualizados para a equipe de MLEng. O script de cópia do dataset deve ser parametrizável considerando os cenários de treinamento e validação do modelo.

[ ] Todo pipeline de pré-processamento dos dados deve ser automatizado e documentado.

[ ] Assim como o código, os dados também precisam fazer uso de um sistema de versionamento. É de responsabilidade da equipe de MLOps definir o sistema de versionamente. Mas, é de responsabilidade de ambas as equipes, MLOps e MLEng, o correto uso do mesmo.

## Modelagem

A equipe do Insper (MLEng e MLOps) precisam entender como funciona e como implementar uma CNN.

[ ] A equipe do Insper precisa executar pelo menos um dos dois tutoriais abaixo para entender como funciona uma CNN e como implementar uma em Python.

* https://www.tensorflow.org/tutorials/images/cnn
* https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html

O tutorial que foi executado precisa estar no repositório do projeto em uma pasta específica.

[ ] A equipe do Insper precisa entregar um documento que respondendo as seguintes perguntas:

- O que é uma CNN?
- Como funciona uma CNN?
- Como acontece a extração de características em uma CNN?
- Quais são as principais camadas de uma CNN?
- O que as camadas de Convolução, Padding e Pooling fazem?
- O que é uma camada Dense, Dropout, ReLU e Flatten?

[ ] A equipe de MLEng deve implementar uma CNN qualquer para validar o processo de construção do modelo e obter um modelo baseline.

[ ] O modelo baseline deve ser salvo no repositório de modelos do projeto. A equipe de MLOps deve providenciar um repositório de modelos e ferramentas para versionamento dos modelos. Este respositório deve permitir a recuperação de qualquer modelo e sua respecitva versão em qualquer momento.

[ ] A equipe de MLEng deve implementar a CNN descrita no artigo de referência e comparar os resultados com o modelo baseline.

[ ] A equipe de MLEng deve implementar um modelo de classificação de HRD utilizando uma CNN.


## Avaliação e apresentação dos resultados



## Deploy do modelo

[ ] Os modelos desenvolvidos pela equipe do Insper devem ser armazenados em algum serviço de armazenamento e devem ter um controle de versão. Este controle de versão deve permitir recuperar qualquer versão do modelo pré-existente.

[ ] A equipe do Insper deve desenvolver um site web para demonstrar o uso do modelo. Um site onde a partir do upload do um heatmap apresentar a tomada de decisão sobre o mesmo. A equipe do Insper deve se organizar para decidir quem será responsável por este componente.


## Entregáveis e estrutura dos repositórios

0 comments on commit 30a839d

Please sign in to comment.