Modelos de IA - RetinaScan
Introdução
Este documento descreve os modelos de inteligência artificial utilizados no projeto RetinaScan AI, incluindo arquitetura, treinamento e versões.
O projeto utiliza como base o modelo RETFound, um foundation model treinado para imagens médicas oculares, adaptado para tarefas específicas de análise de imagens de retina por meio de técnicas de fine-tuning.
Para mais detalhes sobre a implementação, código-fonte e instruções de uso, acesse o repositório oficial do projeto:
RetinaScan AI no GitHub
Modelos Utilizados no Projeto
Inicialmente, foi utilizado um modelo pré-treinado do tipo MAE (Masked Autoencoder), baseado no RETFound, que serviu como base para os experimentos iniciais. A partir desse modelo, foi realizado um primeiro processo de fine-tuning voltado para a tarefa de classificação utilizando o dataset RFMiD.
Em seguida, foi conduzido um novo processo de fine-tuning utilizando uma variação baseada no DINOv2, com o objetivo de explorar melhorias de desempenho e representação de características visuais mais robustas.
Atualmente, o projeto faz uso do dataset RFMiD e decorrer do desenvolvimento, serão usados outros datasets para aprimorar treinamento.
| Campo | Modelo Base | Modelo de Arquitetura | Dataset | Versão | Data de Treinamento | Epochs |
|---|---|---|---|---|---|---|
| RETFound_mae_natureCFP | RETFound_mae | redfound_mae | RFMiD | v1.0.0 | 05/04/2026 | 50 |
| RETFound_dinov2_ODIR | RETFound_dinov2 | redfound_dinov2 | ODIR | v2.0.0 | 13/04/2026 | 50 |
| RETfound_dinov2_RFMiD | RETFound_dinov2 | redfound_dinov2 | ODIR / RFMiD | v2.1.0 | 13/04/2026 | 50 |
Arquitetura
A arquitetura REDFound é baseada no modelo RETFound, que utiliza Vision Transformer (ViT) e foi pré-treinado com aproximadamente 1,6 milhão de imagens de retina por meio de aprendizado autossupervisionado. Esse pré-treinamento permite ao modelo aprender representações visuais robustas e generalizáveis.
O RETFound já foi validado em múltiplas tarefas de detecção de doenças oculares, demonstrando boa capacidade de adaptação. A partir dessa base, a REDFound aplica técnicas de fine-tuning para ajustar o modelo a tarefas específicas do projeto, permitindo uma adaptação eficiente a diferentes datasets e cenários de classificação.
Configuração
Antes de iniciar o treinamento, revise os principais parâmetros:
| Parâmetro | Descrição |
|---|---|
DATA_PATH |
Caminho do dataset |
OUTPUT_DIR |
Diretório de saída |
BATCH_SIZE |
Depende da GPU |
DEVICE |
cuda ou cpu |
Para mais detalhes sobre configuração do ambiente, execução e treinamento dos modelos, acesse:
Resultados
Os resultados obtidos demonstram um bom desempenho do modelo na tarefa de classificação. A métrica de Accuracy indica que o modelo possui alta taxa de acerto geral, enquanto o F1-score evidencia um equilíbrio consistente entre precisão e recall, sendo especialmente relevante para cenários com possíveis desbalanceamentos nas classes. Esses valores sugerem que o modelo é capaz de identificar padrões relevantes nas imagens de retina de forma confiável. Abaixo a tabela com as métricas do modelo mais refinado e mais recente em utilização:
| Métrica | Valor |
|---|---|
| Accuracy | 0.81 |
| F1-score | 0.82 |
Observações
- As observações serão adicionadas posteriormente, após uma análise mais aprofundada dos resultados obtidos com a utilização do modelo.
Histórico de Versão
| Versão | Data | Descrição | Autor | Revisor |
|---|---|---|---|---|
| 1.0 | 13/04/2026 | Documentação do Fine-tuning inicial do RETFound | Elias Oliveira | Harleny A. |
| 1.1 | 15/04/2026 | Adição de descrições e formatação das tabelas | Harleny A. Iderlan J. Elias O. |
Elias Oliveira |