Skip to content

Modelos de IA - RetinaScan

Introdução

Este documento descreve os modelos de inteligência artificial utilizados no projeto RetinaScan AI, incluindo arquitetura, treinamento e versões.

O projeto utiliza como base o modelo RETFound, um foundation model treinado para imagens médicas oculares, adaptado para tarefas específicas de análise de imagens de retina por meio de técnicas de fine-tuning.

Para mais detalhes sobre a implementação, código-fonte e instruções de uso, acesse o repositório oficial do projeto:
RetinaScan AI no GitHub


Modelos Utilizados no Projeto

Inicialmente, foi utilizado um modelo pré-treinado do tipo MAE (Masked Autoencoder), baseado no RETFound, que serviu como base para os experimentos iniciais. A partir desse modelo, foi realizado um primeiro processo de fine-tuning voltado para a tarefa de classificação utilizando o dataset RFMiD.

Em seguida, foi conduzido um novo processo de fine-tuning utilizando uma variação baseada no DINOv2, com o objetivo de explorar melhorias de desempenho e representação de características visuais mais robustas.

Atualmente, o projeto faz uso do dataset RFMiD e decorrer do desenvolvimento, serão usados outros datasets para aprimorar treinamento.

Campo Modelo Base Modelo de Arquitetura Dataset Versão Data de Treinamento Epochs
RETFound_mae_natureCFP RETFound_mae redfound_mae RFMiD v1.0.0 05/04/2026 50
RETFound_dinov2_ODIR RETFound_dinov2 redfound_dinov2 ODIR v2.0.0 13/04/2026 50
RETfound_dinov2_RFMiD RETFound_dinov2 redfound_dinov2 ODIR / RFMiD v2.1.0 13/04/2026 50

Arquitetura

A arquitetura REDFound é baseada no modelo RETFound, que utiliza Vision Transformer (ViT) e foi pré-treinado com aproximadamente 1,6 milhão de imagens de retina por meio de aprendizado autossupervisionado. Esse pré-treinamento permite ao modelo aprender representações visuais robustas e generalizáveis.

O RETFound já foi validado em múltiplas tarefas de detecção de doenças oculares, demonstrando boa capacidade de adaptação. A partir dessa base, a REDFound aplica técnicas de fine-tuning para ajustar o modelo a tarefas específicas do projeto, permitindo uma adaptação eficiente a diferentes datasets e cenários de classificação.


Configuração

Antes de iniciar o treinamento, revise os principais parâmetros:

Parâmetro Descrição
DATA_PATH Caminho do dataset
OUTPUT_DIR Diretório de saída
BATCH_SIZE Depende da GPU
DEVICE cuda ou cpu

Para mais detalhes sobre configuração do ambiente, execução e treinamento dos modelos, acesse:

Guia completo no repositório


Resultados

Os resultados obtidos demonstram um bom desempenho do modelo na tarefa de classificação. A métrica de Accuracy indica que o modelo possui alta taxa de acerto geral, enquanto o F1-score evidencia um equilíbrio consistente entre precisão e recall, sendo especialmente relevante para cenários com possíveis desbalanceamentos nas classes. Esses valores sugerem que o modelo é capaz de identificar padrões relevantes nas imagens de retina de forma confiável. Abaixo a tabela com as métricas do modelo mais refinado e mais recente em utilização:

Métrica Valor
Accuracy 0.81
F1-score 0.82

Observações

  • As observações serão adicionadas posteriormente, após uma análise mais aprofundada dos resultados obtidos com a utilização do modelo.

Histórico de Versão

Versão Data Descrição Autor Revisor
1.0 13/04/2026 Documentação do Fine-tuning inicial do RETFound Elias Oliveira Harleny A.
1.1 15/04/2026 Adição de descrições e formatação das tabelas Harleny A.
Iderlan J.
Elias O.
Elias Oliveira