Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina (2018)
- Authors:
- Autor USP: SANTOS, HELLEN GEREMIAS DOS - FSP
- Unidade: FSP
- Sigla do Departamento: HEP
- DOI: 10.11606/T.6.2018.tde-09102018-132826
- Subjects: PREDIÇÃO; PROGNÓSTICO; QUALIDADE DE VIDA; ESPERANÇA DE VIDA; MORTALIDADE; MEDICINA; SAÚDE PÚBLICA; APRENDIZADO COMPUTACIONAL; INTELIGÊNCIA ARTIFICIAL
- Agências de fomento:
- Language: Português
- Abstract: Modelos preditivos estimam o risco de eventos ou agravos relacionados à saúde e podem ser utilizados como ferramenta auxiliar em tomadas de decisão por gestores e profissionais de saúde. Algoritmos de machine learning (ML), por sua vez, apresentam potencial para identificar relações complexas e não-lineares presentes nos dados, com consequências positivas na performance preditiva desses modelos. A presente pesquisa objetivou aplicar técnicas supervisionadas de ML e comparar sua performance em problemas de classificação e de regressão para predizer respostas de interesse para a saúde pública e a medicina. Os resultados e discussão estão organizados em três artigos científicos. O primeiro apresenta um tutorial para o uso de ML em pesquisas de saúde, utilizando como exemplo a predição do risco de óbito em até 5 anos (frequência do desfecho 15%; n=395) para idosos do estudo "Saúde, Bem-estar e Envelhecimento" (n=2.677), segundo variáveis relacionadas ao seu perfil demográfico, socioeconômico e de saúde. Na etapa de aprendizado, cinco algoritmos foram aplicados: regressão logística com e sem penalização, redes neurais, gradient boosted trees e random forest, cujos hiperparâmetros foram otimizados por validação cruzada (VC) 10-fold. Todos os modelos apresentaram área abaixo da curva (AUC) ROC (Receiver Operating Characteristic) maior que 0,70. Para aqueles com maior AUC ROC (redes neurais e regressão logística com e sem penalização) medidas de qualidade da probabilidade predita foram avaliadas e evidenciaram baixa calibração. O segundo artigo objetivou predizer o risco de tempo de vida ajustado pela qualidade de vida de até 30 dias (frequência do desfecho 44,7%; n=347) em pacientes com câncer admitidos em Unidade de Terapia Intensiva (UTI) (n=777), mediante características obtidas na admissão do paciente à UTI.Seis algoritmos (regressão logística com e sem penalização, redes neurais, árvore simples, gradient boosted trees e random forest) foram utilizados em conjunto com VC aninhada para estimar hiperparâmetros e avaliar performance preditiva. Todos os algoritmos, exceto a árvore simples, apresentaram discriminação (AUC ROC > 0,80) e calibração satisfatórias. Para o terceiro artigo, características socioeconômicas e demográficas foram utilizadas para predizer a expectativa de vida ao nascer de municípios brasileiros com mais de 10.000 habitantes (n=3.052). Para o ajuste do modelo preditivo, empregou-se VC aninhada e o algoritmo Super Learner (SL), e para a avaliação de performance, o erro quadrático médio (EQM). O SL apresentou desempenho satisfatório (EQM=0,17) e seu vetor de valores preditos foi utilizado para a identificação de overachievers (municípios com expectativa de vida superior à predita) e underachievers (município com expectativa de vida inferior à predita), para os quais características de saúde foram comparadas, revelando melhor desempenho em indicadores de atenção primária para os overachievers e em indicadores de atenção secundária para os underachievers. Técnicas para a construção e avaliação de modelos preditivos estão em constante evolução e há poucas justificativas teóricas para se preferir um algoritmo em lugar de outro. Na presente tese, não foram observadas diferenças substanciais no desempenho preditivo dos algoritmos aplicados aos problemas de classificação e de regressão analisados. Espera-se que a maior disponibilidade de dados estimule a utilização de algoritmos de ML mais flexíveis em pesquisas de saúde futuras.
- Imprenta:
- Data da defesa: 28.09.2018
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
SANTOS, Hellen Geremias dos. Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina. 2018. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2018. Disponível em: https://doi.org/10.11606/T.6.2018.tde-09102018-132826. Acesso em: 21 maio 2024. -
APA
Santos, H. G. dos. (2018). Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://doi.org/10.11606/T.6.2018.tde-09102018-132826 -
NLM
Santos HG dos. Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina [Internet]. 2018 ;[citado 2024 maio 21 ] Available from: https://doi.org/10.11606/T.6.2018.tde-09102018-132826 -
Vancouver
Santos HG dos. Comparação da performance de algoritmos de machine learning para a análise preditiva em saúde pública e medicina [Internet]. 2018 ;[citado 2024 maio 21 ] Available from: https://doi.org/10.11606/T.6.2018.tde-09102018-132826 - Poisson regression for the incidence risk of lung, bronchus, and trachea cancer among women and men in the five Brazilian regions
- Data leakage in health outcomes prediction with machine learning
- Machine learning para análises preditivas em saúde: exemplo de aplicação para predizer óbito em idosos de São Paulo, Brasil
- Cause-specific mortality prediction in older residents of São Paulo, Brazil: a machine learning approach
- Fatores associados ao nascimento pré-termo: da regressão logística à modelagem com equações estruturais
Informações sobre o DOI: 10.11606/T.6.2018.tde-09102018-132826 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas