Quais questões estão dificultando a utilidade da IA ​​em radiologia?

Peter Chang, da Universidade da Califórnia, Irvine, fala que com as colaborações e a estrutura regulatória adequadas, espera poder começar a orientar o desenvolvimento para ferramentas de IA mais úteis clinicamente. Ele também é co-fundador da Avicenna.ai.

27 Fev, 2020

Atualmente, o software de IA está sendo usado para aplicativos como triagem e fluxo de trabalho, quantificação e pré-processamento de imagens. No entanto, os algoritmos de IA enfrentam desafios prementes relacionados a falsos positivos, interpretabilidade e validação que os impedem de atingir todo o seu potencial, disse o Dr. Peter Chang, da Universidade da Califórnia, Irvine. "Com as colaborações e a estrutura regulatória adequadas, esperamos poder começar a orientar esse desenvolvimento para ferramentas mais úteis clinicamente", disse Chang, que também é co-fundador da Avicenna.ai.

Chang discutiu as tendências atuais e futuras e os paradigmas em evolução no software de IA de radiologia durante sua palestra de terça-feira.

Muitos falsos positivos

Qualquer pessoa que tenha usado algumas das atuais aplicações de IA de radiologia percebe imediatamente que produz um número muito alto de falsos positivos, de acordo com Chang. Grande parte do problema é que as ferramentas de IA disponíveis para geração de imagens não levam em consideração o contexto de não imagem ao analisar imagens. "Sem o contexto adequado, as próprias imagens realmente só podem ser interpretadas em certa medida", afirmou.

Outra questão é que a prevalência da doença é muito baixa. Assumindo uma prevalência de 10% de uma doença entre os casos analisados, um algoritmo com sensibilidade de 80% e especificidade de 80% tem um valor preditivo positivo de 31%, disse ele. Aumentar o desempenho para 90% de sensibilidade e 90% de especificidade apenas aumenta o valor preditivo positivo para 50%.

Além disso, um algoritmo de IA que visa a triagem de casos de emergência para revisão por radiologistas pode diminuir levemente o tempo de resposta para a doença alvo, mas aumentar o tempo de resposta para todos os diagnósticos restantes, disse Chang. "Isso realmente nos dá a oportunidade de definir os extremos do desempenho do algoritmo", disse ele. "Por um lado, um algoritmo de alto valor preditivo negativo em que um ser humano não precisa olhar para nenhuma dessas imagens pode agregar algum valor ao nosso fluxo de trabalho. Por outro lado, um algoritmo extremamente específico, que perde um poucos casos, mas tudo o que mostra ao ser humano é um verdadeiro positivo, que também é outra aplicação potencialmente útil ".

Interpretabilidade

A interpretabilidade dos algoritmos é uma questão importante. Conforme estipulado pelo modo como essa categoria de software é regulamentada, os aplicativos de triagem auxiliados por computador não podem anotar as imagens ou fornecer feedback específico sobre o que está vendo, observou Chang. Às vezes, isso pode ser um prejuízo. "Isso parece uma coisa trivial, mas se eu olhar por uma imagem que uma IA marcou como positiva e não vejo nada, acabo gastando mais tempo para limpar esse exame negativo do que seria necessário", disse ele. . "Um TC rápido de dois ou três minutos agora é muito mais longo. A capacidade de localizar especificamente o que você está tentando encontrar é extremamente valiosa porque, se eu vir um artefato ou algum falso positivo, posso excluí-lo rapidamente e seguir em frente. no meu fluxo de trabalho ".

Da mesma forma, algoritmos treinados para fornecer uma classificação binária - isto é, um paciente tem uma condição específica ou não - são treinados de maneira muito diferente e possuem arquiteturas subjacentes diferentes daquelas desenvolvidas para fornecer feedback específico. Como resultado, eles podem produzir diferentes tipos de erros.

Em contraste com as aplicações que fornecem um diagnóstico binário, algoritmos que são muito específicos em seus comentários - como quantificar atenuação ou efeito de massa - tendem a cometer mais erros humanos - isto é, equívocos - do que erros aleatórios. "As redes neurais são funções extremamente não lineares e muito complexas que funcionam na maioria das vezes, mas ocasionalmente podem fornecer um resultado completamente inesperado - [um erro] que meu morador do primeiro ou do segundo ano não cometeria". Chang disse. "Esses tipos de erros aleatórios serão extremamente difíceis de resolver em uma estrutura autônoma de IA".

Problemas de validação

Há uma discrepância no que os fornecedores relatam para as métricas de validação de seu software e qual seria a experiência da instituição com os algoritmos de seus próprios dados, de acordo com Chang. Isto é devido a uma série de razões. Por exemplo, as medidas de desempenho do fornecedor podem se basear na análise de um conjunto de dados limpo e com curadoria, mas no uso clínico, muitos aspectos da cadeia de imagens podem potencialmente introduzir erros - como um exame com movimento do paciente ou que foi realizado incorretamente sem contraste - - isso impediria uma interpretação precisa da IA.

"Quer você resolva isso através de outro sistema de IA ou de alguma outra estratégia, é certamente algo que você precisa pensar", disse Chang. "É um canal imperfeito, com graus de erro ao longo do caminho, e seu desempenho final é realmente um reflexo da síntese de todas essas entidades diferentes, não apenas do desempenho do algoritmo independente".

Outra fonte de erro: as suposições feitas sobre os dados de validação podem ser falhas. Durante a validação de algoritmos, por exemplo, é muito comum que dados vazem acidentalmente entre diferentes dobras de treinamento e validação, disse ele. Mas, mesmo que esse problema seja resolvido corretamente, os dados usados ​​para a validação em si podem ser pouco generalizáveis. Mesmo que um desenvolvedor treine um algoritmo usando um conjunto de dados de 10.000 ou mesmo 100.000 pacientes, a validação ou o teste só podem ser realizados em uma coorte de algumas centenas de pacientes, disse Chang.

Além disso, alguns algoritmos podem ser apresentados como utilizáveis ​​em todos os tipos de fornecedores e protocolos de imagem, mas essa heterogeneidade não se refletiu no conjunto de dados de treinamento, de acordo com Chang. E a verdade básica usada para avaliar o desempenho também pode ser subjetiva. "Certamente, sem dúvida, existe aqui uma oportunidade para uma entidade central e reguladora maior criar um conjunto de dados padronizado, algum tipo de referência que pode ser facilmente comparada entre diferentes tipos de aplicativos e parceiros do setor", afirmou ele.

Tendências futuras

Com a escassez de conjuntos de dados bons, grandes e heterogêneos, surgiram muitos paradigmas criativos de aprendizado para o treinamento de algoritmos usando dados de vários sites. Isso inclui aprendizado profundo distribuído, aprendizado de máquina federado e ajuste fino contínuo de algoritmos, disse Chang.

Em um conceito de aprendizado profundo distribuído, um único algoritmo é treinado simultaneamente usando dados de vários sites. Uma abordagem federada de aprendizado de máquina pode produzir algoritmos que são 90% treinados com base em dados de outros locais, com os últimos 10% sendo fornecidos pelo site local. Levando esse modelo adiante, as instituições poderiam ajustar continuamente os algoritmos usando seus próprios dados, disse ele.

Com a crescente facilidade de construção de modelos de IA, hospitais acadêmicos ou departamentos universitários se comprometem cada vez mais a criar seus próprios algoritmos, de acordo com Chang. "Imagino que haverá um rápido embaçamento entre o que geralmente consideramos um projeto de pesquisa em uma única instituição e o total de implantes clínicos no hospital", disse ele. "E, certamente, a questão aqui é qual pode ser o escopo potencial das considerações regulatórias. O ônus regulatório será imposto às empresas cujo trabalho é curar e agregar modelos de diferentes hospitais acadêmicos, ou será de fato específico? instituição se eles estão produzindo muitos modelos que muitos hospitais diferentes estão usando? "

Leitores autônomos

Está crescendo o interesse na implantação de algoritmos de IA de radiologia para servir como leitores totalmente autônomos em aplicações clínicas específicas, produzindo relatórios sem nenhuma intervenção humana. Algoritmos com alto valor preditivo negativo seriam populares nesse paradigma, permitindo que uma porcentagem dos exames não exigisse a revisão de radiologistas, porque o algoritmo se sente tão confiante de que o estudo é negativo, disse Chang. "Esses casos de uso estão sendo estudados com mais intensidade no mundo da TC: TCs de cabeça sem contraste, triagem de TC de tórax, etc.", disse ele. "Eu também direi que as modalidades transversais em geral [estão sendo consideradas] porque têm a menor subjetividade em comparação com algo como raio-x ou ultra-som".

Mas que nível de desempenho o software precisará alcançar para servir como um leitor autônomo? Será necessário que ele esteja no nível de um radiologista especialista ou precisará ter um desempenho sobre-humano? Essas perguntas precisam ser respondidas, disse Chang. Ele observou, no entanto, que se um modelo de IA cometer um dos tipos de erros aleatórios que seriam capturados por um estagiário júnior "será imperdoável e difícil de defender do ponto de vista da responsabilidade".

Fonte: https://www.auntminnie.com/index.aspx?sec=sup&sub=aic&pag=dis&ItemID=128265

Compartilhe


NOTÍCIAS RELACIONADAS