Chatbots Vs. Human Experts: Evaluating Diagnostic Performance of Chatbots in Uveitis and the Perspectives on AI Adoption in Ophthalmology
Academic Article
Propósito: Evaluar el rendimiento diagnóstico de dos chatbots, ChatGPT y Glass, en el diagnóstico de la uveítis en comparación con especialistas en uveítis de renombre, y evaluar la percepción de los clínicos sobre la utilización de la inteligencia artificial (IA) en la práctica oftalmológica.Métodos: Se presentaron seis casos a expertos en uveítis, ChatGPT (versión 3.5 y 4.0) y Glass 1.0, y se analizó la precisión diagnóstica. Además, se realizó una encuesta sobre las emociones, la confianza en la utilización de herramientas basadas en IA y la probabilidad de incorporar dichas herramientas en la práctica clínica.Resultados: Los expertos en uveítis diagnosticaron con precisión todos los casos (100percent-flag-change), mientras que ChatGPT alcanzó una tasa de acierto diagnóstico del 66percent-flag-change y Glass 1.0 del 33percent-flag-change. La mayoría de los asistentes se mostraron entusiasmados u optimistas respecto a la utilización de la IA en la práctica oftalmológica. La edad avanzada y el alto nivel educativo se correlacionaron positivamente con una mayor inclinación a adoptar herramientas basadas en IA.Conclusiones: ChatGPT demostró capacidades de diagnóstico prometedoras en casos de uveítis y los oftalmólogos mostraron entusiasmo por la integración de la IA en la práctica clínica.
Purpose: To assess the diagnostic performance of two chatbots, ChatGPT and Glass, in uveitis diagnosis compared to renowned uveitis specialists, and evaluate clinicians’ perception about utilizing artificial intelligence (AI) in ophthalmology practice. Methods: Six cases were presented to uveitis experts, ChatGPT (version 3.5 and 4.0) and Glass 1.0, and diagnostic accuracy was analyzed. Additionally, a survey about the emotions, confidence in utilizing AI-based tools, and the likelihood of incorporating such tools in clinical practice was done. Results: Uveitis experts accurately diagnosed all cases (100percent-flag-change), while ChatGPT achieved a diagnostic success rate of 66percent-flag-change and Glass 1.0 achieved 33percent-flag-change. Most attendees felt excited or optimistic about utilizing AI in ophthalmology practice. Older age and high level of education were positively correlated with increased inclination to adopt AI-based tools. Conclusions: ChatGPT demonstrated promising diagnostic capabilities in uveitis cases and ophthalmologist showed enthusiasm for the integration of AI into clinical practice.