该研究仅评估了公开可用的大语言模型(如ChatGPT、Claude、Gemini),而未包括其他专为医疗或视觉任务优化的模型。这些模型可能并非专门为认知任务设计,从而限制了结论的广泛适用性。