| POROVNÁNÍ DIAGNOSTICKÉ PŘESNOSTI SYSTÉMŮ
UMĚLÉ INTELIGENCE A JUNIORNÍCH RADIOLOGŮ
PŘI DETEKCI FRAKTUR: RETROSPEKTIVNÍ,
MULTI-READER STUDIE
Šimon Kubov, Daniel Kvak, Jakub Dandár |
||
| ABSTRAKT: Retrospektivní, monocentrická, multi‑reader, multi‑case studie hodnotila diagnostickou výkonnost dvou systémů umělé inteligence (AI 1, AI 2) při detekci prvodiagnostických fraktur na rentgenových snímcích muskuloskeletálního aparátu a porovnala ji s výkonem tří klinicky aktivních radiologů (RAD 1–3). Z archivu PACS Fakultní nemocnice Olomouc bylo vybráno 1 137 anonymizovaných snímků pořízených mezi 5. a 11. březnem 2025; prevalence fraktur činila 10,4 %. Referenční standard byl stanoven majority‑vote konsensem tří nezávislých radiologů, přičemž substanciální shodu potvrdila Fleissova κ = 0,739. Power analýza požadovala minimálně 110 fraktur a 900 negativních případů; skutečný soubor tyto limity komfortně překročil. Statistické hodnocení vycházelo ze čtyřpolních kontingenčních tabulek s Wilsonovými 95% intervaly spolehlivosti (CI); rozdíly mezi čtenáři byly testovány McNemarovým testem s Holmovou korekcí. Více AI 1 dosáhla senzitivity 0,941 (95 % CI 0,883–0,971) a specificity 0,930 (0,913–0,944), AI 2 senzitivity 0,932 (0,872–0,965) a specificity 0,935 (0,918–0,949). Senzitivita obou algoritmů se statisticky nelišila (p = 0,79); AI 2 však vykázala vyšší specificitu než AI 1 (p < 0,05). Radiologové dosáhli senzitivity 0,915–0,941 a specificity 0,944–0,977. Jejich senzitivita byla srovnatelná s oběma AI, zatímco specificita překonala AI 1 a byla obdobná či mírně vyšší než AI 2. Negativní prediktivní hodnota všech hodnocených komparátorů přesáhla 0,990. Subanalýzy šesti anatomických regionů a čtyř věkových kohort potvrdily konzistentně vysokou citlivost obou AI, s nejvyšší přesností v oblasti ramene/klíční kosti a největším poklesem specificity AI 1 u ruky/ zápěstí. Studie ukazuje, že oba systémy poskytují detekci fraktur se senzitivitou srovnatelnou se zapojenými radiology. Klíčová slova: umělá inteligence, fraktury, diagnostická přesnost, muskuloskeletální radiografie, multi-reader studieDOI: 10.35191/medsoft_2025_1_37_kvak_II |
||
|
COMPARISON OF DIAGNOSTIC ACCURACY
BETWEEN ARTIFICIAL INTELLIGENCE SYSTEMS AND
JUNIOR RADIOLOGISTS IN FRACTURE DETECTION:
A RETROSPECTIVE, MULTI-READER STUDY
ABSTRACT: A retrospective, single-center, multi-reader, multi-case study evaluated the diagnostic performance of two artificial intelligence systems (AI 1, AI 2) in detecting primary fractures on musculoskeletal X-ray images and compared it with the performance of three clinically active radiologists (RAD 1–3). A total of 1,137 anonymized images taken between March 5 and 11, 2025, were selected from the PACS archive of the Olomouc University Hospital; the prevalence of fractures was 10.4%. The reference standard was established by majority vote consensus of three independent radiologists, with substantial agreement confirmed by Fleiss‘ κ = 0.739. The power analysis required a minimum of 110 fractures and 900 negative cases; the actual sample comfortably exceeded these limits. The statistical evaluation was based on four-field contingency tables with Wilson’s 95% confidence intervals (CI); differences between readers were tested using McNemar’s test with Holm’s correction. MoreAI 1 achieved a sensitivity of 0.941 (95% CI 0.883–0.971) and a specificity of 0.930 (0.913–0.944), AI 2 achieved a sensitivity of 0.932 (0.872–0.965) and specificity of 0.935 (0.918–0.949). The sensitivity of both algorithms did not differ statistically (p = 0.79); However, AI 2 showed higher specificity than AI 1 (p < 0.05). Radiologists achieved sensitivity of 0.915–0.941 and specificity of 0.944–0.977. Their sensitivity was comparable to both AIs, while their specificity exceeded AI 1 and was similar to or slightly higher than AI 2. The negative predictive value of all evaluated entities exceeded 0.990. Subanalyses of six anatomical regions and four age cohorts confirmed the consistently high sensitivity of both AIs, with the highest accuracy in the shoulder/clavicle region and the greatest decrease in specificity of AI 1 in the hand/wrist region. The study shows that both systems provide fracture detection with sensitivity comparable to that of the radiologists involved. Keywords: artificial intelligence, fractures, diagnostic accuracy, musculoskeletal radiography, multi-reader study DOI: 10.35191/medsoft_2025_1_37_kvak_II |

















