medsoft

 

  tlacitko RETROSPECTIVE VALIDATION OF AN AI ALGORITHM FOR AUTOMATED BONE AGE ASSESSMENT IN PAEDIATRIC HAND RADIOGRAPHS
Karolína Kvaková, Daniel Kvak, Zdeněk Straka
  eng ABSTRACT:

Bone age is a radiological indicator of bone maturity that is routinely assessed in children and adolescents to evaluate growth and diagnose endocrine or chronic diseases. This retrospective study verifies the accuracy of an artificial intelligence algorithm (Carebot AI Bones, Bone Age function; Carebot s. r. o.) for automatically estimating bone maturity from dorsopalmary X-ray images. We analyzed 96 anonymized images (20–216 months; median 108) taken between January and June 2025. The reference standard was independently established by a radiologist and anthropologist according to the GP atlas, with consensus in case of disagreement. The index test was the algorithm’s prediction in months.


Více

The primary endpoint was the mean absolute error (MAE) compared to a pre-specified non-inferiority limit of 12 months. Secondary measures included RMSE, bias, Pearson’s r, Bland–Altman limits of agreement, and proportions within ±6/±12/±24 months. The algorithm showed a high correlation with the reference standard (r = 0.981; 95% CI 0.970–0.989). MAE was 5.97 months (95% CI 4.76–7.28), RMSE was 8.70, and bias was −0.27 with LoA −17.40 to +16.86. Predictions were within ±6/±12/±24 months in 66.7%/82.3%/96.9% of cases. Non-inferiority was met (t=−9.29; p <0.001). By gender, the MAE was 5.04 months for men (bias +2.79) and 6.82 months for women (bias −3.09). The lowest error was ≤60 months (MAE 3.40), with a slight underestimation occurring at 121–180 months (MAE 7.15; bias −3.47). The results show that the AI algorithm achieves an average error of less than 1 year across the entire pediatric age spectrum and meets the criteria for clinical acceptability, supporting its use as a tool to aid radiological decision-making.

Keywords: bone age, Greulich–Pyle, paediatric radiology, artificial intelligence, validation, Bland–Altman, concordance correlation

DOI: 10.35191/medsoft_2025_1_37_kvak

Skrýt


  cz RETROSPEKTIVNÍ VALIDACE ALGORITMU UMĚLÉ INTELIGENCE PRO AUTOMATICKÉ STANOVENÍ KOSTNÍHO VĚKU NA PEDIATRICKÝCH RENTGENOVÝCH SNÍMCÍCH RUKY

ABSTRAKT:

Kostní věk je radiologický ukazatel kostní zralosti, který se u dětí a adolescentů rutinně hodnotí k posouzení růstu a k diagnostice endokrinních či chronických onemocnění. Tato retrospektivní studie ověřuje přesnost algoritmu umělé inteligence (Carebot AI Bones, funkce Bone Age; Carebot s. r. o.) pro automatický odhad kostní zralosti z dorzopalmárních rentgenových snímků. Analyzovali jsme 96 anonymizovaných snímků (20–216 měsíců; medián 108) pořízených mezi lednem a červnem 2025. Referenční standard stanovili nezávisle radiolog a antropolog podle atlasu GP s konsenzem při neshodě. Indexovým testem byla predikce algoritmu v měsících.

More

Primárním koncovým bodem byla průměrná absolutní chyba (MAE) ve srovnání s předem stanovenou mezí neinferiority 12 měsíců. Sekundární ukazatele zahrnovaly RMSE, zkreslení, Pearsonův r, Bland–Altmanovy meze shody a podíly v rozmezí ±6/±12/±24 měsíců. Algoritmus vykázal vysokou korelaci s referenčním standardem (r = 0,981; 95% CI 0,970–0,989). MAE činila 5,97 měsíce (95% CI 4,76–7,28), RMSE 8,70 a zkreslení −0,27 s LoA −17,40 až +16,86. Predikce byly v rozmezí ±6/±12/±24 měsíců v 66,7 %/82,3 %/96,9 % případů. Neinferiorita byla splněna (t=−9,29; p<0,001). Podle pohlaví byla MAE 5,04 měsíce u mužů (bias +2,79) a 6,82 měsíce u žen (bias −3,09). Nejnižší chyba byla u ≤60 měsíců (MAE 3,40), mírné podhodnocení se objevilo u 121–180 měsíců (MAE 7,15; bias −3,47). Výsledky ukazují, že algoritmus AI dosahuje průměrné chyby pod 1 rok v celém spektru pediatrického věku a splňuje kritéria klinické přijatelnosti, což podporuje jeho použití jako nástroje pro podporu radiologického rozhodování.


Klíčová slova: kostní věk, Greulich–Pyle, pediatrická radiologie, umělá inteligence, validace, Bland–Altman, korelace shody

DOI: 10.35191/medsoft_2025_1_37_kvak

Hide