Coverage for src/bioimageio/core/stat

1from __future__ import annotations

3import collections

4import warnings

5from itertools import product

6from typing import (

7 Any,

8 Collection,

9 Dict,

10 Iterable,

11 Iterator,

12 List,

13 Mapping,

14 Optional,

15 OrderedDict,

16 Sequence,

17 Set,

18 Tuple,

19 Type,

20 Union,

21)

23import numpy as np

24import xarray as xr

25from loguru import logger

26from numpy.typing import NDArray

27from typing_extensions import assert_never

29from bioimageio.spec.model.v0_5 import BATCH_AXIS_ID

31from .axis import AxisId, PerAxis

32from .common import MemberId, QuantileMethod

33from .sample import Sample

34from .stat_measures import (

35 DatasetMean,

36 DatasetMeasure,

37 DatasetMeasureBase,

38 DatasetQuantile,

39 DatasetStd,

40 DatasetVar,

41 Measure,

42 MeasureValue,

43 SampleMean,

44 SampleMeasure,

45 SampleQuantile,

46 SampleStd,

47 SampleVar,

48)

49from .tensor import Tensor

51try:

52 import crick # pyright: ignore[reportMissingTypeStubs]

54except Exception:

55 crick = None

57 class TDigest:

58 def update(self, obj: Any):

59 pass

61 def quantile(self, q: Any) -> Any:

62 pass

64else:

65 TDigest = crick.TDigest # type: ignore

68class MeanCalculator:

69 """to calculate sample and dataset mean for in-memory samples"""

71 def __init__(self, member_id: MemberId, axes: Optional[Sequence[AxisId]]):

72 super().__init__()

73 self._n: int = 0

74 self._mean: Optional[Tensor] = None

75 self._axes = None if axes is None else tuple(axes)

76 self._member_id = member_id

77 self._sample_mean = SampleMean(member_id=self._member_id, axes=self._axes)

78 self._dataset_mean = DatasetMean(member_id=self._member_id, axes=self._axes)

80 def compute(self, sample: Sample) -> Dict[SampleMean, MeasureValue]:

81 return {self._sample_mean: self._compute_impl(sample)}

83 def _compute_impl(self, sample: Sample) -> Tensor:

84 tensor = sample.members[self._member_id].astype("float64", copy=False)

85 return tensor.mean(dim=self._axes)

87 def update(self, sample: Sample) -> None:

88 mean = self._compute_impl(sample)

89 self._update_impl(sample.members[self._member_id], mean)

91 def compute_and_update(self, sample: Sample) -> Dict[SampleMean, MeasureValue]:

92 mean = self._compute_impl(sample)

93 self._update_impl(sample.members[self._member_id], mean)

94 return {self._sample_mean: mean}

96 def _update_impl(self, tensor: Tensor, tensor_mean: Tensor):

97 assert tensor_mean.dtype == "float64"

98 # reduced voxel count

99 n_b = int(tensor.size / tensor_mean.size)

100

101 if self._mean is None:

102 assert self._n == 0

103 self._n = n_b

104 self._mean = tensor_mean

105 else:

106 assert self._n != 0

107 n_a = self._n

108 mean_old = self._mean

109 self._n = n_a + n_b

110 self._mean = (n_a * mean_old + n_b * tensor_mean) / self._n

111 assert self._mean.dtype == "float64"

112

113 def finalize(self) -> Dict[DatasetMean, MeasureValue]:

114 if self._mean is None:

115 return {}

116 else:

117 return {self._dataset_mean: self._mean}

118

119

120class MeanVarStdCalculator:

121 """to calculate sample and dataset mean, variance or standard deviation"""

122

123 def __init__(self, member_id: MemberId, axes: Optional[Sequence[AxisId]]):

124 super().__init__()

125 self._axes = None if axes is None else tuple(map(AxisId, axes))

126 self._member_id = member_id

127 self._n: int = 0

128 self._mean: Optional[Tensor] = None

129 self._m2: Optional[Tensor] = None

130

131 def compute(

132 self, sample: Sample

133 ) -> Dict[Union[SampleMean, SampleVar, SampleStd], MeasureValue]:

134 tensor = sample.members[self._member_id]

135 mean = tensor.mean(dim=self._axes)

136 c = (tensor - mean).data

137 if self._axes is None:

138 n = tensor.size

139 else:

140 n = int(np.prod([tensor.sizes[d] for d in self._axes]))

141

142 if xr.__version__.startswith("2023"):

143 var = xr.dot(c, c, dims=self._axes) / n

144 else:

145 var = xr.dot(c, c, dim=self._axes) / n

146

147 assert isinstance(var, xr.DataArray)

148 std = np.sqrt(var)

149 assert isinstance(std, xr.DataArray)

150 return {

151 SampleMean(axes=self._axes, member_id=self._member_id): mean,

152 SampleVar(axes=self._axes, member_id=self._member_id): Tensor.from_xarray(

153 var

154 ),

155 SampleStd(axes=self._axes, member_id=self._member_id): Tensor.from_xarray(

156 std

157 ),

158 }

159

160 def update(self, sample: Sample):

161 if self._axes is not None and BATCH_AXIS_ID not in self._axes:

162 return

163

164 tensor = sample.members[self._member_id].astype("float64", copy=False)

165 mean_b = tensor.mean(dim=self._axes)

166 assert mean_b.dtype == "float64"

167 # reduced voxel count

168 n_b = int(tensor.size / mean_b.size)

169 m2_b = ((tensor - mean_b) ** 2).sum(dim=self._axes)

170 assert m2_b.dtype == "float64"

171 if self._mean is None:

172 assert self._m2 is None

173 self._n = n_b

174 self._mean = mean_b

175 self._m2 = m2_b

176 else:

177 n_a = self._n

178 mean_a = self._mean

179 m2_a = self._m2

180 self._n = n = n_a + n_b

181 self._mean = (n_a * mean_a + n_b * mean_b) / n

182 assert self._mean.dtype == "float64"

183 d = mean_b - mean_a

184 self._m2 = m2_a + m2_b + d**2 * n_a * n_b / n

185 assert self._m2.dtype == "float64"

186

187 def finalize(

188 self,

189 ) -> Dict[Union[DatasetMean, DatasetVar, DatasetStd], MeasureValue]:

190 if (

191 self._axes is not None

192 and BATCH_AXIS_ID not in self._axes

193 or self._mean is None

194 ):

195 return {}

196 else:

197 assert self._m2 is not None

198 var = self._m2 / self._n

199 sqrt = var**0.5

200 if isinstance(sqrt, (int, float)):

201 # var and mean are scalar tensors, let's keep it consistent

202 sqrt = Tensor.from_xarray(xr.DataArray(sqrt))

203

204 assert isinstance(sqrt, Tensor), type(sqrt)

205 return {

206 DatasetMean(member_id=self._member_id, axes=self._axes): self._mean,

207 DatasetVar(member_id=self._member_id, axes=self._axes): var,

208 DatasetStd(member_id=self._member_id, axes=self._axes): sqrt,

209 }

210

211

212class SampleQuantilesCalculator:

213 """to calculate sample quantiles"""

214

215 def __init__(

216 self,

217 member_id: MemberId,

218 axes: Optional[Sequence[AxisId]],

219 qs: Collection[float],

220 method: QuantileMethod = "linear",

221 ):

222 super().__init__()

223 assert all(0.0 <= q <= 1.0 for q in qs)

224 self._qs = sorted(set(qs))

225 self._axes = None if axes is None else tuple(axes)

226 self._member_id = member_id

227 self._method: QuantileMethod = method

228

229 def compute(self, sample: Sample) -> Dict[SampleQuantile, MeasureValue]:

230 tensor = sample.members[self._member_id]

231 ps = tensor.quantile(self._qs, dim=self._axes, method=self._method)

232 return {

233 SampleQuantile(

234 q=q, axes=self._axes, member_id=self._member_id, method=self._method

235 ): p

236 for q, p in zip(self._qs, ps)

237 }

238

239

240class MeanQuantilesCalculator:

241 """to calculate dataset quantiles heuristically by averaging across samples

242

243 Note:

244 The returned dataset quantiles are an estiamte and **not mathematically correct**

245 """

246

247 def __init__(

248 self,

249 member_id: MemberId,

250 axes: Optional[Sequence[AxisId]],

251 qs: Collection[float],

252 ):

253 super().__init__()

254 assert all(0.0 <= q <= 1.0 for q in qs)

255 self._qs = sorted(set(qs))

256 self._axes = None if axes is None else tuple(axes)

257 self._member_id = member_id

258 self._n: int = 0

259 self._estimates: Optional[Tensor] = None

260

261 def update(self, sample: Sample):

262 tensor = sample.members[self._member_id]

263 sample_estimates = tensor.quantile(

264 self._qs, dim=self._axes, method="linear"

265 ).astype("float64", copy=False)

266

267 # reduced voxel count

268 n = int(tensor.size / np.prod(sample_estimates.shape_tuple[1:]))

269

270 if self._estimates is None:

271 assert self._n == 0

272 self._estimates = sample_estimates

273 else:

274 self._estimates = (self._n * self._estimates + n * sample_estimates) / (

275 self._n + n

276 )

277 assert self._estimates.dtype == "float64"

278

279 self._n += n

280

281 def finalize(self) -> Dict[DatasetQuantile, MeasureValue]:

282 if self._estimates is None:

283 return {}

284 else:

285 warnings.warn(

286 "Computed dataset percentiles naively by averaging percentiles of samples."

287 )

288 return {

289 DatasetQuantile(q=q, axes=self._axes, member_id=self._member_id): e

290 for q, e in zip(self._qs, self._estimates)

291 }

292

293

294class CrickQuantilesCalculator:

295 """to calculate dataset quantiles with the experimental [crick libray](https://github.com/dask/crick)"""

296

297 def __init__(

298 self,

299 member_id: MemberId,

300 axes: Optional[Sequence[AxisId]],

301 qs: Collection[float],

302 ):

303 warnings.warn("Computing dataset quantiles with experimental 'crick' library.")

304 super().__init__()

305 assert all(0.0 <= q <= 1.0 for q in qs)

306 assert axes is None or "_quantiles" not in axes

307 self._qs = sorted(set(qs))

308 self._axes = None if axes is None else tuple(axes)

309 self._member_id = member_id

310 self._digest: Optional[List[TDigest]] = None

311 self._dims: Optional[Tuple[AxisId, ...]] = None

312 self._indices: Optional[Iterator[Tuple[int, ...]]] = None

313 self._shape: Optional[Tuple[int, ...]] = None

314

315 def _initialize(self, tensor_sizes: PerAxis[int]):

316 assert crick is not None

317 out_sizes: OrderedDict[AxisId, int] = collections.OrderedDict(

318 _quantiles=len(self._qs)

319 )

320 if self._axes is not None:

321 for d, s in tensor_sizes.items():

322 if d not in self._axes:

323 out_sizes[d] = s

324

325 self._dims, self._shape = zip(*out_sizes.items())

326 assert self._shape is not None

327 d = int(np.prod(self._shape[1:]))

328 self._digest = [TDigest() for _ in range(d)]

329 self._indices = product(*map(range, self._shape[1:]))

330

331 def update(self, part: Sample):

332 tensor = (

333 part.members[self._member_id]

334 if isinstance(part, Sample)

335 else part.members[self._member_id].data

336 )

337 assert "_quantiles" not in tensor.dims

338 if self._digest is None:

339 self._initialize(tensor.tagged_shape)

340

341 assert self._digest is not None

342 assert self._indices is not None

343 assert self._dims is not None

344 for i, idx in enumerate(self._indices):

345 self._digest[i].update(tensor[dict(zip(self._dims[1:], idx))])

346

347 def finalize(self) -> Dict[DatasetQuantile, MeasureValue]:

348 if self._digest is None:

349 return {}

350 else:

351 assert self._dims is not None

352 assert self._shape is not None

353

354 vs: NDArray[Any] = np.asarray(

355 [[d.quantile(q) for d in self._digest] for q in self._qs]

356 ).reshape(self._shape)

357 return {

358 DatasetQuantile(

359 q=q, axes=self._axes, member_id=self._member_id

360 ): Tensor(v, dims=self._dims[1:])

361 for q, v in zip(self._qs, vs)

362 }

363

364

365if crick is None:

366 DatasetQuantilesCalculator: Type[

367 Union[MeanQuantilesCalculator, CrickQuantilesCalculator]

368 ] = MeanQuantilesCalculator

369else:

370 DatasetQuantilesCalculator = CrickQuantilesCalculator

371

372

373class NaiveSampleMeasureCalculator:

374 """wrapper for measures to match interface of other sample measure calculators"""

375

376 def __init__(self, member_id: MemberId, measure: SampleMeasure):

377 super().__init__()

378 self.tensor_name = member_id

379 self.measure = measure

380

381 def compute(self, sample: Sample) -> Dict[SampleMeasure, MeasureValue]:

382 return {self.measure: self.measure.compute(sample)}

383

384

385SampleMeasureCalculator = Union[

386 MeanCalculator,

387 MeanVarStdCalculator,

388 SampleQuantilesCalculator,

389 NaiveSampleMeasureCalculator,

390]

391DatasetMeasureCalculator = Union[

392 MeanCalculator, MeanVarStdCalculator, DatasetQuantilesCalculator

393]

394

395

396class StatsCalculator:

397 """Estimates dataset statistics and computes sample statistics efficiently"""

398

399 def __init__(

400 self,

401 measures: Collection[Measure],

402 initial_dataset_measures: Optional[

403 Mapping[DatasetMeasure, MeasureValue]

404 ] = None,

405 ):

406 super().__init__()

407 self.sample_count = 0

408 self.sample_calculators, self.dataset_calculators = get_measure_calculators(

409 measures

410 )

411 if not initial_dataset_measures:

412 self._current_dataset_measures: Optional[

413 Dict[DatasetMeasure, MeasureValue]

414 ] = None

415 else:

416 missing_dataset_meas = {

417 m

418 for m in measures

419 if isinstance(m, DatasetMeasureBase)

420 and m not in initial_dataset_measures

421 }

422 if missing_dataset_meas:

423 logger.debug(

424 f"ignoring `initial_dataset_measure` as it is missing {missing_dataset_meas}"

425 )

426 self._current_dataset_measures = None

427 else:

428 self._current_dataset_measures = dict(initial_dataset_measures)

429

430 @property

431 def has_dataset_measures(self):

432 return self._current_dataset_measures is not None

433

434 def update(

435 self,

436 sample: Union[Sample, Iterable[Sample]],

437 ) -> None:

438 _ = self._update(sample)

439

440 def finalize(self) -> Dict[DatasetMeasure, MeasureValue]:

441 """returns aggregated dataset statistics"""

442 if self._current_dataset_measures is None:

443 self._current_dataset_measures = {}

444 for calc in self.dataset_calculators:

445 values = calc.finalize()

446 self._current_dataset_measures.update(values.items())

447

448 return self._current_dataset_measures

449

450 def update_and_get_all(

451 self,

452 sample: Union[Sample, Iterable[Sample]],

453 ) -> Dict[Measure, MeasureValue]:

454 """Returns sample as well as updated dataset statistics"""

455 last_sample = self._update(sample)

456 if last_sample is None:

457 raise ValueError("`sample` was not a `Sample`, nor did it yield any.")

458

459 return {**self._compute(last_sample), **self.finalize()}

460

461 def skip_update_and_get_all(self, sample: Sample) -> Dict[Measure, MeasureValue]:

462 """Returns sample as well as previously computed dataset statistics"""

463 return {**self._compute(sample), **self.finalize()}

464

465 def _compute(self, sample: Sample) -> Dict[SampleMeasure, MeasureValue]:

466 ret: Dict[SampleMeasure, MeasureValue] = {}

467 for calc in self.sample_calculators:

468 values = calc.compute(sample)

469 ret.update(values.items())

470

471 return ret

472

473 def _update(self, sample: Union[Sample, Iterable[Sample]]) -> Optional[Sample]:

474 self.sample_count += 1

475 samples = [sample] if isinstance(sample, Sample) else sample

476 last_sample = None

477 for el in samples:

478 last_sample = el

479 for calc in self.dataset_calculators:

480 calc.update(el)

481

482 self._current_dataset_measures = None

483 return last_sample

484

485

486def get_measure_calculators(

487 required_measures: Iterable[Measure],

488) -> Tuple[List[SampleMeasureCalculator], List[DatasetMeasureCalculator]]:

489 """determines which calculators are needed to compute the required measures efficiently"""

490

491 sample_calculators: List[SampleMeasureCalculator] = []

492 dataset_calculators: List[DatasetMeasureCalculator] = []

493

494 # split required measures into groups

495 required_sample_means: Set[SampleMean] = set()

496 required_dataset_means: Set[DatasetMean] = set()

497 required_sample_mean_var_std: Set[Union[SampleMean, SampleVar, SampleStd]] = set()

498 required_dataset_mean_var_std: Set[Union[DatasetMean, DatasetVar, DatasetStd]] = (

499 set()

500 )

501 required_sample_quantiles: Dict[

502 Tuple[MemberId, Optional[Tuple[AxisId, ...]], QuantileMethod], Set[float]

503 ] = {}

504 required_dataset_quantiles: Dict[

505 Tuple[MemberId, Optional[Tuple[AxisId, ...]]], Set[float]

506 ] = {}

507

508 for rm in required_measures:

509 if isinstance(rm, SampleMean):

510 required_sample_means.add(rm)

511 elif isinstance(rm, DatasetMean):

512 required_dataset_means.add(rm)

513 elif isinstance(rm, (SampleVar, SampleStd)):

514 required_sample_mean_var_std.update(

515 {

516 msv(axes=rm.axes, member_id=rm.member_id)

517 for msv in (SampleMean, SampleStd, SampleVar)

518 }

519 )

520 assert rm in required_sample_mean_var_std

521 elif isinstance(rm, (DatasetVar, DatasetStd)):

522 required_dataset_mean_var_std.update(

523 {

524 msv(axes=rm.axes, member_id=rm.member_id)

525 for msv in (DatasetMean, DatasetStd, DatasetVar)

526 }

527 )

528 assert rm in required_dataset_mean_var_std

529 elif isinstance(rm, SampleQuantile):

530 required_sample_quantiles.setdefault(

531 (rm.member_id, rm.axes, rm.method), set()

532 ).add(rm.q)

533 elif isinstance(rm, DatasetQuantile):

534 required_dataset_quantiles.setdefault((rm.member_id, rm.axes), set()).add(

535 rm.q

536 )

537 else:

538 assert_never(rm)

539

540 for rm in required_sample_means:

541 if rm in required_sample_mean_var_std:

542 # computed togehter with var and std

543 continue

544

545 sample_calculators.append(MeanCalculator(member_id=rm.member_id, axes=rm.axes))

546

547 for rm in required_sample_mean_var_std:

548 sample_calculators.append(

549 MeanVarStdCalculator(member_id=rm.member_id, axes=rm.axes)

550 )

551

552 for rm in required_dataset_means:

553 if rm in required_dataset_mean_var_std:

554 # computed togehter with var and std

555 continue

556

557 dataset_calculators.append(MeanCalculator(member_id=rm.member_id, axes=rm.axes))

558

559 for rm in required_dataset_mean_var_std:

560 dataset_calculators.append(

561 MeanVarStdCalculator(member_id=rm.member_id, axes=rm.axes)

562 )

563

564 for (tid, axes, m), qs in required_sample_quantiles.items():

565 sample_calculators.append(

566 SampleQuantilesCalculator(member_id=tid, axes=axes, qs=qs, method=m)

567 )

568

569 for (tid, axes), qs in required_dataset_quantiles.items():

570 dataset_calculators.append(

571 DatasetQuantilesCalculator(member_id=tid, axes=axes, qs=qs)

572 )

573

574 return sample_calculators, dataset_calculators

575

576

577def compute_dataset_measures(

578 measures: Iterable[DatasetMeasure], dataset: Iterable[Sample]

579) -> Dict[DatasetMeasure, MeasureValue]:

580 """compute all dataset `measures` for the given `dataset`"""

581 sample_calculators, calculators = get_measure_calculators(measures)

582 assert not sample_calculators

583

584 ret: Dict[DatasetMeasure, MeasureValue] = {}

585

586 for sample in dataset:

587 for calc in calculators:

588 calc.update(sample)

589

590 for calc in calculators:

591 ret.update(calc.finalize().items())

592

593 return ret

594

595

596def compute_sample_measures(

597 measures: Iterable[SampleMeasure], sample: Sample

598) -> Dict[SampleMeasure, MeasureValue]:

599 """compute all sample `measures` for the given `sample`"""

600 calculators, dataset_calculators = get_measure_calculators(measures)

601 assert not dataset_calculators

602 ret: Dict[SampleMeasure, MeasureValue] = {}

603

604 for calc in calculators:

605 ret.update(calc.compute(sample).items())

606

607 return ret

608

609

610def compute_measures(

611 measures: Iterable[Measure], dataset: Iterable[Sample]

612) -> Dict[Measure, MeasureValue]:

613 """compute all `measures` for the given `dataset`

614 sample measures are computed for the last sample in `dataset`"""

615 sample_calculators, dataset_calculators = get_measure_calculators(measures)

616 ret: Dict[Measure, MeasureValue] = {}

617 sample = None

618 for sample in dataset:

619 for calc in dataset_calculators:

620 calc.update(sample)

621 if sample is None:

622 raise ValueError("empty dataset")

623

624 for calc in dataset_calculators:

625 ret.update(calc.finalize().items())

626

627 for calc in sample_calculators:

628 ret.update(calc.compute(sample).items())

629

630 return ret

Coverage for src / bioimageio / core / stat_calculators.py: 75%

328 statements