Shard

A logical division of the training set or the model. Typically, some process creates shards by dividing the examples or parameters into (usually) equal-sized chunks. Each shard is then assigned to a different machine.

Sharding a model is called model parallelism; sharding data is called data parallelism.

Real-world uses

Created for this library

1.
An ML platform team shards its embedding table across multiple devices to fit a large vocabulary in distributed training.
2.
A research engineer shards model parameters across a device mesh to scale training of a very large transformer.
3.
An ML platform team shards its dataset across workers so distributed training reads each example exactly once per epoch.

Back to glossary

Shard

Real-world uses

Related terms

Loading…

Shard

Real-world uses

Related terms