Self-Consistency

Sampling multiple reasoning chains and selecting the most consistent answer.

1.
Wang et al. (2022) showed that sampling 40 CoT reasoning chains from PaLM 540B and majority-voting the answers improves GSM8K accuracy from 56.5% to 74.4% - a significant gain with no additional training.
2.
Perplexity AI uses self-consistency-like answer aggregation across multiple search queries and model responses - combining diverse retrieved results and generation samples to produce more robust factual answers.
3.
A medical AI diagnostic system uses self-consistency: generating 10 diagnostic reasoning chains and selecting the diagnosis supported by 7+ chains - reducing single-chain reasoning errors by 23% in clinical trials.

Loading…