Topic

Instruction Tuning

Discover key takeaways from 1 podcast episode about this topic.

Cascading Adversarial Bias from Injection to Distillation in Language Models

Language ModelsAdversarial AttacksData Poisoning

Jan 27, 2026

Cascading Adversarial Bias from Injection to Distillation in Language Models

Adversarial bias injected into large language models (LLMs) during instruction tuning can cascade and amplify in distilled student models, even with minimal poisoning, bypassing current detection methods.

Google TechTalks