<img width="494" alt="image" src="https://github.com/user-attachments/assets/076f9861-bb54-4ad5-a661-a371389604de" /> 公式4,对于中毒数据集,也是去让prompt去输出Vy,也就是原本的标签吗?,这样的话怎么保证遇到trigger输出target tokens的性能呢? <img width="485" alt="image" src="https://github.com/user-attachments/assets/db78e9a0-8217-4891-8eaa-2976023c9ab2" /> 公式6,这里计算的Lb会用来继续优化prompt吗,还是只用来优化trigger,如果只优化trigger能不能理解成后门攻击成功与否只与trigger有关