Skip to content

公式4和6的小疑问 #5

@magichjm

Description

@magichjm
image 公式4,对于中毒数据集,也是去让prompt去输出Vy,也就是原本的标签吗?,这样的话怎么保证遇到trigger输出target tokens的性能呢? image 公式6,这里计算的Lb会用来继续优化prompt吗,还是只用来优化trigger,如果只优化trigger能不能理解成后门攻击成功与否只与trigger有关

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions