Skip to content

结构化标注完的输出结果无法丢入模型进行训练 #212

@donghuanjie

Description

@donghuanjie
  1. 使用gpu进行表格识别时,识别文件过多存在爆显存闪退的问题
  2. 一些已标注的图片在导出标注结果以后也不会在 gt.txt 中更新(之前的issues中有人反映过类似问题)
  3. 最大的问题是导出的结果几乎全部都存在cell tokens和structure tokens数量长度不一致的问题,我们尝试了多种标注方式和部份框选导出,但是html标签数量几乎都不能匹配,导致gt.txt丢进SLANet模型训练时报错

后面附上了一部份我们标注的图片以及导出的结果(成功在gt.txt中可以显示出来的)

Image Image Image Image

Metadata

Metadata

Assignees

Labels

No labels
No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions