结构化标注完的输出结果无法丢入模型进行训练

1. 使用gpu进行表格识别时，识别文件过多存在爆显存闪退的问题
2. 一些已标注的图片在导出标注结果以后也不会在 gt.txt 中更新（之前的issues中有人反映过类似问题）
3. 最大的问题是导出的结果几乎全部都存在cell tokens和structure tokens数量长度不一致的问题，我们尝试了多种标注方式和部份框选导出，但是html标签<td>数量几乎都不能匹配，导致gt.txt丢进SLANet模型训练时报错

后面附上了一部份我们标注的图片以及导出的结果（成功在gt.txt中可以显示出来的）

<img width="573" height="687" alt="Image" src="https://github.com/user-attachments/assets/058d03b3-f408-4572-83e2-6372fbcafd0e" />

<img width="909" height="746" alt="Image" src="https://github.com/user-attachments/assets/62260f66-71f9-4801-9030-4f20937653d4" />

<img width="915" height="552" alt="Image" src="https://github.com/user-attachments/assets/bdd8848a-c7f0-4fbe-9dab-8e9eefdde57e" />

<img width="906" height="600" alt="Image" src="https://github.com/user-attachments/assets/f41b33e2-a841-4b9a-ba25-2618a2444cb3" />

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

结构化标注完的输出结果无法丢入模型进行训练 #212

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

结构化标注完的输出结果无法丢入模型进行训练 #212

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions