Docling/tests/data/groundtruth/docling_v2/picture_classification.json
Panos Vagenas 0533da1923
feat: leverage new list modeling, capture default markers (#1856)
* chore: update docling-core & regenerate test data

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>

* update backends to leverage new list modeling

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>

* repin docling-core

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>

* ensure availability of latest docling-core API

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>

---------

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>
2025-06-27 16:37:15 +02:00

419 lines
15 KiB
JSON
Vendored

{
"schema_name": "DoclingDocument",
"version": "1.5.0",
"name": "picture_classification",
"origin": {
"mimetype": "application/pdf",
"binary_hash": 6445357065749877499,
"filename": "picture_classification.pdf",
"uri": null
},
"furniture": {
"self_ref": "#/furniture",
"parent": null,
"children": [],
"content_layer": "furniture",
"name": "_root_",
"label": "unspecified"
},
"body": {
"self_ref": "#/body",
"parent": null,
"children": [
{
"cref": "#/texts/0"
},
{
"cref": "#/texts/1"
},
{
"cref": "#/pictures/0"
},
{
"cref": "#/texts/3"
},
{
"cref": "#/texts/4"
},
{
"cref": "#/texts/5"
},
{
"cref": "#/pictures/1"
},
{
"cref": "#/texts/7"
},
{
"cref": "#/texts/8"
}
],
"content_layer": "body",
"name": "_root_",
"label": "unspecified"
},
"groups": [],
"texts": [
{
"self_ref": "#/texts/0",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "section_header",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 133.76801,
"t": 667.19122,
"r": 252.35513,
"b": 654.45184,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
15
]
}
],
"orig": "Figures Example",
"text": "Figures Example",
"formatting": null,
"hyperlink": null,
"level": 1
},
{
"self_ref": "#/texts/1",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 133.76801,
"t": 642.32806,
"r": 477.48276,
"b": 501.97412,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
887
]
}
],
"orig": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"text": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/2",
"parent": {
"cref": "#/pictures/0"
},
"children": [],
"content_layer": "body",
"label": "caption",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 226.89101,
"t": 262.86505,
"r": 384.3548,
"b": 254.01826000000005,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
35
]
}
],
"orig": "Figure 1: This is an example image.",
"text": "Figure 1: This is an example image.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/3",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 133.76801,
"t": 238.95505000000003,
"r": 477.48172000000005,
"b": 122.51225,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
747
]
}
],
"orig": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.",
"text": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/4",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "furniture",
"label": "page_footer",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 303.133,
"t": 96.27903700000002,
"r": 308.11429,
"b": 87.43224299999997,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
1
]
}
],
"orig": "1",
"text": "1",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/5",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 133.76801,
"t": 664.1490499999999,
"r": 477.48172000000005,
"b": 523.7951,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
887
]
}
],
"orig": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"text": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/6",
"parent": {
"cref": "#/pictures/1"
},
"children": [],
"content_layer": "body",
"label": "caption",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 226.89101,
"t": 268.78903,
"r": 384.3548,
"b": 259.94226000000003,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
35
]
}
],
"orig": "Figure 2: This is an example image.",
"text": "Figure 2: This is an example image.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/7",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 133.76801,
"t": 245.71804999999995,
"r": 477.48172000000005,
"b": 117.32024000000001,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
804
]
}
],
"orig": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum.",
"text": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/8",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "furniture",
"label": "page_footer",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 303.133,
"t": 96.27903700000002,
"r": 308.11429,
"b": 87.43224299999997,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
1
]
}
],
"orig": "2",
"text": "2",
"formatting": null,
"hyperlink": null
}
],
"pictures": [
{
"self_ref": "#/pictures/0",
"parent": {
"cref": "#/body"
},
"children": [
{
"cref": "#/texts/2"
}
],
"content_layer": "body",
"label": "picture",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 134.9200439453125,
"t": 487.109375,
"r": 475.6635437011719,
"b": 281.78173828125,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
0
]
}
],
"captions": [
{
"cref": "#/texts/2"
}
],
"references": [],
"footnotes": [],
"image": null,
"annotations": []
},
{
"self_ref": "#/pictures/1",
"parent": {
"cref": "#/body"
},
"children": [
{
"cref": "#/texts/6"
}
],
"content_layer": "body",
"label": "picture",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 218.8155517578125,
"t": 513.9846496582031,
"r": 391.96246337890625,
"b": 283.10589599609375,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
0
]
}
],
"captions": [
{
"cref": "#/texts/6"
}
],
"references": [],
"footnotes": [],
"image": null,
"annotations": []
}
],
"tables": [],
"key_value_items": [],
"form_items": [],
"pages": {
"1": {
"size": {
"width": 612.0,
"height": 792.0
},
"image": null,
"page_no": 1
},
"2": {
"size": {
"width": 612.0,
"height": 792.0
},
"image": null,
"page_no": 2
}
}
}