Docling/tests/data/groundtruth/docling_v2/code_and_formula.json
Panos Vagenas 7c5614a37a
fix(markdown): fix single-formatted headings & list items (#1820)
* fix(markdown): fix formatting & inline edge cases (show behavior before change)

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>

* add change and updated test data

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>

* update lock

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>

* improve test case

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>

---------

Signed-off-by: Panos Vagenas <pva@zurich.ibm.com>
2025-06-25 13:05:06 +02:00

577 lines
22 KiB
JSON
Vendored

{
"schema_name": "DoclingDocument",
"version": "1.4.0",
"name": "code_and_formula",
"origin": {
"mimetype": "application/pdf",
"binary_hash": 8967166443255744998,
"filename": "code_and_formula.pdf",
"uri": null
},
"furniture": {
"self_ref": "#/furniture",
"parent": null,
"children": [],
"content_layer": "furniture",
"name": "_root_",
"label": "unspecified"
},
"body": {
"self_ref": "#/body",
"parent": null,
"children": [
{
"cref": "#/texts/0"
},
{
"cref": "#/texts/1"
},
{
"cref": "#/texts/2"
},
{
"cref": "#/texts/3"
},
{
"cref": "#/texts/5"
},
{
"cref": "#/texts/6"
},
{
"cref": "#/texts/7"
},
{
"cref": "#/texts/8"
},
{
"cref": "#/texts/9"
},
{
"cref": "#/texts/10"
},
{
"cref": "#/texts/11"
},
{
"cref": "#/texts/12"
},
{
"cref": "#/texts/13"
},
{
"cref": "#/texts/14"
},
{
"cref": "#/texts/15"
}
],
"content_layer": "body",
"name": "_root_",
"label": "unspecified"
},
"groups": [],
"texts": [
{
"self_ref": "#/texts/0",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "section_header",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 133.76801,
"t": 667.19122,
"r": 315.91595,
"b": 654.45184,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
23
]
}
],
"orig": "JavaScript Code Example",
"text": "JavaScript Code Example",
"formatting": null,
"hyperlink": null,
"level": 1
},
{
"self_ref": "#/texts/1",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 133.76801,
"t": 642.32806,
"r": 477.48276,
"b": 501.97412,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
887
]
}
],
"orig": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"text": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/2",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 133.76801,
"t": 498.86591,
"r": 477.47876,
"b": 454.15417,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
298
]
}
],
"orig": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet,",
"text": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet,",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/3",
"parent": {
"cref": "#/body"
},
"children": [
{
"cref": "#/texts/4"
}
],
"content_layer": "body",
"label": "code",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 134.239,
"t": 425.6004899999999,
"r": 263.22409,
"b": 385.25446,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
60
]
}
],
"orig": "function add(a, b) { return a + b; } console.log(add(3, 5));",
"text": "function add(a, b) { return a + b; } console.log(add(3, 5));",
"formatting": null,
"hyperlink": null,
"captions": [
{
"cref": "#/texts/4"
}
],
"references": [],
"footnotes": [],
"image": null,
"code_language": "unknown"
},
{
"self_ref": "#/texts/4",
"parent": {
"cref": "#/texts/3"
},
"children": [],
"content_layer": "body",
"label": "caption",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 223.15500000000003,
"t": 442.07895,
"r": 388.09375,
"b": 433.23218,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
36
]
}
],
"orig": "Listing 1: Simple JavaScript Program",
"text": "Listing 1: Simple JavaScript Program",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/5",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 133.76801,
"t": 372.93902999999995,
"r": 477.48172000000005,
"b": 232.58536000000004,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
887
]
}
],
"orig": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"text": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/6",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 133.76801,
"t": 229.47713999999996,
"r": 477.47876,
"b": 184.76436,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
298
]
}
],
"orig": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet,",
"text": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet,",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/7",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "furniture",
"label": "page_footer",
"prov": [
{
"page_no": 1,
"bbox": {
"l": 303.133,
"t": 96.27914399999997,
"r": 308.11429,
"b": 87.43235000000004,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
1
]
}
],
"orig": "1",
"text": "1",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/8",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "section_header",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 133.76801021944917,
"t": 717.0812439593145,
"r": 191.5272403142044,
"b": 704.341863888975,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
7
]
}
],
"orig": "Formula",
"text": "Formula",
"formatting": null,
"hyperlink": null,
"level": 1
},
{
"self_ref": "#/texts/9",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 133.76801021944917,
"t": 692.2180838220343,
"r": 477.48276078332026,
"b": 551.8641430470798,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
887
]
}
],
"orig": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"text": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/10",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 133.76801021944917,
"t": 548.7559230299179,
"r": 477.48163078331845,
"b": 492.0881027170305,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
369
]
}
],
"orig": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt.",
"text": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/11",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "formula",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 280.5540204602546,
"t": 479.06467264512247,
"r": 330.6965605425145,
"b": 468.178102585013,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
12
]
}
],
"orig": "a 2 + 8 = 12",
"text": "",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/12",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 133.76799021944913,
"t": 459.091862534844,
"r": 477.4816907833186,
"b": 318.7382217598911,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
887
]
}
],
"orig": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"text": "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/13",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 133.76799021944913,
"t": 315.6300017427293,
"r": 477.48370078332186,
"b": 247.0072913638337,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
415
]
}
],
"orig": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.",
"text": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/14",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "body",
"label": "text",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 133.76799021944913,
"t": 243.8990813466719,
"r": 477.48370078332186,
"b": 175.27629096777594,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
415
]
}
],
"orig": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.",
"text": "Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat.",
"formatting": null,
"hyperlink": null
},
{
"self_ref": "#/texts/15",
"parent": {
"cref": "#/body"
},
"children": [],
"content_layer": "furniture",
"label": "page_footer",
"prov": [
{
"page_no": 2,
"bbox": {
"l": 303.13300049729594,
"t": 146.16808080705698,
"r": 308.1142905054678,
"b": 137.32129075821,
"coord_origin": "BOTTOMLEFT"
},
"charspan": [
0,
1
]
}
],
"orig": "1",
"text": "1",
"formatting": null,
"hyperlink": null
}
],
"pictures": [],
"tables": [],
"key_value_items": [],
"form_items": [],
"pages": {
"1": {
"size": {
"width": 612.0,
"height": 792.0
},
"image": null,
"page_no": 1
},
"2": {
"size": {
"width": 595.2760009765625,
"height": 841.8900146484375
},
"image": null,
"page_no": 2
}
}
}