目下LLM(大型道话模子)应用的广泛使用和落地韩国 裸舞,Markdown风光的文档是各式LLM和RAG(检索增强生成)偏疼,主要体目下以下两个方面:
领先,Markdown是一种轻量级的标志道话,具备简陋性和易读易写的本性,使得它成为编写和存储文档的理思聘用,特出是当这些文档需要通过LLM进行措置或通过RAG模子进行增强时。
其次,Markdown的结构化本性使其在进行文本措置时愈加高效。举例,向量化文档时,需要凭证标题层级对Markdown文献进行结构化分割,这种轨范的结构化分割保留了文本的险峻文和结构信息,这关于RAG模子来说相配要紧,有助于进步文本向量化和RAG检索的成果。
不同于Markdown,PDF风光不管在已往办公措置,照旧在大模子、RAG场景措置下,齐不太受“接待”。是以,许多时候,咱们需要将PDF先作念Markdown风光调节后,再在RAG或者大模子中使用。是以今天给大家先容的即是一个概况将PDF风光文档快速高精度的转成Markdown风光的器具-Marker
01 — Marker 先容一个开源、先进的PDF调节器具,它愚弄深度学习时期将PDF文献高保真地调节成Markdown风光。概况措置多种道话,自动去除页眉页脚等非内容元素,并维持表格、代码块和图像的风光化。Marker在保执原有文档结构的同期,提供了快速准确的调节成果。
图片韩国 裸舞
🏠 样式信息
#Github地址https://github.com/VikParuchuri/marker#样式官网地址https://www.datalab.to/marker图片
🚀功能本性多风光维持:概况将PDF文献调节为Markdown风光,同期维持竹帛、科学论文等多种文档类型。
全道话维持:不戒指道话,可以措置总共道话的文档。
自动化计帐:自动去除PDF中的页眉、页脚和其他非内容元素,提高Markdown输出的清洁度。
表格和代码风光化:概况识别并风光化PDF中的表格和代码块,保执原有结构。
图像索求:在调节经由中,概况索求PDF中的图像,并将它们保存为Markdown维持的风光。
公式调节:将PDF中的大多数数学方程调节为LaTeX风光,便于在Markdown中展示。
硬件兼容性:维持在GPU、CPU或MPS(Metal Performance Shaders)上启动,以适合不同用户的硬件环境。
性能优化:仅在必要时使用深度学习模子,以提高调节速率并优化准确率。
API处事:提供托管API处事,维持PDF、Word文档和PowerPoint的调节。
🛠 措置经由图片
文本索求:Marker领先使用OCR时期索求PDF文献中的文本。如若PDF文献包含图像,将使用Tesseract或SURYA等OCR器具进行文本识别。
页面布局检测:使用SURYA等深度学习模子来检测页面布局和笃定阅读规则。这有助于Marker相识文档的结构,举例区别标题、正文、表格等。
内容清洗与风光化:通过一系列启发式规矩和深度学习模子(如texify)对索求的文本进行清洗和风光化。这包括去除不需要的元素、风光化文本块、措置表格和代码块等。
表格和代码块措置:Marker概况识别PDF中的表格并将其调节为Markdown风光的表格。同期,它也能识别和风光化代码块。
图像索求与保存:Marker会索求PDF中的图像,并将它们保存为与Markdown兼容的风光。
公式调节:Marker将PDF中的数学公式调节为LaTeX风光,以便于在Markdown中展示。
组合与后措置:在完成上述智商后,Marker将各个部分组合起来,并进行后措置,以确保最终的Markdown文献风光正确、整洁。
02— Marker 装配和使用一、环境条目
需要 Python 3.9+ 和 PyTorch。如若莫得CPU,需要先装配 CPU 版块的 torch。
pip3 install torch torchvision torchaudio
二、装配 Marker
pip install marker-pdf可选装配:如若思使用可选的ocrmypdfOCR 后端,需要装配OCRMyPDF。
三、配置(可选,默许也可)
设立环境变量:可以在marker/settings.py中检查和配置设立,也可以使用环境变量来消散设立。
自动检测成立:marker会自动检查部署的处事器,关联词可以消散此设立。举例,TORCH_DEVICE=cuda。
如若使用 GPU,请设立INFERENCE_RAM为 GPU VRAM(每个 GPU)。举例,有 16 GB 的 VRAM,设立INFERENCE_RAM=16。
凭证文档类型,marker 每个任务的平均内存使用量可能会略有不同。如若发现任务因GPU不及额外而失败,可以调整VRAM_PER_TASK此值。
设立 OCR 引擎:默许情况下,Marker 使用 suryaOCR。如若思要更快的 OCR,可以设立OCR_ENGINE为ocrmypdf。如若不需要 OCR,可以设立OCR_ENGINE为None。
四、使用
调节单个文献
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English
--batch_multiplier是如若有特等的 VRAM,默许批措置大小要乘以的数值。数字越大,占用的 VRAM 越多,但措置速率越快。默许设立为 2。默许批措置大小将占用约 3GB 的 VRAM。
--max_pages是要措置的最大页数。忽略此项可调节总共这个词文档。
--langs是文档顶用于 OCR 的道话的逗号分隔列表确保DEFAULT_LANG设立稳妥文档。OCR 维持的道话列表见下方一语气。如若需要 OCR,标志可以使用任何道话。
#维持的道话汇集讲明https://github.com/VikParuchuri/surya/blob/master/surya/languages.py调节多个文献marker /path/to/input/folder /path/to/output/folder --workers 10 --max 10 --metadata_file /path/to/metadata.json --min_length 10000
--workers是一次要调节的 PDF 数目。默许情况下,此值设立为 1,但可以增多此值以增多并发,但代价是增多 CPU/GPU 使用率。
--max是要调节的 PDF 的最大数目。概略此项可调节文献夹中的总共 PDF。
--min_length是需要从 PDF 中索求的最少字符数,然后才进行措置。如若要措置多数 PDF,提议设立此项,以幸免对大部分是图像的 PDF 进行 OCR。
--metadata_file是存放关连 PDF元数据的JSON文献的可选旅途。如若莫得使用默许即可。
03— Marker 骨子成果展示本文部署Marker的机器为Ubuntu操作系统,4C8G配置(设立--batch_multiplier为1),无GPU。测试了一个60页的PDF文档。举座调节时刻破耗了15分钟傍边。
调节前的PDF原文献截图:
图片
调节后Markdown文献截图:
图片
基本可见以下几点调节后的成果:
页眉页脚的信息齐也曾去除;
文档中的水印也自动去除(图片中的水印无法去除);
拳交PDF论文方法的傍边编排,自动索求况且整合为险峻编排,可读性更好;
索求后的Markdown文献夹包含了PDF文献中的图片,调节后的json文献,md文献:
图片
04— 临了要而论之韩国 裸舞,Marker照实是一个功能无边的PDF到Markdown调节器具,它不仅概况精确地识别表格、进行方程式的OCR,还概况去除PDF中的页眉页脚、水印等不消要的元素,况且维持在GPU、CPU或MPS上启动,措置速率和着力也很可以。如若碰巧你也有这方面的需求化,不妨试试吧!
本站仅提供存储处事,总共内容均由用户发布,如发现存害或侵权内容,请点击举报。