假如你常常解决数据分析表,你应该感受过那类令人恼火和伤脑的觉得。可是如今,学习培训怎么使用下边即将详细介绍的专用工具。相信自己,这会使你在工作上觉得更舒适。

从古希腊语翻译出来的Excalibur,也是一个从PDF中获取表格数据的Web页面。用Python 3撰写,并获得Camelot(Python库)的适用,Excalibur能够让所有人轻轻松松地从PDF文档中获取表格数据。必须特别注意的是,Excalibur只适用根据文字的PDF文档,扫描仪的文档不包含在这里目录中。

《卡梅洛特与神剑》的作家和维护者是墨西哥城Bharati Vidyapeeth工程学校的Vinayak Mehta,他现阶段全职的从业这种新项目。

魔刀的四大特性。

生命期格式文件。

PDF文档界定了在相对性于网页页面左下方的x,y座标中置放标识符的表明。根据将一些标识符放得更挨近别的标识符来仿真模拟英语单词。空是利用将英语单词放到相对性很远的地区来仿真模拟的。最终,根据在Excel表中置放表明的英语单词来仿真模拟报表,文件格式沒有报表构造的內部表明。

自动识别PDF中的表格数据。

生命期格式文件并不是为表格数据设计方案的。悲哀的是,很多对外开放的信息共享全是PDF文档,但解析在其中的报表是特别痛楚的。简易的拷贝是难以实现的。Excalibur自动识别PDF中的表格,并让您根据Web页面将其储存为CSV和Excel文档,这促使PDF表格获取越来越比较简单。

报表获取标准能够动态的调节。

尽管PDF表格提取中普遍应用了许多开源系统和闭源专用工具,可是他们輸出的表格是混和的。Camelot适用的Excalibur为使用者带来了附加的设定,以调节报表获取并取得最好結果。比较之下,它的耐磨性高于别的开源系统专用工具和库。

数据信息彻底可控性且安全性。

您能够彻底控制参数,由于全部文档都是在您自身的当地或远程计算机上储存和解决。Excalibur还能够配备MySQL和莴笋系统软件,以并行处理和分布式系统的方法实行表获取每日任务。默认设置状况下,每日任务按序实行。

快速入门手册

安装下载。

https://GitHub.com/camelot-dev/excalibur/releases

评论(0条)

刀客源码 游客评论