为纸质书籍进行数字备份:如何制作一本功能完备的PDF电子书

值得一提的是,vFlatScan的「双页捕获」功能在扫描书籍时非常实用,能够有效减少扫描的工作量。当然,如果某些场景vFlatScan识别双页不准确,你也可以关闭这个功能,在后期处理时使用MuPDF或Briss分割扫描得到的PDF。

制作PDF书签前,需要提供书签信息,即章节名称和对应的页码,以供PDFtk读取并写入PDF文件中。好消息是书籍的目录标题一般都很容易获取,不需要自己手动编辑,一般来说,豆瓣、Amazon或出版社官网页的书籍介绍页都会提供目录,我们只需要复制它,然后将其保存为heading.txt。

PDF书签和Markdown中的标题一样,也是有层级的,比如在《遏制民族主义》这本书中,第一章民族主义的困惑是一级标题,民族主义的界定则是二级标题。为了对不同的标题层级进行区分,我们借用Markdown的语法,将其改写为:

按照如上方式将页码全部提取出来,并保存为pagenumber.txt。对于其中的空行,不必一个个手动移除,之后会在命令行中批量移除。

需要注意的是,通过OCR得到的页码是书籍页眉或页脚中注明的页码,并非PDF文件中的真实页码,这是由于书籍的第1页通常是从正文第一页开始计算的,在正文之前还有序言、致谢、目录等部分,而PDF的页码则总是从第1页开始计算的。在《遏制民族主义》这本书中,从PDF第1页开始计算,正文第1页实际上位于第10页,前面的9页是前言部分。

由于PDF书签的页码总是从第1页开始计算的,因此,通过OCR得到的每一个页码都需要加上9。如果需要对正文之前的部分制作书签,可以在pagenumber.txt中手动输入对应页码减去前言部分的页码数。对于《遏制民族主义》这本书来说,「出版说明」和「目录」分别在第4和7页,减去9后分别是-5和-2。下面的例子中,第一列数字是我们OCR和手动编辑后的结果,第二列数字是它们在PDF中对应的页码:

-5->4#出版说明-2->7#目录1->10#正文5->149->1810->1913->2215->2423->3224->3326->3529->3833->4236->4543->5245->5452->6157->6660->6968->7769->7871->8074->8379->88…使用Shell脚本可以非常容易地实现上面这个转换:

catpagenumber.txt|awkNF|whilereadline;doecho$((${line}+9));done>realpage.text上面这行命令,首先使用cat命令读取pagenumber.txt的内容,然后使用awkNF移除其中所有的空行,再将每行的数字加上9(这个数字需要根据正文之前的页数确定),输出为realpage.text。

将上面的目录标题和对应页码这两个文件合并到一起:

#出版说明4#目录7#第一章民族主义的困惑10##民族主义的界定14##治理单元18##民族19##民族的突出特征22##民族主义的类型24#第二章民族主义的起因32##群体的形成33##群体团结的决定因素35##为何民族主义是现代的事物38##谁是民族主义者42##什么制度才能遏制民族主义?45#第三章间接统治与民族主义的缺失52##间接统治的兴起:原始国家形成理论54##欧洲历史上的间接统治61##欧洲殖民地的间接统治66##结论69#第四章国家建设民族主义77##直接统治的兴起78##直接统治的影响80##直接统治与国家建设民族主义83##结论88……转换为PDF元数据使用PDFtk导出一个带有书签的PDF文件的元数据信息,保存为test.text:

pdftkinput.pdfdump_dataoutputtest.text打开test.text可以发现,PDF书签信息的格式形如:

BookmarkBeginBookmarkTitle:Section1BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:Subsection1.1BookmarkLevel:2BookmarkPageNumber:20BookmarkBeginBookmarkTitle:Subsubsection1.1.1BookmarkLevel:3BookmarkPageNumber:30…容易发现,每个书签条目由4行组成:

了解了PDF书签的构成方式,我们就可以使用Perl结合正则表达式,在命令行中将之前得到bookmark.text转换为同样的格式:

BookmarkBeginBookmarkTitle:出版说明BookmarkLevel:1BookmarkPageNumber:4BookmarkBeginBookmarkTitle:目录BookmarkLevel:1BookmarkPageNumber:7BookmarkBeginBookmarkTitle:第一章民族主义的困惑BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:民族主义的界定BookmarkLevel:2BookmarkPageNumber:14…写入书签信息做好以上准备工作,下面就可以将bookmark.text写入PDF中。但是在进行这一步之前,如果该PDF本身就有书签信息,需要先将其移除。

首先使用PDFtk将input.pdf的元数据提取出来,保存为metadata.text:

pdftkinput.pdfdump_data_utf8outputmetadata.text然后使用下面的命令将其中已有的无用书签全部移除:

分步执行以上各个步骤略显麻烦,可以将这些命令集中在一起,写在一个Makefile中:

在AdobeAcrobat中,打开需要调整页码的PDF,在左侧缩略图中选中页面,点击右键选择「PageLabels…」,然后在出现的「PageNumbering」窗口中进行调整,包括需要更改的页码范围、页码前缀、起始页码等,其中Style一栏包括6个选项:

由于PDF的页码标签开头有一个独特字符Catalog,因此可以在终端中输入vim+/Cataloguncompress.pdf,就会在打开后将光标自动定位到Catalog所在的那一行。

接下来点击j移动光标到下一行,再点击o在下方插入一个空行并进入InsertMode,然后粘贴设置页码的文本,例如:

/PageLabels<>1<>4<>24<>]>>上面的示例中,0<>表示第1页的页码标签为Cover(PDF中第1页的索引是0而不是1),1<>表示2–4页的页码标签为大写罗马数字,4<>表示5–24页的页码标签为小写罗马数字,24<>表示从25页到最后一页,页码标签全都为阿拉伯数字。

粘贴完成之后,按下Esc键退出InsertMode,进入NormalMode,然后输入:wq保存更改并退出Vim。

pdftkuncompress.pdfoutputoutput.pdfcompress打开压缩之后得到的output.pdf,可以看到,页码显示效果与预期一致,修改成功。

THE END
1.PDF格式概述:历史特点应用优势及未来发展趋势PDF,全称为“Portable Document Format”,是一种便携式文档格式,起初是由Adobe公司在1993年推出的。这种格式的设计初衷是为了让文档在不同的设备和操作系统上保持一致的显示效果,wwg.iqv6.com,。无论你是在Windows、Mac,还是Linux系统上查看,PDF文件的排版和格式都不会变,web.drkhilji.com,。这种跨平台的特性使得https://www.163.com/dy/article/JJQ7JG410512BOIV.html
2.经济管理电子书经济学管理学市场电子商务,免费下载经济学和管理学领域的高质量PDF电子书,提升您的经济管理技能。雅书经济管理电子书分类当前第1页。https://yabook.org/jingjiguangli/
3.值得收藏的22个免费PDF电子书网站我们常常需要寻找一些电子书PDF文件,特别是一些国外的英文版电子书,因为很难在国内买得到,所以一些好的网站是非常值得收藏的。以下这22个都是免费的PDF网站,需要寻找国外资料https://www.jianshu.com/p/fqKeS7
4.pdf图书,pdf电子书等最新图书书籍学习资料免费共享下载mob影院分享最新高清电影电视剧、伦理片、综艺、美剧、韩剧、英剧、日剧等迅雷下载,等资源在线观看!提供2024最新电影电视剧免费观看http://www.ziliaoh.com/
5.PDF电子书购买PDF电子书相关商品PDF电子书相关商品,,出版社:清华大学出版社,出版社:清华大学出版社,出版时间:2013-09,版次:1,装帧:精装。购买PDF电子书相关商品,欢迎您到孔夫子旧书网。http://bq.kongfz.com/detail_10630249/
6.pdf书籍积分:0分 编程 C++ 入门 pdf书籍 | 电子产品世界 下载 电力电子技术电子书[PDF]---(1)(中央空调) 积分:0分 机械工业出版社 电力电子技术 pdf书籍 | 电子产品世界 下载 电力电子技术电子书[PDF]---(2)(中央空调) 积分:0分 机械工业出版社 电力电子技术 pdf书籍 | 电子产品世界 下载 电力电子技术电子书https://www.eepw.com.cn/tech/d/k/pdf%E4%B9%A6%E7%B1%8D
7.PDF书籍排行榜京东JD.COM为您提供PDF书籍销量排行榜、PDF书籍哪个好、PDF书籍多少钱等相关资讯,从PDF书籍价格、评价、图片等多方面比较,为您推荐优质PDF书籍产品!https://www.jd.com/phb/key_171363b17866884f1261.html
8.10本LinuxPDF书籍免费分享0x9e5Y2JPDF书籍获取方法 关注微信公众号:宏睿时空,回复 Linux程序设计 ,即可免费获取。 PDF仅供参考,支持购买正版书籍,请点击下方京东链接,谢谢! 点击查看图书详细信息 二、Unix环境高级编程 PDF书籍获取方法 关注微信公众号:宏睿时空,回复 Unix环境高级编程 ,即可免费获取。 PDF仅供参考,支持购买正版书籍,请点击下方京东链接https://www.cnblogs.com/horysk/p/15988696.html
9.pdf(程序编译数据库)pdf PDF: Program Debug Database程序编译数据库(在VS的debug文件中常见)https://baike.baidu.com/item/pdf/23603352
10.pdf书籍下载pdf书籍合集下载→ pdf书籍合集列表 pdf书籍c++ primer plus第六版pdf软件大小:300.00M更新时间:2021-07-20c++primerplus第六版pdf是一份非常实用的c++编程语言学习电子书资源,从基础的c语言知识到复杂的编程操作,书籍内容介绍循序渐进,一步步基础知识点介绍,让读者可以跟随着书籍一步步进入http://www.xfdown.com/p/h1_K118958.html
11.2024最全PDF书籍资源网站推荐国内PDF书籍资源网站推荐 1. 鸠摩搜书 网站地址:https://www.jiumodiary.com/ 一个强大的搜书神站,无论是什么类型的书籍,只要你知道书名,就可以轻松的搜到你想要书籍。页面简单明了,书籍种类繁多,格式多种多样,有mobi格式、pdf格式、word格式、txt格式等。关键是可以无限下载,无需注册登录。 https://www.extrabux.cn/chs/guide/7272409
12.首页homeofbook.com,专业的免费电子书下载网站,支持mobi,epub,pdf,txt,azw3等阅读格式的电子书免费下载http://www.homeofbook.com/
13.鲜为人知的8个免费PDF书籍网站鲜为人知的8个免费PDF书籍网站 书行天下 几十万本书全部免费下载还带章节目录。 科学文库 可以免费下载大学教材的电子版网站,内容包括数理类、历史、地理、生物科学、医药、农业、信息、航空、航天等等。 图灵社区 以IT行业书籍为主,有大量的专业书籍PDF版,包括计算机、科普、设计、经营管理、专业数学等等。 书栈网https://m.dianping.com/ugcdetail/145980749?sceneType=0&bizType=29&msource=baiduappugc
14.pdf书籍转ppt书籍PDF文件在传输和浏览上有很好的兼容性但是不易编辑,想要编辑里面的内容直接使用还需要转换成其他的格式,比如说Word、txt、excel、PPT等,看个人的需求https://pdftoword.55.la/tag/8506.html
15.高清pdf电子书下载渠道有哪些,看完这篇就够了–WorkWin管理专家您可以从以下网站下载高清PDF电子书: PDF资源:https://www.pdfzj.com/ eBooks下载:https://ebooksdownloads.xyz/ 微盘PDF书籍:https://vdisk.weibo.com/s/EKU639sU618de 洋书网:https://www.e-booksdirectory.com/ 百度网盘PDF下载:https://pan.baidu.com/share/init?surl=yRfgFF9 https://www.vipshare.com/archives/40440
16.如何下载PDF格式电子书籍(pdf的书籍怎么下载)在数字化阅读日益普及的今天,PDF格式的电子书籍因其格式统一、便于携带等优点,成为了许多读者的首选。那么,如何下载PDF格式的电子书籍呢?以下是一些常用的方法和步骤。 首先,可以通过官方网站或电子书平台下载。许多出版社和作者会在自己的官方网站上提供电子书籍的下载服务。访问这些网站,找到所需的书籍,然后按照网站提https://pdf.zaixianjisuan.com/jiqiao/ru-he-xia-zai-pdfge-shi-dian-zi-shu-ji.html
17.书籍在线阅读.pdf书籍在线阅读 书籍在线阅读 45 篇一:分享 45 个海量免费电子书下载网站 篇一:分享 个海量免费电子书下载网站 Amazon? 随着网络和信息技术的快速发展,电子书越来越流行。以Amazon? 随着网络和信息技术的快速发展,电子书越来越流行。以 Kindle Kindle 为代表的电子书阅读器的出现改变了人们传统的阅读方式,如同 https://max.book118.com/html/2021/0303/7050153125003062.shtm
18.pdf下载电子书下载网计算机书籍码农pdf下载网梦想导航码农pdf下载网主营计算机方面书籍pdf下载,涵盖大数据书籍、java书籍、编程书籍、操作系统等各个方面 电子书下载_电子书软件_电子书网站 - 阅读链 阅读链是一个电子书网站,提供电子书下载、电子书排行、电子书交流,可以下载电子书,学习电子书制作方法,浏览电子书排行,了解KINDLE电子书的使用技巧和电子书各种格式的使用方https://nav.dreamthere.cn/site/index/133565
19.7个PDF搜索引擎站点合集:获取免费PDF电子书Find-pdf-doc 是一个有用的工具,用于在一系列领域(例如商业、学校、银行和软件手册)中查找 PDF 电子书、电子表格、论文、合同和小说。 我在哪里可以找到免费的 PDF 书籍? 你可以使用上面列出的 PDF 搜索引擎站点在 Internet 上找到许多免费的 PDF 标题。但请记住,由于版权问题,你可能无法获得所有书籍。 https://www.lsbin.com/18532.html
20.PDF阅读工具书籍推荐(实用的pdf阅读器)资讯Sumatra PDF Kindle for PC Ease PDF Reader 随着电子书籍的普及,PDF格式已成为最为常见的电子书格式之一,为了能够方便地阅读PDF格式的电子书,选择一款实用的PDF阅读器显得尤为重要,本文将介绍几款优秀的PDF阅读工具书籍,帮助您更好地阅读PDF格式的电子书。 https://chuaiqiu.com/post/188507.html
21.pdf图书然而,随着科技的进步,我们不再被桌面上那堆沉重的书籍所束缚。现在,只需轻点几下鼠标,一本充满智慧和创意的PDF图书就能闪亮登场!它们不仅可以随时随地让你瞬间进入知识的海洋,还能轻松放在电子设备中,随身携带。无论你是学术派还是文艺青年,这些PDF图书都将成为你的知识指南和灵感源泉。快来一起探索这个数字世界中的https://www.foxitsoftware.cn/pdfeditor/tags/9372/
22.的电子书及TXT全集电子书文档供浏览者学习使用,各类PDF书籍一家可在线观看、美剧下载的美剧天堂,专业提供高清好看的人人美剧,美剧在线观看,美剧下载,第一时间为广大美剧迷推荐精彩好看的天天美剧节目。 收藏 西瓜视频 高清免费在线视频 - 点亮对生活的好奇心 收藏 斗破苍穹-黑暗奴隶拍卖大会(狼血沸腾)最新章节_斗破苍穹-黑暗奴隶拍卖大会全文免费阅读无弹窗-吉林小说网 https://bidianer.com/site/445061
23.哪里有免费pdf书本教材大学教材pdf下载网站汇总电子图书公益阅读这个网站可以用于寻找一些大学科目资料,包括经济、历史、生物、航天的各类书籍。 值得一提的是这里的每一本书籍都支持在线阅读,只要登录之后即可进行在线阅读。 五、福昕知翼 福昕知翼是福昕软件旗下的一个内容服务网站,网站内包含了各种pdf模板与书籍,其中包括文学艺术小说、考研题目资料等,里面的多数https://www.docer365.com/zn-3757.html