为纸质书籍进行数字备份:如何制作一本功能完备的PDF电子书

值得一提的是,vFlatScan的「双页捕获」功能在扫描书籍时非常实用,能够有效减少扫描的工作量。当然,如果某些场景vFlatScan识别双页不准确,你也可以关闭这个功能,在后期处理时使用MuPDF或Briss分割扫描得到的PDF。

制作PDF书签前,需要提供书签信息,即章节名称和对应的页码,以供PDFtk读取并写入PDF文件中。好消息是书籍的目录标题一般都很容易获取,不需要自己手动编辑,一般来说,豆瓣、Amazon或出版社官网页的书籍介绍页都会提供目录,我们只需要复制它,然后将其保存为heading.txt。

PDF书签和Markdown中的标题一样,也是有层级的,比如在《遏制民族主义》这本书中,第一章民族主义的困惑是一级标题,民族主义的界定则是二级标题。为了对不同的标题层级进行区分,我们借用Markdown的语法,将其改写为:

按照如上方式将页码全部提取出来,并保存为pagenumber.txt。对于其中的空行,不必一个个手动移除,之后会在命令行中批量移除。

需要注意的是,通过OCR得到的页码是书籍页眉或页脚中注明的页码,并非PDF文件中的真实页码,这是由于书籍的第1页通常是从正文第一页开始计算的,在正文之前还有序言、致谢、目录等部分,而PDF的页码则总是从第1页开始计算的。在《遏制民族主义》这本书中,从PDF第1页开始计算,正文第1页实际上位于第10页,前面的9页是前言部分。

由于PDF书签的页码总是从第1页开始计算的,因此,通过OCR得到的每一个页码都需要加上9。如果需要对正文之前的部分制作书签,可以在pagenumber.txt中手动输入对应页码减去前言部分的页码数。对于《遏制民族主义》这本书来说,「出版说明」和「目录」分别在第4和7页,减去9后分别是-5和-2。下面的例子中,第一列数字是我们OCR和手动编辑后的结果,第二列数字是它们在PDF中对应的页码:

-5->4#出版说明-2->7#目录1->10#正文5->149->1810->1913->2215->2423->3224->3326->3529->3833->4236->4543->5245->5452->6157->6660->6968->7769->7871->8074->8379->88…使用Shell脚本可以非常容易地实现上面这个转换:

catpagenumber.txt|awkNF|whilereadline;doecho$((${line}+9));done>realpage.text上面这行命令,首先使用cat命令读取pagenumber.txt的内容,然后使用awkNF移除其中所有的空行,再将每行的数字加上9(这个数字需要根据正文之前的页数确定),输出为realpage.text。

将上面的目录标题和对应页码这两个文件合并到一起:

#出版说明4#目录7#第一章民族主义的困惑10##民族主义的界定14##治理单元18##民族19##民族的突出特征22##民族主义的类型24#第二章民族主义的起因32##群体的形成33##群体团结的决定因素35##为何民族主义是现代的事物38##谁是民族主义者42##什么制度才能遏制民族主义?45#第三章间接统治与民族主义的缺失52##间接统治的兴起:原始国家形成理论54##欧洲历史上的间接统治61##欧洲殖民地的间接统治66##结论69#第四章国家建设民族主义77##直接统治的兴起78##直接统治的影响80##直接统治与国家建设民族主义83##结论88……转换为PDF元数据使用PDFtk导出一个带有书签的PDF文件的元数据信息,保存为test.text:

pdftkinput.pdfdump_dataoutputtest.text打开test.text可以发现,PDF书签信息的格式形如:

BookmarkBeginBookmarkTitle:Section1BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:Subsection1.1BookmarkLevel:2BookmarkPageNumber:20BookmarkBeginBookmarkTitle:Subsubsection1.1.1BookmarkLevel:3BookmarkPageNumber:30…容易发现,每个书签条目由4行组成:

了解了PDF书签的构成方式,我们就可以使用Perl结合正则表达式,在命令行中将之前得到bookmark.text转换为同样的格式:

BookmarkBeginBookmarkTitle:出版说明BookmarkLevel:1BookmarkPageNumber:4BookmarkBeginBookmarkTitle:目录BookmarkLevel:1BookmarkPageNumber:7BookmarkBeginBookmarkTitle:第一章民族主义的困惑BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:民族主义的界定BookmarkLevel:2BookmarkPageNumber:14…写入书签信息做好以上准备工作,下面就可以将bookmark.text写入PDF中。但是在进行这一步之前,如果该PDF本身就有书签信息,需要先将其移除。

首先使用PDFtk将input.pdf的元数据提取出来,保存为metadata.text:

pdftkinput.pdfdump_data_utf8outputmetadata.text然后使用下面的命令将其中已有的无用书签全部移除:

分步执行以上各个步骤略显麻烦,可以将这些命令集中在一起,写在一个Makefile中:

在AdobeAcrobat中,打开需要调整页码的PDF,在左侧缩略图中选中页面,点击右键选择「PageLabels…」,然后在出现的「PageNumbering」窗口中进行调整,包括需要更改的页码范围、页码前缀、起始页码等,其中Style一栏包括6个选项:

由于PDF的页码标签开头有一个独特字符Catalog,因此可以在终端中输入vim+/Cataloguncompress.pdf,就会在打开后将光标自动定位到Catalog所在的那一行。

接下来点击j移动光标到下一行,再点击o在下方插入一个空行并进入InsertMode,然后粘贴设置页码的文本,例如:

/PageLabels<>1<>4<>24<>]>>上面的示例中,0<>表示第1页的页码标签为Cover(PDF中第1页的索引是0而不是1),1<>表示2–4页的页码标签为大写罗马数字,4<>表示5–24页的页码标签为小写罗马数字,24<>表示从25页到最后一页,页码标签全都为阿拉伯数字。

粘贴完成之后,按下Esc键退出InsertMode,进入NormalMode,然后输入:wq保存更改并退出Vim。

pdftkuncompress.pdfoutputoutput.pdfcompress打开压缩之后得到的output.pdf,可以看到,页码显示效果与预期一致,修改成功。

THE END
1.电子书与纸质书当下,电子信息技术、互联网技术发展迅猛,随之而来的电子书也走进寻常百姓家,逐步得到了人们的认可,电子书和纸质书孰优孰劣也成为大家讨论的热点话题。 随着电子技术的发展,电子书成为阅读市场的新宠儿,与纸质书相比,电子书具有诸多优势:内容更新速度快、信息量大、易搜索; 载体通常小巧轻便,易于携带和保存; 信息传递http://journal.crnews.net/nmwz/2017n/d10q/shgj/920009_20171010032750.html
2.浅谈读者读书及电子书和纸质书(但是还有书籍第二季)剧评浅谈读者、读书及电子书和纸质书 这篇剧评可能有剧透 最近看了伍尔夫的《普通读者》,里面约翰逊博士的一句话“能与普通读者的意见不谋而合,在我是高兴的事;因为,在决定诗歌荣誉的权利时,尽管高雅的敏感和学术的教条也起着作用,但一般来说应该根据那未受文学偏见污损的普通读者的尝识。”这句话把普通读者的素质https://movie.douban.com/review/14336761/
3.纸质书与电子书:取代还是并存?—新闻—科学网因选修课老师要求,奚砚昆在美国买过艺术类书籍,“很贵”。所以他的同学会买二手书或者借阅,还有通过各种渠道找电子书打印出来。 小马也说到价格问题,她的一位同学正在读《二十四史》的电子版,因为纸质书价格太高。 知乎上一位“95后”媒体人提到另一个问题,电子书阅读偶尔会分心,被切断成平均少于15分钟时间碎https://news.sciencenet.cn/htmlnews/2017/4/374898.shtm
4.你觉着阅读电子书和纸质书效果一样吗?但是我以前一直试图证明纸质书最好,最适合阅读,无论读什么书都应该看纸质版…https://wen.woshipm.com/question/detail/5ktfq8.html
5.信息视图:纸质书与电子书对比互联网数据资讯网信息视图:纸质书与电子书对比 前不久,有一场关于传统书籍与电子书的火热讨论,自然,二者不可相互替代。本幅信息图总结了传统纸质书籍与电子书的优缺点。随着电子书的发展,它逐渐进入教育、科研、金融等领域。你更喜欢电子书还是传统纸质书籍呢? via:图说https://www.199it.com/archives/45619.html
6.电子书与纸质书议论文800字高一问:纸书阅读与电子书作文800字 答:乎每一页都有自己的心得笔记,一看就能够立马活生生的再现。两者一比较,才发现还是选择纸质书,才真正说得上开卷有益。不知大家是否也有同感,用互联网我们确实可以汲取很多的信息,但是正因为信息过多,而杂乱的扭在一起,就像是扭面条一样,一团乱麻,理不出个头绪,等到要用时反倒https://www.igaichong.com/article/a7ea0dafdc0eb8f41b3853e3.html
7.纸质书电子书有声并驾齐驱:2020年中国图书市场研究2020年电子书畅销榜TOP10中,投资管理及励志占3席,小说类书籍占3席,计算机类占2席。 其中《价值:我对投资的思考》荣登电子书畅销榜榜首;热播剧《沉默的真相》和《庆余年》则带火了原著电子书的销售,《长夜难明》位列第6,《庆余年》位列第10。 纸质书出版机构TOP10 https://36kr.com/p/1188567175244929
8.雅思大作文范文:纸质书和电子书,哪个更好出国留学简而言之,印刷书籍的成本相对较高,而环保、便携、双位的电子书无疑会阻碍印刷书籍的作用和功能。 以上就是“雅思大作文范文:纸质书和电子书,哪个更好”的详细介绍,如果还有其他相关问题需要了解,欢迎各位小伙伴热情咨询咱们中国教育在线的老师,预祝各位同学早日取得好成绩!https://www.eol.cn/waiyu/news/20230531144490.html
9.纸质书与电子书的优劣对比电子书能否取代纸质书→MAIGOO知识纸质书与电子书的优劣对比 电子书能否取代纸质书 摘要:书籍是人类进步的阶梯。阅读对于人们来说除了可以学习知识以外,还能够从中收获快乐,也是一种娱乐放松的方式。不过,随着人们的时间变得碎片化,安静下来阅读一本书似乎成为了一种奢望。年轻人的阅读更是从书本转移到了电子屏幕上。甚至有人预测,纸质书终将消亡。不过https://www.maigoo.com/goomai/98353.html
10.纸质书与电子书:哪一种在保护森林和碳减排方面更出色–书伴但是如果读者同时使用两种方式消费文学作品会怎样?“很多人仍想要读纸质书,即便他们读了一些电子书”,Amasawa 说。约 33% 的美国读者属于此类。 虽然电子书阅读器对普通读者具有环保意义,Amasawa 还是建议实体书狂热爱好者“购买你真正需要阅读的书籍”。并且当读完后回收它们。 https://bookfere.com/post/1091.html
11.“我们不一样”:纸质书和电子书画风迥异的畅销榜过去,我们仅凭内容就可以把纸质书和电子书稍作区分,纸质书偏重传统题材,电子书偏重网络文学等网上常见的题材,画风区别本就很大。而现在,越来越多的纸质书电子化,且有不少传统题材的书籍直接使用电子出版,电子书市场有了变化。随着读者对电子书的需求增多,加之传统出版社对数字出版的重视,未来会有更多图书选择电子书https://m.thepaper.cn/uc.jsp?contid=1966006
12.国内纸质双书号与电子书号之差异探析双书号是什么意思纸质书号:直接关联于传统的纸质出版物,即我们通常所说的书籍,它们以纸张为载体,通过印刷工艺制成,便于携带、阅读与保存。这种出版形式因其直观性、可触性而深受读者喜爱,尤其适合需要广泛传播、长期保存或作为正式文献资料的出版物。 电子书号:则主要依托电子媒介,特别是以光碟为主要载体形式。电子书号项下的出版物必https://blog.csdn.net/lunwen859036895/article/details/141423577
13.纸质书不可替代,电子书渐成潮流要闻首都之窗此外,从阅读心理上来说,电子书模仿纸质书,但不可能在形态上做到完全一致,这给人一种陌生、疏离和不真实的感觉,导致读者不自觉地缺乏读纸质书时的严肃和投入,影响深度阅读效果。阅读长难文本或重要书籍,需要调动人的深入理解与思考能力,纸质书或许是更好的选择。 https://www.beijing.gov.cn/renwen/zt/ydbj/yw/202007/t20200729_1964548.html
14.关于电子书和纸质书的调查报告.doc(二) 纸质书与电子书的选择情况 统计发现,有56%的同学选择经常电子书,偶尔选择纸质书的阅读方式。我们可以看出,纸质书作为传承人类文化的重要载体,其作用和地位在大学生生活和学习当中仍然占据着重要的地位。而作为后起之秀的电子书阅读方式所占的比例也不容小觑。我们还发现,同学们选择书籍的途径各不相同。其中中https://max.book118.com/html/2016/1225/77014358.shtm
15.纸质书籍和电子书谁更受消费者青睐随着信息时代的到来,越来越依赖于网络,渐渐忽视了实体,纸质书籍和电子书也成了读者的二选一。 *1. 您的性别: 男 女 *2. 您的年龄段: 18岁以下 18~25 26~30 31~40 41~50 51~60 60以上 *3. 您目前从事的行业: 请选择 *4. 您目前从事的职业: https://www.wjx.cn/jq/46407061.aspx
16.电子书会彻底取代纸质图书,让图书馆成为书籍博物馆吗?肯定不会的,作为一个重度阅读爱好者的我来说,我对纸质书籍有着特殊的情感,相信和我一样的伙伴也不少吧。曾经有一段时间,我在我们的一个作者群里聊天时就讨论过类似的问题,说的是大家看书时是喜欢电子书,还是纸质书,最终得到的回答是纸质书。尽管现在电子书有各类高科技产品、平台号、APP加持,想要看书时也确实https://weibo.com/p/2313474352322699440999/wenda_home
17.纸质书电子书作文(通用15篇)纸质书电子书作文(通用15篇) 在学习、工作或生活中,大家都经常接触到作文吧,借助作文可以宣泄心中的情感,调节自己的心情。那么你知道一篇好的作文该怎么写吗?以下是小编整理的纸质书电子书作文(通用15篇),欢迎大家借鉴与参考,希望对大家有所帮助。 纸质书电子书作文 1 https://mip.cnfla.com/zuowen/1523270.html
18.电子书与传统书籍作文(精选38篇)无论是身处学校还是步入社会,许多人都有过写作文的经历,对作文都不陌生吧,作文根据写作时限的不同可以分为限时作文和非限时作文。那么你有了解过作文吗?以下是小编为大家整理的电子书与传统书籍作文,欢迎阅读,希望大家能够喜欢。 电子书与传统书籍作文 篇1 教育https://www.ruiwen.com/zuowen/chuantong/1870715.html