为纸质书籍进行数字备份:如何制作一本功能完备的PDF电子书

值得一提的是,vFlatScan的「双页捕获」功能在扫描书籍时非常实用,能够有效减少扫描的工作量。当然,如果某些场景vFlatScan识别双页不准确,你也可以关闭这个功能,在后期处理时使用MuPDF或Briss分割扫描得到的PDF。

制作PDF书签前,需要提供书签信息,即章节名称和对应的页码,以供PDFtk读取并写入PDF文件中。好消息是书籍的目录标题一般都很容易获取,不需要自己手动编辑,一般来说,豆瓣、Amazon或出版社官网页的书籍介绍页都会提供目录,我们只需要复制它,然后将其保存为heading.txt。

PDF书签和Markdown中的标题一样,也是有层级的,比如在《遏制民族主义》这本书中,第一章民族主义的困惑是一级标题,民族主义的界定则是二级标题。为了对不同的标题层级进行区分,我们借用Markdown的语法,将其改写为:

按照如上方式将页码全部提取出来,并保存为pagenumber.txt。对于其中的空行,不必一个个手动移除,之后会在命令行中批量移除。

需要注意的是,通过OCR得到的页码是书籍页眉或页脚中注明的页码,并非PDF文件中的真实页码,这是由于书籍的第1页通常是从正文第一页开始计算的,在正文之前还有序言、致谢、目录等部分,而PDF的页码则总是从第1页开始计算的。在《遏制民族主义》这本书中,从PDF第1页开始计算,正文第1页实际上位于第10页,前面的9页是前言部分。

由于PDF书签的页码总是从第1页开始计算的,因此,通过OCR得到的每一个页码都需要加上9。如果需要对正文之前的部分制作书签,可以在pagenumber.txt中手动输入对应页码减去前言部分的页码数。对于《遏制民族主义》这本书来说,「出版说明」和「目录」分别在第4和7页,减去9后分别是-5和-2。下面的例子中,第一列数字是我们OCR和手动编辑后的结果,第二列数字是它们在PDF中对应的页码:

-5->4#出版说明-2->7#目录1->10#正文5->149->1810->1913->2215->2423->3224->3326->3529->3833->4236->4543->5245->5452->6157->6660->6968->7769->7871->8074->8379->88…使用Shell脚本可以非常容易地实现上面这个转换:

catpagenumber.txt|awkNF|whilereadline;doecho$((${line}+9));done>realpage.text上面这行命令,首先使用cat命令读取pagenumber.txt的内容,然后使用awkNF移除其中所有的空行,再将每行的数字加上9(这个数字需要根据正文之前的页数确定),输出为realpage.text。

将上面的目录标题和对应页码这两个文件合并到一起:

#出版说明4#目录7#第一章民族主义的困惑10##民族主义的界定14##治理单元18##民族19##民族的突出特征22##民族主义的类型24#第二章民族主义的起因32##群体的形成33##群体团结的决定因素35##为何民族主义是现代的事物38##谁是民族主义者42##什么制度才能遏制民族主义?45#第三章间接统治与民族主义的缺失52##间接统治的兴起:原始国家形成理论54##欧洲历史上的间接统治61##欧洲殖民地的间接统治66##结论69#第四章国家建设民族主义77##直接统治的兴起78##直接统治的影响80##直接统治与国家建设民族主义83##结论88……转换为PDF元数据使用PDFtk导出一个带有书签的PDF文件的元数据信息,保存为test.text:

pdftkinput.pdfdump_dataoutputtest.text打开test.text可以发现,PDF书签信息的格式形如:

BookmarkBeginBookmarkTitle:Section1BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:Subsection1.1BookmarkLevel:2BookmarkPageNumber:20BookmarkBeginBookmarkTitle:Subsubsection1.1.1BookmarkLevel:3BookmarkPageNumber:30…容易发现,每个书签条目由4行组成:

了解了PDF书签的构成方式,我们就可以使用Perl结合正则表达式,在命令行中将之前得到bookmark.text转换为同样的格式:

BookmarkBeginBookmarkTitle:出版说明BookmarkLevel:1BookmarkPageNumber:4BookmarkBeginBookmarkTitle:目录BookmarkLevel:1BookmarkPageNumber:7BookmarkBeginBookmarkTitle:第一章民族主义的困惑BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:民族主义的界定BookmarkLevel:2BookmarkPageNumber:14…写入书签信息做好以上准备工作,下面就可以将bookmark.text写入PDF中。但是在进行这一步之前,如果该PDF本身就有书签信息,需要先将其移除。

首先使用PDFtk将input.pdf的元数据提取出来,保存为metadata.text:

pdftkinput.pdfdump_data_utf8outputmetadata.text然后使用下面的命令将其中已有的无用书签全部移除:

分步执行以上各个步骤略显麻烦,可以将这些命令集中在一起,写在一个Makefile中:

在AdobeAcrobat中,打开需要调整页码的PDF,在左侧缩略图中选中页面,点击右键选择「PageLabels…」,然后在出现的「PageNumbering」窗口中进行调整,包括需要更改的页码范围、页码前缀、起始页码等,其中Style一栏包括6个选项:

由于PDF的页码标签开头有一个独特字符Catalog,因此可以在终端中输入vim+/Cataloguncompress.pdf,就会在打开后将光标自动定位到Catalog所在的那一行。

接下来点击j移动光标到下一行,再点击o在下方插入一个空行并进入InsertMode,然后粘贴设置页码的文本,例如:

/PageLabels<>1<>4<>24<>]>>上面的示例中,0<>表示第1页的页码标签为Cover(PDF中第1页的索引是0而不是1),1<>表示2–4页的页码标签为大写罗马数字,4<>表示5–24页的页码标签为小写罗马数字,24<>表示从25页到最后一页,页码标签全都为阿拉伯数字。

粘贴完成之后,按下Esc键退出InsertMode,进入NormalMode,然后输入:wq保存更改并退出Vim。

pdftkuncompress.pdfoutputoutput.pdfcompress打开压缩之后得到的output.pdf,可以看到,页码显示效果与预期一致,修改成功。

THE END
1.图书检索技巧攻略本文分享“图书馆检索技巧攻略”,为广大师生提供高效利用图书馆资源的攻略。 一、图书馆布局介绍,带你快速了解图书分类及摆放位置; 二、图书检索技巧,教你如何快速找到所需书籍。 1 图书馆布局介绍 3楼是报刊阅览室及自习室。 4楼是图书馆的唯一出入口,5~9楼是书库,每层楼的楼梯间https://mp.weixin.qq.com/s?__biz=MjM5MDI3NDYxMw==&mid=2650002238&idx=1&sn=751d8db96b4c20586ad7a6bc006119cb&chksm=bf6cb75af05b4b0b4bfbedf099c66bd75ee01df4f1b2f43263037ef1f003c85a380b17a41a82&scene=27
2.如何快速高效全面查找PDF电子版图书教材和书籍一些社交平台(微信公众号、微博、知乎、小红书等)就相当于网上的学长学姐圈,比较适合找“电子书”“资料”“网课”等。大部分都是免费分享 收费平台,通过淘宝、咸鱼等付费购买。 不管是找电子书还是学习资源、网课的信息啊,都是先去最基础的浏览器检索检索,找不到就去针对性的网站检索检索,找网课的就去课程网站找http://www.360doc.com/content/22/0726/01/73176036_1041384388.shtml
3.常见问题7、怎样下载论文资料? 8、在校外能查询馆藏或个人借阅信息吗? 9、所借图书假期中到期怎么办? 10、无法登录“我的图书馆”及电子资源怎么办? 11、所借图书丢失怎么办? 12、查收查引SCI 、EI等收录证明怎么开具? 13、文献查重证明怎样开具? 14、检索费付费方式有哪些? https://lib.qlu.edu.cn/1324/list.htm
4.软件电子书最全中英文查找方法ZLibrary安娜的档案图书检索点击该浏览器插件即可自动检索可用的官网网址并打开。 2、Book Searcher 3、图书信息索引 4、FreeMbook Search 5、安娜的档案(科学) 6、1Library 7、其他电子书查找办法(天下没有找不到的电子书~) [中文书籍]电子书教程.pdf [中英书籍]电子书教程.pdf 电子书查找教程V4.0.pdfhttps://blog.csdn.net/weixin_52757493/article/details/133991918
5.新教材新教材-普通高中教科书物理教师用书选择性必修2 电子版.pdf,目录 第 JOE 安培力与;再伦丢在力 一、本章教材概述 ……… ..….. …. 1 二、教材分析与教学建议 ……… .5 第 1 节磁场对通电导线的作用力 ………·……… .5 第 2 节磁场对运动电荷的作用力 ……… .https://m.book118.com/html/2022/1116/8035001040005013.shtm
6.免费代找全国图书馆联盟PDF电子书需要的留下书名和ISBN码,以及你的邮箱,不保证百分百能找到,只能保证百分百免费,单本优先,多本顺延,精力有限,还请不要一次性发多本(≥3本),方便帮后面留言且需求数量少的朋友尽快找到需要的书。 非实时代找,找到后会尽快通过邮箱发送给你,如果没有找到也会发邮件通知,还望理解https://www.douban.com/group/topic/258966611/
7.请问那些淘宝代找图书PDF的都是怎么找的?朗月的回答一般都是从一些免费的电子书网站,专业的学术性网站或者数字图书馆上面找。 Z-lib、ePUBee、PDF资源网、熊猫、鸠摩、书格、书行天下、书享家、伴读、PDF-Finder 这种渠道还有很多,即便PDF版本的图书很难找到,但如果你能找到其他格式的,下载下来之后,也一样可以把它们转换成PDF,你可以使用「迅捷PDF转换器」在线https://www.zhihu.com/question/421920242/answer/3422018505
8.大学课本教材的PDF版本/电子版去哪里可以下载到?以上就是我收集的所有PDF电子书网站,相信总有一个可以帮你找到想要的PDF电子课本。 看完后最好建议大家收藏起来,想要学习的时候也可以在这里查找学习资料 回复 赞 踩 使用道具 举报 steve3389 | 来自北京 电子版教材不难找,毕竟网上资源那么多,但是难的是怎么能够免费又快速得找到自己想要的电子版教材。 这不https://wd.znds.com/156134.html
9.讲谈社中国的历史文化电子版全10册pdf+mobi6.为何想到给每本书增加一篇中文版导读?都请了哪些专家学者撰文? 在日本,原书是有一套总编委会团队,读者可以看到中文版图书扉页前,有四位“编集委员”,他们是史学界很有分量的人物,负责丛书的体例、构架、分卷等重大事项。但简体版出版时,我们仍在每个断代中找一位中国重量级学者,写推荐序,进行郑重推荐。每一https://www.doudehui.com/25660.html
10.MACpdf的电子书只有书签没有目录怎么办?如何设定PDF的书签转成目录我们在网络上找到的许多pdf格式的电子图书只有书签而没有目录索引,因此很难阅读。PDF中如果有一个目录,可以迅速找到自己所需的内容,也可以记录页码的位置。小编今天下载的PDF文件中只有书签没有目录,随便翻一翻有关模块的简介都没有,小编寻求一种PDF方式来一键转成书签的目录,要一次一次地手工添加可是一件麻烦的事情https://www.foxitsoftware.cn/pdfbianji/news/5458.html
11.值得收藏的22个免费PDF电子书网站我们常常需要寻找一些电子书PDF文件,特别是一些国外的英文版电子书,因为很难在国内买得到,所以一些好的网站是非常值得收藏的。以下这22个都是免费的PDF网站,需要寻找国外资料的朋友就多去看看吧,说不定有惊喜呢…… http://www.pdf-search-engine.com/ http://www.pdfgeni.com/ http://search-pdf-books.https://www.jianshu.com/p/fqKeS7
12.2020一级消防工程师教材电子版下载(一级消防工程师书籍电子版PDF一级消防工程师考试教材是考生在备考过程中必不可少的重要资料,因为考试年度的新版考试教材或涵盖当年考试中的许多考试内容。近日大立教育从中国人事考试图书网获悉,2020年消防资格考试官方教材现货发售,来看一下官方的资讯并了解一些新版教材的基本信息吧! 2020年消https://xiaofangkb.com/4703.html
13.无人生还(精装纪念版)mobiepubpdftxt电子书下载2024无人生还(精装纪念版) 下载 mobi epub pdf txt 电子书 格式 无人生还(精装纪念版) mobi 下载 pdf 下载 pub 下载 txt 电子书 下载 2024 无人生还(精装纪念版) 下载 mobi pdf epub txt 电子书 格式 2024 无人生还(精装纪念版) 下载 mobi epub pdf 电子书 想要找书就要到 图书大百科 book.qciss.net 立https://book.qciss.net/books/11965555
14.科学网—圕人堂周讯(总第435期20220909)(9)图书馆的延伸服务是否收费? (10)读者留下的书籍物品后需清理时怎么处理? (11)图情会议论坛直播分享 (12)常用数字图书馆利用率高吗? (13)馆内防盗仪断电后读者出入如何管理? (14)馆内的储物柜怎么管理? 1.4 圕人堂主题 (1)圕人堂周讯(总第434期 20220902)H5电子杂志版 https://wap.sciencenet.cn/blog-213646-1354654.html
15.围棋书籍大全上千本电子书汇集–天祺围棋3、围棋电子书根据书名第一个汉字的汉语拼音发音按英文字母 A-Z 的顺序排列(带“”、《》、以及英文名称的围棋电子书排列在字母 A 前)。 4、围棋书名称的编排方式是:书名+空格+(丛书名称)+_+作者(或者编者、编译者)+.pdf(或者.pdg、.nlc)。如果是台版书,则+(台版),如果是杂志资料,则+(资料)以说明。https://www.tianqiweiqi.com/weiqi-pdf-ebook.html
16.图解舌诊(升级版)epubpdfmobitxt电子书下载2024用纸:胶版纸 页数:200 字数:140000 图解舌诊(升级版) epub pdf mobi txt 电子书 下载 2024 类似图书 点击查看全场最低价 相关书籍 书籍描述 产品特色 编辑推荐 ★《图解舌诊》自上市以来,已成功帮助无数中医知识零基础的读者学会自检并成功调理好了体质,备受读者赞誉。在2018年修订升级版中,我们针对当下常见的气虚https://book.tinynews.org/books/12356458
17.pdf阅读器电脑版软件下载pc端电子书阅读软件合集电子版电子书阅读器软件合集为各位用户推荐了多款在电脑端使用的阅读器软件,每一款软件不仅支持对PDF文档进行快速的浏览阅读,还支持一边观看一边做批注的功能,能够满足众多用户的阅读需求,每一款软件提供的功能都是免费试用的,没有任何使用限制,用户可以选择自己喜欢的软件进行免费下载使用.http://www.kkx.net/zt/118860.html