为纸质书籍进行数字备份:如何制作一本功能完备的PDF电子书

值得一提的是,vFlatScan的「双页捕获」功能在扫描书籍时非常实用,能够有效减少扫描的工作量。当然,如果某些场景vFlatScan识别双页不准确,你也可以关闭这个功能,在后期处理时使用MuPDF或Briss分割扫描得到的PDF。

制作PDF书签前,需要提供书签信息,即章节名称和对应的页码,以供PDFtk读取并写入PDF文件中。好消息是书籍的目录标题一般都很容易获取,不需要自己手动编辑,一般来说,豆瓣、Amazon或出版社官网页的书籍介绍页都会提供目录,我们只需要复制它,然后将其保存为heading.txt。

PDF书签和Markdown中的标题一样,也是有层级的,比如在《遏制民族主义》这本书中,第一章民族主义的困惑是一级标题,民族主义的界定则是二级标题。为了对不同的标题层级进行区分,我们借用Markdown的语法,将其改写为:

按照如上方式将页码全部提取出来,并保存为pagenumber.txt。对于其中的空行,不必一个个手动移除,之后会在命令行中批量移除。

需要注意的是,通过OCR得到的页码是书籍页眉或页脚中注明的页码,并非PDF文件中的真实页码,这是由于书籍的第1页通常是从正文第一页开始计算的,在正文之前还有序言、致谢、目录等部分,而PDF的页码则总是从第1页开始计算的。在《遏制民族主义》这本书中,从PDF第1页开始计算,正文第1页实际上位于第10页,前面的9页是前言部分。

由于PDF书签的页码总是从第1页开始计算的,因此,通过OCR得到的每一个页码都需要加上9。如果需要对正文之前的部分制作书签,可以在pagenumber.txt中手动输入对应页码减去前言部分的页码数。对于《遏制民族主义》这本书来说,「出版说明」和「目录」分别在第4和7页,减去9后分别是-5和-2。下面的例子中,第一列数字是我们OCR和手动编辑后的结果,第二列数字是它们在PDF中对应的页码:

-5->4#出版说明-2->7#目录1->10#正文5->149->1810->1913->2215->2423->3224->3326->3529->3833->4236->4543->5245->5452->6157->6660->6968->7769->7871->8074->8379->88…使用Shell脚本可以非常容易地实现上面这个转换:

catpagenumber.txt|awkNF|whilereadline;doecho$((${line}+9));done>realpage.text上面这行命令,首先使用cat命令读取pagenumber.txt的内容,然后使用awkNF移除其中所有的空行,再将每行的数字加上9(这个数字需要根据正文之前的页数确定),输出为realpage.text。

将上面的目录标题和对应页码这两个文件合并到一起:

#出版说明4#目录7#第一章民族主义的困惑10##民族主义的界定14##治理单元18##民族19##民族的突出特征22##民族主义的类型24#第二章民族主义的起因32##群体的形成33##群体团结的决定因素35##为何民族主义是现代的事物38##谁是民族主义者42##什么制度才能遏制民族主义?45#第三章间接统治与民族主义的缺失52##间接统治的兴起:原始国家形成理论54##欧洲历史上的间接统治61##欧洲殖民地的间接统治66##结论69#第四章国家建设民族主义77##直接统治的兴起78##直接统治的影响80##直接统治与国家建设民族主义83##结论88……转换为PDF元数据使用PDFtk导出一个带有书签的PDF文件的元数据信息,保存为test.text:

pdftkinput.pdfdump_dataoutputtest.text打开test.text可以发现,PDF书签信息的格式形如:

BookmarkBeginBookmarkTitle:Section1BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:Subsection1.1BookmarkLevel:2BookmarkPageNumber:20BookmarkBeginBookmarkTitle:Subsubsection1.1.1BookmarkLevel:3BookmarkPageNumber:30…容易发现,每个书签条目由4行组成:

了解了PDF书签的构成方式,我们就可以使用Perl结合正则表达式,在命令行中将之前得到bookmark.text转换为同样的格式:

BookmarkBeginBookmarkTitle:出版说明BookmarkLevel:1BookmarkPageNumber:4BookmarkBeginBookmarkTitle:目录BookmarkLevel:1BookmarkPageNumber:7BookmarkBeginBookmarkTitle:第一章民族主义的困惑BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:民族主义的界定BookmarkLevel:2BookmarkPageNumber:14…写入书签信息做好以上准备工作,下面就可以将bookmark.text写入PDF中。但是在进行这一步之前,如果该PDF本身就有书签信息,需要先将其移除。

首先使用PDFtk将input.pdf的元数据提取出来,保存为metadata.text:

pdftkinput.pdfdump_data_utf8outputmetadata.text然后使用下面的命令将其中已有的无用书签全部移除:

分步执行以上各个步骤略显麻烦,可以将这些命令集中在一起,写在一个Makefile中:

在AdobeAcrobat中,打开需要调整页码的PDF,在左侧缩略图中选中页面,点击右键选择「PageLabels…」,然后在出现的「PageNumbering」窗口中进行调整,包括需要更改的页码范围、页码前缀、起始页码等,其中Style一栏包括6个选项:

由于PDF的页码标签开头有一个独特字符Catalog,因此可以在终端中输入vim+/Cataloguncompress.pdf,就会在打开后将光标自动定位到Catalog所在的那一行。

接下来点击j移动光标到下一行,再点击o在下方插入一个空行并进入InsertMode,然后粘贴设置页码的文本,例如:

/PageLabels<>1<>4<>24<>]>>上面的示例中,0<>表示第1页的页码标签为Cover(PDF中第1页的索引是0而不是1),1<>表示2–4页的页码标签为大写罗马数字,4<>表示5–24页的页码标签为小写罗马数字,24<>表示从25页到最后一页,页码标签全都为阿拉伯数字。

粘贴完成之后,按下Esc键退出InsertMode,进入NormalMode,然后输入:wq保存更改并退出Vim。

pdftkuncompress.pdfoutputoutput.pdfcompress打开压缩之后得到的output.pdf,可以看到,页码显示效果与预期一致,修改成功。

THE END
1.最新任意文献下载网站:免费下载各种外文科技论文书籍电子版这些都是神网站,只要是外文书籍和论文基本上都可以搜到并下载,最近几年的论文也可以下载。 第2系列号称帮助全人类知识无版权传播的计划 - Library Genesis 第3系列 全能文献资源下载网站http://www.sci-hub.org/是哈萨克斯坦牛人开发的可以下载任意谷歌上有电子版链接文献杂志的网站,只要输入你想要下载的文献链接就https://blog.sciencenet.cn/blog-752541-821254.html
2.托福备考资料推荐:9本超实用托福备考书籍,电子版免费下载资料包中的所有内容都是选自国外各知名出版社出版的托福备考书籍,其中就包括MCGRAW-HILL,Cambridge University Press等著名权威出版社,并以电子版的资料形式提供给大家。资料涵盖了词汇、写作、口语等方面的能力提升方式以及方法论讲解。资料中的每本书都具有极强的专业性和权威性,能为备考同学提供较高的参考价值。同时https://www.testdaily.cn/41220/
3.数字资源万方数据知识服务平台使用指南万方数据知识服务平台使用指南01万方数据库介绍万方数据库收录了包括期刊、学位、会议、科技报告、专利、标准、科技成果、法规、地方志等10余种资源类型在内的3亿多篇中外文学术文献,全面覆盖各学科、各行业。在此基础之上,万方智搜通过深度知识加工及知识图谱技术,https://mp.weixin.qq.com/s?__biz=MzA4MDQ1MDA1MQ==&mid=2651009257&idx=1&sn=5d7feceb56b2cc339b53e3c74a7557e6&chksm=85b3ef7d2d51353359680fd3dc031107fe90920704d033be38fb605441a856891eee6e15d14b&scene=27
4.华版憨氏:迅速解答电子书出版的36个问题联合出版的书籍,您可以指定一家出版社出具版权证书。您也可以另外付费申请中国知识产权保护中心的版权证书原件或美国版权局的版权证书电子版。 27、我出了电子版还可以出纸质的吗? 可以的,可以升级到我们的国际标准出版的按需出版纸质书,之前的电子书标准出版费用减免。比如做一个6999元国际标准纸质书出版,过去做过一https://www.douban.com/note/766029830/
5.免费计算机视觉经典书籍:马颂德张正友pdf资源浏览查阅179次。计算机视觉经典书籍:马颂德张正友pdf经典的计算机视觉书,已经不出版了,只能找到电子版的计算机视觉马颂德pdf更多下载资源、学习资料请访问CSDN文库频道.https://download.csdn.net/download/sunbright/6027579
6.中国国家图书馆·中国国家数字图书馆·国家典籍博物馆本栏目下有10万余册电子图书,多为近现代图书资源,内容包括文学小说、哲学历史,人物传记、古籍经典、科普科幻、亲子童书、人生励志、经济管理、休闲娱乐等方面。国内众多权威出版社、出版机构的出版图书,并同步更新热门影视图书。 近代图书 该库为读者提供民国时期文献在线资源服务,包含民国图书、民国期刊,民国报纸和民国https://www.nlc.cn/
7.图书馆知识竞赛:图书馆知识竞赛在线测试(题库版)考试题库71、单项选择题 属古罗马人发明的一种书籍形式是()。 A、莎草纸书 B、泥版书 C、羊皮纸书 D、蜡版书 点击查看答案 72、单项选择题 人民网可提供自多少年至今的电子报纸检索() A、1984 B、1989 C、1994 D、1995 点击查看答案 73、单项选择题 如果想要了解即将举办的会议的信息,下列途径最好的一种是(http://www.91exam.org/exam/87-1051/1051948.html
8.北京大学出版社自学考试指定书籍pdfepubmobitxt电子书自考教材 0536 00536古代汉语王宁2009年版北京大学出版社 自学考试指定书籍 pdf epub mobi txt 电子书 下载 想要找书就要到静流书站 windowsfront.com 立刻按ctrl+D收藏本页 你会得到大惊喜!! 用户评价 评分☆☆☆ 好好好好 评分☆☆☆ 很好,很快https://windowsfront.com/books/1160930040
9.电子书籍类电子书籍,mobiepubazw3PDF和txt等各种版本供您Mac软件|电脑软件|手机应用|电子书籍|特色资源|读书PPT|思维导图|系统美化|操作系统|源码程序|模版素材|Office模版|高清壁纸 热门搜索:认知资治通鉴红楼梦Python迅雷Photoshop推理Office 搜索:不限软件名软件简介[高级搜索] 分类导航 文学小说(13392个) 计算机类(1394个) http://yabor.com/list/6_4.html
10.纸质书怎么扫描成电子版?如何高效地保存大量书籍?如何高效地保存大量书籍? 在我们进入全面数字化的世界之际,一种深刻的转变正在发生:纸质书怎么扫描成电子版成为了一个越来越热门的话题。这一过程不仅为个人带来便捷,而且为图书馆、研究机构和出版商等提供了全新的可能性。 对于个人来说,将纸质书怎么扫描成电子版意味着更多的灵活性。你可以在任何地方阅读电子书,https://www.yunzhan365.com/blog/6931.html
11.大学课本教材的PDF版本/电子版去哪里可以下载到?选择一本书籍点进去之后,直接就是电子版本,可以查看书籍目录,可以单页查看书籍或者是双页查看书籍都可以,还可以快速跳转到某一页,查看是很方便的。 唯一不足的就是这些电子版教材,只能在线查看,不能下载。 4、科学文库 网址:book.sciencereading.cn/ 一个科学出版社旗下的图书网站,网站内电子教材资源丰富,而且包括https://wd.znds.com/156134.html
12.知否知否应是绿肥红瘦.3(典藏纪念版)epubpdfmobitxt电子书出版社: 中国华侨出版社 ISBN:9787511376619 版次:1 商品编码:12358983 品牌:磨铁图书(Xiron) 包装:平装 开本:16开 出版时间:2018-06-01 用纸:特种纸 页数:320 正文语种:中文 知否知否应是绿肥红瘦.3(典藏纪念版) epub pdf mobi txt 电子书 下载 2024 https://book.tinynews.org/books/12358983
13.概论考研高等教育出版社习题试卷学习指导辅导用书籍自学考试当当世纪书缘图书专营店在线销售正版《马克思主义基本原理2023年版 概论考研高等教育出版社习题试卷学习指导辅导用书籍自学考试教案真题库复习资料电子正版大学教材》。最新《马克思主义基本原理2023年版 概论考研高等教育出版社习题试卷学习指导辅导用书籍自学考试教案真题http://product.dangdang.com/1115375279.html
14.acca教材bpp有电子版吗?怎么下载?一、ACCA教材bpp有电子版吗 一般来说ACCA官方认可的教材是没有电子版的,都是纸质书籍,目前主要有KAPLAN和BPP两个出版商出版的教材是受到ACCA协会认可的。二者的特点也各有不同,KAPLAN主要以精简为主,知识点结构分明,市场遍及全球,在英国更受欢迎。BPP以详细见称,在全球范围内通行,并且通俗易懂,适合新手。 但现在网https://www.gaodun.com/acca/1412182.html