为纸质书籍进行数字备份:如何制作一本功能完备的PDF电子书

值得一提的是,vFlatScan的「双页捕获」功能在扫描书籍时非常实用,能够有效减少扫描的工作量。当然,如果某些场景vFlatScan识别双页不准确,你也可以关闭这个功能,在后期处理时使用MuPDF或Briss分割扫描得到的PDF。

制作PDF书签前,需要提供书签信息,即章节名称和对应的页码,以供PDFtk读取并写入PDF文件中。好消息是书籍的目录标题一般都很容易获取,不需要自己手动编辑,一般来说,豆瓣、Amazon或出版社官网页的书籍介绍页都会提供目录,我们只需要复制它,然后将其保存为heading.txt。

PDF书签和Markdown中的标题一样,也是有层级的,比如在《遏制民族主义》这本书中,第一章民族主义的困惑是一级标题,民族主义的界定则是二级标题。为了对不同的标题层级进行区分,我们借用Markdown的语法,将其改写为:

按照如上方式将页码全部提取出来,并保存为pagenumber.txt。对于其中的空行,不必一个个手动移除,之后会在命令行中批量移除。

需要注意的是,通过OCR得到的页码是书籍页眉或页脚中注明的页码,并非PDF文件中的真实页码,这是由于书籍的第1页通常是从正文第一页开始计算的,在正文之前还有序言、致谢、目录等部分,而PDF的页码则总是从第1页开始计算的。在《遏制民族主义》这本书中,从PDF第1页开始计算,正文第1页实际上位于第10页,前面的9页是前言部分。

由于PDF书签的页码总是从第1页开始计算的,因此,通过OCR得到的每一个页码都需要加上9。如果需要对正文之前的部分制作书签,可以在pagenumber.txt中手动输入对应页码减去前言部分的页码数。对于《遏制民族主义》这本书来说,「出版说明」和「目录」分别在第4和7页,减去9后分别是-5和-2。下面的例子中,第一列数字是我们OCR和手动编辑后的结果,第二列数字是它们在PDF中对应的页码:

-5->4#出版说明-2->7#目录1->10#正文5->149->1810->1913->2215->2423->3224->3326->3529->3833->4236->4543->5245->5452->6157->6660->6968->7769->7871->8074->8379->88…使用Shell脚本可以非常容易地实现上面这个转换:

catpagenumber.txt|awkNF|whilereadline;doecho$((${line}+9));done>realpage.text上面这行命令,首先使用cat命令读取pagenumber.txt的内容,然后使用awkNF移除其中所有的空行,再将每行的数字加上9(这个数字需要根据正文之前的页数确定),输出为realpage.text。

将上面的目录标题和对应页码这两个文件合并到一起:

#出版说明4#目录7#第一章民族主义的困惑10##民族主义的界定14##治理单元18##民族19##民族的突出特征22##民族主义的类型24#第二章民族主义的起因32##群体的形成33##群体团结的决定因素35##为何民族主义是现代的事物38##谁是民族主义者42##什么制度才能遏制民族主义?45#第三章间接统治与民族主义的缺失52##间接统治的兴起:原始国家形成理论54##欧洲历史上的间接统治61##欧洲殖民地的间接统治66##结论69#第四章国家建设民族主义77##直接统治的兴起78##直接统治的影响80##直接统治与国家建设民族主义83##结论88……转换为PDF元数据使用PDFtk导出一个带有书签的PDF文件的元数据信息,保存为test.text:

pdftkinput.pdfdump_dataoutputtest.text打开test.text可以发现,PDF书签信息的格式形如:

BookmarkBeginBookmarkTitle:Section1BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:Subsection1.1BookmarkLevel:2BookmarkPageNumber:20BookmarkBeginBookmarkTitle:Subsubsection1.1.1BookmarkLevel:3BookmarkPageNumber:30…容易发现,每个书签条目由4行组成:

了解了PDF书签的构成方式,我们就可以使用Perl结合正则表达式,在命令行中将之前得到bookmark.text转换为同样的格式:

BookmarkBeginBookmarkTitle:出版说明BookmarkLevel:1BookmarkPageNumber:4BookmarkBeginBookmarkTitle:目录BookmarkLevel:1BookmarkPageNumber:7BookmarkBeginBookmarkTitle:第一章民族主义的困惑BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:民族主义的界定BookmarkLevel:2BookmarkPageNumber:14…写入书签信息做好以上准备工作,下面就可以将bookmark.text写入PDF中。但是在进行这一步之前,如果该PDF本身就有书签信息,需要先将其移除。

首先使用PDFtk将input.pdf的元数据提取出来,保存为metadata.text:

pdftkinput.pdfdump_data_utf8outputmetadata.text然后使用下面的命令将其中已有的无用书签全部移除:

分步执行以上各个步骤略显麻烦,可以将这些命令集中在一起,写在一个Makefile中:

在AdobeAcrobat中,打开需要调整页码的PDF,在左侧缩略图中选中页面,点击右键选择「PageLabels…」,然后在出现的「PageNumbering」窗口中进行调整,包括需要更改的页码范围、页码前缀、起始页码等,其中Style一栏包括6个选项:

由于PDF的页码标签开头有一个独特字符Catalog,因此可以在终端中输入vim+/Cataloguncompress.pdf,就会在打开后将光标自动定位到Catalog所在的那一行。

接下来点击j移动光标到下一行,再点击o在下方插入一个空行并进入InsertMode,然后粘贴设置页码的文本,例如:

/PageLabels<>1<>4<>24<>]>>上面的示例中,0<>表示第1页的页码标签为Cover(PDF中第1页的索引是0而不是1),1<>表示2–4页的页码标签为大写罗马数字,4<>表示5–24页的页码标签为小写罗马数字,24<>表示从25页到最后一页,页码标签全都为阿拉伯数字。

粘贴完成之后,按下Esc键退出InsertMode,进入NormalMode,然后输入:wq保存更改并退出Vim。

pdftkuncompress.pdfoutputoutput.pdfcompress打开压缩之后得到的output.pdf,可以看到,页码显示效果与预期一致,修改成功。

THE END
1.电子图书:50本高清经典实用PDF图书├─十万个为什么[儿童版]. ├─十万个为什么[青少年版]. ├─古文观止. ├─史记经典故事. ├─唐诗300首[图文版]. ├─唐诗宋词元曲. ├─四书五经[图文版]. ├─奥秘世界百科全书. ├─孙子兵法. ├─学生探索百科全书. ├─家庭健康营养全书. https://ts.meishishwang.com/912365767585.html
2.资源动态关于正式开通“可知”电子书平台的通知为了更好地支持我校师生教学、科研工作,满足师生对更多高质量电子图书的需求,图书馆现正式开通“可知”电子书平台。 “可知”平台是由电子工业出版社、人民邮电出版社、化学工业出版社、机械工业出版社、北京大学出版社、中国人民大学出版社、高等教育出版社、人民卫生出版社、社科文献出版社、商务印书馆、中信出版社等https://library.suda.edu.cn/54/b4/c4023a611508/page.htm
3.出版书籍在哪找电子版@壁挂听书机出版书籍在哪找电子版 壁挂听书机 您好,我可以为您提供丰富的电子书资源。对于出版书籍的电子版,您可以通过以下几个途径来查找: 国家新闻总署-出版物信息查询:这是一个权威的途径,您可以在这里查找正规出版的书籍信息,部分书籍可能提供电子版链接或购买方式。 Z-Library:这是世界上最大的电子图书库之一https://agents.baidu.com/content/question/8f55a0bc4ece6a1c54395926
4.华版憨氏:迅速解答电子书出版的36个问题26、有怎样的版权证书? 联合出版的书籍,您可以指定一家出版社出具版权证书。您也可以另外付费申请中国知识产权保护中心的版权证书原件或美国版权局的版权证书电子版。 27、我出了电子版还可以出纸质的吗? 可以的,可以升级到我们的国际标准出版的按需出版纸质书,之前的电子书标准出版费用减免。比如做一个6999元国际标准https://www.douban.com/note/766029830/
5.能用电子版书号出版书籍吗?电子版书号是如何申请的?电子版书号也属于正规书号,由新闻出版总署严格的三审程序下发的书号,通常用于电子书出版。如果是要出版纸质书的话就需要申请书号了。下面小编为大家介绍电子版书号如何申请。 电子出版社书号盘配书属于打出版社擦边球,一般电子出版物的书为产品介绍或说明书之类。但是有部分客户为了降低出书的成本(即降低书号成本,国内http://www.rjzsyz.com/changshi/628.html
6.初二(八年级)各版本教材电子版大全PDF下载版统编版八年级(上)语文教材电子课本 | PDF高清下载版统编版八年级(下)语文教材电子课本 | PDF高清下载版人教版八年级(上)数学教材电子课本 | PDF高清下载版人教版八年级(下)数学教材电子课本 | PDF高清下载版人教版八年级(上)英语教材电子课本 | PDFhttps://mp.weixin.qq.com/s?__biz=MzIxNTYzMDc5MA==&mid=2247619861&idx=2&sn=f774d13d5ccc51e58ab0f1458824fdd9&chksm=96d6f1a46d90e286dbe77f9b8aae9be5ab12cf091f5ac99b0d2d82dc9764e4e4dd50c3f45d00&scene=27
7.看到淘宝上卖的美国原版教材PDF版,特别是小学到高中阶段较多,来源表面上看,老二的学习进步速度是比老大要快不少,但是作为一个旁观者(对,因为我也没学啊),我有几https://www.zhihu.com/question/40052948/answer/51489651745
8.概论考研高等教育出版社习题试卷学习指导辅导用书籍自学考试当当世纪书缘图书专营店在线销售正版《马克思主义基本原理2023年版 概论考研高等教育出版社习题试卷学习指导辅导用书籍自学考试教案真题库复习资料电子正版大学教材》。最新《马克思主义基本原理2023年版 概论考研高等教育出版社习题试卷学习指导辅导用书籍自学考试教案真题http://product.dangdang.com/1115375279.html
9.一些最新任意文献下载网站:免费下载各种外文科技论文书籍电子版这些都是神网站,只要是外文书籍和论文基本上都可以搜到并下载,最近几年的论文也可以下载。 第2系列号称帮助全人类知识无版权传播的计划 - Library Genesis 第3系列 全能文献资源下载网站http://www.sci-hub.org/是哈萨克斯坦牛人开发的可以下载任意谷歌上有电子版链接文献杂志的网站,只要输入你想要下载的文献链接就https://blog.sciencenet.cn/blog-752541-821254.html
10.图书馆知识竞赛:图书馆知识竞赛在线测试(题库版)考试题库70、单项选择题 使用超星数字图书馆检索电子图书有哪两种类型?() A、分类检索、主题检索 B、作者检索、分类检索 C、分类检索;快速检索 D、分类检索;书名检索 点击查看答案 71、单项选择题 属古罗马人发明的一种书籍形式是()。 A、莎草纸书 B、泥版书 C、羊皮纸书 D、蜡版书 点击查看答案 72、单项选择题http://www.91exam.org/exam/87-1051/1051948.html
11.道易五术书社中医书籍周易书店风水古本奇门遁甲老版武术道易五术书社包括,山医命相卜PDF资料下载,易经算命书籍,中医书籍,风水书籍,符咒书籍,奇门遁甲古书,中医古书,命理书籍,易学书籍网为传统文化爱好者提供精品珍藏电子古书下载https://www.5shubook.com/
12.附赠全套78张精美全彩塔罗牌)epubpdfmobitxt电子书下载出版社: 哈尔滨出版社 ISBN:9787807537700 版次:1 商品编码:10112269 包装:平装 开本:16开 出版时间:2009-12-01 用纸:胶版纸 页数:490 字数:400000 正文语种:中文 附件:塔罗牌 附件数量:78 塔罗全书(珍藏版)(附赠全套78张精美全彩塔罗牌) epub pdf mobi txt 电子书 下载 2024 https://book.tinynews.org/books/10112269
13.现代汉语词典第六版电子书txt下载其他书籍现代汉语词典第六版电子书免费下载,作者中国社会科学院语言研究所词典编,txt下载, 《现代汉语词典》出版以来,为推广普通话、促进汉语规范化工作作出了重要贡献,在我国文化教育和科。http://www.luo8.com/qtsj/qita/4270/
14.纸质书怎么扫描成电子版?如何高效地保存大量书籍?如何高效地保存大量书籍? 在我们进入全面数字化的世界之际,一种深刻的转变正在发生:纸质书怎么扫描成电子版成为了一个越来越热门的话题。这一过程不仅为个人带来便捷,而且为图书馆、研究机构和出版商等提供了全新的可能性。 对于个人来说,将纸质书怎么扫描成电子版意味着更多的灵活性。你可以在任何地方阅读电子书,https://www.yunzhan365.com/blog/6931.html
15.有哪些方法能将纸质书籍转成PDF电子版讲通告弄成电子版生活中因为种种原因,要把纸质版书籍变成PDF电子档便于在手机或者电脑中查看,有哪些免费且简单的方法呢? 方法1:扫描仪(电脑适用) 我们需要准备一台扫描机,扫描机最好是分辨率比较高的那种,这样扫描文件出来的图片会非常清晰。我们先把需要扫描的文件放进扫描仪中,把每一页扫描成清晰的图片,而且图片的格式一般都是默https://blog.csdn.net/cocowei0306/article/details/108358726
16.统计是以纸质书籍为主,还是以电子版为主?如何看待近几年泛滥的错别字现问题:请问中国语言生活状况报告(2006)统计是以传统的纸质书籍为主,还是以电子出版物和网络语言为主?你们如何评价和看待近几年泛滥的错别字现象? 回答:《中国语言生活状况报告(2006)》(下卷)统计数据的语料来源包括平面媒体语言、网络媒体语言、有声媒体语言三种类型,分别选自中国大陆的主流报纸、新闻网站、广播电视节目http://www.moe.gov.cn/jyb_hygq/hygq_zczx/moe_1346/moe_1364/tnull_25668.html
17.电子书,精品源码,最新电影,Kindle电子书,网页模版,视频教程等。电子书介绍 《谁设计了宇宙:万物背后的秘密推手与即将来临的黄金时代(出书版)》作者:大卫·威尔库克/译者:觉醒字幕组(完结).txt书名:谁设计了宇宙?:源场调查,万物背后的神秘推手与即将来临的黄金时代著者:[美]大卫·威尔库克译者:觉醒字幕组出版社:江苏人民出版社出版时间:isbn:9787214079701编辑推荐地球上最具影响https://www.fast8.cc/view/12613.html
18.《中国教育报》电子版中国教育新闻网2022年是极不平凡的一年。有一次又一次的挑战,更有一次又一次的鼓舞,鼓舞终归赢得了挑战。鼓舞也来自阅读的力量。我们会记住中国教育报读书周刊馈赠给我们的“100本书”,要知道,这100本书又会衍生出200本、300本……感谢读书周刊,感谢由阅读生成的美好与智慧。 http://paper.jyb.cn/zgjyb/html/2022-12/30/content_618683.htm
19.大学课本教材的PDF版本/电子版去哪里可以下载到?选择一本书籍点进去之后,直接就是电子版本,可以查看书籍目录,可以单页查看书籍或者是双页查看书籍都可以,还可以快速跳转到某一页,查看是很方便的。 唯一不足的就是这些电子版教材,只能在线查看,不能下载。 4、科学文库 网址:book.sciencereading.cn/ 一个科学出版社旗下的图书网站,网站内电子教材资源丰富,而且包括https://wd.znds.com/156134.html
20.策展资料库新媒体之后的艺术如何策展?电子版书籍目录展示 读书小笔记 新媒体艺术是各种艺术发展前进的大趋势,这本书籍结合了许多宝贵的、里程碑式的艺术案例供策展人们参考,同时探究了许多重要的问题,如诠释、观众、策展模式、策展人与机构的关系等等,由于案例十足丰富,作为工具书都可以了。最后作者给出的结论是,这些还在不断变化的模式、新生的实践,都具https://www.d-arts.cn/article/article_info/key/MTE5OTM1NTA0NzKFqZtlr6mgcw.html
21.人民教育出版社官方网站人民教育出版社召开第三十六次中小学教材工作会议 2024-12-09 第九届中小学数字化教学研讨会在河南郑州召开 2024-12-02 深入基层践初心 挺膺担当谱华章——人教社团委组织开展2024年教育部直属机关“根在基层”“关键小事”调研实践 2024-11-29 查看更多>> 教材电子版 小学 习近平新时代中国特色社会主义思想学https://www.pep.com.cn/
22.围棋书籍大全上千本电子书汇集–天祺围棋1、围棋电子书下载总目以PDF版本为主。PDG、NLC等版本的电子书如果在搜索时有发现,则附带收录。EXE版、sgf版、sdb版暂不收录。 2、收录的围棋电子书主要包括在博弈网论坛上发表的技术类围棋书籍、围棋杂志、围棋报刊资料合编等。 3、围棋电子书根据书名第一个汉字的汉语拼音发音按英文字母 A-Z 的顺序排列(带“https://www.tianqiweiqi.com/weiqi-pdf-ebook.html
23.电子书和印刷书有什么区别?知识库电子书与印刷书:概述 近几年来,电子书已经成为出版业的支柱。然而,由于电子书的引入,印刷书籍的消亡并没有如预期的那样成为现实。 美国出版商协会(Association of American Publishers)的数据显示,2019年美国电子书销售额较上年同期略有下降,至9.83亿美元。在电子书销量连续几年出现两位数下滑之后,增长率有所下降。https://www.wenjiangs.com/wiki/KJVZxYKMBk