为纸质书籍进行数字备份:如何制作一本功能完备的PDF电子书

值得一提的是,vFlatScan的「双页捕获」功能在扫描书籍时非常实用,能够有效减少扫描的工作量。当然,如果某些场景vFlatScan识别双页不准确,你也可以关闭这个功能,在后期处理时使用MuPDF或Briss分割扫描得到的PDF。

制作PDF书签前,需要提供书签信息,即章节名称和对应的页码,以供PDFtk读取并写入PDF文件中。好消息是书籍的目录标题一般都很容易获取,不需要自己手动编辑,一般来说,豆瓣、Amazon或出版社官网页的书籍介绍页都会提供目录,我们只需要复制它,然后将其保存为heading.txt。

PDF书签和Markdown中的标题一样,也是有层级的,比如在《遏制民族主义》这本书中,第一章民族主义的困惑是一级标题,民族主义的界定则是二级标题。为了对不同的标题层级进行区分,我们借用Markdown的语法,将其改写为:

按照如上方式将页码全部提取出来,并保存为pagenumber.txt。对于其中的空行,不必一个个手动移除,之后会在命令行中批量移除。

需要注意的是,通过OCR得到的页码是书籍页眉或页脚中注明的页码,并非PDF文件中的真实页码,这是由于书籍的第1页通常是从正文第一页开始计算的,在正文之前还有序言、致谢、目录等部分,而PDF的页码则总是从第1页开始计算的。在《遏制民族主义》这本书中,从PDF第1页开始计算,正文第1页实际上位于第10页,前面的9页是前言部分。

由于PDF书签的页码总是从第1页开始计算的,因此,通过OCR得到的每一个页码都需要加上9。如果需要对正文之前的部分制作书签,可以在pagenumber.txt中手动输入对应页码减去前言部分的页码数。对于《遏制民族主义》这本书来说,「出版说明」和「目录」分别在第4和7页,减去9后分别是-5和-2。下面的例子中,第一列数字是我们OCR和手动编辑后的结果,第二列数字是它们在PDF中对应的页码:

-5->4#出版说明-2->7#目录1->10#正文5->149->1810->1913->2215->2423->3224->3326->3529->3833->4236->4543->5245->5452->6157->6660->6968->7769->7871->8074->8379->88…使用Shell脚本可以非常容易地实现上面这个转换:

catpagenumber.txt|awkNF|whilereadline;doecho$((${line}+9));done>realpage.text上面这行命令,首先使用cat命令读取pagenumber.txt的内容,然后使用awkNF移除其中所有的空行,再将每行的数字加上9(这个数字需要根据正文之前的页数确定),输出为realpage.text。

将上面的目录标题和对应页码这两个文件合并到一起:

#出版说明4#目录7#第一章民族主义的困惑10##民族主义的界定14##治理单元18##民族19##民族的突出特征22##民族主义的类型24#第二章民族主义的起因32##群体的形成33##群体团结的决定因素35##为何民族主义是现代的事物38##谁是民族主义者42##什么制度才能遏制民族主义?45#第三章间接统治与民族主义的缺失52##间接统治的兴起:原始国家形成理论54##欧洲历史上的间接统治61##欧洲殖民地的间接统治66##结论69#第四章国家建设民族主义77##直接统治的兴起78##直接统治的影响80##直接统治与国家建设民族主义83##结论88……转换为PDF元数据使用PDFtk导出一个带有书签的PDF文件的元数据信息,保存为test.text:

pdftkinput.pdfdump_dataoutputtest.text打开test.text可以发现,PDF书签信息的格式形如:

BookmarkBeginBookmarkTitle:Section1BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:Subsection1.1BookmarkLevel:2BookmarkPageNumber:20BookmarkBeginBookmarkTitle:Subsubsection1.1.1BookmarkLevel:3BookmarkPageNumber:30…容易发现,每个书签条目由4行组成:

了解了PDF书签的构成方式,我们就可以使用Perl结合正则表达式,在命令行中将之前得到bookmark.text转换为同样的格式:

BookmarkBeginBookmarkTitle:出版说明BookmarkLevel:1BookmarkPageNumber:4BookmarkBeginBookmarkTitle:目录BookmarkLevel:1BookmarkPageNumber:7BookmarkBeginBookmarkTitle:第一章民族主义的困惑BookmarkLevel:1BookmarkPageNumber:10BookmarkBeginBookmarkTitle:民族主义的界定BookmarkLevel:2BookmarkPageNumber:14…写入书签信息做好以上准备工作,下面就可以将bookmark.text写入PDF中。但是在进行这一步之前,如果该PDF本身就有书签信息,需要先将其移除。

首先使用PDFtk将input.pdf的元数据提取出来,保存为metadata.text:

pdftkinput.pdfdump_data_utf8outputmetadata.text然后使用下面的命令将其中已有的无用书签全部移除:

分步执行以上各个步骤略显麻烦,可以将这些命令集中在一起,写在一个Makefile中:

在AdobeAcrobat中,打开需要调整页码的PDF,在左侧缩略图中选中页面,点击右键选择「PageLabels…」,然后在出现的「PageNumbering」窗口中进行调整,包括需要更改的页码范围、页码前缀、起始页码等,其中Style一栏包括6个选项:

由于PDF的页码标签开头有一个独特字符Catalog,因此可以在终端中输入vim+/Cataloguncompress.pdf,就会在打开后将光标自动定位到Catalog所在的那一行。

接下来点击j移动光标到下一行,再点击o在下方插入一个空行并进入InsertMode,然后粘贴设置页码的文本,例如:

/PageLabels<>1<>4<>24<>]>>上面的示例中,0<>表示第1页的页码标签为Cover(PDF中第1页的索引是0而不是1),1<>表示2–4页的页码标签为大写罗马数字,4<>表示5–24页的页码标签为小写罗马数字,24<>表示从25页到最后一页,页码标签全都为阿拉伯数字。

粘贴完成之后,按下Esc键退出InsertMode,进入NormalMode,然后输入:wq保存更改并退出Vim。

pdftkuncompress.pdfoutputoutput.pdfcompress打开压缩之后得到的output.pdf,可以看到,页码显示效果与预期一致,修改成功。

THE END
1.国际政zi精品文库精选套装(套装11册)网盘资源国际政zi精品文库精选套装(套装11册) https://pan.quark.cn/s/655e4b79e933 最新资源 沙丘:预言 (2024)更05 大地永存 Earth Abid 【电影】红色一号:冬日行动 R 4K UHD新碟发行 老无所依 团建不能停 (2024) 更新 仙武传 【更新92】 最新问答 目前哪家网盘速度最快 百度网盘怎么下载这速度快 免费的网盘http://www.738288.com/detail/?id=97231
2.PDF教材合集中国经济纲要史 陈锋PDF 链接:https://pan.baidu.com/s/1NKzKRQBd4_Tykec_dO6OFw?pwd=yi6g提取码:yi6g 高频电子线路 第5版 张肃文 链接:https://pan.baidu.com/s/1URVPrjj6VeXpPryRaxcSBg?pwd=7pey提取码:7pey 概率论与数理统计 (韩旭里)PDF 链接:https://pan.baidu.com/s/1Ep2qBBvKQ7Po_e_MUhttps://www.douban.com/note/866822685/
3.中华人民共和国国家标准2024pdfepubmobi电子书中华人民共和国国家标准 2024 pdf epub mobi 电子书 图书描述 《中华人民共和国国家标准(GB 50194-93):建设工程施工现场供用电安全规范》主要内容简介:根据国家计委计综(1986)第2630号文和建设部标准定额司(90)建标技字第5号文的要求,由原能源部电力建设研究所负责主编,会同有关单位共同编制的国家标准《建设工程https://onlinetoolsland.com/books/1544798
4.精品电子书pdf百度网盘分享下载精品电子书 哲学宗教精品电子书 全真学案 第1辑(全10册)2011清晰pdf网盘下载 加载更多http://www.1080pan.com/ebook
5.电子书合集2024年-2015年历年豆瓣年度读书榜单/月度榜单/TOP250热门榜单书籍电子版PDF+EPUB+MOBI+AZW3格式百度网盘资源合集,共2000多本! 电子书 728册Bavarian State Library德国巴伐利亚图书馆藏汉籍书PDF电子版网盘资源合集,包含古今说海/稗海/大明一统志/读书斋丛书/芥子园系列…等 http://01zykk.com/ebook/
6.《中华经典名著全本全注全译丛书》pdf电子书整套下载百度云下载电子书 2023-11-23 3734 更新:2023-11-23 21:11:34 Directory: \中华经典名著全本全注全译Mode LastWriteTime Length Name --- --- --- --- d--- 10/15/2020 10:55 AM 第一辑 d--- 10/15/2020 10:55 AM 第七辑 d--- 10/15/2020 10:55 AM 第三辑 d--- 10/15/2020 10:55 AM 第http://51jiaoxue.cn/post/3623.html
7.《全国新书目》2024年4月荐书单txt下载著名作家/著本书利用不同章节分别介绍了金属材料、无机非金属材料、高分子材料三大类材料以及复合材料的循环利用概况、方法及存在的问题,并与国外发达国家进行了比较,然后分别从技术、社会协同、政策和法规等层面提出了一些建议和对策。 《机器视觉与人工智能应用开发技术》廖建尚 钟君柳 吕志胜 编著电子工业出版社2024.288.00元 本https://www.zwdus.com/164/2921238.html
8.电子书籍【76524】国家人文历史2010、2015年杂志(全二年48期)PDF格式 2.46G 2022-09-22下载1350次 商品原价:¥11.76 优惠价:¥9.80 下载 【76524】国家人文历史2010、2015年杂志(全二年48期)PDF格式 2.46G 《国家人文历史》是由人民日报社主管和主办的集时事与人文于一体的资讯类半月刊杂志。 http://chinadiandian.com/goods.php?id=1084
9.电子版书籍范文(全文)第一篇:电子版书籍范文 电子商务书籍参考(精选) 电子商务:模式系统及其运营--田杰,乔东亮,秦必瑜 绪论 一、从网络的起源看理念与技术之争 二、从技术的“双刃剑”本性看理念与技术之争 三、技术至上论与智者运动 四、中庸之道:理念与技术的妥协 第一章电子商务及其模式系统 https://www.99xueshu.com/w/mneu4d3y8gt9.html
10.国家医学电子书包电脑版下载安装与其他pdf医学电子书相比,国家医学电子书包最大特色是其立体性、互动性以及智能化,作为我国第一部高等教育医学数字化规划教材,是高等院校医药相关专业医学教材的首选,是医护工作者、医药卫生相关从业人员的必备书籍。本软件适用于win XP/win 7/win 8等系统,分辨率要求1024*768及其以上。https://www.32r.com/soft/19026.html
11.“十一五”国家重点图书音像电子出版物综述国家重点科技成果出版项目具有代表性的还有:国防工业出版社的《现代电子信息技术丛书》、人民邮电出版社的《开放巨型智能系统》、科学出版社的《国家973计划成果丛书》和《中科院知识创新成果丛书》、上海科学技术出版社的《中华海洋本草》、四川民族出版社的《青藏高原珍稀野生动物》、哈尔滨工业大学出版社的《航天科学与https://www.gov.cn/gzdt/2010-11/13/content_1744768.htm
12.电子书,精品源码,最新电影,Kindle电子书,网页模版,视频教程等。书籍网址:官方网站阅读教程:阅读教程 阅读环境:/Win10/Win7&8/WinXP 电子书介绍 关于中国国家的治理逻辑,本书主要沿着两条脉络进行探讨:一是中央权威与地方政府之间的关系,这体现在各级政府体制的制度设施和行为方式;一是国家与民众之间的关系,这体现在国家与社会群体的相互影响上。本书从学术上推进了当前国内的国家https://www.fast8.com/view/1175.html
13.电子书,精品源码,最新电影,Kindle电子书,网页模版,视频教程等。书籍网址:官方网站 阅读教程:阅读教程 阅读环境:/Win10/Win7&8/WinXP 电子书介绍 关于中国国家的治理逻辑,本书主要沿着两条脉络进行探讨:一是中央权威与地方政府之间的关系,这体现在各级政府体制的制度设施和行为方式;一是国家与民众之间的关系,这体现在国家与社会群体的相互影响上。本书从学术上推进了当前国内http://fast8.cc/view/1175.html
14.电子书,精品源码,最新电影,Kindle电子书,网页模版,视频教程等。书籍等级: 更新时间:2019-02-03 21:18:56 书籍作者:快吧软件下载点数:1 书籍网址:官方网站阅读教程:阅读教程 阅读环境:/Win10/Win7&8/WinXP 电子书介绍 自《马克思恩格斯全集》、《列宁全集》、《马克思恩格斯选集》、《列宁选集》问世以来,广大读者迫切要求出版马列著作的单行本。这反映了他们学习马克思列宁主义的http://yabor.com/view/7171.html
15.电子器件分册)epubpdfmobitxt电子书下载2024书籍描述 内容简介 《电子元器件应用技术手册(微电子器件分册)》收集了主要常用电子元器件的有关标准、选用原则、检验、测试、筛选等应用知识,并收集了部分常用的、有特殊性能的元器件的型号、规格及主要电性能参数,供读者选用时参考,其目的就是为广大科技人员、电路设计师、可靠性工程师、电子物资人员及检验人员提供https://book.tinynews.org/books/10623626
16.义务教育教科书免费下载九年义务教育教科书电子版全国义务教育教科书包括了从小学一年级到初中九年级全部学科的教科书课本,通过这些电子课本,不管是老师还是学生都可以在在家照常进行教学学习工作,让大家不会因为疫情原因而耽误学习进度。需要的话可以到极光下载站下载使用!http://xz7.com/yp/ywjyjks/
17.中国免费的电子图书馆8.国家哲学社会科学文献中心(https://www.ncpssd.org/) 国家哲学社会科学文献中心是中国社会科学院旗下的电子图书馆,主要面向哲学、社会科学等领域的研究人员和学者。该网站提供海量的哲学、社会科学领域的电子书籍资源,包括学术著作、期刊论文、研究报告等。 http://www.wwiki.cn/wiki/218555.htm
18.学术资料下载网站国家文献:http://t.cn/R4yqt7R; Lofter:http://t.cn/RAbLqiJ; oatd:http://t.cn/Ry4DeU6; OAIster:http://t.cn/R5MzYbb; Open Access Library:http://t.cn/hbIBuf; 2万种百万册图书电子版书目发布完成,包括古籍、方志、家谱。网址:bookgj.com (book为图书的英文,gj为古籍的拼音前2个字母)。https://www.meipian.cn/2e8disdx
19.2024年8个日本知名网上书店推荐:网购新书二手书漫画电子书等在第二次世界大战之后,日本人为了吸收新知,对外文书的需求殷切,当时的社长松原治看出这方面的市场,就从1951年起开始引进外文书。纪伊国屋成了将日本书籍和文化输出海外的重要桥梁,而海外分店也是日本本地分店及其他海外分店采购当地语文书籍的窗口。网上书店包含10万册图书,书籍,电子书籍,杂志,DVD/CD,文具杂货。https://www.extrabux.cn/chs/guide/6620238
20.国家医学电子书包破解版国家医学电子书包客户端是一款学生对医学知识的获取主要依赖纸质教材和参考书籍,通过winwin7给大家分享的国家医学电子书包PC破解版能够帮助医疗行业的朋友们采用全媒体教学的形式带来生动鲜活的医学教材软件,软件内包含了全面的理论知识,为医生朋友们的成长护航。国家医学电子书包电脑版包含了基本理论、基本知识、基本技能http://m.winwin7.com/soft/56965.html
21.中国国家图书馆中国国家图书馆资源丰富,所存文献数量与品质极高! 古籍特藏:该库可提供综合性数字化古籍特藏文献,包括本馆建设的古籍特藏、外馆文献资源,以及古籍全文检索分析系统。 当代图书:本栏目下有10万余册电子图书,多为近现代图书资源,内容包括文学小说、哲学历史,人物传记、古籍经典、科普科幻、亲子童书、人生励志、经济管https://www.jspoo.com/wz/4316.html
22.全国图书馆参考咨询联盟设为主页 | 登录 | 注册 首页您现在的IP是:183.222.240.199 图书 期刊 报纸 学位论文 会议论文 专利 标准 音视频 科技报告 高级检索使用帮助 全部字段 书名 作者 主题词 丛书名 目次 联系我们 | 网上客服| 用户反馈 全国图书馆参考咨询联盟 ?2024 http://www.ucdrs.superlib.net/