干货：18张思维导图，后端技术学习路线长这样！应用程序服务器中间件计算机编程|大数据分为结构化数据与非结构化数据_在线学习

思来想去，学习方向和路线很重要。比起具体的技术细节，可复制的经验、清晰的学习路线，是大部分人更加需要的东西。

话不多说，直接上后端技术学习路线思维导图框架：

图中的每一个节点我都做了细分，在后面章节逐个展开介绍。

计算机基础

不管是后端开发还是前端开发，说到底我们所有的软件开发都是在计算上编写程序，虽然对于大部分人来说，真正开始写代码的时候很少会让你去解决计算机底层的问题，但不接触不代表不重要，计算机基础是最重要的。

后端开发工作中经常用到Java、C++、Python、Golang，这些语言称为高级编程语言。称为高级是因为它们接近我们日常交流的自然语言，离计算机底层远。但所有的高级语言最终都会转化成汇编->计算机指令->控制流操控计算机硬件，所以学习计算机构成和工作原理、操作系统这些基础知识，能够加深我们对高级语言的理解。

计算机组成原理

这门课程让你了解计算机的组成和工作原理，要学习的内容包括：

计算机网络

世界上第一台通用计算机「ENIAC」于1946被发明出来，如其名字一样仅仅是用于计算，在后来计算机越来越多，如果没有网络每台计算机都将成为一个孤岛，也不会有现在互联网的繁荣，「计算机网络」这门课程的学习路线非常清晰，就是围绕着如何让地理位置上不同的计算机连接起来，并高效可靠的交换数据信息，实现人在家中做，天下事尽知。

计算机网络有分层次，根据各层属性和特点，分为：

这个层次划分从上到下就是一个网络数据包的接收路径，反之就是发送路径。既然要交换信息肯定得商量一套通用的协议，就像我们和老外交流，要么他们学中文要么我们学英文，反正得统一出一个标准语言出来，这在计算机网络中称之为「通信协议」。如上述的网络分层，每层都有各自适配的协议，所以计算机网络的学习基本就是围绕着分层协议的学习。

操作系统操作系统也是一种软件。你熟悉的微软Windos操作系统，后台开发熟悉的各种发行版的Linux系统，都是通过软件的形式安装在计算机上。

只不过这个软件和我们平常接触的应用程序软件不同，它比较特殊，因为它向下和计算机硬件（就是我们在计算机组成原理中学习的那些硬件）打交道，向上给其他应用程序和用户提供通用的交互的接口，说白了操作系统就是个中介和管家的角色。它帮我们做了下面这些事情：

数据结构

数据结构大家最熟悉，即使毫无计算机基础或是想转行计算机，第一个遇到的就是数据结构，因为面试刷的算法题本质上就是对各种数据结构的运用。所以单纯对面试功利的角度来说，数据结构也是必须要掌握的计算机基础，数据结构要学到：

Linux

在后台开发领域，你所能接触到的后端服务不敢说100%，至少也有90%以上是运行在Linux系统之上，因为它开源、便利、功能强大，需要学习以下技术点：

Linux系统使用

所以如果你想走后端开发这条路线，我建议你趁早使用Linux，越早越好。可以是在个人PC上装Linux虚拟机，或者装个双系统，我在大学就是这么玩的，那时候云服务器还没现在这么普及，现在我觉得买个Linux云服务器最方便，如果是学生还有教育优惠。

Linux高级编程

Linux「高级编程」的意思是比上面的Linux基础操作更深入一个层次。

要想进阶成为后端开发人员，就要懂得如何使用Linux系统提供的各种系统API（系统调用接口）进行编程开发，程序员用你写的代码来控制系统，普通用户只会用鼠标操纵。这个阶段需要学习：

总之，这一阶段需要学习的是在Linux环境下的高级编程技巧，通过对这些内容的学习也能让你更深入的理解Linux系统是如何工作和运行的，并且真正的踏入Linux系统编程大门。

网络编程

网络编程是通过网络套接字socket方式实现的通信，所以也属于进程间通信IPC（Inter-ProcessCommunication）。

由于现在的后台服务基于服务端/客户端模型，两者之间基于网络通信，你在家用手机点个外卖的服务请求，也是通过网络通信发给某团的后台服务器，所以后台服务开发，说到底还是网络编程，以及建立在网络编程数据之上的应用层开发。

网络编程学什么：

不过在工作中，都有成熟的网络框架或网络通信库，大公司比如鹅厂大部分是自研网络通信框架，小公司用开源项目，这让很多后台开发人员不必关心底层的网络通信细节，除了部分基础架构的开发同学，大部分后台开发同学工作都是在做业务系统的开发。

但了解底层网络编程原理，是后台开发人员的核心能力，这点对于C/C++后台开发程序员尤为重要。它能拔高你看问题的高度，不了解底层原理，就像是在黑盒编程一样，出了问题无从下手排查。

数据库

除非是单纯的转发路由类后台服务，一般来说后台开发的web服务器后台程序，后台服务程序说白了就是个死循环：

接收客户端数据包->处理数据包->业务逻辑处理->保存必要的数据->回复响应数据给客户端

这其中会伴随对各种数据的处理，比如电商系统会处理订单数据、用户数据，游戏后台会处理角色数据和装备数据等等，有数据就会涉及到存储系统，数据一般都存储到数据库。

主要学习2大类数据库：

关系型数据库是指采用了关系模型来组织数据的数据库，简单理解就是二维表格模型。

非关系型数据库一般指的是key-value形式存储数据的NoSQL数据库，数据和键值是简单的映射关系。

关系型数据库非关系型数据库

后台开发服务还需要学会解决三高问题：高并发、高可用、高性能。

高并发

利用到目前为止学习的内容，我们的开发的后台服务器应付一些小并发场景绰绰有余，但是随着互联网应用业务量的上涨，对后台服务端的请求数剧增，高并发需求随之而来，高并发指的就是高TPS和高QPS

对于高并发服务必须改变传统的单进程模型，才能处理的过来如此海量的请求。

多进程

多线程

多线程与多进程类似，实际在Linux系统中线程是由轻量级的进程LWP（Light-weightprocess）实现，多线程方式实现的后台服务相对于多进程更加轻量，因为多线程是在同一个进程内部实现。

不过多线程也会带来新的问题，比如全局数据竞争和同步问题，引入线程锁还要防止死锁的发生。

协程

那什么是协程呢？协程Coroutines是一种比线程更加轻量级的微线程。类比一个进程可以拥有多个线程，一个线程也可以拥有多个协程，因此协程又称微线程和纤程。可以粗略的把协程理解成子程序调用，每个子程序都可以在一个单独的协程内执行。

异步回调

所谓异步回调就是，服务端发起IO请求的线程不等网络IO线程操作完成，就继续执行随后的代码，一般请求线程需要先注册一个回调函数，当IO完成之后网络IO线程通过调用之前注册的回调函数来通知发起IO请求的线程，这样发起请求的线程就不会阻塞住等待结果，提高了服务处理性能。

高性能

高可用

高可用即保证服务的稳定性，不出现重大问题或宕机，常见的解决高可用思路是冗余和负载均衡。冗余的意思就是多部署几台服务器，当其中一台挂掉另外一台能顶上。通过负载均衡技术实现对流量的动态调配，不至于出现大量流量冲击某台机器出现请求不均匀，软件负载均衡技术可以通过DNS、Nginx、LVS等技术实现。这里主要学习的技术有：

设计模式

设计模式6大原则：

常见设计模式分类

分布式

为什么会出现分布式？随着业务的体量不断增长，单个节点的处理能力无法满足日益增长的计算、存储任务的时候，且硬件的提升（加内存、加磁盘、使用更好的CPU）高昂到得不偿失的时候，应用程序也不能进一步优化的时候，我们才需要考虑分布式系统。

分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器，处理更多的数据。

分布式系统要解决的问题本身就是和单机系统一样的，而由于分布式系统多节点、通过网络通信的拓扑结构，会引入很多单机系统没有的问题，为了解决这些问题又会引入更多的机制、协议。这里需要学习的内容包括：

安全

本质上后台服务在网络上运行，需要和各种网络环境交互，在正常情况下能够工作，但互联网中有很多针对后台服务的恶意攻击，因此网络安全也是后台开发工程师需要学习的内容。这里主要包括：

监控与统计

后台服务运行我们如何了解其运行状态和健康度？如果只是开发小玩具监控和统计大可不必，只需记录本地日志即可，对于成熟的大型后台服务系统，监控、统计、追踪必不可少，无监控，不运营。

开源的监控软件有：Prometheus、Zabbix、Open-Falcon。

追踪系统也非常重要，特别是目前微服务化，一次服务请求需要经历多个不同的微服务处理，给分布式追踪带来新的挑战，主要包含以下三个方面：

业界也有一些成熟的开源软件用于监控与追踪：SkyWalking、Pinpoint、Zipkin、CAT大众点评开源。不过大公司一般都有自研的一套监控与追踪系统，比如腾讯内部就有多套自研监控与调用链追踪系统。

搜索引擎

我们讨论的是全文搜索引擎，什么是全文搜索引擎？

数据分为结构化数据与非结构化数据

像数据库表这种的数据是结构化数据；而对于像HTML、XML、文档这样不定长度且无固定格式的数据我们称之为非结构化数据。非结构化数据也称为全文数据，对非结构化数据的搜索可以用全文检索的方式，

目前两大主流的全文搜索引擎「Solr」和「Elasticsearch」都是基于Lucene建立。搜索引擎需要学习的内容：

大数据

大数据，又称为巨量资料，指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。随着后台服务用户数增加和数据的积累，产生海量有待挖掘价值的数据，分析利用这些数据可以反馈线上决策，优化运营策略，产生数据价值。

在软件开发领域的大数据概念自20世纪90年代的数据仓库开始，对于大数据的处理也导致各种海量数据的统计和处理技术发展。

主要包含以下的技术点需要学习：数据存储、离线分析、流式计算。

虚拟化

虚拟化，是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。

虚拟化的好处

常见的虚拟化技术：KVM、Xen、OpenVZ、Docker

OpenStack管理VM（VirtualMachine）虚拟机的工具；Kubernetes简称K8s，是管理container容器的工具。

中间件

在后端开发中你可能经常听说到「中间件」这个词，那什么是中间件？看下Wiki上的定义：

中间件技术创建在对应用软件部分常用功能的抽象上，将常用且重要的过程调用、分布式组件、消息队列、事务、安全、链接器、商业流程、网络并发、HTTP服务器、WebService等功能集于一身或者分别在不同品牌的不同产品中分别完成。中国科学院软件所研究员仲萃豪把中间件定义为「平台＋通信」。这个定义限定了只有用于分布式系统中的此类软件才能被称为中间件，同时此定义也把中间件与实际应用的应用软件区分开来。

大白话来说，中间件就是把分布式系统中一些通用功能的抽象出来提供服务的一类软件统称。它屏蔽掉了底层操作系统的复杂性，向上提供一个统一的开发环境，降低了软件系统开发的复杂度，由于中间件是介于操作系统和应用软件之间，为应用软件提供服务功能的软件，由于介于两种软件之间，所以称为中间件。

常见的的开源中间件有下面几种，组合起来就能搭建一个完整的分布式后台服务系统：

版本控制

大型软件项目的代码量巨大，如何有效组织和管理源码和版本，于是产生了版本控制系统。版本控制系统就是我们常说的SVN或Git，用来追踪、维护源码、文件以及配置文件等等的改动，并且提供控制这些改动控制权的程序。

常见的版本控制系统分为两大类：集中式版本控制和分布式版本控制。作为后端开发工程师，版本控制系统的使用也是必须掌握的基础技能，不过这些系统一般都是边使用边熟悉，刚开始熟悉一些常用操作就好。

工具

编辑器

在Linux下开发肯定离不开Vim或者Emacs，这两个都是常用的编辑器，已经形成了两大爱好者阵营。特别是Vim编辑器，学习成本有点高，配合上各种插件和配置，有些Vim爱好者已经把它当成IDE来用了，一旦掌握可以大幅提升工作效率，值得你去学习。

当然除了Vim如果是文字编辑工作，比如写README文档或者写技术博客，那么强烈推荐学习下Markdown语法，这是一种种轻量级标记语言，它允许人们使用易读易写的纯文本格式编写文档，注重内容本身不用过多的调整排版。Markdown编辑器推荐Typora、有道云笔记Markdown编辑器、VSCodeMarkdown插件。

IDE

编辑器作为小工程还可以胜任，不过后端开发工作中，一般都是大型的软件工程项目，所以不大可能用编辑器来管理，这时候就需要学习使用专业的集成开发工具。

集成开发环境（IDE，IntegratedDevelopmentEnvironment）是用于提供程序开发环境的应用程序，一般包括代码编辑器、编译器、调试器和图形用户界面等工具。

磨刀不误砍柴工，挑一把趁手的兵器再去编程世界遨游。各语言IDE五花八门，推荐JetBrains系列和VSCode，JetBrains产品包括各语言开发的一系列的IDE，特别是Java的IntellijIDEA口碑非常不错，部分对应的产品系列如下。

VisualStudioCode（简称VSCode）是一个由微软开发，同时支持Windows、Linux和macOS等操作系统的免费代码编辑器，它支持测试，并内置了Git版本控制功能，同时也具有开发环境功能，例如代码补全（类似于IntelliSense）、代码片段和代码重构等。该编辑器支持用户个性化配置，例如改变主题颜色、键盘快捷方式等各种属性和参数，同时还在编辑器中内置了扩展程序管理的功能。

在2019年的StackOverflow组织的开发者调研中，VSCode被认为是最受开发者欢迎的开发环境。

测试

软件工程师不仅要写代码，还要做测试，软件测试和软件开发是相伴相生，测试能让保证我们写出代码更加健壮和可维护。

TDD是测试驱动开发（Test-DrivenDevelopment）的英文简称，是敏捷开发中的一项核心实践和技术，也是一种设计方法论。TDD的原理是在开发功能代码之前，先编写单元测试用例代码，根据测试代码确定需要编写什么产品代码。需要掌握和了解以下测试技术和方法。

学习顺序

总结下，后端技术学习的内容还是很多的，不可能一蹴而就。

我就按个人的学习经验并结合认识的大厂高P给的建议，给你把以上技术路线学习优先级做个排序，你照着学就行。

THE END

干货：18张思维导图，后端技术学习路线长这样！应用程序服务器中间件计算机编程

“大数据”核心知识精粹！

大数据的类型有哪些–PingCode

数据统计分析学习范文

非结构化数据如何进行分类分级？亿信华辰

大数据时代数据的重要性(精选5篇)

大数据的结构类型（结构化数据半结构化数据准结构化数据非结构化数据）大数据和AI躺过的坑

干货：18张思维导图，后端技术学习路线长这样！应用程序服务器中间件计算机编程

结构化和非结构化数据区别

按数据来源分，可将数据分为如下几个类型

数据库和大数据的区别与联系？一文讲清

结构化数据与非结构化数据的差异

机器学习实战机器学习特征工程最全解读