如何提高深度学习模型的可解释性？极致的数据透出与多维可视化实战详解|在线深度学习训练平台_在线学习

丰富的线上&线下活动，深入探索云世界

做任务，得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流，直击现场

海量开发者使用工具、手册，免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

小叽导读：深度网络对机器学习研究和应用领域产生了巨大的影响，与此同时却无法很清晰地解释神经网络的来龙去脉。迄今为止，深度学习不够透明，神经网络整体看来仍然是一个黑箱。因此，人们一直致力于更透彻地去理解其中复杂的过程，从而达到进一步优化的目的。由于人类对于世界的认知和感受主要来自于视觉，良好的可视化可以有效地帮助人们理解深度网络，并进行有效的优化和调节。

（图片引自2018AIpredictions：8insightstoshapebusinessstrategy）

同时，随着网络复杂度的急剧提升，传统的机器学习评估指标，如欠拟合/过拟合/精准率(PR)/召回率(Recall)，并不能够全面地评估一个深度学习网络模型的质量，而我们正在寻找一种途径或者说在摸索一种方式，尝试着去定义深度学习质量体系，从而帮助人们更好地理解并评估模型本身，即在一定条件下，通过提高深度学习的可解释性与可靠性，提升网络模型的可控性。

基于此，平台在完善训练任务生命周期管理的同时，致力于提供更加全面的数据透出方式（如本期新增的在线动态更新数据透出功能），并以深度学习特有的多维度可视化等方向作为核心功能演进。

目前来看：数据科学负责见解；机器学习负责预测；人工智能负责行为。同时，这几个领域之间存在着很多重叠。数据科学与其他两个领域不同，因为它的目标跟人类的目标尤其接近：获得洞察力和理解力，这也是DeepInsight平台命名的由来。

DeepInsight是基于分布式微服务集群化部署的深度学习可视化评估平台，由前端WEB平台+后端微服务+深度学习组件等三个子系统构成，各个微服务实例之间是隔离的，互不影响；目前支持TensorflowRS及原生Tensorflow训练任务的生命周期管理。旨在通过数据透出及可视化等手段，解决模型调试及问题定位分析等系列问题，提高神经网络的可解释性；以生命周期管理的方式执行训练任务，从而提供一站式的可视化评测服务。平台在赋能业务的同时，业务也会将后期处理过的数据反馈给平台，从而构建以DeepInsight为基础数据核心的AI可视化生态圈。

由于原生深度学习框架提供的功能有限，不能完全满足日常训练的调试分析需求。DeepInsight深度学习组件以透明的方式接入Tensorflow框架，支持本地和分布式模型训练，以第三方库方式的安装。

1）基于原生的深度学习框架TensoflowAPI(tf.train.SessionRunHook)编写的即插即用组件，无需用户开发额外的代码，只需用户通过配置文件增加相应配置信息，即可使用对应的组件；

2）配置信息由组件开关和组件配置参数信息两部分组成：

打开相应组件开关后，组件功能不会对原有训练任务产生较大性能影响，从而保证线上训练效率；

关闭相应组件开关后，对原有训练任务无任何功能或性能上的影响；

3.1.1TF-Tracer：基于计算图的全面数据透出

数据透出组件TF-Tracer是基于Tensorflow计算图(tf.Graph)开发的，可以全面透出计算图中的所有变量(tf.Variable)，基于图数据集(tf.GraphKeys)，通过正则表达式对变量集合进行匹配过滤，透出相应变量数据集合，同时也支持直接指定变量列表进行数据透出，支持NumPy/Bin两种数据格式输出。

对于非计算图中的变量，用户也可以通过回填的方式，添加到官方预置图数据集或自定义图数据集中；

TF-Tracer配置文件示例，具体详见TF-TracerUserGuide：

提供输出变量存储容量过滤，预置默认值，支持用户根据应用场景自定义设置，其中[ATBEGIN]方式可以单独设置变量numpy.ndarray.shape大小限制；

支持分布式多session输出，提供cheif_only配置选项，指定是否只有work0输出数据文件；

支持三种模式数据采样：

1）every_steps：基于步数采样；

3）step_range：基于步数范围采样；

支持四种方式输出：

1）HDFS：以变量为最小颗粒度生成日志文件，为每个worker生成相应的文件夹，将数据实时透出到HDFS文件系统中，支持Text/Bin两种格式，目前默认以CSV的格式存储，支持ODPS直读；

3)Logview：将数据透出到前端WEB平台，数据实时刷新，针对日志信息量较大的情况，支持概要（具体信息可以通过上述HDFS或ODPS方式查询）和详细信息等多种日志级别；

4)Tensorboard+：支持将数据实时透出到TensorBoard+Textplugin中，由于日志信息量较大，支持日志概要和文件存储路径两种日志级别；

多种可视化展示方式：

2)使用在线工作台（微服务Notebook+）读取数据进行交互式可视化分析，提供TF-TracerReader读取HDFS数据，预装PyODPS/scikit-learn/Matplotlib等数据科学软件；

目前TF-Tracer已应用到线上训练任务中，如onlinelearning，会实时透出数据到ODPS，性能测试结果如下：

3.1.2TF-Tracer黑科技：在线动态更新数据集实时透出

现有深度学习框架的数据透出方式一般是静态的且不全面，尤其是分布式架构。用户在训练任务开始前指定透出数据集，任务开始执行后不能修改；修改的话，需要中断任务重新修改代码或配置。对于运行周期较长的模型训练，如OnlineLearning，在训练过程中发现异常的话，有时很难根据现有透出数据进行定位；而重启任务更新透出数据集的话，有些问题并不能复现（深度学习统计学特性）。

针对上述问题，TF-Tracer在不重启训练任务的前提下，支持在线动态更新透出数据集：

支持在模型训练过程中，在线修改透出数据集合，并实时透出更改后的数据集；

提供本次模型训练计算图中所有变量列表，用户可以基于图数据集(tf.GraphKey)，选择指定变量列表，同时支持多数据集变量去重；

针对于cheif_only等于False的情况，即所有worker都透出数据时，支持指定worker动态更新，非指定worker透出数据不变，便于双向对比；

worker0：

worker1：

在线修改实时透出实例：变量从layer2/biases:0和layer2/weights/part_0:0到变量layer1/weights/part_1:0和layer4/weights/part_0:0：

由于当前Tensorflowtimeline文件只支持展示一个session.run，不支持展示多个session.run，而线上训练都是基于分布式运行的，会产生多个session.run（每个worker至少产生一个）。而当分布式模型训练出现运行较慢的问题时，需要从整体上定位分析，即一个timeline展示多个session.run的集合，而Tensorflow不能满足此需求。

TF-Profiler是基于原生的深度学习框架中的性能采样接口，进行了二次开发，支持根据配置文件，自动化跨session生成性能数据、数据分层以及自动分析统计等功能，同时对Tensorboard+Profileplugin也进行了二次开发，实现了对线上性能文件可视化展示。（TF-Profiler具体功能详见：DeepInsight深度学习评估平台--性能调优组件）

当前主要包括Notebook+（交互式可视化分析）和Tensorboard+（可视化工具）两类Docker化微服务，前端WEB平台负责容器编排，通过Nginx反向代理提供动态端口转发功能，支持多用户并发访问；容器实例以集群的方式部署在多个服务器上，同一服务器上的容器对不同用户而言使用不同端口访问，并做到进程间隔离，在高并发的同时保证系统的稳定性。

3.2.1Notebook+：交互式可视化分析

基于JupyterNotebook开源版本进行二次开发的Docker镜像服务，提供交互式可视化分析及线上本地调试等服务。

提供TF-TracerReader在线读取日志文件进行交互式可视化分析，支持HDFS/OSS/ODPS/GIT等方式读写数据；

支持TensorflowRS线上本地模型训练，支持iPython和Terminal两种运行方式；

和前端WEB平台实验室双向打通，本地调试完成后可以将脚本直接转储至前端WEB平台实验室，进行后续的分布式训练；当线上训练异常后，可以跳转至在线工作台(Notebook+)进行线上本地调试，从而提高效率节省资源；

3.2.2Tensorboard+2.0：高性能实时在线可视化

在原有版本上更新了Tensorboard+core版本，从1.2.0rc更新到了1.5.0a，同时保持了原有1.0版本数据目录在线动态切换及数据报表聚合对比等功能（1.0版本功能详见：如何评估深度学习模型效果？阿里工程师这么做）：

优化了数据加载模块，启动性能提升了3~5倍左右，解决了线上超大数据文件加载慢的问题，改善用户体验；

在性能不变的前提系，增加Scalar图加载数据点数，由原来的200点上升至1000点，图像精度更高，更加利于可视化分析；

3.3.1生命周期管理：可视化分析的生态基石

提供训练任务从TensorflowRS镜像发布、模型本地开发调试到线上分布式运行的全流程整体解决方案，覆盖模型训练全阶段生命周期管理。典型用户场景(userpath)如下：

Step1.首先用户通过在线工作台(Notebook+)进行线上本地开发调试，并可以使用iPython进行交互式可视化分析，比如对TF-Tracer产生的日志数据进行在线分析；同时支持从实验室导入训练任务进行本地调试；

Step3.用户在本地工作台或实验室中，可以通过组件管理功能，引入或导出当前模型或组件，供后续个人或其他用户使用；

3.3.2集群管理：在线扩容与可视化服务一键式部署

集群管理模块主要提供分布式微服务集群管理：

支持线上资源实时在线扩容、后端容器编排(作业调度&资源管理等)以及微服务一键式部署等功能；

3.4对外可视化服务

DeepInsight平台目前主要通过两种方式对第三方平台提供服务：

对集团PAI平台提供Tensorboard+1.0服务，支持OSS直读日志文件：

对XDL平台提供Tensorboard+2.0服务，支持MXNet日志格式文件，同时提供Notebook+1.0服务：

对Lotus等平台提供基础数据服务等；

另外，样本特征作为模型训练的输入，对训练的最终效果（过拟合/欠拟合）起到了重要的作用。目前Notebook+正在尝试通过嵌入Facets，帮助用户理解并分析各类深度学习数据集。用户可以在训练前通过可视化的方式，更好地理解数据集中所有特征的值分布(FacetsOverview)，探索数据集中不同特征数据点之间的关系(FacetsDive)。

FacetsOverview：

FacetsDive：

由此，用户可以在模型训练的不同阶段（前/中/后），通过全链路模型可视化的方式，更加准确有效地调试分析，从而得到更好的效果。

作者简介：孙凯，花名路宸，阿里巴巴高级技术专家，DeepInsight深度学习质量平台技术负责人。开发DeepInsight技术，充满挑战，引用《TheBuildingBlocksofInterpretability》中的一段话与大家共勉。

Wehavealotofworkleftaheadofustobuildpowerfulandtrusthworthyinterfacesforinterpretability.But,ifwesucceed,interpretabilitypromisestobeapowerfultoolinenablingmeaningfulhumanoversightandinbuildingfair,safe,andalignedAIsystems.

THE END

如何提高深度学习模型的可解释性？极致的数据透出与多维可视化实战详解

73页，开源「后训练」全流程！AI2发布高质量Tülu3系列模型，拉平闭源差距，比肩GPT4omini

如何提高深度学习模型的可解释性？极致的数据透出与多维可视化实战详解

度小满自动机器学习平台实践

NVIDIAA100NVIDIA

卓翼飞思智能算法云仿真平台助推全国集群挑战赛，引爆行业热潮！

《微博深度学习平台架构和实践》阅读笔记Felix9190

MistGPU

中国电信星辰MaaS平台发布，企商在线参与共绘AI算力应用新未来

发现最前沿AI工具，用AI技术提高效率与创造力图像生成（30）——人工智能释放你的无限创造力

weidlxDeepRec：热门微博推荐框架性能提升实战

虎课网设计办公软件视频教程在线学习