酷克数据推出AI开发工具箱HashML加速企业级AI应用落地投产

近日,业界领先的国产企业级云数仓厂商酷克数据发布了下一代In-Database高级分析和数据科学工具箱HashML,在业内率先实现为企业提供随数仓部署一步到位、开箱即用的AI能力。

在数字经济时代,描述性分析已经非常成熟并被企业广泛采纳。然而,受限于人才缺口和技术门槛,更高价值的预测性分析和决策性分析,目前普及度仍然相对较低。为了应对日益激烈的市场竞争,企业IT部门迫切需要简单易用的高级分析工具产品来实现对业务可持续健康发展的有效支撑。

图1:数据分析的不同层级

数据仓库作为企业数据存储、加工和分析的核心场所,蕴藏着规模庞大的数据资产。然而,通用的模型和算法的效果往往只能达到差强人意的“及格线”。只有通过AI算法与应用场景及企业自有数据紧密协同,才能充分释放数据潜力,达到驱动业务健康发展的“优秀线”。以HashData为代表的现代企业数据仓库,为AI模型的训练、部署和推理提供了最佳的数据支撑平台。

为了降低高级分析和AI技术的应用门槛,酷克数据基于HashData打造了下一代In-Database高级分析和数据科学工具箱HashML。

HashML继承了HashData的云原生优势,从模型训练到模型部署都可以做到按需弹性伸缩。同时,HashML也提供了Python和SQL两种语言支持,无论是数据科学社区的Python用户,还是数据库社区的SQL用户,都可以低门槛地上手使用。

图2:HashML主要功能概览

HashML拥有以下三大产品特色:

·简单易用:可随HashData数据仓库一起安装部署,做到开箱即用,同时所有模块API的设计,都力求标准化,与数据科学社区流行的第三方库保持一致,最大程度保障易用性。

·性能卓越:根据任务的复杂度确定并行处理的并发度,尤其对于较为复杂的深度模型或大语言模型,可以利用多机多卡实现高效的训练和微调,保障作业时效性。

·算法丰富:从传统的统计机器学习算法到常见的深度神经网络,和最新的预训练大模型,都能提供良好的支持,同时也针对知识增强的大语言模型应用,提供了向量知识库,能够高效支持海量语义向量数据的存储和检索。

简单易用——标准化接口,低代码开发

简单易用是我们设计HashML时的首要目标,力求帮助企业无门槛使用各种经典和最前沿的AI算法和模型能力,低成本解决实际业务问题。为了实现这个目标,HashML对编程接口做了高度抽象和标准化。客户只需编写少量代码就可以完成从数据加载到数据处理、模型训练、模型部署和推理预测的全流程工作。例如,针对模型的训练和微调,HashML抽象了统一的fit接口。不论是机器学习模型、深度学习模型还是大语言模型,都可以调用该接口完成模型训练或微调。

代码示例1:XGBoost模型训练

代码示例2:LLaMA2模型微调

为了方便SQL开发者使用AI能力,HashML还提供了SQL编程语言接口。下图显示了如何通过执行SQL语句完成XGBoost模型的训练。

代码示例3:HashMLSQL接口

性能卓越——多机多卡,弹性伸缩

基于HashData强大的集群资源管理能力,HashML可以根据算法复杂度、数据量大小、访问负载等因素按需分配所需计算资源,为模型训练、部署和推理提供灵活的计算环境。

分布式并行数据处理

分布式并行模型训练

HashML提供了分布式并行模型训练能力,可以按需将模型训练任务分配给多个Worker执行,同时可以为每个Worker指定所需计算资源(包括CPU核数和GPU卡数)。对于大多数常见的训练任务,数据并行就足以高效完成模型训练。对于参数规模庞大的大语言模型,我们在数据并行的基础上,利用DeepSpeed和Accelerate实现模型并行。另外,得益于HashData对计算资源的统一管理,用户无需费心训练作业具体是在哪些机器上执行,运维工作大幅简化。

弹性可伸缩服务部署

HashML提供了弹性可伸缩的模型部署和在线推理功能,旨在简化模型的部署并根据服务负载动态调整模型实例的数量。除了支持单个模型的弹性部署,HashML还支持多个模型的组合部署,这对于需要调用多个模型完成一个业务请求的场景非常有用。用户可以在服务端完成复杂业务逻辑的开发,客户端只需要与服务端进行一次交互就能获得最终的结果,不仅大幅简化了业务开发,同时提高了端到端服务的时效性。

算法丰富——机器学习深度学习全覆盖,前沿算法快速追踪

机器学习与深度学习

代码示例4:自定义神经网络

大语言模型

图3:日益繁荣的开源大语言模型生态

应用案例:HashML助力大语言模型在企业落地应用

ReQA:检索增强的智能问答

图4:检索增强的智能问答实现方案

示范应用1:检索增强的智能问答系统

ChatData:基于自然语言的交互式数据查询分析

虽然SQL是一种普遍使用的数据库查询语言,但对许多企业员工来说却是一道难以逾越的门槛,这无疑限制了业务部门直接处理数据。针对这个问题,我们基于HashML和大语言模型开发了ChatData,使得企业每个员工可以无门槛地使用自然语言与权限范围内的数据库进行交互。ChatData大大降低了数据分析和应用的门槛,有利于充分地释放企业数据价值。在ChatData中,首先利用大量高质量的<查询指令,SQL语句>数据对大语言模型进行微调,使之能够准确地将自然语言表达的用户查询意图转换为正确合法的SQL语句,系统通过执行生成的SQL语句完成数据查询并返回结果。在此基础上用户还可以通过自然语言和系统进行交互,实现对查询结果的可视化。

图5:基于自然语言的交互式数据查询分析实现方案

示范应用2:基于自然语言的交互式数据查询分析系统

Data+AI助力企业数智化升级

新一代人工智能技术正在加速企业数字化、智能化进程,长远来看,将对企业的研发、生产、经营带来深远影响。企业需要逐场景深入打磨,让AI计算贴近应用场景、贴近企业数据资产,才能实现更好的AI落地。酷克数据打造的下一代高级分析和数据科学工具箱HashML,致力于大幅降低AI技术的应用门槛,为数据科学家、数据工程师、AI应用开发者使用先进的AI技术提供便利。我们希望以企业数据仓库为依托,结合前沿的AI技术,帮助用户以低成本快速试错,迭代发掘高价值应用场景,推动AI技术在企业规模化落地,产生真正的业务价值。未来,我们将持续迭代完善产品,将HashData打造成强大的企业级数据和AI基础设施,助力千行百业通过分析与智能实现业务价值!

THE END
1.最短路径A*算法原理及java代码实现(看不懂是我的失败)算法只要懂原理了,代码都是小问题,先看下面理论,尤其是红色标注的(要源码请留下邮箱,有测试用例,直接运行即可) A*算法 百度上的解释: A*[1](A-Star)算法是一种静态路网中求解最短路最有效的直接搜索方法。 公式表示为: f(n)=g(n)+h(n), https://blog.csdn.net/h348592532/article/details/44421753
2.Java编程实现A*算法完整代码java这篇文章主要介绍了Java编程实现A*算法完整代码,简单介绍了a星算法,然后分享了完整测试代码,具有一定借鉴价值,需要的朋友可以参考下。前言 A*搜寻算法俗称A星算法。这是一种在图形平面上,有多个节点的路径,求出最低通过成本的算法。常用于游戏中 通过二维数组构建的一个迷宫,“%”表示墙壁,A为起点,B为终点,“#https://www.jb51.net/article/129284.htm
3.启发式搜索AStar算法附代码A*算法是对Best-First算法的一种改进,核心思想是广搜,利用open表和close表对节点进行剪枝,同时利用启发式测度来选择最优的扩展节点。 A*算法在满足一定条件下找到的解必然是最优解。 最短路得到最优解条件:A*算法的启发式函数h如果小于等于真实值n的话,那么算法是能得到最优解的,若h大于等于真实值n,那么就不https://www.jianshu.com/p/5704e67f40aa
4.基于向量矩阵的Apriori改进算法研究摘要: 针对传统的关联分析算法Apriori执行效率低、I/O过重、计算量过大等问题,提出了一种通过减少扫描数据库次数来降低候选项集计算复杂度, 在频繁项集求解过程中通过将事务项集转换为行向量,利用“与”操作来提高算法执行效率的Apriori改进算法。利用学生在校行为数据集对Apriori改进算法进行有效性和高效性验证。https://jns.usst.edu.cn/html/2022/1/20220109.htm
5.Apriori算法如何用代码实现mb64ca025376906的技术博客Apriori算法如何用代码实现 Apriori算法是一种用于频繁项集挖掘的算法,通常用于市场篮子分析等场景,用于发现不同商品之间的关联规则。以下是使用Python实现Apriori算法的示例: from itertools import combinations # 定义函数用于生成候选项集 def generate_candidates(itemsets, k):https://blog.51cto.com/u_16213142/7073018
6.基于时空A*算法的多AGV无冲突路径规划从这一角度出发, 本文首先根据物流分拣中心的场地特点选择合适的地图建模方法, 然后将时间维度导入A*算法, 将其改进为时空A*算法, 并将时空A*算法作为基于冲突搜索框架的下层规划器, 用于求解多AGV无冲突路径规划问题. 对上述两种算法的融合, 旨在优势互补为解决路径规划中的冲突问题提供新的求解思路. 最后, 通过仿https://c-s-a.org.cn/html/2022/4/8454.htm
7.实测A*寻路与JPS寻路同一地图运行效率腾讯云开发者社区前面几篇我们把A*算法和JPS的算法都简单介绍了一下,并且展现出来了行动规划,其中A*算法的核心代码我也在《实战|OpenCV结合A*算法实现简单的运动路径规划》中放出来了, 感兴趣的朋友可以连接过去看一下,今天我们就专门对两个算法的运算效果进行一下实测,对比一下看看 https://cloud.tencent.com/developer/article/1621022