正如大赛发布仪式上,IBM大中华区副总裁侯淼所言,之所以要支持这样一个大赛,目的就是希望吸引更多的开发者去开发一些新的算法,把整个POWER8引擎的能力激活开来。
“UCanUUp”是这次挑战赛的口号,开发者可以通过登陆注册、申请资源、完成挑战,主办方最终根据各自的累积评分赢取礼品奖励。在比赛期间,主办方将定期公布挑战题目,采用月度赛制对参赛者进行排名评定。
到目前为止,已经有数百名开发者报名并参加了此次大赛,为了让更多的开发者了解此次大赛的进展情况,日前,我们专访了其中一位参赛选手逸云计算机科技有限公司CEO/总裁黄文超,希望通过他的参赛经历,吸引更多的技术达人参与到大赛之中。
以下为采访内容:
黄文超:大学阶段:我是2009年于郑州大学电子科学与技术系毕业的,在校期间参加过数学建模竞赛(2007全国一等奖)、ACM/ICPC(2008合肥赛区铜奖)。
因为本身不是计算机专业,所以在大学里面除了算法、数据结构方面,对计算机语言仅限于初步的C/C++和MATLAB使用。
工作阶段:2009年毕业后进入银行工作,主要用.NET系列技术进行一些内部系统的开发。在银行进行一些编程以外的技术工作,包括网络管理、服务器维护等。
2012年开始自学转型使用PHP,同样完成一些银行内部系统的开发。主要的项目包括独立完成的《绩效考核系统》、《自动化审批系统》等。
此后在工作期间接收一些企业网站开发之类的项目,基本上用WordPress实现,熟悉通过深度定制WordPress(模板、插件)进行网站建设。目前为止通过WordPress建设并维护的网站超过10个。
创业阶段:2014年开始自己创业,技术转型Python,主要使用Django框架进行开发,对前端、HTML5等技术有初步的理解和实践经验,并了解掌握基本的Linux服务器环境部署。
2.区分垃圾ID数据和正常ID数据的核心关键是什么?可否借此展开描述一下所设计算法的基本思路?
黄文超:现在判断垃圾数据主要有三种类型:
3.这一算法设计思路,主要用到了什么计算模型?有没有独特的创新亮点?
黄文超:主要用到的计算模型包括“中文分词技术”、“词频-逆文本频率指数(TF-IDF)”和“余弦定理文本分类方法”。
主要参考Google吴军博士的《数学之美》里面介绍的算法,并参考了一些GoogleScholar上面找到的关于splog的论文里面对垃圾博客特征的一些描述。
5.基于这一思路的算法设计,能否充分发挥IBMPOWER8的并发计算优势?信心来自于哪里?
黄文超:由于主要耗时的算法环节是互相独立的(网页解析、分词、向量夹角计算),完全可以进行多进程计算,从而充分利用IBMPOWER8的性能优势。
黄文超:此前对POWER8架构并没有过多深入了解,但自这次比赛最初接触以来,它在计算性能方面还是有独到的优势,因此对于我的工作本身来说,希望POWER8平台能在更多的云平台服务上提供服务,让我们这类Web开发者有更好的选择。
7.对于多线程及并发编程技术的发展,你怎么看?你认为还有哪些可以改进的方面?
黄文超:这当然是大势所趋,因为从主频上面感觉其实没有多大的空间可以挖掘了,为了提升计算的性能,唯有通过并行计算、分布式算法实现,而且近年兴起的大数据技术浪潮,也从另一方面支持了这一方向。在往后的计算机应用发展中,并行算法、分布式计算会变成主流中的主流。
8.参加这次算法挑战赛的感受如何?对这一活动有什么好的建议?
黄文超:CSDN和IBM的同事都很认真负责,耐心解答各种问题以及解决部署中产生的各种问题。
随着比赛的进行,原本一些不太完善的必要环节也逐步得到完善。非常感谢CSDN和IBM提供这个平台。