上海无线通信研究中心

中文 > 新闻快讯 > 中心动态 >

中心动态

中心新一期学术沙龙:带你玩转大数据处理平台Spark与深度学习

时间:2017-09-07 13:13来源:中心 作者:中心 点击:
    2017年8月23日下午,每两周一次的中心学术沙龙又在406会议室展开。本次学术沙龙我们邀请到了中心2015级博士生李扬以及2015级硕士生孙天宇,分别为我们介绍深度学习与计算机视觉、大规模分布式机器学习平台Spark的相关内容,并由中心计算通信部副部长李凯老师对两位同学的报告作出了点评。
    报告开始,李扬同学结合插图生动地介绍了计算机视觉的概念,并详细阐述了计算机视觉的三个层次。即计算机视觉首先解决的是计算机”看到“的是什么、在哪的问题,对应的相应问题为物体识别(Object Recognition)、物体在图片中的定位(Localization)。第二个层次,我们得到了物体在二维图片中的位置,但它在真实世界的位置如何呢,因此又有图像三维重建(3D Reconstuction),即时定位与地图构建(Simultaneous Localization And Mapping,即SLAM)等问题。计算机视觉的第三个层次,我们做到了物体在静态图片中的识别还不够,还需要让计算机学会理解视频当中的物体性质与行为,这对应了一个更加困难的问题,即视觉问答(Visual Question Answering)。然后,报告人针对物体识别这个任务,生动地结合苍蝇和蛇与人类视觉系统的差异,为大家解释了物体识别实质上就是根据大量输入数据构建视觉系统的任务。输入数据包含了物体的反光,以及其对应的概念。接着,李扬同学介绍了传统机器学习算法如特征脸(Eigenface)在人脸识别中的应用及其局限性,并指出深度学习优于传统方法的原因在于其自动学习提取特征的特点。最后,他介绍了深度学习的基本概念并以卷积神经网络算法为例,详细介绍了其在物体识别中的工作原理。

    第二个报告由孙天宇同学分享大数据分析利器--Spark的框架及其核心RDD(Resilient Distributed Datasets)。他首先介绍Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优。但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。然后,孙天宇同学介绍了Spark的框架构成,即由进行资源的申请、任务的分配和监控的Driver,由可以运行Application代码的节点Worker,由Application的执行者Executor组成。最后,他介绍了RDD的定义,即RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入磁盘。

   
    报告结束后,在场同学提出了很多高质量的问题并由报告人一一解答,此外李凯老师对两位报告人的报告进行了深入细致的点评。李凯老师指出李扬同学的报告深入浅出,很好地介绍了计算机视觉与深度学习的基本概念,但若能更多地补充介绍当前最新的前沿问题则更佳。而孙天宇同学的报告则更注重实际应用场景,着重介绍了Spark的基本使用情况。值得一提的是,这次的学术沙龙还吸引到了上科大的同学前来参加,希望通过这种形式的学术讨论促进各个研究小组的相互交流,并激发大家对学术研究的热情,让我们一起期待下一次的分享。