中国计算机学会青年计算机科技论坛
CCF Young Computer Scientists & Engineers Forum
CCF YOCSEF深圳
时间:2013年8月26日(星期一)14:30-18:00
地点:深圳市南山区南海大道3688号 深圳大学科技楼701报告厅
报告会主题
大数据的检索、抽象与分析
主办单位:
中国计算机学会青年计算机科技论坛深圳分论坛(CCF YOCSEF深圳)
深圳大学 广东省普及型高性能计算机重点实验室
执行主席:
毛睿 CCF YOCSEF深圳 委员
郑毅 CCF YOCSEF深圳 学术秘书
议 程
14:30 签到
15:00 报告会开始
CCF YOCSEF深圳 组织方 致辞
15:10 特邀讲者:黄哲学,深圳大学特聘教授
中国科学院深圳先进技术研究院研究员、首席科学家
演讲题目:大数据分析:系统架构、关键技术与服务创新
16:10 特邀讲者:毛睿,深圳大学广东省普及型高性能计算机重点实验室 常务副主任
演讲题目:大数据抽象:度量空间数据管理与挖掘-以索引为例
17:00 特邀讲者:樊文飞, 英国爱丁堡大学信息学院主任教授
演讲题目:大数据检索:Querying Big Data
大数据的检索、抽象与分析报告会
报告1:大数据分析:系统架构、关键技术与服务创新
特邀讲者黄哲学
深圳大学特聘教授,中国科学院深圳先进技术研究院研究员、首席科学家,深圳市高性能数据挖掘重点实验室主任。1993年获瑞典皇家工学院博士学位,曾任香港大学数学系荣誉教授、香港大学电子商业技术研究所助理总监;澳大利亚MIP顾问公司商业智能高级咨询顾问;澳大利亚联邦科学院信息与数学研究所研究员。2010年入选首批广东省领军人才,2011年入选深圳市孔雀计划高端人才.
黄哲学教授是最早从事数据挖掘领域属性数据和混合数据快速聚类算法研究的学者, 发表了一系列著名的聚类算法,如:k-modes、k-prototypes、w-k-means,这些算法在很多领域得到广泛应用,被纳入国内外教科书和专著,并进入软件产品。荣获亚太地区知识发现和数据挖掘国际会议(PAKDD)首个最有影响论文奖。领导开发了AlphaMiner数据挖掘开源系统(www.alphaminer.org),成为国际上重要的数据挖掘开源软件之一,被国内外许多大学和公司采用。发表学术论文140多篇,主要论文被引用3000多次,单篇论文最高引用1000多次。
报告提要:大数据蕴含的经济和社会价值不言而喻。但是,大数据的价值必须通过对数据进行有效地整合、分析和挖掘才能释放出来。现有的数据集成、分析与挖掘系统面临前所未有的大数据挑战,无法满足大数据的应用需求。因此,必须设计和研发新的系统架构、关键技术并创新产业化应用模式。本报告针对大数据分析中的超高维和大数据量的具体科学问题,结合“未来数据系统”研制开发的实践,介绍面向大数据信息服务、基于移动互联网和智能数据中心的大数据分析系统架构和关键技术,探讨面向人机交互的可视化分析方法和技术,展望未来面向服务的大数据应用创新模式。
报告2:大数据抽象:度量空间数据管理与挖掘-以索引为例
特邀讲者毛睿
深圳大学计算机与软件学院副教授,主要研究方向为大数据索引分析和高性能计算。分别于1997年和2000年在中国科学技术大学获计算机科学学士和硕士学位;于2006年和2007年在美国得克萨斯大学奥斯汀分校获统计学硕士和计算机科学博士学位。2007~2010年在甲骨文美国公司任高级技术员。于2010年加入深圳大学计算机与软件学院,现任国家高性能计算中心深圳分中心、广东省普及型高性能计算机重点实验室和深圳市服务计算与应用重点实验室常务副主任。先后在国内外期刊会议上发表论文40多篇,提出了通用相似性索引领域理论模型--支撑点空间模型,获得SISAP2010国际会议和BIBE2003国际会议Best Paper奖。
报告提要:数据种类的多样性是大数据问题带来的主要挑战之一。通用的数据处理技术因其广泛的适用性和相对低的开发成本,一直受到商业数据库管理系统的亲睐。从专用到通用的演进一直贯穿于数据库管理系统的发展历程中。度量空间数据处理技术把数据抽象成度量空间中的点,把数据间相似性的衡量抽象成满足三角不等式的距离函数,只利用三角不等式进行数据的索引、筛选和挖掘等处理工作,具有高度的通用性。以此模型为基础构建的通用大数据管理挖掘框架是应对大数据variety挑战的有效手段之一。经过多年的研究,度量空间索引领域已经形成了基本体系,取得了较为丰富的成果,为度量空间数据管理挖掘研究提供了一定的基础。
报告3:大数据检索:Querying Big Data
特邀讲者樊文飞
英国爱丁堡大学信息学院主任教授,英国爱丁堡/苏格兰皇家科学院院士,美国计算机协会会士(ACM Fellow), 中国“千人计划”特聘专家,长江学者。他毕业于北京大学(本科,硕士)和美国宾夕法尼亚大学(博士)。曾获得英国“罗杰?尼达姆奖”(2008年)、Alberto O. Mendelzon 时间检验奖 (ACM PODS 十年最佳论文奖,2010年)、VLDB(2010年)和 ICDE(2007)最佳论文奖、Elsevier网络科学刊物年度最佳论文和最杰出作者奖(2002年)和美国 CAREER Award(2001年)等多项国际奖项。目前主要研究领域为数据库理论与系统,包括大数据、数据质量、数据集成、分布式查询处理、查询语言、推荐系统、社会网络查询与分析,与Web服务等方面。
报告提要:Big data poses new challenges to query answering, from computational complexity theory to query evaluation techniques. Several questions arise. What query classes can be considered tractable in the context of big data? How can we make query answering feasible on big data? Is MapReduce the best way for answering queries on big data? What should we do about the quality of the data, the other side of big data? This talk aims to provide an overview of recent advances in tackling these questions.