各位同学好,欢迎来到这个网页,并感谢对我课题组的兴趣。
- 我对你的期待:
- 品行端正,阳光健康
- 对学术有浓厚兴趣,科研工作积极主动,科研产出优秀。只想混毕业的就算啦
- 团队意识强,能融入团队大家庭,以主人之一的心态对待团队事务
- 我也在其他双一流高校任兼职博导,欢迎有志学术的优秀同学联系
- 研究/招生领域:
- 大数据泛构(Big Data Genhierarchy):基于度量空间的通用数据处理:
- 针对大数据的variety挑战,把各种复杂的数据类型抽象到度量空间,利用度量空间距离函数的三角不等性进行统一的数据处理(例如索引、聚类、分类、异常点检测、机器学习和深度学习等)。这是我的核心研究领域。个人认为“通用”是科学和工程的重要区别之一,吸引我缓慢但持续地做了这个领域20多年。热忱欢迎你跟我一起领略科学的美。建议先阅读下面相关的资料找找感觉,特别是学术报告视频、中文专著和入门短文。
- 如果你满足上面的我对你的期待,请发邮件并附简历。但是,只介绍你自己的情况是不够的,请认真详细说明你我互选的理由,特别是你对我的研究方向经过仔细探究以后的深入理解和兴趣所在,否则你的邮件能否被回复存在随机性^o^
- 参考资料:
- 总体介绍性学术报告视频:腾讯Wiztalk:第133期 《大数据泛构: 应对多样性挑战》
- 入门短文:Uhlmann, J.K., Satisfying General Proximity/Similarity Queries with Metric Trees. Information Processing Letter, 40(4), p. 175-179. (1991)
- 中文专著(撰写中):《大数据泛构-度量空间数据处理初探》
- 基本思路(旧称:大数据抽象,Big Data Abstraction):Rui Mao, Honglong Xu, Wenbo Wu, Jianqiang Li, Yan Li, and Minhua Lu. Overcoming the Challenge of Variety: Big Data Abstraction, the Next Evolution of Data Management for AAL Communication Systems. IEEE Communications Magazine, 2015, 53 (1), 42-47. 这个版本的论文里至少有3处明显的技术错误以及其它拼写、语法等错误,你能找出来吗?:-)
- 支撑点空间模型:Rui Mao, Willard L. Miranker and Daniel P. Miranker, Pivot Selection: Dimension Reduction for Distance-Based Indexing,Journal of Discrete Algorithms, Elsevier, Volume 13, May 2012, Pages 32–46. (SISAP2010 Best Paper期刊版)
- 支撑点选取:Rui Mao, Peihan Zhang, Xingliang Li, Xi Liu, Minhua Lu. Pivot selection for metric-space indexing, International Journal of Machine Learning and Cybernetics, 2016, 7 (2): 311-323.
- 数据划分:Rui Mao, Sheng Liu, Honglong Xu, Dian Zhang and Daniel P. Miranker, "On Data Partitioning in Tree Structure Metric-Space Indexes", in the Proceedings of The 19th International Conference on Database Systems for Advanced Applications (DASFAA2014), pages 141-155, April 21-24, 2014, Bali, Indonesia.
- 软件包:UMAD:Universal Management and Analysis of Data
可从事的研究方向(不定期更新中,欢迎提出其它方向):
- 基于大数据泛构的通用人工智能模型研究
多数AI模型仅支持向量数据,非向量数据往往要利用专门的向量化方法,导致模型通用性差,代码复用率低,研发成本高。基于大数据泛构的通用数据表征方法有望作为一种通用的向量化方法把常见向量AI模型高效适用到非向量数据新场景。主要研究内容:向量数据泛构后常见向量AI模型的性能变化机理和规律,非向量数据泛构后常见向量AI模型和专用非向量AI模型的性能差异机理和规律等。
- 基于大数据泛构的隐私计算研究
AI Generated Content (AIGC)的时代已经到来,数据隐私保护日益紧迫。现有隐私保护技术往往实用性有限,例如同态加密技术虽然安全性高计算性能好,但加解密代价过高。行业亟需具备一定安全性但保护代价低的实用隐私表征技术。基于大数据泛构的通用数据表征方法可以把未加密数据加密/泛构成向量数据,有望实现安全性、可计算性、计算代价间的可配置折衷。主要研究内容:泛构代价和安全性,泛构数据常见计算的准确性和正确性保证等。
- 度量空间数据划分的初等解析几何视角研究
相信很多人都学过,平面上到两个定点距离之和为常数的点的轨迹是椭圆,到两个定点距离之差为常数的点的轨迹是双曲线,到定点和定直线距离相等的点的轨迹是抛物线。可能很多人不知道,平面上到两个定点距离之比为常数或者夹角为常数的点的轨迹是阿波罗尼圆,到两个定点距离之积为常数的点的轨迹是卡西尼卵形线,到两个定点距离成线性关系的点的轨迹是笛卡尔卵形线。。。度量空间数据处理研究的一个基本途径是把没有坐标的度量空间数据映射到有坐标的支撑点空间,而支撑点空间的坐标其实是数据到定点的距离,前述的解析几何结论把两个空间的曲线联系了起来,这个方向可能做出一些有趣、有用的东西。主要研究内容:调研发现更多已有的面向到定点的距离的曲线,以曲线为基准的数据缩放规律,范围查询(圆)与曲线的交叉性判据,基于曲线的度量空间非线性数据划分方法,其它基于曲线的有趣的事情。。。让我们一起玩玩(这些可能在数学专业眼里很浅显的)数学吧。
- 大数据泛构的新应用
寻找新的应用场景可以有两个探索方向:1. 可以构成或接近构成度量空间的新数据类型和距离函数(例如图数据的各种距离,树的编辑距离及其二进制代码相似性应用(感谢曹无悔同学));2. 已知度量空间的除了相似性搜索、聚类、分类等之外的新型数据处理任务。如果新应用场景尚无解决方案,那么基于大数据泛构的解决方案就是有价值的。如果新应用场景已有解决方案,那么可以从性价比(应用性能vs开发维护成本)的角度衡量大数据泛构方案的价值。如果已有方案是更专用的,而大数据泛构方案的性能与已有方案接近甚至更优,那么大数据泛构方案的通用性就是优势。如果已有方案是更通用的,而大数据泛构方案的性能明显更优,那么也是有价值的。
- 现有降维方法在度量空间数据处理中的应用
大数据泛构的支撑点空间模型给度量空间加上了坐标,使得面向向量数据的降维等数学工具有可能应用于度量空间。前期已经把PCA用于支撑点选择和本征维度估算,其它的降维方法应该也具备了在度量空间上的可用性。如果一个降维方法会产生新的坐标轴,那完全可以类似PCA一样应用于度量空间。如果一个降维方法不会产生新的坐标轴,那么需要研究的问题至少包括:(1)降维计算代价;(2)把新增数据映射到已降维空间的计算代价;(3)降维前后数据分布的对应关系。
- 新类型支撑点选择方法
支撑点选择是度量空间数据处理的核心问题,简单地说就是从n个点里面选择k个点。可以考虑的新方法类型包括但不限于:特征提取、机器学习、优化理论、以及各种大力出奇迹的方法等。主要考虑的因素包括:计算代价、性能评价标准。。。
智能计算:(与鹏城实验室联合招收博士生,请直接联系:fangminghk@gmail.com):
人工智能、高性能计算、数据中心网络、计算机体系结构、软件工程、大数据科学等
医学影像智能分析与深度学习:
发展先进的智能医学信息和图像分析算法,借助高性能计算平台,对超声图像、神经影像、基因数据、电生理信号等医学图像及临床数据进行深入综合分析,在重大疾病(如心脑血管疾病和肿瘤等)的筛查、诊断及治疗等环节展开系统研究。
进一步了解我:2020深圳好青年(宣传片,终审汇报),第27届“深圳是我家”新春晚会暨深圳好青年新年演说会(17:55起,有“彩蛋”),《光明日报》2021年02月03日【一线讲述】
更新日期:July 24, 2024
访问统计: