研究项目

基因分析

本项目与深圳大学附属罗湖医院合作,基于膀胱癌患者的单细胞RNA-Seq数据,进行膀胱癌的亚类型鉴别以及关键致病基因发掘的研究工作。我们首先利用了差别表达分析识别出膀胱癌细胞与正常膀胱细胞的差异基因 (图1),以此由数据中剔除正常膀胱细胞。针对膀胱癌的亚类型鉴别,我们采用基于矩阵分解的数据聚类分析技术。这类方法能有效将高维度的单细胞RNA-Seq数据进行降维,并由低维度的信号进行聚类以及提取各群之间的差异细胞。图2呈现了将105例的癌细服分成5个群,而图3则呈现了各群组之间所挑选出来的关键致病基因。由图可见,所挑选出来的基因在各群之间有着明颢不同的表达量,此说明不同膀胱癌细胞的亚类型群之间有点明显不同的特征。

肾结石复发预测

本项目与深圳大学附属罗湖医院合作,利用大数据技术,通过病例分析预测肾结石的复发概率及可能复发的时间等。肾结石是一种易复发的疾病,目前项目已从罗湖医院获得800多份肾结石患者病例,基于这些数据,我们已完成的工作包括:

  • 将PDF格式的病例文件转成为文本文件。
  • 根据肾结石的特定进行中文分词。
  • 提取特征和特征赋值。
  • 复发预测和复发时间预测。

下一步,我们计划进行如下的工作:

  • 特征提取和特征赋值的方法改进。
  • 预测精度的提高。

 

音频对话采集

获取医生和病人的对话是进行面向医疗的自然语言处理的基础。在本项目中,我们自行设计了一套音频采集系统。该系统包括一个终端设备和一个数据服务器。终端设备摆放在医生的办公室,可以采集音频数据,并能够自动上传数据至大数据研究院的数据服务器。该套设备已经连续运行三个多月,稳定性好,采集的音频数据质量较高。目前研究院已经获得了100多天的音频文件。

病人回访系统

该项目和本市医院合作开发患者智能回访及数据采集系统。经过长达半年时间和一线医务人员的交流。我们发现现时本市大多医院维护患者回访都采用纸质手动的方式,费时费力;商用软件系统价格昂贵,而且功能不能满足医生的专业需要。本项目计划开发的系统能够紧密贴合各专科医生需求,并运用先进的物联网技术实现大规模、全方位的患者和医务数据采集,通过大数据处理技术为患者和医生提供服务。

不同于传统的患者回访系统,本项更侧重于患者相关信息的获得和处理。疾病和人的日常生活息息相关,如果能够实时的获得患者在治疗后的日常生理和生活信息,就可以对患者的康复状况有及时的了解,对患者复发的风险有更准确的估计。全方位的患者和医务数据对于医学研究、医疗体系的智能化发展都有着总要的意义。运用先进的物联网技术对患者数据的采集,使得本项目对发展智慧医疗有着重要的基础作用。

随着大量的患者日常生理、生活和医务数据的采集,医务人员难于直接阅读和分析这些数据。项目计划开发的大数据处理系统,可以对患者的数据做出实时的处理,给出易于医务人员理解的数据表达形式;并采用机器学习的方法,发现数据中潜在的规律。该系统能对患者的复发等风险做出评估,给医务人员提供参考的处理方案。使患者在院外能得到科学、专业和便捷的康复和继续治疗服务。 本项目的实施可以极大的提高我市医疗的信息化、智慧化程度,对医疗服务、医学研究、数据科学等领域的发展都有着重要的有意义。

学习分析

现代的大学和在线教育系统例如MOOC(Massive open online course)收集了许多学生数据,包括成绩,测试结果,课程材料访问频率等。通过挖掘这些数据,可以更好地评价和改善学生的学术成就,改进老师的教学方法,跟踪到课率,改进高校招生方法,监测学生的心理健康状况等等。国际上,美国斯坦福大学和明里苏达大学等高校已开展这方面的研究。在深圳市大数据研究院(SRIBD)的学业大数据研究项目中,SRIBD将与香港中文大学(深圳)合作,采用最新的机器学习和大数据方法,如隐语义模型和深度学习,对香港中文大学(深圳)的教学数据(已脱敏)进行深度挖掘,整合多类型大数据,探索构建智慧校园的重要组成部分。 团体成员包括海归学者,深圳海外高层次人才和计算机系统领域外籍资深专家。项目将 根据研究成果构建一套计算机系统,自动对教学数据进行分析和预测,预计年底前会在香港中文大学(深圳)试运行。项目负责人周博士介绍说,这个系统和传统的学生数据统计分析的区别在于对个性化分析和预测的侧重,而个性化的教学,实现“因材施教”一直是教育界的理想。随着用户画像技术的积累和工业4.0的到来,个性化已日益成为当今社会的一股潮流。该项目将对在教育领域的个性化分析、预测和推荐的研究和应用产生积极的贡献。

 

PNM智能分析算法

深圳市大数据研究院与华为技术有限公司合作设计开发PNM智能分析算法,共包括(1)光纤网络的上行和下行频谱图中的故障自动识别和量化特征提取;QAM星座图的故障自动识别和量化特征提取及星座图复原;(3)光纤网络通信信道均衡系数(时序序列)聚类;(4)拓扑表达和故障定位算法。合作双方利用先进的统计信号处理方法结合前沿的机器学习方法力图达到国内外领先的故障自动识别率和特征提取准确度。

相控阵子阵优化技术

本项目与中国电子科技集团公司第十四研究所合作。大型相控阵的天线阵元一般由几百甚至几千个组成,如果采用每个阵元对应一个接收通道的全自适应数字波束形成方法,则能够较好的保持其自由度和灵活性,但这样就需要对每个阵元接收到的信号进行单独处理。这样不但需要十分庞大的硬件设施,使得系统硬件成本很高,而且其对应的自适应算法和相关计算的复杂度也很高,使得系统的实时性较差。基于上述原因人们就提出了基于大型相控阵降维处理,将整个阵列划分为若干子阵,每个子阵包含部分阵元,在子阵级进行相关信号处理以实现不同需求。

基于深度学习的人机对话系统

人机自然语言对话系统是人工智能领域最富挑战性的研究,承载了人类科技的梦想。通用的人机对话自然语言对话系统目前仍然难以实现,本项目旨在基于深度学习技术,在特定领域实现一个人机自然语言问答系统。 基于Java平台,我们已经开发出一个可演示的系统原型,系统集语音识别、问题识别、答案生成、语音合成功能为一体。根据用户的语音输入,系统首先识别用户的信息,然后识别用户的问题,并在系统中寻找答案,并对答案做出评估,系统最后通过语音和车工返回最合适用户问题的答案。目前,系统集成了我们开发了多种最新的机器学习和深度学习技术,已经集成了多项功能:如自由对话、医疗问答、背古诗、写古诗等。