代写医学科研基金项目申请书
代写音乐体育艺术教学立项书
代写课题研究实施方案计划书
代写发原创职称论文毕业论文
课题开题报告科研立项申请书
代写企业项目申报立项申请书
代写科研课题结题成果报告书
代写科研技术可行性分析报告
科技成果转化项目可行性报告
国家自然科学基金申请书代写
国家社会科学基金申请书代写
提高医药卫生科研课题(省级)申报的中标率
国家社科基金申报经验分享
国家自然科学基金申请书写作攻略
·查新报告 ·结题报告
·医学论文 ·格式规范
·外科医学 ·中初教育
·经济金融 ·药学中医
·行政社会 ·农林食品
·理工基础 ·神经麻醉
·心脑血管 ·内科医学
·护理医教 ·文化文艺
·体育外语 ·机械材料
·法律军事 ·高教职教
·建筑电气 ·基础医学

名称:研友工作室
电话:0760-86388801
手机(微信):13380876598
邮箱:qsxkk@vip.163.com
地址:广东中山市学院路1号
网址: www.zsyy.com.cn
QQ:51643725
微信二维码:

业务联系
案例范本
海量信息可用性基础理论与关键技术研究
添加时间: 2022/5/9 13:52:27 来源: 作者: 点击数:

李建中 哈尔滨工业大学

2012.1-2016.8

一、关键科学问题及研究内容

2.1 关键科学问题

为了适应海量信息管理基础设施建设的需,针对国内外海量信息可用性管理研究现状和发展趋势,本项目将围绕多种类型(不仅仅是关系数据库中存储的关系型)和以多种方式存储(不仅仅是集中式存储)的海量信息,以信息一致性、精确性、完整性、时效性和实体同一性为核心,针对前面提出的五大挑战,保障信息可用性以及源于信息的知识的可用性为目标,解决量质融合管理劣质容忍原理深度演化机理三个关键科学问题创建一套完整的海量信息可用性理论、方法和技术体系。下边定义拟解决的三个科学问题。

1. 量质融合管理

量质融合管理是指数据、信息和知识三个层面上的量与质融合管理机制现有海量信息基础设施只关注信息的规模、系统的处理能力和可扩展性,重在的管理,忽视了信息“质量”(简称)的管理。目前,劣质信息普遍存在,已经在实际应用中产生了严重后果,造成了巨大损失。信息质量的管理已经成为目前的巨大挑战问题。为此,我们必须研究信息的管理问题,将信息管理从的管理拓展到的管理,最终实现的融合管理。信息来源于数据,知识来源于信息。数据的质量决定了信息的可用性,信息的可用性影响知识的可用性。为了彻底实现量质融合管理,我们必须在数据、信息、知识三个层面研究量质融合管理问题,提出完整的理论体系,解决关键技术问题。

2. 劣质容忍原理

劣质容忍原理是指包含错误的信息和知识上完成正确或近似计算推理的原理数据、信息和知识的错误几乎无处不在已成为不争的事实。劣质容忍是指在信息和知识存在错误的情况下,如何完成正确或相对正确的计算。为了实现劣质容忍,我们必须完成如下两个挑战性任务:第一,自动发现并修正信息和知识的错误,将可校正的劣质信息和知识修复为完全正确的可用信息和知识,支持正确的计算和推理。第二,很多信息和知识的错误无法完全修复,经过部分错误的修复后,这些信息成为部分正确的弱可用信息和知识。在这种情况下,我们必须解决如何在弱可用信息和知识上完成满足应用精度要求的近似计算和近似推理,取得满足用户质量要求的相对正确结果。

3. 深度演化机理

深度演化机理是指信息和知识多维度、全方位演化的内在机理信息不是一成不变的,它会随着时间和物理世界的变化而发生演化。源于信息的知识会随着信息的演化而进化。现有海量信息和知识管理在演化方面只关注完全正确的信息和知识,并仅限于探索随时间演化的过程。实际应用要求我们探索信息和知识的深度演化机理,即以可用性为核心多维度全方位、趋利、竞合演化机理。在信息的深度演化方面,我们需要研究多信息在时间、空间、形态、粒度等多个维度上正向协同的演化机理。在知识的深度演化方面,我们需要研究由原始物理数据到有简单语义的信息、再到有丰富语义的知识的纵向演化机理以及知识被不断发现、聚合、更新的横向演化机理。

2.2 主要研究内容

本项目将围绕量质融合管理劣质容忍原理深度演化机理三个关键科学问题,针对各种类型和不同形式存储的海量信息,以一致性、精确性、完整性、时效性和实体同一性为核心,沿着“数据信息知识应用的路线,深入系统研究多模态海量数据高质量获取与整合的理论和技术、海量信息可用性与量质融合管理的基础理论、海量信息错误自动检测与修复的理论和技术、海量弱可用信息上的近似计算理论和算法、海量弱可用信息上知识发现、演化与服务的理论和技术,提出完整的海量信息可用性的基础理论和关键技术,基础研究成果转换为有效的实用技术和算法,研制确保可用性的海量信息与知识量质融合管理原型系统,以中国数字海洋(国务院908专项)和社保与经济普查信息为对象,建立复杂物理信息和管理信息两类主要信息的可用性保障应用示范,验证基础研究结果的可用有效性。本项目的具体研究内容如下

2.2.1高质量多源多模态海量数据的获取与整合的理论与方法研究

由于信息源于数据,本课题将在数据层面围绕数据的“量质融合管理”“劣质容忍原理”“深度演化机理”这三个科学问题,针对数据的多源性和多模态性,以最大化数据质量为目标,以多模态数据融合计算为核心,研究高质量多源多模态海量数据的获取与整合的理论与方法,实现高质量的数据到信息的整合信息和知识的源头设置质量关,继而研究信息演化的机理。具体研究内容如下

1. 高质量多源多模态数据获取的多模态数据融合计算的理论与方法

首先研究数据源的质量评估模型理论,包括物理信息系统等多数据源的综合质量评估高质量数据源的选择方法

然后,研究多模态数据的质量评估模型理论,包括一致性、精确性、完整性、时效性、实体同一性等单指标质量评估模型以及多指标质量评估模型

后,针对各种模态数据的特点,研究高质量多模态数据获取的多模态数据融合计算方法,包括支持物理世界高精度重现的高质量多模态数据采集的理论与技术多模态数据的保质转换模型及算法、多模态数据真实性验证的理论与技术多模态数据错误校验技术、缺失值估计的理论与技术

2. 多源数据实体识别的多模态数据融合计算的理论和算法

首先,研究来自物理信息系统等多数据源的多模态数据的实体识别模型,包括多模态数据的关联模型、多源数据的关联模型;

然后,研究多源多模态数据实体自动识别的多模态数据融合计算的理论和算法,包括:物理信息系统中的实体特征表达和建模、针对多模态数据实体识别的高效、实时、分布式多模态融合计算的算法

最后,研究多模态数据实体识别效果的评估理论和算法,包括:实体识别效果评估模型、评估测试算法。

3. 数据到信息整合的多模态数据融合计算的理论和算法

首先,研究多源多模态信息集成模型,包括:支持物理信息系统复杂语义的多层整合模型,以及信息整合的可用性模型和评价方法等;

然后,研究多模态数据融合计算的理论与算法,包括:动态多模态数据智能转换模型、多模态信息融合的智能模式抽取和模式匹配算法、自动的容错映射和转换模型、支持动静态数据结合的多模态数据融合计算方法等;

最后,研究融合信息的正确性验证和保证的理论和方法,包括:信息整合的正确性模型和评价方法、多维度多目标清洗技术、分布式近似推演技术和延迟乱序纠正技术等。

4. 可用性驱动的海量信息演化机理

以最大化海量信息可用性为目标,研究海量信息的演化过程,建立海量信息演化的世系模型及追踪技术,主要包括时空、多粒度、多路径和不确定的海量信息演化的理论模型;演化模式的正向性评估模型与方法;演化的可逆性判定与近似求解算法;演化描述的复杂性理论和低复杂性演化描述方法;网络化、多粒度、概率化的世系追踪技术。

5. 研制多模态海量数据获取与整合原型系统

把上述基础理论研究成果转化为高效实用的算法和技术,研制一个多模态海量数据获取与整合原型系统,验证基础研究成果的可用性和有效性

2.2.2海量信息可用性与量质融合管理的理论基础研究

围绕信息的“量质融合管理”“劣质容忍原理”“深度演化机理”个科学问题,以各种类型和不同形式存储的海量信息为对象,针对海量信息可用性与量质融合管理的关键问题,建立统一的逻辑框架,提出完整的理论体系,为海量信息可用性管理奠定坚实的理论基础。具体研究内容如下

1. 海量信息可用性理论模型

首先,以各种类型和不同形式存储的海量信息为对象,分别研究海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的理论模型,分别解决这五个特性的判定问题及其计算复杂性理论

然后,研究海量信息一致性、精确性、完整性、时效性、实体同一性理论模型之间的交互影响

最后,基于五种理论模型及其交互关系,在统一的逻辑框架下,综合这五种理论模型,建立海量信息的综合可用性理论模型,研究海量信息可用性判定问题的计算复杂性理论及其求解算法

2. 海量信息可用性公理系统与推理机制

首先,根据海量信息的可用性理论模型,以各种类型和不同形式存储的海量信息为对象,以信息一致性、精确性、完整性、时效性、实体同一性为核心,研究海量信息可用性语义的表示机理,建立海量信息可用性公理系统,分析其描述语言的表达能力,研究公理系统的一致性、完备性、独立性,并研究信息可用性公理存在性问题和相关计算问题(如最大一致性规则子集求解问题)的计算复杂性和有效算法。

然后,研究从各类海量信息中自动发掘可用性公理问题可计算性与计算复杂性,并设计从各类海量信息中自动发掘公理的有效算法

最后,建立海量信息可用性推理机制,研究海量信息可用性自动推理问题的可计算性与计算复杂性,并设计有效的自动推理算法。

3. 海量信息可用性评估理论

首先,以各种类型和不同形式存储的海量信息为对象,分别建立海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性单指标定量评估理论。

然后,研究上述五种单指标评估理论之间的相互影响,提出海量信息可用性综合定量评估理论。

最后,研究海量信息可用性定量评估问题的可计算性理论与计算复杂性理论,并设计有效的海量信息可用性定量评估算法。

4. 海量信息量质融合管理的理论和算法

首先,研究支持海量信息”管理的信息模型和理论,包括信息的逻辑结构、信息运算系统、信息语义约束理论。

然后,研究信息“质”管理的模型和理论与传统信息管理模型和理论的融合问题,建立海量信息量质融合管理的模型和理论。

后,研究海量信息量质融合管理关键计算问题的可计算性和计算复杂性理论,并设计求解这些问题的有效算法,包括信息逻辑结构的物理实现问题、信息运算系统的实现算法问题、数据定义与操纵语言的优化处理算法问题等

5. 研制原型系统

基于上述理论研究成果,研制信息可用性公理自动发掘和自动推理原型系统、海量信息可用性自动评估原型系统、海量信息量质融合管理原型系统,验证基础研究成果的可用性和有效性。

2.2.3海量信息错误自动检测与修复的理论和技术研究

围绕海量信息的量质融合管理劣质容忍原理这两个科学问题针对各种类型和不同形式存储的海量信息,以海量信息可用性与量质融合管理的理论为基础,在高质量多模态数据获取与整合的前提下,研究海量信息错误自动检测和修复的可计算性理论和计算复杂性理论、信息错误自动检测和修复方法的可信性理论、高效海量信息错误自动检测与修复的算法。具体研究内容如下:

1. 海量信息错误自动检测和修复的可计算性理论

首先,以各种类型和不同形式存储的海量信息为对象,分别确定信息一致性错误、精确性错误、完整性错误、时效性错误及实体同一性错误(以下统称这些错误为个性错误自动检测和修复关键问题,研究每个关键问题可解的充分必要条件,建立每个关键问题的资源需求模型,判定每个关键问题可计算性。

然后,以各种类型和不同形式存储的海量信息为对象,确定多种个性错误同时发生的错误(以下简称综合错误)的自动检测和修复关键问题,研究每个关键问题可解的充分必要条件,判定每个关键问题可计算性。

2. 海量信息错误自动检测和修复的计算复杂性理论

首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误自动检测和修复关键问题,研究每个关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界等,为设计个性错误检测和修复关键问题的高效求解算法奠定基础

然后,以各种类型和不同形式存储的海量信息为对象,研究每类信息综合错误自动检测和修复关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界等,为设计综合错误检测和修复关键问题的高效优化求解算法奠定基础

3. 海量信息错误自动检测和修复的可信性理论

首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误,建立描述个性错误检测与修复结果的可信性模型,研究个性错误检测与修复结果可信性的定量评估方法,进而建立信息个性错误自动检测与修复方法的可信性评估模型,给出设计可信的个性错误检测与修复方法的基本准则。

然后,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的综合错误,建立描述综合错误检测与修复结果的可信性模型,研究综合错误检测与修复结果可信性的定量评估方法,进而建立综合信息错误自动检测与修复方法的可信性评估模型,给出设计可信的综合错误检测与修复方法的基本准则。

4. 海量信息错误自动检测和修复算法

首先,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误自动检测和修复关键问题,设计有效的精确或近似求解算法,并分析其计算精度、时间复杂性、空间复杂性和相对于复杂性界限和精度界限的优化性。此外,研究海量信息个性错误的弹性修复方法,探索个性错误监测和修复结果的质量与修复成本的关系,设计优化的个性错误检测和修复算法

<, FONT face=仿宋_GB2312>然后,以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的综合错误自动检测和修复关键问题,设计有效的精确和近似求解算法,并分析其精度、时间复杂性、空间复杂性和优化性,并探索综合错误监测和修复结果的质量与修复成本的关系,设计优化的综合错误检测和修复的算法

5. 研制海量信息错误自动检测和修复原型系统

把上述基础理论研究成果转化为高效实用的算法和技术,研制一个海量信息错误自动检测和修复原型系统,验证基础研究成果的可用性和有效性

2.2.4 海量弱可用信息近似计算理论和算法研究

海量信息中的错误不彻底修复时,这些信息成为弱可用信息。针对这种情况,我们围绕信息的劣质容忍原理这个科学问题,以各种类型和不同形式存储的弱可用海量信息为对象,研究直接在弱可用信息上进行近似计算的理论和算法,包括弱可用信息近似计算可行性理论、弱可用信息上近似计算问题的计算复杂性理论、弱可用信息上近似计算结果的质量评估理论、弱可用信息近似计算算法。

1. 弱可用信息近似计算的可行性理论

以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息上的计算问题(如各类查询、分析、挖掘问题)和给定的质量要求,研究弱可用信息上满足给定质量要求的计算问题的近似解存在性判定的理论和方法。当计算问题的近似解存在时,研究问题的可计算性。

2. 弱可用信息似计算问题的计算复杂性理论

首先,以可用性为复杂性测度,建立弱可用信息计算的以可用性为测度的新计算复杂性模型,研究这个复杂性模型与传统计算复杂性模型的关系,探索最小化可用性需求、时间复杂性和空间复杂性的多目标优化问题的理论。

然后,以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息,研究各种海量弱可用信息计算问题(如各类查询、分析、挖掘问题)的计算复杂性,特别是以可用性为测度的计算复杂性,包括所属复杂性类、计算复杂性下界、精度界限以及近似计算结果精度与计算复杂性的相关性

3. 弱可用信息近似计算结果的质量评估理论

以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息,建立近似计算结果的质量评测指标,创建近似计算结果质量评估的理论和方法。

4. 弱可用信息近似计算算法

首先,以各种类型和不同形式存储的弱可用海量信息为对象,以最小化可用性需求、时间复杂性和空间复杂性为目标,分别针对各类海量弱可用信息,设计求解各类问题(如各类查询、分析、挖掘问题)的近似计算算法,包括不一致海量信息近似计算算法、不精确海量信息近似计算算法、不完整海量信息近似计算算法、弱时效性海量信息近似计算算法、实体不同一的海量信息近似计算算法,探索弱可用信息近似计算算法的设计原理。

然后,以各种类型和不同形式存储的弱可用海量信息为对象,以最小化可用性需求、时间复杂性和空间复杂性为目标,研究同时存在多种类型错误的海量弱可用信息近似计算算法,探索这类算法的设计原理

5. 研制弱可用信息近似计算原型系统

基于上述基础理论研究成果,研制一个弱可用信息近似计算原型系统,验证基础研究成果的可用性和有效性

2.2.5 海量弱可用信息上知识发现、演化与服务的理论和技术研究

海量信息的可用性问题必然导致源于信息的知识的可用性问题。围绕知识的“量质融合管理”、劣质容忍原理深度演化机理个科学问题针对弱可用信息,研究知识可用性评估理论与方法弱可用信息上知识发现的信息完整性理论、弱可用信息上的知识发现算法、知识错误自动检测与修复的理论和方法、弱可用知识上的近似推理的理论与算法、源于弱可用信息的知识深度演化机理。具体研究内容如下:

1. 知识可用性评估理论与方法

知识的可用性受个因素的影响:信息可用性、知识发现过程、知识演化过程、应用需求。针对这个影响因素,研究知识可用性的评估理论和方法,包括知识可用性模型和度量标准、知识可用性的评估机制、知识可用性溯源管理的理论和技术。

2. 弱可用信息上知识发现的理论和算法

首先,研究各种知识发现问题所需要的最小信息集和最小可用性,建立面向每知识发现问题的信息完整性理论,判定能否在给定的海量弱可用信息中求解给定知识发现问题,确定弱可用信息上知识发现的可计算和计算复杂性

然后,研究弱可用信息上知识发现的理论体系,提出适于弱可用信息的知识发现方法,设计弱可用信息上的高效知识发现算法,并对发现的知识进行可用性和有效性评估

3. 知识错误自动检测与修复与弱可用知识推理计算的理论和方法

针对信息错误必然导致知识错误的问题,研究知识错误的自动发现和修复的理论和方法。

当知识中的错误不能彻底纠正的时候,知识成为弱可用知识。针对弱可用知识,研究弱可用知识的近似计算与推理的理论和算法。

4. 源于弱可用信息的知识深度演化机理

知识演化对于知识错误的检测和知识的应用具有重要意义。知识的演化沿着两个维度进行。一个维度是由原始数据到有简单语义的信息、再到有丰富语义的知识的纵向演化过程。另一维度是知识被不断发现、聚合、更新的横向演化过程。

首先,针对知识演化的两个维度建立可溯、趋利、竞合的知识演化模型,研究知识演化的趋利策略框架,建立知识演化过程的跟踪与引导方法

然后,研究追溯知识演化过程的理论与方法,包括知识纵向演化溯源的理论模型和方法、知识横向协同演化溯源的理论模型和方法。

5. 需求驱动的知识服务体系、原型系统及示范应用

知识服务是以实现需求获得相应收益为驱动的,每知识服务都将根据收益情况选择为需求提供服务的方式。为了确保知识服务能够实时、最大化地满足应用的动态需求,研究知识服务的激励机制以及多方协调机制,主要包括面向知识服务的需求发现机制、需求驱动的知识服务聚合、基于收益的知识服务多方协商机制。

基于前面的理论和技术成果,开发一套集成知识发现演化和服务知识服务原型系统。我们还将把互联网作为物理信息系统,以中文维基百科作为知识服务的上层应用,建设知识服务原型系统的示范应用验证基础研究成果的可用性和有效性

2.2.6确保信息可用性的海量信息量质融合管理原型系统及应用示范

依据上述基础研究结果,研制确保信息可用性的海量信息量质融合管理原型系统,并与2.2.5的知识服务原型系统有机集合,建立个确保信息和知识可用性的海量信息与知识量质融合管理原型系统,最后针对具有代表性的具体应用领域,建立两个应用示范。具体研究内容如下

1. 设计实现确保信息可用性的海量信息量质融合管理原型系统

首先把2.2.12.2.4的基础理论研究结果转化为高效实用的算法和技术;然后,设计量质融合的海量信息管理原型系统的模型、功能和结构;最终使用由2.2.12.2.4研究结果转化来的高效实用算法和技术,研制确保信息可用性的海量信息量质融合管理原型系统,实现如下功能:

(1) 具备传统信息管理系统的功能;

(2) 能够高质量地自动获取海量多源多模态数据,自动完成数据实体的同一化,并自动将这些数据整合为信息

(3) 支持信息可用性(即一致性、精确性、完整性、时效性和实体同一性)的描述、评估、自动推理与可用性公理的自动发掘;

(4) 能够自动检测并修复信息的不一致、不精确、不完整、过时和实体不同一等个性错误以及综合错误,并评估修复后信息的可

(5) 支持弱可用信息上近似计算,并能够评估计算结果的质量

(6) 能够自动跟踪、引导、追溯信息的多维度演化过程

2. 建立确保信息和知识可用性的海量信息与知识量质融合管理原型系统

把确保信息可用性的海量信息量质融合管理原型系统2.2.5的知识服务原型系统有机集成建立个确保信息和知识可用性的海量信息与知识量质融合管理原型系统,海量信息量质融合管理原型系统的基础上,增加如下功能

(1) 能够从海量可用信息中自动发现可用的知识,评估知识的可用性,自动检测和修复知识中的错误

(2) 能够自动跟踪、引导、追溯知识的纵向和横向演化过程

(3) 提供深层次的知识服务

3. 建立两种类型的信息可用性保障应用示范

本项目将重点建设两个具有代表性的应用示范,即复杂物理信息系统的信息可用性保障应用示范和管理信息系统的信息可用性保障应用示范,完成相关系原型统的开发,解决实际应用中与信息可用性相关的关键技术问题,验证本项目基础理论与关键技术研究成果的科学性和可用性。

(1) 中国数字海洋信息可用性保障应用示范

中国数字海洋建设是国务院批准实施的908专项“我国近海海洋综合调查与评价”的主要内容。中国数字海洋是在有关海洋的多学科长期积累的基础上,利用天基、空基、海基、路基等海洋信息获取技术,应用卫星监测、飞机监测、船舶监测、台站监测、浮标监测、水下监测、平台及海上固定监测等手段,对海洋进行海、陆、空、天全方位综合观测和评价,构建动态海洋时空信息平台,实现“海洋信息获取的数字化网络化、海洋信息管理的标准化规范化、海洋现象和过程重现的可视化、海洋分析评价和服务的智能化”,有效地支持“维护海洋权益与国家安全、保护海洋生态与环境、提高海洋资源利用水平、促进海洋经济发展”。从2003908专项实施以来,国家已经投资20亿元,完成了近海海洋综合调查、近海海洋环境综合评价、近海数字海洋信息基础框架的构建。目前,已经建立了大量基础数据库,积累了数十TB的信息,且信息以每年TB级的速度增长。然而,由于各种原因,这些信息中很多错误,根据抽样估计,15%的信息存在错误。信息错误已经在军事、渔业生产、海洋防灾减灾、海上国际关系等方面造成了很大损失。为此,本项目将重点研究开发中国数字海洋信息可用性保障应用示范,以满足国家在这方面的重大需求,为复杂物理信息系统的信息可用性保障机制的建设提供具有代表性的范例,主要研究下面几个问题:

A. 针对中国数字海洋的特点,分析总结数字海洋在信息可用性保障方面的各种需求;

B. 从中国数字海洋在信息可用性保障方面的需求,抽象出复杂物理信息系统的信息可用性保障的共性问题,并应用本项目的基础研究成果,研究解决这些问题的方法和技术;

C. 应用本项目取得的基础研究成果和本项目研制的海量信息和知识的量质融合管理原型系统,开发中国数字海洋信息可用性保障应用示范,为建设复杂物理信息系统的信息可用性保障机制奠定基础,提供有效范例。

(2) 社保信息与经济普查信息可用性保障应用示范

社会保险(简称“社保”)是事关社会和谐稳定、经济健康发展的重要社会和经济制度,社保信息包含了社会保险参保职工与用人单位的全部核心信息,其价值不可估量。确保社保信息的正确性对于保险费的正确征收与使用,保险金的正确发放,以及社保制度的发展和完善具有重要意义。经济普查信息包含了我国境内从事第二产业、第三产业活动的全部法人单位、产业活动单位和个体经营户的单位基本属性、从业人员、财务状况、生产经营情况、生产能力、原材料和能源消耗、科技活动情况等重要信息,是事关国家宏观经济政策制定的重要参考信息。经济普查信息的可用性将严重影响以此为依据制定的经济政策的可靠性与有效性,为此国务院20049月颁发的《全国经济普查条例》第五章第二十八条和第二十九条明确规定:“地方各级经济普查机构应当根据国务院经济普查领导小组办公室的统一规定,建立经济普查数据质量控制岗位责任制,并对经济普查实施中的每个环节实行质量控制和检查验收”;“国务院经济普查领导小组办公室统一组织经济普查数据的质量抽查工作,抽查结果作为评估全国及各地区经济普查数据质量的主要依据”。通过与北京市政府相关部门的合作,我们了解到,社保信息库和经济普查信息库中已经积累了数TB的信息,且以每年GB级的速度增长。然而,由于各种原因,这些信息中很多错误,根据抽样估计,有10%~20%的信息存在错误。例如,《中国新闻周刊》2005年第32期报道了2004年经济普查信息中存在的质量问题,例如,乐山市经委在经济普查中填报的“人员支出”为281.8万元,查实数据为1644万元,虚报率71%。由于社保和经济普查信息的重要性,本项目将研究开发社保和经济普查信息可用性保障应用示范,以满足国家在这方面的重大需求,为管理信息系统的信息可用性保障机制的建设提供具有代表性的范例,主要研究下面几个问题:

A. 针对社保信息和经济普查信息管理与分析的特定条件,分析总结社保信息和经济普查信息可用性保障方面的需求;

B. 从社保信息和经济普查信息可用性保障的需求,抽象出管理信息系统的信息可用性保障的共性问题,并应用本项目的基础研究成果,研究解决这些问题的方法和技术;

C. 应用本项目取得的基础研究成果和本项目研制的海量信息和知识的量质融合管理原型系统,开发社保信息和经济普查信息可用性保障应用示范,为建设管理信息系统的信息可用性保障机制奠定基础,提供有效范例。


二、预期目标

3.1 总体目标

本项目的总体目标是:面向我国海量信息管理基础设施建设重大需求,以海量信息可用性管理的量质融合管理劣质容忍原理深度演化机理三个科学问题为核心,研究海量信息可用性管理的基础理论关键技术,提出完整的海量信息可用性管理的理论体系、方法和关键技术,包括物理信息系统等多数据源有效地获取高质量多模态数据的理论和技术海量信息可用性和量质融合管理的理论和技术、信息错误的自动检测与修复的理论和技术海量弱可用信息近似计算的理论和技术弱可用信息上的知识发现和深度演化的理论和技术、知识可用性管理的理论和技术,解决确保信息和知识可用性的海量信息和知识量质融合管理系统的工程技术问题,研制原型系统,并针对中国数字海洋和社保经济普查信息,建立两类具有代表性的信息可用性保障应用示范,即复杂物理信息系统的信息可用性保障应用示范和管理信息系统的信息可用性保障应用示范,培养一批优秀的海量信息可用性管理研究和工程技术人才,为我国在未来510年建设新一代海量信息管理基础设施奠定坚实基础,为我国信息产业的持续快速发展国家发展战略的顺利实施提供理论基础和核心技术。

3.2 五年预期目标

1.基础理论研究方面的预期目标

(1) 提出四个基础模型: 信息可用性模型,多模态数据模型,支持量质融合管理的信息模型,知识可用性模型。

(2) 认知三种演化机理: 数据演化机理,信息演化机理,知识演化机理。 

(3) 解决七类理论问题: 数据、信息和知识的可用性评估理论;信息可用性公理化理论;信息与知识量质融合管理的基础理论多模态数据融合计算理论信息和知识错误自动发现与修复理论弱可用信息近似计算的理论;弱可用知识近似推理与近似计算理论

(4) 取得四项理论突破: 多模态数据融合计算理论;海量信息的量质融合管理理论;弱可用信息上的近似计算理论;弱可用知识上的近似推理与近似计算理论。

(5) 发表高水平学术论文:在IEEE/ACM Transactions等国际一流学术刊物发表论文30篇以上;在SIGMOD等国际重要学术会议发表论文60篇以上。

2.关键技术研究方面的预期目标

(1) 提出三类数据优质化技术多源多模态数据获取技术;多源数据实体识别技术;多模态数据融合计算算法。

(2) 提出五类信息可用性最大化技术: 信息可用性评估技术;信息可用性自动推理技术;信息错误自动发现与修复技术;弱可用信息近似计算技术;信息量质融合管理技术。

(3) 提出四类知识错误最小化技术: 弱可用信息知识发现算法;知识错误自动发现与修复算法;知识可用性评估技术;知识服务技术。

(4) 取得被授权或被受理国家专利和软件著作权:12项以上。

3.原型系统与示范应用方面的预期目标

(1) 研制一个原型系统:确保信息可用性的海量信息量质融合管理原型系统;

    (2) 建立二个代表性信息可用性保障应用示范:中国数字海洋信息可用性保障应用示范;社保与经济普查信息可用性保障应用示范。

4.人才培养方面的预期目标

(1) 养出具有国际影响的青年教师12名以上,并努力培养出国家杰出青年基金获得者、长江学者、教育部新世纪优秀人才。

    (2) 培养出具有国际一流学术水平的博士30名以上。


三、研究方案

4.1 总体思路

第一提出新理念,发现新问题,探索新理论,开创新技术。从海量信息可用性的自然特性出发、从海量信息管理的需求出发、从海量信息可用性管理与知识管理等其它学科交叉所产生的科学问题出发,以中国数字海洋和社保信息与经济普查信息为背景,研究海量信息可用性管理的挑战性问题,解决传统方法无法解决的问题,建立海量信息可用性管理的完整全新的理论体系和方法学。

第二,明确科学问题,选择突破点,合理确定研究内容。“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题为核心,在基础理论、方法学、实用技术三个层面,确定关键突破点,选择具有共性普遍意义五年内获得重大进展的问题,形成具体、明确、创新的研究内容

第三理论联系实际,以应用驱动基础研究,以基础研究提高应用水平。从实际出发,在实际应用中发现科学问题,以应用示范验证研究成果、反馈需求、推动基础研究不断深入初步产生社会和经济效益。

第四,出国际一流成果,培养国际一流团队,进入国际先进行列。在五年内提出完整的海量信息可用性基础理论与关键技术,取得一批海量信息可用性管理方面的国际一流研究成果,并取得部分引领国际研究的国际领先成果,培养一支国际一流的创新研究团队,为我国在该领域中的基础理论和关键技术研究打下深厚基础,为国民经济提供强有力的支持。

4.2 技术路线

本项目按照数据信息知识应用的路线开展研究,在数据、信息、知识、应用四个层面上解决“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题。在数据层面,针对数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究从物理信息系统等多数据源获取与整合高质量多模态海量数据的理论和技术在信息层面针对信息的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题研究海量信息可用性与量质融合管理的理论基础海量, 信息错误自动检测与修复的理论和技术海量弱可用信息上的近似计算理论和算法在知识层面,针对知识的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,研究海量弱可用信息上知识发现演化与服务的理论和技术在应用层面,整合基础研究结果,研制确保信息可用性的海量信息量质融合管理原型系统,并针对中国数字海洋、社保和经济普查信息,建立两类具有代表性的信息可用性保障应用示范(复杂物理信息系统的信息可用性保障应用示范、管理信息系统的信息可用性保障应用示范):中国数字海洋信息可用性保障应用示范、社保和经济普查信息的信息可用性保障应用示范,以验证基础研究结果的可用性有效性。下边是我们在这四个层面的各项研究中拟采用的具体技术路线。

4.2.1 数据层面研究中拟采用的技术路线

在数据层面,本项目将针对数据的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,集中研究从物理信息系统等多数据源获取与整合高质量多模态海量数据的理论和技术以多模态数据融合计算为核心,解决数据源多模态数据高质量获取多源多模态数据的实体识别、多模态数据到信息的高质量整合等问题,在信息的源头把住质量关,分别拟采用如下技术路:

(1) 物理信息系统等多源多模态数据高质量获取研究中,采用灰色关联分析等方法进行数据源质量综合评价,重点研究分析序列的确定及决策矩阵的构建,运用信息熵理论,建立数据源质量评估的理论与方法;针对各种模态数据特点,基于最大似然估计、时间维概率平滑、空间小组关系和有效路径统计信息反馈等途径,研究高质量多模态数据获取的多模态融合计算方法。数据获取方法要确保物理过程的正确重现;

(2) 物理信息系统等多源多模态数据的实体识别研究中,采用如下方法探索求解多源多模态数据实体识别的多模态数据融合计算方法:基于启发式规则和信息挖掘、非监督学习等方法,针对所有可能的关联链分析,检测实体的语义关联;采用近似函数依赖挖掘技术,结合多模态特征,提出新的相似性匹配算法;采用序列模式挖掘和匹配技术,基于行为和传播模式,准确识别实体

(3) 多模态数据到信息的高质量整合研究中,基于数据源质量设计多模态数据融合模型,研究求解多模态数据整合的多模态数据融合计算方法,实现高质量的数据到信息的整合。整合过程与信息可用性评估理论公理系统紧密结合,提高整合信息正确性和可用性

4.2.2 信息层面研究中拟采用的技术路线

信息层面的研究是本项目的重点,将针对信息的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题研究三方面的问题,即海量信息可用性与量质融合管理的理论基础海量信息错误自动检测与修复的理论和技术海量弱可用信息上的近似计算理论和算法,拟采用如下技术路线。

1. 海量信息可用性与量质融合管理基础理论研究的技术路线

主要解决海量信息可用性理论模型海量信息可用性公理系统与推理机制海量信息可用性的定量评估模型海量信息量质融合管理的基础理论、海量信息演化机理等问题,分别采用如下技术路线:

(1) 在海量信息可用性理论模型的研究中,首先用一阶逻辑、时序逻辑、误差估计理论、随机过程等不同数学方法建立海量信息的一致性、精确性、完整性、时效性和实体同一性的理论模型,然后在统一的逻辑框架下把用不同数学方法建立的理论模型融合成为一个完整的海量信息可用性理论模型。

(2) 在海量信息可用性公理系统与推理机制的研究中,为了有效表达海量信息可用性公理,设计表达能力强、兼容多种类型信息、具有低计算复杂性的逻辑语言和逻辑框架,建立推理机制,并证明其正确性,分析其计算复杂性和近似性,设计相应的算法。在公理发掘算法设计中,重点解决从海量弱可用信息中挖掘高可用公理系统以及提高算法效率的问题。

(3) 在海量信息可用性的定量评估模型方面,研究两种模型,即以可用性公理的最大满足子集作为评估测度的绝对可用性模型和面向应用需求的相对可用性模型,重点解决最大满足子集求解难题和应用需求可满足性判定问题,并设计高效求解算法

(4) 在海量信息量质融合管理基础理论的研究中,将沿着“质管理理论→量质融合管理理论→实现技术与算法”的路线开展研究。首先,解决海量信息“质”管理的核心理论和模型问题,建立海量信息“质”管理逻辑信息结构信息运算系统、信息约束理论;然后,研究海量信息“质”管理的理论和模型与传统信息“量”管理理论和模型的“融合”问题,建立支持海量信息量质融合管理逻辑信息结构信息运算系统、信息约束理论;最后,设计量质融合管理的信息定义与操纵语言、逻辑结构的物理实现技术、运算系统的实现算法、语言的优化处理技术与算法。

(5) 在可用性驱动的海量信息演化机理研究中,采用随机过程的分析方法,利用极限理论和多元分析技术研究信息的演化机理。在多模态海量信息演化的世系模型方面,建立信息描述复杂性理论,分析信息质量导致信息之间的跃迁关系,建立时空逻辑演变模型。在多模态海量信息演化的世系追踪技术方面,应用非经典测度论、贝叶斯推理及突变理论等工具,建立世系的导出规则,进而提出信息演化过程的追踪技术。

2. 海量信息错误自动检测与修复的理论和技术研究的技术路线

主要解决信息错误自动检测和修复的可计算性与计算复杂性理论海量信息错误自动检测和修复的可信性理论海量信息错误自动检测和修复算法的设计等问题,分别拟采用如下技术路线:

(1). 系统、全面、形式化地定义信息错误自动检测与修复问题,包括一致性错误、精确性错误、完整性错误、时效性错误、实体同一性错误等个性错误自动检测和修复问题以及多种个性错误同时发生的综合错误的自动检测和修复问题,给出这些问题的数学模型;

(2)海量信息错误自动检测和修复的可计算性与计算复杂性理论的研究中,研究求解每个问题所需要的信息完整性和信息可用性确立每类信息错误自动检测和修复问题相对于信息完整性和信息可用性的可解充分必要条件。对于可解问题,判定其可计算性。对每个可计算问题,研究其所属复杂性类,确定其时间复杂性下界和精度界限,为设计高效优化算法建立理论基础。

(3). 在海量信息错误自动检测和修复的可信性理论研究中,拟采用基于信息可用性公理系统确定错误检测与修复结果的可信性定量评估方法,将检测与修复结果可信性的评估问题转化为求解信息可用性公理集合的最大可满足子集问题,从而建立错误检测与修复的可信性评估模型和评估方法;在可信性评估模型的基础上,建立原始信息可用性与检测和修复结果可信性的函数关系,采用蒙特卡洛法和最大似然估计理论建立检测和修复方法的可信性评估理论和方法,继而确定可信检测与修复方法的设计准则。

(4)在海量信息错误自动检测修复算法的研究中,根据不同的信息类型和不同的错误类型采取不同的技术路线,基于信息可用性理论模型和公理系统的方法、基于规则和信息语义约束的方法、基于有限状态机理论的方法等,设计不同的算法,解决不同类型信息和不同类型错误的自动检测和修复问题。

对于综合性错误,在统一的逻辑框架下抽取检测和修复需要的基本操作以及操作间的依赖关系,建立信息修复成本与回报的代价模型,设计修复结果可用性最大化和数据操作成本最小化的操作序列优化算法。

信息完整性和信息可用性不满足信息错误自动检测和修复问题的可解的充分条件时,研究其可近似性。对于可近似问题,研究近似错误检测和修复算法,通过信息丢失估计基于语义标示等方法实现错误近似检测和修复并确定信息完整性和信息可用性对检测和修复精度的影响,提出近似错误检测和修复算法的误差估计方法和质量评估方法。

在信息错误自动检测和修复算法设计中,除了时间和空间复杂性最小化以外,也把信息完整性和可用性需求最小化最为优化目标。

3. 海量弱可用信息近似计算理论与算法研究的技术路线

主要解决海量弱可用信息近似计算的可行性理论弱可用信息近似计算问题的计算复杂性理论弱可用信息上近似计算结果的质量评估理论弱可用信息上近似计算算法设计等问题,分别拟采用如下技术路线:

(1) 在海量弱可用信息近似计算的可行性理论研究中,首先以可用性为主要因素,建立弱可用信息上满足给定质量要求的近似解存在的充分必要条件,然后研究该充分必要条件的可计算性

(2) 在弱可用信息近似计算问题的计算复杂性理论研究中,首先定义以信息可用性为测度的弱可用信息计算复杂性模型及其与时间和空间复杂性的关系。然后,针对广泛应用的代表近似计算问题(如查询、分析、挖掘等问题),研究每个问题的计算复杂性,特别是以可用性为测度的计算复杂性,所属的计算复杂性类对于P类问题,确定其计算复杂性下界;对于非P类问题,确定其近似计算性和精确度界限。

(3) 在弱可用信息上近似计算结果的质量评估理论研究中,首先确定近似计算结果质量评估的参照系;然后,建立近似计算结果的质量评测指标及其数学模型,并设计近似计算结果的评测指标计算方法;最后,根据评测指标的数学模型建立近似计算结果的综合质量评估模型,并设计其计算方法。

(4) 在弱可用信息近似计算算法研究中,运用随机采样技术选取质量评估参照系,在该参照系上,运用各种近似算法设计技术,如本项目申请人提出的海量信息ε-近似计算技术、(ε, δ)-近似计算技术等,设计各种具有代表性的近似计算问题(如查询、分析、挖掘等问题)的高效近似算法。

4.2.3 知识层面研究中拟采用的技术路线

在知识层面,本项目将针对知识的“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,集中研究海量弱可用信息上知识发现演化与服务的理论和技术,主要解决知识可用性评估理论与方法可用知识发现的信息完整性理论弱可用信息上知识发现算法知识错误自动检测与修复的理论和方法、知识服务、源于弱可用信息的知识深度演化机理等问题,分别拟采用如下技术路线:

(1) 知识可用性评估理论与方法的研究中,我们将首先广泛调研不同知识管理与服务应用对知识可用性的要求在此基础上总结出知识可用性的构成要素。然后,运用信息可用性的基础理论研究方法结合知识发现过程的理论模型,建立知识可用性模型、度量标准、评估机制。最后,在RDF知识表示模型的基础上,通过扩展描述逻辑,研究支持可用性管理的知识表示方法和知识评估理论。

(2) 知识错误自动检测与修复的理论和方法的研究中我们将首先扩展信息错误自动检测与修复的理论和方法,结合知识管理与服务的实际需求与特点,在知识可用性评估理论的基础上,提出知识错误自动发现和修的理论和方法。我们将知识错误检测分为两类:关联知识错误检测和逆向知识错误检测。关联知识错误检测依据知识之间的关联关系,检测到某些知识的错误;而逆向知识错误检测则通过检测推理得到知识中的错误,通过溯源找到原输入知识的错误。在检测到错误知识后,可以通过知识之间的关联关系等方法来进行自动修复。最后,针对无法修复的知识,我们研究弱可用知识近似推理的理论和算法,尽可能利用已有知识中的正确知识,最大化推理结果的可用性。

(3) 源于弱可用信息的知识深度演化机理的研究中,我们将结合信息演化机理的研究结果和知识可用性的特有要素,建立知识纵向溯源演化和横向协同演化的表示模型。在知识纵向演化机理的研究中,我们将研究知识可用性随信息可用性变化而演变的规律。在知识横向演化机理的研究中,我们将探索不同来源知识间竞争与协同的演化规律。结合这些规律,我们将建立有效的知识演化的管理理论和方法确保知识的演变过程朝着增强可用性的方向发展。

(4) 可用知识发现的信息完整性理论弱可用信息上知识发现算法研究中,我们首先针对海量弱可用信息上具有代表性的知识发现问题,建立知识发现的信息及其可用性需求模型,称为(ε,δ)-框架,其中ε是为作为知识发现算法输入的信息集的可用性度量,δ是知识库的可用性度量。然后,在该需求模型的基础上,研究知识发现问题所需要的最小信息集和最小可用性,继而判定能否在给定的海量信息中求解给定知识发现问题然后结合现有知识发现理论体系和算法引入弱可用信息和知识的特有要素,设计弱可用信息上的知识发现算法

(5) 在需求驱动的知识服务体系的研究中,我们将首先探索知识服务需求的主要特征和建模方法,在其基础上定义知识服务的目标和收益函数,从而设计一套面向知识服务的激励机制。然后,在该激励机制的基础上,研究需求驱动的知识服务聚合算法和知识服务多方协商机制,以确保知识服务能够实时、最大化地满足应用的动态需求。与此同时,我们将通过扩展自动机理论,采用状态转换方法,解决知识服务在动态环境中的自适应问题。

4.2.4 应用层面研究中拟采用的技术路线

在应用层面本项目将整合基础研究结果,研制确保信息和知识可用性的海量信息与知识量质融合管理原型系统,建立两个应用示范,验证基础研究结果的可用性有效性,拟采用的技术了路线如下:

(1) 以理论指导实践,综合基础研究成果,把基础研究成果转化为高效实用的算法和技术,合理运用先进的软件工程技术及开发工具,首先构建海量信息可用性管理核心组件,然后将核心组件与现有海量信息管理系统融合,建立起确保信息可用性的海量信息量质融合管理原型系统。在海量信息可用性管理核心组件开发过程中,与深圳华傲数据技术有限公司等企业合作,进行软件产品化。

(2) 把海量信息量质融合管理原型系统与2.2.5开发的可用知识发现与服务系统相融合,构建确保信息和知识可用性的海量信息与知识的量质融合管理原型系统。

(3) 针对中国数字海洋和社保与经济普查信息的特点,与中国海洋信息中心、上海海洋大学、北京市政府相关部门合作,深入了解应用需求,明确应用目标,建立分别适合于复杂物理信息系统和管理信息系统的两类信息可用性管理应用示范,并通过应用示范的实施效果验证基础研究结果的可行性和有效性。

(4) 在应用示范的开发过程中,根据中国数字海洋的需求,抽象出复杂物理信息系统对信息可用性保障的一般性需求,提炼出复杂物理信息系统信息可用性的共性实践问题,并应用2.2.12.2.5中的基础研究结果解决这些共性实践问题,提出复杂物理信息系统信息可用性保障的一般性解决方案。

(5) 在开发应用示范的过程中,针对社保信息和经济普查信息管理的需求,抽象出管理信息系统对信息可用性保障的一般性需求,提炼出管理信息系统信息可用性保障的共性实践问题,并应用课题1到课题5的基础研究结果解决这些共性实践问题,提出管理信息系统信息可用性保障的一般性解决方案。

4.3 创新点

1. 提出多模态数据融合计算的新思想,建立多源多模态数据高质量获取与整合的理论和技术:数据质量最大化和确保物理世界正确重现为目标,提出求解物理信息系统等多数据源获取高质量多模态数据、多源多模态数据实体识别、多模态数据到信息的高质量整合等问题的多模态数据融合计算的理论与算法

2. 提出完整的海量信息可用性的理基础理论,全面系统地认知和解决海量信息可用性问题:“一致性,精确性、完整性、时效性、实体同一性”为核心,建立海量信息可用性的理论模型、海量信息可用性公理系统和推理机制、海量信息可用性评估理论、海量信息量质融合管理的模型和理论,并确定海量信息可用性公理发掘问题、可用性评估问题、量质融合管理关键计算问题的可计算性与计算复杂性理论,设计求解这些问题的多模态信息融合计算算法

3. 提出信息错误检测与修复自动化的理论和技术,解决自动检测与修复信息错误的难题:“一致性,精确性、完整性、时效性、实体同一性”为核心,以信息错误检测和修复自动为目标,提出信息错误自动检测和修复问题的可计算性理论和计算复杂性理论、信息错误自动检测和修复方法的可信性理论、高效实用的海量信息错误自动检测与修复算法,制定设计可信检测与修复方法的基本准则

4. 提出弱可用信息上近似计算的新理念、新理论和新算法, 解决信息错误不能彻底修复时如何完成满足精度约束的计算问题,使弱可用信息在实际应用中发挥良性作用提出海量弱可用信息(即包含部分错误的信息)上满足给定质量要求的近似计算的可行性理论近似计算问题计算复杂性理论(特别是以可用性为测度的计算复杂性理论)、近似计算结果的质量评估理论、求解近似计算问题的高效算法(e-近似算法和(e,d)-近似算法)

5. 提出弱可用信息上知识发现和服务的新理念、新理论和新技术:建立知识可用性评估理论与方法,提出弱可用信息上知识发现的理论和算法、知识错误自动检测与修复的理论和方法、弱可用知识的近似推理和近似计算的理论和算法,使得包含错误的信息能够提供可用的知识,包含错误的知识能够提供有效的服务

4.4 可行性分析

研究内容与课题设置的可行性:本项目首先经过深入理解信息可用性的内涵与外延,确定了“量质融合管理”、“劣质容忍原理”、“深度演化机理”三个关键科学问题。然后,在系统深入地分析国内外研究现状和发展趋势的基础上,围绕三个关键科学问题,从基础理论、方法学、实用技术三个维度,确定了关键突破点,选择具有共性普遍意义的问题,形成具体、明确、创新的六项研究内容,在重点研究信息可用性的基础理论和关键技术的同时,也深入研究产生信息的数据和源于信息的知识的质量和可用性的基础理论与关键技术,并建立具有代表性的应用示范,从数据、信息、知识、应用四个层面解决三个关键科学问题。本项目研究内容具体明确,突出了新理念、新发现、新理论、新技术,重点突出,内容有所为有所不为,既符合973项目的定位,也五年内获得重大进展,合理可行。根据各参加单位的特点和研究基础,我们把本项目的研究内容划分为相对独立的六部分,设置了六个课题,每个课题都由具有坚实相关研究基础的单位负责。各个课题组既相对独立又紧密结合,既有分工又有合作,重点难点问题联合攻关。六个课题设置合理,能够确保在首席科学家的带领下,协同完成本项目的研究任务。

研究方案与技术路线的可行性:本项目按照数据信息知识应用的路线开展研究,在数据、信息、知识、应用四个层面上解决“量质融合管理”、“劣质容忍原理”与“深度演化机理”这三个科学问题,层次清楚,总体方案合理。本项目对于每个基础理论问题、每个关键技术问题、每个应用示范,都给出了明确具体的研究方法、研究思路、相关理论和技术,技术路线详细周密明确清晰。各个课题组在多年研究中已取采用过相关技术路线,取得了很多研究成果,初步证实了本项目这些技术路线的正确性和可行性。

研究团队完成本项目的可行性:本团队由国内长期从事海量信息获取、海量信息管理、信息可用性管理、知识发现与服务等研究的高水平研究人员组成,具备优良的研究条件,拥有长期理论研究和实践积累,已在本课题的具体研究内容方面取得了一系列成果。在海量信息可用性管理基础理论、海量信息错误自动检测与修复等方面的研究成果达到国际先进水平,近年来已发表了一系列篇高水平学术论文,拥有个实验平台,为实现本项目的研究目标创造了良好条件。本项目课题组近年来承担多项海量数据获取、海量信息管理、信息质量管理、知识发现与服务方面的973课题、863项目、国家自然科学基金重点项目面上项目,取得了诸多研究结果,具备完成本项目的研究基础和能力。

4.5 课题设置

围绕着本项目的总体目标,针对量质融合管理劣质容忍原理深度演化机理三个关键科学问题和六项主要研究内容,结合参加研究单位的优势与特点,我们设立了六个课题,涵盖全部研究内容各课题之间相互联系相对独立,协同解决三个关键科学问题,共同推进项目的进展。

4.5.1 六个课题的设置

课题1:高质量多源多模态海量数据获取与整合的理论和技术研究

研究目标:围绕数据的量质融合管理“劣质容忍原理”、深度演化机理个科学问题,研究从物理信息系统等多数据源有效获取高质量多模态数据的理论和方法,实现数据到信息的高质量整合继而探索信息演化的机理信息的源头设置质量关

研究内容:

1. 高质量多源多模态数据获取的多模态数据融合计算的理论与方法

(1) 为了确保数据的质量,研究数据源的质量评估理论模型,包括:物理信息系统等多数据源的综合质量评估方法和高质量数据源的选择方法;

(2) 研究多模态数据的质量评估理论模型,包括:精确性、完整性、时效性、实体统一性等单指标评质量估模型以及多指标综合质量评估模型;

(3) 针对各种模态数据的特点,研究高质量多模态数据获取的多模态数据融合计算方法,包括支持物理世界正确重现的高质量多模态数据采集的理论与技术多模态数据的保质转换模型及算法、多模态数据真实性验证的理论与技术多模态数据错误校验技术、缺失值估计的理论与技术

2. 多源数据实体识别的多模态数据融合计算的理论和算法

(1) 研究来自物理信息系统等多数据源的多模态数据的实体识别模型,包括多模态数据的关联模型、多源数据的关联模型

(2) 研究多源多模态数据实体自动识别的理论和方法,包括:物理信息系统中的实体特征表达和建模、求解多模态数据实体识别问题多模态数据融合计算的理论和算法

(3) 研究实体识别效果的评估理论和算法,包括:实体识别效果评估模型、评估测试算法

3. 数据到信息整合的多模态数据融合计算的理论和算法

(1) 研究多源多模态信息集成模型,包括:支持物理信息系统复杂语义的多层整合模型,多模态数据智能转换模型等;

(2) 研究求解多模态数据整合问题的多模态数据融合计算的理论与算法,包括:多模态数据融合的智能模式抽取和模式匹配算法、自动的容错映射和转换模型及算法等;

(3) 研究融合信息的质量评估和正确性验证的理论和方法,包括:信息整合的正确性模型和评价方法、多维度多目标正确性检测算法等。

4. 可用性驱动的海量信息演化机理

(1) 研究海量信息的演化过程,建立海量信息演化的世系模型,包括时空、多粒度、多路径和不确定的海量信息演化的理论模型;

(2) 研究海量信息的演化理论,包括:低质量数据到高质量数据的正向演化理论、演化描述的复杂性理论和低复杂性演化描述方法演化的可逆性判定与近似求解算法

(3) 研究海量信息演化的追踪技术,包括:网络化、多粒度、概率化的世系追踪技术。

5. 研制高质量多模态海量数据获取与整合原型系统

把上述基础理论研究成果转化为高效实用的算法和技术,研制一个高质量多模态海量数据获取与整合原型系统,主要功能包括:多模态海量数据的提取和清洗、基于实体识别与信息融合技术的海量信息整合,以及海量信息演化的世系分析,验证基础研究成果的可用性和有效性。

经费比例:15.625%

承担单位:东北大学、上海交通大学

课题负责人:于戈

学术骨干:王国仁、陈贵海、杨晓春、谷峪

课题2:海量信息可用性与量质融合管理的理论基础研究

研究目标:围绕信息的量质融合管理劣质容忍原理这两个科学问题,以各种类型和不同形式存储的海量信息为对象,建立海量信息可用性和量质融合管理的基础理论,包括海量信息可用性的理论模型、评估理论公理系统与推理机制支持量质融合管理的逻辑信息结构、运算系统、信息约束理论;量质融合管理关键计算问题的可计算理论、计算复杂性理论和求解算法的设计与分析

研究内容:

1. 海量信息可用性理论模型

(1) 以各种类型和不同形式存储的海量信息为对象,分别研究海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的理论模型,分别解决这五个特性的判定问题的计算复杂性理论和求解算法;

(2) 研究海量信息一致性、精确性、完整性、时效性、实体同一性理论模型之间的交互影响;

(3) 基于五种理论模型及其交互关系,在统一的逻辑框架下,建立海量信息的可用性理论模型,特别是多模态信息的可用性理论模型,研究海量信息可用性判定问题及其计算复杂性理论

2. 海量信息可用性公理系统与推理机制

(2) 根据海量信息的可用性理论模型,以各种类型和不同形式存储的海量信息为对象,以信息一致性、精确性、完整性、时效性、实体同一性为核心,研究海量信息可用性语义的表示机理,研究信息可用性公理存在性问题和相关计算问题(如最大一致性规则子集求解问题)的计算复杂性和求解算法,建立海量信息可用性公理系统,分析其描述语言的表达能力,研究公理系统的一致性、完备性、独立性;

(2) 研究从各类海量信息中自动发掘可用性公理问题可计算性与计算复杂性,并设计从各类海量信息中自动发掘公理的有效算法;

(3) 建立海量信息可用性推理系统,研究海量信息可用性自动推理问题的可计算性与计算复杂性,并设计有效的自动推理算法。

3. 海量信息可用性评估理论

(1) 以各种类型和不同形式存储的海量信息为对象,分别建立海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性单指标定量评估理论。

(2) 研究上述五种单指标评估理论之间的相互影响,提出海量信息可用性综合定量评估理论。

(3) 研究海量信息可用性定量评估问题的可计算性理论与计算复杂性理论,并设计有效的海量信息可用性定量评估算法。

4. 海量信息量质融合管理的理论和技术

(1) 海量信息可用性理论模型海量信息可用性公理系统与推理机制海量信息可用性评估理论的基础上,研究支持海量信息管理的信息模型和理论,包括逻辑信息结构、运算系统、语义约束理论。

(2) 研究信息“质”管理模型和理论与传统信息管理模型和理论的融合问题,建立海量信息“量质”融合管理的模型和理论,包括逻辑信息结构、运算系统、语义约束理论

(3) 研究海量信息量质融合管理关键问题(如运算系统的实现算法、信息操纵语言的优化处理等问题)的可计算性和计算复杂性理论,设计求解量质融合管理关键问题的有效技术和算法,包括信息定义与操纵语言的设计、逻辑信息结构的物理实现技术、运算系统的实现算法、语义约束机制的设计、信息定义与操纵语言的优化处理算法、量质融合管理的系统结构等

5. 研制原型系统

基于上述理论研究成果,研制实现海量信息可用性公理自动发掘和自动推理、海量信息可用性自动评估、海量信息量质融合管理的原型系统软件,验证基础研究成果的可用性和有效性。

经费比例:18.75%

承担单位:哈尔滨工业大学

课题负责人:李建中

学术骨干:姜守旭、张岩、骆吉洲、邹兆年

课题3:海量信息错误自动检测与修复的理论和技术研究

研究目标:围绕信息量质融合管理劣质容忍原理这两个科学问题,以各种类型和不同形式存储的海量信息为对象,针对目前海量信息可用性管理系统不能实现自动错误检测和修复的现状,以海量信息可用性与量质融合管理的理论为基础,在高质量多模态数据获取与整合的前提下,研究海量信息错误自动检测和修复的理论和方法提出信息错误自动检测和修复问题的可计算理论与计算复杂性理论,设计高效错误自动检测和修复的算法,建立信息错误自动检测和修复方法的可信性理论。

研究内容:

1. 海量信息错误自动检测和修复的可计算性理论

(1) 以各种类型和不同形式存储的海量信息为对象,分别确定信息一致性错误、精确性错误、完整性错误、时效性错误以及实体同一性错误等个性错误的自动检测和修复的关键问题,研究每个关键问题可解的充分必要条件,建立每个关键问题的资源需求模型,判定每个关键问题的可计算性;

(2) 以各种类型和不同形式存储的海量信息为对象,确定多种个性错误同时发生的综合错误的自动检测和修复的关键问题,研究每个关键问题可解的充分必要条件,判定每个关键问题的可计算性。

2. 海量信息错误自动检测和修复的计算复杂性理论

(1) 以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误自动检测和修复的关键问题,研究每个关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界,为设计个性错误检测和修复关键问题的高效优化求解算法奠定基础;

(2) 以各种类型和不同形式存储的海量信息为对象,研究每类信息综合错误自动检测和修复的关键问题的计算复杂性,包括所属复杂性类及计算复杂性下界,为设计综合错误检测和修复关键问题的高效优化求解算法奠定基础。

3. 海量信息错误自动检测和修复的可信性理论

(1) 以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误,建立描述个性错误检测与修复结果的可信性模型,研究个性错误检测与修复结果可信性的定量评估方法,进而建立信息个性错误自动检测与修复方法的可信性评估模型,给出设计可信的个性错误检测与修复方法的基本准则;

(2) 以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的综合错误,建立描述综合错误检测与修复结果的可信性模型,研究综合错误检测与修复结果可信性的定量评估方法,进而建立综合信息错误自动检测与修复方法的可信性评估模型,给出设计可信的综合错误检测与修复方法的基本准则。

4. 海量信息错误自动检测和修复方法

(1) 以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的各种个性错误自动检测和修复的关键问题,设计有效的精确或近似求解算法,并分析其计算精度、时间复杂性、空间复杂性和相对于复杂性下界与精度界限的优化性。此外,还研究海量信息个性错误的弹性修复方法,实现个性错误修复结果可信性与修复成本的匹配。

(2) 以各种类型和不同形式存储的海量信息为对象,分别针对每类信息的综合错误自动检测和修复的关键问题,设计有效的精确和近似求解算法,并分析其精度、时间复杂性、空间复杂性和优化性,并研究海量信息综合错误的弹性修复方法,实现综合错误修复结果可信性与修复成本的匹配。

5. 研制海量信息错误自动检测和修复原型系统

把上述基础理论研究成果转化为高效实用的算法和技术,研制一个海量信息错误自动检测和修复原型系统,验证基础研究成果的可用性和有效性

经费比例:15.625%

承担单位:西北工业大学、华东师范大学

课题负责人:李战怀

学术骨干:周傲英、林学民、陈群、尚学群

课题4:海量弱可用信息近似计算的理论和算法研究

研究目标:围绕信息的劣质容忍原理这个关键科学问题包含部分错误的海量弱可用信息为对象,提出海量弱可用信息近似计算的可行性理论与计算复杂性理论、近似计算结果的质量评估理论和方法、弱可用信息近似计算算法,确定信息可用性、近似算法时间复杂性与近似计算结果质量三者之间的关系。

研究内容:

1. 弱可用信息近似计算的可行性理论

(1) 以各种类型和不同形式存储的弱可用海量信息为对象,建立各类海量弱可用信息上满足给定的质量要求的各种计算问题(如各类查询、分析、挖掘问题)的数学模型;

(2) 研究各类计算问题的近似解的存在性判定的理论和方法;当计算问题的近似解存在时,研究问题的可计算性。

2. 弱可用信息似, 计算问题的计算复杂性理论

(1) 以可用性为复杂性测度,建立弱可用信息计算的以可用性为测度的复杂性模型,研究这个复杂性模型与传统计算复杂性模型的关系,探索最小化可用性需求、时间复杂性和空间复杂性的多目标优化问题求解的理论和方法。

(2) 以各种类型和不同形式存储的弱可用海量信息为对象,分别针对各类海量弱可用信息,研究各种海量弱可用信息计算问题(如各类查询、分析、挖掘问题)的计算复杂性,特别是以可用性为测度的计算复杂性,包括所属复杂性类、计算复杂性下界、精度界限以及近似计算结果精度与计算复杂性的相关性

3. 弱可用信息近似计算结果的质量评估理论

(1) 针对各种类型和不同形式存储的弱可用海量弱可用信息,建立弱可用信息近似计算结果的质量评测指标。

(2) 建立弱可用信息近似计算结果的质量评估理论,提出在各类海量弱可用信息近似计算结果质量评估的方法。

4. 弱可用信息近似计算算法

(1) 以各种类型和不同形式存储的弱可用海量信息为对象,以最小化可用性需求、时间复杂性和空间复杂性为目标,分别针对各类海量弱可用信息,设计求解各类问题(如各类查询、分析、挖掘问题)的近似计算算法,包括不一致海量信息近似计算算法、不精确海量信息近似计算算法、不完整海量信息近似计算算法、弱时效性海量信息近似计算算法、实体不同一的海量信息近似计算算法,探索弱可用信息近似计算算法的设计原理。

(2) 以各种类型和不同形式存储的弱可用海量信息为对象,以最小化可用性需求、时间复杂性和空间复杂性为目标,研究同时存在多种类型错误的海量弱可用信息近似计算算法,探索这类算法的设计原理

5. 研制弱可用信息近似计算原型系统

基于上述基础理论研究成果,研制一个弱可用信息近似计算原型系统,验证基础研究成果的可用性和有效性

经费比例:15.625%

承担单位:广州市香港科大霍英东研究院、清华大学

课题负责人:陈雷

学术骨干:樊海宁、杨铮、连翔

课题5:海量弱可用信息上知识发现、演化与服务的理论和技术研究

研究目标:围绕知识的“量质融合管理”、劣质容忍原理深度演化机理个科学问题,研究海量弱可用信息上知识发现、演化与服务的理论和技术, 提出知识可用性评估理论与方法、可用知识发现的信息完整性理论、弱可用信息上的知识发现算法、知识错误自动检测与修复的理论和方法、弱可用知识上的近似推理的理论与算法、源于弱可用信息的知识深度演化机理,建立需求驱动的知识服务体系、原型系统及示范应用。

研究内容:

1. 知识可用性评估理论与方法

知识的可用性受如下三个因素的影响:信息可用性、知识发现过程、应用需求。针对这三个影响因素,本课题将深入研究对知识可用性的建模、评估、监测和管理的理论。

(1) 研究应用对知识可用性的多样化需求,建立一个全面且灵活的可用性模型和可用性度量标准。

(2) 研究知识可用性的评估方法和机制。

(3) 研究如何将知识溯源理论和可用性管理机制相结合,建立知识项和知识发现过程的联系,生成高效的知识溯源管理模型

2. 可用知识发现的信息完整性理论弱可用信息上的知识发现算法

(1) 研究各种知识发现问题所需要的最小信息集和最小可用性,建立面向每种知识发现问题的信息完整性理论,判定能否在给定的海量信息中求解给定知识发现问题,解决弱可用信息上知识发现的可行性问题

(2) 建立弱可用信息上知识发现的理论体系,探索于弱可用信息的知识发现新方法,设计弱可用信息上的高效知识发现算法,研究知识可用性和有效性评估的理论和方法

3. 知识错误自动检测与修复的理论和方法

(1) 研究知识错误的自动发现理论和方法,结合知识可用行的评估理论,建立高效的知识错误诊断体系。

(2) 研究知识自动修复的可行性理论和知识的自动修复方法。

(3) 针对错误不能彻底纠正弱可用知识,研究弱可用知识近似推理和近似计算的理论和算法。

4. 源于弱可用信息的知识深度演化机理

知识的演化沿着两个维度进行。一个维度是由原始数据到有简单语义的信息、再到有丰富语义的知识的纵向演化过程。另一个维度是知识被不断发现、聚合、更新的横向演化过程。

(1) 研究知识的纵向演化的过程,建立知识纵向溯源演化的理论模型和方法。

(2) 研究知识的横向演化中的趋利机制和协同机制,建立知识横向协同演化的理论模型和方法。 

5. 需求驱动的知识服务体系、原型系统及示范应用

(1) 研究知识服务的需求发现机制激励机制

(2) 研究需求驱动的知识服务聚合方法和知识服务的多方协调机制,确保知识服务能够实时、最大化地满足应用的动态需求

(3) 开发一套集成知识发演化和服务知识服务原型系统,并把互联网作为物理信息系统,以中文维基百科作为知识服务的上层应用,建设知识服务原型系统的示范应用

经费比例:15.625%

承担单位:中国人民大学

课题负责人:杜小勇

学术骨干:周晓方、陈红、何军、周

课题6:确保信息可用性的海量信息量质融合管理原型系统及应用示范

研究目标:研制确保信息可用性的海量信息量质融合管理原型系统,并针对具有代表性的中国数字海洋和社保经济普查信息系统建立面向复杂物理信息系统和管理信息系统的两类具有代表性的信息可用性保障应用示范,验证本项目取得的基础研究结果的可用性有效性。

研究内容:

1. 设计实现确保信息可用性的海量信息量质融合管理原型系统

首先把课题1至课题4的基础理论研究结果转化为高效实用的算法和技术;然后,设计量质融合的海量信息管理原型系统的模型、功能和结构;最终使用由课题1至课题4研究结果转化来的高效实用算法和技术,设计实现确保信息可用性的海量信息量质融合管理原型系统,实现如下功能:

(1) 具备传统信息管理系统的功能;

(2) 能够高质量地自动获取海量多源多模态数据,自动完成数据实体的同一化,并自动将这些数据整合为信息

(3) 支持信息可用性(即一致性、精确性、完整性、时效性和实体同一性)的描述、定量评估、自动推理与可用性公理的自动发掘;

(4) 能够自动检测并修复信息的不一致、不精确、不完整、过时和实体不同一等个性和综合错误,并评估修复后的信息的可

(5) 支持弱可用信息上近似计算,并能够评估计算结果的质量

(6) 能够自动跟踪、引导、追溯信息的多维度演化过程

2. 建立确保信息和知识可用性的海量信息与知识量质融合管理原型系统

把确保信息可用性的海量信息量质融合管理原型系统课题5的知识服务原型系统有机集成建立个确保信息和知识可用性的海量信息与知识量质融合管理原型系统,海量信息量质融合管理原型系统的基础上,增加如下功能

(1) 能够从海量可用信息中自动发现可用的知识,评估知识的可用性,自动检测和修复知识中的错误

(2) 能够自动跟踪、引导、追溯知识的纵向和横向演化过程,提供深层次的知识服务

(3) 提供深层次的知识服务

3. 建立两种类型的信息可用性保障应用示范

重点建设两个具有代表性的应用示范,即复杂物理信息系统的信息可用性保障应用示范(中国数字海洋信息可用性保障应用示范)、管理信息系统的信息可用性保障应用示范(社保信息与经济普查信息可用性保障应用示范),解决实际应用中与信息可用性相关的关键技术问题,并验证本项目基础理论与关键技术研究成果的科学性和可用性。

(1) 中国数字海洋信息可用性保障应用示范

重点研究开发中国数字海洋信息可用性保障应用示范,以满足国家在这方面的重大需求,为复杂物理信息系统的信息可用性保障机制的建设提供具有代表性的范例,主要研究下面几个问题:

A. 针对中国数字海洋的特点,分析总结数字海洋在信息可用性保障方面的各种需求;

B. 从中国数字海洋在信息可用性保障方面的需求,抽象出复杂物理信息系统的信息可用性保障方面的共性问题,并应用本项目的基础研究成果,研究解决这些问题的方法和技术;

C. 应用本项目取得的基础研究成果和本项目研制的海量信息和知识的量质融合管理原型系统,开发中国数字海洋信息可用性保障应用示范,为建设复杂物理信息系统的信息可用性保障机制奠定基础,提供有效范例。

(2) 社保信息与经济普查信息可用性保障应用示范

研究开发社保和经济普查信息可用性保障应用示范,以满足国家在这方面的重大需求,为管理信息系统的信息可用性保障机制的建设提供具有代表性的范例,主要研究下面几个问题:

A. 针对社保信息和经济普查信息管理与分析的特定条件,分析总结社保信息和经济普查信息可用性保障方面的各种需求;

B. 从社保信息和经济普查信息可用性方面的需求,抽象出管理信息系统的信息可用性保障方面的共性问题,并应用本项目的基础研究成果,研究解决这些问题的方法和技术;

C. 应用本项目取得的基础研究成果和本项目研制的海量信息和知识的量质融合管理原型系统,开发社保信息和经济普查信息可用性保障应用示范,为建设管理信息系统的信息可用性保障机制奠定基础,提供有效范例。

经费比例:18.75%

承担单位:哈尔滨工业大学

课题负责人:樊文飞

学术骨干:高宏、王宏志、石胜飞、杨东华、张炜

4.5.1 六个课题之间的关系

六个课题之间的逻辑关系如图1所示。

从图1的逻辑框架可以看出,由于知识源于信息、信息源于数据,课题1为本项目全部其他课题的基础,解决高质量数据的获取与高可用信息的整合问题;在课题1的基础上,课题234共同构成了海量信息可用性管理研究的核心,其中课题2为海量信息可用性管理奠定理论基础;课题3在课题1和课题2的基础上研究海量信息错误自动检测与修复的理论和技术;当海量信息的错误无法被课题3的理论和技术彻底检出并修复时,这些信息成为弱可用信息,课题4研究海量弱可用信息上的近似计算理论和算法。基于课题234的海量信息可用性管理的研究结果,课题5研究海量弱可用信息上知识发现、演化与服务的理论和技术。最后,课题6把课题15的基础研究结果转化为有效实用的算法和技术,研制确保信息可用性的海量信息量质融合管理原型系统,并建立应用示范。

各课题与“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个科学问题的关系如下:

课题1在数据层面上解决“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个关键科学问题。

课题2、课题3和课题4 在信息层面上解决“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个关键科学问题。

课题5在知识层面上解决“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个关键科学问题。

课题6从实践上解决“量质融合管理”、“劣质容忍原理”、“深度演化机理”这三个关键科学问题。


四、年度计划

研究内容

预期目标

1. 研究数据源的质量评估理论模型,包括物理信息系统等多数据源的综合质量评估和高质量数据源的选择方法;

2. 研究来自物理信息系统等多数据源的多模态数据的实体识别模型,包括多模态数据的关联模型、多源数据的关联模型;

3. 研究多源多模态数据整合模型,包括支持物理信息系统复杂语义的多层集成模型,多模态源数据智能转换模型;

4. 研究海量信息演化的世系模型,包括时空、多粒度、多路径和不确定的海量信息演化的理论模型

5. 以各种类型和不同形式存储的海量信息为对象,分别建立海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的理论模型;

6. 以各种类型和不同形式存储的海量信息为对象,分别研究海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的判定问题及其计算复杂性理论;

7. 以各种类型和不同形式存储的海量信息为对象,研究海量信息一致性、精确性、完整性、时效性、实体同一性的理论模型之间的交互关系,在统一的逻辑框架下,融合(5)中的五个理论模型,建立海量信息可用性理论模型,特别是多模态信息的可用性理论模型;

8. 以各种类型和不同形式存储的海量信息为对象,研究海量信息可用性判定问题及其计算复杂性理论。

9. 以结构化、半结构化以及非结构化的海量信息为对象,确定信息一致性错误、精确性错误、完整性错误、时效性错误以及实体同一性错误(以下统称这些错误为个性错误)的语义蕴含与表现形式,研究检测每个个性错误的知识验证理论,建立错误检测与修复的可计算性模型并论证分析每个个性错误可检测与修复的充分必要条件;

10. 以各种类型的海量信息为对象,研究同时检测多种个性错误(以下简称综合错误)的多模态知识验证理论,确定海量信息上多模态知识可验证的充分必要条件,判定每个综合错误检测与修复的可计算性;

11. 以各种类型和不同形式存储的弱可用海量信息为对象,建立各类海量弱可用信息上满足给定的质量要求的各种计算问题的数学模型。

12. 研究各类计算问题的近似解的存在性判定的理论和方法。

13. 当计算问题的近似解存在时,研究问题的可计算性;

14. 研究应用对知识可用性的多样化需求,建立一个全面且灵活的可用性模型和可用性度量标准。

15. 研究知识可用性的评估方法和机制。

16. 研究如何将知识溯源理论和可用性管理机制相结合,建立知识项和知识发现过程的联系,生成高效的知识溯源管理模型;

17. 实现课题1提出的高质量海量多源多模态数据的自动获取方法;

18. 实现课题2提出的海量信息可用性的描述方法;

19. 实现课题3提出的海量信息错误自动检测算法;

20. 实现课题4提出的弱可用信息上近似计算的算法。

1. 提出数据源质量评估理论模型;

2. 提出多模态数据实体识别模型;

3. 提出多模态数据整合模型;

4. 提出整合信息的智能转换模型;

5. 提出海量信息演化的世系模型;

6. 提出海量信息可用性理论模型

7. 提出海量信息可用性判定问题的计算复杂性理论;

8. 提出海量信息可用性判定问题的高效求解算法;

9. 提出海量信息错误的语义蕴含与表现形式;

10. 提出海量信息错误可检测与修复的充分必要条件;

11. 提出海量信息错误自动检测与修复问题的可计算性理论

12. 提出弱可用信息上的计算问题近似解存在的判定理论;

13. 提出弱可用信息上的计算问题近似解存在的判定算法;

14. 提出弱可用信息上近似计算问题的可计算性理论;

15. 提出一个知识可用性模型;

16. 提出一套知识可用性度量标准;

17. 提出知识可用性的评估机制;

18. 提出知识可用性溯源管理的理论和技术;

19. 提交高质量海量多源多模态数据自动获取方法的实现程序;

20. 提交海量信息可用性的描述方法的实现程序;

21. 提交海量信息错误自动检测算法的实现程序;

22. 提交弱可用信息上近似计算的实现程序;

23. 在国际重要学术期刊和学术会议上发表一批具有重大影响力的高水平学术论文,其中在ACM/IEEE Transactions等重要国际学术期刊上发表论文6篇以上,在ACM/IEEE举办的重要学术会议上发表论文12篇以上。

1. 研究多模态数据的质量评估模型理论,包括精确性、完整性、时效性、实体一性等单指标评质量估模型以及多指标综合质量评估模型

2. 研究多源多模态数据实体自动识别的理论和方法,包括物理信息系统中的实体特征表达和建模、求解多模态数据识别问题的多模态数据融合计算的理论和算法等;

3. 研究求解多模态数据整合问题的多模态数据融合计算的理论与算法,包括多模态数据融合的智能模式抽取和模式匹配算法、自动的容错映射和转换模型算法;

4. 研究低质量数据到高质量数据的正向演化理论、演化描述的复杂性理论和低复杂性演化描述方法

5. 以各种类型和不同形式存储的海量信息为对象,以海量信息的一致性、精确性、完整性、时效性、实体同一性为核心,研究海量信息可用性语义的表示机理、信息可用性公理存在性问题和相关计算问题(如最大一致性规则子集求解问题)的计算复杂性理论

6. 以各种类型和不同形式存储的海量信息为对象,以海量信息的一致性、精确性、完整性、时效性、实体同一性为核心,建立海量信息可用性公理系统,分析其描述语言的表达能力,研究公理系统的一致性、完备性、独立性;

7. 以各种类型和不同形式存储的海量信息为对象,研究从海量信息中自动发掘信息可用性公理问题的可计算性与计算复杂性理论,并设计从海量信息中自动发掘公理的效算法;

8. 以各种类型和不同形式存储的海量信息为对象,建立海量信息可用性推理系统,研究海量信息可用性自动推理问题的可计算性与计算复杂性理论,并设计有效的自动推理算法

9. 以各种类型的海量信息为对象,分别针对海量信息的各种个性错误确立自动检测模型,包括信息表示模型与检测算子,研究自动检测的时空复杂性理论,包括所属复杂性类及复杂性下界等;

10. 以各种类型的海量信息为对象,分别针对海量信息的各种个性错误研究自动修复的形式化演绎理论与方法,并研究自动修复的时空复杂性理论;

11. 以各类个性错误自动检测与修复的时空复杂性理论为基础,研究各类信息综合错误自动检测和修复的时空复杂性理论;

12. 研究以可用性的质量评估作为测度和目标函数的弱可用信息上的计算问题的时间复杂度;

13. 研究以可用性的质量评估作为测度和目标函数的弱可用信息上的计算问题的空间复杂度;

14. 探索在弱可用信息上进行最小化可用性需求、时间复杂性和空间复杂性的多目标优化;

15. 研究各种海量弱可用信息计算问题的计算复杂性,包括所属复杂性类、计算复杂性下界、精度上界;

16. 研究各种海量弱可用信息计算问题近似结果精度与计算复杂性的函数关系;

17. 研究各种知识发现问题所需要的最小信息集,建立面向种知识发现问题的信息完整性理论,判定能否在给定的海量信息中求解给定知识发现问题,解决弱可用信息上知识发现的可行性问题

18. 建立弱可用信息上知识发现的理论体系,探索于弱可用信息的知识发现新方法,设计弱可用信息上的高效知识发现算法,研究知识可用性和有效性评估理论和方法;

19. 实现课题1提出的数据实体的同一化算法;

20. 实现课题2提出的可用性公理的自动发掘与自动推理算法;

21. 实现课题3提出的海量信息错误自动修复算法;

22. 实现课题4提出的弱可用信息上近似计算的算法。

1. 提出多模态数据质量评估模型;

2. 提出多模态数据实体表征模型;

3. 提出多模态数据实体识别算法;

4. 提出多模态数据融合的智能模式抽取算法;

5. 多模态数据融合的智能模式匹配算法;

6. 提出自动的容错映射和转换模型及算法

7. 提出低质量数据到高质量数据的正向演化算法

8. 提出海量信息可用性语义的表示机理

9. 提出海量信息可用性公理系统;

10. 提出信息可用性公理存在性问题的计算复杂性理论;

11. 提出信息可用性公理自动发掘与推理问题的可计算性与计算复杂性理论

12. 提出求解信息可用性公理自动发掘与推理问题的效算法;

13. 提出海量信息错误自动检测模型;

14. 提出海量信息错误自动修复的形式化演绎理论;

15. 提出海量信息错误自动检测与修复问题的计算复杂性理论;

16. 提出以可用性为复杂性测度的海量弱可用信息近似计算问题的计算复杂度模型与理论;

17. 提出海量弱可用信息近似计算问题的计算复杂性理论,包括问题所属复杂度类、计算复杂度下界;

18. 提出海量弱可用信息近似计算结果精度与计算复杂性的函数关系;

19. 提出知识发现的最小信息集理论

20. 提出弱可用信息上知识发现可行性的判定理论

21. 提出弱可用信息上的知识发现算法

22. 提出弱可用信息上知识发现的有效性评估理论

23. 提交数据实体的同一化算法的实现程序;

24. 提交可用性公理的自动发掘与自动推理算法的实现程序;

25. 提交海量信息错误自动修复算法的实现程序;

26. 提交弱可用信息上近似计算的实现程序;

27. 在国际重要学术期刊和学术会议上发表一批具有重大影响力的高水平学术论文,其中在ACM/IEEE Transactions等重要国际学术期刊上发表论文6篇以上,在ACM/IEEE举办的重要学术会议上发表论文12篇以上。

1. 研究高质量多模态数据获取方法,包括针对物理过程可精确恢复的高质量数据采集方法、数据的保质转换模型及算法

2. 研究实体识别效果的评估理论和算法,包括实体识别效果评估模型、评估测试算法

3. 研究融合信息的质量评估和正确性验证的理论和方法,主要是信息集成的正确性模型和评价方法

4. 研究海量信息演化的追踪技术,包括研究演化模式的正向性评估模型与方法、演化的可逆性判定与近似求解算法

5. 以各种类型和不同形式存储的海量信息为对象,分别研究海量信息的一致性、精确性、完整性、时效性、实体同一性这五个特性的定量评估理论;

6. 以各种类型和不同形式存储的海量信息为对象,研究上述五种评估理论之间的相互影响,提出海量信息可用性综合定量评估理论;

7. 以各种类型和不同形式存储的海量信息为对象,研究海量信息可用性定量评估问题的可计算性理论与计算复杂性理论

8. 以各种类型和不同形式存储的海量信息为对象,设计有效的海量信息可用性定量评估算法

9. 以各种类型的海量信息为对象,分别针对每类信息的各种个性错误,提出个性错误检测与修复结果可信性的定量评估方法,研究个性错误检测与修复方法可信性评估的逻辑机理与准则,从而确立信息个性错误自动检测与修复方法的可信性评估模型;在海量信息可用性公理系统的框架内,研究可信的个性错误检测与修复方法应当遵循的逻辑准则;

10. 以个性错误自动检测与修复的可信性评估模型为基础分别针对每类信息的综合错误,确立其相应的自动检测与修复方法的可信性评估模型;在海量信息可用性公理系统的框架内,研究可信的综合错误检测与修复方法应当遵循的逻辑准则;

11. 针对各种类型和不同形式存储的弱可用海量弱可用信息,建立有效的近似计算结果的质量评测指标;

12. 设计评估近似计算结果的质量的理论;

13. 提出在各类海量弱可用信息上进行高效评估的算法;

14. 研究知识错误的自动发现理论和方法,结合知识可用行的评估理论,建立高效的知识错误诊断体系;

15. 研究知识自动修复的可行性理论和知识的自动修复方法;

16. 针对错误不能彻底纠正弱可用知识,研究知识近似推理的理论和算法

17. 实现课题1提出的多模态数据到高质量信息的整合算法;

18. 实现课题2提出的海量信息定量评估算法;

19. 实现课题3提出的海量信息修复结果的评估算法;

20. 实现课题4提出的弱可用信息上近似计算结果的质量评估算法;

21. 构建海量信息可用性管理核心组件

1. 提出物理过程可精确恢复的高质量数据采集算法;

2. 提出数据的保质转换模型及算法;

3. 提出实体识别效果评估模型与算法;

4. 提出信息集成的正确性模型和评价算法;

5. 提出信息演化模式的正向性评估模型与

6. 提出信息演化的可逆性判定与近似求解算法;

7. 提出海量信息可用性定量评估理论;

8. 提出海量信息可用性定量评估问题的可计算性理论与计算复杂性理论

9. 提出有效的海量信息可用性定量评估算法

10. 提出海量信息个性错误检测与修复结果可信性的定量评估模型;

11. 提出海量信息个性错误检测与修复结果可信性的定量评估方法;

12. 提出海量信息综合错误检测与修复结果可信性的定量评估模型;

13. 提出海量信息综合错误检测与修复结果可信性的定量评估方法;

14. 提出海量弱可用信息近似计算结果的质量评测指标;

15. 提出海量弱可用信息近似计算结果的质量评估理论;

16. 提出海量弱可用信息近似计算结果的质量评估算法;

17. 提出知识错误自动发现理论和算法;

18. 提出知识错误自动修复理论和算

19. 提出弱可用知识的近似推理的理论和算法

20. 提交多模态数据到高质量信息的整合算法的实现程序;

21. 提交海量信息定量评估算法的实现程序;

22. 提交海量信息修复结果的评估算法的实现程序;

23. 提交弱可用信息上近似计算结果的质量评估算法的实现程序

24. 提交确保信息可用性的海量信息量质融合管理原型系统的核心组件;

25. 在国际重要学术期刊和学术会议上发表一批具有重大影响力的高水平学术论文,其中在ACM/IEEE Transactions等重要国际学术期刊上发表论文6篇以上,在ACM/IEEE举办的重要学术会议上发表论文12篇以上。

1. 研究数据真实性验证的理论技术、数据错误校验技术、缺失值估计的理论与技术等

2. 研究整合信息的正确性验证的理论和方法,主要是多维度多目标正确性检测算法;

3. 研究网络化、多粒度、概率化的世系追踪技术

4. 研制高质量多模态海量数据获取与整合原型系统,设计(1) 多模态海量数据的提取和清洗工具;(2) 基于实体识别与信息融合技术的海量信息集成工具;(3) 海量信息演化的分析技术与工具

5. 在海量信息可用性的理论模型、海量信息可用性公理系统与推理机制、海量信息可用性评估理论的基础上,研究支持海量信息管理的信息模型和理论,包括逻辑信息结构、运算系统、语义约束理论

6. 研究信息管理模型和理论与传统信息管理模型和理论的融合问题,建立海量信息量质融合管理的模型和理论,包括逻辑信息结构、运算系统、语义约束理论

7. 研究海量信息量质融合管理关键问题的可计算性和计算复杂性理论,并设计求解量质融合管理关键问题的有效技术和算法,包括信息定义与操纵语言的设计、逻辑信息结构的物理实现技术、运算系统的实现算法、语义约束机制的设计、信息定义与操纵语言的优化处理算法、量质融合管理的系统结构等

8. 以各种类型和不同形式存储的海量信息为对象,分别针对各种个性错误提出自动检测和修复的技术与方法,研究各类个性错误自动检测的精确与近似检测算法,研究检测精度与计算复杂度的权衡优化方法;确立各类个性错误自动修复的代价模型并研究基于代价模型的高效修复算法与目标优化方法,实现修复回报、修复成本以及修复可信性的均衡优化;

9. 分别针对每类信息的综合错误,研究基于个性错误自动检测方法融合的综合错误自动检测方法;以各类个性错误自动修复的代价模型为基础,确立综合错误自动修复的综合代价模型,并研究基于多目标优化的高效自动修复算法;

10. 最小化可用性需求、时间和空间复杂性为目标,针对各类海量弱可用信息(如不一致海量信息、不精确海量信息、不完整海量信息、弱时效性海量信息和实体不同一的海量信息),设计实现近似计算的高效实用算法;

11. 针对各类弱可用海量信息,以最小化可用性需求、时间复杂性和空间复杂性为目标,研究同时存在多种类型错误的海量弱可用信息近似计算的算法;

12. 研究知识的纵向演化的过程,建立知识纵向溯源演化的理论模型和方法

13. 研究知识的横向演化中的趋利机制和协同机制,建立知识横向协同演化的理论模型和方法。

14. 将核心组件与现有海量信息管理系统融合,建立起确保信息可用性的海量信息量质融合管理原型系统

15. 将海量信息可用性管理原型系统与本项目课题5的知识服务原型系统以及现有的海量信息管理系统有机集成,建立一个完整的确保信息和知识可用性的海量信息与知识的量质融合管理原型系统。

1. 提出数据真实性验证算法;

2. 提出数据错误校验算法;

3. 提出缺失值估计算法;

4. 提出多维度多目标正确性检测算法;

5. 提出数据世系追踪算法;

6. 提交高质量多模态海量数据获取与整合原型系统的设计文档;

7. 提出海量信息量质融合管理的模型和理论

8. 提出海量信息量质融合管理关键问题的可计算性和计算复杂性理论

9. 提出求解量质融合管理关键问题的有效算法

10. 提出海量信息错误自动检测的精确与近似算法;

11. 提出海量信息错误自动检测精度与计算复杂度的优化方法;

12. 提出海量信息错误自动修复的精确与近似检测算法;

13. 提出海量信息错误自动修复精度与计算复杂度的优化方法;

14. 提出解决不同类型弱可用信息上近似计算问题的高效算法;

15. 提出解决多种类型错误同时存在时弱可用信息上近似计算问题的高效算法;

16. 提出知识纵向溯源演化的理论模型和方法

17. 提出知识横向协同演化的理论模型和方法

18. 提交一个确保信息和知识可用性的海量信息与知识的量质融合管理原型系统;

19. 在国际重要学术期刊和学术会议上发表一批具有重大影响力的高水平学术论文,其中在ACM/IEEE Transactions等重要国际学术期刊上发表论文6篇以上,在ACM/IEEE举办的重要学术会议上发表论文12篇以上。

1. 在研制高质量多模态海量数据获取与整合原型系统方面,研制(1) 多模态海量数据的提取和清洗工具;(2) 基于实体识别与信息融合技术的海量信息集成工具;(3)海量信息演化的分析技术与工具

2. 根据应用需求,进一步完善和优化所提出的理论和算法。

3. 研制海量信息可用性公理自动发掘和自动推理原型系统

4. 研制海量信息可用性自动评估原型系统

5. 研制海量信息量质融合管理基本原型系统

6. 研制一个海量信息错误自动检测和修复原型系统,验证基础研究成果的可用性和有效性;

7. 基于海量弱可用信息近似计算的研究成果,集成近似计算的可行性判定、计算复杂性分析、计算结果的质量评估和计算的高效算法等模块;

8. 实现弱可用信息近似计算原型系统;

9. 研究知识服务的需求发现机制激励机制

10. 研究需求驱动的知识服务聚合方法和知识服务的多方协调机制,确保知识服务能够实时、最大化地满足应用的动态需求

11. 开发一套集成知识发演化和服务知识服务原型系统,并把互联网作为物理信息系统,以中文维基百科作为知识服务的上层应用,建设知识服务原型系统的示范应用

12. 实施中国数字海洋信息可用性保障应用示范、社保信息与经济普查信息可用性保障应用示范;

13. 根据应用示范的实施情况,完善确保信息和知识可用性的海量信息与知识的量质融合管理原型系统;

14. 对中国数字海洋信息可用性管理、社保信息与经济普查信息可用性管理两项应用示范进行深入调查分析,验证基础研究成果的可用性和有效性

1. 提交多模态海量数据的提取和清洗工具;

2. 提交基于实体识别与信息融合技术的海量信息集成工具;

3. 提交海量信息演化的分析工具;

4. 提交海量信息可用性公理自动发掘和自动推理原型系统

5. 提交海量信息可用性自动评估原型系统

6. 提交海量信息量质融合管理基本原型系统

7. 提交一个海量信息错误自动检测和修复原型系统;

8. 提交海里那个弱可用信息近似计算原型系统;

9. 提出知识服务的需求发现机制

10. 提出面向需求的知识服务激励机制;

11. 提出一套需求驱动的知识服务聚合方法;

12. 提出知识服务的多方协调机制;

13. 提交中国数字海洋信息可用性保障应用示范、社保信息与经济普查信息可用性保障应用示范的实施情况报告;

14. 在国际重要学术期刊和学术会议上发表一批具有重大影响力的高水平学术论文,其中在ACM/IEEE Transactions等重要国际学术期刊上发表论文6篇以上,在ACM/IEEE举办的重要学术会议上发表论文12篇以上;

15. 获得发明专利或软件著作权12项以上。

关于研友  |  诚聘英才  |  联系我们  |  友情链接
版权所有:@2007-2009 智尚代写联盟-中山研友 电话:0760-86388801 QQ:741287446
地址:广东中山市学院路1号 邮编:528402 皖ICP备06008952号-11
  • 磷酸西格列汀联合阿卡波糖治疗2型糖尿
  • 立项可行性
  • 医学论文投稿邮箱
  • 医学学报医科大学
  • 滋润烧伤膏抑菌性的相关研究
  • 诊疗规范化研究临床观察表
  • 研究生导师通讯录电话
  • 全国政府采购办公室电话负责人通讯录
  • 政府企事业单位相关负责人地址通讯录
  • 四川省政府采购部门通讯录
  • 医学期刊电子版
  • 苏州市哲学社会科学研究课题立项协议书
  • 有效教学实施计划
  • 浙江省社会主义学院立项协议书
  • 广东省医学科学技术研究基金管理办法
  • 国家自然科学基金项目申请书形式审查要
  • 项目实施方案可行性研究咨询报告研友出
  • 中成药农药残留检测研究现状
  • 右旋糖酐铁与乳铁蛋白、维生素联合治疗
  • 肾内科科研项目课题