- 相关推荐
简析一种分层次的数据溯源安全模型论文
数据溯源是一个新兴的研究领域,诞生于20 世纪90 年代,由“Data Provenance”翻译而来。起初,部分文献将其称为数据标志或数据档案,在后期的发展过程中,逐渐演变为数据溯源,表示追踪数据的起源和重现数据的历史状态。通过对大量相关文献进行调研发现,国内学者对数据溯源模型研究较少,主要集中在以下3 个方面: 语义层上,沈志宏综述了语义环境下数据溯源在表达模型与技术上的研究进展; 逻辑层上,陈颖提出一种基于DNA 双螺旋结构的数据起源模型; 安全层上,李秀美研究了数据溯源本身特有的安全需求以及加密方案,构建了新的数据溯源安全模型。因此不难发现,数据溯源的相关研究都局限于单个层次,鲜少有研究将3 个层次衔接起来。笔者通过分析3 种模型的优缺点,将数据溯源的过程总结归纳为3 个层次: 语义层、逻辑层、安全层,层层递进,构建了分层次的数据溯源安全模型。
1 数据溯源相关理论
1. 1 数据溯源的概念与定义
最初,数据溯源的“溯源”通常是与某件艺术品或文学相联系,在艺术品的鉴赏中,数据溯源能够帮助确定某件艺术作品的真实性,可以确定一个作品的历史重要性,也可以确定艺术作品持有者的合法性。数据溯源是一个重载的学术术语,最近一项研究总结了数据溯源在学术上的不同定义,其中部分学者将数据溯源理解为数据的起源; 与此同时,另外一些学者的观点是将“数据溯源”视为记录实验过程的工作流,注释和笔记的元数据; 在国外的研究中,工作流中数据的产生过程是研究数据溯源需要的主要实体; 明华,张勇等学者认为,数据溯源强调的是一种追本溯源的技术,根据追踪路径重现数据的历史状态和演变过程,实现数据历史档案的追溯。
1. 2 数据溯源的分类方法
通过调研发现,主流的数据溯源分类方法中,消极型溯源法与积极型数据溯源法相对应,增量法与时间标志法相对应。消极型数据溯源法在对溯源信息有需求时去追踪数据溯源信息。通过对查询或转换过程进行分析,反向推导得到数据溯源信息。积极型数据溯源法在事先得到并携带数据溯源信息,即用标记来记录数据的出处,并让标注传播到结果数据中,通过查看数据的标注即可得到数据的数据溯源信息。增量法通过增量定义数据溯源信息; 时间序列法以时间标志定义两个版本之间的增量信息。在增量法中,需事先确定一个参照版本( 通常会是第一个版本或者最后一个版本) ,随后在一系列版本中将版本与版本前后的一系列增量记录下来,从而形成记录在案的数据溯源信息。理想状态下,需保证每一个变化都记录在案,因此每一个增量都要让它的单位与粒度尽可能小。在时间序列法中,一个强大的储存器将所有的版本记录在案,并且在这个过程中,在任意不同的时间点,时间标志会用来标志数据因素的存在。
1. 3 数据溯源的应用意义
对于数据溯源的应用意义,不同学者理解各异。Simmhan 和Plale 等认为,数据溯源的应用意义分为4 点:
( 1) 根据数据溯源信息确定数据质量; ( 2) 认清错误来源; ( 3) 允许派生的自动重新更新; ( 4) 在商业领域,深入到数据仓储中探寻数据的来源,跟踪知识的创建过程,为达到监管的目的,提供一个审计跟踪。在此基础上,数据溯源的应用意义进一步明晰化,主要体现在以下方面: ( 1) 数据质量。数据溯源可以根据数据来源和转换过程来评估数据质量和数据可靠性,它可以为数据的来源提供有力证据。( 2) 审计跟踪。数据溯源可以用来跟踪审计的数据,监测是否有错误数据生成。( 3) 复制副本。详细的数据溯源信息允许数据来源重复,帮助维持数据的时效性是数据复制的秘诀。( 4) 属性。建立数据的版权和所有权,使其能够被引用,在数据错误的情况下能够确定责任。( 5) 情报性。用于数据发现的元数据查询,可以根据数据溯源信息来解释数据。
2 数据溯源典型模型分析
当前,对于数据溯源的相关研究处于初级阶段,通过全面梳理和对比3 种典型的数据溯源模型,以此为分层次的数据溯源安全模型的构建提供一定的理论基础。
2. 1 数据溯源本体模型
数据溯源本体模型是比较基础的数据溯源模型,该模型虽然只是一个简单的构架,但是它几乎涵盖了数据溯源信息的所有语义内容,其重要性不可忽视。在数据溯源本体模型中,数据溯源语义信息被概念化,包含了7 个相互关联的元素,这7 个元素分别是溯源记录、操作者、操作时间、操作位置、操作内容、操作原因、操作工具。在数据溯源本体模型中,每一个数据溯源信息被定义为一个七元组,这个七元组的函数形式为: 数据溯源信息= { ( 溯源记录、操作者、操作时间、操作位置、操作内容、操作原因、操作工具) } 。“溯源记录”表示在数据衍生过程中,影响数据的某个事件; “操作时间”表示这个事件发生的时间; “操作位置”是指事件发生的具体位置; “操作内容”是指导致这个事件的动作; “操作者”是这个事件发生过程中涉及到的代理; “操作工具”是指在事件发生过程中涉及的程序和技术; “操作原因”是指事件发生的原因。
2. 2 开放型数据溯源模型
开放型数据溯源模型的提出最初是针对科学工作流,且其设计目标是为不同的系统提供可交换的溯源信息,并允许开发人员创建并共享操作该模型的工具。开放型数据溯源模型同时从技术角度定义了溯源,支持对任何事物( 不仅仅是针对计算机系统) 的溯源,并允许多级描述同时共存。开放型数据溯源模型旨在描述构件中的因果依赖关系,在开放型数据溯源模型中,有4 个主要概念如下: ( 1)状态: 指代某个状态,可以是物理的一个对象,也可以是计算机系统的一个数字化表达。( 2) 过程。状态与状态之间转换引起的一个或者一系列的动作。( 3) 参与者。用以促进、控制和影响过程的执行。( 4) 角色。一个过程可能会产生多个状态,不同的状态拥有不同的角色。在开放型数据溯源模型中,主要的几个逻辑步骤如下: ( 1) 过程触发过程。某些过程是不可分割的,一个过程执行完成才能触发下一个过程的执行。( 2) 参与者控制过程。某些过程需要有参与者控制,参与者控制这个过程的开始与结束。( 3) 状态推断状态。状态与状态之间也是无法分割的,一个状态的产生才能推断出下一个状态的产生。( 4) 过程促进状态。状态与过程不可分割,需要启动某个过程才能产生特定的状态。开放型数据溯源模型是状态与过程的相互作用,参与者促动过程的执行,其简要融入了数据溯源本体模型的相关元素。
2. 3 基于DNA 双螺旋结构的数据溯源模型
陈颖提出的基于DNA 双螺旋结构的数据溯源模型将生物学与数据溯源模型相结合,提出了一种较为新颖的数据溯源模型,将数据溯源信息分为数据和操作两部分并对应起来,为数据溯源的研究与发展提供了一种较新的思路。基于DNA 双螺旋结构的数据溯源模型分为二级结构,一级结构对应DNA 的立体结构图,二级机构对应DNA的平面结构图。在一级结构中,双螺旋结构中的两条链分别代表数据序列和作用在数据之上的操作序列。连接两条链间的碱基代表能唯一确定数据及其操作之间关联的属性,用来在数据及其操作之间建立直接的对应关系,其结构具有一定的稳定性。在二级结构中,引入4 个维度: ( 1) 层次维。对数据所做操作所在层次。( 2) 空间维。相应组件所在位置。( 3) 时间维。操作活动发生的时间。( 4) 数据流维。操作活动过程中数据产品消费和生产的数据。基于DNA 双螺旋结构的数据溯源模型二级结构图。基于DNA 双螺旋结构的数据溯源模型在数据溯源研究领域有许多争议,尽管如此,将DNA 中碱基的配对结构与数据序列和数据操作序列联系起来的思想非常有逻辑性。在开放型数据溯源模型与基于DNA 双螺旋结构的数据溯源模型中,对应关系是二者的共同特点。
2. 4 对3 种典型模型的评估
数据溯源本体模型从语义上涵盖数据溯源信息7 个层次的内容,详尽周全,其概念结构清晰简单,易于理解,存储方便,适用于关系数据库。数据溯源本体模型的不足之处在于其着眼点只在于语义层,没有实现与溯源信息其他层次的衔接。开放型数据溯源模型定义溯源的方式精准且与技术无关,不论其是否由计算机系统产生,都支持对任何事物溯源的数字化描述。在开放型数据溯源模型中,状态与过程相互作用,参与者起操控作用,结构清晰简单易于理解,然而开放型数据溯源模型只涉及逻辑层次上的框架模型,语义层次的信息不够详尽。基于DNA螺旋结构的数据溯源模型的优点在于数据及操作之间的可相互推导,有效解决了数据与操作之间的对应关系,直观地揭示了数据序列及操作序列变化,同样,基于DNA 双螺旋结构的数据溯源模型着眼于逻辑层次上的框架模型,而语义层次的信息不够详尽。
综上所述,3 种数据溯源模型着眼于不同的关注点。通过对国内外有关数据溯源的文献进行广泛调研,笔者发现对数据溯源的研究主要集中在建模、计算、存储、查询等工作上,然而对确保数据溯源信息安全方面的研究极少。随着电子数据可信度重要性的日趋增强,确保数据溯源信息安全比以往更加重要。随着数据及其溯源信息在不可信环境中经过不同用户和任务时,数据溯源信息极易被非法更改,为起源溯源提供完整性、机密性保障就变得非常重要。因此,在提出的数据溯源模型中,安全层的考虑必不可少。
3 分层次的数据溯源安全模型
通过对国内外有关数据溯源的文献进行广泛调研发现,对于数据溯源模型的研究仍然处于概念层面,因此,从系统化的视角对数据溯源整体框架的研究显得相当必要。该文中的分层次的数据溯源安全模型融合了国内外数据溯源领域不同的研究视角,在国内外学者对数据溯源的研究基础上,将语义层次、逻辑层次、安全层次衔接起来形成一个整体,且对每一个层次涉及的数据记录进行简单的总结,为数据溯源领域的深入研究提供一定的基础。
3. 1 模型内涵
笔者通过对国内外数据溯源的文献进行调研,总结数据溯源相关的文献内容分为3 类: ( 1) 语义层数据溯源;( 2) 逻辑层数据溯源; ( 3) 溯源信息安全问题。调研发现,大多数文献在探究数据溯源问题时,仅仅涉及到3 个层次中的某一个层次,视角不够全面,系统性不强。因此,在分层次的数据溯源安全模型中,3 个层次逐层递进,安全层处于最外层,逻辑层处于中间层,语义层为最里层,总体模型如下:
3. 1. 1 语义层
在分层次的数据溯源安全模型中,数据溯源信息可以作为数据对象的一种属性。在该模型中,数据溯源信息为数据从状态i 到状态j 的转换过程,定义为溯源过程( i,j) 。语义层次对数据对象的溯源过程进行了详细的结构定义,并参考数据溯源本体模型里面的“操作者”、“操作时间”、“操作地点”、“操作内容”、“操作原因”、“操作工具”对之进行定义。因此,溯源记录结构表示为: 溯源记录{ 操作者、操作时间、操作地点、操作原因、操作工具} 。
3. 1. 2 逻辑层
在逻辑层次中,数据对象的基本信息和数据对象的溯源信息既相互独立又相互依赖。两者之间的独立性表现在数据对象的描述结构上,数据对象的结构表示为,数据对象{ 基本信息、溯源信息} ,在数据对象的基本信息这一栏中,不同类型的数据对象对应的基本信息表示有所差异,例如结构化数据、半结构化数据、非结构化数据各有其对应的表示模式,数据对象的溯源信息则作为另外一个集合,不论数据对象为何种类型,数据对象的溯源信息都表示为该数据对象状态与状态之间的转换过程集合。因此,数据对象的基本信息与数据对象的溯源信息之间有一定的独立性。两者之间的依赖性体现为数据对象的基本信息与数据对象的溯源信息密不可分,准确地说,数据对象的溯源信息是用来更好地描述数据对象的。因此,在该模型中的数据对象表述结构中,除去传统的数据信息,还应包含一项“处理过程”,该“处理过程”是连接数据对象的基本信息与数据对象的溯源信息的连接点,也是两者的相互依赖之处。在访问某个数据对象的数据溯源信息时,先找到相对应的数据对象,数据对象对应相应的处理过程,即数据对象的溯源过程,亦是数据对象状态之间的转换过程。在逻辑层次中,数据溯源信息,即数据对象所经历状态转换过程的信息,对应语义层次的溯源记录。基于此,语义层次与逻辑层次得以连接。
3. 1. 3 安全层
安全层次主要用于有效预防外来侵扰和防止内部人员操作不当。因此笔者参考了访问控制模型,访问控制模型由一个状态集和施加在这些状态上的原始操作集合组成。每个状态包括一个主体集S,一个客体集O,以及一个访问矩阵A。对每个主体S 和客体O,A[S,O]是一个访问权限集合。访问控制矩阵A 中的行代表主体S,列代表客体O。这样每个元素代表某主体对某客体的访问权限,Aij 代表主体Si 对客体Oj 有访问权限,即主体Si 对客体Oj 有访问权限,此访问权限可以限制非法人员进入系统恶意篡改数据对象信息。在访问矩阵模型的基础上,为了防止内部人员操作不当,设置了安全记录,其结构是: 安全记录{ 相关人员、数据标识、溯源记录} 。安全记录的设置记录了合法操作人员的操作记录,预防和减少合法人员操作不当引起的数据变动,加强了数据的可恢复性,更深层次地巩固了数据溯源信息的安全性。
3. 2 模型特点
在参考数据溯源本体模型、开放型数据溯源模型与基于DNA 双螺旋结构的数据溯源模型的基础上,该模型充分体现了3 个模型的优势,其具体特征如下。
3. 2. 1 系统性,连贯性
在分层次的数据溯源安全模型中,安全层为数据对象的数据溯源信息提供了有力保障; 逻辑层描述了数据对象基本信息与数据对象溯源信息的对应关系并以数据对象状态与状态之间的转换过程定义了数据溯源信息; 语义层详尽论述了数据溯源过程中涉及到的语义信息。在3 个层次相对独立的基础上,该模型将数据溯源过程有机统一起来,层层递进,系统化地呈现了数据溯源的过程,为数据溯源的进一步发展提供了一定的基础。
3. 2. 2 数据溯源信息简单化
在逻辑层中,数据对象溯源信息即该数据对象状态与状态之间的转换过程的集合。不论是何种数据类型,逻辑层定义溯源的方式精准且与技术无关,支持对任何事物溯源的数字化描述,实现了数据溯源信息的简单化。如,某生物数据库的一个存档图片的颜色背景变动可以形成一个溯源记录,该溯源记录是“红色”到“绿色”的转换过程,参照语义层的溯源记录格式,该溯源记录为{ A 操作人员,2016. 01. 01,B 数据库,红色变绿色,清晰度需要,Photoshop} 。
3. 2. 3 安全性能高
在分层次的数据溯源安全模型中,尽管安全层没有很复杂的逻辑,但是该模型将数据溯源的安全问题独立为一个层次,并且运用了计算机技术中的访问控制模型和身份认证双重保障,既防止了无关人员对数据溯源信息的恶意篡改,也能够实现内部人员的访问及操作记录归档在案,保障了数据对象信息的可恢复性和数据溯源信息的安全性。
4 结语
在对数据溯源模型进行大量调研之后,参考数据溯源本体模型、开放型数据溯源模型、基于DNA 双螺旋结构的数据溯源模型,构建了一种分层次的数据溯源安全模型,对模型的语义层、逻辑层、安全层进行了定义和解释,说明了模型具有的特点和意义。该模型强调了数据溯源过程的连贯性,系统化地将安全层、逻辑层、语义层连接成了一个整体,突出了溯源信息安全性的地位,由于其概念结构清晰,为数据溯源在其他领域的应用提供了参考。
【简析一种分层次的数据溯源安全模型论文】相关文章:
简析管理与文秘论文05-02
简析莫扎特C大调的论文05-03
简析教与学之中的乐趣论文05-03
继母在影视中的形象简析论文05-03
简析税法的脱法性论文05-04
简析电影《香水》的泅渡与解脱论文05-04
简析高职英语语音教学论文04-30
简析大学特色的本质论文05-02
模拟水氡观测数据快速整理软件简析04-27
有关简析植物保护对粮食安全的影响论文05-04