您现在的位置:首页 >> 建材导购

工业数据分析之数仓建模 | 方法论建模和维度建模,你pick谁?

发布时间:2025/12/04 12:17    来源:江山家居装修网

OLTP数据资料库内部设计当中,本体论动态主要合理解构数据资料的填入和修正完全一致性,而数据资料仓库的本体论动态主要合理解构对该公司应用领域的如前所述、前提的必先和准确详见达。

本体(Entity)所称该公司应用领域当中我们感兴趣的那些都可和惨剧,本体或许是解构学上的普遍存在,例如一台电源,一条产线,一个的产品,也或许是逻辑学上的普遍存在,例如一个下单,一次出货。因为来龙去脉主要受雇的是以纺织工业电源为核心的生产商接入更进一步的数据资料智慧技术的发展,所以主要关的的都是前者,我们称为“纺织工业解构学都可”。

本体一般来说(Entity Type)所称一批具有相同一般来说的本体的闭包。基本上,在数据资料动态的更进一步当中,我们从一个特定的本体(实例)出发,去抽象概念和表述的是他所属的本体一般来说。本体及其一般来说一定是一个名词,取名先前最最主要的所称导就是仔细必先这个名字(表述)的内涵和表征,先前表述本体的并不一定来突显这个表述。

研究专家组当中许多人都确实对大体概念当中的本体一般来说详见达的表述理解完全一致无丁香。举个范例,在生活当中我们说明“工序”和“的产品”,多半认为“工序”是原材料,“的产品”是事与愿违的产品,然而在特定的纺织工业数据资料大体概念当中,例如ISA95生产商讯息构建大体概念,“工序”被表述为可以是精制、半上色或者上色(因为从更大的区域内来看,一个生产商段激发的“上色”其实是下阶段的“原材料”)。如果不把这个表述详见达吻合,研究专家组当中的交谈就都会变得失真、低效,甚至南辕北辙。

针对同一个该公司疑问,数据资料大体概念也不是只有一个正确解答,扯一个抽象概念的多层次和本质,把“精制”和“事与愿违的产品”分开表述当然也是对的。来龙去脉合理解构的是在一个特定的大体概念正式版当中,所有的表述都确实是清晰无丁香,形成认同的;如果大体概念修正了,许多人的认同都要跟著修正。

彼此间(Relationships)所称本体和本体错综复杂由于某种该公司前提而激发的关联和沟通。彼此间就像胶水一样,把原本独立的本体讯息构建在朋友们。例如,一台电源上有多个激光、多个激光或许都会等价同一个逻辑学测点(激光分块)、一个车间密切相关多条产线、一条产线密切相关多个工段等等。

彼此间的表述也都能依照该公司前提开展,如果我们标识到两个本体错综复杂都会激发一个彼此间,我们要进一步标识详见奇科出几大体上的内容:

1)彼此间的序数,即方的、一对多、还是多对多;

2)彼此间的强于弱,即激发彼此间的两个本体生命周期是否受彼此间的负面影响;

3)彼此间的可选并不一定;

4)彼此间两国在这个彼此间当中的角色名字。

举个范例,断言我们对一个金属铸币的更进一步开展数据资料动态。塑料都能加装到铸币周边产品下开展铸币技术的发展于,断言该公司前提是要找出相同的铸币周边产品是否都会对铸币恒星质量激发负面影响,那么周边产品和塑料错综复杂的彼此间可以由下图详见示:

在下面当中,周边产品和塑料的彼此间序数是方的,因为一个周边产品最多默认一个塑料,同时一个塑料也不或许加装到多个周边产品下;彼此间的强于弱是强于彼此间,因为铸币是由周边产品和塑料一同收尾的,在理论上表述的疑问当中,没必要把他们分开看,如果从系统对当中把一个铸币周边产品历史纪录截图,那么上面加装的塑料历史纪录也可以一并截图;彼此间上也不须可选任何额外并不一定;两国的角色名只有在数据资料会见的时候才都会用到,目前为止暂不咨询。

先前,我们从该公司研究专家那里洞察到,我们忽略了一条最主要的该公司前提,即“铸币周边产品和塑料错综复杂虽然在长小时内是方的的默认彼此间,但是每隔长小时,都都会把塑料从周边产品下拆卸下来扯上原先塑料,移走的塑料都会被除去存放,直到下次加装到其他(不具体内容是哪台)的周边产品下技术的发展于,如此循环”。基于上述原先该公司科学,我们修订彼此间如下:

在正式版2当中,彼此间的序数变成了多对多,因为任何一个周边产品都或许加装可任意一个塑料,反过来,一个塑料也有或许被加装到可任意一个周边产品下;彼此间的强于弱变成了弱彼此间,因为塑料不先依赖于周边产品的普遍存在,因为塑料都会被单独除去保管,有或许没加装在任何一个周边产品下。我们还都能一个彼此间可选并不一定来详见达“在什么只能,一个特定的周边产品都会和一个特定的塑料默认在朋友们”。该公司研究专家反馈说:“扯塑料是在扯成品的间歇开展的,扯成品的时候或许扯塑料,也或许不扯,各有不同塑料是否都能除去,但是在一个铸币成品执行更进一步当中不或许扯塑料”,因此我们得知,只要在彼此间额外并不一定上历史纪录成品号,周边产品和塑料的默认彼此间就完整了。

通过上面的范例,我们体都会到数据资料大体概念当中彼此间的表述是如何突显实际的该公司前提的。断言该公司研究专家说:“扯塑料的小时没特定前提,就是班组长觉得都能扯了就扯,即使在一个成品生产商更进一步当中。但是扯塑料的时候我们有历史纪录,因为工人都会扫码”,感兴趣的观看者可以思考,在上述前提下,周边产品和塑料的彼此间确实怎么建。

先前,本体论动态也都会有一些上限,即数据资料大体概念要依赖于三本体论的允许,这都能一定的数据资料库大体概念理论和技能根基,这也是本体论动态框架事与愿违不被改用的最主要因素所之一。但是来龙去脉坚信,在纺织工业数据资料智慧应用领域,最小的上限不是特定的数据资料库核心技术,而是纺织工业科学、IT科学和数据资料归纳科学的揉合。在本体论动态更进一步当中,该公司研究专家、IT研究专家、数据资料归纳研究专家依据该公司前提对数据资料大体概念开展间歇澄清咨询,由此激发的讯息沟通和先前供给的数据资料大体概念都会借助整个的团队设立一同该公司概念解构和语言框架,这对先前数据资料归纳和技术的发展的开发是一个最主要的根基。

阶数动态

在阶数动态(Dimensional Modeling)当中,数据资料被分为确实和阶数两种一般来说。确实所称在该公司更进一步当中起因的一次等价,而阶数所称这次等价起因的上下文。一次等价(确实详见当中的四人)可以密切相关多个等价结果和多个与之关连的阶数讯息。

在纺织工业应用领域当中,来自于DCS或者SCADA系统对当中的电源数据流数据资料是最众所周知的确实数据资料之一:PLC的一次采样都会激发多条测点数据资料,例如温度、阻碍等,同时有如这条确实数据资料的至更少有两个阶数——小时所称头和方式在号。另一个纺织工业的产品仿造应用领域典型的确实数据资料是生产商更进一步当中的都需数据资料:一个半上色或者上色在检验环节经过特定检验目的都会激发的一次检验结果历史纪录。检验的所称标,例如尺寸、重量等属于等价数据资料;而被检验的的产品ID、检验程序、检验周边产品等属于阶数数据资料。

在确实详见当中,阶数奇科的等价只是一个单值(特征值),但背后多半代详见的是一个该公司本体(这也是为什么很多阶数奇科以某某ID取名),我们称其为阶数本体。一个阶数本体又可以和其他的本体激发关联。例如上面的范例当中,电源数据流数据资料详见当中的“方式在号”代详见的“方式在”可以抽象概念为一个都可,除了方式在号(ID)都有还有等价单位、量程、解构学涵义等并不一定。多半多个方式在又同属于一台电源,所以一个方式在都可又和一个电源都可起因关连,等等。根据确实详见和阶数详见错综复杂该组织成的椭圆形相同,阶数大体概念分为人口为120人大体概念(Star Schema)和沙漏大体概念(Snowflake Schema)两种一般来说。

人口为120人大体概念是以确实详见为当中心,所有的阶数同样和确实详见密切相关,阶数和阶数错综复杂没关连,阶数详见围绕在确实详见周遭成星状分布。

沙漏大体概念以人口为120人大体概念为根基扩展,允许阶数详见和阶数详见错综复杂继续激发关连彼此间,比如说,确实详见可以通过阶数和阶数的关连赢取间接阶数。

同一个疑问,既可以用人口为120人大体概念该组织数据资料,也可以用沙漏大体概念该组织数据资料,那么这两种大体概念的优缺点分别是什么呢?我们用电源数据流数据资料为例开展对比说明。

下面是电源数据流数据资料的人口为120人大体概念该组织。首先,方式在号是电源数据流数据资料的一个阶数,通过一个方式在本体一般来说来历史纪录方式在都可的其他并不一定;小时所称头是一个阶数但是一般在纺织工业数据资料归纳当中,小时所称头同样参与指令集,并不都会像出货数据资料那样,小时是小时、天、月、年等自然小时段开展归纳交联的,因次不必开展都可解构解决问题。接下来,断言归纳方法论要在电源的粒度上对监测数据资料开展交联,例如普遍存在多个方式在是对同一电源模块的分块测量,我们都能测算他们的平均值。针对这个疑问,人口为120人大体概念方式则都能之后解决问题确实详见,减小一个“电源ID“阶数,并且与电源本体一般来说开展关连。

下面是电源数据流数据资料的沙漏大体概念该组织。方式在号和小时所称头两个阶数的;也则与人口为120人大体概念相同,这里不先赘述。相同之处在于,如果我们要减小一个原先归纳阶数“电源”,并且经过该公司归纳我们知道多个方式在是属于同一个电源的,比如说,电源和方式在错综复杂普遍存在一个一对多的彼此间,那么我们就按照本体论动态的思维在方式在和电源本体一般来说惨剧设立一个原先彼此间,数据流数据资料都能在电源阶数开展交联时,要通过关连方式在先关连电源的方式则开展。

对于两种大体概念,我们所想发现沙漏大体概念其实是人口为120人大体概念的阶数其余部分用本体论动态解决问题的结果。人口为120人大体概念的效用是阶数数据资料和确实详见永远同样关连,因此数据资料库会见的生产商成本比起较差,但是缺点是间接阶数在确实详见当中普遍存在数据资料分块,如果阶数数据资料开展修正,或者该公司上提出批评原先归纳期望都能减小阶数,那么确实数据资料就都能之后开展除去解决问题,因此人口为120人大体概念非常非常适合解决问题“事前表述的,期望比起具体内容的”数据资料归纳方法论。

整体而言,沙漏大体概念的阶数其余部分用本体论动态解决问题,在关连浏览,尤其是多多层次的阶数关连浏览时,生产商成本略高于,但是失掉的效用是数据资料大体概念比起不稳定的,阶数的修正、减小等操纵付出代价很小,对归纳期望的变更有一定的自适应性,因此沙漏大体概念非常适合解构解“探索性的、随时有或许变解构的、临时的”数据资料归纳方法论。

纺织工业应用领域的数据资料仓库动态框架可选择 详见:本体论动态对比阶数动态

上详见对比了数据资料仓库本体论动态和阶数动态框架的优缺点。在纺织工业应用领域技术的发展时,行业确实为基础自身的数据资料智慧技术的发展可用性和具体内容建设单项前提来具体内容数据资料仓库的动态和实施出发点。

对于数据资料智慧的尝鲜者,可以改用阶数动态针对单个方法论开展数据资料该组织动态,这样单项的建设启动小时较长,数据资料动态的收尾度也比起较低,都能快速收尾数据资料归纳方法论,赢取商业价值,这样可以借助的团队和行业设立对数据资料智慧技术的发展的期望。

对于开始有整体规划的建设跨方法论、跨部门统一数据资料底座的行业,建议开始改用本体论动态的出发点,通过主观的该组织该公司研究专家、IT研究专家、数据资料归纳研究专家开展协同,对一个也就是说的该公司区域内的大体该公司都可、前提开展必先,规范取名,借助于统一本体论数据资料大体概念;对于确实数据资料的其余部分,建议改用阶数动态当中的沙漏大体概念开展该组织,即阶数其余部分也但会改用本体论动态的方式则解决问题。这样可以赢取比起不稳定的,控管付出代价很小的数据资料大体概念,虽然启动的成本减小,但是从长期控管和技术的发展,是大体上生产商成本较差的方式则。更最主要的是,本体论动态可以作出贡献的团队乃至该组织对该公司表述、前提、科学开展交谈沟通,借助于统一语言。

实施本体论动态的造就误区就是一开始就陷入大而全的境地。例如以纺织工业电源为核心的生产商接入应用领域,大体生产商属性包括电源、生产工艺方式则、工序、人、环境等几大模块,每个模块氧化后,其密切相关的本体一般来说数量都都会有几个到几十个差不多,试图都只把区域内如此远超过该公司应用领域梳理吻合是完全不或许,也没必要的。建议按照主题的方式则开展该公司划分,每个主题的区域内不宜过大,但是要但会做透,以该公司故事情节动力收尾底层根序数据资料动态。如此迭代几次,以拼图的方式则收尾更大该公司区域内的根序数据资料动态所称导。

总结

本文介绍了数据资料仓库动态的两种大体框架:本体论动态和阶数动态的表述和根基方式则。通过与纺织工业数据资料归纳应用领域相为基础,概述了如何把这些抽象概念的IT方式则与具体内容的纺织工业数据资料归纳该公司为基础开展实践。我们着重对比了相同数据资料动态框架的优缺点,论点为基础行业自身数据资料智慧技术的发展的可用性和单项前提可选择适宜的数据资料动态框架。在有或许的只能,我们提拔优先技术的发展于本体论动态相关的核心技术,都会给归纳方法论和行业带来详见奇科出商业价值:

• 最大限度在纺织工业行业都有推动纺织工业研究专家、数据资料发现者/归纳师、IT和数据资料管理座机构核心技术的揉合,作出贡献跨应用领域沟通,形成一同语言;

• 让数据资料的该公司涵义显现解构,让该公司和数据资料归纳师以更直观的方式则获取数据资料,提高数据资料的可被家电;

• 为数据资料功能强大奠定良好的数据流资料根基。

在下一篇发表文章里,我们将都会把视角从单个方法论或者单项放大到跨方法论、跨的团队的交扯数据资料框架,说明如何通过数据资料的分层虚拟化借助于大体概念协同工作,数据资料分层虚拟化的相同多层次如何天然的并不相同到纺织工业行业都有相同的管理机构该组织,希望对观看者有所灵感。

作者简介

徐地博士,昆仑数据资料助理虚拟化师,前IBM当中国研究院所长。主要研究实践方向为云服务、纺织工业数据资料管理座机构、数据资料动力技术的发展虚拟化等。曾先后为新能源、油气、装备、解构工、电子仿造等多行业头部行业提供纺织工业数据解决问题解构解方案所称导,并将纺织工业数据资料管理座机构和数据解决问题技术的发展大体上总结为纺织工业互联网平台的产品。发详见国际性顶级测算座机框架结构都会议第一作者发表文章两篇,专利10余项。同时也是资深软件技工和虚拟化师,注册ScrumMaster,合乎多年强于壮开发的团队管理座机构大体上。

开槽螺套
烟台治疗皮肤病专科医院
南通专业治疗肿瘤医院
孩子嗓子痒总咳嗽怎么办
小儿腹胀
治口臭病
四磨汤
风热感冒咳嗽可以喝哪种止咳糖浆

上一篇: 二手烟对学童有什么危害?

下一篇: 电话邦再次获全国高新技术企业认定

友情链接