检测的实现与优化-电动数控滚圆机滚弧机张家港电动液压滚圆机滚
作者:lujianjun | 来源:泰宇机械 | 发布时间:2019-06-21 11:51 | 浏览次数:

数据的不一致性检测是数据清洗中一个重要的主题。传统集中式数据的不一致性检测问题可以使用基于SQL的技术得到解决,而对于分布式的数据,往往面临着诸多挑战。目前研究者提出了基于函数条件依赖的不一致性检测技术对该问题进行了深入研究,将分布式不一致性检测问题转化成最优化问题,并提出了若干可行的解决算法。本文介绍了分布式数据下的基于函数条件依赖的不一致性检测问题,并实现了基于最优化问题的分布式检测算法,最后组织相关实验进行验证和改进及数据集中的大部分数据需要检测,第8~10条则是传统的FD。3.3分布式站点对算法的影响研究分别在2、4、6、8和10个节点上测试了CTRDE-TECT算法和PATDETECT算法,各自比较了多条CFD在响应时间和网络传输上的变化趋势。从图1中可以看出,随着分布式站点数的增加,PATDE-TECTS的网络传输会增加。这是因为随着站点的增多,每本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanji.name个站点上分布的元组少了。检测的实现与优化-电动数控滚圆机滚弧机张家港电动液压滚圆机滚弧机类似地,作为协调站点上的待测元组也少了,而总待测元组是不变的,所以相应的网络传输应该更多。与其相应地有相似的实验结果。图1PATDETECTS的网络传输图Fi2可看出,随着分布式站点的增多,PATDETECTS的响应时间随之减少。这是因为站点增多后,各个模型元组并发检测的协调站点更趋发散地分布于各个分布式站点中,每个站点上执行并发检测的流程少了,网络传输和本地检测都会更快。同理,也有相似实验结果。3.4数据集对算法的影响研究在10个节点上,分别对不同大小的数据集进行了10条CFD的检测实验。鉴于集中式检测算法的效率过低,将仅是针对P两个算法进行实验,由结果来分析网络传输和响应时间的变化趋势。限于篇幅,只给出了PATDETECTRT的实验结果,PATDETECTS结果与之类似。从图3看出,在并行式检测算法中,随着数据集总大小的增加,完成检测的网络传输开销也在增长,并且是呈现近乎线性的增长。这是因为待检测数据往往是随着数据集的增大而线性递增的,为此网络传输开销也必然呈线性增长。图的网络传输Fig检测的实现与优化-电动数控滚圆机滚弧机张家港电动液压滚圆机滚弧机本文由公司网站滚圆机网站采集转载中国知网资源整理!www.gunyuanji.name