并行数据挖掘是指什么并行呢?

来源:百度知道 编辑:UC知道 时间:2024/06/07 19:42:33

并行数据挖掘技术不同于其它并行算法的地方在于它需要处理的数据的规模很大。人们知道,对于并行而言,交互之间的消耗(即内存的使用)是比执行时间(计算阶段)重要得多的因素。串行数据挖掘算法对于规模很小的数据也需要大量的运行时间,而且可用于分析的数据增长得很快,这样就需要寻找用于数据挖掘的并行算法,目前对并行数据挖掘算法已有了充分的研究

并行数据挖掘的策略
一个算法的复杂性可以表示为空间复杂性和时间复杂性两个方面。并行算法的目标是尽可能减少时间复杂性,但其代价是通过增加空间复杂性(如增加空间的维数及增加处理器的台数)来实现的。从算法树的结构来看,通常的串行算法树“深而窄”;而并行算法树的结构截然不同。为了达到把时间复杂性转化为空间复杂性的目的,并行算法树采用“浅而宽”的结构即每个时刻可容纳的计算量相应增加,使整个算法的步数尽可能减少。

并行数据挖掘策略通常是有三种:
1.朴素并行,也就是人们通常说的网络并行。网络并行,就是通过高速信息网络充分利用网上的计算机资源,实现大规模数据上的并行计算。在这种并行类型中用于计算的时间会减少但是每一个处理器都要扫描所有的数据,这样就阻碍了算法性能的提高。

2.典型并行是当前并行数据挖掘策略的典型代表(这里称为典型并行)。在算法的每一步中,一个处理器只处理 1/p 的数据,而且在步骤的最后需要交换从数据中收集到的信息。

3逻辑并行类型 的技术是适用于逻辑性较强的并行。对于这种类型的并行数据挖掘策略,初始化阶段可能要重复进行是为了给该类型技术的结构减小数据规模。然而,该结构进一步发生在进一步抽取信息的过程中。许多归纳的逻辑方法(如的处理是ProgoL) 就是这种并行类型。