什么叫做离散化

来源:百度知道 编辑:UC知道 时间:2024/05/15 19:45:22
请具体一点

首先说明离散化和离散数学没有关系,而数据挖掘也只不过是离散化的一种应用而已。

离散化的概念最早用于数学,确切地说是计算数学中的数值计算。因为很多连续变化量,在处理起来会比较困难,比如e^x/x这样的函数在积分计算中是没有原函数的。为了解决一些没有代数解和解析解的数学问题时,数学家采用了离散化的思想,也就是把连续变化的量分区间来考虑。比较典型的大家容易接触到的是积分计算中的黎曼和。那是最初的一种离散化的应用。

目前在数学上的计算数学分支里有专门学科叫数值分析,就是专门运用离散化的方法来处理工程计算中涉及的各类计算问题,如微分方程、偏微分方程、矩阵特征值等,其应用非常广泛。而且这种方法还在向各个其他的科学分支渗透。如统计、数据挖掘、计算机算法、图形学、图像处理、生物计算等等。

Microsoft SQL Server 2005 Analysis Services (SSAS) 中创建数据挖掘模型时所用的有些算法需要特定的内容类型才能正确运行。例如,有些算法(如 Microsoft Naive Bayes 算法)不能使用连续列作为输入,即不能预测连续值。另外,有些列可能会因包含的值太多而导致算法不易标识数据中据以创建模型的相关模式。

在此类情况下,可以将列中的数据离散化,以便可以使用算法来生成挖掘模型。离散化是将一组连续的数据的值放入存储桶的过程,以便得到可能状态的离散数目。存储桶本身是作为有序且离散的值处理的。数值列和字符串列都可以进行离散化。

离散化数据时,可以使用多种方法。每种方法都能使用以下示例代码中的公式,自动计算要生成的存储桶的数目:

Number of Buckets = sqrt(n)

在上述示例代码中,n 是列中数据非重复值的数目。如果不希望由 Analysis Services 计算存储桶数目,则可使用 DiscretizationBuckets 属性来手动指定存储桶的数目。

离散数学是计算机专业的一门重要基础课。它所研究的对象是离散数量关系和离散结构数学结构模型。
由于数字电子计算机是一个离散结构,它只能处理离散的或离散化了的数量关系, 因此,无论计算机科学本身,还是与计算机科学