预处理是什么 包括哪两种方法

来源:百度知道 编辑:UC知道 时间:2024/06/08 15:39:50
请问在数据库系统里概论的理论知识点
在线求教

数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据并归约待分析的数据,将在决策过程得到高回报。

数据预处理的形式
1、数据清理
2、数据集成
3、数据变换
4、数据归约

数据库基础分析为什么要进行预处理数据 收藏
做数据预处理很重要,但是如何做好数据预处理似乎是件更困难的事。。。。。

-----------------------------------------------------------------------------------------------------------------------

当今现实世界的数据库极易受噪声、丢失数据和不一致数据的侵扰,因为数据库太大(常常多达数千兆字节,甚至更多),并且多半来自多个异构数据源。低质量的数据将导致低质量的挖掘结果。“如何预处理数据提高数据质量,从而提高挖掘结果的质量?如何预处理数据,使得挖掘过程更加有效、更加容易?”

有大量数据预处理技术。数据清理可以用来去掉数据中的噪声,纠正不一致。数据集成将数据由多个源合并成一致的数据存储,如数据仓库。也可以使用数据变换,如规范化。例如,规范化可以提高涉及距离度量的挖掘算法的准确率和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来减小数据规模。这些技术不是互斥的,可以一起使用。例如,数据清理可能涉及纠正错误数据的变换,如将日期字段变换成共同的格式。这些数据处理技术在挖掘之前使用,可以显著地提高挖掘模式的总体质量和/或减少实际挖掘所需要的时间。

介绍数据预处理的基本概念,介绍作为数据预处理基础的描述性数据汇总。描述性数据汇总帮助我们研究数据的一般特征、识别噪声或离群点,对成功的数据清理和数据集成很有用。数据预处理的方法组织如下:数据清理、数据集成与变换和数据归约。概念分层可以用作数据归约的一种替换形式,其中低层数据(如年龄的原始值)用高层概念(如青年、中年或老年)替换。这种形式的数据归约,在那里我们讨论使用数据离散化技术,由数值数据自