数据挖掘关联规则算法如何做仿真实验????急呀!

来源:百度知道 编辑:UC知道 时间:2024/06/03 17:06:08
最近在做关联规则的实验,用C++实现的算法只能在少数量的数据库事务集中实现,如果事务集增加了就提示系统内存不足,这问题非常烦恼,又没同学知道,哎,痛苦呀!!!!!!
请高手提示一下如何处理大数据集的挖掘??比如经常用的数据集T10I4D100K.dat,里面有10万个数据,怎么统计得到运行时间和内存使用情况???
小弟还不懂怎么做仿真实验,请尽量详细点说明呀,
非常感谢,回答满意我再追加分.
主要是我不懂如何处理大数据集,处理方法是怎么样的呢??
我的硬盘250G呀,肯定够用的,
难道我算法有问题?但是处理10个事务时结果是正确的呀!!

十万个确实是算小的,我现在也在考虑算法本身的问题了,
不过具体的实验流程和方法还是不懂,
是不是所有的挖掘频繁项集的算法都是直接读到内存处理呢?
用不用借助相关软件???
十万个确实是算小的,我现在也在考虑算法本身的问题了,
不过具体的实验流程和方法还是不懂,

当你把整个文件打开的时候说明文件已经被load到内存里了。所以请检查你的内存是否够大,或者虚拟内存太小。

按理来说T10I4D100K.dat是很小的一个文件,虽然有10W行,但宽度很小啊。

建议你把虚拟内存调大一点,关闭其他占用大量内存的程序,例如IE,等等。

再么就是看看你的程序是否设计合理。这点儿数据根本不能算做大数据集。

over!

10万个数据算很小的了,照理不应该内存不足。在run数据的时候,是需要和数据集一样大小或者成倍大小的虚拟空间,需要看一下你的硬盘是否够大。

同学 你的数据集是由啥工具生成的啊 我也在弄数据挖掘 挖掘频繁模式
我个人认为提示内存空间不足 有可能是你的算法占内存空间太多 空间复杂度太大 和你的硬盘大小没关系 算法在处理数据时是放到内存进行的