数据去重

来源:百度知道 编辑:UC知道 时间:2024/06/07 06:06:51
有几十万条数据在TXT文件里,格式如下:
a,2006-10-12
a,2007-10-12
b,2006-10-12
c,2006-09-12
d,2006-10-12
d,2006-11-12
d,2006-12-12
.....

怎么得到第一列去重后的数据,右边一列取时间最大的那个(也就是假如第一列有相同,取第二列时间最大保留下来,其他的删除),如下面去重后得:
a,2007-10-12
b,2006-10-12
c,2006-09-12
d,2006-12-12
去重后保存在数据库里

文本数据不太好处理.导到数据库里就简单了.你先导到数据库里吧
再导出到文本里呗

sqlserver的bcp
oracle的sqlloadder
都可以高速的把txt文件直接传入数据表,我见识过oracle的效率,大概1小时可以上传10G左右的数据到表中

所以你可以用这个工具把几十万的数据传上去,速度应该很快,10分钟不到应该可以传完。

进了数据表,要怎么筛选,还不是任你施为,呵呵

你想在TXT里面做这些操作是不现实的,建议将数据转换成其他的格式。例如:excel.使用excel的筛选功能就能实现。不过考虑到数据比较多,要花点时间的。