t********m 发帖数: 939 | 1 菜鸟一个,请教大家,我现在有一个大的data,大约快60m rows, 30 columns,想在R
里面做些分析,单机版几乎不行,非常非常慢。想问下大家,我可以用AMS做吗?当然
需要付钱才行。我就是不太了解用AMS可不可行,我需要学些什么知识吗?像hadoop之
类的。对大数据计算一点都不了解,如果问题白痴,请别见笑。请大家不吝赐教,谢谢
了。 |
l******n 发帖数: 9344 | 2 Ams是啥?
在R
【在 t********m 的大作中提到】 : 菜鸟一个,请教大家,我现在有一个大的data,大约快60m rows, 30 columns,想在R : 里面做些分析,单机版几乎不行,非常非常慢。想问下大家,我可以用AMS做吗?当然 : 需要付钱才行。我就是不太了解用AMS可不可行,我需要学些什么知识吗?像hadoop之 : 类的。对大数据计算一点都不了解,如果问题白痴,请别见笑。请大家不吝赐教,谢谢 : 了。
|
t********m 发帖数: 939 | 3 AWS is Amazon Web Services |
f***8 发帖数: 571 | 4 yeah, it is called AWS:)
如果你的数据单机内存里放的下,可以看看dplyr或者data.table等packages,速度比
原生R快很多。
如果内存放不下,又不能拆开,可以去找找AWS上最大的instance试试,再不行估计就
得上Spark了?
【在 t********m 的大作中提到】 : AWS is Amazon Web Services
|
l******n 发帖数: 9344 | 5 ......
第一次看到这种写法,真有创新精神
【在 t********m 的大作中提到】 : AWS is Amazon Web Services
|
t********m 发帖数: 939 | 6 sorry, should be AWS.
【在 l******n 的大作中提到】 : ...... : 第一次看到这种写法,真有创新精神
|
t********m 发帖数: 939 | 7 多谢回复。我的数据大概20G,单击内存里放的下。但是我电脑的RAM也就32G,不知道
用你说的这些package就在单机里面分析行不行。这些package我不是很熟悉,是不是用
了这些package就不会占用太大的memory?我会去做做research。另外,请问你用过AWS
吗?不知道贵不贵,我在网上查了一下价格,它需要输入很多参数才能估计出价格,而
我又不太了解那些参数都是什么意思,不知道你能不能说些你的经验给我参考,谢谢了!
【在 f***8 的大作中提到】 : yeah, it is called AWS:) : 如果你的数据单机内存里放的下,可以看看dplyr或者data.table等packages,速度比 : 原生R快很多。 : 如果内存放不下,又不能拆开,可以去找找AWS上最大的instance试试,再不行估计就 : 得上Spark了?
|
l******n 发帖数: 9344 | 8 你还是用你自己电脑吧,32g内存应该差不多,不够就减几个column或者filter一下数
据。
AWS
了!
【在 t********m 的大作中提到】 : 多谢回复。我的数据大概20G,单击内存里放的下。但是我电脑的RAM也就32G,不知道 : 用你说的这些package就在单机里面分析行不行。这些package我不是很熟悉,是不是用 : 了这些package就不会占用太大的memory?我会去做做research。另外,请问你用过AWS : 吗?不知道贵不贵,我在网上查了一下价格,它需要输入很多参数才能估计出价格,而 : 我又不太了解那些参数都是什么意思,不知道你能不能说些你的经验给我参考,谢谢了!
|
O*O 发帖数: 2284 | 9 说说你要算啥
估计下计算中的内存需求
AWS
了!
【在 t********m 的大作中提到】 : 多谢回复。我的数据大概20G,单击内存里放的下。但是我电脑的RAM也就32G,不知道 : 用你说的这些package就在单机里面分析行不行。这些package我不是很熟悉,是不是用 : 了这些package就不会占用太大的memory?我会去做做research。另外,请问你用过AWS : 吗?不知道贵不贵,我在网上查了一下价格,它需要输入很多参数才能估计出价格,而 : 我又不太了解那些参数都是什么意思,不知道你能不能说些你的经验给我参考,谢谢了!
|
Z**0 发帖数: 1119 | 10 你在单机上,load data后用了多少内存?用了20G?下面做数据分析,还需要额外的内
存,这个依赖于你的的research,用什么package来分析数据。
AWS费用不是很高,是按照时间来计算价格的,内存大的instance,费用会高不少。如
果你要用,你应该在你自己的机器上,用1M row的数据,把所有的code,都测试好,测
试运行时间,估算在所有数据在AWS上的运行时间。然后在AWS上,对所有的数据,一次
运行你的code,尽可能减少使用AWS的时间。如果你的分析是ad hoc,你需要explore,
费用就比较难预测。
看这个chart:
https://aws.amazon.com/ec2/pricing/
max:2-3 $/hr |