由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 想写一个machine learning的平台
相关主题
Hadoop 和Python的数据分析包哪个更值得学习?有大牛可以说说scikit-learn哪些方面不如tf么?
已经全上内存了,还要40多秒啊c++程序员不要把头埋在沙子里了
公司要做ML了,上来问问学习方向GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
how's scikit-learn, what else package is good for machine learning ?看了眼scala,觉得很杂
python真是一个很恶心的语言。学scala和spark需要什么pre req?
想跟着几个牛人实践一下新语言试了下spark,不过如此啊
越来越觉得spark是nicheSpark会干掉Storm吗?
总结一下kaggle比赛以后真的是cassandra spark的天下了?
相关话题的讨论汇总
话题: ml话题: learning话题: gpu话题: spark话题: 平台
进入Programming版参与讨论
1 (共1页)
B********e
发帖数: 1062
1
帮一个朋友设计一个用machine learning处理数据的平台
1)大概200+GB的数据
2)1000左右的feature set
3) LINUX平台
4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
5)6个月的时间开发
我准备用python/mongodb/sklearn/pycuda的组合
各位大牛,有没有使用的语言,数据库,工具的建议?
w**z
发帖数: 8232
2
用python 快不了。 用mongo 大不了。

【在 B********e 的大作中提到】
: 帮一个朋友设计一个用machine learning处理数据的平台
: 1)大概200+GB的数据
: 2)1000左右的feature set
: 3) LINUX平台
: 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
: 5)6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛,有没有使用的语言,数据库,工具的建议?

d*******r
发帖数: 3299
3
按照本版与时俱进的风格,目测大家会建议上 Spark + Cassandra 这种高科技组合

【在 B********e 的大作中提到】
: 帮一个朋友设计一个用machine learning处理数据的平台
: 1)大概200+GB的数据
: 2)1000左右的feature set
: 3) LINUX平台
: 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
: 5)6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛,有没有使用的语言,数据库,工具的建议?

z****e
发帖数: 54598
4
是,这个是主流,不过这就用不了gpu了

【在 d*******r 的大作中提到】
: 按照本版与时俱进的风格,目测大家会建议上 Spark + Cassandra 这种高科技组合
c*********e
发帖数: 16335
5
gpu到底啥趋势,現在很火的感觉。我公司根本就不用它。

【在 z****e 的大作中提到】
: 是,这个是主流,不过这就用不了gpu了
c*********e
发帖数: 16335
6
要用宰牛刀? 我公司这些高科技都没用。

【在 d*******r 的大作中提到】
: 按照本版与时俱进的风格,目测大家会建议上 Spark + Cassandra 这种高科技组合
z****e
发帖数: 54598
7
你写个web,不需要这些

【在 c*********e 的大作中提到】
: gpu到底啥趋势,現在很火的感觉。我公司根本就不用它。
B********e
发帖数: 1062
8
瞄了一眼, 好像machine learning的库不是很多。

【在 d*******r 的大作中提到】
: 按照本版与时俱进的风格,目测大家会建议上 Spark + Cassandra 这种高科技组合
z****e
发帖数: 54598
9
你是想用scipy,scikit-learn这些吧?
如果是java的话,可以看看weka
但是主流应该是spark平台

【在 B********e 的大作中提到】
: 瞄了一眼, 好像machine learning的库不是很多。
B********e
发帖数: 1062
10
是啊,
先谢了, 我去读读weka 和 spark 的文档,

【在 z****e 的大作中提到】
: 你是想用scipy,scikit-learn这些吧?
: 如果是java的话,可以看看weka
: 但是主流应该是spark平台

相关主题
想跟着几个牛人实践一下新语言有大牛可以说说scikit-learn哪些方面不如tf么?
越来越觉得spark是nichec++程序员不要把头埋在沙子里了
总结一下kaggle比赛GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
进入Programming版参与讨论
B********e
发帖数: 1062
11
http://www.wired.com/2013/06/andrew_ng/
找到一篇文章, 正是我想要的. 可惜, 不知道自己搞不搞的定?
技术啊, 用到的时候就觉得不够了!

【在 B********e 的大作中提到】
: 是啊,
: 先谢了, 我去读读weka 和 spark 的文档,

g*********e
发帖数: 14401
12
大牛说说ml都啥库?
z****e
发帖数: 54598
13
看了看,你要的是deep learning的库啊
这个weka应该有,但是spark暂时还没有

【在 B********e 的大作中提到】
: http://www.wired.com/2013/06/andrew_ng/
: 找到一篇文章, 正是我想要的. 可惜, 不知道自己搞不搞的定?
: 技术啊, 用到的时候就觉得不够了!

f********r
发帖数: 304
14
Weka is not production ready and not scalable. I would not recommend it at
all. It is good for small scale experiments and tests.
c*******9
发帖数: 9032
15
如果计算部分用GPU可以考虑haskell。
python又慢又不适合大程序。

【在 B********e 的大作中提到】
: 帮一个朋友设计一个用machine learning处理数据的平台
: 1)大概200+GB的数据
: 2)1000左右的feature set
: 3) LINUX平台
: 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
: 5)6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛,有没有使用的语言,数据库,工具的建议?

z****e
发帖数: 54598
16
weka如果不是prod ready的话
就没有了
自己动手去写去
scipy,scikit-learn只会比weka更慢
更不scalable,python那些pkg,一个垮平台倒腾半天
我当时编译scikit-learn,弄半天,搞定了还不明白那个声明啥意思

【在 f********r 的大作中提到】
: Weka is not production ready and not scalable. I would not recommend it at
: all. It is good for small scale experiments and tests.

B********e
发帖数: 1062
17
看来大家对python缺点的看法差不多。
haskell 有什么好的machine learning 的库?

【在 c*******9 的大作中提到】
: 如果计算部分用GPU可以考虑haskell。
: python又慢又不适合大程序。

l*******b
发帖数: 2586
18
Python这些库内存管理怎么样呀?
好像python里想释放内存要费牛劲了......
parallel也不知道行不行

【在 B********e 的大作中提到】
: 瞄了一眼, 好像machine learning的库不是很多。
c*******9
发帖数: 9032
19
https://github.com/josephmisiti/awesome-machine-learning#haskell-general-
purpose
haskell-ml, HLearn....
GPU运算参考《parallel and concurrent programming in Haskell》Data.Array.
Accelerate 库吧,不知道现在有什么新变化。

【在 B********e 的大作中提到】
: 看来大家对python缺点的看法差不多。
: haskell 有什么好的machine learning 的库?

B********e
发帖数: 1062
20
多谢多谢。 记下了, 先读读文档。

【在 c*******9 的大作中提到】
: https://github.com/josephmisiti/awesome-machine-learning#haskell-general-
: purpose
: haskell-ml, HLearn....
: GPU运算参考《parallel and concurrent programming in Haskell》Data.Array.
: Accelerate 库吧,不知道现在有什么新变化。

相关主题
看了眼scala,觉得很杂Spark会干掉Storm吗?
学scala和spark需要什么pre req?以后真的是cassandra spark的天下了?
试了下spark,不过如此啊谈谈为什么上scala
进入Programming版参与讨论
d********u
发帖数: 5383
21
你这个问题的关键是ML,不是什么平台,语言,DB这些细枝末节。
这里的人只是打工的,不会给你什么有用的建议的。

【在 B********e 的大作中提到】
: 帮一个朋友设计一个用machine learning处理数据的平台
: 1)大概200+GB的数据
: 2)1000左右的feature set
: 3) LINUX平台
: 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
: 5)6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛,有没有使用的语言,数据库,工具的建议?

c*******9
发帖数: 9032
22
看的懂中文?

【在 d********u 的大作中提到】
: 你这个问题的关键是ML,不是什么平台,语言,DB这些细枝末节。
: 这里的人只是打工的,不会给你什么有用的建议的。

c*******0
发帖数: 5247
23
这里的人都是给的什么烂建议啊...连haskell都出来了。拜托动动脑子想想,人家是拿
钱设计平台的。
楼主你200+GB的数据,自己给的平台就不错。如果确实扣速度,用Python做平台glue上
Java的库ML,哪边都是成堆的轮子给你用。但说实话,你这个规模Python足够了,没必
要考虑这么多。如果最后数据
真的上去了再上cluster
不要动不动就Spark。先想想你的算法适不适合spark,到底能多并行化。
m********5
发帖数: 17667
24
除非你非常熟悉硬件性能,6个月折腾GPU可能得不偿失,快不了多少,还多费很多事。
而真正有较好加速效果的大VRAM专业GPU价格并不便宜。我的建议是能不GPU就不GPU.
你这个规模,用什么语言,什么数据库问题应该不大,哪个熟悉用哪个。

【在 B********e 的大作中提到】
: 帮一个朋友设计一个用machine learning处理数据的平台
: 1)大概200+GB的数据
: 2)1000左右的feature set
: 3) LINUX平台
: 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
: 5)6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛,有没有使用的语言,数据库,工具的建议?

z****e
发帖数: 54598
25
有一个问题,为什么你设计一平台
数据量居然是固定的?
难道数据不是增长的?而平台上的工具不是独立于数据本身而存在的?
B********e
发帖数: 1062
26
数据量增长慢,可以忽略

【在 z****e 的大作中提到】
: 有一个问题,为什么你设计一平台
: 数据量居然是固定的?
: 难道数据不是增长的?而平台上的工具不是独立于数据本身而存在的?

z****e
发帖数: 54598
27
deep learning还没有成堆的轮子可以用
无论是python还是java,都只有屈指可数的几个library可以用
估计还是要自己去写,自己写的话,迎合趋势反而更好
正好抓住机会把那些快被淘汰的部分直接干掉
做好了直接贡献给spark,不过估计不会这么牛了

【在 c*******0 的大作中提到】
: 这里的人都是给的什么烂建议啊...连haskell都出来了。拜托动动脑子想想,人家是拿
: 钱设计平台的。
: 楼主你200+GB的数据,自己给的平台就不错。如果确实扣速度,用Python做平台glue上
: Java的库ML,哪边都是成堆的轮子给你用。但说实话,你这个规模Python足够了,没必
: 要考虑这么多。如果最后数据
: 真的上去了再上cluster
: 不要动不动就Spark。先想想你的算法适不适合spark,到底能多并行化。

h********3
发帖数: 2075
28
deep learning现在只适合超高dimension的数据,比如image这些。如果只是一般的分
类,svm和loglinear model足够了。而且到现在,很多人都不相信deep learning就真
的比SVM, loglinear更好。

【在 z****e 的大作中提到】
: 看了看,你要的是deep learning的库啊
: 这个weka应该有,但是spark暂时还没有

c*******0
发帖数: 5247
29
deep learning?楼主这数据搞什么deep learning啊?

【在 z****e 的大作中提到】
: deep learning还没有成堆的轮子可以用
: 无论是python还是java,都只有屈指可数的几个library可以用
: 估计还是要自己去写,自己写的话,迎合趋势反而更好
: 正好抓住机会把那些快被淘汰的部分直接干掉
: 做好了直接贡献给spark,不过估计不会这么牛了

z****e
发帖数: 54598
30
平台化吧,我估计是想做个大概的demo
然后以后等平台牛逼了,就可以直接用了
宣传时候也好宣传,我们有deep learning
你看他弄的ng那篇文章,说的就是如何搞一个简易的大脑
到底做啥,问楼主了

【在 c*******0 的大作中提到】
: deep learning?楼主这数据搞什么deep learning啊?
相关主题
coltzhao的公司还在用mongo吗?已经全上内存了,还要40多秒啊
关于 SPARK, 问二爷peking2 和其他大牛一问题公司要做ML了,上来问问学习方向
Hadoop 和Python的数据分析包哪个更值得学习?how's scikit-learn, what else package is good for machine learning ?
进入Programming版参与讨论
z****e
发帖数: 54598
31
那这个上spark足够了
但是我感觉好像楼主有野望

【在 h********3 的大作中提到】
: deep learning现在只适合超高dimension的数据,比如image这些。如果只是一般的分
: 类,svm和loglinear model足够了。而且到现在,很多人都不相信deep learning就真
: 的比SVM, loglinear更好。

d********u
发帖数: 5383
32
果蝇好,你今天的跪舔任务完成了吗?别忘了脑残片。

【在 c*******9 的大作中提到】
: 看的懂中文?
c*******9
发帖数: 9032
33
臭臭好好跪舔阿三ceo吧,下届ceo有戏,拯救微软的使命就看你了。

【在 d********u 的大作中提到】
: 果蝇好,你今天的跪舔任务完成了吗?别忘了脑残片。
c*******9
发帖数: 9032
34
还是看楼主他们想做什么吧。
不用过分凭自己的经验指点别人。数据小不一定运算就小。

【在 c*******0 的大作中提到】
: 这里的人都是给的什么烂建议啊...连haskell都出来了。拜托动动脑子想想,人家是拿
: 钱设计平台的。
: 楼主你200+GB的数据,自己给的平台就不错。如果确实扣速度,用Python做平台glue上
: Java的库ML,哪边都是成堆的轮子给你用。但说实话,你这个规模Python足够了,没必
: 要考虑这么多。如果最后数据
: 真的上去了再上cluster
: 不要动不动就Spark。先想想你的算法适不适合spark,到底能多并行化。

w***g
发帖数: 5958
35
GPU是个niche market,没啥前途。坐等Intel带FPGA的CPU出来。
我正在搞纯CPU的一个比SGD更一般化的计算平台,可以支持linear regression
的各种变种和neural network的各种变种。现在用图像数据训练neural network
性能比GPU差10倍的样子,等着上FPGA后一举超过GPU。
GPU的问题是显卡内存太小,目前最大也不超过10G。而服务器内存目前200G都挺
常见了。10G数据能折腾个啥出来。

【在 c*********e 的大作中提到】
: gpu到底啥趋势,現在很火的感觉。我公司根本就不用它。
w***g
发帖数: 5958
36
weka有性能瓶颈。如果你一次训练的数据量要上10G,weka肯定就不行了。
还是scipy更靠谱点。至于数据库,如果是单机的话还不如直接存文件系统。
多机的用话用轮子确实是HDFS+spark比较靠谱。不图别的,就图能全都
load到内存里。如果虽然数据总量有200G,但是每次训练只有几G几十G,
还是单机更靠谱。
上集群都是没办法才上的,如果买台好点的机器可以满足需求,就不要上
集群。Hadoop啥的都是没办法的办法。

【在 B********e 的大作中提到】
: 是啊,
: 先谢了, 我去读读weka 和 spark 的文档,

w***g
发帖数: 5958
37
sciki-learn跟matlab一样,后台是blas,写的好的话不会有性能问题。
要用scikit的话直接下anaconda。
楼主要用neuralnetwork的话比较叫靠谱的有两个,一个是theano,适合自己写轮子。
另一个是decaf,用来做图像处理。如果楼主不是图像音频数据,用neural network讨
不了好。
haskell稿ML没戏。

【在 z****e 的大作中提到】
: weka如果不是prod ready的话
: 就没有了
: 自己动手去写去
: scipy,scikit-learn只会比weka更慢
: 更不scalable,python那些pkg,一个垮平台倒腾半天
: 我当时编译scikit-learn,弄半天,搞定了还不明白那个声明啥意思

p*****2
发帖数: 21240
38

HDFS+Cassandra,你指的是把C*数据copy到HDFS然后run mr or spark?

【在 w***g 的大作中提到】
: weka有性能瓶颈。如果你一次训练的数据量要上10G,weka肯定就不行了。
: 还是scipy更靠谱点。至于数据库,如果是单机的话还不如直接存文件系统。
: 多机的用话用轮子确实是HDFS+spark比较靠谱。不图别的,就图能全都
: load到内存里。如果虽然数据总量有200G,但是每次训练只有几G几十G,
: 还是单机更靠谱。
: 上集群都是没办法才上的,如果买台好点的机器可以满足需求,就不要上
: 集群。Hadoop啥的都是没办法的办法。

w***g
发帖数: 5958
39
我敲错了。spark。

【在 p*****2 的大作中提到】
:
: HDFS+Cassandra,你指的是把C*数据copy到HDFS然后run mr or spark?

N******K
发帖数: 10202
40
啥应用? 人脸?

【在 B********e 的大作中提到】
: 帮一个朋友设计一个用machine learning处理数据的平台
: 1)大概200+GB的数据
: 2)1000左右的feature set
: 3) LINUX平台
: 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
: 5)6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛,有没有使用的语言,数据库,工具的建议?

相关主题
how's scikit-learn, what else package is good for machine learning ?越来越觉得spark是niche
python真是一个很恶心的语言。总结一下kaggle比赛
想跟着几个牛人实践一下新语言有大牛可以说说scikit-learn哪些方面不如tf么?
进入Programming版参与讨论
z****e
发帖数: 54598
41
图像如果只是处理的话,弄个滤镜啥的
挨个像素处理过去也没多复杂
如果是画图的话,java可以直接用最原始的那几个pkg
chart就用jfreechart,或者javafx,不过javafx是单线程的
不确定这里面是否有风险
如果是需要parse的话,scipy那些pkg一样不能分布
直接用scala写也没多麻烦
这种原理复杂的东西光无脑上轮子未必顶用

【在 w***g 的大作中提到】
: sciki-learn跟matlab一样,后台是blas,写的好的话不会有性能问题。
: 要用scikit的话直接下anaconda。
: 楼主要用neuralnetwork的话比较叫靠谱的有两个,一个是theano,适合自己写轮子。
: 另一个是decaf,用来做图像处理。如果楼主不是图像音频数据,用neural network讨
: 不了好。
: haskell稿ML没戏。

z****e
发帖数: 54598
42
wdong我还是觉得图像处理是你发财的好机会

【在 w***g 的大作中提到】
: sciki-learn跟matlab一样,后台是blas,写的好的话不会有性能问题。
: 要用scikit的话直接下anaconda。
: 楼主要用neuralnetwork的话比较叫靠谱的有两个,一个是theano,适合自己写轮子。
: 另一个是decaf,用来做图像处理。如果楼主不是图像音频数据,用neural network讨
: 不了好。
: haskell稿ML没戏。

c*******9
发帖数: 9032
43
haskell稿ML为什么没戏?

【在 w***g 的大作中提到】
: sciki-learn跟matlab一样,后台是blas,写的好的话不会有性能问题。
: 要用scikit的话直接下anaconda。
: 楼主要用neuralnetwork的话比较叫靠谱的有两个,一个是theano,适合自己写轮子。
: 另一个是decaf,用来做图像处理。如果楼主不是图像音频数据,用neural network讨
: 不了好。
: haskell稿ML没戏。

w***g
发帖数: 5958
44
我感觉haskell搞啥都没系。太难了。
具体到ML,ML和计算机语言是CS里差得很远的两个领域,要说搞Haskell的会几种ML算
法倒有可能,ML researcher大部分既不会haskell也不会对语言层面的东西感兴趣。而
ML的发展动力来自于ML research community而不是programming language community
。这就导致了Haskell里的ML算法基本上只可能是二手货。

【在 c*******9 的大作中提到】
: haskell稿ML为什么没戏?
a********c
发帖数: 3657
45
金融很多是c++/r,这里大家常说的什么java/python/spark基本没见过。。。很好奇这
些都是什么industry啊。。。

【在 B********e 的大作中提到】
: 帮一个朋友设计一个用machine learning处理数据的平台
: 1)大概200+GB的数据
: 2)1000左右的feature set
: 3) LINUX平台
: 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
: 5)6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛,有没有使用的语言,数据库,工具的建议?

n*******0
发帖数: 2002
46
spark+hbase吧。个人对cassandra无爱。

【在 B********e 的大作中提到】
: 帮一个朋友设计一个用machine learning处理数据的平台
: 1)大概200+GB的数据
: 2)1000左右的feature set
: 3) LINUX平台
: 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
: 5)6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛,有没有使用的语言,数据库,工具的建议?

c*******9
发帖数: 9032
47
金融多要求实时。这里ML多数不要求实时。

【在 a********c 的大作中提到】
: 金融很多是c++/r,这里大家常说的什么java/python/spark基本没见过。。。很好奇这
: 些都是什么industry啊。。。

c******n
发帖数: 4965
48
这种东西多如牛毛
核心的有 mahout (及其最新 基于 spark 版本)
cloudera orynx
包装高一层的 有 h2o , motar , 各大 “ big data " vendor 都有自己的 图形
界面的系统 : datameer , Microsoft cloud,, algorithm.io google
app engine 也有 machine learning service, 最简单的 classification 到 NLP
甚至 deep learning 都有
所以你再去搞一个, 我个人认为没有很大前途, 唯一可能左右就是给自己简历上加
一个 hobby project 而已
我觉得比较事半功倍的 project 还是要接近 application layer

【在 B********e 的大作中提到】
: 帮一个朋友设计一个用machine learning处理数据的平台
: 1)大概200+GB的数据
: 2)1000左右的feature set
: 3) LINUX平台
: 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
: 5)6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛,有没有使用的语言,数据库,工具的建议?

z****e
发帖数: 54598
49
没法实时,训练就做不到实时
各个步骤基本上都无法实时
能在10s内跑完都算快的了
当然是很大的数据

【在 c*******9 的大作中提到】
: 金融多要求实时。这里ML多数不要求实时。
a********c
发帖数: 3657
50

基本没有实时的,就算hft也是ML mkt data to find pattern,再作forecast/
backtesting...找data就是C++,说穿了就是从ex拿data,然后r programming。

【在 c*******9 的大作中提到】
: 金融多要求实时。这里ML多数不要求实时。
相关主题
c++程序员不要把头埋在沙子里了学scala和spark需要什么pre req?
GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧试了下spark,不过如此啊
看了眼scala,觉得很杂Spark会干掉Storm吗?
进入Programming版参与讨论
z****e
发帖数: 54598
51
还有历史的原因,长期矿工都是招c++程序员
自然很多东西都是c++写的,再换就积重难返了

【在 a********c 的大作中提到】
:
: 基本没有实时的,就算hft也是ML mkt data to find pattern,再作forecast/
: backtesting...找data就是C++,说穿了就是从ex拿data,然后r programming。

a********c
发帖数: 3657
52

c++程序员那是矿马宫。。。
就算新的project你跟人讲java/spark啥的,人家也觉得你就是个蛇精病。。。

【在 z****e 的大作中提到】
: 还有历史的原因,长期矿工都是招c++程序员
: 自然很多东西都是c++写的,再换就积重难返了

z****e
发帖数: 54598
53
少来
我两年前就看到有公司在招hadoop程序员
你不过一叶障目而已
还有就是金融系统的规模都不大
分布式基本上不存在,上百个nodes你弄过么?
没弄过的就不要操心,蛇精病眼里其他人都蛇精病

【在 a********c 的大作中提到】
:
: c++程序员那是矿马宫。。。
: 就算新的project你跟人讲java/spark啥的,人家也觉得你就是个蛇精病。。。

a********c
发帖数: 3657
54

隔行如隔山,你个门外汉就别瞎折腾了。

【在 z****e 的大作中提到】
: 少来
: 我两年前就看到有公司在招hadoop程序员
: 你不过一叶障目而已
: 还有就是金融系统的规模都不大
: 分布式基本上不存在,上百个nodes你弄过么?
: 没弄过的就不要操心,蛇精病眼里其他人都蛇精病

z****e
发帖数: 54598
55
那你唧歪啥?你是门内汉?

【在 a********c 的大作中提到】
:
: 隔行如隔山,你个门外汉就别瞎折腾了。

f***s
发帖数: 112
56
大约在2017年底出来,硬件在特拉维夫,软件在班加罗尔。

【在 w***g 的大作中提到】
: GPU是个niche market,没啥前途。坐等Intel带FPGA的CPU出来。
: 我正在搞纯CPU的一个比SGD更一般化的计算平台,可以支持linear regression
: 的各种变种和neural network的各种变种。现在用图像数据训练neural network
: 性能比GPU差10倍的样子,等着上FPGA后一举超过GPU。
: GPU的问题是显卡内存太小,目前最大也不超过10G。而服务器内存目前200G都挺
: 常见了。10G数据能折腾个啥出来。

p*****y
发帖数: 529
57
做market risk, 上千server很正常

【在 a********c 的大作中提到】
:
: 隔行如隔山,你个门外汉就别瞎折腾了。

z****e
发帖数: 54598
58
我跟你打赌
它没有用过上百个
看它前几个帖子就清楚了

【在 p*****y 的大作中提到】
: 做market risk, 上千server很正常
c*******9
发帖数: 9032
59
和目前一般的FPGA比有什么进步?

【在 f***s 的大作中提到】
: 大约在2017年底出来,硬件在特拉维夫,软件在班加罗尔。
a********c
发帖数: 3657
60
hehe,像你们这些web coder成天不停的学些只管半年垃圾framework。。。我老光靠
vba就可以吃一辈子

【在 z****e 的大作中提到】
: 那你唧歪啥?你是门内汉?
相关主题
以后真的是cassandra spark的天下了?关于 SPARK, 问二爷peking2 和其他大牛一问题
谈谈为什么上scalaHadoop 和Python的数据分析包哪个更值得学习?
coltzhao的公司还在用mongo吗?已经全上内存了,还要40多秒啊
进入Programming版参与讨论
a********c
发帖数: 3657
61
现在用的computing farm在synopsis,2000来个note吧。

【在 z****e 的大作中提到】
: 我跟你打赌
: 它没有用过上百个
: 看它前几个帖子就清楚了

z****e
发帖数: 54598
62
lol
你就别吹了
用r的家伙有能干活的么?
我每天琢磨的就是如何让r的性能更有效点
说白了就是如何让分布式能够真正搞定r脚本
问题是太难了,你说你用r来下prod的建模
你就吹吧,r是单线程的,你跟我说你用超过百个结点?
拉倒吧,忽悠谁呢

【在 a********c 的大作中提到】
: hehe,像你们这些web coder成天不停的学些只管半年垃圾framework。。。我老光靠
: vba就可以吃一辈子

z****e
发帖数: 54598
63
lol
你在这上面用r?
搞笑了
node不是note
你连node都写错
继续吹

【在 a********c 的大作中提到】
: 现在用的computing farm在synopsis,2000来个note吧。
a********c
发帖数: 3657
64
你这种门外汉就少来丢人现眼,连r做什么的都不知道。。。
synopsis成千的node跑backtesting,算cashflow,caculate market/credit risk,
generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js
真是圡的掉渣渣。。。

【在 z****e 的大作中提到】
: lol
: 你在这上面用r?
: 搞笑了
: node不是note
: 你连node都写错
: 继续吹

z****e
发帖数: 54598
65
lol
你确定你知道什么是node?
你确定你知道我说的node是什么?
你现在知道r的问题了,赶紧转移话题了
变得很快嘛

js

【在 a********c 的大作中提到】
: 你这种门外汉就少来丢人现眼,连r做什么的都不知道。。。
: synopsis成千的node跑backtesting,算cashflow,caculate market/credit risk,
: generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js
: 真是圡的掉渣渣。。。

z****e
发帖数: 54598
66
用来算什么都很容易,你说得这些都是相互隔绝的任务
依赖非常弱,用fortran都行

js

【在 a********c 的大作中提到】
: 你这种门外汉就少来丢人现眼,连r做什么的都不知道。。。
: synopsis成千的node跑backtesting,算cashflow,caculate market/credit risk,
: generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js
: 真是圡的掉渣渣。。。

a********c
发帖数: 3657
67
什么叫转移话题?那我问你个具体问题,给你一堆mkt data,r用来干嘛?接着
computing farm 又做什么?

【在 z****e 的大作中提到】
: lol
: 你确定你知道什么是node?
: 你确定你知道我说的node是什么?
: 你现在知道r的问题了,赶紧转移话题了
: 变得很快嘛
:
: js

z****e
发帖数: 54598
68
给你点拨一下,你说的这几个跟ml没半毛钱关系
别以为忽悠几个名词就骗得到谁,我还考过精算
虽然没有继续走下去,但是这些名词对我来说,也不是什么陌生词汇
当年几门金融课,都是a,你这几个除了装逼以外,其实与主题无关
r相比之下离ml还近一点

js

【在 a********c 的大作中提到】
: 你这种门外汉就少来丢人现眼,连r做什么的都不知道。。。
: synopsis成千的node跑backtesting,算cashflow,caculate market/credit risk,
: generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js
: 真是圡的掉渣渣。。。

z****e
发帖数: 54598
69
lol
问你啊
这个topic是关于ml的
请问你用ml做啥?
你说的这几个根本不需要ml

【在 a********c 的大作中提到】
: 什么叫转移话题?那我问你个具体问题,给你一堆mkt data,r用来干嘛?接着
: computing farm 又做什么?

a********c
发帖数: 3657
70
fortran当然可以,c也可以,assembly也可以,那为啥大家都用r?

【在 z****e 的大作中提到】
: 用来算什么都很容易,你说得这些都是相互隔绝的任务
: 依赖非常弱,用fortran都行
:
: js

相关主题
已经全上内存了,还要40多秒啊python真是一个很恶心的语言。
公司要做ML了,上来问问学习方向想跟着几个牛人实践一下新语言
how's scikit-learn, what else package is good for machine learning ?越来越觉得spark是niche
进入Programming版参与讨论
z****e
发帖数: 54598
71
你说的这些说简单点,就是会计的算盘
跟ai没半毛钱关系

【在 a********c 的大作中提到】
: 什么叫转移话题?那我问你个具体问题,给你一堆mkt data,r用来干嘛?接着
: computing farm 又做什么?

z****e
发帖数: 54598
72
因为统计工具全啊,但是带来的恶果就是单线程
根本不可能下放生产,谁把写r的人当it从业人员看啊?

【在 a********c 的大作中提到】
: fortran当然可以,c也可以,assembly也可以,那为啥大家都用r?
a********c
发帖数: 3657
73
what the fuck。。。。你妈80年代ml就开始在finance大展手脚,更别说hft根本就是
base在ml了。。。你们这些孤陋寡闻的现在才开始搞。。。

【在 z****e 的大作中提到】
: lol
: 问你啊
: 这个topic是关于ml的
: 请问你用ml做啥?
: 你说的这几个根本不需要ml

z****e
发帖数: 54598
74
lol
那你说说怎么用?
用r来实现嘛?
哈哈哈
你吹牛吹得好玩得紧啊

【在 a********c 的大作中提到】
: what the fuck。。。。你妈80年代ml就开始在finance大展手脚,更别说hft根本就是
: base在ml了。。。你们这些孤陋寡闻的现在才开始搞。。。

a********c
发帖数: 3657
75
成千上万的真金白银都是用r做ml挖出来的,在你口里面成了不能下放生产,真是不知
者无畏啊。。。。

【在 z****e 的大作中提到】
: 因为统计工具全啊,但是带来的恶果就是单线程
: 根本不可能下放生产,谁把写r的人当it从业人员看啊?

z****e
发帖数: 54598
76
顺便说一下80年代都在干嘛
80年代fortran最高搞出了字节码这种东西
后来因为机器太弱,算了,拉倒吧
到了90年代,才由java将其发扬光大
当然我们不排除这个星球上有能人能在80年代就开始发扬光大一把

【在 a********c 的大作中提到】
: what the fuck。。。。你妈80年代ml就开始在finance大展手脚,更别说hft根本就是
: base在ml了。。。你们这些孤陋寡闻的现在才开始搞。。。

z****e
发帖数: 54598
77
lol
我反正是没有听说过谁搞ml用r的
用python和java的都有
但是用r的比较没听说过
当然牛逼人士都用的是r我相信

【在 a********c 的大作中提到】
: 成千上万的真金白银都是用r做ml挖出来的,在你口里面成了不能下放生产,真是不知
: 者无畏啊。。。。

a********c
发帖数: 3657
78
你这个话题转移的够快的,完全不知道你在说什么。。。

【在 z****e 的大作中提到】
: 顺便说一下80年代都在干嘛
: 80年代fortran最高搞出了字节码这种东西
: 后来因为机器太弱,算了,拉倒吧
: 到了90年代,才由java将其发扬光大
: 当然我们不排除这个星球上有能人能在80年代就开始发扬光大一把

a********c
发帖数: 3657
79
随便找个hft shop的人问问,c++加r是标配。

【在 z****e 的大作中提到】
: lol
: 我反正是没有听说过谁搞ml用r的
: 用python和java的都有
: 但是用r的比较没听说过
: 当然牛逼人士都用的是r我相信

z****e
发帖数: 54598
80
hft不能算是主流
花街这些年插管吸血有些不太行了
盯着过去没啥意义
再往前到80年代,fortran是标配
你还是回80年代去吧

【在 a********c 的大作中提到】
: 随便找个hft shop的人问问,c++加r是标配。
相关主题
总结一下kaggle比赛GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
有大牛可以说说scikit-learn哪些方面不如tf么?看了眼scala,觉得很杂
c++程序员不要把头埋在沙子里了学scala和spark需要什么pre req?
进入Programming版参与讨论
z****e
发帖数: 54598
81
我已经告诉过你了,r是单线程
单线程能干p事,所以你不得不用c++
还加,加毛加,直接把r的pkg套在c++上就能用了
r的pkg基本上都是fortran和c写的
顺便,r的ml的pkg是啥?

【在 a********c 的大作中提到】
: 随便找个hft shop的人问问,c++加r是标配。
a********c
发帖数: 3657
82
hft只是个例子,基本所有strategy base的都要靠ml找pattern,做ml的就是matlab/r
,有的直接就是excel/vba。
花街不行==美帝不行,想想吧

【在 z****e 的大作中提到】
: hft不能算是主流
: 花街这些年插管吸血有些不太行了
: 盯着过去没啥意义
: 再往前到80年代,fortran是标配
: 你还是回80年代去吧

z****e
发帖数: 54598
83
lol
花街行==美帝不行
插管吸血的不行==造血的行
你说的这些都太简单,摆脱不了一个高级算盘的角色
离开真正的ai还太远,当然你说1+1=2也是数学
这也说得过去,写vb的也是程序员

r

【在 a********c 的大作中提到】
: hft只是个例子,基本所有strategy base的都要靠ml找pattern,做ml的就是matlab/r
: ,有的直接就是excel/vba。
: 花街不行==美帝不行,想想吧

z****e
发帖数: 54598
84
你说的这些都只能算是模式的识别
这个倒是真的80年代就有了
而且都是偏向数字的识别,which是非常容易的
统计上都有很多成熟的工具来做了
但是现在想的是文字和图像
比起这个来说,数字实在是太有规律了也太简单了
google能做文字,开源现在搞文字也问题不大了
主要是图像还比较难
数字比起文字来说,简单很多很多

r

【在 a********c 的大作中提到】
: hft只是个例子,基本所有strategy base的都要靠ml找pattern,做ml的就是matlab/r
: ,有的直接就是excel/vba。
: 花街不行==美帝不行,想想吧

a********c
发帖数: 3657
85
推荐你去看看SU的
Statistical Learning (machine learning)with Applications in R

【在 z****e 的大作中提到】
: 我已经告诉过你了,r是单线程
: 单线程能干p事,所以你不得不用c++
: 还加,加毛加,直接把r的pkg套在c++上就能用了
: r的pkg基本上都是fortran和c写的
: 顺便,r的ml的pkg是啥?

z****e
发帖数: 54598
86
r只是一个玩具,对我来说
性能太糟糕,不能用
你们这种vb都用的,可能要求不太一样

【在 a********c 的大作中提到】
: 推荐你去看看SU的
: Statistical Learning (machine learning)with Applications in R

a********c
发帖数: 3657
87
hehe,你知道有一种fund叫event driven fund,it就是靠ml finance news(text and
image)讨生活的。
自己不懂的东西就别瞎咋乎。

【在 z****e 的大作中提到】
: 你说的这些都只能算是模式的识别
: 这个倒是真的80年代就有了
: 而且都是偏向数字的识别,which是非常容易的
: 统计上都有很多成熟的工具来做了
: 但是现在想的是文字和图像
: 比起这个来说,数字实在是太有规律了也太简单了
: google能做文字,开源现在搞文字也问题不大了
: 主要是图像还比较难
: 数字比起文字来说,简单很多很多
:

z****e
发帖数: 54598
88
一种而已啦
人家主流都是文字
你这个主流是数字
差距甚大
文字现在都不算什么了

and

【在 a********c 的大作中提到】
: hehe,你知道有一种fund叫event driven fund,it就是靠ml finance news(text and
: image)讨生活的。
: 自己不懂的东西就别瞎咋乎。

a********c
发帖数: 3657
89
多看书,少灌水有好处的。

【在 z****e 的大作中提到】
: r只是一个玩具,对我来说
: 性能太糟糕,不能用
: 你们这种vb都用的,可能要求不太一样

a********c
发帖数: 3657
90
这嘴软的。。。

【在 z****e 的大作中提到】
: 一种而已啦
: 人家主流都是文字
: 你这个主流是数字
: 差距甚大
: 文字现在都不算什么了
:
: and

相关主题
试了下spark,不过如此啊谈谈为什么上scala
Spark会干掉Storm吗?coltzhao的公司还在用mongo吗?
以后真的是cassandra spark的天下了?关于 SPARK, 问二爷peking2 和其他大牛一问题
进入Programming版参与讨论
z****e
发帖数: 54598
91
你们还在用r,vb还有excel
充分说明了层次,是吧,scala比这个高三个层次
比c++高两个层次,所以有档差
光吹,没啥意义

and

【在 a********c 的大作中提到】
: hehe,你知道有一种fund叫event driven fund,it就是靠ml finance news(text and
: image)讨生活的。
: 自己不懂的东西就别瞎咋乎。

z****e
发帖数: 54598
92
是,看你吹r和vb,我肚子都快笑疼了

【在 a********c 的大作中提到】
: 多看书,少灌水有好处的。
z****e
发帖数: 54598
93
不敢不敢
看到vb还是要跪的

【在 a********c 的大作中提到】
: 这嘴软的。。。
a********c
发帖数: 3657
94
正常,跳梁小丑都喜欢笑

【在 z****e 的大作中提到】
: 是,看你吹r和vb,我肚子都快笑疼了
z****e
发帖数: 54598
95
是,vb塞高

【在 a********c 的大作中提到】
: 正常,跳梁小丑都喜欢笑
1 (共1页)
进入Programming版参与讨论
相关主题
以后真的是cassandra spark的天下了?python真是一个很恶心的语言。
谈谈为什么上scala想跟着几个牛人实践一下新语言
coltzhao的公司还在用mongo吗?越来越觉得spark是niche
关于 SPARK, 问二爷peking2 和其他大牛一问题总结一下kaggle比赛
Hadoop 和Python的数据分析包哪个更值得学习?有大牛可以说说scikit-learn哪些方面不如tf么?
已经全上内存了,还要40多秒啊c++程序员不要把头埋在沙子里了
公司要做ML了,上来问问学习方向GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
how's scikit-learn, what else package is good for machine learning ?看了眼scala,觉得很杂
相关话题的讨论汇总
话题: ml话题: learning话题: gpu话题: spark话题: 平台