B********e 发帖数: 1062 | 1 帮一个朋友设计一个用machine learning处理数据的平台
1)大概200+GB的数据
2)1000左右的feature set
3) LINUX平台
4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster
5)6个月的时间开发
我准备用python/mongodb/sklearn/pycuda的组合
各位大牛,有没有使用的语言,数据库,工具的建议? |
w**z 发帖数: 8232 | 2 用python 快不了。 用mongo 大不了。
【在 B********e 的大作中提到】 : 帮一个朋友设计一个用machine learning处理数据的平台 : 1)大概200+GB的数据 : 2)1000左右的feature set : 3) LINUX平台 : 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster : 5)6个月的时间开发 : 我准备用python/mongodb/sklearn/pycuda的组合 : 各位大牛,有没有使用的语言,数据库,工具的建议?
|
d*******r 发帖数: 3299 | 3 按照本版与时俱进的风格,目测大家会建议上 Spark + Cassandra 这种高科技组合
【在 B********e 的大作中提到】 : 帮一个朋友设计一个用machine learning处理数据的平台 : 1)大概200+GB的数据 : 2)1000左右的feature set : 3) LINUX平台 : 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster : 5)6个月的时间开发 : 我准备用python/mongodb/sklearn/pycuda的组合 : 各位大牛,有没有使用的语言,数据库,工具的建议?
|
z****e 发帖数: 54598 | 4 是,这个是主流,不过这就用不了gpu了
【在 d*******r 的大作中提到】 : 按照本版与时俱进的风格,目测大家会建议上 Spark + Cassandra 这种高科技组合
|
c*********e 发帖数: 16335 | 5 gpu到底啥趋势,現在很火的感觉。我公司根本就不用它。
【在 z****e 的大作中提到】 : 是,这个是主流,不过这就用不了gpu了
|
c*********e 发帖数: 16335 | 6 要用宰牛刀? 我公司这些高科技都没用。
【在 d*******r 的大作中提到】 : 按照本版与时俱进的风格,目测大家会建议上 Spark + Cassandra 这种高科技组合
|
z****e 发帖数: 54598 | 7 你写个web,不需要这些
【在 c*********e 的大作中提到】 : gpu到底啥趋势,現在很火的感觉。我公司根本就不用它。
|
B********e 发帖数: 1062 | 8 瞄了一眼, 好像machine learning的库不是很多。
【在 d*******r 的大作中提到】 : 按照本版与时俱进的风格,目测大家会建议上 Spark + Cassandra 这种高科技组合
|
z****e 发帖数: 54598 | 9 你是想用scipy,scikit-learn这些吧?
如果是java的话,可以看看weka
但是主流应该是spark平台
【在 B********e 的大作中提到】 : 瞄了一眼, 好像machine learning的库不是很多。
|
B********e 发帖数: 1062 | 10 是啊,
先谢了, 我去读读weka 和 spark 的文档,
【在 z****e 的大作中提到】 : 你是想用scipy,scikit-learn这些吧? : 如果是java的话,可以看看weka : 但是主流应该是spark平台
|
|
|
B********e 发帖数: 1062 | 11 http://www.wired.com/2013/06/andrew_ng/
找到一篇文章, 正是我想要的. 可惜, 不知道自己搞不搞的定?
技术啊, 用到的时候就觉得不够了!
【在 B********e 的大作中提到】 : 是啊, : 先谢了, 我去读读weka 和 spark 的文档,
|
g*********e 发帖数: 14401 | |
z****e 发帖数: 54598 | 13 看了看,你要的是deep learning的库啊
这个weka应该有,但是spark暂时还没有
【在 B********e 的大作中提到】 : http://www.wired.com/2013/06/andrew_ng/ : 找到一篇文章, 正是我想要的. 可惜, 不知道自己搞不搞的定? : 技术啊, 用到的时候就觉得不够了!
|
f********r 发帖数: 304 | 14 Weka is not production ready and not scalable. I would not recommend it at
all. It is good for small scale experiments and tests. |
c*******9 发帖数: 9032 | 15 如果计算部分用GPU可以考虑haskell。
python又慢又不适合大程序。
【在 B********e 的大作中提到】 : 帮一个朋友设计一个用machine learning处理数据的平台 : 1)大概200+GB的数据 : 2)1000左右的feature set : 3) LINUX平台 : 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster : 5)6个月的时间开发 : 我准备用python/mongodb/sklearn/pycuda的组合 : 各位大牛,有没有使用的语言,数据库,工具的建议?
|
z****e 发帖数: 54598 | 16 weka如果不是prod ready的话
就没有了
自己动手去写去
scipy,scikit-learn只会比weka更慢
更不scalable,python那些pkg,一个垮平台倒腾半天
我当时编译scikit-learn,弄半天,搞定了还不明白那个声明啥意思
【在 f********r 的大作中提到】 : Weka is not production ready and not scalable. I would not recommend it at : all. It is good for small scale experiments and tests.
|
B********e 发帖数: 1062 | 17 看来大家对python缺点的看法差不多。
haskell 有什么好的machine learning 的库?
【在 c*******9 的大作中提到】 : 如果计算部分用GPU可以考虑haskell。 : python又慢又不适合大程序。
|
l*******b 发帖数: 2586 | 18 Python这些库内存管理怎么样呀?
好像python里想释放内存要费牛劲了......
parallel也不知道行不行
【在 B********e 的大作中提到】 : 瞄了一眼, 好像machine learning的库不是很多。
|
c*******9 发帖数: 9032 | 19 https://github.com/josephmisiti/awesome-machine-learning#haskell-general-
purpose
haskell-ml, HLearn....
GPU运算参考《parallel and concurrent programming in Haskell》Data.Array.
Accelerate 库吧,不知道现在有什么新变化。
【在 B********e 的大作中提到】 : 看来大家对python缺点的看法差不多。 : haskell 有什么好的machine learning 的库?
|
B********e 发帖数: 1062 | 20 多谢多谢。 记下了, 先读读文档。
【在 c*******9 的大作中提到】 : https://github.com/josephmisiti/awesome-machine-learning#haskell-general- : purpose : haskell-ml, HLearn.... : GPU运算参考《parallel and concurrent programming in Haskell》Data.Array. : Accelerate 库吧,不知道现在有什么新变化。
|
|
|
d********u 发帖数: 5383 | 21 你这个问题的关键是ML,不是什么平台,语言,DB这些细枝末节。
这里的人只是打工的,不会给你什么有用的建议的。
【在 B********e 的大作中提到】 : 帮一个朋友设计一个用machine learning处理数据的平台 : 1)大概200+GB的数据 : 2)1000左右的feature set : 3) LINUX平台 : 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster : 5)6个月的时间开发 : 我准备用python/mongodb/sklearn/pycuda的组合 : 各位大牛,有没有使用的语言,数据库,工具的建议?
|
c*******9 发帖数: 9032 | 22 看的懂中文?
【在 d********u 的大作中提到】 : 你这个问题的关键是ML,不是什么平台,语言,DB这些细枝末节。 : 这里的人只是打工的,不会给你什么有用的建议的。
|
c*******0 发帖数: 5247 | 23 这里的人都是给的什么烂建议啊...连haskell都出来了。拜托动动脑子想想,人家是拿
钱设计平台的。
楼主你200+GB的数据,自己给的平台就不错。如果确实扣速度,用Python做平台glue上
Java的库ML,哪边都是成堆的轮子给你用。但说实话,你这个规模Python足够了,没必
要考虑这么多。如果最后数据
真的上去了再上cluster
不要动不动就Spark。先想想你的算法适不适合spark,到底能多并行化。 |
m********5 发帖数: 17667 | 24 除非你非常熟悉硬件性能,6个月折腾GPU可能得不偿失,快不了多少,还多费很多事。
而真正有较好加速效果的大VRAM专业GPU价格并不便宜。我的建议是能不GPU就不GPU.
你这个规模,用什么语言,什么数据库问题应该不大,哪个熟悉用哪个。
【在 B********e 的大作中提到】 : 帮一个朋友设计一个用machine learning处理数据的平台 : 1)大概200+GB的数据 : 2)1000左右的feature set : 3) LINUX平台 : 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster : 5)6个月的时间开发 : 我准备用python/mongodb/sklearn/pycuda的组合 : 各位大牛,有没有使用的语言,数据库,工具的建议?
|
z****e 发帖数: 54598 | 25 有一个问题,为什么你设计一平台
数据量居然是固定的?
难道数据不是增长的?而平台上的工具不是独立于数据本身而存在的? |
B********e 发帖数: 1062 | 26 数据量增长慢,可以忽略
【在 z****e 的大作中提到】 : 有一个问题,为什么你设计一平台 : 数据量居然是固定的? : 难道数据不是增长的?而平台上的工具不是独立于数据本身而存在的?
|
z****e 发帖数: 54598 | 27 deep learning还没有成堆的轮子可以用
无论是python还是java,都只有屈指可数的几个library可以用
估计还是要自己去写,自己写的话,迎合趋势反而更好
正好抓住机会把那些快被淘汰的部分直接干掉
做好了直接贡献给spark,不过估计不会这么牛了
【在 c*******0 的大作中提到】 : 这里的人都是给的什么烂建议啊...连haskell都出来了。拜托动动脑子想想,人家是拿 : 钱设计平台的。 : 楼主你200+GB的数据,自己给的平台就不错。如果确实扣速度,用Python做平台glue上 : Java的库ML,哪边都是成堆的轮子给你用。但说实话,你这个规模Python足够了,没必 : 要考虑这么多。如果最后数据 : 真的上去了再上cluster : 不要动不动就Spark。先想想你的算法适不适合spark,到底能多并行化。
|
h********3 发帖数: 2075 | 28 deep learning现在只适合超高dimension的数据,比如image这些。如果只是一般的分
类,svm和loglinear model足够了。而且到现在,很多人都不相信deep learning就真
的比SVM, loglinear更好。
【在 z****e 的大作中提到】 : 看了看,你要的是deep learning的库啊 : 这个weka应该有,但是spark暂时还没有
|
c*******0 发帖数: 5247 | 29 deep learning?楼主这数据搞什么deep learning啊?
【在 z****e 的大作中提到】 : deep learning还没有成堆的轮子可以用 : 无论是python还是java,都只有屈指可数的几个library可以用 : 估计还是要自己去写,自己写的话,迎合趋势反而更好 : 正好抓住机会把那些快被淘汰的部分直接干掉 : 做好了直接贡献给spark,不过估计不会这么牛了
|
z****e 发帖数: 54598 | 30 平台化吧,我估计是想做个大概的demo
然后以后等平台牛逼了,就可以直接用了
宣传时候也好宣传,我们有deep learning
你看他弄的ng那篇文章,说的就是如何搞一个简易的大脑
到底做啥,问楼主了
【在 c*******0 的大作中提到】 : deep learning?楼主这数据搞什么deep learning啊?
|
|
|
z****e 发帖数: 54598 | 31 那这个上spark足够了
但是我感觉好像楼主有野望
【在 h********3 的大作中提到】 : deep learning现在只适合超高dimension的数据,比如image这些。如果只是一般的分 : 类,svm和loglinear model足够了。而且到现在,很多人都不相信deep learning就真 : 的比SVM, loglinear更好。
|
d********u 发帖数: 5383 | 32 果蝇好,你今天的跪舔任务完成了吗?别忘了脑残片。
【在 c*******9 的大作中提到】 : 看的懂中文?
|
c*******9 发帖数: 9032 | 33 臭臭好好跪舔阿三ceo吧,下届ceo有戏,拯救微软的使命就看你了。
【在 d********u 的大作中提到】 : 果蝇好,你今天的跪舔任务完成了吗?别忘了脑残片。
|
c*******9 发帖数: 9032 | 34 还是看楼主他们想做什么吧。
不用过分凭自己的经验指点别人。数据小不一定运算就小。
【在 c*******0 的大作中提到】 : 这里的人都是给的什么烂建议啊...连haskell都出来了。拜托动动脑子想想,人家是拿 : 钱设计平台的。 : 楼主你200+GB的数据,自己给的平台就不错。如果确实扣速度,用Python做平台glue上 : Java的库ML,哪边都是成堆的轮子给你用。但说实话,你这个规模Python足够了,没必 : 要考虑这么多。如果最后数据 : 真的上去了再上cluster : 不要动不动就Spark。先想想你的算法适不适合spark,到底能多并行化。
|
w***g 发帖数: 5958 | 35 GPU是个niche market,没啥前途。坐等Intel带FPGA的CPU出来。
我正在搞纯CPU的一个比SGD更一般化的计算平台,可以支持linear regression
的各种变种和neural network的各种变种。现在用图像数据训练neural network
性能比GPU差10倍的样子,等着上FPGA后一举超过GPU。
GPU的问题是显卡内存太小,目前最大也不超过10G。而服务器内存目前200G都挺
常见了。10G数据能折腾个啥出来。
【在 c*********e 的大作中提到】 : gpu到底啥趋势,現在很火的感觉。我公司根本就不用它。
|
w***g 发帖数: 5958 | 36 weka有性能瓶颈。如果你一次训练的数据量要上10G,weka肯定就不行了。
还是scipy更靠谱点。至于数据库,如果是单机的话还不如直接存文件系统。
多机的用话用轮子确实是HDFS+spark比较靠谱。不图别的,就图能全都
load到内存里。如果虽然数据总量有200G,但是每次训练只有几G几十G,
还是单机更靠谱。
上集群都是没办法才上的,如果买台好点的机器可以满足需求,就不要上
集群。Hadoop啥的都是没办法的办法。
【在 B********e 的大作中提到】 : 是啊, : 先谢了, 我去读读weka 和 spark 的文档,
|
w***g 发帖数: 5958 | 37 sciki-learn跟matlab一样,后台是blas,写的好的话不会有性能问题。
要用scikit的话直接下anaconda。
楼主要用neuralnetwork的话比较叫靠谱的有两个,一个是theano,适合自己写轮子。
另一个是decaf,用来做图像处理。如果楼主不是图像音频数据,用neural network讨
不了好。
haskell稿ML没戏。
【在 z****e 的大作中提到】 : weka如果不是prod ready的话 : 就没有了 : 自己动手去写去 : scipy,scikit-learn只会比weka更慢 : 更不scalable,python那些pkg,一个垮平台倒腾半天 : 我当时编译scikit-learn,弄半天,搞定了还不明白那个声明啥意思
|
p*****2 发帖数: 21240 | 38
HDFS+Cassandra,你指的是把C*数据copy到HDFS然后run mr or spark?
【在 w***g 的大作中提到】 : weka有性能瓶颈。如果你一次训练的数据量要上10G,weka肯定就不行了。 : 还是scipy更靠谱点。至于数据库,如果是单机的话还不如直接存文件系统。 : 多机的用话用轮子确实是HDFS+spark比较靠谱。不图别的,就图能全都 : load到内存里。如果虽然数据总量有200G,但是每次训练只有几G几十G, : 还是单机更靠谱。 : 上集群都是没办法才上的,如果买台好点的机器可以满足需求,就不要上 : 集群。Hadoop啥的都是没办法的办法。
|
w***g 发帖数: 5958 | 39 我敲错了。spark。
【在 p*****2 的大作中提到】 : : HDFS+Cassandra,你指的是把C*数据copy到HDFS然后run mr or spark?
|
N******K 发帖数: 10202 | 40 啥应用? 人脸?
【在 B********e 的大作中提到】 : 帮一个朋友设计一个用machine learning处理数据的平台 : 1)大概200+GB的数据 : 2)1000左右的feature set : 3) LINUX平台 : 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster : 5)6个月的时间开发 : 我准备用python/mongodb/sklearn/pycuda的组合 : 各位大牛,有没有使用的语言,数据库,工具的建议?
|
|
|
z****e 发帖数: 54598 | 41 图像如果只是处理的话,弄个滤镜啥的
挨个像素处理过去也没多复杂
如果是画图的话,java可以直接用最原始的那几个pkg
chart就用jfreechart,或者javafx,不过javafx是单线程的
不确定这里面是否有风险
如果是需要parse的话,scipy那些pkg一样不能分布
直接用scala写也没多麻烦
这种原理复杂的东西光无脑上轮子未必顶用
【在 w***g 的大作中提到】 : sciki-learn跟matlab一样,后台是blas,写的好的话不会有性能问题。 : 要用scikit的话直接下anaconda。 : 楼主要用neuralnetwork的话比较叫靠谱的有两个,一个是theano,适合自己写轮子。 : 另一个是decaf,用来做图像处理。如果楼主不是图像音频数据,用neural network讨 : 不了好。 : haskell稿ML没戏。
|
z****e 发帖数: 54598 | 42 wdong我还是觉得图像处理是你发财的好机会
【在 w***g 的大作中提到】 : sciki-learn跟matlab一样,后台是blas,写的好的话不会有性能问题。 : 要用scikit的话直接下anaconda。 : 楼主要用neuralnetwork的话比较叫靠谱的有两个,一个是theano,适合自己写轮子。 : 另一个是decaf,用来做图像处理。如果楼主不是图像音频数据,用neural network讨 : 不了好。 : haskell稿ML没戏。
|
c*******9 发帖数: 9032 | 43 haskell稿ML为什么没戏?
【在 w***g 的大作中提到】 : sciki-learn跟matlab一样,后台是blas,写的好的话不会有性能问题。 : 要用scikit的话直接下anaconda。 : 楼主要用neuralnetwork的话比较叫靠谱的有两个,一个是theano,适合自己写轮子。 : 另一个是decaf,用来做图像处理。如果楼主不是图像音频数据,用neural network讨 : 不了好。 : haskell稿ML没戏。
|
w***g 发帖数: 5958 | 44 我感觉haskell搞啥都没系。太难了。
具体到ML,ML和计算机语言是CS里差得很远的两个领域,要说搞Haskell的会几种ML算
法倒有可能,ML researcher大部分既不会haskell也不会对语言层面的东西感兴趣。而
ML的发展动力来自于ML research community而不是programming language community
。这就导致了Haskell里的ML算法基本上只可能是二手货。
【在 c*******9 的大作中提到】 : haskell稿ML为什么没戏?
|
a********c 发帖数: 3657 | 45 金融很多是c++/r,这里大家常说的什么java/python/spark基本没见过。。。很好奇这
些都是什么industry啊。。。
【在 B********e 的大作中提到】 : 帮一个朋友设计一个用machine learning处理数据的平台 : 1)大概200+GB的数据 : 2)1000左右的feature set : 3) LINUX平台 : 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster : 5)6个月的时间开发 : 我准备用python/mongodb/sklearn/pycuda的组合 : 各位大牛,有没有使用的语言,数据库,工具的建议?
|
n*******0 发帖数: 2002 | 46 spark+hbase吧。个人对cassandra无爱。
【在 B********e 的大作中提到】 : 帮一个朋友设计一个用machine learning处理数据的平台 : 1)大概200+GB的数据 : 2)1000左右的feature set : 3) LINUX平台 : 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster : 5)6个月的时间开发 : 我准备用python/mongodb/sklearn/pycuda的组合 : 各位大牛,有没有使用的语言,数据库,工具的建议?
|
c*******9 发帖数: 9032 | 47 金融多要求实时。这里ML多数不要求实时。
【在 a********c 的大作中提到】 : 金融很多是c++/r,这里大家常说的什么java/python/spark基本没见过。。。很好奇这 : 些都是什么industry啊。。。
|
c******n 发帖数: 4965 | 48 这种东西多如牛毛
核心的有 mahout (及其最新 基于 spark 版本)
cloudera orynx
包装高一层的 有 h2o , motar , 各大 “ big data " vendor 都有自己的 图形
界面的系统 : datameer , Microsoft cloud,, algorithm.io google
app engine 也有 machine learning service, 最简单的 classification 到 NLP
甚至 deep learning 都有
所以你再去搞一个, 我个人认为没有很大前途, 唯一可能左右就是给自己简历上加
一个 hobby project 而已
我觉得比较事半功倍的 project 还是要接近 application layer
【在 B********e 的大作中提到】 : 帮一个朋友设计一个用machine learning处理数据的平台 : 1)大概200+GB的数据 : 2)1000左右的feature set : 3) LINUX平台 : 4)计算部分想上GPU, 计算量有点大, 想省钱避免使用cluster : 5)6个月的时间开发 : 我准备用python/mongodb/sklearn/pycuda的组合 : 各位大牛,有没有使用的语言,数据库,工具的建议?
|
z****e 发帖数: 54598 | 49 没法实时,训练就做不到实时
各个步骤基本上都无法实时
能在10s内跑完都算快的了
当然是很大的数据
【在 c*******9 的大作中提到】 : 金融多要求实时。这里ML多数不要求实时。
|
a********c 发帖数: 3657 | 50
基本没有实时的,就算hft也是ML mkt data to find pattern,再作forecast/
backtesting...找data就是C++,说穿了就是从ex拿data,然后r programming。
【在 c*******9 的大作中提到】 : 金融多要求实时。这里ML多数不要求实时。
|
|
|
z****e 发帖数: 54598 | 51 还有历史的原因,长期矿工都是招c++程序员
自然很多东西都是c++写的,再换就积重难返了
【在 a********c 的大作中提到】 : : 基本没有实时的,就算hft也是ML mkt data to find pattern,再作forecast/ : backtesting...找data就是C++,说穿了就是从ex拿data,然后r programming。
|
a********c 发帖数: 3657 | 52
c++程序员那是矿马宫。。。
就算新的project你跟人讲java/spark啥的,人家也觉得你就是个蛇精病。。。
【在 z****e 的大作中提到】 : 还有历史的原因,长期矿工都是招c++程序员 : 自然很多东西都是c++写的,再换就积重难返了
|
z****e 发帖数: 54598 | 53 少来
我两年前就看到有公司在招hadoop程序员
你不过一叶障目而已
还有就是金融系统的规模都不大
分布式基本上不存在,上百个nodes你弄过么?
没弄过的就不要操心,蛇精病眼里其他人都蛇精病
【在 a********c 的大作中提到】 : : c++程序员那是矿马宫。。。 : 就算新的project你跟人讲java/spark啥的,人家也觉得你就是个蛇精病。。。
|
a********c 发帖数: 3657 | 54
隔行如隔山,你个门外汉就别瞎折腾了。
【在 z****e 的大作中提到】 : 少来 : 我两年前就看到有公司在招hadoop程序员 : 你不过一叶障目而已 : 还有就是金融系统的规模都不大 : 分布式基本上不存在,上百个nodes你弄过么? : 没弄过的就不要操心,蛇精病眼里其他人都蛇精病
|
z****e 发帖数: 54598 | 55 那你唧歪啥?你是门内汉?
【在 a********c 的大作中提到】 : : 隔行如隔山,你个门外汉就别瞎折腾了。
|
f***s 发帖数: 112 | 56 大约在2017年底出来,硬件在特拉维夫,软件在班加罗尔。
【在 w***g 的大作中提到】 : GPU是个niche market,没啥前途。坐等Intel带FPGA的CPU出来。 : 我正在搞纯CPU的一个比SGD更一般化的计算平台,可以支持linear regression : 的各种变种和neural network的各种变种。现在用图像数据训练neural network : 性能比GPU差10倍的样子,等着上FPGA后一举超过GPU。 : GPU的问题是显卡内存太小,目前最大也不超过10G。而服务器内存目前200G都挺 : 常见了。10G数据能折腾个啥出来。
|
p*****y 发帖数: 529 | 57 做market risk, 上千server很正常
【在 a********c 的大作中提到】 : : 隔行如隔山,你个门外汉就别瞎折腾了。
|
z****e 发帖数: 54598 | 58 我跟你打赌
它没有用过上百个
看它前几个帖子就清楚了
【在 p*****y 的大作中提到】 : 做market risk, 上千server很正常
|
c*******9 发帖数: 9032 | 59 和目前一般的FPGA比有什么进步?
【在 f***s 的大作中提到】 : 大约在2017年底出来,硬件在特拉维夫,软件在班加罗尔。
|
a********c 发帖数: 3657 | 60 hehe,像你们这些web coder成天不停的学些只管半年垃圾framework。。。我老光靠
vba就可以吃一辈子
【在 z****e 的大作中提到】 : 那你唧歪啥?你是门内汉?
|
|
|
a********c 发帖数: 3657 | 61 现在用的computing farm在synopsis,2000来个note吧。
【在 z****e 的大作中提到】 : 我跟你打赌 : 它没有用过上百个 : 看它前几个帖子就清楚了
|
z****e 发帖数: 54598 | 62 lol
你就别吹了
用r的家伙有能干活的么?
我每天琢磨的就是如何让r的性能更有效点
说白了就是如何让分布式能够真正搞定r脚本
问题是太难了,你说你用r来下prod的建模
你就吹吧,r是单线程的,你跟我说你用超过百个结点?
拉倒吧,忽悠谁呢
【在 a********c 的大作中提到】 : hehe,像你们这些web coder成天不停的学些只管半年垃圾framework。。。我老光靠 : vba就可以吃一辈子
|
z****e 发帖数: 54598 | 63 lol
你在这上面用r?
搞笑了
node不是note
你连node都写错
继续吹
【在 a********c 的大作中提到】 : 现在用的computing farm在synopsis,2000来个note吧。
|
a********c 发帖数: 3657 | 64 你这种门外汉就少来丢人现眼,连r做什么的都不知道。。。
synopsis成千的node跑backtesting,算cashflow,caculate market/credit risk,
generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js
真是圡的掉渣渣。。。
【在 z****e 的大作中提到】 : lol : 你在这上面用r? : 搞笑了 : node不是note : 你连node都写错 : 继续吹
|
z****e 发帖数: 54598 | 65 lol
你确定你知道什么是node?
你确定你知道我说的node是什么?
你现在知道r的问题了,赶紧转移话题了
变得很快嘛
js
【在 a********c 的大作中提到】 : 你这种门外汉就少来丢人现眼,连r做什么的都不知道。。。 : synopsis成千的node跑backtesting,算cashflow,caculate market/credit risk, : generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js : 真是圡的掉渣渣。。。
|
z****e 发帖数: 54598 | 66 用来算什么都很容易,你说得这些都是相互隔绝的任务
依赖非常弱,用fortran都行
js
【在 a********c 的大作中提到】 : 你这种门外汉就少来丢人现眼,连r做什么的都不知道。。。 : synopsis成千的node跑backtesting,算cashflow,caculate market/credit risk, : generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js : 真是圡的掉渣渣。。。
|
a********c 发帖数: 3657 | 67 什么叫转移话题?那我问你个具体问题,给你一堆mkt data,r用来干嘛?接着
computing farm 又做什么?
【在 z****e 的大作中提到】 : lol : 你确定你知道什么是node? : 你确定你知道我说的node是什么? : 你现在知道r的问题了,赶紧转移话题了 : 变得很快嘛 : : js
|
z****e 发帖数: 54598 | 68 给你点拨一下,你说的这几个跟ml没半毛钱关系
别以为忽悠几个名词就骗得到谁,我还考过精算
虽然没有继续走下去,但是这些名词对我来说,也不是什么陌生词汇
当年几门金融课,都是a,你这几个除了装逼以外,其实与主题无关
r相比之下离ml还近一点
js
【在 a********c 的大作中提到】 : 你这种门外汉就少来丢人现眼,连r做什么的都不知道。。。 : synopsis成千的node跑backtesting,算cashflow,caculate market/credit risk, : generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js : 真是圡的掉渣渣。。。
|
z****e 发帖数: 54598 | 69 lol
问你啊
这个topic是关于ml的
请问你用ml做啥?
你说的这几个根本不需要ml
【在 a********c 的大作中提到】 : 什么叫转移话题?那我问你个具体问题,给你一堆mkt data,r用来干嘛?接着 : computing farm 又做什么?
|
a********c 发帖数: 3657 | 70 fortran当然可以,c也可以,assembly也可以,那为啥大家都用r?
【在 z****e 的大作中提到】 : 用来算什么都很容易,你说得这些都是相互隔绝的任务 : 依赖非常弱,用fortran都行 : : js
|
|
|
z****e 发帖数: 54598 | 71 你说的这些说简单点,就是会计的算盘
跟ai没半毛钱关系
【在 a********c 的大作中提到】 : 什么叫转移话题?那我问你个具体问题,给你一堆mkt data,r用来干嘛?接着 : computing farm 又做什么?
|
z****e 发帖数: 54598 | 72 因为统计工具全啊,但是带来的恶果就是单线程
根本不可能下放生产,谁把写r的人当it从业人员看啊?
【在 a********c 的大作中提到】 : fortran当然可以,c也可以,assembly也可以,那为啥大家都用r?
|
a********c 发帖数: 3657 | 73 what the fuck。。。。你妈80年代ml就开始在finance大展手脚,更别说hft根本就是
base在ml了。。。你们这些孤陋寡闻的现在才开始搞。。。
【在 z****e 的大作中提到】 : lol : 问你啊 : 这个topic是关于ml的 : 请问你用ml做啥? : 你说的这几个根本不需要ml
|
z****e 发帖数: 54598 | 74 lol
那你说说怎么用?
用r来实现嘛?
哈哈哈
你吹牛吹得好玩得紧啊
【在 a********c 的大作中提到】 : what the fuck。。。。你妈80年代ml就开始在finance大展手脚,更别说hft根本就是 : base在ml了。。。你们这些孤陋寡闻的现在才开始搞。。。
|
a********c 发帖数: 3657 | 75 成千上万的真金白银都是用r做ml挖出来的,在你口里面成了不能下放生产,真是不知
者无畏啊。。。。
【在 z****e 的大作中提到】 : 因为统计工具全啊,但是带来的恶果就是单线程 : 根本不可能下放生产,谁把写r的人当it从业人员看啊?
|
z****e 发帖数: 54598 | 76 顺便说一下80年代都在干嘛
80年代fortran最高搞出了字节码这种东西
后来因为机器太弱,算了,拉倒吧
到了90年代,才由java将其发扬光大
当然我们不排除这个星球上有能人能在80年代就开始发扬光大一把
【在 a********c 的大作中提到】 : what the fuck。。。。你妈80年代ml就开始在finance大展手脚,更别说hft根本就是 : base在ml了。。。你们这些孤陋寡闻的现在才开始搞。。。
|
z****e 发帖数: 54598 | 77 lol
我反正是没有听说过谁搞ml用r的
用python和java的都有
但是用r的比较没听说过
当然牛逼人士都用的是r我相信
【在 a********c 的大作中提到】 : 成千上万的真金白银都是用r做ml挖出来的,在你口里面成了不能下放生产,真是不知 : 者无畏啊。。。。
|
a********c 发帖数: 3657 | 78 你这个话题转移的够快的,完全不知道你在说什么。。。
【在 z****e 的大作中提到】 : 顺便说一下80年代都在干嘛 : 80年代fortran最高搞出了字节码这种东西 : 后来因为机器太弱,算了,拉倒吧 : 到了90年代,才由java将其发扬光大 : 当然我们不排除这个星球上有能人能在80年代就开始发扬光大一把
|
a********c 发帖数: 3657 | 79 随便找个hft shop的人问问,c++加r是标配。
【在 z****e 的大作中提到】 : lol : 我反正是没有听说过谁搞ml用r的 : 用python和java的都有 : 但是用r的比较没听说过 : 当然牛逼人士都用的是r我相信
|
z****e 发帖数: 54598 | 80 hft不能算是主流
花街这些年插管吸血有些不太行了
盯着过去没啥意义
再往前到80年代,fortran是标配
你还是回80年代去吧
【在 a********c 的大作中提到】 : 随便找个hft shop的人问问,c++加r是标配。
|
|
|
z****e 发帖数: 54598 | 81 我已经告诉过你了,r是单线程
单线程能干p事,所以你不得不用c++
还加,加毛加,直接把r的pkg套在c++上就能用了
r的pkg基本上都是fortran和c写的
顺便,r的ml的pkg是啥?
【在 a********c 的大作中提到】 : 随便找个hft shop的人问问,c++加r是标配。
|
a********c 发帖数: 3657 | 82 hft只是个例子,基本所有strategy base的都要靠ml找pattern,做ml的就是matlab/r
,有的直接就是excel/vba。
花街不行==美帝不行,想想吧
【在 z****e 的大作中提到】 : hft不能算是主流 : 花街这些年插管吸血有些不太行了 : 盯着过去没啥意义 : 再往前到80年代,fortran是标配 : 你还是回80年代去吧
|
z****e 发帖数: 54598 | 83 lol
花街行==美帝不行
插管吸血的不行==造血的行
你说的这些都太简单,摆脱不了一个高级算盘的角色
离开真正的ai还太远,当然你说1+1=2也是数学
这也说得过去,写vb的也是程序员
r
【在 a********c 的大作中提到】 : hft只是个例子,基本所有strategy base的都要靠ml找pattern,做ml的就是matlab/r : ,有的直接就是excel/vba。 : 花街不行==美帝不行,想想吧
|
z****e 发帖数: 54598 | 84 你说的这些都只能算是模式的识别
这个倒是真的80年代就有了
而且都是偏向数字的识别,which是非常容易的
统计上都有很多成熟的工具来做了
但是现在想的是文字和图像
比起这个来说,数字实在是太有规律了也太简单了
google能做文字,开源现在搞文字也问题不大了
主要是图像还比较难
数字比起文字来说,简单很多很多
r
【在 a********c 的大作中提到】 : hft只是个例子,基本所有strategy base的都要靠ml找pattern,做ml的就是matlab/r : ,有的直接就是excel/vba。 : 花街不行==美帝不行,想想吧
|
a********c 发帖数: 3657 | 85 推荐你去看看SU的
Statistical Learning (machine learning)with Applications in R
【在 z****e 的大作中提到】 : 我已经告诉过你了,r是单线程 : 单线程能干p事,所以你不得不用c++ : 还加,加毛加,直接把r的pkg套在c++上就能用了 : r的pkg基本上都是fortran和c写的 : 顺便,r的ml的pkg是啥?
|
z****e 发帖数: 54598 | 86 r只是一个玩具,对我来说
性能太糟糕,不能用
你们这种vb都用的,可能要求不太一样
【在 a********c 的大作中提到】 : 推荐你去看看SU的 : Statistical Learning (machine learning)with Applications in R
|
a********c 发帖数: 3657 | 87 hehe,你知道有一种fund叫event driven fund,it就是靠ml finance news(text and
image)讨生活的。
自己不懂的东西就别瞎咋乎。
【在 z****e 的大作中提到】 : 你说的这些都只能算是模式的识别 : 这个倒是真的80年代就有了 : 而且都是偏向数字的识别,which是非常容易的 : 统计上都有很多成熟的工具来做了 : 但是现在想的是文字和图像 : 比起这个来说,数字实在是太有规律了也太简单了 : google能做文字,开源现在搞文字也问题不大了 : 主要是图像还比较难 : 数字比起文字来说,简单很多很多 :
|
z****e 发帖数: 54598 | 88 一种而已啦
人家主流都是文字
你这个主流是数字
差距甚大
文字现在都不算什么了
and
【在 a********c 的大作中提到】 : hehe,你知道有一种fund叫event driven fund,it就是靠ml finance news(text and : image)讨生活的。 : 自己不懂的东西就别瞎咋乎。
|
a********c 发帖数: 3657 | 89 多看书,少灌水有好处的。
【在 z****e 的大作中提到】 : r只是一个玩具,对我来说 : 性能太糟糕,不能用 : 你们这种vb都用的,可能要求不太一样
|
a********c 发帖数: 3657 | 90 这嘴软的。。。
【在 z****e 的大作中提到】 : 一种而已啦 : 人家主流都是文字 : 你这个主流是数字 : 差距甚大 : 文字现在都不算什么了 : : and
|
|
|
z****e 发帖数: 54598 | 91 你们还在用r,vb还有excel
充分说明了层次,是吧,scala比这个高三个层次
比c++高两个层次,所以有档差
光吹,没啥意义
and
【在 a********c 的大作中提到】 : hehe,你知道有一种fund叫event driven fund,it就是靠ml finance news(text and : image)讨生活的。 : 自己不懂的东西就别瞎咋乎。
|
z****e 发帖数: 54598 | 92 是,看你吹r和vb,我肚子都快笑疼了
【在 a********c 的大作中提到】 : 多看书,少灌水有好处的。
|
z****e 发帖数: 54598 | 93 不敢不敢
看到vb还是要跪的
【在 a********c 的大作中提到】 : 这嘴软的。。。
|
a********c 发帖数: 3657 | 94 正常,跳梁小丑都喜欢笑
【在 z****e 的大作中提到】 : 是,看你吹r和vb,我肚子都快笑疼了
|
z****e 发帖数: 54598 | 95 是,vb塞高
【在 a********c 的大作中提到】 : 正常,跳梁小丑都喜欢笑
|