想写一个machine learning的平台 - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 想写一个machine learning的平台

相关主题
● Hadoop 和Python的数据分析包哪个更值得学习？	● 有大牛可以说说scikit-learn哪些方面不如tf么？
● 已经全上内存了，还要40多秒啊	● c++程序员不要把头埋在沙子里了
● 公司要做ML了，上来问问学习方向	● GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
● how's scikit-learn, what else package is good for machine learning ?	● 看了眼scala，觉得很杂
● python真是一个很恶心的语言。	● 学scala和spark需要什么pre req?
● 想跟着几个牛人实践一下新语言	● 试了下spark，不过如此啊
● 越来越觉得spark是niche	● Spark会干掉Storm吗？
● 总结一下kaggle比赛	● 以后真的是cassandra spark的天下了？

相关话题的讨论汇总
话题: ml话题: learning话题: gpu话题: spark话题: 平台

进入Programming版参与讨论

(共1页)

B********e
发帖数: 1062

帮一个朋友设计一个用machine learning处理数据的平台
1）大概200+GB的数据
2）1000左右的feature set
3) LINUX平台
4）计算部分想上GPU, 计算量有点大，想省钱避免使用cluster
5）6个月的时间开发
我准备用python/mongodb/sklearn/pycuda的组合
各位大牛，有没有使用的语言，数据库，工具的建议？

w**z
发帖数: 8232

用python 快不了。用mongo 大不了。

【在 B********e 的大作中提到】

: 帮一个朋友设计一个用machine learning处理数据的平台
: 1）大概200+GB的数据
: 2）1000左右的feature set
: 3) LINUX平台
: 4）计算部分想上GPU, 计算量有点大，想省钱避免使用cluster
: 5）6个月的时间开发
: 我准备用python/mongodb/sklearn/pycuda的组合
: 各位大牛，有没有使用的语言，数据库，工具的建议？

d*******r
发帖数: 3299

按照本版与时俱进的风格，目测大家会建议上 Spark + Cassandra 这种高科技组合

【在 B********e 的大作中提到】

z****e
发帖数: 54598

是，这个是主流，不过这就用不了gpu了

【在 d*******r 的大作中提到】

: 按照本版与时俱进的风格，目测大家会建议上 Spark + Cassandra 这种高科技组合

c*********e
发帖数: 16335

gpu到底啥趋势，現在很火的感觉。我公司根本就不用它。

【在 z****e 的大作中提到】

: 是，这个是主流，不过这就用不了gpu了

c*********e
发帖数: 16335

要用宰牛刀？我公司这些高科技都没用。

【在 d*******r 的大作中提到】

: 按照本版与时俱进的风格，目测大家会建议上 Spark + Cassandra 这种高科技组合

z****e
发帖数: 54598

你写个web，不需要这些

【在 c*********e 的大作中提到】

: gpu到底啥趋势，現在很火的感觉。我公司根本就不用它。

B********e
发帖数: 1062

瞄了一眼，好像machine learning的库不是很多。

【在 d*******r 的大作中提到】

: 按照本版与时俱进的风格，目测大家会建议上 Spark + Cassandra 这种高科技组合

z****e
发帖数: 54598

你是想用scipy,scikit-learn这些吧？
如果是java的话，可以看看weka
但是主流应该是spark平台

【在 B********e 的大作中提到】

: 瞄了一眼，好像machine learning的库不是很多。

B********e
发帖数: 1062

是啊，
先谢了，我去读读weka 和 spark 的文档，

【在 z****e 的大作中提到】

: 你是想用scipy,scikit-learn这些吧？
: 如果是java的话，可以看看weka
: 但是主流应该是spark平台

相关主题
● 想跟着几个牛人实践一下新语言	● 有大牛可以说说scikit-learn哪些方面不如tf么？
● 越来越觉得spark是niche	● c++程序员不要把头埋在沙子里了
● 总结一下kaggle比赛	● GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
进入Programming版参与讨论

B********e
发帖数: 1062

http://www.wired.com/2013/06/andrew_ng/
找到一篇文章，正是我想要的. 可惜，不知道自己搞不搞的定？
技术啊，用到的时候就觉得不够了！

【在 B********e 的大作中提到】

: 是啊，
: 先谢了，我去读读weka 和 spark 的文档，

g*********e
发帖数: 14401

大牛说说ml都啥库？

z****e
发帖数: 54598

看了看，你要的是deep learning的库啊
这个weka应该有，但是spark暂时还没有

【在 B********e 的大作中提到】

: http://www.wired.com/2013/06/andrew_ng/
: 找到一篇文章，正是我想要的. 可惜，不知道自己搞不搞的定？
: 技术啊，用到的时候就觉得不够了！

f********r
发帖数: 304

Weka is not production ready and not scalable. I would not recommend it at
all. It is good for small scale experiments and tests.

c*******9
发帖数: 9032

如果计算部分用GPU可以考虑haskell。
python又慢又不适合大程序。

【在 B********e 的大作中提到】

z****e
发帖数: 54598

weka如果不是prod ready的话
就没有了
自己动手去写去
scipy,scikit-learn只会比weka更慢
更不scalable，python那些pkg，一个垮平台倒腾半天
我当时编译scikit-learn，弄半天，搞定了还不明白那个声明啥意思

【在 f********r 的大作中提到】

: Weka is not production ready and not scalable. I would not recommend it at
: all. It is good for small scale experiments and tests.

B********e
发帖数: 1062

看来大家对python缺点的看法差不多。
haskell 有什么好的machine learning 的库？

【在 c*******9 的大作中提到】

: 如果计算部分用GPU可以考虑haskell。
: python又慢又不适合大程序。

l*******b
发帖数: 2586

Python这些库内存管理怎么样呀？
好像python里想释放内存要费牛劲了．．．．．．
parallel也不知道行不行

【在 B********e 的大作中提到】

: 瞄了一眼，好像machine learning的库不是很多。

c*******9
发帖数: 9032

https://github.com/josephmisiti/awesome-machine-learning#haskell-general-
purpose
haskell-ml, HLearn....
GPU运算参考《parallel and concurrent programming in Haskell》Data.Array.
Accelerate 库吧，不知道现在有什么新变化。

【在 B********e 的大作中提到】

: 看来大家对python缺点的看法差不多。
: haskell 有什么好的machine learning 的库？

B********e
发帖数: 1062

多谢多谢。记下了，先读读文档。

【在 c*******9 的大作中提到】

: https://github.com/josephmisiti/awesome-machine-learning#haskell-general-
: purpose
: haskell-ml, HLearn....
: GPU运算参考《parallel and concurrent programming in Haskell》Data.Array.
: Accelerate 库吧，不知道现在有什么新变化。

相关主题
● 看了眼scala，觉得很杂	● Spark会干掉Storm吗？
● 学scala和spark需要什么pre req?	● 以后真的是cassandra spark的天下了？
● 试了下spark，不过如此啊	● 谈谈为什么上scala
进入Programming版参与讨论

d********u
发帖数: 5383

你这个问题的关键是ML，不是什么平台，语言，DB这些细枝末节。
这里的人只是打工的，不会给你什么有用的建议的。

【在 B********e 的大作中提到】

c*******9
发帖数: 9032

看的懂中文?

【在 d********u 的大作中提到】

: 你这个问题的关键是ML，不是什么平台，语言，DB这些细枝末节。
: 这里的人只是打工的，不会给你什么有用的建议的。

c*******0
发帖数: 5247

这里的人都是给的什么烂建议啊...连haskell都出来了。拜托动动脑子想想，人家是拿
钱设计平台的。
楼主你200+GB的数据，自己给的平台就不错。如果确实扣速度，用Python做平台glue上
Java的库ML，哪边都是成堆的轮子给你用。但说实话，你这个规模Python足够了，没必
要考虑这么多。如果最后数据
真的上去了再上cluster
不要动不动就Spark。先想想你的算法适不适合spark，到底能多并行化。

m********5
发帖数: 17667

除非你非常熟悉硬件性能，6个月折腾GPU可能得不偿失，快不了多少，还多费很多事。
而真正有较好加速效果的大VRAM专业GPU价格并不便宜。我的建议是能不GPU就不GPU.
你这个规模，用什么语言，什么数据库问题应该不大，哪个熟悉用哪个。

【在 B********e 的大作中提到】

z****e
发帖数: 54598

有一个问题，为什么你设计一平台
数据量居然是固定的？
难道数据不是增长的？而平台上的工具不是独立于数据本身而存在的？

B********e
发帖数: 1062

数据量增长慢，可以忽略

【在 z****e 的大作中提到】

: 有一个问题，为什么你设计一平台
: 数据量居然是固定的？
: 难道数据不是增长的？而平台上的工具不是独立于数据本身而存在的？

z****e
发帖数: 54598

deep learning还没有成堆的轮子可以用
无论是python还是java，都只有屈指可数的几个library可以用
估计还是要自己去写，自己写的话，迎合趋势反而更好
正好抓住机会把那些快被淘汰的部分直接干掉
做好了直接贡献给spark，不过估计不会这么牛了

【在 c*******0 的大作中提到】

: 这里的人都是给的什么烂建议啊...连haskell都出来了。拜托动动脑子想想，人家是拿
: 钱设计平台的。
: 楼主你200+GB的数据，自己给的平台就不错。如果确实扣速度，用Python做平台glue上
: Java的库ML，哪边都是成堆的轮子给你用。但说实话，你这个规模Python足够了，没必
: 要考虑这么多。如果最后数据
: 真的上去了再上cluster
: 不要动不动就Spark。先想想你的算法适不适合spark，到底能多并行化。

h********3
发帖数: 2075

deep learning现在只适合超高dimension的数据，比如image这些。如果只是一般的分
类，svm和loglinear model足够了。而且到现在，很多人都不相信deep learning就真
的比SVM, loglinear更好。

【在 z****e 的大作中提到】

: 看了看，你要的是deep learning的库啊
: 这个weka应该有，但是spark暂时还没有

c*******0
发帖数: 5247

deep learning？楼主这数据搞什么deep learning啊？

【在 z****e 的大作中提到】

: deep learning还没有成堆的轮子可以用
: 无论是python还是java，都只有屈指可数的几个library可以用
: 估计还是要自己去写，自己写的话，迎合趋势反而更好
: 正好抓住机会把那些快被淘汰的部分直接干掉
: 做好了直接贡献给spark，不过估计不会这么牛了

z****e
发帖数: 54598

平台化吧，我估计是想做个大概的demo
然后以后等平台牛逼了，就可以直接用了
宣传时候也好宣传，我们有deep learning
你看他弄的ng那篇文章，说的就是如何搞一个简易的大脑
到底做啥，问楼主了

【在 c*******0 的大作中提到】

: deep learning？楼主这数据搞什么deep learning啊？

相关主题
● coltzhao的公司还在用mongo吗？	● 已经全上内存了，还要40多秒啊
● 关于 SPARK, 问二爷peking2 和其他大牛一问题	● 公司要做ML了，上来问问学习方向
● Hadoop 和Python的数据分析包哪个更值得学习？	● how's scikit-learn, what else package is good for machine learning ?
进入Programming版参与讨论

z****e
发帖数: 54598

那这个上spark足够了
但是我感觉好像楼主有野望

【在 h********3 的大作中提到】

: deep learning现在只适合超高dimension的数据，比如image这些。如果只是一般的分
: 类，svm和loglinear model足够了。而且到现在，很多人都不相信deep learning就真
: 的比SVM, loglinear更好。

d********u
发帖数: 5383

果蝇好，你今天的跪舔任务完成了吗？别忘了脑残片。

【在 c*******9 的大作中提到】

: 看的懂中文?

c*******9
发帖数: 9032

臭臭好好跪舔阿三ceo吧，下届ceo有戏，拯救微软的使命就看你了。

【在 d********u 的大作中提到】

: 果蝇好，你今天的跪舔任务完成了吗？别忘了脑残片。

c*******9
发帖数: 9032

还是看楼主他们想做什么吧。
不用过分凭自己的经验指点别人。数据小不一定运算就小。

【在 c*******0 的大作中提到】

w***g
发帖数: 5958

GPU是个niche market，没啥前途。坐等Intel带FPGA的CPU出来。
我正在搞纯CPU的一个比SGD更一般化的计算平台，可以支持linear regression
的各种变种和neural network的各种变种。现在用图像数据训练neural network
性能比GPU差10倍的样子，等着上FPGA后一举超过GPU。
GPU的问题是显卡内存太小，目前最大也不超过10G。而服务器内存目前200G都挺
常见了。10G数据能折腾个啥出来。

【在 c*********e 的大作中提到】

: gpu到底啥趋势，現在很火的感觉。我公司根本就不用它。

w***g
发帖数: 5958

weka有性能瓶颈。如果你一次训练的数据量要上10G，weka肯定就不行了。
还是scipy更靠谱点。至于数据库，如果是单机的话还不如直接存文件系统。
多机的用话用轮子确实是HDFS+spark比较靠谱。不图别的，就图能全都
load到内存里。如果虽然数据总量有200G，但是每次训练只有几G几十G，
还是单机更靠谱。
上集群都是没办法才上的，如果买台好点的机器可以满足需求，就不要上
集群。Hadoop啥的都是没办法的办法。

【在 B********e 的大作中提到】

: 是啊，
: 先谢了，我去读读weka 和 spark 的文档，

w***g
发帖数: 5958

sciki-learn跟matlab一样，后台是blas，写的好的话不会有性能问题。
要用scikit的话直接下anaconda。
楼主要用neuralnetwork的话比较叫靠谱的有两个，一个是theano，适合自己写轮子。
另一个是decaf，用来做图像处理。如果楼主不是图像音频数据，用neural network讨
不了好。
haskell稿ML没戏。

【在 z****e 的大作中提到】

: weka如果不是prod ready的话
: 就没有了
: 自己动手去写去
: scipy,scikit-learn只会比weka更慢
: 更不scalable，python那些pkg，一个垮平台倒腾半天
: 我当时编译scikit-learn，弄半天，搞定了还不明白那个声明啥意思

p*****2
发帖数: 21240

HDFS+Cassandra，你指的是把C＊数据copy到HDFS然后run mr or spark?

【在 w***g 的大作中提到】

: weka有性能瓶颈。如果你一次训练的数据量要上10G，weka肯定就不行了。
: 还是scipy更靠谱点。至于数据库，如果是单机的话还不如直接存文件系统。
: 多机的用话用轮子确实是HDFS+spark比较靠谱。不图别的，就图能全都
: load到内存里。如果虽然数据总量有200G，但是每次训练只有几G几十G，
: 还是单机更靠谱。
: 上集群都是没办法才上的，如果买台好点的机器可以满足需求，就不要上
: 集群。Hadoop啥的都是没办法的办法。

w***g
发帖数: 5958

我敲错了。spark。

【在 p*****2 的大作中提到】

:
: HDFS+Cassandra，你指的是把C＊数据copy到HDFS然后run mr or spark?

N******K
发帖数: 10202

啥应用？人脸？

【在 B********e 的大作中提到】

相关主题
● how's scikit-learn, what else package is good for machine learning ?	● 越来越觉得spark是niche
● python真是一个很恶心的语言。	● 总结一下kaggle比赛
● 想跟着几个牛人实践一下新语言	● 有大牛可以说说scikit-learn哪些方面不如tf么？
进入Programming版参与讨论

z****e
发帖数: 54598

图像如果只是处理的话，弄个滤镜啥的
挨个像素处理过去也没多复杂
如果是画图的话，java可以直接用最原始的那几个pkg
chart就用jfreechart，或者javafx，不过javafx是单线程的
不确定这里面是否有风险
如果是需要parse的话，scipy那些pkg一样不能分布
直接用scala写也没多麻烦
这种原理复杂的东西光无脑上轮子未必顶用

【在 w***g 的大作中提到】

: sciki-learn跟matlab一样，后台是blas，写的好的话不会有性能问题。
: 要用scikit的话直接下anaconda。
: 楼主要用neuralnetwork的话比较叫靠谱的有两个，一个是theano，适合自己写轮子。
: 另一个是decaf，用来做图像处理。如果楼主不是图像音频数据，用neural network讨
: 不了好。
: haskell稿ML没戏。

z****e
发帖数: 54598

wdong我还是觉得图像处理是你发财的好机会

【在 w***g 的大作中提到】

c*******9
发帖数: 9032

haskell稿ML为什么没戏？

【在 w***g 的大作中提到】

w***g
发帖数: 5958

我感觉haskell搞啥都没系。太难了。
具体到ML，ML和计算机语言是CS里差得很远的两个领域，要说搞Haskell的会几种ML算
法倒有可能，ML researcher大部分既不会haskell也不会对语言层面的东西感兴趣。而
ML的发展动力来自于ML research community而不是programming language community
。这就导致了Haskell里的ML算法基本上只可能是二手货。

【在 c*******9 的大作中提到】

: haskell稿ML为什么没戏？

a********c
发帖数: 3657

金融很多是c++/r，这里大家常说的什么java/python/spark基本没见过。。。很好奇这
些都是什么industry啊。。。

【在 B********e 的大作中提到】

n*******0
发帖数: 2002

spark+hbase吧。个人对cassandra无爱。

【在 B********e 的大作中提到】

c*******9
发帖数: 9032

金融多要求实时。这里ML多数不要求实时。

【在 a********c 的大作中提到】

: 金融很多是c++/r，这里大家常说的什么java/python/spark基本没见过。。。很好奇这
: 些都是什么industry啊。。。

c******n
发帖数: 4965

这种东西多如牛毛
核心的有 mahout (及其最新基于 spark 版本）
cloudera orynx
包装高一层的有 h2o , motar , 各大 “ big data " vendor 都有自己的图形
界面的系统： datameer , Microsoft cloud,, algorithm.io google
app engine 也有 machine learning service, 最简单的 classification 到 NLP
甚至 deep learning 都有
所以你再去搞一个，我个人认为没有很大前途，唯一可能左右就是给自己简历上加
一个 hobby project 而已
我觉得比较事半功倍的 project 还是要接近 application layer

【在 B********e 的大作中提到】

z****e
发帖数: 54598

没法实时，训练就做不到实时
各个步骤基本上都无法实时
能在10s内跑完都算快的了
当然是很大的数据

【在 c*******9 的大作中提到】

: 金融多要求实时。这里ML多数不要求实时。

a********c
发帖数: 3657

基本没有实时的，就算hft也是ML mkt data to find pattern,再作forecast/
backtesting...找data就是C++，说穿了就是从ex拿data，然后r programming。

【在 c*******9 的大作中提到】

: 金融多要求实时。这里ML多数不要求实时。

相关主题
● c++程序员不要把头埋在沙子里了	● 学scala和spark需要什么pre req?
● GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧	● 试了下spark，不过如此啊
● 看了眼scala，觉得很杂	● Spark会干掉Storm吗？
进入Programming版参与讨论

z****e
发帖数: 54598

还有历史的原因，长期矿工都是招c++程序员
自然很多东西都是c++写的，再换就积重难返了

【在 a********c 的大作中提到】

:
: 基本没有实时的，就算hft也是ML mkt data to find pattern,再作forecast/
: backtesting...找data就是C++，说穿了就是从ex拿data，然后r programming。

a********c
发帖数: 3657

c++程序员那是矿马宫。。。
就算新的project你跟人讲java/spark啥的，人家也觉得你就是个蛇精病。。。

【在 z****e 的大作中提到】

: 还有历史的原因，长期矿工都是招c++程序员
: 自然很多东西都是c++写的，再换就积重难返了

z****e
发帖数: 54598

少来
我两年前就看到有公司在招hadoop程序员
你不过一叶障目而已
还有就是金融系统的规模都不大
分布式基本上不存在，上百个nodes你弄过么？
没弄过的就不要操心，蛇精病眼里其他人都蛇精病

【在 a********c 的大作中提到】

:
: c++程序员那是矿马宫。。。
: 就算新的project你跟人讲java/spark啥的，人家也觉得你就是个蛇精病。。。

a********c
发帖数: 3657

隔行如隔山，你个门外汉就别瞎折腾了。

【在 z****e 的大作中提到】

: 少来
: 我两年前就看到有公司在招hadoop程序员
: 你不过一叶障目而已
: 还有就是金融系统的规模都不大
: 分布式基本上不存在，上百个nodes你弄过么？
: 没弄过的就不要操心，蛇精病眼里其他人都蛇精病

z****e
发帖数: 54598

那你唧歪啥？你是门内汉？

【在 a********c 的大作中提到】

:
: 隔行如隔山，你个门外汉就别瞎折腾了。

f***s
发帖数: 112

大约在2017年底出来，硬件在特拉维夫，软件在班加罗尔。

【在 w***g 的大作中提到】

: GPU是个niche market，没啥前途。坐等Intel带FPGA的CPU出来。
: 我正在搞纯CPU的一个比SGD更一般化的计算平台，可以支持linear regression
: 的各种变种和neural network的各种变种。现在用图像数据训练neural network
: 性能比GPU差10倍的样子，等着上FPGA后一举超过GPU。
: GPU的问题是显卡内存太小，目前最大也不超过10G。而服务器内存目前200G都挺
: 常见了。10G数据能折腾个啥出来。

p*****y
发帖数: 529

做market risk, 上千server很正常

【在 a********c 的大作中提到】

:
: 隔行如隔山，你个门外汉就别瞎折腾了。

z****e
发帖数: 54598

我跟你打赌
它没有用过上百个
看它前几个帖子就清楚了

【在 p*****y 的大作中提到】

: 做market risk, 上千server很正常

c*******9
发帖数: 9032

和目前一般的FPGA比有什么进步？

【在 f***s 的大作中提到】

: 大约在2017年底出来，硬件在特拉维夫，软件在班加罗尔。

a********c
发帖数: 3657

hehe，像你们这些web coder成天不停的学些只管半年垃圾framework。。。我老光靠
vba就可以吃一辈子

【在 z****e 的大作中提到】

: 那你唧歪啥？你是门内汉？

相关主题
● 以后真的是cassandra spark的天下了？	● 关于 SPARK, 问二爷peking2 和其他大牛一问题
● 谈谈为什么上scala	● Hadoop 和Python的数据分析包哪个更值得学习？
● coltzhao的公司还在用mongo吗？	● 已经全上内存了，还要40多秒啊
进入Programming版参与讨论

a********c
发帖数: 3657

现在用的computing farm在synopsis，2000来个note吧。

【在 z****e 的大作中提到】

: 我跟你打赌
: 它没有用过上百个
: 看它前几个帖子就清楚了

z****e
发帖数: 54598

lol
你就别吹了
用r的家伙有能干活的么？
我每天琢磨的就是如何让r的性能更有效点
说白了就是如何让分布式能够真正搞定r脚本
问题是太难了，你说你用r来下prod的建模
你就吹吧，r是单线程的，你跟我说你用超过百个结点？
拉倒吧，忽悠谁呢

【在 a********c 的大作中提到】

: hehe，像你们这些web coder成天不停的学些只管半年垃圾framework。。。我老光靠
: vba就可以吃一辈子

z****e
发帖数: 54598

lol
你在这上面用r？
搞笑了
node不是note
你连node都写错
继续吹

【在 a********c 的大作中提到】

: 现在用的computing farm在synopsis，2000来个note吧。

a********c
发帖数: 3657

你这种门外汉就少来丢人现眼，连r做什么的都不知道。。。
synopsis成千的node跑backtesting，算cashflow，caculate market/credit risk，
generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js
真是圡的掉渣渣。。。

【在 z****e 的大作中提到】

: lol
: 你在这上面用r？
: 搞笑了
: node不是note
: 你连node都写错
: 继续吹

z****e
发帖数: 54598

lol
你确定你知道什么是node？
你确定你知道我说的node是什么？
你现在知道r的问题了，赶紧转移话题了
变得很快嘛

js

【在 a********c 的大作中提到】

: 你这种门外汉就少来丢人现眼，连r做什么的都不知道。。。
: synopsis成千的node跑backtesting，算cashflow，caculate market/credit risk，
: generate live curve再正常不过了。像你这种sb web coder看见node就光知道node.js
: 真是圡的掉渣渣。。。

z****e
发帖数: 54598

用来算什么都很容易，你说得这些都是相互隔绝的任务
依赖非常弱，用fortran都行

js

【在 a********c 的大作中提到】

a********c
发帖数: 3657

什么叫转移话题？那我问你个具体问题，给你一堆mkt data，r用来干嘛？接着
computing farm 又做什么？

【在 z****e 的大作中提到】

: lol
: 你确定你知道什么是node？
: 你确定你知道我说的node是什么？
: 你现在知道r的问题了，赶紧转移话题了
: 变得很快嘛
:
: js

z****e
发帖数: 54598

给你点拨一下，你说的这几个跟ml没半毛钱关系
别以为忽悠几个名词就骗得到谁，我还考过精算
虽然没有继续走下去，但是这些名词对我来说，也不是什么陌生词汇
当年几门金融课，都是a，你这几个除了装逼以外，其实与主题无关
r相比之下离ml还近一点

js

【在 a********c 的大作中提到】

z****e
发帖数: 54598

lol
问你啊
这个topic是关于ml的
请问你用ml做啥？
你说的这几个根本不需要ml

【在 a********c 的大作中提到】

: 什么叫转移话题？那我问你个具体问题，给你一堆mkt data，r用来干嘛？接着
: computing farm 又做什么？

a********c
发帖数: 3657

fortran当然可以，c也可以，assembly也可以，那为啥大家都用r？

【在 z****e 的大作中提到】

: 用来算什么都很容易，你说得这些都是相互隔绝的任务
: 依赖非常弱，用fortran都行
:
: js

相关主题
● 已经全上内存了，还要40多秒啊	● python真是一个很恶心的语言。
● 公司要做ML了，上来问问学习方向	● 想跟着几个牛人实践一下新语言
● how's scikit-learn, what else package is good for machine learning ?	● 越来越觉得spark是niche
进入Programming版参与讨论

z****e
发帖数: 54598

你说的这些说简单点，就是会计的算盘
跟ai没半毛钱关系

【在 a********c 的大作中提到】

: 什么叫转移话题？那我问你个具体问题，给你一堆mkt data，r用来干嘛？接着
: computing farm 又做什么？

z****e
发帖数: 54598

因为统计工具全啊，但是带来的恶果就是单线程
根本不可能下放生产，谁把写r的人当it从业人员看啊？

【在 a********c 的大作中提到】

: fortran当然可以，c也可以，assembly也可以，那为啥大家都用r？

a********c
发帖数: 3657

what the fuck。。。。你妈80年代ml就开始在finance大展手脚，更别说hft根本就是
base在ml了。。。你们这些孤陋寡闻的现在才开始搞。。。

【在 z****e 的大作中提到】

: lol
: 问你啊
: 这个topic是关于ml的
: 请问你用ml做啥？
: 你说的这几个根本不需要ml

z****e
发帖数: 54598

lol
那你说说怎么用？
用r来实现嘛？
哈哈哈
你吹牛吹得好玩得紧啊

【在 a********c 的大作中提到】

: what the fuck。。。。你妈80年代ml就开始在finance大展手脚，更别说hft根本就是
: base在ml了。。。你们这些孤陋寡闻的现在才开始搞。。。

a********c
发帖数: 3657

成千上万的真金白银都是用r做ml挖出来的，在你口里面成了不能下放生产，真是不知
者无畏啊。。。。

【在 z****e 的大作中提到】

: 因为统计工具全啊，但是带来的恶果就是单线程
: 根本不可能下放生产，谁把写r的人当it从业人员看啊？

z****e
发帖数: 54598

顺便说一下80年代都在干嘛
80年代fortran最高搞出了字节码这种东西
后来因为机器太弱，算了，拉倒吧
到了90年代，才由java将其发扬光大
当然我们不排除这个星球上有能人能在80年代就开始发扬光大一把

【在 a********c 的大作中提到】

: what the fuck。。。。你妈80年代ml就开始在finance大展手脚，更别说hft根本就是
: base在ml了。。。你们这些孤陋寡闻的现在才开始搞。。。

z****e
发帖数: 54598

lol
我反正是没有听说过谁搞ml用r的
用python和java的都有
但是用r的比较没听说过
当然牛逼人士都用的是r我相信

【在 a********c 的大作中提到】

: 成千上万的真金白银都是用r做ml挖出来的，在你口里面成了不能下放生产，真是不知
: 者无畏啊。。。。

a********c
发帖数: 3657

你这个话题转移的够快的，完全不知道你在说什么。。。

【在 z****e 的大作中提到】

: 顺便说一下80年代都在干嘛
: 80年代fortran最高搞出了字节码这种东西
: 后来因为机器太弱，算了，拉倒吧
: 到了90年代，才由java将其发扬光大
: 当然我们不排除这个星球上有能人能在80年代就开始发扬光大一把

a********c
发帖数: 3657

随便找个hft shop的人问问，c++加r是标配。

【在 z****e 的大作中提到】

: lol
: 我反正是没有听说过谁搞ml用r的
: 用python和java的都有
: 但是用r的比较没听说过
: 当然牛逼人士都用的是r我相信

z****e
发帖数: 54598

hft不能算是主流
花街这些年插管吸血有些不太行了
盯着过去没啥意义
再往前到80年代，fortran是标配
你还是回80年代去吧

【在 a********c 的大作中提到】

: 随便找个hft shop的人问问，c++加r是标配。

相关主题
● 总结一下kaggle比赛	● GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
● 有大牛可以说说scikit-learn哪些方面不如tf么？	● 看了眼scala，觉得很杂
● c++程序员不要把头埋在沙子里了	● 学scala和spark需要什么pre req?
进入Programming版参与讨论

z****e
发帖数: 54598

我已经告诉过你了，r是单线程
单线程能干p事，所以你不得不用c++
还加，加毛加，直接把r的pkg套在c++上就能用了
r的pkg基本上都是fortran和c写的
顺便，r的ml的pkg是啥？

【在 a********c 的大作中提到】

: 随便找个hft shop的人问问，c++加r是标配。

a********c
发帖数: 3657

hft只是个例子，基本所有strategy base的都要靠ml找pattern，做ml的就是matlab/r
，有的直接就是excel/vba。
花街不行==美帝不行，想想吧

【在 z****e 的大作中提到】

: hft不能算是主流
: 花街这些年插管吸血有些不太行了
: 盯着过去没啥意义
: 再往前到80年代，fortran是标配
: 你还是回80年代去吧

z****e
发帖数: 54598

lol
花街行＝＝美帝不行
插管吸血的不行＝＝造血的行
你说的这些都太简单，摆脱不了一个高级算盘的角色
离开真正的ai还太远，当然你说1＋1＝2也是数学
这也说得过去，写vb的也是程序员

r

【在 a********c 的大作中提到】

: hft只是个例子，基本所有strategy base的都要靠ml找pattern，做ml的就是matlab/r
: ，有的直接就是excel/vba。
: 花街不行==美帝不行，想想吧

z****e
发帖数: 54598

你说的这些都只能算是模式的识别
这个倒是真的80年代就有了
而且都是偏向数字的识别，which是非常容易的
统计上都有很多成熟的工具来做了
但是现在想的是文字和图像
比起这个来说，数字实在是太有规律了也太简单了
google能做文字，开源现在搞文字也问题不大了
主要是图像还比较难
数字比起文字来说，简单很多很多

r

【在 a********c 的大作中提到】

: hft只是个例子，基本所有strategy base的都要靠ml找pattern，做ml的就是matlab/r
: ，有的直接就是excel/vba。
: 花街不行==美帝不行，想想吧

a********c
发帖数: 3657

推荐你去看看SU的
Statistical Learning (machine learning)with Applications in R

【在 z****e 的大作中提到】

: 我已经告诉过你了，r是单线程
: 单线程能干p事，所以你不得不用c++
: 还加，加毛加，直接把r的pkg套在c++上就能用了
: r的pkg基本上都是fortran和c写的
: 顺便，r的ml的pkg是啥？

z****e
发帖数: 54598

r只是一个玩具，对我来说
性能太糟糕，不能用
你们这种vb都用的，可能要求不太一样

【在 a********c 的大作中提到】

: 推荐你去看看SU的
: Statistical Learning (machine learning)with Applications in R

a********c
发帖数: 3657

hehe,你知道有一种fund叫event driven fund，it就是靠ml finance news（text and
image）讨生活的。
自己不懂的东西就别瞎咋乎。

【在 z****e 的大作中提到】

: 你说的这些都只能算是模式的识别
: 这个倒是真的80年代就有了
: 而且都是偏向数字的识别，which是非常容易的
: 统计上都有很多成熟的工具来做了
: 但是现在想的是文字和图像
: 比起这个来说，数字实在是太有规律了也太简单了
: google能做文字，开源现在搞文字也问题不大了
: 主要是图像还比较难
: 数字比起文字来说，简单很多很多
:

z****e
发帖数: 54598

一种而已啦
人家主流都是文字
你这个主流是数字
差距甚大
文字现在都不算什么了

and

【在 a********c 的大作中提到】

: hehe,你知道有一种fund叫event driven fund，it就是靠ml finance news（text and
: image）讨生活的。
: 自己不懂的东西就别瞎咋乎。

a********c
发帖数: 3657

多看书，少灌水有好处的。

【在 z****e 的大作中提到】

: r只是一个玩具，对我来说
: 性能太糟糕，不能用
: 你们这种vb都用的，可能要求不太一样

a********c
发帖数: 3657

这嘴软的。。。

【在 z****e 的大作中提到】

: 一种而已啦
: 人家主流都是文字
: 你这个主流是数字
: 差距甚大
: 文字现在都不算什么了
:
: and

相关主题
● 试了下spark，不过如此啊	● 谈谈为什么上scala
● Spark会干掉Storm吗？	● coltzhao的公司还在用mongo吗？
● 以后真的是cassandra spark的天下了？	● 关于 SPARK, 问二爷peking2 和其他大牛一问题
进入Programming版参与讨论

z****e
发帖数: 54598

你们还在用r，vb还有excel
充分说明了层次，是吧，scala比这个高三个层次
比c++高两个层次，所以有档差
光吹，没啥意义

and

【在 a********c 的大作中提到】

: hehe,你知道有一种fund叫event driven fund，it就是靠ml finance news（text and
: image）讨生活的。
: 自己不懂的东西就别瞎咋乎。

z****e
发帖数: 54598

是，看你吹r和vb，我肚子都快笑疼了

【在 a********c 的大作中提到】

: 多看书，少灌水有好处的。

z****e
发帖数: 54598

不敢不敢
看到vb还是要跪的

【在 a********c 的大作中提到】

: 这嘴软的。。。

a********c
发帖数: 3657

正常，跳梁小丑都喜欢笑

【在 z****e 的大作中提到】

: 是，看你吹r和vb，我肚子都快笑疼了

z****e
发帖数: 54598

是，vb塞高

【在 a********c 的大作中提到】

: 正常，跳梁小丑都喜欢笑

(共1页)

进入Programming版参与讨论

相关主题
● 以后真的是cassandra spark的天下了？	● python真是一个很恶心的语言。
● 谈谈为什么上scala	● 想跟着几个牛人实践一下新语言
● coltzhao的公司还在用mongo吗？	● 越来越觉得spark是niche
● 关于 SPARK, 问二爷peking2 和其他大牛一问题	● 总结一下kaggle比赛
● Hadoop 和Python的数据分析包哪个更值得学习？	● 有大牛可以说说scikit-learn哪些方面不如tf么？
● 已经全上内存了，还要40多秒啊	● c++程序员不要把头埋在沙子里了
● 公司要做ML了，上来问问学习方向	● GPU高手谈谈怎么利用GPU做data intensive的计算和mapreduce 吧
● how's scikit-learn, what else package is good for machine learning ?	● 看了眼scala，觉得很杂

相关话题的讨论汇总
话题: ml话题: learning话题: gpu话题: spark话题: 平台

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天