由买买提看人间百态

topics

全部话题 - 话题: datasets
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
c*****s
发帖数: 180
1
来自主题: WaterWorld版 - PURE WATER DO NOT NETER PLEASE
Use PROC DATASETS to create an index on the existing Sasuser.Empdata
data set.


1. Write a PROC DATASETS step to create a simple index on the existing
Sasuser.Empdata data set that is named Hiredate and that is based on the key
variable Hiredate. Submit the program and examine any messages that are
written to the SAS log.
2. Revise the program to delete the Hiredate index. Add a statement that
will create an index named Name that is based on the concatenation of the
v
c*****s
发帖数: 180
2
来自主题: WaterWorld版 - PURE WATER DO NOT NETER PLEASE
Information about indexes is stored in the descriptor portion of the data
set. You can use either the CONTENTS procedure or the CONTENTS statement in
PROC DATASETS to list information from the descriptor portion of a data set.
Output from the CONTENTS procedure or from the CONTENTS statement in PROC
DATASETS contains the following information about the data set:
* general and summary information
* engine/host dependent information
* alphabetic list of variables and attributes
* a
c*****s
发帖数: 180
3
来自主题: WaterWorld版 - PURE WATER DO NOT NETER PLEASE
SAS OnlineTutor®: Advanced SAS®
Modifying SAS Data Sets and Tracking Changes 55 of 60
backnextlesson menuLearning Pathhelp menu

Processing Generation Data Sets (continued)
You have learned that you use PROC DATASETS to initiate generation data sets
on an existing SAS data set. Once you have created generation data sets,
you can use PROC DATASETS to perform management tasks such as
* deleting all or some of the generations
* renaming an entire gener
s****y
发帖数: 1574
4
不仅如此。。。。。全州 2/3人口都是摩门的犹他州,depression率也是全美最高的。甚至,online porn subscriptions也是全美第一。
UTAH'S 1998-2008 REVIEW (see below): Still leading the nation in abuse, rape, murder!
Divorces per 1,000 Population Utah-4.60 MA-2.40 NY -3.20 NJ-3.0
Murder per 100,000 Pop. Utah-3.90 NH-1.70 IO-1.70 ND-0.90
Rape per 100,000 Pop. Utah-42.70 NY -23.70 CA-33.40 VA-27.20
*Source US Census Bureau
这篇新闻的最后一段,很是发人深思~~~~
SALT LAKE CITY, UTAH (Deseret News, 3/3/09) -- Utahans, famous for their wholesomeness a... 阅读全帖
r******e
发帖数: 396
5
来自主题: ZJU版 - 招人
需要有绿卡。
有兴趣的站内联系我。
谢谢。
Title Statistical Modeler
City Orange
State CA
We are seeking a Statistical Modeler to assist in reviewing and developing
complex predictive models at our Orange, California location.
This position requires candidates to have a Masters degree in Statistics and
at least 1 year of modeling experience. Any potential candidate will be
proficient in scorecard development, data transformation, and segmentation
analysis.
Candidates should be able to clearly communicate and wor... 阅读全帖

发帖数: 1
6
来自主题: BuildingWeb版 - 网站建设小白问题请教
试着回答一下,如果没有理解错的话,
每天数据1M,3年数据大概1G。这是很小的dataset,基本上你怎么做都没错。用任何数
据库都可以。
Table schema可以这样:
UUID|keyword1|keyword2|....|timestamp
因为dataset太小,即使fulltable scanning也没事,用不着费事去优化了。
其实不用数据库,你如果Java比较过硬,直接开一个4G的heap,一个Hashmap就够了。原
始数据存在任何一个数据库,每天晚上定时load data就可以了。
Linux+Java就可以,很简单。

发帖数: 1
7
来自主题: BuildingWeb版 - 网站建设小白问题请教
试着回答一下,如果没有理解错的话,
每天数据1M,3年数据大概1G。这是很小的dataset,基本上你怎么做都没错。用任何数
据库都可以。
Table schema可以这样:
UUID|keyword1|keyword2|....|timestamp
因为dataset太小,即使fulltable scanning也没事,用不着费事去优化了。
其实不用数据库,你如果Java比较过硬,直接开一个4G的heap,一个Hashmap就够了。原
始数据存在任何一个数据库,每天晚上定时load data就可以了。
Linux+Java就可以,很简单。
s*****o
发帖数: 48
8
【 以下文字转载自 CS 讨论区 】
发信人: slishuo (slishuo), 信区: CS
标 题: Special Issue on Computational Methods and Clinical Applications for Spine Imaging
关键字: Special Issue
发信站: BBS 未名空间站 (Mon Dec 3 23:15:01 2012, 美东)
Computerized Medical Imaging and Graphics (CMIG)
Special Issue on Computational Methods and Clinical Applications for Spine
Imaging
Call for Papers
Guest editors:
Jianhua Yao (National Institutes of Health)
Email: j**[email protected]
http://www.cc.nih.gov/drd/staff/jianhua_yao.html
Tobias Klinder (P... 阅读全帖
S********y
发帖数: 26
9
shell script应该可以实现的吧!不过死机的情况不可能
kill process的吧!?下面仅供参考,不一定对,欢迎指正!
algorithm和dataset 是存好你算法名和数据集的数组
#!/bin/sh
for (( i = 1; i <= 30; i++ ))
do
for (( j = 1; j <= 10; j++ ))
do
./${algorithm[$i]} ${dataset[$j]} &
pid=$!
sleep 15*60
if [ `kill -0 $pid` -eq 0 ]
then
echo alrogithm was still running and got killed!
else
echo algorithm finished execution.
fi
done
then
echo algorithm finished execution.
else
shell secho alrogithm was still
s*****o
发帖数: 48
10
Computerized Medical Imaging and Graphics (CMIG)
Special Issue on Computational Methods and Clinical Applications for Spine
Imaging
Call for Papers
Guest editors:
Jianhua Yao (National Institutes of Health)
Email: j**[email protected]
http://www.cc.nih.gov/drd/staff/jianhua_yao.html
Tobias Klinder (Philips Research)
Email: t************[email protected]
Aly A. Farag (University of Louisville)
Email: a*******[email protected]
Webpage: http://www.cvip.uofl.edu
Shuo Li (GE Healthcare & University of Western ... 阅读全帖
w******c
发帖数: 574
11
来自主题: CS版 - 请教大牛们一个问题
很正常
很多paper的方法就是针对一些特定的case 换个dataset或者assumption立马抓瞎
不过这倒是自然规律 不变而能适用于任何情况的方法那是很少很少的
牛顿定律碰到量子或者相对论等级不也sb了么呵呵
你的情况是不是考虑在你的dataset建下index?

sequence
k**********g
发帖数: 989
12
来自主题: CS版 - 请教 EE phd 自学 CS

真没听过 postgrad CV / ML 抱怨算法不及科班的 CS 。
The only possibility this could happen is if someone only learn MATLAB,
Python and not any other languages.
论面试中的算法,无非就是刷题。从 CC150, EPI 选一部分认真做做就过关了。
从学院转到工业界的最大冲击,是不能再『use the best tool for the task』,因为
各种可以在学术界使用的软件、语言、类库、专利算法都因为各种商业原因(就是
licensing cost / patent issue)不能使用,以致要从头开始写一遍。
CV 和 ML 都是现在招人的热门技能;只要找工作时撒网够深,不是马虎只投两三间公
司,应该是可以找到对口而待遇不错的工作。
尽量把研究方向推到使用数据量较大的范畴(就是能够收集大量原始输入数据、或者已
经有对学术界开源的研究数据资料库)。
Examples of research databases I used (back in 2006) ... 阅读全帖
z***a
发帖数: 5
13
big data engineer和data scientist做的是不一样的工作。可以看下面的解释,来源
https://bigdatauniversity.com/blog/data-scientist-vs-data-engineer/
对CS、大数据感兴趣的话, 我们有一个资料分享群,交流心得和资源哈。我的微信号是
(不想被搜索引擎弄走):"ada"+"da"+两个zebra的"z"。所有引号里的连起来没有空
格没有加号就好啦!
Data Engineer
Data Engineers are the data professionals who prepare the “big data”
infrastructure to be analyzed by Data Scientists. They are software
engineers who design, build, integrate data from various resources, and
manage big data. Then, they write complex queries on th... 阅读全帖
g*****a
发帖数: 29
14
来自主题: Database版 - 问个初级问题.不要笑话
我是学统计的,现在用SAS将数据存储在一个大的DATASET中.(每年的数据量不到1万(2-3M)
.
有学计算机的人建议应该将数据存在ACCESS的几个表中(如把学生相关信息放在一个表中,
老师相关信息放在一个表中),说这样可以减少REDUNDANCY,BLAH,BLAH.
我现在做分析时用这个DATASET觉得很舒服,若用他说的,可能我还要编程序做关系数据库
的连接,我感觉反而增加工作量.
哪位比较明白的,给说说用这样的DATA STRUCTURE到底有什么好处,若用处不大,我怎样反
驳呢?
g*****a
发帖数: 29
15
来自主题: Database版 - 问个初级问题.不要笑话
是不是可以这样理解,这是DATA STRUCTURE的问题,和用什么软件无关,只要DATA
STRUCTURE建好,无所谓用什么软件,因为SAS也可以有DATASET存储数据信息?



我是学统计的,现在用SAS将数据存储在一个大的DATASET中.(每年的数据量不到1万(2-3M)


aw
发帖数: 127
16
来自主题: Database版 - 问个初级问题.不要笑话
这是关系数据库设计的问题,你用什么数据库软件来具体实现是另一码事。
不了解SAS,但你的DATASET里的数据从哪来的,举个例?



我是学统计的,现在用SAS将数据存储在一个大的DATASET中.(每年的数据量不到1万(2-3M)


g*****a
发帖数: 29
17
来自主题: Database版 - 问个初级问题.不要笑话
SURVEY扫描后的文本文件,IMPORT到SAS DATASET 中. 有AGENCY, SCHOOL. STUDETN.简单
的DEMOGRAPHIC的信息,然后就是几十个QUESTION的RESPOND (1-5, 类似STRONGLY AGREE,
AGREE, DISAGREE, STRONGLY DISAGRE, DO NOT KNOW之类的)



我是学统计的,现在用SAS将数据存储在一个大的DATASET中.(每年的数据量不到1万(2-3M)


g****n
发帖数: 18
18
Hello,
I have a question on using SQL to fill in some missing values in a dataset?
Right now my dataset look like this
ID New_ID Date CV Value
3270001111111 098766 7/31/2007 check 40000
3270001111111 098766 9/30/2007 check 135000
3270001111111 098766 2/28/2008 check 75000
Note there is no date for 8/2007, 10/2007, 11/2007, 12/2007, and 1/2008. I
want to fill in those blanks with the data from previous month, making it
looks like the
v*****r
发帖数: 1119
19
来自主题: Database版 - Doubts about clustered index
The moment you enforce order, you lose the thing called "relation" and the
flexibility of being relational. One benefit of such flexibility is the
ability for SQL engine optimizer to transform/rewrite your query based on
the grows/updates of your tables especially in complicated SQL query to try
to adapt the plan to achieve best performance. Those transform/rewrite are
based on relational mathematical model which deals with relation (orderless
datasets).
Same in SQL, the moment the order by is a... 阅读全帖
d*******n
发帖数: 109
20
来自主题: Database版 - SSRS 牛人请进
一个Report, 有好几个datasets, 它们的结构大致相似。每一个dataset对应一个
table.
每一个table的row不多,而且一个table不能跨页,这个容易实现,
但是还有一个功能,就是说如果几个tables都在同一个page上,那么只有第一个table
的header显示,其他的在同一page上的table的header就hide。
实在想不出怎么实现,google了也没找到。请牛人指点,谢谢。
d*******n
发帖数: 109
21
来自主题: Database版 - SSRS 牛人请进
一个Report, 有好几个datasets, 它们的结构大致相似。每一个dataset对应一个
table.
每一个table的row不多,而且一个table不能跨页,这个容易实现,
但是还有一个功能,就是说如果几个tables都在同一个page上,那么只有第一个table
的header显示,其他的在同一page上的table的header就hide。
实在想不出怎么实现,google了也没找到。请牛人指点,谢谢。
d*******n
发帖数: 109
22
来自主题: Database版 - SSRS 牛人请进
我可以把一切都合并成一个dataset,虽然这挺费劲的,不过,下一步如何实现呢? 一
个大的dataset里面分了好些个类别(group),每一个group的数据要在一张page上,如果
换页就要有header,不换页就hide header?
G********r
发帖数: 3161
23
不知道的发在这里合不合适,我有一个IDB(Integrated Database),目前只包括四个部
门的数据已经有300万条记录了,我们主要是用PC SAS处理数据,请教一下有经验的前
辈,对于大数据,是不是应该多用Data step而不是SQL啊,我目前测试的结果是Data
Step明显快于SQL,但是又很想用SQL,因为很多东西用SQL要简洁得多,比如说我要把
每个部门的最大值,最小值加到每个人的数据上,SQL一个语句就做出来了,Data Step
要最大值做一个dataset,最小值做一个Dataset,然后跟主数据Merge起来,至少三步
。请教前辈在处理大数据方面的经验。谢谢了。
L*******r
发帖数: 1011
24
来自主题: DotNet版 - using weather XML feed in C# - 2
这里介绍XML handling in C#.
namespace: System.Xml
1. SAX way: In C#, 相关类是: XmlTextReader/XmlTextWriter, XMLNodeReader/....
如果你只要读入一次,SAX是最有效率的选择。
2. DOM way: In C#, 相关类是: XmlDocument, XmlNode, ...
如果你的文件或者数据不大,内存能装下,并且你需要多次读取数据,你可以使用它

DOM的好处是结构直观。
3. 我们也可以直接用ADO.Net中的DataSet将XML调入。
三种方法在我们的程序中都可以使用。因为我们的数据非常少。
如果使用1,visitor
pattern是典型做法。用swith-case如果你不在乎你的结构(ad-hoc)。
如果使用2,If you want, 你可以使用Xpath来辅助.而且你有一个很直观的DOM结构。
如果使用3, 你今后可以轻易地将数据装入数据库。
1, 2对于Java和C++ programmers已经没有什么新意。
3 的 dataset是
L*******r
发帖数: 1011
25
来自主题: DotNet版 - using weather XML feed in C# - 2
数据格式比较统一,是说如果数据看来都像表格似的。结构有重复什么的。
这是我自己的感觉,如果你熟悉数据库的话,你就明白我在说什么。
dataset里面含有表,关系,constraint,整个一个数据库结构翻版。
我主要不想看到有上百个表,每个表里就是一个记录这种情况。不过如果这样的话,那个
XML文件也就够不结构化的了。:)
恩,我现在觉得dataset这个设计不错,比较推荐。
当然,SAX是经典方法,还是应该学会的。赫赫
s***y
发帖数: 352
26
I have "using System.Data.Sqlclient"
and "using System.Data" and etc
Let me post the whole Page_Load method and see if there's anything wrong.
It's a really simple method though.
private void Page_Load(........)
{
SqlConnection conn = new SqlConnection(........);
SqlCommand cmd = new SqlCommand (.......);
SqlDataAdapter adp = new SqlDataAdapter(); //error this line
adp.SelectCommand = cmd;
DataSet ds = new DataSet();
adp.Fill(ds,"Database1");
...
}
Then the comile-time error occurs.
k****i
发帖数: 1072
27
来自主题: DotNet版 - crystal report for .net
I did think about this way but seemed it's not a good way.
Basically reports have total filed or sub total for each group.You won't want
to do a lot of calculation in the code first like the number of the groups
that will be generated and put each group in different dataset,or calculate
the total and store it within the dataset and pass it to the report.It can be
done but just cumbersome.I still want to let crystal report handles these
things.

store
web
know
p*********n
发帖数: 540
28
来自主题: DotNet版 - how to generate table in visual C#
yeah, datasets work as in-memory databases
you can create datasets in your code and store and manipulate
tables and relationships in them..
c**t
发帖数: 2744
29
来自主题: DotNet版 - XML转为Excel文件
How about read XML into DataSet first; then DataSet to Spreadsheet(s)?

法。
c**t
发帖数: 2744
30
来自主题: DotNet版 - 真难搞:CLR stack overflow
对这样的错误不知道各位有什么好的办法.如下的代码非常普通。但如果PKG.GET_DATA的
运行时间比较长,超过5分钟,在output窗口出现:
A first chance exception of type 'System.Runtime.InteropServices.COMExceptio
n' occurred in mscorlib.dll
The thread 0xea4 has exited with code 0 (0x0).。。。
程序死在 odp.Fill(ds),也没有exception抛出。同样的代码,如果sp能比较快的执行,
一点问题也没有。貌似CLR stack overflow.不知道各位碰到没有。
using Oracle.DataAccess.Client;
private void backgroundWorker_DoWork(object sender, System.ComponentModel.Do
WorkEventArgs e)
{
DataSet ds = new DataSet();
OracleConnection
S****e
发帖数: 10596
31
来自主题: DotNet版 - 请教两个c# sql listview 问题
版上大大给看看,多谢啦!
第一个问题:
做一个产品查询,有3个表,table1用来放选择信息,table2&3 放显示信息
每个表都有一列放置unique ID
用select ID from table1 where blahblah
从table1里选择出一堆符合条件的ID
然后从table2 和 table3 中把 刚才选出ID 的信息 装入 dataset
有什么简单语句可以实现?
第二个问题:
装入dataset后用listview显示
要求按照随机顺序显示
有什么方法可以实现?
t********9
发帖数: 13
32
一)DATASet:恭喜你不用写T-SQL了,但是你要学会它的语法,从此不用担心多数据库
应用的问题。但是惨了,它为了兼容多种数据库因此T-SQL写的真的“很兼容”执行效
率太低,同样的一个表现结果,这个SQL嵌套了好几次,效率灰常低。
二)LINQ:你也不用写T-SQL了,它的语法学学还是好处颇多,因因为你在LINQ TO
OBJECT上也能见到这种语法的影子收益颇多,它的执行效率很快,但是不管怎么讲也没
有你直接用SQL Server .NET Framework数据提供程序,自己写SQL快,可控制程度高,
好处也是显而易见就像用DATASET一样,你不用再为了数据持久化问题写一大堆ORM的东
西了。
三)存储过程:
1.存储过程只在创造时进行编译,以后每次执行存储过程都不需再重新编译,而一般
SQL语句每执行一次就编译一次,所以使用存储过程可提高数据库执行速度。
2.当对数据库进行复杂操作时(如对多个表进行Update,Insert,Query,Delete时),可
将此复杂操作用存储过程封装起来与数据库提供的事务处理结合一起使用。
3.存储过程可以重复使用,可减少数据库开发人员... 阅读全帖
t********9
发帖数: 13
33
一)DATASet:恭喜你不用写T-SQL了,但是你要学会它的语法,从此不用担心多数据库
应用的问题。但是惨了,它为了兼容多种数据库因此T-SQL写的真的“很兼容”执行效
率太低,同样的一个表现结果,这个SQL嵌套了好几次,效率灰常低。
二)LINQ:你也不用写T-SQL了,它的语法学学还是好处颇多,因因为你在LINQ TO
OBJECT上也能见到这种语法的影子收益颇多,它的执行效率很快,但是不管怎么讲也没
有你直接用SQL Server .NET Framework数据提供程序,自己写SQL快,可控制程度高,
好处也是显而易见就像用DATASET一样,你不用再为了数据持久化问题写一大堆ORM的东
西了。
三)存储过程:
1.存储过程只在创造时进行编译,以后每次执行存储过程都不需再重新编译,而一般
SQL语句每执行一次就编译一次,所以使用存储过程可提高数据库执行速度。
2.当对数据库进行复杂操作时(如对多个表进行Update,Insert,Query,Delete时),可
将此复杂操作用存储过程封装起来与数据库提供的事务处理结合一起使用。
3.存储过程可以重复使用,可减少数据库开发人员... 阅读全帖
d******8
发帖数: 2191
34
从包含primary key的数据库里读取数据保存到了DataSet,使用DataSet.
DataTableCollection[0].NewRow创建新的DataRow,查了下pk column,发现value从0
开始。需要手动置下AutoIncrementSeed。
之前没这个问题,求大牛指点下可能的原因所在。
a******1
发帖数: 2340
35
来自主题: Hardware版 - 请教raid 0 值不值得搞?
SAS永远都是IO瓶颈啊
我觉得还是直接一块大SSD一劳永逸吧,SSD到SSD R0好像提升性能有限。
话说如果10G DATASET不多的话,买个256的SSD应该够用了。我现在SSD上有2个56GB的
DATASET, 2个10GB的DATA
g*****g
发帖数: 34805
36
来自主题: Java版 - type conversions
List也是一个interface,Dataset既然是Interface,
你可以查Dataset源码,多半extends List

节是
t*******t
发帖数: 105
37
来自主题: Java版 - type conversions
thanks for reminding.
我今天又研究了一下这个问题,仍然搞不清楚为什么那个作者轻易的把一个List cast到
一个Dataset。 我觉得这个问题的关键是搞清楚List到dataset有没有extend或者imple
ment,但是今天看了一下,确实没有,除开他们都是Object的subclass或者subinterfa
ce。
我还有一个高不清楚的地方是,我看了这个作者的代码,几乎90%的class都要extends一
个PersistentObject,用来搞serialization。 这个application是一个用于科学计算
的小软件,我搞不清楚为什么他要求所有的class都要serialization。
A**o
发帖数: 1550
38
来自主题: Java版 - type conversions
read your source code,
it's not what you said. it's actually returned you an object.
Dataset ds = (Dataset) new GctParser().parse().get(0);
the parse() does give you a List
but the get gives you an Object before being casted...
No surprises. Over and out.

节是
n*w
发帖数: 3393
39
来自主题: Programming版 - 现在哪些script最流行?
yes, i remember my old post.later i found that the perl is much faster
because the modified perl version only process 10-20% of the dataset while
the python one was processing the whole dataset. it's quite powerful that
perl can mix regex and perl functions.

,
't
points
a****k
发帖数: 3457
40
一个文本数据文件A.txt,如下格式:
12,34
24,45
21,33
05,44
。,。
每行两个数据,用逗号分开。有N行(N不大于100).
现在要求将A.txt中第一行的两个数据写入文本文件1.txt的第二行和第三行指定位置,
取代原来的数据;将A.txt中第二行两个数据写入文本文件2.txt的第二行和第三行指定
位置,取代原来的数据;以此类推,将A.txt的第N行数据写入n.txt文件的第二行和第
三行指定位置,有N多个文本文件。
被修改的文本文件有相同的格式。如原来的1.txt格式如下:
DataSet=1
low=01
high=05
。。。。。
修改后的1.txt为:
DataSet=1
low=12
high=34
。。。。。
要求写一个VB小程序实现
c********l
发帖数: 8138
41
来自主题: Programming版 - 求问一道动态规划的题目
Google code jam上的算法题:
我目前能想到的算法是O(k * 2^n * 2^n)
也就是说,求出所有组合在k=1, k=2, k=3....直到k=k时的最小正方形覆盖
但这个复杂度实在太大了,有没有更简便的算法?
Problem
You are given n points in the plane. You are asked to cover these points
with k squares.
The squares must all be the same size, and their edges must all be parallel
to the coordinate axes.
A point is covered by a square if it lies inside the square, or on an edge
of the square.
Squares can overlap.
Find the minimum length for the squares' edges such that you can cover the n... 阅读全帖
w***g
发帖数: 5958
42
来自主题: Programming版 - 已经全上内存了,还要40多秒啊
四台机器,每台给48G内存,一个52G的dataset读不进去,跑了十几分钟自动重试无数
次最后失败。换乘一个16G的dataset,好歹读进去了。先repartition,然后cache,然
后count(),然后再count(),然后再count(),每次count()还是要40多秒。看UI,每台
机器内存也都用上了,我这是怎么回事?离亚秒级还有光年远啊。呼唤牛人帮我看看。
(说得是spark)
更新:上scala后实现亚秒了, 0.3秒光速跑完。
Tips:
1. 往狠里加内存。文本文件的overhead在350%的样子。10G的数据得准备35G的内存,
外加spark貌似在cache之外没台机器hold了10G内存的样子。如果是10G数据4台机器,
每台得给20G内存才能跑通畅。这个反正java世界的一直都这样,我也认了。
2. 往狠里加临时目录。我一开始没设,一直用的/tmp,一跑起来整个机器基本上就
freeze了。后来每台机器弄了两个大磁盘,repartition那步就比较通畅了。
我们最大的log还是太大,即使内存全上也cache不住,但是豫处理后应该可以不用导到
一台... 阅读全帖
m***r
发帖数: 359
43
来自主题: Programming版 - Python日报 2015年2月楼
Python日报 2015-02-13
@好东西传送门 出品, 过刊见
http://py.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-02-13/short.html
1) 【用PyBrain做MNIST图像分类】 by @爱可可-爱生活
关键词:库, 数据科学, 机器学习
[文章]《Classifying MNIST dataset with Pybrain》 [1] Python下用PyBrain做
MNIST图像分类,PyBrain是另一个机器学习模块库 [2]
[1] http://analyticsbot.ml/2015/02/classifying-mnist-dataset-pybrain/
[2] http://pybrain.org/
长微博图:http://ww2.sinaimg.cn/large/5396ee05jw1ep7ecvbdo6j20pq60znpe.jpg
2) 【Micro... 阅读全帖
m***r
发帖数: 359
44
来自主题: Programming版 - Python日报 2015年3月楼
Python日报 2015-03-02
@好东西传送门 出品, 过刊见
http://py.memect.com
订阅:给 [email protected]
/* */ 发封空信, 标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-03-02/short.html
1) 【解读IPython3新特性】 by @python产品开发
关键词:Python3, 博客
IPython3的时代到来了, 作为150个贡献者中的一个, 我也很惊讶来的这么快, 我写了
篇blog对其中最重要的内容做了解释. [1] @好东西传送门 @ZoomQuiet @开发者头条 @
WEB开发者
[1] http://www.dongwm.com/archives/ipython3shi-dai-dao-lai/
2) 【Python下用Pandas读取和分析数据的一组实际例子】 by @爱可可-爱生活
关键词:工具, 库, 数据科学, 资源, IPython, 计算, 课程
[IPN]《Pandas in a Hurry》 [1... 阅读全帖
m***r
发帖数: 359
45
来自主题: Programming版 - Python日报 2015年3月楼
Python日报 2015-03-02
@好东西传送门 出品, 过刊见
http://py.memect.com
订阅:给 h*[email protected] 发封空信, 标题: 订阅Python日报
更好看的HTML版
http://py.memect.com/archive/2015-03-02/short.html
1) 【解读IPython3新特性】 by @python产品开发
关键词:Python3, 博客
IPython3的时代到来了, 作为150个贡献者中的一个, 我也很惊讶来的这么快, 我写了
篇blog对其中最重要的内容做了解释. [1] @好东西传送门 @ZoomQuiet @开发者头条 @
WEB开发者
[1] http://www.dongwm.com/archives/ipython3shi-dai-dao-lai/
2) 【Python下用Pandas读取和分析数据的一组实际例子】 by @爱可可-爱生活
关键词:工具, 库, 数据科学, 资源, IPython, 计算, 课程
[IPN]《Pandas in a Hurry》 [1] 2015 San Dieg... 阅读全帖
w***g
发帖数: 5958
46
来自主题: Programming版 - 要玩big data平台的不需要VM
玩hadoop, spark啥的,把台式机/笔记本装成linux,然后直接上single node系统就行。
当然只能处理一些toy dataset。Hadoop的话几个G几十个G的,Spark的话几百M的,单
节点跑没啥问题。基本上就可以看看猪跑了。要吃猪肉的话没有别的办法,只能加入
个需要搞大数据的公司。你就是出钱租了100台机器,一时半会也搞不到那么大的
dataset。
千万别虚拟出几个node跑cluster。Hadoop/Spark是真对物理机器优化的,不是针对虚拟
机优化的。那些啥乱七八糟的软件,单节点都是可以跑的。
z****e
发帖数: 54598
47
rdd最后一个d就是dataset的意思
datastream跟dataset还是有本质上的区别的
dstream->rdd并不是一个非常make sense的解决方案
还有这两个都用了akka,所以目前python什么其实都比较蛋疼
最主要的还是java和scala,要么就自己去写python那些接口
那就麻烦了,估计flink也不是个头,将来基于vert.x应该会有更好的
能够满足更多脚本的类似spark/flink的数据转换framework出现
l*******m
发帖数: 1096
48
来自主题: Programming版 - 懂deepmind得说说
这篇文章自己都承认FPGA慢
Nvidia’s Tesla K40 GPU can do between 500 and 824 images per second on one
popular benchmark dataset, the white paper claims, while Microsoft predicts
its preferred FPGA chip — the Altera Arria 10 — will be able to process
about 233 images per second on the same dataset.
首页 上页 1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)