s********9 发帖数: 132 | 1 自学了一点code,试着统计了CNS和C.N生物医学类子刊中的大陆华人一作的数量.
是否大陆华人一作标准是根据其 last name是否是常见的大陆华人姓氏的一百多种中的
一个.(可能和部分外国人的姓氏雷同,也可能漏掉少数采用了其他拼写方法的大陆华人)
数据来源medline. 统计结果,
20120101至今,有一作的文章共#43736(有些editorial没有一作)
其中,大陆华人一作的文章数量:#4499 ,约10%
这也就可以部分看出为什么现在千青申请如此激烈.排在前列的last name如下:
surname: 姓氏
Freq: 发表文章的数量
第一列没有意义
surname Freq
96 Wang 396
119 Zhang 316
49 Li 299
54 Liu 247
12 Chen 241
108 Yang 177
99 Wu 141
37 Huang 114
123 Zhou 102
105 Xu 100
53 Lin 94
56 Lu 93
120 Zhao 80
113 Yu 74
90 Sun 72
83 Shen 70
58 Ma 66
124 Zhu 62 | s********9 发帖数: 132 | 2 如果把外国人的last name也统计:
前20名为:
姓 文章数
18437 Wang 396
19263 Zhang 316
10016 Li 299
10151 Liu 247
3004 Chen 241
9859 Lee 237
8838 Kim 192
18990 Yang 177
18915 Wu 141
11406 Mervis 138
13300 Pennisi 134
3080 Cho 127
3285 Cohen 123
16190 Smith 123
2564 Callaway 121
18821 Witze 116
9857 Ledford 115
7701 Huang 114
19275 Zhou 102
18951 Xu 100
人)
【在 s********9 的大作中提到】 : 自学了一点code,试着统计了CNS和C.N生物医学类子刊中的大陆华人一作的数量. : 是否大陆华人一作标准是根据其 last name是否是常见的大陆华人姓氏的一百多种中的 : 一个.(可能和部分外国人的姓氏雷同,也可能漏掉少数采用了其他拼写方法的大陆华人) : 数据来源medline. 统计结果, : 20120101至今,有一作的文章共#43736(有些editorial没有一作) : 其中,大陆华人一作的文章数量:#4499 ,约10% : 这也就可以部分看出为什么现在千青申请如此激烈.排在前列的last name如下: : surname: 姓氏 : Freq: 发表文章的数量 : 第一列没有意义
| G***G 发帖数: 16778 | 3 is it possible that the last names were overlapped with multiple persons?
if it is, this statistic analysis doesn't make sense.
【在 s********9 的大作中提到】 : 如果把外国人的last name也统计: : 前20名为: : 姓 文章数 : 18437 Wang 396 : 19263 Zhang 316 : 10016 Li 299 : 10151 Liu 247 : 3004 Chen 241 : 9859 Lee 237 : 8838 Kim 192
| g*********e 发帖数: 150 | 4 oh baby, it makes a lot sense... | s********9 发帖数: 132 | 5 I don't see any possible way to avoid redundancy regarding chinese Family
Name.
One 'Zhang' might mean millions people.
One could include the First Name to do the matching too. But any idea on how
to match chinese First Name?
【在 G***G 的大作中提到】 : is it possible that the last names were overlapped with multiple persons? : if it is, this statistic analysis doesn't make sense.
| j*********g 发帖数: 463 | 6 这个好
你统计的子刊是哪些?
:自学了一点code,试着统计了CNS和C.N生物医学类子刊中的大陆华人一作的数量.
:是否大陆华人一作标准是根据其 last name是否是常见的大陆华人姓氏的一百多种中
的一个.(可能和部分外国人的姓氏雷同,也可能漏掉少数采用了其他拼写方法的大陆华
人)数据来源medline. 统计结果,
:20120101至今,有一作的文章共#43736(有些editorial没有一作)
:其中,大陆华人一作的文章数量:#4499 ,约10%
:这也就可以部分看出为什么现在千青申请如此激烈.排在前列的last name如下:
:surname: 姓氏
:Freq: 发表文章的数量
:第一列没有意义
: surname Freq
:96 Wang 396
:..........
【在 s********9 的大作中提到】 : I don't see any possible way to avoid redundancy regarding chinese Family : Name. : One 'Zhang' might mean millions people. : One could include the First Name to do the matching too. But any idea on how : to match chinese First Name?
| s********9 发帖数: 132 | 7 CNS和C.N生物医学类子刊中.
Nature, Science, cell, cancer cell, molecular cell, cell metabolism,
Cell Host & Microbe, Cell Stem Cell, Immunity, neuron, Nature
Biotechnology, Nature Cell Biology, Nature Chemical Biology, Nature
Genetics, Nature Immunology, Nature Medicine, Nature Neuroscience,
Nature Structural & Molecular Biology,
exclude: Nature Reviews..., Nature Communications.
【在 j*********g 的大作中提到】 : 这个好 : 你统计的子刊是哪些? : : :自学了一点code,试着统计了CNS和C.N生物医学类子刊中的大陆华人一作的数量. : :是否大陆华人一作标准是根据其 last name是否是常见的大陆华人姓氏的一百多种中 : 的一个.(可能和部分外国人的姓氏雷同,也可能漏掉少数采用了其他拼写方法的大陆华 : 人)数据来源medline. 统计结果, : :20120101至今,有一作的文章共#43736(有些editorial没有一作) : :其中,大陆华人一作的文章数量:#4499 ,约10% : :这也就可以部分看出为什么现在千青申请如此激烈.排在前列的last name如下:
| j*********g 发帖数: 463 | 8 NSMB也算子刊?NC不算的话,NSMB也不算吧…
:CNS和C.N生物医学类子刊中.
:Nature, Science, cell, cancer cell, molecular cell, cell metabolism,
:Cell Host & Microbe, Cell Stem Cell, Immunity, neuron, Nature
:Biotechnology, Nature Cell Biology, Nature Chemical Biology, Nature
:Genetics, Nature Immunology, Nature Medicine, Nature Neuroscience,
Nature Structural & Molecular Biology,
:exclude: Nature Reviews..., Nature Communications.
【在 s********9 的大作中提到】 : CNS和C.N生物医学类子刊中. : Nature, Science, cell, cancer cell, molecular cell, cell metabolism, : Cell Host & Microbe, Cell Stem Cell, Immunity, neuron, Nature : Biotechnology, Nature Cell Biology, Nature Chemical Biology, Nature : Genetics, Nature Immunology, Nature Medicine, Nature Neuroscience, : Nature Structural & Molecular Biology, : exclude: Nature Reviews..., Nature Communications.
| g*********e 发帖数: 150 | 9 Could you analyze just CNS? | s******y 发帖数: 17729 | 10 仅能说明中国人多,火坑专业当中的几个大姓人多,中国是CNS灌水大户。
人)
【在 s********9 的大作中提到】 : 自学了一点code,试着统计了CNS和C.N生物医学类子刊中的大陆华人一作的数量. : 是否大陆华人一作标准是根据其 last name是否是常见的大陆华人姓氏的一百多种中的 : 一个.(可能和部分外国人的姓氏雷同,也可能漏掉少数采用了其他拼写方法的大陆华人) : 数据来源medline. 统计结果, : 20120101至今,有一作的文章共#43736(有些editorial没有一作) : 其中,大陆华人一作的文章数量:#4499 ,约10% : 这也就可以部分看出为什么现在千青申请如此激烈.排在前列的last name如下: : surname: 姓氏 : Freq: 发表文章的数量 : 第一列没有意义
| | | x******3 发帖数: 111 | | z*t 发帖数: 863 | 12 这个统计有点误导啊……我看了还以为俺们中国已经成为cns的绝对数量第
一大国了呢。文章数后加个占总文章百分比更合适
:如果把外国人的last name也统计:
:前20名为:
: 姓 文章数
:18437 Wang 396
:19263 Zhang 316
:10016 Li 299
:10151 Liu 247
:3004 Chen 241
:9859 Lee 237
:8838 Kim 192
:..........
【在 s********9 的大作中提到】 : CNS和C.N生物医学类子刊中. : Nature, Science, cell, cancer cell, molecular cell, cell metabolism, : Cell Host & Microbe, Cell Stem Cell, Immunity, neuron, Nature : Biotechnology, Nature Cell Biology, Nature Chemical Biology, Nature : Genetics, Nature Immunology, Nature Medicine, Nature Neuroscience, : Nature Structural & Molecular Biology, : exclude: Nature Reviews..., Nature Communications.
| s********9 发帖数: 132 | 13 未统计共同一作.
把数据精简一下:
所有文章: #24930
一作为来自大陆华人文章:#3656
上面同仁问的CNS一作为来自大陆华人: #1579
有意思的是:一作为来自大陆华人,最后一作也是来自大陆华人的:#1251. 占到了三分之
一.
人)
【在 s********9 的大作中提到】 : 自学了一点code,试着统计了CNS和C.N生物医学类子刊中的大陆华人一作的数量. : 是否大陆华人一作标准是根据其 last name是否是常见的大陆华人姓氏的一百多种中的 : 一个.(可能和部分外国人的姓氏雷同,也可能漏掉少数采用了其他拼写方法的大陆华人) : 数据来源medline. 统计结果, : 20120101至今,有一作的文章共#43736(有些editorial没有一作) : 其中,大陆华人一作的文章数量:#4499 ,约10% : 这也就可以部分看出为什么现在千青申请如此激烈.排在前列的last name如下: : surname: 姓氏 : Freq: 发表文章的数量 : 第一列没有意义
| m********a 发帖数: 12601 | 14 所以搞生物的转马公还是有难度啊
name disambiguation,人名消歧。要做得很精确很难,但是你first name根本不考虑
也是不对的。python上估计有一些包可以用。
而且还可以用到一些其它信息,比如institute,比如通讯作者,来判断是不是同一个
作者
how
【在 s********9 的大作中提到】 : I don't see any possible way to avoid redundancy regarding chinese Family : Name. : One 'Zhang' might mean millions people. : One could include the First Name to do the matching too. But any idea on how : to match chinese First Name?
| T*******g 发帖数: 2322 | 15 楼主对于是不是同一个作者并不关心,只想统计中国人的总数。
同一个人不同一个人在这个问题里毫无区别。
【在 m********a 的大作中提到】 : 所以搞生物的转马公还是有难度啊 : name disambiguation,人名消歧。要做得很精确很难,但是你first name根本不考虑 : 也是不对的。python上估计有一些包可以用。 : 而且还可以用到一些其它信息,比如institute,比如通讯作者,来判断是不是同一个 : 作者 : : how
| D***n 发帖数: 65 | 16 首先同一个发多篇的可能性很大,估计要至少除以2, 就是2250人,一半估计是在国内
单位,再除以2, 就是1125人,3分之一可能超龄还剩约800人,大约只有10-20%真愿意
回去,也就只有100多人,所以能发到这个档次文章的人机会还是可以的。 | c****n 发帖数: 1108 | 17 又没说一个人写的 你脑残啊
【在 G***G 的大作中提到】 : is it possible that the last names were overlapped with multiple persons? : if it is, this statistic analysis doesn't make sense.
| g*********e 发帖数: 150 | 18 非常感谢!
CNS越来越像奥运金牌。非常难拿。但拿到了,比如柔道金牌,还是去浴室替人修脚的
命。因为奥运金牌太多了。。。
上面同仁问的CNS一作为来自大陆华人: #1579 | a******r 发帖数: 786 | 19 楼主用的是last name 统计中国人比例,那位说用first name 的不知道在想什么 | s********9 发帖数: 132 | 20 前面有一位同仁说到的,来自如果一作已经是在国内,还有一作有多篇文章,导致实际人
数会比较少.
这个都非常对,只是感觉上这类人没有那么多.
大概数据:
一作的第一单位是大陆(含china,去掉了hongkong,hong kong,tai
wan)
#855 (其中约75%最后一作的作者单位也是china,说明结果make sense)
海外华人(来自大陆)一作名字(去除拼音完全相同后):
#2508 (和每年生物医学类千青的数量比还是很大了)
早这2508人中,有324人有2篇以上(可能只是拼音一样).不过有一个名字我看到很不常见
,有5篇...查了一下此人已经在哈佛AP了.另外一个5篇,我知道也在某名校AP了. 另外一
个3篇的,也在一个著名医院AP了.(只想说明统计结果大体是对的)
其他的年龄之类的无法从medline看出来.
人)
【在 s********9 的大作中提到】 : 自学了一点code,试着统计了CNS和C.N生物医学类子刊中的大陆华人一作的数量. : 是否大陆华人一作标准是根据其 last name是否是常见的大陆华人姓氏的一百多种中的 : 一个.(可能和部分外国人的姓氏雷同,也可能漏掉少数采用了其他拼写方法的大陆华人) : 数据来源medline. 统计结果, : 20120101至今,有一作的文章共#43736(有些editorial没有一作) : 其中,大陆华人一作的文章数量:#4499 ,约10% : 这也就可以部分看出为什么现在千青申请如此激烈.排在前列的last name如下: : surname: 姓氏 : Freq: 发表文章的数量 : 第一列没有意义
| s******e 发帖数: 163 | |
|