Citation 年次学術大会講演要旨集, 36: 722-725 Issue Date 2021-10-30
Type Conference Paper Text version publisher
URL http://hdl.handle.net/10119/17818
Rights
本著作物は研究・イノベーション学会の許可のもとに掲載す るものです。This material is posted here with
permission of the Japan Society for Research Policy and Innovation Management.
Description 一般講演要旨
2F19
arXiv, bioRxiv に掲載されたプレプリントの分析
⃝
林 和弘(NISTEP
),
小柴 等(NISTEP
)1 はじめに
研究成果を発信・共有し,そして研究コミュニティ内 での評価する営みは,研究における標準的な活動であ り,近年では多くの分野で査読済みの学術ジャーナル 論文(以降,学術論文とする)がそのコミュニケーショ ンを媒介している。一方,研究分野によっては,学術論 文だけでなく,その査読前段階の草稿であるプレプリン トを活用したコミュニケーションが進展してきた。そし て,近年の急速な
ICT
の進展に伴うオープンサイエン スの潮流によってこうした動きが加速していたところ,COVID-19
流行下にあってさらに拍車がかかり,医学を中心により幅広い分野でプレプリントの活用に注目が集 まっている。しかしながら,研究活動におけるプレプリ ントの役割や位置付け,そしてその存在感に関する定量 的なエビデンスは少なく,これまで研究者や政策関係者 の間でもごく限定的にしか語られてこなかった。
著者らは,プレプリントの活用が研究者のコミュニ ケーションや研究活動をどのように変えているかの 実態を把握することを目的に,また,政策的には学術 ジャーナルに掲載される学術論文の量(論文数)と被 引用数に基づく質に関する調査研究を補完することを 目的とし,一定以上の歴史と掲載数を有するプレプリ ントサーバ(プレプリントの公開・共有サービス)に 投稿されたプレプリントに着目した分析を行ってきた
[
文科20,
林20a,
林20b,
林21,
小柴21]
。分析対象は,1991
年から運用している物理系のプレプリントサー バーであるarXiv
と,2010
年代に入って進展している生 物科学系のbioRxiv
に着目し,原著論文との関係,プレ プリントの引用などの観点から,その特徴および分野別 特性を分析した。また,bioRxiv
については,プレプリ ントとその後ジャーナルに掲載された論文との差異につ いても比較を行った。本講演ではこれらを総括して,プ レプリントの現状と動向について述べる。2 arXiv のプレプリント分析
arXiv
は物理学分野を中心に1991
年から運用を開始 してた最古かつ最大手のプレプリントサーバであり,近年では人工知能など情報系の分野でも活用が進んでい る。この
arXiv
上にある約160
万本(2020
年1
月時点)を分析した結果を分野別件数推移(図
1
),DOI
付与率 推移(図2
),分野別のDOI
付与割合(図3
),分野別のDOI
付与までの期間(図4
),ならびに分野別の被引用数(図
5
)に示す。なお,
arXiv
ではCS_DL
(計算機学分野:デジタル図 書)のような粒度で153
の分野が存在する。ここでは筆 者らが更に8
分野でまとめた独自の分野分類をもちいて いる。詳細は別稿[
林20a]
に示す。arXiv
においては,掲載数においては2010
年代の情 報系の伸びが大きいこと,DOI
の付与は,時間の経過 とともに2/3
程度にとどまること,また,DOI
の付与割 合は分野によって大きく異なることがわかる。arXiv
は 論文管理に独自のID
を用いており,DOI
が記載されて いるものは当該原稿に関してarXiv
外で取得したもので あることを意味する。そこでこのDOI
の付与について,プレプリント公開後に査読付きのジャーナル等,既存の 出版物として発行されたとみなしてその割合(ジャーナ ル掲載率)を調べると,このジャーナル掲載率は
2/3
程 度であり,全体の1/3
のプレプリントはプレプリントの ままであることが示唆される。この1/3
のプレプリント 群は,これまで学術論文としては表に出てこなかった研 究成果であるために,プレプリント群の分析は,学術論 文群の分析とは違った結果になる可能性がある。その一 方,査読に通らなかった可能性やフェイク情報の可能性 を含めて,その価値付けには慎重を要する。天文 材料 情報 経済
高エネ物理 数学
非線形数学 原子力
物理 生物
金融工学 統計数理
図
1:
分野別件数推移(arXiv)
2F19
2F19
㍲ 2: DOI
♕┰椙䱿瓌(arXiv)
姌מوٝوٛ٤عֿ㳔銉韢倀מםꇃ瓦מַֽי
DOI
ס♕┰椙♕┰ױךס劻ꪨ錺䑛氠מַֽי⮔ꓩ⯁מ㝕׀םꇙַֿ⮂יַ׆כע⮔ꓩ⯁ס煝疴䧯卸⪴
劔嵛ⳛס䈼獏ぃն杅מ䝠㖥笠ךע幾㺽㳔肪瞏ס 盨◚ֿ긊䊬מ懈ַ⮔ꓩמַֽיوٝوٛ٤ع⪪ꪛ
وٝوٛ٤ع䑛氠י煝疴嵛ⳛ鉿זיַכ阋
יַֿאס׆כֿظ٭ذכי獏יַն
COVID-19
מזיꁢꅋם煝疴䧯卸ס⪴劔ֿ寛״╚ױגوٝوٛ٤عס⪪ꪛמזי⩰⺅埫ס┞
㴻ס牞⟛ֿ⺪茣כַֹ煝疴脢מ㸐ْٛشعכ⻉
יوٝوٛ٤عֿ♀䔿⺇ׄ⪜יַׂ⺪茣䙎
獏ぃն
天文 材料 情報 経済
高エネ物理 数学
非線形数学 原子力
物理 生物
金融工学 統計数理
㍲ 3:
⮔ꓩ⯁DOI
ⰺ⻉(arXiv)
天文 材料
情報 経済
高エネ物理 数学
非線形数学 原子力 物理 生物
金融工学 統計数理
㍲ 4:
⮔ꓩ⯁DOI
♕┰劻ꪨ(arXiv)
3 bioRxiv סوٝوٛ٤ع⮆冪
籽ַי气朮笠فؕ؛⮔ꓩ╭םذ٭أشعכ
י
2013
䌑מꪛ㢼גbioRxiv
מ䲔鼥ג笴12
┧⚂㍲ 5:
⮔ꓩ⯁䌐㐬錺䑛氠俙(arXiv)
סوٝوٛ٤ع
2021
䌑4
劓免掾מחַיarXiv
כ⻎坎מ⮔卥ג篙卸⮔ꓩ⯁⚂俙䱿瓌㎫
6
DOI
♕┰椙䱿瓌㎫
7
⮔ꓩ⯁סDOI
♕┰ⰺ⻉㎫8
⮔ꓩ⯁ס
DOI
♕┰ױךס劻ꪨ㎫9
םצמ⮔ꓩ⯁ס錺䑛氠俙㎫
10
ך獏նbioRxiv
מחַיע⻄⸮畇DOI
ך硄槏יַֿמةٔ٭ػٜ瞏♑ס㪽✄מֽׄ
DOI
♕┰ך׀ֹמםזיַ׆כ־㎫
7
םלסDOI
♕┰椙ע׆ס♑㪽✄ס
DOI
䝠㖥氠ַי砯⮂ג׆ס㎫锶כ❛ֻף
bioRxiv
⫐ס䲔鼥俙מַֽיע玗篑璇㳔
(Neuroscience)
כ䕻气朮㳔(Microbi-
ology)
ס⛞צֿ潸㸐溷מ꿃詇ךֵ׆כֿ⮔־նאס┞偙⮔ꓩ⯁סةٔ٭ػٜ䲔鼥椙
DOI
ס♕┰劻 ꪨמעכ؆ל䈼ֿםַնױג錺䑛氠俙מַֽיأؿِؠت
Genomics)
فؕ؛ؕ٤نُؚطؔؠت
Bioinfomatics
מ杅䖇ֿ锶ססarXiv
מ嬟鼛י㝕׀ם䈼ע锶ַדם־זג
[
卲21]
ն0 10,000 20,000 30,000 40,000
2014 2016 2018 2020
Year
Paper Counts
Microbiology
Neuroscience
㍲ 6:
⮔ꓩ⯁⚂俙䱿瓌(bioRxiv)
arXiv
ע30
䌑מג婹⺮ס╚ך俙槏㳔╚䖥כםֿ⮔ꓩֿ䬺䒟ױגꩽ䌑סꆻ氠ס╚ך煝疴 脢ؤِؼطؔסوٝوٛ٤عמ㸐䪒ַֿ㜟זי׀
ג篑紼䭥חն㸐י
bioRxiv
עفؕ؛╚䖥כי◙״尴״ג⮔ꓩס╚ךꆻ氠鉿זיַג״ױד
10
䌑勑彸ךֵ׆כ״י⮔ꓩ⯁ס䈼ֿךמַׂ׆כֿ獏ぃն
bioRxiv
ך♀䔿䌑俙ꓨנ׆כך0 10,000 20,000 30,000 40,000
2014 2016 2018 2020
Year
Paper Counts
factor(type)
has_doi none
has DOI None
㍲ 7: Journal DOI
♕┰椙䱿瓌(bioRxiv)
0.00 0.25 0.50 0.75 1.00
None Animal Behavior and Cognition Biochemistry Bioengineering Bioinformatics Biophysics Cancer Biology Cell Biology Clinical Trials Developmental Biology Ecology Epidemiology Evolutionary Biology Genetics Genomics Immunology Microbiology Molecular Biology Neuroscience Paleontology Pathology Pharmacology and Toxicology Physiology Plant Biology Scientific Communication and Education Synthetic Biology Systems Biology Zoology
Category
DOI ratio
None Clinical Trials Microbiology Scientific Communication
And Education Animal Behavior
And Cognition Developmental Biology Molecular Biology Synthetic Biology
Biochemistry Ecology Neuroscience Systems Biology
Bioengineering Epidemiology Paleontology Zoology
Bioinformatics Evolutionary Biology Pathology
Biophysics Genetics Pharmacology
And Toxicology
Cancer Biology Genomics Physiology
Cell Biology Immunology Plant Biology
㍲ 8:
⮔ꓩ⯁Journal DOI
ⰺ⻉(bioRxiv)
arXiv
כ⻎坎ס篑紼גלזיوٝوٛ٤عס⺅䪒ַמ⮔ꓩ⯁ס杅䖇ֿ⮂־מ峜潨גַնַמ
㳔銉ةٔ٭ػٜ⻎坎وٝوٛ٤عמַֽי⮔ꓩ
⯁ס杅䖇ֿ⮂ֹ׆כ䗻꾁מوٝوٛ٤عئ٭ف٭
⪢✄ס鞪吉כ⮔ꓩ⯁ס鞪吉潨溷מ䗎י❈ַ⮔ׄ
䖩锡ֵֿն
4 bioRxiv סوٝوٛ٤عכ䫴鬼 OA 㰢软鑜乃 כס奂鬳
bioRxiv
סوٝوٛ٤عמחַיעאס䔿OA
㳔銉 韢倀כםזגסס⪢倀XML
┞㴻ꓪ7,985
⚂牞⟛׆כֿך׀גסךوٝوٛ٤عכ
(OA)
㳔銉韢倀 ס嬟鼛鉿זג㎫11
նאס篙卸脝倀桬俙ⷃ靣俙 םלס㜽䓺溷ם㕈徙祔ⷃם倀剹꿔⛣䍲־╋脢ס䈼0 4 8 12
None Animal Behavior and Cognition Biochemistry Bioengineering Bioinformatics Biophysics Cancer Biology Cell Biology Clinical Trials Developmental Biology Ecology Epidemiology Evolutionary Biology Genetics Genomics Immunology Microbiology Molecular Biology Neuroscience Paleontology Pathology Pharmacology and Toxicology Physiology Plant Biology Scientific Communication and Education Synthetic Biology Systems Biology Zoology
Category
Month
㍲ 9: ⮔ꓩ⯁ DOI ♕┰劻ꪨ (bioRxiv)
0 1 2 3 4
None Animal Behavior and Cognition Biochemistry Bioengineering Bioinformatics Biophysics Cancer Biology Cell Biology Clinical Trials Developmental Biology Ecology Epidemiology Evolutionary Biology Genetics Genomics Immunology Microbiology Molecular Biology Neuroscience Paleontology Pathology Pharmacology and Toxicology Physiology Plant Biology Scientific Communication and Education Synthetic Biology Systems Biology Zoology
Category
AVG( Cited )
Genomics Bioinformatics
None
Physiology Zoology
㍲ 10: ⮔ꓩ⯁䌐㐬錺䑛氠俙 (bioRxiv)
⮔僻־מֹכג雧鉿ס碃㎪ךעوٝوٛ٤ عכ㳔銉韢倀㎫
11
סA
כB
㳔銉韢倀מםזגوٝوٛ٤عכאֹךעםַوٝوٛ٤عסꪨ⻎
A
כC
ך僻牞םꇙַ锶ַד׆כעך׀ם־זג[
㸯叿21]
նوٝوٛ٤ع־㳔銉韢倀כי溪鉿ْٛشعכ
י吉鞅מ⫐㵼ס⻔┪ֿ脝ֻֿאס׆כ ע㜽䓺溷ם㜟ⵊכַֹ䓺ךע僻־מ׆כעך׀
ם־זגն♀㎇סꮹ㴻溷ם鞪吉זי吉鞅ס❿⡑♕ׄ
ֿ⛼ַכַֹ׆כע阋ֻםַն┞偙ךوٝوٛ٤عמ חַי㸴םׂכ韢倀ס✄鍦彸גםַֹםסע 㝂ׂםׂوٝوٛ٤عךֵ־כ阋זי䖩鮐
ֿ⛼ַ⟤꾙䙎ֿ沼ַֹםסֿ㝂ַכעַֻם
ַ׆כ獏ぃն䑛׀籽׀⫐㵼ס闋ꓡ瞏״י 吉鞅מזי㜟韢倀ס❿⡑㴻ꓪ溷מ銨槁׆כ ס嗱阧ֿ寛״նםֽ
bioRxiv
־OA
㳔銉韢倀しかしながら,プレプリントの研究活動への影響を一定 の定量性をもって推し進めるために,今後の課題として 検討を続ける。
5 まとめ
プレプリントの活用が研究者のコミュニケーションや 研究活動をどのように変えているかの実態を把握するこ とを目的に,また,政策的には,学術ジャーナルに掲載 される学術論文の量(論文数)と被引用数に基づく質に 関する調査研究を補完することを目的に,原著論文の草 稿であるプレプリントに着目した分析を行った。
1991
年から運用している物理系のプレプリントサー バであるarXiv
と,2010
年代に入って進展している生物科学系の
bioRxiv
に着目し,原著論文との関係,プレプリントの引用などの観点から,その特徴および分野別特 性を分析した。分野の粒度やカバー範囲に違いがあるた め,一概には比較が難しいものの,
arXiv
ではジャーナ ル掲載率(DOI
付与率)やDOI
が付与されるまでの期 間に大きな差があるのに対し,bioRxiv
ではそれらが相 対的に小さいなど,分野の特徴が得られた。また,
bioRxiv
については,プレプリントとその後ジャーナルに掲載された論文との差異についても比較を
*1 bioRxiv
や多くのOA
ジャーナルではJATS(Journal Article Tag Suite )-XML
形式で全文データを持つが,arXivはJATS
策定以 前からの歴史とも相まってTEX
形式のデータをもつ。以上の結果から,プレプリントサーバのプレプリント を分析することで,学術論文の交換とは異なる研究者の コミュニケーションが分野ごとに存在していることが,
一定の定量性をもって示された。引き続き,他の分野の プレプリントサーバの調査を含む,定量的なアプロー チによる分析を行い,かつ,分野ごとの定性的な調査分 析と合わせて,プレプリントの活用が研究者のコミュニ ケーションや研究活動をどのように変えるか,そして,
その活動が研究評価にどのような影響を与えるかについ て明らかにしたい。
参考文献
[文科 20] MEXT–NISTEP
プレプリント調査・検討チーム:プレプリントをめぐる近年の動向及び今後の科学技術行政への示唆.文部 科学省 科学技術・学術審議会 情報委員会 ジャーナル問題検討部 会 第