Nature/Scienceのニュース記事から
Tweet第50回(2013年3月22日更新)
テキストマイニングについて出版社側と研究者側で意見の相違
膨大な量のテキストをコンピュータープログラムを使って解析し、意味のある法則や傾向を見つけ出すことをテキストマイニングという。
医学・生物学の分野でも、この手法で重要な発見がなされる可能性は大いにある。実際、これまでにいくつかそのような例もある。つまり、膨大な数の論文の全文からテキストマイニングによって新しい発見をするのだ。
しかし、学術雑誌の出版社としては、プログラムを使って論文を大量にダウンロードすることを禁止している。それをされてしまうと、論文が際限なくコピーされてばらまかれてしまうのではないかと懸念するためだ。
現在は、研究者からの個々の要請に応じてケースバイケースで許可することもあるが、合意に至るまでに長期間かかってしまう上、プロセスが不透明なのも問題点である。研究者側としては、雑誌を購読している以上は、プログラムを使って論文を大量ダウンロードする権利もあるはずだと主張している。
これまでにテキストマイニングによりなされた医学・生物学上の発見、あるいはデータベースの構築には、例として以下のようなものがある。
・Medline上の2,000万以上もの論文の無料のアブストラクトをテキストマイニングにより解析することにより、E-cadherinとパーキンソン病の間接的な関連性を発見。
・4,400報の脳スキャン論文をテキストマイニングで解析し、ヒト脳の各部位と研究トピック・用語との関連性をユーザーが見ることができるようにした。(NeuroSynthプロジェクト)
学術雑誌出版大手のElsevirによれば、2011年にはScienceDirectへのアクセスの2%がコンピューターのプログラムによるものであったのに対し、2012年にはその割合は4%に増加した。
イギリスでは、今年後半からは、非営利目的に限り、購読者はその論文をテキストマイニング解析することを許可する方針である。また、アメリカでは、テキストの抜粋は自由にコピーしてよいという「公正使用」の権利により、テキストマイニングは容認されるという考えの弁護士がそれなりにいるため、状況は悪くはない。
しかし、ヨーロッパでは、欧州委員会(EC)と出版社によるコンソーシアムが何度か会合を持っているが、雑誌の購読者による非営利目的のテキストマイニングを許可するというよりは、通常の購読契約とは別のテキストマイニングのライセンス契約をどのようなものにするかという議論ばかりがなされていると、研究者からは批判されている。
出版社は、テキストマイニングはサーバに負担がかかるので、いずれにせよ誰がどのようにテキストをダウンロードしているのか追跡する必要がある、としている。
また、著作権の分野のある会社は、さらに一歩進んで、契約した出版社からそのテキストコンテンツを集め、それらを分類して研究者用のウェブサイトに載せている。この会社は現在6社の出版社(Nature Publishingを含む)と、テキストマイニングに興味のある薬品会社などにサービスを提供している。
ある研究者は、「Googleのような巨大な会社には、コンテンツをインデックスするのにテキストマイニングを許可しているのに、一般の購読者には許可しないのはフェアではない。Googleなら信頼できるが、その他の一般購読者は信用できないということなのか」と出版社側の姿勢を批判している。
http://www.nature.com/news/text-mining-spat-heats-up-1.12636#/uses