一橋大学、小中高での統計教育の発展に貢献する「基本統計量に基づいた度数別数値パターン検索」にオラクルの自律型データベースを活用

日本オラクル株式会社(本社:東京都港区、執行役 最高経営責任者:ケネス・ヨハンセン)は、国立大学法人一橋大学(所在地:東京都国立市、学長:蓼沼 宏一)が、学術研究・高等教育のための公的統計ミクロデータ利用の促進の一環として、小・中・高での統計教育の推進に向けて同大学が開発した「基本統計量に基づいた度数別数値パターンデータベース」を「Oracle Autonomous Data Warehouse」で、WEB上でのデータ検索環境を「Oracle Application Express(APEX)」で構築したことを発表した。

一橋大学は、独立行政法人統計センターと連携協力協定を締結し、日本の公的統計並びに学術研究の発展及び振興に寄与する活動を行っている。

その活動の一つに、学内にオンサイト施設を設置し、公的統計ミクロデータの利用(オンサイト利用)環境の提供がある。

オンサイト利用においては、利用者は統計調査の調査票情報を用いて、探索的な研究が行えるが、この審査については、EES Net SDC*と呼ばれる文書を元に総務省で策定されたガイドラインに基づいて行われている。

一橋大学の行った「基本統計量に基づいた度数別数値パターン検索」の研究開発では、このガイドラインに加え、データの持ち出しが安全か否かを平均、分散、歪度および尖度などの基本統計量を用いて判定可能か検証を行った。

この研究で用いた基本統計量の検索および活用の手法は、小・中・高での統計教育に興味を持つきっかけとなることから、データ検索環境を一橋大学経済研究所のWEB上で2020年6月から公開されている。

EES Net SDC:A Network of Excellence in the European Statistical System in the field of Statistical Disclosure Control(訳:統計開示管理の分野における欧州統計システムの卓越したネットワーク)の略称。研究データセンターで公開されているマイクロデータ・ファイルをもとに、研究成果の公開リスクをチェックするアウトプット・チェックのための実用的なガイドラインが示された文書。

この研究では、1,510億の基本統計量と約2億件にもおよぶ数値パターン(無限にある実数を有限化することで得られる値)を検索し回答を得るシステムを、限られた人員、予算内で構築する必要があった。

当初、一橋大学では、高性能ワークステーションで稼働する他社データベースでこのデータの処理と抽出を試みたが、性能上検索結果を得ることができないという問題に直面し、性能、運用管理およびコストの要件に合ったシステムを検討していた。

「Oracle Autonomous Data Warehouse」で検証したところ、これまで全く抽出できなかったデータ検索が実行できる性能を得られただけでなく、アジャイル開発基盤での迅速なUI設計・開発が可能であること、自律機能による運用管理の負担軽減、暗号化によるデータ・セキュリティなどの今後の運用や外部公開におけるメリットを評価し、「Oracle Autonomous Data Warehouse」の導入を決定。

今回の研究開発では、「Oracle Autonomous Data Warehouse」のパーティショニング機能により1,510億件ある基本統計量を 分散処理し、2TB以上あったデータに対して圧縮機能を活用することで、最小限のリソースでも高い性能を実現している。

また、「Oracle Autonomous Data Warehouse」では、データウェアハウスを利用していないときにはコンピュート・リソースをオフにできるため、仮想サーバー上にスケジューラー機能を実装、設置し、利用コストを柔軟に管理している。

さらには、WEB上でのデータ利用を可能にする検索環境を、ローコードでのアプリケーション開発ツール「Oracle Application Express」で開発し、公開。

環境構築には、日本オラクルのコンサルティング部門が提供する「Rapid Start Service for Autonomous Data Warehouse Cloud 」を採用し、「Oracle Autonomous Data Warehouse」へのデータロードや「Oracle Application Express」でのWEBアプリケーション開発などの支援により、約1.5カ月という迅速な環境構築を実現している。

クラウド上にある検索システムを相互に確認し修正を繰り返すアジャイル型の開発手法を採用することによって、短期間でのパターンデータベース開発およびデータ検索環境の構築を可能にした。

一橋大学では、「Oracle Autonomous Data Warehouse」の採用を機に、同大学で手掛ける他のプロジェクトでも利用を開始している。

高性能かつ運用負担を軽減できるだけでなく、「Oracle Autonomous Data Warehouse」で利用可能な「Oracle Data Visualization」で簡単にデータの可視化を実現できることから、同大学で行っているカンボジア政府統計調査の支援活動等、様々な統計データの利用促進に活用しているという。

一橋大学経済研究所 非常勤研究員 白川 清美 氏コメント

小・中・高等学校の統計教育に利用できるデータベースの構築時に、実数の無数にある組合せパターンを有限化するために、扱うデータを0から100までの整数、かつ合計を100とした度数2から100までの数値パターンと基本統計量を網羅したデータベースを構想し構築しました。しかしながら、構想時に想定していたデータ量を上回る2億件のパターンと基本統計量1,510億件もの大量の数値データを検索することになり、システムの構築には課題が残り、これまで実現できていませんでした。

この解決策として、「Oracle Autonomous Data Warehouse」の提案があり、また、開発者の皆さんのご尽力により、ストレスのない検索システムを構築することができたことは、ここ数年間の研究の過程で課題であったシステム構築での悩みが解決し、とても感謝しております。