身近なデータの分析 全国の待機児童数をQlikViewで分析してみよう(前編)

身近なデータの分析 全国の待機児童数をQlikViewで分析してみよう(前編)

Pocket

QlikViewの使い方を覚えるには、やはり身近なデータを使って、実際に分析をしてみるのが一番です。
前回は2013年参議院議員選挙の結果を分析してみましたが、今回は全国の待機児童数をはじめ、保育所や育児に関するデータを分析してみましょう。
前回と比べ、あつかうデータ量も多く処理も複雑です。そのためこの記事の対象は、データロードやリストボックスの作成、チャートの作成など、QlikViewの基礎を身につけた方を想定しています。基礎に不安のある方は、事前に他の記事で学んでからこの記事をご覧ください。

追記 2013年10月23日 16:00
待機児童のデータをお探しの方向けに、ExcelとCSV形式のデータを公開しました。データを探してこちらのページに起こしになった方は、以下のリンクをクリックしてください。
待機児童のデータダウンロード

最近「オープンデータ」または「オープンガバメントデータ」という単語を耳にするかもしれませんが、国内でも先日2013月6月10日に「次世代統計利用システム」というシステムが公開されました。
総務省|統計データにおけるAPI機能の試行運用開始

現在、「次世代統計利用システム」は廃止され、総務省のデータは「e-Stat」にて公開されています。

 

さっそくユーザー登録してみたところ、人口・世帯、労働、教育、福祉・社会保障などに関するさまざまなデータが公開されていましたので、今回はこの中から、待機児童数や保育所など、育児に関するデータを分析してみましょう。

なお、記事が非常に長くなってしまったため、前後編の2回に分けて公開します。
後編はこちらです。
身近なデータの分析 全国の待機児童数をQlikViewで分析してみよう(後編)

ファイルのダウンロード

ここでは以下のファイルを使用しますので、ダウンロードしてください。
taikijidou.zip
Zip形式ですので、ダウンロード後解凍してください。
以下3つのCSVファイルが含まれています。
analyze-taikijidou-101このデータは「次世代統計利用システム」で公開されている「社会・人口統計体系(都道府県・市区町村のすがた)」を弊社で抜粋・加工したものです。
もとのデータはXML形式のデータでしたが、それをQlikViewで加工しCSV形式に変換しています。

クレジット
このサービスは、次世代統計利用システムのAPI機能を使用していますが、サービスの内容は総務省統計局又は独立行政法人統計センターによって保証されたものではありません。

地域.csv
1965の地域(47都道府県、20政令指定都市、1898市区町村)のデータが格納されています。
analyze-taikijidou-102
カテゴリ.csv
値の種類をあらわすデータが格納されています。
もとのデータには「人口」「平均気温」「事業所数」「病院数」といったデータから、「水洗トイレのある住宅数」「電子レンジ所有数量」といったちょっと変わったデータまで、全部で4443種類のデータがありました。

今回はこの中から、待機児童と育児に関係の深そうな31種類のデータを抜粋しています。
なお、カテゴリグループは、分析しやすいようにこちらで追加したものです。
analyze-taikijidou-103
値.csv
明細のデータです。16万件(166,140件)あります。
analyze-taikijidou-104
今回使用するデータは、おそらく普段みなさまが業務で使用しているデータとは、少し違ったデータの持ち方をしています。
国勢調査など、社会調査のデータでは、このようなデータの持ち方をしていることがあります。
以下の2点をあらかじめ認識しておいてください。

1. 値の種類(カテゴリ)と、値の組み合わせでデータを保持しています。
たとえば「人口総数」と「0~5歳人口」は、異なる種類の数値ですので、列を分けて持たせていることが多いと思います。
しかし今回使用するデータでは、以下のように「カテゴリ名」と「値」の形でデータを持っています。
analyze-taikijidou-105
2. 集計レベルの異なるものを同じ列に保持しています。
たとえば「北海道」の集計と「北海道札幌市」の集計をそれぞれ保持しています。
analyze-taikijidou-106

データロードとユーザーインターフェースの作成

ロードスクリプトの作成

それではデータを取り込んでみましょう。
まずはファイルを新規に作成し、[ロードスクリプトの編集]画面を起動します。
analyze-taikijidou-201
「地域.csv」「カテゴリ.csv」「値.csv」を取り込みます。
まずは「地域.csv」から取り込みます。
analyze-taikijidou-202
analyze-taikijidou-203
[列見出し]を[先頭行]に変更してください。
analyze-taikijidou-204
つづいて「カテゴリ.csv」を取り込みます。
analyze-taikijidou-205
analyze-taikijidou-206
さいごに「値.csv」を取り込みます。
analyze-taikijidou-207
analyze-taikijidou-208
ロードスクリプトは以上で完成です。[OK]ボタンをクリックします。
analyze-taikijidou-209
データを取り込んでみましょう。
[リロード]ボタンをクリックします。
analyze-taikijidou-210
ファイルを保存し、[ロードスクリプトの進捗]画面を閉じてください。
analyze-taikijidou-211
analyze-taikijidou-212
analyze-taikijidou-213
以上でデータの取り込みは完了です。

リストボックスと統計ボックスの作成

それでは、ユーザーインターフェースを作成していきましょう。
ここではリストボックスと、統計ボックスを作成します。
シートの余白を右クリックし[リストボックスの追加]を選択します。
analyze-taikijidou-214
「カテゴリグループ名」「カテゴリ名」「地域名」「年」「集計レベル」の5項目を選択します。
[OK]ボタンをクリックします。
analyze-taikijidou-216
リストボックスが作成されました。
analyze-taikijidou-217
以下のように配置してください。
※リストボックスを複数選択し、右クリック→[左揃え][上揃え][左詰め][上詰め]などを使用すると、綺麗に配置できます。
analyze-taikijidou-218
こんどは統計ボックスを追加します。
シートの余白を右クリックし[シートオブジェクトの追加]→[統計ボックス]を選択します。
analyze-taikijidou-219
[項目]から「値」を選択し[OK]ボタンをクリックします。
analyze-taikijidou-220
統計ボックスができました。
データが全部で16万件(166,140件)あることが分かります。
analyze-taikijidou-221

ユーザーインターフェースの編集

リストボックスの編集

操作しやすくするために、リストボックスに簡単な編集を加えてみましょう。
「カテゴリ名」のリストボックスを右クリックし[プロパティ]を選択します。
analyze-taikijidou-222
[基本設定]タブの[選択状態の表示切替]にチェックを入れます。
[OK]ボタンをクリックします。
analyze-taikijidou-223[選択状態の表示切替]を有効にすると、そのとき有効な値が黄色で表示されるようになります。

ためしに「カテゴリグループ名」から「人口と待機児童」を選択してください。
さらに「カテゴリ名」から「保育所入所待機児童数」を選択してください。(このカテゴリがいわゆる待機児童数です。)
有効な値(ここでは「人口と待機児童」グループに含まれる値)が、黄色で表示されます。
analyze-taikijidou-224
[選択状態の表示切替]を無効にした場合(初期設定)は、以下の表示になります。
選択されていないものがすべて灰色で表示されるため、同じグループ内の他の選択肢がどれなのか分かりません。
analyze-taikijidou-225[選択状態の表示切替]はこのように、グループと詳細のリストボックスがあるときに便利な機能です。たとえば、会社の組織(事業部、部、課)や商品の区分などがあるときに使用してみてください。

もう一つ別の設定を追加してみましょう。
「年」のリストボックスのプロパティを開きます。
[プレゼンテーション]タブ[1列]のチェックを外します。
[OK]ボタンをクリックしてください。
analyze-taikijidou-226
「年」が複数の列で表示されました。
analyze-taikijidou-227
「年」のリストボックスを小さくしてください。高さに応じて自動的に列数が調節されます。
analyze-taikijidou-228
下図のように1列を10年分にしておくと見やすいでしょう。
analyze-taikijidou-229

簡単なデータの確認

リストボックスと統計ボックスを使用して、簡単にデータを確認してみましょう。
まず、冒頭の注意事項にあったとおり、今回使用するデータでは、集計レベルの異なるものが同じ列に格納されています。
(都道府県レベルの集計と、市区町村レベルの集計が両方「値」の項目に格納されています。)

そのため分析を開始する際は、まず「集計レベル」のリストボックスから集計レベルを絞り込んでください。
「都道府県」を選択すれば、都道府県のデータに絞り込まれます。
analyze-taikijidou-230
「市区町村」を選択すれば、市区町村のデータに絞り込まれます。
analyze-taikijidou-231
当面の間、都道府県レベルに絞って分析をおこないます。
間違って変更しないようにロックしておきましょう。
「集計レベル」から「都道府県」を選択します。右クリックして[ロック]を選択します。
analyze-taikijidou-232「集計レベル」が「都道府県」にロックされ、色が変更されます。

それでは、待機児童の数を見ていきましょう。
「カテゴリグループ名」から「人口と待機児童」を、「カテゴリ名」から「保育所入所待機児童数」を選択します。
analyze-taikijidou-233
2001年から2011年までのデータがあるようです。
analyze-taikijidou-234
「年」から「2001」を選択します。
analyze-taikijidou-235統計ボックスを見ると、「レコード数」が「47」となっており、47都道府県のデータに絞り込まれたことが確認できます。
また「合計値」が「21031」となっており、2001年の待機児童数は約2万人(21,031人)だったことが分かります。

年を変更して値の変化を見ていきましょう。
2008年の待機児童数は2万人を切っていますね。
※「年」のリストボックスを選択した状態で(「年」というラベルの部分をクリックして)、キーボードの「↓」キーを押していくと、簡単に年を変化させながら、値を追っていけます。
analyze-taikijidou-236
しかし、翌年2009年の待機児童数は2万5千人(25,384人)まで増加しています。
analyze-taikijidou-237
最新のデータである2011年の待機児童数も、だいたい2万5千人(25,556人)ですね。
analyze-taikijidou-238
2001年からの待機児童数を確認しましたが、2008年までは2万人程度、直近数年間は2万5千人程度であることが分かりました。

ご注意
全国の待機児童は4万6千人といったデータもありますが、待機児童数は毎年4月と10月に発表され、4月と10月で大きく結果が異なります。(おそらく4月は入園・卒園があるため一時的に待機児童が減るのだと思われます。)
厚生労働省の最新のデータでは、2012年4月が2万5千人(24,825人)、2012年10月が4万6千人(46,127人)でした。また過去4年間、極端な増減はないようです。
待機児童 – Wikipedia
厚生労働省>報道・広報>報道発表資料>報道発表資料 2013年3月>2013年3月27日掲載>保育所待機児童数(平成24年10月)

それでは、さらに分析を進めていきましょう。
最大値がどの都道府県なのか確認してみます。
統計ボックスから最大値の「7855」をクリックします。
analyze-taikijidou-239
東京都でした。
analyze-taikijidou-240
統計ボックスで最大値のところを再度クリックして、ひとつ前の状態に戻します。
こんどは地域ごとに見てみましょう。
「地域名」から「愛知県」をクリックします。
analyze-taikijidou-241
愛知県の待機児童は1,422人でした。他の都道府県もいろいろと確認してみてください。
analyze-taikijidou-242
沖縄県は2,295人です。かなり多い方ですね。
analyze-taikijidou-243
宮崎県のように待機児童が0人の県もいくつかあるようです。
analyze-taikijidou-244
神奈川県は3,095人です。こちらもかなり多い方ですね。
analyze-taikijidou-245
待機児童が0人の県もいくつかあるようですので、実際にいくつあるのか確認してみましょう。
都道府県の選択を解除し、統計ボックスから最小値「0」をクリックします。
analyze-taikijidou-246
待機児童が0人の県は9県ありました。
analyze-taikijidou-247
一旦選択を解除します。
[クリア]ボタンをクリックしてください。
analyze-taikijidou-248
こんどは乳幼児の人数を確認してみましょう。
「カテゴリグループ名」から「人口と待機児童」を、「カテゴリ名」から「0~5歳人口」を選択します。
analyze-taikijidou-249
1975年から2010年まで、5年間隔でデータがあるようです。
analyze-taikijidou-250
1975年を選択してみましょう。
1,200万人(11,916,268人)でした。
analyze-taikijidou-251
1985年を選択してみます。
900万人(9,055,886人)まで減少していますね。
analyze-taikijidou-252
最新のデータである2010年を選択してみます。
630万人(6,355,237人)まで減少しています。
analyze-taikijidou-253やはり少子化が進んでいるように見られますね。

チャートの作成

それでは、チャートを作成してみましょう。
まずチャートを配置する領域を確保します。
チャートを画面右側に配置したいため、「地域名」と「年」のリストボックスを下に移動し、統計ボックスを空いたスペースに移動します。
analyze-taikijidou-301
統計ボックスを小さくします。
数値の左側にマウスカーソルを合わせると、サイズが変更できます。
ドラッグして横幅を縮めてください。
analyze-taikijidou-302
analyze-taikijidou-303
「地域名」と「年」のリストボックスの横幅を少しずつ広げて、横幅を揃えておくと綺麗です。
analyze-taikijidou-304
空いた領域にチャートを配置しましょう。
シートの余白を右クリックし[シートオブジェクトの追加]→[チャート]を選択します。
analyze-taikijidou-305
どんなチャートを作るかですが、今回はやはり年ごとの推移を見たいため、折れ線グラフを使用することにします。
[折れ線グラフ]を選択して[次へ]ボタンをクリックします。
analyze-taikijidou-306
[軸項目]に「年」と「地域名」を設定し[次へ]ボタンをクリックします。
analyze-taikijidou-307
[数式]に以下の数式を入力し[OK]ボタンをクリックします。
Sum(値)
analyze-taikijidou-308※今回のデータでは年ごと、地域ごとに値の明細を1件だけ保持します。
そのためSum関数を指定する必要はないのですが、ここでは便宜上Sum関数を使いました。明細が軸ごとに1件しかないため、平均値(Avg関数)や最大値(Max関数)、最小値(Min関数)などを指定しても結果は同じです。

数式を確認し[完了]ボタンをクリックします。
analyze-taikijidou-309
チャートが作成できました。
analyze-taikijidou-310
「カテゴリグループ名」から「人口と待機児童」、「カテゴリ名」から「保育所入所待機児童数」を選択します。
analyze-taikijidou-311
サイズを広げて見やすくしてください。
analyze-taikijidou-312チャートが作成できました。2001年から2011年までの待機児童数の推移を、都道府県ごとに可視化しています。
さきほど統計ボックスで確認したとおり、やはり2008年ごろから待機児童が増加しているようです。

チャートが見やすくなるように、いくつか設定を追加してみましょう。
チャートのプロパティを開き、[基本設定]タブを開いてください。
[チャートにタイトルを表示する]の下に以下の数式を入力します。
=カテゴリ名
※先頭の「=」を忘れずに指定してください。
設定後[OK]ボタンをクリックします。
analyze-taikijidou-313
チャートのタイトルに値の種類(カテゴリ名)が表示されるようになりました。
analyze-taikijidou-314

先頭の「=」がない場合、どうなるのか試してみます。
※この操作はあとで、もとに戻します。
analyze-taikijidou-315
「カテゴリ名」という文字列がそのまま表示されました。
analyze-taikijidou-316チャートのタイトルは、もともと文字列を入力する場所ですが、先頭に「=」を付けることで数式を指定できます。
「=カテゴリ名」と指定することで、”カテゴリ名という項目の値”という意味になります。

QlikViewではこのように、もともと文字列を入力する箇所でも、先頭に「=」を付けることでデータ値を表示できることがあります。
たとえば、テキストオブジェクトでも同じことが可能です。
設定を変更した方は、もとの「=」付きの指定に戻しておいてください。

つづいてソートの設定をしましょう。
地域名は文字の順(文字コード順)に並んでいますが、値の大きい順に並べ替えた方が見やすくなります。
analyze-taikijidou-324
チャートのプロパティを開き[ソート]タブを開きます。
[Y-軸値]にチェックを入れることでY軸の値順に並ぶのですが、[Y-軸値]のチェックは1つ目の軸項目でのみ設定できます。
「年」を選択した状態だと、[Y-軸値]を変更できます。
analyze-taikijidou-317
「地域名」を選択した状態だと、[Y-軸値]を変更できません。
analyze-taikijidou-3181つ目の軸項目の[Y-軸値]にチェックを入れると、すべての軸がY軸の値順に並びます。
しかし、今回したいのは「年」は年の順で表示し(2001年→2011年の順に表示し)、「地域名」のみY軸の値順に表示するという設定です。
これは[数式]を使用することで実現できます。

画面左側で「地域名」を選択し、画面右側の[数式]にチェックを入れます。
数式に設定したのと同じ「Sum(値)」を入力し、[降順]を選択します。
analyze-taikijidou-319
もう1つ設定してみましょう。
[色]タブを選択し[固定色]にチェックを入れます。
analyze-taikijidou-320[固定色]の設定は複数のチャートの色を統一する設定です。このあと二つ目のチャートを追加したときのために有効にしておきます。

さいごにY軸の単位の設定をしましょう。
[数値書式]タブを開きます。
画面右下で[千の単位][百万の単位][十億の単位]にそれぞれ単位を入力します。
以上で設定は完了です。[OK]ボタンをクリックします。
analyze-taikijidou-321
チャートにいろいろな設定を追加できました。
analyze-taikijidou-322
乳幼児の人口を確認してみましょう。
[カテゴリ名]から「0~5歳人口」を選択します。
analyze-taikijidou-323折れ線をよく見てみると、東京都の乳幼児の人口は、近年少しずつ増加していることが分かります。
チャートを作成すると、統計ボックスだけでは気づきにくい値の変化に気づけることがあります。

前編はここまでで終了とします。
作成したドキュメントは後編でも使用しますので、そのまま保管しておいてください。
後編では、さらにチャートに色々な設定を加え、見やすく使いやすいアプリケーションにしていきます。

お疲れ様でした。

追記 2013年8月22日 18:00

後編を公開しました。こちらもぜひご覧ください。
身近なデータの分析 全国の待機児童数をQlikViewで分析してみよう(後編)

振り返り

今回はQlikViewを使用して待機児童のデータを分析しながら、リストボックスやチャートの設定についてご覧いただきました。
以下に今回取り上げたプロパティをまとめます。
  • リストボックス [基本設定]タブ[選択状態の表示切替]
    初期設定:無効
    有効にすると、そのとき有効な値(別のオブジェクトによって絞り込まれた値)が黄色で表示されるようになる。
  • リストボックス [プレゼンテーション]タブ[1列]
    初期設定:有効
    無効にすると、リストボックス中の値を複数列で表示できる。
  • チャート [基本設定]タブ[チャートにタイトルを表示する]
    初期設定:<第1数式をラベルに使用する>
    チャートに表示するタイトル。「=項目名」と「=」付きで指定することで、項目の値も表示できる。
  • チャート [ソート]タブ[Y-軸値]
    初期設定:無効
    有効にすると、Y軸の値順に並べ替える。1つ目の軸項目に対してのみ設定でき、1つ目の軸項目の[Y-軸値]を有効にすると、すべての軸がY軸の値順に並べ替えられる。
  • チャート [ソート]タブ[数式]
    初期設定:無効
    任意の数式の順に並べ替えられる。とくに[Y-軸値]の設定ではまかなえない複雑なソートで使用する。たとえば、1つ目の軸項目は数値順、2つ目の軸項目はY軸の値順で並び替えたいときなどに使用する。
  • チャート [色]タブ[固定色]
    初期設定:チャートによって変わる。折れ線グラフでは無効
    複数のチャートの色を統一する設定。
  • チャート [数値書式]タブ[単位][千の単位][百万の単位][十億の単位]
    初期設定:空
    Y軸に表示する値の単位。

追記 2013年10月23日 16:00

待機児童のデータをお探しの方向けに、ExcelとCSV形式のデータを公開しました。
taikijidou-data.zip 1.8MB
ExcelとCSV形式のファイルが含まれています。
地域ごと年ごとに「保育所数」「保育所定員数」「保育所在所児数」「保育所入所待機児童数」の4項目のデータが含まれています。
総務省統計局所管のデータをもとにしているため、厚生労働省の発表とは一部数値が異なる場合があります。