物件データのクレンジングを行う
ばらばらになっている物件情報の統合とデータクレンジングについて説明しています。
ZENRIN MAPs API活用の記事の続きです。
データのクレンジングについて
前回は、ZENRIN MAPs APIを利用して最新の物件情報のデータを取得しましたが、今回はそのデータを使用して、自社で保有している他の物件情報との統合、データクレンジングを行なっていきます。
例えば、Webクローリングによって以下のような売買情報サイトに掲載されている物件情報のデータを取得しているとします。
売却想定価格 | 住所 | 築年数 | 構造 | 土地面積 | 建築面積 | 利回り |
2億8,600万円値下げ | 港区西麻布2丁目 ビル(一棟)東京都港区西麻布2丁目 | 1990年築 | 鉄骨造 | 79.4m2 | 204.57m2 | 6.01% |
2億9,000万円値下げ | 渋谷区神宮前4丁目 ビル(一棟)東京都渋谷区神宮前4丁目 | 2014年築 | 木造 | 50.1m2 | 78.93m2 | 3.50% |
25億1,000万円 | 港区西麻布1丁目 ビル(一棟)東京都港区西麻布1丁目 | 2023年築(新築) | 鉄骨造 | 85.45m2 | 567.39m2 | 2.78% |
2億8,600万円 | 港区西麻布2丁目 ビル(一棟)東京都港区西麻布2丁目 | 1990年築 | 鉄骨造 | 79.4m2 | 204.57m2 | 6.01% |
19億1,840万円 | 港区芝大門2丁目 ビル(一棟)東京都港区芝大門2丁目 | 2022年築 | 鉄骨造 | 131.24m2 | 730.76m2 | 3.44% |
上記の情報は、住所のところが丁目までしかなく、そのほかの項目にも表記がバラバラだったり、数値で欲しい項目が数値にはなっていなかったりします。
そこで、まずは分析しやすいようにデータの各項目を整えるところからスタートします。これをデータクレンジングと呼んでいます。
データクレンジングについて
今回は、表記の揺らぎや数値データとして欲しい項目を単位や余計なテキスト情報を除いて数値のみにする処理を行います。完成形のイメージは下記です。
売却想定価格 | 住所 | 築年数 | 構造 | 土地面積 | 建築面積 | 利回り |
286000000 | 港区西麻布2丁目 | 1990 | 鉄骨造 | 79.4 | 204.57 | 6.01 |
290000000 | 渋谷区神宮前4丁目 | 2014 | 木造 | 50.1 | 78.93 | 3.5 |
2510000000 | 港区西麻布1丁目 | 2023 | 鉄骨造 | 85.45 | 567.39 | 2.78 |
286000000 | 港区西麻布2丁目 | 1990 | 鉄骨造 | 79.4 | 204.57 | 6.01 |
1918400000 | 港区芝大門2丁目 | 2022 | 鉄骨造 | 131.24 | 730.76 | 3.44 |
650000000 | 渋谷区東2丁目 | 1997 | SRC | 115.18 | 289.72 | 4.67 |
1. 環境の準備: データをクレンジングするための環境を準備します。
今回はGoogle Colabとスプレッドシートを使用する方法をご紹介します。
Google Colabは、無料でPythonというプログラミングコードの実行環境を整備できるサービスです。Googleのサービスなので、同じGoogleサービスであるスプレッドシートとの連携もしやすいです。
そこで、文字を取り除いて、数値表記にするようコードを記述しています。
続いて、住所情報については、数値に全角と半角が混ざっているのが、データとして扱いにくくなる原因なので、全角数値を半角に統一するようコードを記述しています。
次の築年数については、西暦と和暦が混ざっていたりすると、データとして扱いにくいため、和暦を西暦に変換し、さらに文字情報を取り除いて数値のみで表記するようにコードを記述しています。
データクレンジングは一見するとかなり地味で大変ですが、データを分析しやすいように整えておかないと、データ分析ができないため、非常に重要な工程になります。
不動産DXに関するご相談などもお気軽にどうぞ。