データクレンジングとは?具体的な方法と医療におけるデータクレンジングの必要性を解説

世の中にはたくさんのデータがあり、研究開発や課題解決、新しい施策やビジネスの発展・推進に日々活用されています。医療分野においても、新薬の開発や新しい治療法の考案、その効果の測定などにデータの活用は欠かせません。一方で、データの活用といっても、膨大なデータを蓄積し集めただけですぐに使えるとは限らず、データの有効活用のためには「データクレンジング(data cleansing)」というステップが必要です。

ここでは、データクレンジングとは何か、その方法と医療におけるデータクレンジングの必要性について詳しくご紹介します。

データクレンジングとは

データクレンジングとは、正確なデータを有効活用するために、破損データや不正確なデータ、無関係なデータなどを特定し、修正・削除を行うことです。データクレンジングはデータクリーニング(data cleaning)やデータスクラビング(data scrubbing)とも呼ばれ、一貫性のあるデータベースを構築することで、必要なデータを必要なときに取り出して有効活用できるようになります。また、データクレンジングを行うことで、データベースの信頼性と価値が向上します。

不正確なデータとは、数値が入っていない、誤った場所に格納されたデータ、入力ミスで解読不能になっているなどといったデータのことです。不正確な内容が存在するデータベースは、そのままの形では分析に利用することができないため、本来の価値を発揮できません。

このような問題のあるデータは、企業や研究機関におけるデータ活用のコストを増大させます。Harvard Business Reviewによると、品質基準を満たすデータはわずか3%未満であり、アメリカの企業では毎年3兆円以上もの余計なコストがダーティデータによって発生しているそうです。

参考:Only 3% of Companies’ Data Meets Basic Quality Standards (Harvard Business Review)

データクレンジング方法の例

企業においてデータクレンジングが必要になった場合、社内にクレンジング専門の担当がいれば自社で行えます。しかし、膨大な量のデータを保有する場合、それだけ多くの人員が必要になります。社内にクレンジング専門の人がいなかったり、膨大なデータを処理する必要がある場合などは、専門業者に任せるのも1つの方法です。

それでは、データクレンジング方法の例をご紹介します。

STEP1:重要データを特定する

どれだけ膨大なデータを保有していても、その中から必要なデータを抜き出さなければ有効活用はできません。例えば、顧客管理に必要なデータは、あくまでも顧客データであり、経営に関するデータは不要です。まずは、データの活用方法に応じて、重要なデータを特定する必要があります。プロジェクトごと、プロセスごとに重要なデータをピックアップして、データクレンジングを行うべき領域を明確化しましょう。

STEP2:データの整理

データクレンジングしたい領域を特定後、そのデータを集めたり並べ替えたりといった整理を行います。

STEP3:重複ファイルを削除

重複データを削除します。重複データは、該当フォルダのデータ個数を正確に算出できない原因となります。

STEP4:データ内容の標準化

データの中身が人によってばらばらな形で記載されている場合があります。その場合は、同じフォーマットになるように変換の処理を行います。

STEP5:欠損値の入力

データにおける欠損値がないか検索し、正しい欠損値の処理を行う必要があります。

STEP6:データクレンジングを定期的に行う

データクレンジングを定期的に行う場合は、一貫性を維持するための体制構築が必要です。データクレンジングを行う人、行う日時、頻度、責任の所在などを決定します。

STEP7:データクレンジングの効果や見直しをする

週1回や月1回の頻度で、データクレンジングのプロセスを見直し、質の向上を目指します。データクレンジングの効果が現れた事例の確認、改善の余地がある部分の把握、バグが発生している箇所の特定などを行いましょう。

医療ビッグデータの種類

医療ビッグデータには、次のようなデータがあります。

電子カルテ、電子レセプトなどの医療電子ファイル
従来では紙ベースで作成されていましたが、現在は電子的なデータとして保存されていることも多いです。

画像診断データ
レントゲンやCTのデータを蓄積することで、病巣の変化や治療効果などを速やかに確認できます。

患者のモバイル端末から収集できる心拍や血圧のデータ
心臓疾患や高血圧症などの患者さんが装着する測定器からデータを送信し、自動で保管します。過去のデータから病状の変化を予測したり発作が起きるタイミングや要因を解析したりできます。

医療ゲノムデータ
医療ゲノムの研究には膨大な医療データが必要です。適切に解析するためにも、データクレンジングを行うことが大切です。

このようなデータを有効活用するには、医療従事者単独では限界があり、情報科学や統計科学などの専門家との連携が欠かせません。そして、医療・ヘルスケア業界の発展には、臨床の現場等から得られる患者のデータ(リアルワールドデータ:RWD)を活用できる状況を整えることが必要です。

※リアルワールドデータ(RWD)については、こちらの記事をご参照ください。

リアルワールドデータ(RWD)とは?種類・政府の取り組み・課題について

医療データクレンジングで、リアルワールドデータを有効活用できるようになれば、新しい治療や新薬の開発、患者ごとに適した治療の提供など、医療機関や製薬会社の課題解決だけではなく、患者さんにとっても明るい未来へと繋がります。

Yuimediのデータクレンジングサービス

2020年11月に設立された株式会社Yuimediは、医療リアルワールドデータの研究やエビデンスに基づく医療の実施をサポートする企業です。
当社について、さらに詳しい情報を入手されたい方は、コーポレートサイトをご覧ください。

まとめ

医療データは、医療・ヘルスケア業界の発展に欠かせません。医療ビッグデータを持つ医療機関・企業は、標準化されていないデータや、不正確なデータ、重複データなどの存在により、データを有効活用できていないのが現状です。データクレンジングを行うことで医療データを有効活用できるようになれば、医療機関や企業、ひいては患者さんの明るい未来へと繋げることができます。

医療データを適切に取り扱うことができるシステムを構築したい医療機関・企業様は、株式会社Yuimediまでお気軽にご相談ください。