CAREERS

採用情報

MySQL UDFとGo言語による
ビッグデータ前処理基盤

スライド概要

ミーカンパニーは、行政から公開されている全国の病院・薬局・介護施設の情報を企業システムで扱いやすい形にして提供する「SCUEL DATABASE」事業に取り組んでいます。
行政から公開されている、と言っても、ExcelもあればWebサイトもある。PDFもあれば紙もある。フォーマットもバラバラ。誤字脱字もあればIDの表記揺れやIDが記載されていないことだってある。
こうしたデータ群を統一されたフォーマット、統一されたIDにして、企業システムで扱えるようにするため、毎月更新されるデータに対して、データクレンジングや名寄せ処理を行う必要があります。
毎月限られた時間のなかで、大量のデータクレンジングを行う必要があるため、ミーカンパニーでは独自の高速テキストノーマライザをGo言語で開発しています。

この高速テキストノーマライザの開発を進めるなかで得たノウハウなどをITエンジニアコミュニティに還元するため、2018年9月21日に行われたDB Tech Showcase(主催 : 株式会社インサイトテクノロジー)で講演させていただきました。