GitHub におけるソフトウェア開発の過程で生じた膨大な量のデータは,多くの研究者がプログラミング体験の質を向上させるために利用してきた.ソフトウェア開発データの入手を容易にするため,先行研究では GitHub の開発履歴に関する大規模なデータセットの一般公開が行われている.しかし,GitHub 上のコード変更データと開発履歴データはそれぞれ入手経路が異なり,両者を統合して大規模に収集したデータセットは存在しない.両方のデータを併せ持つデータセットが存在すれば,コード開発に関する新しい視点からの解析・発見が実現できる可能性がある.そこで本研究では,新たなデータ活用の可能性を模索するため,GitHub のコード変更と開発履歴のデータをひとつのデータベースにまとめて収集するシステムを構築した.さらにコード変更を使ったデータセット検索ができるアプリケーションを作成した.

三島潤平,柴藤大介,矢谷浩司.「DiDA: GitHub上のコード変更と開発履歴に関するデータセット」第4回SIGPX勉強会,2018年3月.(paper)