Sample Code for Mallet LDA (ParallelTopicModel) Mallet の gibbs-sampling LDA を使用してドキュメントのトピック分類を行うサンプルコード。 学習用とトピック推定用に使用するデータは1行に1ドキュメントが保存されているテキストファイル。 日本語の形態素解析には Kuromoji + NEologd を使用している。 $ sbt "runMain train.txt --predict predict.txt" Maven に登録されているライブラリを使用しているが、Mallet のサイトからコマンドライン版がダウンロードできる。 コマンドラインで使用するには Getting Started with Topic Modeling and MALLET のチュートリアルを参照。