やみんちゅの備忘録

情報系院生(元工大生)の日々のぼやきや技術的な話など

LINE bot対話システム主観評価実験をした時の失敗備忘録

 みなさま百億年ぶりです.やみんちゅです.今回は研究で対話システムのLINE bot上で完結する評価実験を行なったのですが,かなりの失敗を記録してしまったので,後続が同じ轍を踏まないよう備忘録も兼ねてここに記しておきます.なお,この記事では技術的な話には触れません(LINE bot関連の記事ならネット上に腐るほどあるしね).あくまで実験設定とか準備とかはここに気を付けよう,という話です.多分LINE bot利用だけでなく,非対面で対話から評価までを完結させるタイプの実験を行う話全般に言えるものになると思います.

時間の見積もりを舐めてはいけない

 表題の通りですが,本当に舐めてはいけません.音声対話に比べて,人によってタイピング速度や一つの発話の長さが非常にばらけてくるため,想像するよりもこの見積もりは困難です.実験前,自分で試した際は30分で実験が終了したため多く見積もって45分,せいぜい一時間で終わるだろうと私は考えていました.しかし実際には一時間ぎりぎり(というかオーバーした方も......ゲフンゲフン)かかる例が大半という結構な惨事になったのです.この辺りは実験前の謝金設定とかにも関わってくるので,できれば小規模に予備実験を複数人にしてもらって見積もるか,できなければマージンをかなり多めに取ることをお勧めします.

 

主観評価は後から修正可能なツールでやろう(Google formとか)

 ここはどの程度の頻度で評価する必要があるのか,何を評価するのかによるので何を使うかは難しいところな気がします.今回の場合,対話終了ごとに主観評価を行う必要があったため,システムとの対話に続いてチャットツール上でテキストとして評価値を送信してもらったのですが,修正に不便という声をいただき確かにその通りだと思ったので,まぁGoogle formとか使っとくのが無難と思います.後は,本当にその評価はそこでやる必要があるのか,とかを考えて,まとめてやれそうなものはまとめてやるようにする,など評価のタイミング整理とかも多分必要.

 

即応性の高い連絡手段を用意しておく

 これは失敗というより,やっててよかったという話.今回,直前の思いつきで実験参加者連絡用のLINE Groupを作成したのですが,システムが死ぬほどとちったので正直めちゃくちゃ助かりました.メールだとどうしてもレスポンスに時間かかるし,他の参加者へもまとめて状況共有ができるので作ってよかったと思っています.特に対話システムの主観評価実験はデモを動かしながらやることになるし,こういうのは対面でやるより重要になってくると思います.

 

実験の初めは,少ない実験参加者からやる

計算資源の制限がある場合,基本的には時間スロットごとに人数を決めて実験をやることになると思います.大体はじめはトラブルが起こりやすいので,解決しやすいように最初の方のスロットは人数少なめにしておいた方がいいです.そうじゃないとトラブルを捌き切れなくなります.

 

まぁ,一人でやってる時はいけても多人数になるとダメ,というのは実験に限らず往々にしてある(そして必ずトラブルは起こる)と思うので,ちゃんと備えて準備しときましょう,というのが今回の実験で一番得られたものです(実験結果は...?).

多分色々忘れているので,思い出したらまた追記します.