東日本大震災ビックデータワークショップ メモ 前半
スライドの場所など
https://sites.google.com/site/prj311/event
https://docs.google.com/spreadsheet/ccc?key=0An9ZuZLxj12adE9tUmxJbWdPcGM0OEFnX25IelBSeXc#gid=0
1.早野先生
ゼンリンマップと放射性物質拡散による甲状腺リスク(ヨウ素濃度)のマッピング
2.渡邊先生
東日本大震災アーカイブをGoogle Earth上に表示する を仕事でやってる
早野先生のデータや交通履歴データをGoogle Earth上にマッピング
マスメディアカバレージマップ
情報空白地域がある
3.NHKプロジェクト
広域災害における情報空白地域の課題
3つの空白
・情報空白(通信インフラ遮断)
・取材空白(交通インフラ遮断)
・認識空白
可視化=マスメディアカバレージマップ
特定化=
生存可能性の高い72時間以内の情報抽出・システム開発
映像情報のメタデータ化→書き起こし
市町村名ツイート×被災地域により、情報空白地域
位置情報から被害規模が検出できないか?
ホンダデータ
混雑統計データ
高精細な可視化とスカイマップ連動
4.Project MM×SM(Mass Media & Social Media)
濱岡・慶応大学商学部 計量経済学
分析1:ツイートにおけるメディアへの言及
分析2:TV報道内容の分析 みんなが同じ情報を放送していた
製油所関連ツイート数の推移と報道タイミング
5.ユーザニーズとメディアデータのカテゴライゼーション 日立研究所 柳瀬さま
NHK総合テレビのカテゴリ占有率
情報提供内容は、緊急性・重要度により変化
人と情報とのマッチングを助ける
Twitterデータからユーザが欲した情報を知る→「教えてください」でGrep検索277,927件
傾向:安否確認のツイートが多そう
検証1:「安否」でgrep → 35169件
6.東大空間情報科学研究センター 有川先生、相良先生
ウェブ空間ドキュメント管理共有サービス(WebSDMSS)の震災応用
WebSDMSS→ 地名や住所を自動抽出、地図化
地名語辞書とジオパーサ
地名語辞書もユーザが目的に合わせて整備
今回は朝日新聞記事7379件の地名抽出処理結果をWebSDMSSに喰わせた
→詳しくはデモセッション
7.乾・岡崎研究室 意味的解析による災害情報拡散の分析
イソジンの例
情報(言論)時空間の分析・可視化
→信憑性分析、デマ判定
今回やったこと
トレンド分析:キーワードの盛り上がり
RT分析による影響力分析
命題抽出:賛否の分かれる意見・内容を抽出
命題の一生:デマとデマを否定するツイートの時系列的変化
言論マップ:ある言論に関する「賛成意見・判定意見及びその根拠」を俯瞰できるシステム
イソジンで被曝を防ぐについて
8.ハッシュタグ分析 東工大 村井
ハッシュタグを元に情報検索がされるが・・
問題点
・既存ハッシュタグの網羅的に知ることは困難
・新しく作られたハッシュタグの周知が困難
#jjhelpme → RTの上位8つは「このハッシュタグを使ってください」で終わってしまい、機能しなかった
#save_fukushima問題 →別表記が複数存在してしまう。異表記率の高いタグ上位は非公式RTによる
内容の近いハッシュタグの視覚化
時間の経過と共に地域毎のまとまりができる
9.チーム田中 トレンドキーワード抽出システム
増加する部分文字列(n-gram)を抽出すれば
10.東工大 村田先生
Mentionネットワークの構築
中心性の高いユーザの発言分析など
11.NICT 鳥澤さん
情報のキュレーション、組織間の連携方法、ユーザの高いリテラシが必要
→ビッグデータの活用法、技術
→本ワークショップの様なものに期待
災害対応質問応答システムと言論マップ
12.CHIDRI
自分のとこなので省略
13.高安研究室
コスモ石油爆発に起因するデマの拡散と収束
デマとデマ訂正
時系列解析
○不安の定量化
・顔文字数変異による不安の定量か
・怖いの検索
・ユーザ投稿過程の可視化
・マスコミ効果の測定
・揺れの大きさと書き込み数の変化
○ネットワーク解析
震災前後のRTネットワーク分析
14. 広島市立大学
ツイートからの避難経路の抽出
マップデータ等による信頼性の担保
LDAによるツイートの自動分類
15.日立東日本ソリューションズ 森川さん&高梨さん
被災地で必要とされた情報をGoogle Trendsから分析
Google Trends 電気/ガス
各メディア上の情報間の連携については今後議論していきたい
16.チームECB 震災後の首都圏の人口動態
ZENRINによる混雑データの利用
東京は3次元的にマップされるために、場所によって面積あたりの収容人数が違う
収容人数がオーバーした場所:震災時の混雑
収容人数が大きく下回る場所:経済活動の停滞
新宿(深夜・オフィスアワー):震災8日後に回復
新宿(アフターファイブ):震災25日後に回復
17.野良分析チーム 首都圏における帰宅困難者のモデリング
○機械学習による帰宅困難者の発生地域抽出
帰宅しようとした人の意思決定をモデル化
・なぜ職場学校に待機しなかったのか?
・なにが要因で着たくしようとしたのか
○位置情報付きtwからの情報抽出
位置関係と時間をもっと上手に扱うには?
ユーザの推移行動の抽出
18.渋谷プロジェクト
主要ターミナルの例として渋谷がどうなっていたのかを分析
背景:主要ターミナルに帰宅者が集中
・エリアメールや掲示板などを組み合わせることで、
一番混雑している地域がこれ以上混雑しないように人を誘導していく
目標:そのとき活用できる情報を用いて「使える」情報を提供
・普段からのイメージトレーニングが重要
・そのときできることをベストエフォートで
19 渋谷プロジェクト つぶやきのテキストマイニング分析
路線や駅毎の呟き数・内容を抽出分析
危険情報・地震直後の情報について抽出・分析
これらの分析結果をシーズとして使って頂きたい
20.災害時における情報分析と共有 さくらインターネット研究所 松本さん
インフラ事業者としての立場からの分析
通信不通域と情報の発生域
キャリア毎に異なる不通地域と被災
原発周りや火力発電所周りで、2,3日後に復旧してたりする
同時海底ケーブルの集中破損が発生していた
大規模な通信迂回があった模様
現場復旧へ向けた取り組み
21. 大災害時における特別な支援ニーズを持った被災者に対する情報提供に関するプロジェクト
Team UD(Universal Design)
発達障害支援センターのサイトがどのように見られていたかをGoogle Analyticsで分析
○どのようにツイートが拡散していったかを分析 RT・MT
・配慮や支援を呼びかけるツイートの拡散
・困っている・助けて欲しいツイートの拡散
・具体的な情報源を提供するツイート
信頼性の高いツイートがSurviveするためには、どのようにツイートすべきか?
○複数の同じような情報を与えるツイート
これらは有効に拡がったのか
同じ人達の間でぐるぐる回っていたのでは無いのか?
22.災害時に流れる医療情報 知の構造化センター 荒牧さん
○分析方法
様々な情報から医療情報を抽出
辞書としてWHOの疾病分類を利用
○震災に増加した症状
1位:PTSD 通常時の70倍
30位:アレルギー 2.6倍
50位:血栓塞栓症 1.5倍(エコノミー症候群)
○マイノリティの発言に注目したい 非常に少ないが確かに発言数は増えている
7位:下垂体機能低下症の皆様へ 6.9倍
55位:クローン病 1.4倍
難病はそもそも人口が少ない
→災害時の大量の除法に隠れて舞う
医療版:流言クラウド