2010-05-28

■

初日の全体感想：
　Best Paperの研究＝名前の特徴から民族判別する研究はさすが！！と思ったけど、そのほかは結構分析に終始する研究が多かった。
　個人的には、どうやってデータをサンプリングするか、というネタとTwitter上の影響力を測る研究が結構興味深かった。
　あと、脳波を測定した分析はちょっと笑った（いい意味で）そんなアプローチまであるとはwww。
　新しい切り口で面白かった。

○20 Sequential Influence Models in Social Networks
　　目的：Wikipediaを使ったsocial network上での影響力比較
手法：　snapshotモデルとordinal time モデルを比較
　　　　　つまり、snapshot的なモデルと常に計測しているモデルでどのくらい違いがでるか？？
　結論：うまくやれば、両者には違いがないため、常に計測してなくても影響力は測定できる。

○47 ePluribus : Ethnicity on Social Networks
　目的：Social Media上でユーザーの民族を判別する。White, Black, Asian, Hispanic

　手法：
　　　　Topicモデルに基づいた手法
　　　ユーザー名によて民族を判断。
　結論：
　　結構正確。facebookの民族分布は、インターネットの民族分布と似ている
　　　同じ民族同士の方が、友達になりやすく、コミュニケーションも多い
感想：
　　　これはかなり面白い。さすがはベストペーパー。

○125 Who Acquires Friends Through Social Media and Why? “Rich Get Richer” versus “Seek and Ye Shall Find”
　目的：オフラインでSocialityが高い人がOnline上でも友人ができやすいのか、それともOnline上での行動が活発な方がOnline上での
　　友人ができやすいのか？
　　「Rich get richer」と「Seek and ye shall findー求めよ、さらばあたえられん」
　　　　　のどちらがSocial Mediaでの友人作りの寄与するのか？
手法：オンラインで友人ができるかの意識調査およびそれにもとづき、実際に友人ができたかどうか
結論：オフラインでのsocialityに関係なく、友人ができる思っていた人は友人ができる

○66 To be a star is not only metaphoric: from popularity to social linkage
　目的：人気のあるユーザーはどのようなsocial Network構造をもっているのか調べる　MySpace上。
手法：自己組織化マップを使ったsocial networkのクラスタリング
結論：人気のあるアーティストはstar構造を持ち、人気のないアーティストはclique構造を持ちやすい

○140 The Social Dynamics of Economic Activity in a Virtual World　
　目的：Social Media上での経済行動についての調査　In second life
手法：ユーザー単位、グループ単位での経済高度についてrevenueをいろんな角度から計算・比較

　結論：Social tieとsame group関係が購買行動に強い関連がある
　　　同じグループの人を顧客リストに加えれば、利益がアップする
　　　Social network構造がeconomic activityに影響を与える

○43 Your Brain on Facebook: Neuropsychological Associations with Social Versus other Media
目的：Social mediaと個人のassociation relationshipsを測定する
手法：脳波測定で、各メディアと結びつくイメージを測定する研究
　　　　具体的に、アンケートとりつつ、その反応を脳波測定する、という手法
結論：通常のアンケートだと、Facebookは、interesting, high addictive, highly personal
脳波による測定だと、Facebookは、他のメディアと比べて、story性がなく、かつpersonalではない。

○143 Towards Social Causality: An Analysis of Interpersonal Relations in Online Blogs and Forums
目的：ブログから因果関係を抽出する研究
手法：係り受け関係等から社会的因果関係を抽出する。
　　　男女判定、行為の意図判定、依存関係の連鎖などを行う。

　結果：以下見たいな因果関係が取得できた
　　　　・Relation with increased magnitude
　　　　　　criticize→insult→slap→stab→kill
　　　　・Good for Good
　　　　　　ask→help→thank
　　　　・Good for Bad　
　　　　　　ignore→cheat→dump→sure→not blame

○19 How Does the Data Sampling Strategy Impact the Discovery of Information Diffusion in Social Media?
　　目的：どうやってデータをサンプリングしたら、実データとの差が小さくなるか
　　手法： Diffusionの定義 RT、同じURL含む、同じハッシュタグ
　　　　　実際の全数データ分析結果とサンプリングデータ結果を比較　
　結果：Network topology + user contextual attributes の組み合わせてサンプリングすると
　　　　　　全数調査に近くなる。
　　　　普通のサンプリング方法と比べて、15〜20%改善

○124 Tagging Over Time: A Longitudinal Study of the Role of Attention, Network Density, and Motivations
　目的：ユーザーのtagging行動を調べることで、ネットワークの構造、成長の関連性をみる
　手法：Social Pshychology（Web-basedアンケート調査）とSocial Network Analysis
　結論：tagging行動とユーザーのcommintmentには相関がない。tagging行動とユーザーのego-network構造には相関がある。

○155 Microblogging Inside and Outside the Workplace

　目的：仕事でtwitterを使う効果について、質的、量的な検討
手法：質的検討：ユーザーへのインタビュー34名　
　　　　量的検討：tweet数、RT数、Reply数、Ask Question数など。
　　　　　Quantitive より qualitiveな検討が多い
　結論：Twitterの利用は、職場のコミュニケーション活性に有効　他

○38 Measuring User Influence on Twitter: The Million Follower Fallacy
　目的：Twitter上でのユーザーの影響力を測定
　手法：以下の指標を利用
　　　　Indegree フォロワー数
　　　　Mention 発言のあとにreply
　　　　Retweet
　　結論：3つの影響指標は0.5~0.6くらい相関ただし、in degreeはtop userについて相関弱
　　　　　あとは、ハッシュタグでreweet、mentionの合計を測定
　　　　　Indegreeは影響力への寄与は少なそう
　　　　　　　　＝ブリトニースピアーズはFollower数は多いけど、影響力は少ない。

○94 The Directed Closure Process in Information Networks with an Analysis of Link Formation on Twitter
　　目的：Directed closureをもちいたtwitterネットワーク分析
　　手法：TwitterのfollowingネットワークからDirect Clossureを抽出して分析
　　結論：Directed ClosureがTwitterネットワークで重要な意味を持つ。
　　　　　micro-celebrity（中程度のFollower数を持つユーザー）が多く見受けられる。

○122 Characterizing Microblogs with Topic Models
　　目的：Twitterの本質的な問題=follower数と実際にあるつぶやきを読んでる人の人数は違う
　　　　　どうしたらFollowするか？
　　手法：56人のheavy twitter user @Microsoft社員にアンケート
　　　　　TfidfとLDAによるtopic modelとSVMによるclassification

　　結論：Content analysisで、ユーザ〜の特徴付け、推薦、filteringができる
　　　　　Labeled LDA はトピック発見とユーザーのrankingに有用

2010-05-26

ICWSM fullpaper まとめ３日目

3日目の全体感想：
　　いよいよ最終日。午前中のみだったが、実はこのセッションが一番理論的で面白かった。
　　ML的にちゃんと新規性のある手法が目白押しだった、という意味。
　　特に Sarcastic Analysis（皮肉）はプレゼンが秀逸。
　　「評価が低いのにやたら褒めてる」→「これは皮肉に違いない」という発想は面白かった
　　まさかタイトルまで皮肉とはｗｗｗ
　　あと、WorryとFear推測による、株式市場の値との相関も面白い。

　　最後のほう、力尽きて英語のままです。スミマセン。

○35 ICWSM - A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Product Reviews

　　目的：商品レビューから、皮肉の使い方をモデリング
　　　　　パーソナライゼーションの精度向上

　　　　　例
　　　　　　Great for insomniacs
　　　　　　　Just read the book

　　手法：
　　　　　Amazonの商品評価データを利用
　　　　　星が1,2個なのに、使っている評価表現が非常にpositive⇨皮肉と思われる
　　　　　パターンベース,punctuationベースの手法と比較
　　　　　加えて、人手による評価と比較
　　　　　　※タイトル自体が皮肉になってる。ICWSMはすごい名前すぎて覚えづらい、みたいな
　　　結論：
　　　　　　 BaseLineの手法を比べて精度が向上した。
　　　　　　

○105 Widespread Worry and the Stock Market
　目的：Worryやfearがbroadするのを予測出来れば、marketに役立つよね？が目的
　手法：　
　　　　　　　Data: Live Journal. 624,905 LJ mood-annotated posts from 2004.
　　　　　 Extracted 12,923 anxious,worry posts

　　　　　　C 1 boosted decision tree with top 100 stems
　　　　　　C 2. Bagged complement naive Bayes
　　　　　　辞書を利用
　　　　　　Anxiety indexを定義
　　　　　　Granger causality を計算
　　　　　　　　Endogenous model / fear model /
　　　　　　　Monte Carlo simulationを実施
　　結論: worryやfearの広がりを推測することで、マーケットの値動きの上下が予測可能

○119 Star Quality: Aggregating Reviews to Rank Products and Merchants
　　目的：複数サイトの比較により、biasを除去した本当の商品評価、店舗評価を取得したい

　　手法：　　　 Ratingの平均値、中間値、順序統計量、filteringしたり、いろいろ
　　評価goal. How reliability our ranking of true quality user satisfied with　Idea.
⇨実際にこれは難しい
　　　評価数の多いユーザーによる評価から各商品ペアの順序を取得し、その順序と
　　　　　提案手法による順序を比較する＝商品ペアごとの順序をもとに各手法比較
　　結論：　
　　　　　User behavior in reviews follows interesting pattern
　　　　　Proposed diverse set of. Ranking system
　　　　　Devised evaluation methodology
　　　　　　Outperforming the average may be more nuanced than we thought

○132 Study of Static Classification of Social Spam Profiles in MySpace
　　目的：　 Social media上でのspam発見
　　手法：Social profileをfeautureとして、とにかくいろんな機械学習手法を適用
　　　　　
　　　　　Legitimate profiles, spam profiles
　　　　　Random sampling. 900,000 legitimate profiles
　　　　　1500 spam profiles
　　　　　Supervised machine learning algorithms from Weka
　　　　　機械学習の手法を色々適用：Adaboost, c4.5, svm , neural networks, naive Bayes

　　　　　 Feature : categorical data , free-form text

　　結論：
　　　　　　Discriminative power by chi-square test
　　　　　　分類に有効だったCategorical data
　　　　　　　　　Smoke, drink, kids, defaultiM are high
あんまり有効でなかったfeature
　　　　　　　　Zodiac
　　　　　Classification Performance.
　　　　　　　　　　C4.5 is the best
　　　 Classification adversarial
　　　　　　　　　C4.5 is the beat, too

2010-05-25

ICWSM fullpaper まとめ２日目

2日目：全体感想

本日は、分析研究多し。
でもTwitterの選挙予想とか意見抽出は、自分の研究室でも似たような研究をやっているし、
自分も興味あるので、結構面白かった。あと、ローカルニュースのほうがTwitter上では伝わりやすい、
という研究も面白かった。
JureさんのSocial Media Governanceの研究とユーザーのLifespanの研究（どうやったら、ユーザーの参加を維持できるか）
は良くできていた。
自分のPoster準備が忙しくてあまりうまくまとめられてないけど。

○17 Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment
　　目的・背景：Social mediaを使った選挙での成功
　　　Twongree
　　　 1.Twitterはプラットフォームになるか？
　　　2. どれだけ有権者の意見を正しく伝えてくれるか
　　　3. 選挙を予測できるか？
　　手法：立候補者名と政党名でTwitterを検索 LIWCというソフトを利用

　　　　　サンプルドイツの選挙
　　結論：31%が@を含む
　　　　19%がRetweet
　　　　ユーザーを選挙呟き発言回数で、分類 50%が一回だけ
　　　　LIWCで各呟きの感情、評価を分析
　　Leading candidateはだいたい同じ特徴を持つ
　　各連立グループごとに類似度を計算ー与党が一番高い

　　　　Twitterの政党名・候補者名を含む呟きの割合と選挙結果ーーかなり一致。（９０％以上）
　　ただし、ドイツの選挙は政党選挙で、各候補者の当落まで予想しているわけではない。、

○148 From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series
　　目的：Public opinionをtwitterから測定する
手法：Text sentiment analysisと電話による世論調査との比較
　　　　Topic keywordsでtweetを抽出 economy,jobs,job,Obama,McCain,
　　　Sentiment analysis word counting
　結論： Twitterの分析でも世論調査と同じ様な結果が得られる。

○75 Information Contagion: an Empirical Study of the Spread of News on Digg and Twitter Social Networks
目的：Social media上での情報伝播について
手法：　digg、twitter+tweetmemeを利用 tweetmeme最もRTされたURLをトップに表示

　　結論： Digー大体ニュースがでてから20時間位で反応
　　　　　Twitter ーニュースがでてから1時間くらいで反応

　　　 Information flow on networks
　　　　　Dig. Voteが増えるにつれて伝播スピードがあがる
　　　　　Twitter. RTに関係なく、伝播していく

　　　 Digの方が、密でよりconnectedなネットワーク

　　　　Dig ニュースの伝播スピード早いけど、twitterほど遠くまでは達しない

○30 Tweeting from the Town Square: Measuring Geographic Local Networks
　目的・背景：ケネディ暗殺のニュース1時間で80%の人に拡がったらしい。
　　　　　　　Local newsのTwitter上での伝播測定
近所の人ならニュースが伝わる？？
　　手法：ローカルニュースと普通のニュースの伝播速度、伝播ユーザー数を比較
　結論：ローカルニュースを呟いてるユーザーのネットワークは、普通のhash tagネットワークと比べてhigh density
　　　　　　 24時間以内だとより高い。大体5倍くらい

上記ネットワークのcentralityの高い人は、地理的にも中心っぽい。

ニュースソースになっているユーザーはどのあたりにいるか？
本当にみた人、地元のラジオで働いている人、地元のジャーナリスト
ただし、FOXニュースでみた人もいる。このあたりがbias

○142 Governance in Social Media: A case study of the Wikipedia promotion process
目的：Social mediaのGovernanceについて。どのようにGovernanceすべきかを調査
　手法：Wikipedia communityのメンバーの投票による、promotion決定プロセスにより調査
　　　　どのように意思決定がなされたか
結論：Relative merit が重要
　　　　 Indivisuals' response functionの多様性　　
　　　　　候補者と投票者の特徴の相対的な関係でどちらに投票するかが決まる
　　　　　投票者が投票する時間も、投票者がどちらに投票するかに影響する。
　感想：さすがJureさんの研究。よくまとまっている。
　　　　どう応用するかが難しいかな、とも思ってしまったけど。

○10 Activity Lifespan: An Analysis of User Survival Patterns in Online Knowledge Sharing Communities
　目的：ユーザーのSurvival anasisys
　　　　どうしたら、ユーザーのparticipationを長期に維持できるか？？
　　手法：長期間にわたる、communityの進化について測定
　　　　　また、違うトピックに関するsub-communityの成長も測定
結論：Incentive design, much of high level answers, initial. InteractionがユーザーのParticipation維持に重要

○39 Responses to remixing on a social media sharing website
　　目的：User generated mediaにおいて、remixは盗作と見なされるか否か？
　　　　 Plagiarism accusation, hinting plagiarism positive, negative
　　手法：ScratchというOnlineCommunity上においてデータ分析
　　　　　Projectの類似性とそれに対する批判の相関性を比較。
　　目的： Projectの内容にかかわらず、Projectが類似しているときに糾弾されやすい

2010-05-24

■

○47 ePluribus : Ethnicity on Social Networks
　目的：Social Media上でユーザーの民族を判別する。White, Black, Asian, Hispanic

○155 Microblogging Inside and Outside the Workplace

　　結論：Content analysisで、ユーザ〜の特徴付け、推薦、filteringができる
　　　　　Labeled LDA はトピック発見とユーザーのrankingに有用

2010-01-28

pLSIに関数調査

とりあえず、関係ありそうなURLを貼り付け
さすが、工藤拓さん。ちゃんとつくってある。

pLSA

PLSI
http://chasen.org/~taku/publications/plsi/plsi.html
http://chasen.org/~daiti-m/paper/topic2006.pdf
http://www.cs.pitt.edu/~milos/courses/cs3750/lectures/plsa.pdf
http://d.hatena.ne.jp/mjmania/20090812/1250004084
http://chasen.org/~taku/software/plsi/

EM
http://www.neurosci.aist.go.jp/~akaho/thesis/thesis-www/node16.html

Python
http://satomacoto.blogspot.com/2009/10/pythonplsa.html

R
http://wg-stein.blogspot.com/2009/11/probabilistic-latent-semantic-analysis.html

2010-01-26

EmacsでUTF-8が文字化けしてしまう（豆腐になってしまう）

以下のページで解決しました.

原因は.emacsと.bash_profileの設定だったっぽい。

http://d.hatena.ne.jp/qnzm/20090118/1232256216

ちなみに豆腐とは、全角日本語が文字化けして「□」（正確には縦に長い長方形）で表示されてしまうこと。

2010-01-18

Emacs Anthyで日本語入力

何はともあれ、このサイトを参照すればだいたい分かる。
http://d.hatena.ne.jp/maudlin/20060411/p1

はじめに。やっぱりemacs!

私がUNIXにこだわる理由の一つはemacsであると言っても過言ではありません。Emacsがなければ私の生産性はきっと半分以下に落ちてしまうと思っています。

Thanks to GNU, Richard, 半田先生 and all emacs communities!!

ところでFreeのUNIXで日本語入力をする場合に問題として、漢字変換エンジンがあまり賢くない*1という不満がありました。私の場合は、OMRON SoftのWnn7を購入して利用していました。当時、emacs@linuxで「貴社の記者が汽車で帰社した」というセンテンスが一発で変換できたときの喜びはひとしおでした。ところでFC5には、Anthyという新しい漢字変換エンジンが搭載されています。この漢字変換エンジンはこれまでのFreeWnnやCannaに比べると効率の良い漢字変換を実現してくれると感じています。というわけで、今回のTIPSはAnthyをemacsから使えるようにするというものです。
RPMのインストール

emacs, anthyに関連するパッケージは基本的にrpmで提供されていますから、導入は非常に簡単です。yumを使ってインストールを行うことをお勧めします。

# yum install emacs emacs-leim anthy-el

インストールはこれで完了です。
.emacsの設定

.emacsにanthyを使うための設定を記述します。もちろん、/usr/share/emacs/site-list/site-start.d/に作成しても良いです。

;; anthy
(set-language-environment "Japanese")
(setq default-input-method "japanese-anthy")

これは個人的な好みなのですが、CTRL-SPACEで入力モードのトグルができるようにしています。以下の記述を.emacsに追加してください。

(global-set-key [?\C-\ ] 'toggle-input-method)

SCIM対策

FC5上のX Windowで単純にemacsを起動すると、SCIMがemacsの必要とするキーバインディングのいくつかを奪ってしまいます。個人的な好みとして設定しているCTRL-SPACEによる入力モードのトグルや、標準でeval-print-last-sexpにバインドされているCTRL-jなどが使えないのです。そこで、emacsを使うときにはSCIMからの干渉を受けないように設定を行う必要があります。

これはemacs起動時にコマンドラインから環境変数を設定することで実現することができます。

$ XMODIFIERS=@im=NONE emacs

/etc/profile.d/emacs.shとして、以下のような内容のファイルを作成して使っています。

alias emacs=’XMODIFIERS=@im=NONE emacs'

こうしておくことで、シェルからemacsを起動したときにはいつでも、SCIMの干渉を受けないような設定でemacsが起動します。
UTF-8への対応

日本語環境としてインストールした場合、FC5のデフォルトロケールは、ja_JP.UTF-8になります。そこでemacsでもエンコーディングがUTF-8のファイルを読めるようにしたいと思います。

FC5で提供されているemacsは最初からUTF-8に対応した形でコンパイルされていますので、.emacsへの設定を追加するだけで行うことができます。

(prefer-coding-system ‘utf-8)

なお、UTF-8で記述されたファイルを端末上で閲覧するときには、lessコマンドの変わりにlvコマンドを使うようにすると便利です。