■
初日の全体感想:
Best Paperの研究=名前の特徴から民族判別する研究はさすが!!と思ったけど、そのほかは結構分析に終始する研究が多かった。
個人的には、どうやってデータをサンプリングするか、というネタとTwitter上の影響力を測る研究が結構興味深かった。
あと、脳波を測定した分析はちょっと笑った(いい意味で)そんなアプローチまであるとはwww。
新しい切り口で面白かった。
○20 Sequential Influence Models in Social Networks
目的:Wikipediaを使ったsocial network上での影響力比較
手法: snapshotモデルとordinal time モデルを比較
つまり、snapshot的なモデルと常に計測しているモデルでどのくらい違いがでるか??
結論:うまくやれば、両者には違いがないため、常に計測してなくても影響力は測定できる。
○47 ePluribus : Ethnicity on Social Networks
目的:Social Media上でユーザーの民族を判別する。White, Black, Asian, Hispanic
手法:
Topicモデルに基づいた手法
ユーザー名によて民族を判断。
結論:
結構正確。facebookの民族分布は、インターネットの民族分布と似ている
同じ民族同士の方が、友達になりやすく、コミュニケーションも多い
感想:
これはかなり面白い。さすがはベストペーパー。
○125 Who Acquires Friends Through Social Media and Why? “Rich Get Richer” versus “Seek and Ye Shall Find”
目的:オフラインでSocialityが高い人がOnline上でも友人ができやすいのか、それともOnline上での行動が活発な方がOnline上での
友人ができやすいのか?
「Rich get richer」と「Seek and ye shall findー求めよ、さらばあたえられん」
のどちらがSocial Mediaでの友人作りの寄与するのか?
手法:オンラインで友人ができるかの意識調査およびそれにもとづき、実際に友人ができたかどうか
結論:オフラインでのsocialityに関係なく、友人ができる思っていた人は友人ができる
○66 To be a star is not only metaphoric: from popularity to social linkage
目的:人気のあるユーザーはどのようなsocial Network構造をもっているのか調べる MySpace上。
手法:自己組織化マップを使ったsocial networkのクラスタリング
結論:人気のあるアーティストはstar構造を持ち、人気のないアーティストはclique構造を持ちやすい
○140 The Social Dynamics of Economic Activity in a Virtual World
目的:Social Media上での経済行動についての調査 In second life
手法:ユーザー単位、グループ単位での経済高度についてrevenueをいろんな角度から計算・比較
結論:Social tieとsame group関係が購買行動に強い関連がある
同じグループの人を顧客リストに加えれば、利益がアップする
Social network構造がeconomic activityに影響を与える
○43 Your Brain on Facebook: Neuropsychological Associations with Social Versus other Media
目的:Social mediaと個人のassociation relationshipsを測定する
手法:脳波測定で、各メディアと結びつくイメージを測定する研究
具体的に、アンケートとりつつ、その反応を脳波測定する、という手法
結論:通常のアンケートだと、Facebookは、interesting, high addictive, highly personal
脳波による測定だと、Facebookは、他のメディアと比べて、story性がなく、かつpersonalではない。
○143 Towards Social Causality: An Analysis of Interpersonal Relations in Online Blogs and Forums
目的:ブログから因果関係を抽出する研究
手法:係り受け関係等から社会的因果関係を抽出する。
男女判定、行為の意図判定、依存関係の連鎖などを行う。
結果:以下見たいな因果関係が取得できた
・Relation with increased magnitude
criticize→insult→slap→stab→kill
・Good for Good
ask→help→thank
・Good for Bad
ignore→cheat→dump→sure→not blame
○19 How Does the Data Sampling Strategy Impact the Discovery of Information Diffusion in Social Media?
目的: どうやってデータをサンプリングしたら、実データとの差が小さくなるか
手法: Diffusionの定義 RT、同じURL含む、同じハッシュタグ
実際の全数データ分析結果とサンプリングデータ結果を比較
結果:Network topology + user contextual attributes の組み合わせてサンプリングすると
全数調査に近くなる。
普通のサンプリング方法と比べて、15〜20%改善
○124 Tagging Over Time: A Longitudinal Study of the Role of Attention, Network Density, and Motivations
目的: ユーザーのtagging行動を調べることで、ネットワークの構造、成長の関連性をみる
手法:Social Pshychology(Web-basedアンケート調査)とSocial Network Analysis
結論:tagging行動とユーザーのcommintmentには相関がない。tagging行動とユーザーのego-network構造には相関がある。
○155 Microblogging Inside and Outside the Workplace
目的:仕事でtwitterを使う効果について、質的、量的な検討
手法:質的検討:ユーザーへのインタビュー34名
量的検討:tweet数、RT数、Reply数、Ask Question数など。
Quantitive より qualitiveな検討が多い
結論:Twitterの利用は、職場のコミュニケーション活性に有効 他
○38 Measuring User Influence on Twitter: The Million Follower Fallacy
目的:Twitter上でのユーザーの影響力を測定
手法:以下の指標を利用
Indegree フォロワー数
Mention 発言のあとにreply
Retweet
結論:3つの影響指標は0.5~0.6くらい相関 ただし、in degreeはtop userについて相関弱
あとは、ハッシュタグでreweet、mentionの合計を測定
Indegreeは影響力への寄与は少なそう
=ブリトニースピアーズはFollower数は多いけど、影響力は少ない。
○94 The Directed Closure Process in Information Networks with an Analysis of Link Formation on Twitter
目的:Directed closureをもちいたtwitterネットワーク分析
手法:TwitterのfollowingネットワークからDirect Clossureを抽出して分析
結論:Directed ClosureがTwitterネットワークで重要な意味を持つ。
micro-celebrity(中程度のFollower数を持つユーザー)が多く見受けられる。
○122 Characterizing Microblogs with Topic Models
目的:Twitterの本質的な問題=follower数と実際にあるつぶやきを読んでる人の人数は 違う
どうしたらFollowするか?
手法:56人のheavy twitter user @Microsoft社員にアンケート
TfidfとLDAによるtopic modelとSVMによるclassification
結論:Content analysisで、ユーザ〜の特徴付け、推薦、filteringができる
Labeled LDA はトピック発見とユーザーのrankingに有用
ICWSM fullpaper まとめ 3日目
3日目の全体感想:
いよいよ最終日。午前中のみだったが、実はこのセッションが一番理論的で面白かった。
ML的にちゃんと新規性のある手法が目白押しだった、という意味。
特に Sarcastic Analysis(皮肉)はプレゼンが秀逸。
「評価が低いのにやたら褒めてる」→「これは皮肉に違いない」という発想は面白かった
まさかタイトルまで皮肉とはwww
あと、WorryとFear推測による、株式市場の値との相関も面白い。
最後のほう、力尽きて英語のままです。スミマセン。
○35 ICWSM - A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Product Reviews
目的:商品レビューから、皮肉の使い方をモデリング
パーソナライゼーションの精度向上
例
Great for insomniacs
Just read the book
手法:
Amazonの商品評価データを利用
星が1,2個なのに、使っている評価表現が非常にpositive⇨皮肉と思われる
パターンベース,punctuationベースの手法と比較
加えて、人手による評価と比較
※タイトル自体が皮肉になってる。ICWSMはすごい名前すぎて覚えづらい、みたいな
結論:
BaseLineの手法を比べて精度が向上した。
○105 Widespread Worry and the Stock Market
目的:Worryやfearがbroadするのを予測出来れば、marketに役立つよね?が目的
手法:
Data: Live Journal. 624,905 LJ mood-annotated posts from 2004.
Extracted 12,923 anxious,worry posts
C 1 boosted decision tree with top 100 stems
C 2. Bagged complement naive Bayes
辞書を利用
Anxiety indexを定義
Granger causality を計算
Endogenous model / fear model /
Monte Carlo simulationを実施
結論: worryやfearの広がりを推測することで、マーケットの値動きの上下が予測可能
○119 Star Quality: Aggregating Reviews to Rank Products and Merchants
目的: 複数サイトの比較により、biasを除去した本当の商品評価、店舗評価を取得したい
手法: Ratingの平均値、中間値、順序統計量、filteringしたり、いろいろ
評価goal. How reliability our ranking of true quality user satisfied with Idea.
⇨実際にこれは難しい
評価数の多いユーザーによる評価から各商品ペアの順序を取得し、その順序と
提案手法による順序を比較する=商品ペアごとの順序をもとに各手法比較
結論:
User behavior in reviews follows interesting pattern
Proposed diverse set of. Ranking system
Devised evaluation methodology
Outperforming the average may be more nuanced than we thought
○132 Study of Static Classification of Social Spam Profiles in MySpace
目的: Social media上でのspam発見
手法:Social profileをfeautureとして、とにかくいろんな機械学習手法を適用
Legitimate profiles, spam profiles
Random sampling. 900,000 legitimate profiles
1500 spam profiles
Supervised machine learning algorithms from Weka
機械学習の手法を色々適用:Adaboost, c4.5, svm , neural networks, naive Bayes
Feature : categorical data , free-form text
結論:
Discriminative power by chi-square test
分類に有効だったCategorical data
Smoke, drink, kids, defaultiM are high
あんまり有効でなかったfeature
Zodiac
Classification Performance.
C4.5 is the best
Classification adversarial
C4.5 is the beat, too
ICWSM fullpaper まとめ 2日目
2日目:全体感想
本日は、分析研究多し。
でもTwitterの選挙予想とか意見抽出は、自分の研究室でも似たような研究をやっているし、
自分も興味あるので、結構面白かった。あと、ローカルニュースのほうがTwitter上では伝わりやすい、
という研究も面白かった。
JureさんのSocial Media Governanceの研究とユーザーのLifespanの研究(どうやったら、ユーザーの参加を維持できるか)
は良くできていた。
自分のPoster準備が忙しくてあまりうまくまとめられてないけど。
○17 Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment
目的・背景:Social mediaを使った選挙での成功
Twongree
1.Twitterはプラットフォームになるか?
2. どれだけ有権者の意見を正しく伝えてくれるか
3. 選挙を予測できるか?
手法:立候補者名と政党名でTwitterを検索 LIWCというソフトを利用
サンプル ドイツの選挙
結論:31%が@を含む
19%がRetweet
ユーザーを選挙呟き発言回数で、分類 50%が一回だけ
LIWCで各呟きの感情、評価を分析
Leading candidateはだいたい同じ特徴を持つ
各連立グループごとに類似度を計算ー与党が一番高い
Twitterの政党名・候補者名を含む呟きの割合と選挙結果 ーーかなり一致。(90%以上)
ただし、ドイツの選挙は政党選挙で、各候補者の当落まで予想しているわけではない。、
○148 From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series
目的:Public opinionをtwitterから測定する
手法:Text sentiment analysisと電話による世論調査との比較
Topic keywordsでtweetを抽出 economy,jobs,job,Obama,McCain,
Sentiment analysis word counting
結論: Twitterの分析でも世論調査と同じ様な結果が得られる。
○75 Information Contagion: an Empirical Study of the Spread of News on Digg and Twitter Social Networks
目的:Social media上での情報伝播について
手法: digg、twitter+tweetmemeを利用 tweetmeme最もRTされたURLをトップに表示
結論: Digー大体ニュースがでてから20時間位で反応
Twitter ーニュースがでてから1時間くらいで反応
Information flow on networks
Dig. Voteが増えるにつれて伝播スピードがあがる
Twitter. RTに関係なく、伝播していく
Digの方が、密でよりconnectedなネットワーク
Dig ニュースの伝播スピード早いけど、twitterほど遠くまでは達しない
○30 Tweeting from the Town Square: Measuring Geographic Local Networks
目的・背景:ケネディ暗殺のニュース1時間で80%の人に拡がったらしい。
Local newsのTwitter上での伝播測定
近所の人ならニュースが伝わる??
手法:ローカルニュースと普通のニュースの伝播速度、伝播ユーザー数を比較
結論: ローカルニュースを呟いてるユーザーのネットワークは、普通のhash tagネットワークと比べてhigh density
24時間以内だとより高い。大体5倍くらい
上記ネットワークのcentralityの高い人は、地理的にも中心っぽい。
ニュースソースになっているユーザーはどのあたりにいるか?
本当にみた人、地元のラジオで働いている人、地元のジャーナリスト
ただし、FOXニュースでみた人もいる。このあたりがbias
○142 Governance in Social Media: A case study of the Wikipedia promotion process
目的:Social mediaのGovernanceについて。どのようにGovernanceすべきかを調査
手法:Wikipedia communityのメンバーの投票による、promotion決定プロセスにより調査
どのように意思決定がなされたか
結論:Relative merit が重要
Indivisuals' response functionの多様性
候補者と投票者の特徴の相対的な関係でどちらに投票するかが決まる
投票者が投票する時間も、投票者がどちらに投票するかに影響する。
感想:さすがJureさんの研究。よくまとまっている。
どう応用するかが難しいかな、とも思ってしまったけど。
○10 Activity Lifespan: An Analysis of User Survival Patterns in Online Knowledge Sharing Communities
目的:ユーザーのSurvival anasisys
どうしたら、ユーザーのparticipationを長期に維持できるか??
手法:長期間にわたる、communityの進化について測定
また、違うトピックに関するsub-communityの成長も測定
結論:Incentive design, much of high level answers, initial. InteractionがユーザーのParticipation維持に重要
○39 Responses to remixing on a social media sharing website
目的:User generated mediaにおいて、remixは盗作と見なされるか否か?
Plagiarism accusation, hinting plagiarism positive, negative
手法:ScratchというOnlineCommunity上においてデータ分析
Projectの類似性とそれに対する批判の相関性を比較。
目的: Projectの内容にかかわらず、Projectが類似しているときに糾弾されやすい
■
初日の全体感想:
Best Paperの研究=名前の特徴から民族判別する研究はさすが!!と思ったけど、そのほかは結構分析に終始する研究が多かった。
個人的には、どうやってデータをサンプリングするか、というネタとTwitter上の影響力を測る研究が結構興味深かった。
あと、脳波を測定した分析はちょっと笑った(いい意味で)そんなアプローチまであるとはwww。
新しい切り口で面白かった。
○20 Sequential Influence Models in Social Networks
目的:Wikipediaを使ったsocial network上での影響力比較
手法: snapshotモデルとordinal time モデルを比較
つまり、snapshot的なモデルと常に計測しているモデルでどのくらい違いがでるか??
結論:うまくやれば、両者には違いがないため、常に計測してなくても影響力は測定できる。
○47 ePluribus : Ethnicity on Social Networks
目的:Social Media上でユーザーの民族を判別する。White, Black, Asian, Hispanic
手法:
Topicモデルに基づいた手法
ユーザー名によて民族を判断。
結論:
結構正確。facebookの民族分布は、インターネットの民族分布と似ている
同じ民族同士の方が、友達になりやすく、コミュニケーションも多い
感想:
これはかなり面白い。さすがはベストペーパー。
○125 Who Acquires Friends Through Social Media and Why? “Rich Get Richer” versus “Seek and Ye Shall Find”
目的:オフラインでSocialityが高い人がOnline上でも友人ができやすいのか、それともOnline上での行動が活発な方がOnline上での
友人ができやすいのか?
「Rich get richer」と「Seek and ye shall findー求めよ、さらばあたえられん」
のどちらがSocial Mediaでの友人作りの寄与するのか?
手法:オンラインで友人ができるかの意識調査およびそれにもとづき、実際に友人ができたかどうか
結論:オフラインでのsocialityに関係なく、友人ができる思っていた人は友人ができる
○66 To be a star is not only metaphoric: from popularity to social linkage
目的:人気のあるユーザーはどのようなsocial Network構造をもっているのか調べる MySpace上。
手法:自己組織化マップを使ったsocial networkのクラスタリング
結論:人気のあるアーティストはstar構造を持ち、人気のないアーティストはclique構造を持ちやすい
○140 The Social Dynamics of Economic Activity in a Virtual World
目的:Social Media上での経済行動についての調査 In second life
手法:ユーザー単位、グループ単位での経済高度についてrevenueをいろんな角度から計算・比較
結論:Social tieとsame group関係が購買行動に強い関連がある
同じグループの人を顧客リストに加えれば、利益がアップする
Social network構造がeconomic activityに影響を与える
○43 Your Brain on Facebook: Neuropsychological Associations with Social Versus other Media
目的:Social mediaと個人のassociation relationshipsを測定する
手法:脳波測定で、各メディアと結びつくイメージを測定する研究
具体的に、アンケートとりつつ、その反応を脳波測定する、という手法
結論:通常のアンケートだと、Facebookは、interesting, high addictive, highly personal
脳波による測定だと、Facebookは、他のメディアと比べて、story性がなく、かつpersonalではない。
○143 Towards Social Causality: An Analysis of Interpersonal Relations in Online Blogs and Forums
目的:ブログから因果関係を抽出する研究
手法:係り受け関係等から社会的因果関係を抽出する。
男女判定、行為の意図判定、依存関係の連鎖などを行う。
結果:以下見たいな因果関係が取得できた
・Relation with increased magnitude
criticize→insult→slap→stab→kill
・Good for Good
ask→help→thank
・Good for Bad
ignore→cheat→dump→sure→not blame
○19 How Does the Data Sampling Strategy Impact the Discovery of Information Diffusion in Social Media?
目的: どうやってデータをサンプリングしたら、実データとの差が小さくなるか
手法: Diffusionの定義 RT、同じURL含む、同じハッシュタグ
実際の全数データ分析結果とサンプリングデータ結果を比較
結果:Network topology + user contextual attributes の組み合わせてサンプリングすると
全数調査に近くなる。
普通のサンプリング方法と比べて、15〜20%改善
○124 Tagging Over Time: A Longitudinal Study of the Role of Attention, Network Density, and Motivations
目的: ユーザーのtagging行動を調べることで、ネットワークの構造、成長の関連性をみる
手法:Social Pshychology(Web-basedアンケート調査)とSocial Network Analysis
結論:tagging行動とユーザーのcommintmentには相関がない。tagging行動とユーザーのego-network構造には相関がある。
○155 Microblogging Inside and Outside the Workplace
目的:仕事でtwitterを使う効果について、質的、量的な検討
手法:質的検討:ユーザーへのインタビュー34名
量的検討:tweet数、RT数、Reply数、Ask Question数など。
Quantitive より qualitiveな検討が多い
結論:Twitterの利用は、職場のコミュニケーション活性に有効 他
○38 Measuring User Influence on Twitter: The Million Follower Fallacy
目的:Twitter上でのユーザーの影響力を測定
手法:以下の指標を利用
Indegree フォロワー数
Mention 発言のあとにreply
Retweet
結論:3つの影響指標は0.5~0.6くらい相関 ただし、in degreeはtop userについて相関弱
あとは、ハッシュタグでreweet、mentionの合計を測定
Indegreeは影響力への寄与は少なそう
=ブリトニースピアーズはFollower数は多いけど、影響力は少ない。
○94 The Directed Closure Process in Information Networks with an Analysis of Link Formation on Twitter
目的:Directed closureをもちいたtwitterネットワーク分析
手法:TwitterのfollowingネットワークからDirect Clossureを抽出して分析
結論:Directed ClosureがTwitterネットワークで重要な意味を持つ。
micro-celebrity(中程度のFollower数を持つユーザー)が多く見受けられる。
○122 Characterizing Microblogs with Topic Models
目的:Twitterの本質的な問題=follower数と実際にあるつぶやきを読んでる人の人数は 違う
どうしたらFollowするか?
手法:56人のheavy twitter user @Microsoft社員にアンケート
TfidfとLDAによるtopic modelとSVMによるclassification
結論:Content analysisで、ユーザ〜の特徴付け、推薦、filteringができる
Labeled LDA はトピック発見とユーザーのrankingに有用
pLSIに関数調査
とりあえず、関係ありそうなURLを貼り付け
さすが、工藤拓さん。ちゃんとつくってある。
pLSA
PLSI
http://chasen.org/~taku/publications/plsi/plsi.html
http://chasen.org/~daiti-m/paper/topic2006.pdf
http://www.cs.pitt.edu/~milos/courses/cs3750/lectures/plsa.pdf
http://d.hatena.ne.jp/mjmania/20090812/1250004084
http://chasen.org/~taku/software/plsi/
EM
http://www.neurosci.aist.go.jp/~akaho/thesis/thesis-www/node16.html
Python
http://satomacoto.blogspot.com/2009/10/pythonplsa.html
R
http://wg-stein.blogspot.com/2009/11/probabilistic-latent-semantic-analysis.html
EmacsでUTF-8が文字化けしてしまう(豆腐になってしまう)
以下のページで解決しました.
原因は.emacsと.bash_profileの設定だったっぽい。
http://d.hatena.ne.jp/qnzm/20090118/1232256216
ちなみに豆腐とは、全角日本語が文字化けして「□」(正確には縦に長い長方形)で表示されてしまうこと。
Emacs Anthyで日本語入力
何はともあれ、このサイトを参照すればだいたい分かる。
http://d.hatena.ne.jp/maudlin/20060411/p1
はじめに。やっぱりemacs!
私がUNIXにこだわる理由の一つはemacsであると言っても過言ではありません。Emacsがなければ私の生産性はきっと半分以下に落ちてしまうと思っています。
Thanks to GNU, Richard, 半田先生 and all emacs communities!!
ところでFreeのUNIXで日本語入力をする場合に問題として、漢字変換エンジンがあまり賢くない*1という不満がありました。私の場合は、OMRON SoftのWnn7を購入して利用していました。当時、emacs@linuxで「貴社の記者が汽車で帰社した」というセンテンスが一発で変換できたときの喜びはひとしおでした。ところでFC5には、Anthyという新しい漢字変換エンジンが搭載されています。この漢字変換エンジンはこれまでのFreeWnnやCannaに比べると効率の良い漢字変換を実現してくれると感じています。というわけで、今回のTIPSはAnthyをemacsから使えるようにするというものです。
RPMのインストール
emacs, anthyに関連するパッケージは基本的にrpmで提供されていますから、導入は非常に簡単です。yumを使ってインストールを行うことをお勧めします。
# yum install emacs emacs-leim anthy-el
インストールはこれで完了です。
.emacsの設定
.emacsにanthyを使うための設定を記述します。もちろん、/usr/share/emacs/site-list/site-start.d/に作成しても良いです。
;; anthy
(set-language-environment "Japanese")
(setq default-input-method "japanese-anthy")
これは個人的な好みなのですが、CTRL-SPACEで入力モードのトグルができるようにしています。以下の記述を.emacsに追加してください。
(global-set-key [?\C-\ ] 'toggle-input-method)
SCIM対策
FC5上のX Windowで単純にemacsを起動すると、SCIMがemacsの必要とするキーバインディングのいくつかを奪ってしまいます。個人的な好みとして設定しているCTRL-SPACEによる入力モードのトグルや、標準でeval-print-last-sexpにバインドされているCTRL-jなどが使えないのです。そこで、emacsを使うときにはSCIMからの干渉を受けないように設定を行う必要があります。
これはemacs起動時にコマンドラインから環境変数を設定することで実現することができます。
$ XMODIFIERS=@im=NONE emacs
/etc/profile.d/emacs.shとして、以下のような内容のファイルを作成して使っています。
alias emacs=’XMODIFIERS=@im=NONE emacs'
こうしておくことで、シェルからemacsを起動したときにはいつでも、SCIMの干渉を受けないような設定でemacsが起動します。
UTF-8への対応
日本語環境としてインストールした場合、FC5のデフォルトロケールは、ja_JP.UTF-8になります。そこでemacsでもエンコーディングがUTF-8のファイルを読めるようにしたいと思います。
FC5で提供されているemacsは最初からUTF-8に対応した形でコンパイルされていますので、.emacsへの設定を追加するだけで行うことができます。
(prefer-coding-system ‘utf-8)
なお、UTF-8で記述されたファイルを端末上で閲覧するときには、lessコマンドの変わりにlvコマンドを使うようにすると便利です。