Apa Yang Dicari Orang-Orang Di Twitter?   Leave a comment

Aspek lain yang penting dari perbedaan antara pencarian pada Twitter dengan Web dapat dipahami dengan menganalisis teks dari hasil pencarian yang ditampilkan. Untuk memperkirakannya ddigunakanlah crawl 8 juta post yang disediakan oleh spritzer stream Spritzer stream merupakan sebuah stream publik yang mengandung sampled dari semua twitter post publik. Hasil pencarian Twitter berbeda dari hasil pencarian Web. Pencarian Twitter seluruh isi dari setiap hasil disajikan kepada user dalam daftar hasil (result list). Sebaliknya, hasil pencarian web biasanya disajikan sebagai daftar hyperlink, masing-masing dengan sebuah algoritma mengekstaksi cuplikan teks yang didisain untuk membantu searcher memilih hyperlink mana untuk dikunjungi.

Untuk merepresentasikan hasil pencarian Web, kami mengekstraksi judul dan ringkasan teks dari semua hasil yang disajikan oleh Bing dari logs query search enginenya untuk query yang sama dari periode waktu yang sama. Term yang sangat umum dan sangat langka difilter dari setiap kumpulan hasil query yang spesifik, sebagai standar latihan untuk tipe analisis yang kami lakukan. Perbedaan yang paling tinggi antara kumpulan hasil Twitter dan Web ada pada jumlah informasi yang tersedia yang mengikuti sebuah query. Relatif pendeknya panjang dari tweet mencerminkan perilaku posting Twitter dengan adanya sistem 140 batas karakter. Sebaliknya, relatif lebih panjangnya panjang dari cuplikan web mencerminkan tujuan dari search engine dalam mendukung kebutuhan pencarian Web pengguna. Karena cuplikan web yang berhubungan dengan halaman Web, lebih banyak isi dapat ditemukan via link following. Hasil twitter, sebaliknya, menyediakan teks lengkap dari tweets yang cocok dan biasanya dibaca dalam keseluruhan dalam daftar hasil.

Latent Dirichlet Allocation (LDA) merupakan metode yang dapat secara siap beradaptasi dengan data dan beroperasi pada ruang dimensi yang lebih rendah secara partikular lebih tepat. LDA mengasumsikan adanya sejumlah kecil topil yang mendasarinya, masing-masing direpresentasikan sebagai distribusi multinominal melalui kata-kata. Model ini mengasumsikan masing-masing dokument (di sini, cuplikan web/ tweet) dihasilkan dengan terlebih dahulu memilih distribusi dokumen spesifik atas topik, dan kemudian memilih setiap kata dari distribusi kata dari topik di proporsi keduanya untuk seberapa banyak dokumen menggunakan topik dan seberapa banyak topik menggunakan kata itu.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: