SMART Contract

In document Презентация PowerPoint (Page 50-56)

2. ADFPベースのファンドマーケットのSYSTEM

2.1. ADFPベースのファンドマーケットの機能とSYSTEM

2.1.1. SMART Contract

Dokumen-dokumen yang digunakan dalam penelitian ini merupakan terjemahan Al Qur’an surat Al Baqarah. Surat Al Baqarah merupakan surat terpanjang dalam Al Qur’an dengan jumlah 286 ayat. Sumber dokumen mengacu pada Al Qur’an dan Terjemahan DEPAG (1989). Satu terjemahan ayat direpresentasikan dengan satu dokumen. Gambaran Umum Sistem

Gambaran umum sistem QAS yang dikembangkan dapat dilihat pada Gambar 1.

Gambar 1 Gambaran umum sistem.

Proses awal pada sistem QAS adalah dengan mengambil dokumen-dokumen (ayat- ayat) berekstensi teks (*.txt) yang terdapat pada satu direktori dan menyimpan nama masing-masing dokumen dalam tabel penyimpanan dokumen. Kemudian, dokumen- dokumen tersebut dipecah menjadi kalimat- kalimat yang dimasukkan ke dalam tabel penyimpanan kalimat. Pada kalimat dokumen dilakukan parsing, penghilangan stopwords, dan stemming yang akan menghasilkan token- token kalimat. Token-token dari kalimat dokumen disimpan dalam tabel penyimpanan kata.

Pengguna memasukkan kueri berupa kalimat pertanyaan. Dalam proses pencarian kalimat jawaban, kalimat kueri mengalami parsing, penghilangan stopwords, dan stemming yang akan menghasilkan token- token kueri.

Token-token pada setiap kalimat dokumen dan kalimat kueri dibandingkan dalam proses WordMatch, kemudian masuk ke dalam rule sesuai dengan tipe kueri yang diberikan. Dari proses tersebut, masing-masing kalimat akan memperoleh nilai berdasarkan nilai WordMatch dan rule. Kalimat yang dikembalikan sebagai kalimat jawaban adalah kalimat yang memiliki nilai paling tinggi.

Indexing

Cakupan istilah indexing pada penelitian ini hanya meliputi proses pemecahan kalimat menjadi token-token, penghilangan stopwords, dan stemming. Proses pemecahan (parsing) dokumen menjadi kalimat-kalimat dilakukan hanya berdasarkan separator titik(.). Kemudian setiap kalimat itu kembali dipecah menjadi token-token. Begitu pula dengan kalimat pertanyaan pada kueri akan dipecah menjadi token-token. Kemudian dilakukan proses penghilangan stopwords dan stemming. Token-token dari setiap kalimat dokumen dan kalimat kueri yang telah di-stem akan dibandingkan.

WordMatch

Setiap token yang sama dari kalimat dokumen dan kalimat kueri akan memberikan nilai clue (+3) pada kalimat dokumen tersebut. Pembandingan inilah yang disebut proses WordMatch.

Dokumen-Dokumen Parsing Kalimat-kalimat Kueri Parsing Stemming Token-token kalimat Token-token kueri WordMatch Rules Kalimat Jawaban data nama dokumen data kalimat data token Penghilangan stopwords Kalimat

Kalimat adalah satuan bahasa terkecil, dalam wujud lisan atau tulisan, yang mengungkapkan pikiran yang utuh (Alwi et al. 2003). Dalam wujud tulisan berhuruf Latin, kalimat dimulai dengan huruf kapital dan diakhiri oleh tanda titik (.), tanda tanya (?), atau tanda seru (!).

METODE PENELITIAN

Koleksi Dokumen Pengujian

Dokumen-dokumen yang digunakan dalam penelitian ini merupakan terjemahan Al Qur’an surat Al Baqarah. Surat Al Baqarah merupakan surat terpanjang dalam Al Qur’an dengan jumlah 286 ayat. Sumber dokumen mengacu pada Al Qur’an dan Terjemahan DEPAG (1989). Satu terjemahan ayat direpresentasikan dengan satu dokumen. Gambaran Umum Sistem

Gambaran umum sistem QAS yang dikembangkan dapat dilihat pada Gambar 1.

Gambar 1 Gambaran umum sistem.

Proses awal pada sistem QAS adalah dengan mengambil dokumen-dokumen (ayat- ayat) berekstensi teks (*.txt) yang terdapat pada satu direktori dan menyimpan nama masing-masing dokumen dalam tabel penyimpanan dokumen. Kemudian, dokumen- dokumen tersebut dipecah menjadi kalimat- kalimat yang dimasukkan ke dalam tabel penyimpanan kalimat. Pada kalimat dokumen dilakukan parsing, penghilangan stopwords, dan stemming yang akan menghasilkan token- token kalimat. Token-token dari kalimat dokumen disimpan dalam tabel penyimpanan kata.

Pengguna memasukkan kueri berupa kalimat pertanyaan. Dalam proses pencarian kalimat jawaban, kalimat kueri mengalami parsing, penghilangan stopwords, dan stemming yang akan menghasilkan token- token kueri.

Token-token pada setiap kalimat dokumen dan kalimat kueri dibandingkan dalam proses WordMatch, kemudian masuk ke dalam rule sesuai dengan tipe kueri yang diberikan. Dari proses tersebut, masing-masing kalimat akan memperoleh nilai berdasarkan nilai WordMatch dan rule. Kalimat yang dikembalikan sebagai kalimat jawaban adalah kalimat yang memiliki nilai paling tinggi.

Indexing

Cakupan istilah indexing pada penelitian ini hanya meliputi proses pemecahan kalimat menjadi token-token, penghilangan stopwords, dan stemming. Proses pemecahan (parsing) dokumen menjadi kalimat-kalimat dilakukan hanya berdasarkan separator titik(.). Kemudian setiap kalimat itu kembali dipecah menjadi token-token. Begitu pula dengan kalimat pertanyaan pada kueri akan dipecah menjadi token-token. Kemudian dilakukan proses penghilangan stopwords dan stemming. Token-token dari setiap kalimat dokumen dan kalimat kueri yang telah di-stem akan dibandingkan.

WordMatch

Setiap token yang sama dari kalimat dokumen dan kalimat kueri akan memberikan nilai clue (+3) pada kalimat dokumen tersebut. Pembandingan inilah yang disebut proses WordMatch.

5 100% × ∑ ∑

=

A Ar Relevansi Identifikasi Tipe Pertanyaan

Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu

pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret (tidak termasuk di dalamnya yes/no question). 2 SIAPA, yang menanyakan orang atau

makhluk hidup lain yang melakukan sesuatu.

3 KAPAN, yang menanyakan waktu terjadinya suatu peristiwa.

4 MANA, yang menanyakan tempat. 5 MENGAPA, yang menanyakan tujuan

atau sebab terjadinya sesuatu.

Dalam penelitian ini, tipe pertanyaan BAGAIMANA tidak diikutsertakan karena jawabannya adalah suatu penjelasan. Begitu pula dengan tipe pertanyaan MANA yang menanyakan suatu pilihan. Dari lima tipe pertanyaan di atas, akan dilakukan pembelajaran rule yang akan digunakan berdasarkan pola kalimat yang dimiliki dokumen.

Pengelompokan Tipe Jawaban

Untuk dapat menemukan jawaban yang tepat, perlu dilakukan pembelajaran terhadap sistem, di antaranya adalah pengelompokan tipe jawaban. Tipe jawaban ini disusun dalam suatu kamus yang dibuat secara manual. Temu Kembali Jawaban

Tiap petunjuk pada kalimat dalam dokumen akan mendapatkan nilai berdasarkan hasil dari WordMatch dan rule yang ada, sesuai dengan tingkat relevansinya terhadap kueri pertanyaan yang diberikan. Dalam hal ini ada empat tingkatan nilai, yakni (Rillof & Thelen 2000):

clue (+3), good_clue (+4), confident (+6), slam_dunk (+20).

Kalimat yang ditemukembalikan adalah kalimat yang memiliki nilai tertinggi dibandingkan nilai kalimat lain.

Evaluasi Question Answering System

Metode yang digunakan dalam evaluasi Question Answering System ini adalah dengan melihat persentase antara jumlah kalimat relevan yang ditemukembalikan terhadap

jumlah seluruh kalimat yang ditemukembalikan. Semakin besar hasil persentase, maka kinerja sistem akan semakin baik. Kalimat jawaban yang ditemukembalikan adalah kalimat yang memiliki nilai tertinggi dibandingkan kalimat lain. Rumus yang digunakan yaitu

dengan:

Relevansi = Persentase hasil relevansi ∑Ar = Jumlah kalimat relevan

yang ditemukembalikan ∑A = Jumlah kalimat yang

ditemukembalikan Asumsi

Asumsi-asumsi yang digunakan dalam penelitian ini yaitu:

1 Kamus pengelompokan tipe jawaban yang digunakan dibuat secara manual. 2 Rule-rule yang digunakan dibuat dengan

memperhatikan dokumen yang digunakan.

3 Tidak dilakukan kajian terhadap hubungan makna semantik dalam dokumen.

Lingkungan Implementasi

Lingkungan implementasi yang digunakan adalah sebagai berikut:

• Perangkat lunak: Windows XP Professional SP 2, XAMPP versi 1.4.13 (PHP: 5.0.4, MySQL: 4.1.11, dan Apache: 2.0.53), Macromedia Dreamweaver MX 2004, Internet Explorer 7.0, Netscape versi 8.0.1.

• Perangkat keras: Prosesor Intel Pentium IV 2.8 GHz, RAM 768 MB, harddisk 40 GB, keyboard, mouse, dan monitor.

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Dokumen pengujian berformat teks (*.txt). Nama dokumen berdasarkan urutan ayat dalam terjemahan surat Al Baqarah. Jumlah digit angka yang digunakan pada nama dokumen adalah tiga, sehingga pemberian nama dokumen pada ayat 2 adalah Ayat 002. Dokumen disimpan dalam satu direktori dan

100% × ∑ ∑

=

A Ar Relevansi Identifikasi Tipe Pertanyaan

Ada beberapa tipe pertanyaan yang digunakan dalam Bahasa Indonesia, yaitu: 1 APA, yang menanyakan suatu

pengertian, tujuan, manfaat, kata benda, baik abstrak maupun konkret (tidak termasuk di dalamnya yes/no question). 2 SIAPA, yang menanyakan orang atau

makhluk hidup lain yang melakukan sesuatu.

3 KAPAN, yang menanyakan waktu terjadinya suatu peristiwa.

4 MANA, yang menanyakan tempat. 5 MENGAPA, yang menanyakan tujuan

atau sebab terjadinya sesuatu.

Dalam penelitian ini, tipe pertanyaan BAGAIMANA tidak diikutsertakan karena jawabannya adalah suatu penjelasan. Begitu pula dengan tipe pertanyaan MANA yang menanyakan suatu pilihan. Dari lima tipe pertanyaan di atas, akan dilakukan pembelajaran rule yang akan digunakan berdasarkan pola kalimat yang dimiliki dokumen.

Pengelompokan Tipe Jawaban

Untuk dapat menemukan jawaban yang tepat, perlu dilakukan pembelajaran terhadap sistem, di antaranya adalah pengelompokan tipe jawaban. Tipe jawaban ini disusun dalam suatu kamus yang dibuat secara manual. Temu Kembali Jawaban

Tiap petunjuk pada kalimat dalam dokumen akan mendapatkan nilai berdasarkan hasil dari WordMatch dan rule yang ada, sesuai dengan tingkat relevansinya terhadap kueri pertanyaan yang diberikan. Dalam hal ini ada empat tingkatan nilai, yakni (Rillof & Thelen 2000):

clue (+3), good_clue (+4), confident (+6), slam_dunk (+20).

Kalimat yang ditemukembalikan adalah kalimat yang memiliki nilai tertinggi dibandingkan nilai kalimat lain.

Evaluasi Question Answering System

Metode yang digunakan dalam evaluasi Question Answering System ini adalah dengan melihat persentase antara jumlah kalimat relevan yang ditemukembalikan terhadap

jumlah seluruh kalimat yang ditemukembalikan. Semakin besar hasil persentase, maka kinerja sistem akan semakin baik. Kalimat jawaban yang ditemukembalikan adalah kalimat yang memiliki nilai tertinggi dibandingkan kalimat lain. Rumus yang digunakan yaitu

dengan:

Relevansi = Persentase hasil relevansi ∑Ar = Jumlah kalimat relevan

yang ditemukembalikan ∑A = Jumlah kalimat yang

ditemukembalikan Asumsi

Asumsi-asumsi yang digunakan dalam penelitian ini yaitu:

1 Kamus pengelompokan tipe jawaban yang digunakan dibuat secara manual. 2 Rule-rule yang digunakan dibuat dengan

memperhatikan dokumen yang digunakan.

3 Tidak dilakukan kajian terhadap hubungan makna semantik dalam dokumen.

Lingkungan Implementasi

Lingkungan implementasi yang digunakan adalah sebagai berikut:

• Perangkat lunak: Windows XP Professional SP 2, XAMPP versi 1.4.13 (PHP: 5.0.4, MySQL: 4.1.11, dan Apache: 2.0.53), Macromedia Dreamweaver MX 2004, Internet Explorer 7.0, Netscape versi 8.0.1.

• Perangkat keras: Prosesor Intel Pentium IV 2.8 GHz, RAM 768 MB, harddisk 40 GB, keyboard, mouse, dan monitor.

HASIL DAN PEMBAHASAN

Koleksi Dokumen Pengujian

Dokumen pengujian berformat teks (*.txt). Nama dokumen berdasarkan urutan ayat dalam terjemahan surat Al Baqarah. Jumlah digit angka yang digunakan pada nama dokumen adalah tiga, sehingga pemberian nama dokumen pada ayat 2 adalah Ayat 002. Dokumen disimpan dalam satu direktori dan

6

tidak terdapat tag-tag tertentu seperti XML atau HTML.

Satu dokumen berisi satu terjemahan ayat. Dalam penelitian ini, sebuah kalimat harus diakhiri oleh tanda titik(.). Dalam satu dokumen minimal berisi satu kalimat. Dalam dokumen yang digunakan, terdapat beberapa dokumen yang merupakan gabungan dari dua atau tiga ayat. Penggabungan dilakukan karena terdapat beberapa ayat yang diakhiri oleh tanda koma(,) dan ayat berikutnya merupakan lanjutan dari ayat sebelumnya. Penggabungan dilakukan secara manual oleh penulis. Ayat 002 dan 003 adalah contoh ayat yang diakhiri oleh tanda koma(,) dan masih berkelanjutan dengan ayat berikutnya, sehingga ayat 002, 003, dan 004 digabungkan menjadi satu dokumen. Contoh dokumen yang demikian dapat dilihat pada Lampiran 1.

Untuk ayat yang kalimatnya diakhiri oleh tanda tanya(?) atau tanda seru(!) dan tidak berhubungan dengan ayat selanjutnya, penulis menambahkan tanda titik(.) secara manual di akhir kalimatnya. Contoh ayat yang kalimatnya diakhiri oleh tanda tanya(?) yaitu ayat 044 dan dapat dilihat pada Lampiran 2. Ayat 175 adalah contoh ayat yang kalimatnya diakhiri oleh tanda seru(!) dan dapat dilihat pada Lampiran 3.

Berdasarkan jumlah ayat surat Al Baqarah, seharusnya jumlah dokumen yang digunakan sebanyak 286 dokumen. Namun, setelah dilakukan proses penggabungan ayat, jumlah dokumen yang digunakan menjadi 274. Nama dokumen menunjukkan ayat terjemahan. Ayat 002-004 menunjukkan bahwa dokumen tersebut berisi terjemahan ayat 002, 003, dan 004. Ayat 001 menunjukkan bahwa dokumen tersebut berisi terjemahan ayat 001. Nama dokumen yang digunakan kemudian disimpan dalam tabel tb_dokumen. Jumlah kalimat dalam keseluruhan dokumen adalah 609.

Indexing

Proses awal dalam indexing yaitu menyimpan nama dokumen yang digunakan sebagai dokumen uji dalam tabel tb_dokumen. Struktur tabel tb_dokumen dapat dilihat pada Tabel 1.

Tabel 1 Struktur tabel tb_dokumen

Nama Kolom Tipe Keterangan

idDokumen SMALL INT

Primary key

namaDokumen TEXT -

Field idDokumen merupakan urutan penyimpanan dokumen berdasarkan jumlah dokumen yang digunakan. Proses penyimpanan nama dokumen terurut seperti proses penyimpanan file biasa, misalnya Ayat 001, Ayat 002, Ayat 003, Ayat 004, dan seterusnya. Nama dokumen disimpan dalam field namaDokumen.

Parsing pada dokumen diawali dengan memisahkan kalimat-kalimat dokumen berdasarkan separator titik(.). Hasil proses ini berupa array kalimat yang kemudian disimpan dalam tabel tb_kalimat. Struktur tabel tb_kalimat dapat dilihat pada Tabel 2. Tabel 2 Struktur tabel tb_kalimat

Nama Kolom

Tipe Keterangan

idDok SMALLINT Primary key idKalimat SMALLINT Primary key

kalimat TEXT -

score SMALLINT - Field idDok mengacu ke field idDokumen pada tabel tb_dokumen. Field idKalimat menunjukkan urutan kalimat pada dokumen yang bersangkutan. Array kalimat yang dihasilkan disimpan dalam field kalimat. Field score digunakan untuk menyimpan nilai yang diperoleh masing-masing kalimat dari proses Wordmatch dan pembobotan berdasarkan rule dari tipe kueri pengguna. Pada indexing dokumen dan awal proses pengolahan terhadap kueri, field score masing-masing kalimat diberi nilai nol(0).

Parsing pada kalimat diawali dengan proses case folding yaitu membuat semua huruf pada teks yang akan di-parsing menjadi huruf kecil. Proses tersebut dilakukan untuk memperkecil ukuran basis data pada indeks (Nadirman 2006). Penelitian ini memanfaatkan algoritma parsing Ikhsani (2006) dengan melakukan penambahan algoritma untuk penghilangan stopwords dalam melakukan parsing dan menciptakan token unik.

Stopwords berisi kata-kata umum yang hampir selalu ada pada dokumen. Stopwords yang digunakan mengacu pada stopwords Nadirman (2006) dengan melakukan penyesuaian terhadap daftar kata-kata umum yang terdapat pada dokumen pengujian. Kata- kata umum yang digunakan sebagai identitas pada rule dan kamus tipe jawaban tidak disertakan dalam stopwords. Contoh kata-kata umum yang digunakan sebagai identitas rules yaitu: adalah, agar, karena, dan pada. Contoh

tb_dokumen idDokumen namaDokumen tb_kalimat idDok namaDokumen idkalimat score tb_kata idDok kata idkalimat 1 N 1 N

kata-kata umum yang digunakan dalam kamus tipe jawaban yaitu: mereka, aku, dan dia.

Daftar kata stopwords disimpan dalam kamus k_stopwords.txt dan dapat dilihat pada Lampiran 4. Setelah dilakukan proses penghilangan stopwords dihasilkan token- token yang menjadi indeks suatu dokumen.

Stemming dilakukan pada setiap token dengan menggunakan algoritma stemming Ridha (2002) dengan melakukan perubahan pada beberapa aturan yang tidak diperlukan terhadap dokumen pengujian. Setelah dilakukan pengkajian terhadap dokumen yang digunakan, tidak ditemukan kata-kata yang menggunakan imbuhan asing, sehingga proses penghilangan imbuhan asing (remove foreign suffixs) tidak digunakan.

Kalimat kueri juga mengalami parsing dan stemming seperti pada kalimat dokumen. Hasil parsing dan stemming dari kalimat kueri dimasukkan dalam array, sedangkan hasil parsing dan stemming dari kalimat dokumen disimpan dalam tabel tb_kata. Struktur tabel tb_kata dapat dilihat pada Tabel 3.

Tabel 3 Struktur tabel tb_kata

Nama Kolom Tipe

idDokumen SMALLINT idKalimat SMALLINT kata TINYTEXT

Hasil parsing dan stemming untuk masing- masing kalimat dari tb_kalimat disimpan di field kata pada tabel tb_kata. Field idDokumen dan idKalimat mengacu pada field idDok dan idKalimat pada tabel tb_kalimat. Keterhubungan antartabel dapat dilihat pada Gambar 2.

Gambar 2 Keterhubungan antartabel.

WordMatch

Kalimat dokumen maupun kalimat kueri yang telah dipecah menjadi token-token dan telah di-stemming akan dibandingkan. Algoritma WordMatch dibuat sendiri oleh penulis. Dalam proses perbandingan antara token-token dalam kalimat dokumen dan token-token dalam kalimat kueri, jika terdapat token yang sama akan menambahkan nilai clue (+3) pada kalimat dokumen tersebut.

Pengelompokan Tipe Jawaban

Untuk dapat menemukan kalimat jawaban yang tepat, perlu dilakukan pembelajaran terhadap sistem, di antaranya dengan melakukan pengelompokan tipe jawaban berdasarkan tipe pertanyaan. Tipe jawaban ini disusun dalam suatu kamus yang dibuat secara manual. Kamus yang dihasilkan yaitu:

1 ORANG, jawaban dari pertanyaan SIAPA, yang dapat diidentifikasi dengan adanya sebutan atas seseorang, Nabi, Allah, dan makhluk lainnya. Beberapa yang termasuk dalam kamus ORANG ini adalah Allah, Kami, Dia, Engkau, manusia, dan syaitan. Tipe jawaban ini disimpan dalam kamus bernama kamus_orang.txt dan dapat dilihat pada Lampiran 5.

2 WAKTU, jawaban dari pertanyaan KAPAN yang mengidentifikasi waktu terjadinya suatu peristiwa. Hari, malam, dan tahun merupakan contoh kata yang tergolong dalam kamus WAKTU. Tipe jawaban ini disimpan dalam kamus bernama kamus_waktu.txt dan dapat dilihat pada Lampiran 6.

3 TEMPAT, jawaban dari pertanyaan MANA, terdiri dari beberapa nama tempat yang terdapat pada dokumen. Nama tempat yang terdapat dalam dokumen misalnya Shafa, neraka, dan surga. Tipe jawaban ini disimpan dalam kamus bernama kamus_tempat.txt dan dapat dilihat pada Lampiran 7.

Selain mengelompokkan tipe jawaban, untuk memperoleh jawaban yang akurat tentu saja disertai implementasi rule yang dijelaskan pada sub bab algoritma rule. Untuk jawaban dari pertanyaan MENGAPA langsung diimplementasikan dalam sistem. Caranya adalah dengan mengidentifikasi kata agar, karena, dan supaya dari indeks. Begitu pula dengan jawaban dari pertanyaan APA langsung diimplementasikan dalam sistem dengan mengidentifikasi kata adalah dan yaitu dari indeks.

8

Algoritma Rule

Dalam penelitian ini digunakan metode rule-based. Setelah dilakukan pengkajian terhadap pola kalimat dokumen yang digunakan dan kemungkinan pola kalimat kueri dengan menggunakan bahasa alami, maka disusun algoritma rule. Algoritma yang dihasilkan adalah sebagai berikut:

1. “APA” Q = (Q - {apa}) If(Q,{Allah}) then (Q + {kami}) elseif(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += wordMatch (Q,S) If contains (Q,{maksud}) and contains (S,{adalah,yaitu}) then Score(S) += slam_dunk

If contains (S,{adalah,yaitu}) then Score(S) += confident 2. “MENGAPA” Q = (Q - {mengapa}) If(Q,{Allah}) then (Q + {kami}) elseif(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += WordMatch(Q,S) If contains (S,{agar,karena,supaya}) then Score(S) += slam_dunk 3. “SIAPA” Q = (Q - {siapa}) If(Q,{Allah}) then (Q + {kami}) elseif(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += wordMatch (Q,S) If ~contains (Q, ORANG) and contains (S, ORANG) then Score(S) += confident If contains (Q, ORANG) and contains (S, ORANG) then Score(S) += slam_dunk 4. “ KAPAN” Q = (Q - {kapan}) If(Q,{kami}) then (Q + {kamu}) else (Q,Q) Score(S) += wordMatch(Q,S)

If contains (S, WAKTU) and contains (S,{pada,selama}) then

Score(S) += confident If contains (S,WAKTU) then Score(S) += good_clue 5. “MANA”

Q = (Q - {mana,dimana,kemana}) Score(S) += wordMatch(Q,S) If contains (S,TEMPAT) then Score(S) += slam_dunk

Keterangan: S = sentence (kalimat dokumen) Q = query (kalimat kueri)

Secara umum, algoritma rule yang digunakan berbeda dengan algoritma rule Riloff & Thelen (2000). Setelah parsing kalimat kueri dan penentuan tipe pertanyaan berdasarkan kalimat kueri, kata penunjuk tipe pertanyaan pada kalimat kueri dihilangkan.

Pada kueri yang memiliki tipe pertanyaan ”APA”, ”MENGAPA”, dan ”SIAPA”, proses selanjutnya adalah menambahkan kata kami pada kueri yang mengandung kata Allah, menambahkan kata kamu pada kueri yang mengandung kata kami, dan tidak menambahkan kata apapun untuk selainnya. Pada kueri yang memiliki tipe pertanyaan ”KAPAN”, hanya akan ditambahkan kata kamu jika kueri mengandung kata kami. Di lain pihak, untuk kueri yang memiliki tipe pertanyaan ”MANA”, kueri tidak mengalami proses seperti yang telah dijelaskan.

Setelah proses manipulasi kueri, kueri akan di-stemming. Dari token-token kueri yang dihasilkan akan dilakukan proses pemberian nilai berdasarkan WordMatch dan rule yang ada.

Evaluasi Question Answering System

Tujuan dari Question Answering System yaitu menemukembalikan informasi yang relevan dan sedikit mungkin menemukembalikan informasi yang tidak relevan. Menurut Nadirman (2006), relevan atau tidaknya suatu informasi yang ditemukembalikan hanya dapat dilakukan dengan cara membaca dokumen itu satu persatu.

9 6. 67 47. 4 4 76 .2 5 43 . 33 97 .5 78 .3 3 9 0 5 6. 67 6 8. 03 39. 9 4 0 10 20 30 40 50 60 70 80 90 100 P e rs en ta se R e lev a n s i (% )

APA MENG APA SIAPA KAPAN MANA

Tipe Pertanyaan

Penelitian Pengguna Umum

Menurut Rijsbergen (1979), relevansi merupakan sesuatu yang sifatnya subjektif. Setiap orang mempunyai perbedaan untuk mengartikan bahwa dokumen itu relevan atau tidak terhadap sebuah topik informasi. Oleh karena itu dalam penelitian ini digunakan suatu set dokumen kecil yang membentuk suatu pola kueri yang relevan terhadap sistem dan juga kalimat jawaban yang benar berdasarkan kueri yang diberikan (relevance judgement). Relevance judgement yang digunakan dapat dilihat pada Lampiran 8.

Kalimat jawaban yang ditemukembalikan adalah kalimat yang memiliki nilai tertinggi dibandingkan kalimat lain. Nilai tertinggi dari suatu kalimat jawaban akan selalu berubah berdasarkan kueri yang diberikan.

Pada evaluasi Question Answering System ini, digunakan dua macam kueri. Kueri yang pertama adalah kueri yang digunakan dalam penelitian berdasarkan rule yang telah dibuat.

Jumlah kueri yang digunakan dalam penelitian sebanyak lima puluh, di mana terdapat sepuluh kueri pada setiap tipe pertanyaan. Kueri yang digunakan dalam penelitian dapat dilihat pada Lampiran 9. Kueri kedua adalah kueri yang diberikan oleh pengguna umum tanpa mengetahui rule yang digunakan dalam sistem. Banyak pengguna umum adalah sepuluh orang di mana masing-masing pengguna memberikan satu kueri untuk setiap tipe pertanyaan. Contoh kueri yang diberikan oleh pengguna umum dapat dilihat pada Lampiran 10.

Dari kueri yang diberikan akan diketahui jumlah kalimat jawaban yang relevan menurut pengguna. Hasil evaluasi dinyatakan dalam persentase jumlah kalimat jawaban yang relevan menurut pengguna terhadap jumlah kalimat jawaban yang ditemukembalikan berdasarkan tipe pertanyaan. Hasil evaluasi Question Answering System terhadap dua

In document Презентация PowerPoint (Page 50-56)

Related documents