3 Sports
4 Sports Figures
2-5. カ テ ゴ リ ご と に , カ テ ゴ リ 名 及 び そ れ に 属 す る 全 ト ピ ッ ク 名 を フ ァ イ ル ”GOAL/CATEGORYplus/cp( カテゴリ番号 ).txt” に出力
中身は行ごとにカテゴリ名またはトピック名
<GOAL/CATEGORYplus/cp1.txt
例> < GOAL/CATEGORYplus/cp3.txt
例>
< GOAL/CATEGORYplus/cp2.txt
例>
Art, Language, & Literature Architecture
Architecture Artists
Literature & Writing Literature & Writing Literature & Writing
National & Regional Literature National & Regional Literature National & Regional Literature National & Regional Literature National & Regional Literature
Life Science
People in Life Science People in Life Science People in Life Science People in Life Science People in Life Science Plants
Plants Plants
Sports, Hobbies, & Pets
Games, Hobbies, & Recreation Games, Hobbies, & Recreation Pets
Pets Pets Pets Pets Sports Sports Sports Sports
Sports Figures
Sports Figures
Sports Figures
Sports
2-6. トピックごとに,各々のトピック名をファイル ”GOAL/TOPIC/t( 通しトピック 番号 ).txt” に出力
※通しトピック番号=カテゴリ番号×1000+(各カテゴリ下での)トピック番号 中身はトピック名
<GOAL/TOPIC/t1001.txt
例> < GOAL/TOPIC/t1002.txt
例>
< GOAL/TOPIC/t1003.txt
例> < GOAL/TOPIC/t1004.txt
例>
< GOAL/TOPIC/t2001.txt
例> < GOAL/TOPIC/t2002.txt
例>
< GOAL/TOPIC/t3001.txt
例> < GOAL/TOPIC/t3002.txt
例>
< GOAL/TOPIC/t3003.txt
例>< GOAL/TOPIC/t3004.txt
例>Architecture Artists
Literature & Writing National & Regional
People in Life Science Plants
Games, Hobbies, & Recreation Pets
Sports Sports Figures
2-7. 各カテゴリについて,全カテゴリ全トピック名から,カテゴリ名と属する全ト ピック名を除いたものをファイル ”GOAL/BACK/b( カテゴリ番号 ).txt” に出力
中身は「
(
全カテゴリ名)+(
全トピック名)-(
カテゴリ名と属する全トピック名)
」<GOAL/BACK/b1.txt
例> < GOAL/BACK/b2.txt
例>
Games, Hobbies, &
Recreation Life Science
People in Life Science
Pets Plants Sports
Sports Figures Sports, Hobbies, &
Pets
Architecture Artists
Art, Language, & Literature Games, Hobbies, &
Recreation
Literature & Writing
National & Regional Literature
Pets Sports
Sports Figures
Sports, Hobbies, & Pets
< GOAL/BACK/b3.txt
例>
Architecture Artists
Art, Language, & Literature Life Science
Literature & Writing
National & Regional Literature
People in Life Science
Plants
2-8. 各 通 し ト ピ ッ ク 番 号 と カ テ ゴ リ , ト ピ ッ ク 名 を 対 応 さ せ た も の を フ ァ イ ル ”LIST/tlist.txt” に出力
中身はは行ごとに,順にタブ区切りで「通しトピック番号,トピック名,カテゴリ名」
<LIST/tlist.txt
例>
1001 Art, Language, & Literature Architecture 1002 Art, Language, & Literature Artists
1003 Art, Language, & Literature Decorative Arts 1004 Art, Language, & Literature Language
1005 Art, Language, & Literature Legends & Folklore 1006 Art, Language, & Literature Literature & Writing 1007 Art, Language, & Literature National & Regional Art
1008 Art, Language, & Literature National & Regional Literature 1009 Art, Language, & Literature Painting, Drawing, & Graphic Arts 1010 Art, Language, & Literature Periods & Styles
1011 Art, Language, & Literature Photography 1012 Art, Language, & Literature Sculpture 1013 Art, Language, & Literature Writers & Poets 2001 Geography Canadian Provinces & Cities 2002 Geography Countries
2003 Geography Exploration & Explorers 2004 Geography Islands
2005 Geography Maps & Mapmaking
2006 Geography Mountain Ranges, Peaks, & Landforms 2007 Geography Oceans & Seas
2008 Geography Parks & Monuments 2009 Geography Regions of the World
2010 Geography Rivers, Lakes, & Waterways 2011 Geography U.S. Cities, Towns, & Villages 2012 Geography U.S. States, Territories, & Regions 2013 Geography World Cities, Towns, & Villages 3001 History African History
3002 History Ancient History 3003 History European History
3004 History History of Asia & Australasia 3005 History History of the Americas 3006 History People in European History 3007 History People in United States History 3008 History United States History
3009 History World History & Concepts
3.calcGV.pl < 実行方法 > perl calcGV.pl
「ディレクトリ GOAL の中のファイルから,カテゴリ,トピック等の各ゴールの 450 次元ベクトルを計算するプログラム」
(IN) GOAL/*/**.txt * ・・・ CATEGORY,CATEGORYplus,TOPIC,BACK (OUT)VECTOR/*/**.out ** ・・・ c( 番号 ),cp( 番号 ),t( 番号 ),b( 番号 )
ディレクトリ
GOAL
の中の各ファイルを読込み,450
次元ベクトルを計算し,ディレクトリVECTOR
の中の対応するディレクトリに計算結果を出力する.出力されるファイルの拡張子は「
.out
」となる.例.
GOAL/CATEGORY/c1.txt
を読込み,450
次元ベクトルを計算しVECTOR/CATEGORY/c1.out
に出力この時の計算コマンドは下のようになる.
cat GOAL/CATEGORY/c1.txt | mkey -k1000000 -s -N -n0 -l1 -m1000 -M1000000 | tplus -S- >VECTOR/CATEGORY/c1.out
<VECTOR/CATEGORY/c1.out
の例>
7.266e-05 -0.0001342 0.0001402 0.0002387 -0.0004079 -0.0001997
0.001054 -0.0005027 -0.0002301 -0.0005973 -0.0001259 3.177e-05
-0.000145 -0.0005183 0.0008721 -4.066e-05 -0.0005517 -5.623e-05
2.126e-05 8.035e-05 0.001181 -0.0004053 -8.758e-05 -0.0004395
-0.0003809 -0.0005158 -2.299e-05 -0.0003329 0.0001432 -0.0002958
9.138e-05 0.0009149 -0.0006761 1.594e-05 -0.001534 -0.0004834
-0.0002931 -6.695e-05 -0.0008612 0.001505 0.0007886 0.0009391
7.25e-05 -0.0005957 -0.0005422 0.0003435 -0.0007226 0.0009303
0.0022 -0.002253 -0.0002931 0.0003204 -0.000279 0.0003547
-0.0005789 0.001361 0.001422 -0.0003285 0.0004774 -0.000509
-0.0004085 -0.00058 0.0007295 -0.000649 -0.0009276 -0.0001167
0.0009904 0.002107 -0.0001204 0.0001786 0.0004753 0.0006263
-8.964e-05 -0.0001843 1.848e-05 0.0006559 -0.0005248 0.0006691
0.0004178 -0.0007039 -0.0005995 -0.0007794 -0.0001428 0.000852
0.0004097 2.215e-05 -0.0001218 0.0003305 0.0002098 -0.0003846
-0.000299 0.0007954 0.0002961 0.0001362 0.002224 -0.001718
0.002195 -0.0003764 -0.0006479 0.0004494 0.0006117 7.156e-05
0.001226 0.001014 -4.02e-05 -0.0004894 -0.001028 -9.818e-05
7.38e-05 -3.847e-05 0.0009665 0.0005203 0.001353 -0.001136
4.calcAVC.pl < 実行方法 > perl calcAVC.pl 引数
「分析対象のコンテンツの HTML を 1 つずつ取得し,アーティクルのファーストパ ラグラフと全パラグラフの 450 ベクトルを計算させ,各ゴールのベクトルとから類 似度を計算し出力するプログラム」
(IN)base.txt
base.txt
から分析対象のコンテンツ等を取り出し,分析対象 だけが書かれたファイルを作成する4-1
4-3
(OUT)contents.txt(一時出力保存)
4-2 LIST/tlist.txt
からカテゴリ名とトピック名を比較し,分析 対象の正解トピック番号を抽出する(IN)LIST/tlist.txt
(IN)contents.txt
コンテンツ等分析対象の
450
次元ベクトルを計算(raw, scaled
ベクトル)
(OUT)[raw
ベクトル]vectorSF.out(
一時出力保存) (OUT) RESULTS/vectorSF.txt
(OUT) [scaled
ベクトル]vectorSFn.out(
一時出力保存) (OUT)
RESULTS/vectorSFn.txt
4-4
(IN)fstP.out (IN) VECTOR/
・・・/*.out (
・・・は「CATEGORY ,CATEGORYplus,BACK,TOPIC
」)
コンテンツ等分析対象のベクトルと各ゴールのベクトルか ら,分析対象のファーストパラグラフの類似度を計算する
(OUT)RESULTS/cosine.txt
4-1. base.txt から分析対象のコンテンツ等を取り出し,分析対象だけが書かれたファ イルを作成する
ファイル ”contents.txt”( 一時出力保存 ) に出力
※一時出力保存とは,プログラム終了後に削除されるファイルのことを意味する 中身は分析対象のコンテンツ等のみ
<contents.txt
例>
Olympic Games (modern), international sports competition, held every four
years at a different site, in which athletes from different nations compete
against each other in a variety of sports. There are two types of Olympics,
the Summer Olympics and the Winter Olympics. Through 1992 they were
held in the same year, but beginning in 1994 they were rescheduled so that
they are held in alternate even-numbered years. For example, the Winter
Olympics were held in 1994 and the Summer Olympics in 1996. The Winter
Olympics were next held in 1998, and the Summer Olympics next occurred
in 2000.
4-2. LIST/tlist.txt からカテゴリ名とトピック名を比較し,分析対象の正解トピック 番号を抽出する
LIST/tlist.txt
とbase.txt
の分析対象のカテゴリ名とトピック名が一致するものを探し,正 解トピック番号を抽出する4-3. コンテンツ等分析対象の 450 次元ベクトル (raw, scaled ベクトル ) を計算 raw ベクトルはファイル ”vectorSF.out”( 一時出力保存 ) 及びファイル
”RESULTS/vectorSF.txt” に出力
scaled ベクトルはファイル”vectorSFn.out”(一時出力保存)及びファイル
”RESULTS/vectorSFn.txt” に出力
vectorSF.out
,vectorSFn.out
は分析対象のraw vector(450
次元)
をそのまま出力したもので,RESULTS/vectorSF.txt
,RESULTS/vectorSFn.txt
は各コンテンツのraw vector(450
次元)
を全て記したもので各アーティクルを行ごとに,順にタブ区切りで,インデクス(
分析対象の 最初の10byte)
,ファーストパラグラフ(
分析対象の最初の30byte)
,通しトピック番号「( Ct=
」 というフラグ付)
,ベクトル<vectorSF.out
例>
<vectorSFn.out
例>
0.00148 -0.001242 0.001036 -0.0007694 0.000182 0.0003204
0.000538 -0.001357 -0.0007697 0.0001782 0.0004855 0.0003723
-0.0001251 -0.0008692 -0.001858 0.001293 -0.0008801 -0.0004064
-0.002847 0.001529 0.0009781 0.0006049 -0.0007662 -0.001837
0.000454 0.001452 -0.0007766 0.0002978 0.002373 -0.003365
-0.0008454 -0.002073 0.001747 0.003045 -0.003075
0.1789 -0.08074 0.04985 -0.03382 0.00665 0.01114
0.01796 -0.04382 -0.02342 0.005339 0.01414 0.01064
-0.003542 -0.02372 -0.04863 0.03335 -0.02238 -0.01001
-0.06854 0.03678 0.02303 0.01419 -0.01792 -0.04248
0.0103 0.03267 -0.01732 0.006532 0.05155 -0.07277
-0.01815 -0.04411 0.03682 0.06333 -0.0637 -0.02109
0 03488 -0 01723 0 004211 0 03579 -0 06171
<RESULTS/vectorSF.txt
例>
<RESULTS/vectorSFn.txt
例>
Acropolis Acropolis (Greek akros, “high Ct=1001
0.001912 -0.001778 0.003375 -0.002195 -0.0004877 0.0001645 0.002525 -0.001632 -0.0002527 -0.0005591 -0.0005958 -0.0003188 -0.001489 -0.00112 9.249e-06 0.0004964
-0.0001881 0.00272 -0.0002252 -0.003578
0.006965 -0.004554 -0.0004822 -0.0004434 -0.003308 -0.003449 -0.00297 -0.002751 0.0009212 0.0001021 -0.004303 -0.0002517 0.00622 -0.0004758 -0.001055 -0.001113
0.0008436 -0.006169 -0.00319 0.00169 0.002905 -0.000181 -0.005375 -0.006838 0.0006048 0.00777 -0.001907 -0.001885
7.266e-06 -0.0001951 -0.002311 -0.00602 0.003872 -0.004206 0.001893 0.004925 0.001829 0.004889 0.002997 0.0008472 -9.144e-05 0.000133 0.0008572 0.0001835 0.001376 -0.003052 0.00231 0.0002011
Acropolis Acropolis (Greek akros, “high Ct=1001 0.2312 -0.1156 0.1624 -0.09647 -0.01781 0.005719
0.08428 -0.05271 -0.007688 -0.01675 -0.01735 -0.009114 -0.04216 -0.03055 0.0002421 0.0128 -0.004782 0.067 -0.005421 -0.08607 0.164 -0.1068 -0.01128 -0.01025 -0.07506 -0.0776 -0.06625 -0.06034 0.02001 0.002209
-0.09237 -0.005357 0.1311 -0.009896 -0.02185 -0.02294 0.01732 -0.1258 -0.06438 0.03388 0.05781
-0.003582 -0.1059 -0.1344 0.01177 0.151 -0.03684 -0.03624 0.0001383 -0.003707 -0.04366
-0.1133 0.07179 -0.0776 0.03477 0.09005 0.03329 0.08872 0.05399 0.01525 -0.001636 0.002364 0.01514 0.003223
0.02415 -0.05348 0.04023 0.003493 0.1115 -0.05949 -0.01877 -0.06519 0.04586 -0.01048 -0.06085 0.004844 0.04974 0.02852 -0.001899 0.02777 0.01767 0.04836 0.0454 -0.008901 0.005515 -0.0811 -0.03294
0.02249 0.03609 -0.00935 -0.01159 -0.03647
4-4. コンテンツ等分析対象のベクトルと各ゴールのベクトルから,各アーティクル のファーストパラグラフの類似度を計算し,ファイル ”RESULTS/cosine.txt” に出力 ( 引数が 0 のときカテゴリ+との類似度の値はカテゴリとの類似度の値と同じ,引数 が 1 のときカテゴリ+との類似度の値はカテゴリ+との類似度の値のまま)
中身は各コンテンツ等分析対象と各ゴールとの類似度を全て記したもので各分析対象を行ご とに,順にタブ区切りで,インデクス,分析対象,通しトピック番号
(
「Ct=
」というフラグ 付)
,カテゴリとの類似度(
「c(
番号)=
」というフラグ付)
,カテゴリ+との類似度(
「cp(
番号)=
」 というフラグ付,但し引数の値が0
の時はカテゴリとの類似度の値と同じ値になっている)
, バックの類似度(
「b(
番号)=
」というフラグ付)
,トピックとの類似度(
「t(
番号)=
」というフラ グ付)
<RESULTS/cosine.txt
例>
Acropolis Acropolis (Greek akros, “high Ct=1001
c1=0.078347 c2=0.112214 c3=0.067235 cp1=0.090393 cp2=0.096185 cp3=0.110931 b1=0.140519 b2=0.145447
b3=0.145972 t1001=0.404778 t1002=0.147544 t1003=0.018485 t1004=0.025959 t2001=0.122581 t2002=-0.002838
t3001=0.103140 t3002=0.017208 t3003=0.077275 t3004=0.117473 Aerobics, Aerobics, programs of physical Ct=3003
c1=0.012950 c2=0.000193 c3=0.236043 cp1=-0.015031 cp2=0.034565 cp3=0.228508 b1=0.159259 b2=0.107821 b3=0.010744 t1001=-0.018469 t1002=0.029087
t1003=-0.022298 t1004=-0.034052 t2001=0.061526 t2002=-0.018949 t3001=0.226328 t3002=-0.007637
t3003=0.238626 t3004=0.197091
African Li African Literature, oral and w Ct=1004
c1=0.291906 c2=-0.028366 c3=-0.088366 cp1=0.352500 cp2=-0.040143 cp3=-0.066870 b1=-0.072219 b2=0.257766 b3=0.254173 t1001=0.090229 t1002=0.067046 t1003=0.314878 t1004=0.296304 t2001=-0.048261 t2002=-0.004349
t3001=-0.096618 t3002=-0.053274 t3003=-0.069239 t3004=0.000611
Amateur Sp Amateur Sports, sports in whic Ct=3003
c1=-0.029512 c2=0.024611 c3=0.716160 cp1=0.048146
cp2=0.039662 cp3=0.735913 b1=0.474362 b2=0.360339
b3=0.033559 t1001=-0.002963 t1002=-0.008380
5.uniqF.pl < 実行方法 > perl uniqF.pl
「 4 で出力されたファイルをソート,ユニークして読込み,同じ分析対象でも複数正 解トピックがあり,それぞれ別のものとして計算出力されたものを一つのものとし てまとめるプログラム」
(IN)RESULTS/vectorSF.txt, vectorSFn,cosine.txt
(OUT)RESULTS/UvectorSF.txt, UvectorSFn.txt, Ucosine.txt
複数正解トピックがある場合,通しトピック番号を「
,
」区切りで結合する ベクトルファイル「RESULTS/vectorSF.txt」を読込み,「RESULTS /UvectorSF.txt」に出力
「
RESULTS/vectorSFn.txt
」を読込み,「RESULTS /UvectorSFn.txt
」に出力 類似度ファイル「
RESULTS/cosine.txt
」を読込み,「RESULTS /Ucosine.txt
」に出力ファイル読込
ファイルをソート&ユニーク化
5-1
5-2
データを全て二次元配列に格納5-3
インデクスとファーストパラグラフが同じなら,通しトピック番号を「
,
」区切りで結合し一つのデータに統 合する(
フラグ「Ct=
」は番号ごとについたまま)
6.number.pl < 実行方法 > perl number.pl 引数
「 5 でユニーク化されたベクトルまたは類似度ファイルいずれか 1 つを読込み, 分 析対象のインデクス,正解トピックに通し番号付けし,その対応表を作成する また対応表から,各ベクトル,類似度ファイルを番号付けしたファイルを作成する」
(IN)RESULTS/UvectorSF.txt, UvectorSFn.txt, Ucosine.txt
(OUT)LIST/list.txt, RESULTS/UvectorSF.txt, UvectorSFn.txt, Ucosine.txt
分析対象に通し番号をつけてファイルに出力
6-1
(OUT)LIST/list.txt (IN)LIST/list.txt
(IN) RESULTS/UvectorSF.txt
or UvectorSFn.txt or Ucosine.txt
6-2 LIST/list.txt
で書出した通し番号を,ベクトル,類似度フ ァイルにも適用する(IN) RESULTS/UvectorSF.txt,UvectorSFn.txt, Ucosine.txt
(OUT) RESULTS/NUvectorSF.txt, NUvectorSFn.txt,
NUcosine.txt
6-1. 分析対象を番号付けしファイル ”LIST/list.txt” に出力
中身はは行ごとに,順にタブ区切りで「通し番号(フラグ「No=」付),インデクス,分析対 象
(
ファーストパラグラフ等)
,正解トピック番号(
フラグ「Ct=
」付)
」<RESULTS/list.txt
例>
No=1 Colosseum Colosseum, largest and most famous ancient Roman amphitheater. The emperor Vespasian, who ruled Rome from ad 69 to 79, began construction of the city
冱Colosseum and his son, the Roman emperor Titus, dedicated it in ad 80. The Colosseum was completed by Vespasian
冱younger son, Domitian, who succeeded Titus as emperor in 81. The structure was originally called the Flavian Amphitheater.
Modifications and restorations necessitated by fires and earthquakes were made to the Colosseum until the early 6th century. In succeeding centuries the Colosseum suffered from neglect, earthquakes, and damage done by builders. Still, slightly more than one-third of the outer arcades, comprising a number of the arches on the north side, remain standing. The inner skeleton, which supported the cavea (seating space), is also substantially intact. All marble, stucco, and metal decorations, however, are gone.
Ct=1001
No=2 Ando, Tadao Ando, Tadao (1941- ), Japanese architect, whose work combines the forms and materials of modern Western architecture (see Modern Architecture) with traditional Japanese aesthetic principles. Chief among these principles is the integration of buildings with their surrounding natural environment. To achieve this integration and bring nature into his buildings, Ando uses courtyards, reflecting pools, and sculpted mounds of earth. Another characteristic of his work is the use of high-quality reinforced concrete in which steel reinforcing rods remain visible, and smooth, unadorned surfaces catch and reflect outdoor light. Ct=1001
No=3 Pyramids (The Americas) Pyramids (The Americas), large structures with four stepped sides and a flat top, built in Mexico and Central and South America from about 1800 bc to about ad 1500. The Americas were only one area of the world in which people built pyramids. For information on the pyramids of Egypt, see Pyramids (Egypt). For information on the pyramids of Mesopotamia, see Ziggurat. Ct=1001
No=4 Stern, Robert A. M. Stern, Robert A. M. (1939- ), American
architect and design theorist, known for buildings that borrow elements of
historical styles in an often playful way to emphasize the relationship
between present and past. Stern's designs and writings have helped define
the basic principles of postmodernism in architecture. These principles state
that a building has a symbolic and communicative purpose, not merely a
6-2. 6-1 で番号付けした結果から,ユニーク化されたベクトル,類似度ファイルも番 号を適用する
中身はは行ごとに,順にタブ区切りで「通し番号
(
フラグ「No=
」付)
,インデクス,分析対 象(
ファーストパラグラフ等)
,正解トピック番号(
フラグ「Ct=
」付)
」<RESULTS/NUcosine.txt
例>
No=1 Colosseum Ct=1001 c1=0.030145 c2=0.047638 c3=0.116873 c4=-0.021041 c5=0.041207 c6=0.117348
c7=0.087621 c8=0.069207 c9=0.110973 cp1=-0.029998 cp2=0.083536 cp3=0.102691 cp4=0.021199 cp5=0.000196 cp6=0.126769 cp7=-0.015985 cp8=0.074489 cp9=0.106707 b1=0.016850 b2=0.035651 b3=0.121152 b4=-0.001823 b5=0.016196 b6=0.126328 b7=0.022703 b8=0.036072 b9=0.120472 t1001=0.284353 t1002=0.046843 t1003=0.072247 t1004=-0.025069 t1005=0.174268 t1006=0.026660
t1007=0.048833 t1008=0.042384 t1009=-0.059739
t1010=0.077570 t1011=-0.057955 t1012=0.178353 t1013=-0.000578 t2001=0.096104 t2002=-0.012102
t2003=-0.029526 t2004=-0.008902 t2005=-0.062624 t2006=0.049080 t2007=0.016993 t2008=0.115345 t2009=-0.001265 t2010=-0.024979 t2011=0.050751 t2012=0.033922
t2013=0.025196 t3001=0.067733 t3002=0.189929 t3003=0.054820 t3004=0.040606 t3005=0.084627 t3006=0.074557 t3007=0.026781 t3008=0.014571 t3009=0.028529 t4001=0.027208 t4002=-0.019525 t4003=0.107133 t4004=-0.011004 t4005=0.039257
t4006=0.030535 t4007=-0.009747 t4008=0.190142 t4009=0.062395 t4010=0.017817 t4011=-0.009533
t4012=0.031986 t4013=0.045726 t4014=0.017768 t5001=0.001574 t5002=-0.042902 t5003=-0.018204 t5004=0.009853 t5005=0.019803 t5006=0.036044 t6001=0.074496 t6002=-0.022613 t6003=-0.008744 t6004=0.002519 t6005=0.296049
t6006=0.015050 t6007=-0.015301 t6008=0.055395 t6009=-0.046542 t6010=0.070708 t6011=0.034427 t6012=-0.000749 t6013=0.005426 t6014=-0.033924
t6015=0.011857 t6016=0.022454 t7001=0.066116 t7002=0.002628 t7003=0.017762 t7004=0.058295 t7005=-0.012378
t7006=-0.005097 t7007=0.049685 t8001=-0.014346 t8002=0.069509 t8003=0.063915 t8004=-0.027954
t8005=-0.034021 t8006=-0.001423 t8007=0.039845
t8008=0 070708 t8009=-0 011032 t8010=0 015502
7.markov.pl < 実行方法 > perl markov.pl 引数 1 引数 2
「 6 で番号付けされた類似度ファイルを読込み,各ゴールとの類似度から, Usability Problem,各正解トピックへのマルコフ連鎖による平均吸収ステップ数,平均ステッ プ数,リンク張替えしたときの平均吸収ステップ数,平均ステップ数を求めるプロ グラム」
(IN)param.t
7-1 param.txt
からUsability Problem
評価のためのパラメータ δ(
正解カテゴリの類似度最大値比較用)
,δ´(
正解トピッ クの類似度最大値比較用)
,γ(
正解トピックと不正解トピッ クの類似度最大値比較用)
を取得(IN)RESULTS/Ucosine.t
7-2 Usability Problem
のカテゴリWeak Scent Problem
,Goal-Specific Competing Heading Problem
を求める7-31 Usability Problem
のトピックWeak Scent Problem
,Goal-Specific Competing Link Problem
を求めるその際,リンク張替え
1
の準備をする(全ての正解カテゴリ について,不正解トピックかつそのカテゴリの中で最大値 をとるトピックを正解トピックに追加する)
7-32
リンク張替え2
の準備及び可能性を調べる(
カテゴリの最大 値と,その中のトピックの最大値をとるものを正解トピッ クに追加する)
7-5 Markov
連鎖が計算可能なとき平均吸収ステップ数,各正解トピックへの平均ステップ数
(
生データ)
,初到達確率,平均ステップ数(
確率で割った値)
を計算する7-6
リンク張替えが可能で,リンクを張替え後のMarkov
連鎖 が計算可能なとき平均吸収ステップ数,各正解トピックへの平均ステップ数
(生データ),初到達確率,平均ステップ数(確率で割った値)
を計算する(OUT)RESULTS/markov.t
7-4 Markov
連鎖計算用に,計算可能かどうかを調べる(
いずれか一つでも正解トピックまでたどりつけるか,不正 解カテゴリからトップに戻れるか)
計算不可のときはその理由を出力
7-1. param.txt から Usability Problem 評価のためのパラメータδ ( 正解カテゴリの 類似度最大値比較用 ) ,δ´ ( 正解トピックの類似度最大値比較用 ) ,γ ( 正解トピック と不正解トピックの類似度最大値比較用 ) を取得
param.txt
で定義したδ,δ´,γを取得する.それぞれのパラメータはdelta=0.1 deltadash=0.1 gamma=0.8
のように書かれているので,各値だけ抽出する.
ドキュメント内
Å Ö ÓÚ
(ページ 46-74)