• 検索結果がありません。

Àâòîìàòè÷åñêèé ïîèñê íàó÷íûõ ñòàòåé â Ðóíåò

ドキュメント内 untitled (ページ 40-47)

Îäíèì èç âàæíûõ âîïðîñîâ ýêñïëóàòàöèè ýëåêòðîí-íîé áèáëèîòåêè íàó÷íûõ ñòàòåé ÿâëÿåòñÿ ïîïîëíå-íèå áèáëèîòåêè íîâûìè ñòàòüÿìè. Áåç àâòîìàòè÷åñ-êîãî ïîèñêà íîâûõ ñòàòåé ðàçâèòèå ýëåêòðîííîé áèá-ëèîòåêè ëèáî ïîëíîñòüþ çàâèñèò îò ïîëüçîâàòåëåé, ïîìåùàþùèõ òóäà ñâîè ñòàòüè, ëèáî òðåáóåò ñïåöè-àëüíî âûäåëåííîãî ïåðñîíàëà, îñóùåñòâëÿþùåãî ïîèñê è ïîìåùåíèå íîâûõ ñòàòåé â áèáëèîòåêó. Ñî-äåðæàíèå òàêîãî ïåðñîíàëà, êàê ïðàâèëî, ÿâëÿåòñÿ ñëèøêîì äîðîãîñòîÿùèì, à ïðàêòèêà ðàçâèòèÿ áèá-ëèîòåêè àâòîðàìè ñòàòåé çàðåêîìåíäîâàëà ñåáÿ êàê ìàëîýôôåêòèâíàÿ (ïðèìåðîì òîìó ÿâëÿåòñÿ áèáëèî-òåêà OREL ïðè ÐÃÁ, â êîòîðîé àâòîðû ìîãóò ñàìî-ñòîÿòåëüíî ðàçìåñòèòü òåêñò äèññåðòàöèè, çà áîëåå

÷åì ïÿòü ëåò ñóùåñòâîâàíèÿ îíà íàêîïèëà îêîëî 2 òûñ. äèññåðòàöèé).

Àëüòåðíàòèâíûì ñïîñîáîì ïîïîëíåíèÿ áèáëèî-òåê íàó÷íûõ ñòàòåé ÿâëÿåòñÿ ïîèñê íàó÷íûõ ñòàòåé â ñåòè Èíòåðíåò, ãäå èõ ðàçìåùàþò ñàìè àâòîðû, îðãà-íèçàòîðû êîíôåðåíöèé, ó÷åáíûå è íàó÷íûå çàâåäå-íèÿ, à òàêæå äðóãèå ýëåêòðîííûå àðõèâû è áèáëèî-òåêè. Äàëåå ðàññìîòðåíû ñóùåñòâóþùèå ïîäõîäû ê àâòîìàòè÷åñêîìó ïîèñêó íàó÷íûõ ñòàòåé â ñåòè Èí-òåðíåò.

Ðèñ. 1. Ñâîäíàÿ èíôîðìàöèÿ î ñòàòüå

Ðèñ. 2. Êîíòåêñòû, â êîòîðûõ öèòèðóåòñÿ ñòàòüÿ

1 Òåðìèí «ÑÏÊÑ» èñïîëüçóåòñÿ êàê ýêâèâàëåíò àíãëîÿçû÷-íîìó «search engines» (Google, Yandex, …) ââèäó òîãî, ÷òî òåð-ìèí «ïîèñêîâàÿ ñèñòåìà» â ðóññêîÿçû÷íûõ òåêñòàõ èñïîëüçó-åòñÿ â áîëåå øèðîêîì ñìûñëå.

5.1. Ñóùåñòâóþùèå ïîäõîäû ê àâòîìàòè÷åñêîìó ïîèñêó ñòàòåé

 CiteSeer ïîèñê íàó÷íûõ ñòàòåé â ñåòè Èíòåðíåò îñíîâàí íà òðàäèöèè àìåðèêàíñêèõ ó÷åíûõ ðàçìå-ùàòü ñâîè ïóáëèêàöèè â ôîðìàòå PS íà ñâîèõ äîìàø-íèõ ñòðàíèöàõ. Ïîèñê îñóùåñòâëÿåòñÿ â äâà ýòàïà. Íà ïåðâîì ýòàïå èñïîëüçóþòñÿ òðàäèöèîííûå ñèñòåìû ïîèñêà ïî êëþ÷åâûì ñëîâàì1 (ÑÏÊÑ) äëÿ òîãî, ÷òî-áû íàéòè ñòðàíèöû ñ áîëüøîé âåðîÿòíîñòüþ ñîäåð-æàùèå ññûëêè íà íàó÷íûå ïóáëèêàöèè. Äëÿ ýòîãî çàïðîñ ïîëüçîâàòåëÿ ê CiteSeer äîïîëíÿåòñÿ êëþ÷å-âûìè ñëîâàìè, õàðàêòåðèçóþùèìè òèï äîêóìåíòà, íàïðèìåð, «publications», «papers», «postscript» è ïî-ñûëàåòñÿ ÑÏÊÑ. Íà âòîðîì ýòàïå íà ñòðàíèöàõ, êî-òîðûå íàøëà ÑÏÊÑ, îñóùåñòâëÿåòñÿ ïîèñê âñåõ ññû-ëîê íà äîêóìåíòû â ôîðìàòå PS (ïî ðàñøèðåíèþ.ps,.pg.gz,.ps.Z) è çàãðóæàþòñÿ íàéäåí-íûå äîêóìåíòû.  êà÷åñòâå ÑÏÊÑ èñïîëüçóþòñÿ AltaVista è ìåòàïîèñêîâàÿ ìàøèíà Inquirus [15].

 ðàáîòå [7] ïðåäëîæåí ïîäõîä ê ïîèñêó íîâûõ ñòàòåé ïî çàäàííîé ïðåäìåòíîé îáëàñòè íà îñíîâå ïîèñêà äîìàøíèõ ñòðàíèö èññëåäîâàòåëåé. Ðàáîòà ìåòîäà ñîñòîèò èç òðåõ øàãîâ:

– ïîèñê â áèáëèîãðàôè÷åñêèõ áàçàõ äàííûõ, íà-ïðèìåð, DBLP, èìåí ó÷åíûõ, ðàáîòàþùèõ â äàííîé ïðåäìåòíîé îáëàñòè (ïðåäìåòíàÿ îáëàñòü çàäàåòñÿ íàçâàíèÿìè æóðíàëîâ è êîíôåðåíöèé);

– ïîèñê äîìàøíèõ ñòðàíèö ó÷åíûõ ñ ïîìîùüþ ñèñòåìû HPSearch;

– ïîèñê íàó÷íûõ ñòàòåé â îêðåñòíîñòè íàéäåííûõ äîìàøíèõ ñòðàíèö ñ ïîìîùüþ ñèñòåìû Mops.

Íà ïåðâîì øàãå ñïèñîê àâòîðîâ ñòðîèòñÿ ïó-òåì âûáîðà íàèáîëåå àêòèâíûõ àâòîðîâ â ðàìêàõ çàäàííîé òåìàòèêè (èç òåìàòèê, ïðåäñòàâëåííûõ â DBLP). Íà âòîðîì øàãå HPSearch ñíà÷àëà îñóùå-ñòâëÿåò ïîèñê êàíäèäàòîâ íà äîìàøíþþ ñòðàíèöó ñ èñïîëüçîâàíèåì ÑÏÊÑ, âûáèðàÿ íåñêîëüêî ïåð-âûõ ðåçóëüòàòîâ, çàòåì, îñóùåñòâëÿÿ ñîáñòâåííîå ðàíæèðîâàíèå, ïîñëå ÷åãî ñòðàíèöû ñ íàèáîëü-øèì âåñîì çàãðóæàþòñÿ, ðàíæèðóþòñÿ åùå ðàç è ðåçóëüòàò (íåñêîëüêî ñòðàíèö-êàíäèäàòîâ) ñîõðà-íÿåòñÿ â áàçå äàííûõ.  ðåçóëüòàòå ïðîâåäåííîãî ýêñïåðèìåíòàëüíîãî èññëåäîâàíèÿ ýôôåêòèâíîñòè 500 âîçìîæíûõ õàðàêòåðèñòèê äîìàøíèõ ñòðàíèö àâòîðû âûäåëèëè ñëåäóþùèå:

– èìååò ñìûñë ðàçëè÷àòü ñëåäóþùèå ÷àñòè äîìàø-íåé ñòðàíèöû: çàãîëîâîê, ïåðâûé òýã header, äðóãèå òýãè header, òåêñòû ññûëîê è îñòàëüíîé òåêñò;

– èìÿ àâòîðà íàèáîëåå ÷àñòî âñòðå÷àåòñÿ â çàãî-ëîâêå (title), ïåðâîì òýãå header èëè url;

– ñèìâîë «~» èëè ñòðîêè òèïà «/people»,

«/users» ÷àñòî âñòðå÷àþòñÿ â URL äîìàøíèõ ñòðà-íèö;– íà äîìàøíèõ ñòðàíèöàõ îáû÷íî åñòü ññûëêà íà ïóáëèêàöèè;

– äîìàøíèå ñòðàíèöû îáû÷íî èìåþò ìàëåíüêèé ðàçìåð (3–9 KB).

HPSearch ïîñòîÿííî îáíîâëÿåò áàçó äàííûõ

ñòàòåé, ïðîâåðÿÿ äîñòóïíîñòü URL. Ýêñïåðèìåíòàëü-íîå èññëåäîâàíèå HPSearch, ïðîâåäåíÝêñïåðèìåíòàëü-íîå àâòîðàìè, ïîêàçàëî, ÷òî 84 % äîìàøíèõ ñòðàíèö èç óêàçàííûõ â DBLP áûëè íàéäåíû HPSearch. Íà òðåòüåì øàãå ñèñòåìà Mops îñóùåñòâëÿåò ïîèñê ïî äîìàøíåé ñòðà-íèöå àâòîðà âñåõ ôàéëîâ pdf, dvi, ps, êîòîðûå çàòåì äåëÿòñÿ íà íàó÷íûå ñòàòüè è äðóãèå ìàòåðèàëû íà îñíîâå ñòóêòóðû URL.

 ðàáîòå [23] ïðåäëîæåí ìåòîä ïîèñêà íàó÷íûõ ñòàòåé ñ ïîìîùüþ òåìàòè÷åñêîãî ïîèñêîâîãî ðî-áîòà. Íà ïåðâîì øàãå èñïîëüçóåòñÿ ðåïîçèòàðèé ìåòàäàííûõ ñòàòåé (èì ìîæåò áûòü ýëåêòðîííàÿ áèáëèîòåêà èëè áèáëèîãðàôè÷åñêàÿ áàçà äàííûõ, íàïðèìåð, DBLP) äëÿ ïîëó÷åíèÿ íàáîðà ïàð <àâ-òîð, èçäàíèå> ñ ó÷åòîì âîçìîæíûõ âàðèàíòîâ íà-ïèñàíèÿ èçäàíèÿ. Íà âòîðîì øàãå îñóùåñòâëÿåòñÿ ïîèñê äîìàøíèõ ñòðàíèö: ïàðû <àâòîð, èçäàíèå>

ïîñûëàþòñÿ ÑÏÊÑ, à ðåçóëüòàò ïîèñêà ôèëüòðó-åòñÿ äëÿ òîãî, ÷òîáû óáðàòü íåâåðíûå âàðèàíòû è îäíîôàìèëüöåâ. Çàòåì íàéäåííûå ñòðàíèöû ðàí-æèðóþòñÿ, à ñòðàíèöû ñ íàèáîëüøèì âåñîì çàíîñÿò-ñÿ â áàçó äàííûõ äîìàøíèõ ñòðàíèö. Ïðè ôèëüòðà-öèè è ðàíæèðîâàíèè èñïîëüçóþòñÿ ñëåäóþùèå ýâ-ðèñòèêè:

• Óäàëåíèå èç ñïèñêà òåõ ñòðàíèö, êîòîðûå çàâåäîìî íå ÿâëÿþòñÿ äîìàøíèìè:

– URL èëè çàãîëîâîê ñòðàíèöû ñîîòâåòñòâóåò ñàé-òó èçäàòåëüñòâà èëè ýëåêòðîííîé áèáëèîòåêå;

– URL óêàçûâàåò íå íà.htm/.html ôàéë.

• óäàëåíèå îäíîôàìèëüöåâ:

– óäàëåíèå èç ñïèñêà ñòðàíèö ïðèíàäëåæàùèõ òîìó æå äîìåíó, ÷òî è íàéäåííàÿ ðàíåå äîìàøíÿÿ ñòðàíèöà äðóãîãî àâòîðà;

– óäàëåíèå ñòðàíèöû, åñëè äîìåí, â êîòîðîì îíà íàõîäèòñÿ, óæå íàéäåí ðàíåå.

• Îïðåäåëåíèå âåñà êàæäîé ñòðàíèöû:

– âûñîêèé, â òîì ñëó÷àå åñëè çàãîëîâîê ñîäåðæèò èìÿ àâòîðà è õîòÿ áû îäíî èç ñëåäóþùèõ ñëîâ:

homepage, website, research, publication, papers;

– ñðåäíèé, åñëè çàãîëîâîê ñîäåðæèò õîòÿ áû îäíî èç ñëåäóþùèõ ñëîâ: homepage, website, research, publication, papers;

– íèçêèé, âî âñåõ îñòàëüíûõ ñëó÷àÿõ.

Íà òðåòüåì øàãå îñóùåñòâëÿåòñÿ ïîèñê íàó÷-íûõ ñòàòåé ñ ïîìîùüþ òåìàòè÷åñêîãî ïîèñêîâîãî ðîáîòà. Íà÷àëüíûìè ñòðàíèöàìè äëÿ ïîèñêà ÿâ-ëÿþòñÿ íàéäåííûå íà ïðåäûäóùåì øàãå, êðîìå òîãî, ðîáîòó òàêæå çàäàåòñÿ ñïèñîê ðàçðåøåííûõ äëÿ ïîñåùåíèÿ äîìåíîâ. Ðîáîò èñïîëüçóåò î÷å-ðåäü ïðèîðèòåòàìè (âûñîêèé, ñðåäíèé, íèçêèé).

Ïðè çàãðóçêå î÷åðåäíîé ñòðàíèöû ðîáîò ðàçáèðà-åò âñå èñõîäÿùèå ññûëêè è íàçíà÷àðàçáèðà-åò êàæäîé ïðè-îðèòåò â çàâèñèìîñòè îò òåêñòà ññûëêè è ïðèîðè-òåòà ðîäèòåëüñêîé ñòðàíèöû. Ïðèîðèòåò òåêñòà ññûëêè îïðåäåëÿåòñÿ êëàññèôèêàòîðîì íà îñíîâå âõîæäåíèÿ êëþ÷åâûõ ñëîâ (íàïðèìåð, volume publication conference è ò.ï.) â òåêñò ññûëêè.

Àâòîðû ñîîáùàþò, ÷òî íà òåñòîâûõ íàáîðàõ äàí-íûõ èç êîíôåðåíöèé WebDB è JAIR ìåòîäîì áûëî íàéäåíî îêîëî 80% ñòàòåé.

 ðàáîòå [16] ðåøàåòñÿ çàäà÷à ïîèñêà íàó÷íîé ñòàòüè ïî çàäàííîé áèáëèîãðàôè÷åñêîé ññûëêå, ÷òî ìîæåò òàêæå èìåòü ïðèìåíåíèå äëÿ ïîïîëíåíèÿ ýëåêòðîííîé áèáëèîòåêè. Ðàáîòà ìåòîäà ñîñòîèò èç

òðåõ øàãîâ: íà ïåðâîì øàãå áèáëèîãðàôè÷åñêàÿ ññûëêà ïîñûëàåòñÿ ÑÏÊÑ è îòáèðàþòñÿ ïåðâûå 10 ññûëîê. Íà âòîðîì øàãå ñ ïîìîùüþ ïîèñêîâîãî ðî-áîòà èùåòñÿ ñòðàíèöà, êîòîðàÿ íàèáîëåå âåðîÿòíî ñîäåðæèò ññûëêó íà èñêîìóþ ñòàòüþ. Íà òðåòüåì øàãå îñóùåñòâëÿåòñÿ ïîèñê çàäàííîé

áèáëèîãðàôè-÷åñêîé ññûëêè â ðàìêàõ íàéäåííîé ñòðàíèöû. Äëÿ ýòîãî íà ñòðàíèöå âûäåëÿþòñÿ íà÷àëî è êîíåö êàæ-äîé áèáëèîãðàôè÷åñêîé ññûëêè, âû÷èñëÿåòñÿ ðàñ-ñòîÿíèå ìåæäó ññûëêîé íà PDF èëè PS ôàéë è çàãî-ëîâêîì èñêîìîé ñòàòüè è âûáèðàåòñÿ áëèæàéøèé PDF èëè PS ôàéë.

Ðàññìîòðåííûå ïîäõîäû ê ïîèñêó íîâûõ íàó÷-íûõ ñòàòåé îñíîâàíû íà òðàäèöèè àìåðèêàíñêèõ ó÷åíûõ ðàçìåùàòü ñâîè ïóáëèêàöèè íà äîìàøíèõ ñòðàíèöàõ â ñåòè Èíòåðíåò â ôîðìàòàõ PS èëè PDF. Áîëüøèíñòâî ñóùåñòâóþùèõ ïîäõîäîâ ñâî-äèòñÿ ê ïîèñêó äîìàøíåé ñòðàíèöû çàäàííîãî àâòîðà, à ïîòîì ïîèñêà ïóáëèêàöèé íà íåé. Íà àíãëîÿçû÷íûõ äàííûõ ýòîò ïîäõîä âåñüìà ýôôåê-òèâåí (îáíàðóæåíèå ïîðÿäêà 90% äîìàøíèõ ñòðà-íèö è 80% ïóáëèêàöèé), ïðè ýòîì àâòîðû èññëå-äîâàíèÿ [23] îòìå÷àþò, ÷òî äâå òðåòè àâòîðîâ, ÷üè äîìàøíèå ñòðàíèöû íå áûëè íàéäåíû, ðàáîòàþò íå â ÑØÀ, à òå àìåðèêàíñêèå àâòîðû, äîìàøíèå ñòðàíèöû êîòîðûõ íå áûëè íàéäåíû, â îñíîâíîì îòíîñÿòñÿ ê êàòåãîðèè ñòóäåíòîâ, êîòîðûå áûëè ñîàâòîðàìè ïóáëèêàöèé, à ïîòîì íå ïðîäîëæèëè íàó÷íóþ êàðüåðó.

Ñóùåñòâóþùèå ìåòîäû ïîèñêà äîìàøíèõ ñòðà-íèö, èñïîëüçóþùèå äëÿ ôîðìèðîâàíèÿ íà÷àëüíî-ãî íàáîðà ñòðàíèö ÑÏÊÑ, çàâèñÿò îò íàëè÷èÿ çíàìåíèòûõ îäíîôàìèëüöåâ, ñòðàíèöû ïðî êîòî-ðûõ çàíèìàþò ïåðâûå ñòðî÷êè â ÑÏÊÑ.  òàêèõ ñëó÷àÿõ òåìàòè÷åñêèé êðàóëåð ìîæåò ïîëó÷àòü íåâåðíîå íà÷àëüíîå ïðèáëèæåíèå è íå íàõîäèòü ïðàâèëüíî äîìàøíþþ ñòðàíèöó.  ýòîì ñëó÷àå âàæíî îòñåêàòü ïîïóëÿðíûõ îäíîôàìèëüöåâ íà ðàííèõ ñòàäèÿõ åùå äî ðàáîòû êðàóëåðà. Áîëåå óñòîé÷èâûìè ê ýòîé ïðîáëåìå äîëæíû áûòü ìåòî-äû, îñíîâàííûå íà ïåðåäà÷å ÑÏÊÑ ðàçâåðíóòîãî çàïðîñà, íàïðèìåð, òåêñòà áèáëèîãðàôè÷åñêîé ññûë-êè èëè çàãîëîâêà ñòàòüè.

5.2. Îñîáåííîñòè ïîèñêà íàó÷íûõ ñòàòåé â Ðóíåò

Ïðèìåíåíèå ñóùåñòâóþùèõ àíãëîÿçû÷íûõ íàðàáî-òîê ñ öåëüþ ïîèñêà â ðóññêîÿçû÷íîì ñåãìåíòå ñåòè Èíòåðíåò (Ðóíåò) îãðàíè÷åíî ñëåäóþùèìè îñîáåí-íîñòÿìè Ðóíåò:

•  Ðóíåò îòñóòñòâóþò òàêèå êà÷åñòâåííûå áåñ-ïëàòíûå èñòî÷íèêè áèáëèîãðàôè÷åñêîé èíôîðìà-öèè êàê DBLP. Ïðè ýòîì ÝÁ ñàìà ÿâëÿåòñÿ èñ-òî÷íèêîì ìåòàäàííûõ: èìåí àâòîðîâ, ó÷ðåæäåíèé, ãäå ðàáîòàþò àâòîðû, àäðåñîâ ýëåêòðîííîé ïî÷òû àâòîðîâ, íàçâàíèé èçäàíèé, êîíôåðåíöèé, áèáëèî-ãðàôè÷åñêèõ ññûëîê íà ñòàòüè, êîòîðûå îòñóòñòâóþò â áèáëèîòåêå. Êà÷åñòâî èçâëå÷åíèÿ ìåòàäàííûõ èç íàéäåííûõ ñòàòåé äîñòàòî÷íî âûñîêîå, ÷òîáû èñ-ïîëüçîâàòü ìåòàäàííûå äëÿ ïîèñêà âìåñòî áèáëèî-ãðàôè÷åñêèõ áàç äàííûõ òèïà DBLP.

• Òðàäèöèÿ àìåðèêàíñêèõ ó÷åíûõ âåñòè ñâîè äî-ìàøíèå ñòðàíè÷êè ñ ïóáëèêàöèÿìè íå òàê ñèëüíî

ðàñïðîñòðàíåíà â Ðîññèè.  òî âðåìÿ êàê ñóùåñòâó-þùèå ïîäõîäû èñïîëüçóþò ïîèñê äîìàøíèõ ñòðàíèö, â Ðóíåò â êà÷åñòâå öåëåé ïîèñêà ìîãóò òàêæå ðàññìàò-ðèâàòüñÿ ñòðàíèöû êîíôåðåíöèé, ñòðàíèöû ðàáî÷èõ ãðóïï è îðãàíèçàöèé, ýëåêòðîííûå àðõèâû è áèáëèî-òåêè, òåìàòè÷åñêèå ïðîôåññèîíàëüíûå ñàéòû.

• ×àñòî äîìàøíÿÿ ñòðàíèöà ó÷åíîãî (èëè ñòðàíè-öà îðãàíèçàöèè) ïðåäîñòàâëÿåò íå òåêñòû ñòàòåé, à òîëüêî áèáëèîãðàôè÷åñêèå ññûëêè. Ýòà èíôîðìàöèÿ òàêæå ïðåäñòàâëÿåò èíòåðåñ äëÿ íàïîëíåíèÿ ÝÁ, òàê êàê ÿâëÿåòñÿ öåííûì èñòî÷íèêîì áèáëèîãðàôè÷åñ-êîé èíôîðìàöèè, êîòîðàÿ ìîæåò áûòü èñïîëüçîâàíà äëÿ ïîèñêà òåêñòà ñòàòüè ïî áèáëèîãðàôè÷åñêîé ññûëêå (ñì. [23]).

•  Ðóíåò ìíîãèå ïóáëèêàöèè äîñòóïíû íå â ôîðìàòå PS, à â PDF, DOC, HTML. È åñëè â ÑØÀ ôîðìàò PS èñïîëüçóåòñÿ â îñíîâíîì äëÿ íàó÷-íûõ ïóáëèêàöèé, ÷òî àêòèâíî èñïîëüçóåòñÿ â CiteSeer, òî îñòàëüíûå ôîðìàòû èñïîëüçóþòñÿ äëÿ ïóáëèêàöèé ñîâåðøåííî ðàçíîãî íàçíà÷åíèÿ.

• Â Ðóíåò íåò ñåðâèñîâ òèïà HPSearch äëÿ ïîèñêà äîìàøíèõ ñòðàíèö èññëåäîâàòåëåé.

• Äëÿ ïîèñêà ñòàòåé ïî áèáëèîãðàôè÷åñêîé ññûëêå ìîãóò èñïîëüçîâàòüñÿ ñåðâèñû òèïà ñîâñåì íåäàâíî ðóñèôèöèðîâàííîãî Google Scholar. Ñ ïîê-ðûòèåì ÑÏÊÑ íå ìîæåò ñîðåâíîâàòüñÿ íè îäíà íà-ó÷íàÿ ðàçðàáîòêà.

5.3. Ïðåäëàãàåìûé ìåòîä

 ðàìêàõ çàäà÷è ïîèñêà íîâûõ ñòàòåé ìîæíî âûäå-ëèòü ñëåäóþùèå ÷àñòíûå ñëó÷àè:

– ïîèñê òåêñòà ñòàòüè ïî çàäàííîìó áèáëèîãðà-ôè÷åñêîìó îïèñàíèþ;

– ïîèñê äîìàøíåé ñòðàíèöû àâòîðà/êîíôåðåí-öèè/îðãàíèçàöèè, ñîäåðæàùåé ñïèñîê ïóáëèêàöèé ïî çàäàííîìó èìåíè àâòîðà, íàçâàíèþ êîíôåðåí-öèè/îðãàíèçàöèè.

 äàííîé ðàáîòå â êà÷åñòâå áàçû äàííûõ áèáëèî-ãðàôè÷åñêîé èíôîðìàöèè ïðåäëàãàåòñÿ èñïîëüçî-âàòü, âî-ïåðâûõ, ñàìó ÝÁ, òàê êàê ìíîãî ñòàòåé â íåé ïðåäñòàâëåíû òîëüêî áèáëèîãðàôè÷åñêèìè îïèñàíè-ÿìè, âî-âòîðûõ, äîìàøíèå ñòðàíèöû ó÷åíûõ è îðãà-íèçàöèé, ñîäåðæàùèå íå òåêñòû ïóáëèêàöèé, à áèá-ëèîãðàôè÷åñêèå ññûëêè. Äëÿ èçâëå÷åíèÿ áèáëèîãðà-ôè÷åñêèõ ññûëîê èç HTML-ñòðàíèö ñ îïèñàíèåì ïóáëèêàöèè â îòëè÷èå îò [23] ïðåäëàãàåòñÿ èñïîëü-çîâàòü ñêðûòûå Ìàðêîâñêèå ìîäåëè, óñïåøíî ïðè-ìåíåííûå â [2] ê èçâëå÷åíèþ áèáëèîãðàôè÷åñêèõ ññûëîê èç PDF-äîêóìåíòîâ.

Äëÿ ïîèñêà òåêñòà ñòàòüè ïî åå áèáëèîãðàôè÷åñ-êîìó îïèñàíèþ ïðåäëàãàåòñÿ èñïîëüçîâàòü ïîäõîä èç [23] â ñî÷åòàíèè â ðàçáîðîì HTML-ñòðàíèö ñ áèáëèîãðàôèåé èç [16], ñî ñëåäóþùèìè èçìåíåíè-ÿìè:– íà âõîä ÑÏÊÑ ïîäàåòñÿ íå áèáëèîãðàôè÷åñêîå îïèñàíèå ñòàòüè, à ñïèñîê àâòîðîâ, çàãëàâèå è îãðà-íè÷åíèå íà ôîðìàò ôàéëà (PS, PDF). Ýòî äåëàåòñÿ äëÿ òîãî, ÷òîáû íå ïîëó÷èòü îò ÑÏÊÑ ñòàòüè, ññûëà-þùèåñÿ íà èñêîìóþ. Ôèëüòðàöèÿ ïî òèïó ôàéëà äàåò âîçìîæíîñòü íàéòè ñðàçó ñòàòüþ, à íå HTML-ñòðà-íèöû, ññûëàþùèåñÿ íà íåå;

– çàòåì êàæäûé èç ðåçóëüòàòîâ ïî î÷åðåäè ïðîõî-äèò ïðîöåäóðó èçâëå÷åíèÿ ìåòàèíôîðìàöèè, è åñëè

èçâëå÷åííàÿ ìåòàèíôîðìàöèÿ ñîâïàäàåò ñ òðåáóåìîé, òî ïðîöåññ ïîèñêà ñ÷èòàåòñÿ çàêîí÷åííûì óñïåøíî;

– åñëè ñðåäè ïåðâûõ 10 ðåçóëüòàòîâ ÑÏÊÑ ñòàòüè íå íàéäåíî, òî îñëàáëÿåòñÿ îãðàíè÷åíèå íà ôîðìàò ôàéëà è îñóùåñòâëÿåòñÿ àíàëèç HTML-ñòðàíèö íà íàëè÷èå áèáëèîãðàôè÷åñêîé ññûëêè íà òðåáóåìóþ ñòàòüþ;

– åñëè íàéäåíà HTML-ñòðàíèöà, ñîäåðæàùàÿ áèáëèîãðàôè÷åñêèå ññûëêè, â òîì ÷èñëå íà èñêî-ìóþ ñòàòüþ, òî ñ ïîìîùüþ ìåòîäà èç [23] îñóùå-ñòâëÿåòñÿ ïîèñê áëèæàéøåé ññûëêè íà ôàéë ñî ñòàòüåé;

– åñëè ôàéë ñî ñòàòüåé íàéäåí è èçâëå÷åííàÿ ìå-òàèíôîðìàöèÿ ñîâïàäàåò ñ òðåáóåìîé, òî ïðîöåññ ïîèñêà ñ÷èòàåòñÿ çàêîí÷åííûì óñïåøíî;

– â ïðîòèâíîì ñëó÷àå ïðîöåññ ïîèñêà çàâåðøàåò-ñÿ íåóñïåøíî.

Îïèñàííûé ïðîöåññ ïîèñêà ìîæåò òàêæå èìåòü äîïîëíèòåëüíûé ïîëîæèòåëüíûé ýôôåêò: â ñëó÷àå, åñëè íàéäåíà ñòàòüÿ è ñòðàíèöà ñ áèáëèîãðàôè÷åñ-êèìè ññûëêàìè, îäíà èç êîòîðûõ âåäåò ê èñêîìîé ñòàòüå, òî, âåðîÿòíî, ÷òî ýòî äîìàøíÿÿ ñòðàíèöà ó÷åíîãî/îðãàíèçàöèè/êîíôåðåíöèè è ñ íåå ñ áîëü-øîé âåðîÿòíîñòüþ ìîæíî ïîëó÷èòü ñïèñîê áèáëèî-ãðàôè÷åñêèõ ññûëîê èëè íîâûå ñòàòüè.

Äëÿ ïîèñêà äîìàøíåé ñòðàíèöû ó÷åíîãî/îðãà-íèçàöèè/êîíôåðåíöèè, ñîäåðæàùåé ñïèñîê ïóá-ëèêàöèé, ïðåäëàãàåòñÿ èñïîëüçîâàòü ìåòîä [23], ñî ñëåäóþùèìè ìîäèôèêàöèÿìè: â êà÷åñòâå çàï-ðîñà ÑÏÊÑ çàäàåòñÿ ìåòàèíôîðìàöèÿ èç ñóùåñòâó-þùèõ ñòàòåé: èìåíà àâòîðîâ, íàçâàíèÿ êîíôåðåíöèé, íàçâàíèÿ îðãàíèçàöèé, çàãîëîâêè ñòàòåé. Íàïðèìåð, äëÿ ïîèñêà äîìàøíåé ñòðàíèöû àâòîðà ìîãóò çàäà-âàòüñÿ èìÿ àâòîðà, íàçâàíèÿ èçâåñòíûõ åãî ïóáëèêà-öèé è äîïîëíèòåëüíûå êëþ÷åâûå ñëîâà òèïà «ïóá-ëèêàöèè», «äîìàøíÿÿ ñòðàíèöà». Èñïîëüçîâàíèå òå-ìàòè÷åñêîãî êðàóëåðà ïðåäëàãàåòñÿ îãðàíè÷èòü

ñêà-÷èâàíèåì òîëüêî ñòðàíèö, íåïîñðåäñòâåííî äîñòè-æèìûõ ïî ññûëêå ñ íàéäåííîé ÑÏÊÑ ñòðàíèöû è â ïðåäåëàõ òîãî æå äîìåíà.

Ïðåäëîæåííûé ìåòîä ñóùåñòâåííî îòëè÷àåòñÿ îò ïðèìåíÿåìîãî â CiteSeer: îí íå ïðèâÿçàí ê ïîèñêó òîëüêî äîìàøíèõ ñòðàíèö, à îðèåíòèðîâàí òàêæå íà ïîèñê ñòðàíèö îðãàíèöàöèé è êîíôåðåíöèé; â íåì íå èñïîëüçóåòñÿ çàïðîñ ïîëüçîâàòåëÿ (íàïðèìåð, íà-çâàíèå ïðåäìåòíîé îáëàñòè – «íåéðîííûå ñåòè ïðà-ìîãî ðàñïðîñòðàíåíèÿ»), êîòîðûé ìîæåò ïîðîäèòü äîñòàòî÷íî áîëüøîé øóì â ðåçóëüòàòàõ ÑÏÊÑ; â íåì ïðîèçâîäèòñÿ àíàëèç ðåçóëüòàòà ïîèñêà ïóòåì ðàç-áîðà äîêóìåíòà è èçâëå÷åíèÿ ìåòàèíôîðìàöèè, à íå ñêà÷èâàíèå âñåõ ïîäðÿä äîêóìåíòîâ â çàäàííîì ôîð-ìàòå; â íåì â õîäå ïîèñêà ïðîèçâîäèòñÿ ðàçáîð ñòà-òüè è èçâëå÷åíèå ìåòàèíôîðìàöèè; â íåì ïðîèçâî-äèòñÿ ðàçáîð ñòðàíèöû ñ áèáëèîãðàôè÷åñêèìè ññûëêàìè.  íàñòîÿùåå âðåìÿ âåäåòñÿ ýêñïåðèìåí-òàëüíîå èññëåäîâàíèå ïðåäëîæåííîãî ìåòîäà.

6. Çàêëþ÷åíèå

 ðàìêàõ äàííîé ðàáîòû íà îñíîâå íàðàáîòîê ïðî-åêòà CiteSeer áûëà ïîñòðîåíà èíôîðìàöèîííàÿ ñèñ-òåìà, ïîçâîëÿþùàÿ õðàíèòü è ðóññêîÿçû÷íûå, è àí-ãëîÿçû÷íûå ñòàòüè, àâòîìàòè÷åñêè ñòðîèòü ïî íèì îáùèé öèòàòíûé èíäåêñ. Íà îñíîâå ýòîé ñèñòåìû

áûë ïðîñòðîåí ïðîòîòèï ýëåêòðîííîé áèáëèîòåêè ðóññêîÿçû÷íûõ è àíãëîÿçû÷íûõ íàó÷íûõ ñòàòåé ïî òåìàòèêå Computer Science.

 äàëüíåéøåì ïðåäïîëàãàåòñÿ ïðîâåñòè ðÿä ðà-áîò ïî ðàçâèòèþ ñèñòåìû:

– ýêñïåðèìåíòàëüíîå èññëåäîâàíèå ïðåäëîæåí-íîãî ìåòîäà àâòîìàòè÷åñêîãî ïîèñêà íàó÷íûõ ñòàòåé â Ðóíåò, îáåñïå÷åíèå ïîèñêà íå òîëüêî íîâûõ ñòà-òåé, íî è äîìàøíèõ ñòðàíèö, àäðåñîâ ýëåêòðîííîé ïî÷òû è ôîòîãðàôèé àâòîðîâ, ÷òîáû áèáëèîòåêó ìîæíî áûëî òàêæå ðàññìàòðèâàòü êàê êàòàëîã èíôîð-ìàöèè îá îòå÷åñòâåííûõ ó÷åíûõ;

– èññëåäîâàíèå ñóùåñòâóþùèõ ìåòîäîâ ñîïîñòàâ-ëåíèÿ áèáëèîãðàôè÷åñêèõ ññûëîê äëÿ áîëåå òî÷íî-ãî ïîñòðîåíèÿ öèòàòíîòî÷íî-ãî èíäåêñà;

– ðàçâèòèå ìåòîäîâ èçâëå÷åíèÿ ìåòàèíôîðìàöèè è áèáëèîãðàôè÷åñêèõ ññûëîê: ñîâåðøåíñòâîâàíèå ó÷åòà ðàçìåòêè â ìåòîäàõ ìàøèííîãî îáó÷åíèÿ, ýêñ-ïåðèìåíòàëüíîå èññëåäîâàíèå ïðèìåíåíèÿ óñëîâíûõ ñëó÷àéíûõ ïîëåé, ïîääåðæêà ðàçëè÷íûõ ôîðìàòîâ äîêóìåíòîâ;

– èíòåãðàöèÿ ÝÁ ñ CiteSeer.IST ïî ïðîòîêîëó OAI-PMH;– ñîçäàíèå ñðåäñòâ òåìàòè÷åñêîãî ïîèñêà:

– ïðåäîñòàâëåíèå âîçìîæíîñòè ñôîðìóëèðîâàòü çàïðîñ íà îäíîì ÿçûêå è ïîëó÷èòü òåìàòè÷åñêè áëèç-êèå ñòàòüè íà îáîèõ ÿçûêàõ (áåç ïåðåâîäà çàïðîñà);

– êëàñòåðèçàöèÿ ðåçóëüòàòîâ ïîèñêà ïî ðàçëè÷-íûì êðèòåðèÿì: òåìàòèêå, àâòîðàì, ãîäó èçäàíèÿ è ò. ï.;

– àâòîìàòè÷åñêàÿ êëàññèôèêàöèÿ íàó÷íûõ ñòà-òåé äëÿ ïîñòðîåíèÿ òåìàòè÷åñêîãî êàòàëîãà;

– âíåäðåíèå ñðåäñòâ ïåðñîíàëèçàöèè è êîëëåê-òèâíûõ çàêëàäîê, ÷òîáû ó÷åíûå ìîãëè ñòðîèòü ñâîå ïðåäñòàâëåíèå áèáëèîòåêè, ðàçìå÷àòü ñòàòüè òåãàìè è îáìåíèâàòüñÿ ýòîé èíôîðìàöèåé ïî àíàëîãèè ñ ñåðâèñîì del.icio.us;

– ïåðåâîä ñèñòåìû íà ñâîáîäíîå ÏÎ. Óõîä îò òðóäíîñîïðîâîæäàåìîãî è íå ñâîáîäíîãî êîäà êîì-ïàíèè NEC â CiteSeer.IST, ÷òîáû êîä ðàçðàáàòûâàå-ìîé ñèñòåìû ìîã èìåòü ñòàòóñ free software.

7. Ëèòåðàòóðà

[1] Êîçëîâ Ä. Ä. Ñîçäàíèå ðóññêîÿçû÷íîé áèáëèîòåêè íàó÷-íûõ ñòàòåé íà ôàêóëüòåòå ÂÌèÊ ÌÃÓ // Ñá. òð. Âñåðîññ.

íàó÷. êîíô. «Íàó÷íûé ñåðâèñ â ñåòè Èíòåðíåò», 2006.

[2] Âàñèëüåâ À., Êîçëîâ Ä., Ñàìóñåâ Ñ., Øàìèíà Î.

Èçâëå-÷åíèå ìåòàèíôîðìàöèè è áèáëèîãðàôè÷åñêèõ ññûëîê èç òåêñòîâ ðóññêîÿçû÷íûõ íàó÷íûõ ñòàòåé. // Ñáîðíèê òðó-äîâ êîíôåðåíöèè RCDL’2007, 2007.

[3] ACM Digital Library [Electronic resource] http://acm.org/dl.

[4] Bates M. The design of browsing and berrypicking techniques for the online search interface. Online Review 13, 5, 1989.

[5] CiteSeer.IST. [Electronic resource] http://citeseer.

ist.psu.edu.

[6] CORR. [Electronic resource] http://arxiv.org/corr/home.

[7] Hoff G., Mundhenk M. Finding scientific papers with homepagesearch and MOPS. In Proceedings of the Nineteenth Annual International Conference of Computer Documentation, Communicating in the New Millennium, Ð.

201–207, 2001.

[8] IEEE Computer Society Digital Library [Electronic resource]

http://computer.org.

[9] Giles C. L., Bollacker K. D., Lawrence S. CiteSeer: An Automatic Citation Indexing System. The Third ACM Conference on Digital Libraries, 1998.

[10] Giles C. L., Councill I. G. Who gets acknowledged: Measuring scientific contributions through automatic acknowledgement indexing. // Proceedings of the National Academy of Sciences, 2004.

[11] Giles L. et al. Automatic Document Metadata Extraction using Support Vector Machines, JCDL, 2003.

[12] Kleinberg J. Authoritative sources in a hyperlinked environment. Technical Report RJ 10076, IBM, 1997.

[13] Lafferty J., Pereira F., McCallum A. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In International Conference on Machine Learning, 2001.

[14] Lawrence S., Giles L., Bollaker K. Digital Libraries and Autonomous Citation Indexing. IEEE Computer. Vol 32,

¹ 6. 1999.

[15] Lawrence S., Giles L. Inquirus, the NECI meta search engine // Proceedings of the seventh international conference on World Wide Web 7. 1998.

[16] On B., Lee D. PaSE: Locating Online Copy of Scientific Documents Effectively. In Proceedings of the 7th International Conference of Asian Digital Libraries (ICADL).

Ð. 408–418, 2004.

[17] Petricek V. åt al. A Comparison of On-line Computer Science Citation Databases. ECDL 2005.

[18] Rexa Digital Library [Electronic resource] http://rexa.org.

[19] Science Citation Index. [Electronic resource] http://

scientific.thomson.com/products/sci/

[20] Seymore K, McCallum A., Rosenfeld R. Learning for Information Extraction Learning Hidden Markov Model Structure for Information Extraction AAAI’99 Workshop on Machine, 1999.

[21] Snowball Project. [Electronic resource] http://snowball.

tartarus.org/.

[22] XPDF Project. [Electronic resource] http://www.foolabs.

com/xpdf/

[23] Zhuang Z., Wagle R., Giles C. L. What’s There and What’s Not? Focused Crawling for Missing Documents in Digital Libraries. JCDL 2005.

Digital library and Search engine for national-language research literature

S. Vasiliev, D. Kozlov, S. Samusev, O. Shamina This paper describes implementation of information system and digital library to store Russian and English papers together, search in both languages, extract metadata and citations from articles and interconnect Russian and English papers into common citation index. Also a method to automatically search for new research papers in Russian is described.

Ïîèñê èçîáðàæåíèé. Ñèíòåç ðàçëè÷íûõ ìåòîäîâ ïîèñêà ïðè ôîðìèðîâàíèè ðåçóëüòàòîâ

Í. Âàñèëüåâà

Ñàíêò-Ïåòåðáóðãñêèé Ãîñóäàðñâòåííûé Óíèâåðñèòåò

[email protected]

À. Äîëüíèê

Ñàíêò-Ïåòåðáóðãñêèé Ãîñóäàðñâòåííûé Óíèâåðñèòåò

[email protected]

È. Ìàðêîâ

Ñàíêò-Ïåòåðáóðãñêèé Ãîñóäàðñâòåííûé Óíèâåðñèòåò

[email protected]

Àííîòàöèÿ

 îò÷åòå ïðåäñòàâëåíû ðåçóëüòàòû èññëåäîâàíèÿ ïðèìåíè-ìîñòè ìåòîäîâ ñèíòåçà äàííûõ ê çàäà÷å ïîèñêà èçîáðàæå-íèé.Ïðè ïîèñêå èçîáðàæåíèé ïî ñîäåðæàíèþ ðàñïðîñò-ðàíåííîé ïðàêòèêîé ÿâëÿåòñÿ íåçàâèñèìûé àíàëèç ðàç-ëè÷íûõ íèçêîóðîâíåâûõ õàðàêòåðèñòèê (öâåò, òåêñòóðà, ôîðìà). Ïðè òàêîì ïîäõîäå âñòàåò çàäà÷à äàëüíåéøåãî ñèíòåçà ðåçóëüòàòîâ ïîèñêà ïî êàæäîé èç õàðàêòåðèñòèê.

Àâòîðàìè ïðåäëàãàåòñÿ íîâàÿ ôóíêöèÿ ñèíòåçà WTGF, êîòîðàÿ äëÿ ðÿäà çàäà÷ âûèãðûâàåò ó CombMNZ.

Îòëè-÷èòåëüíîé îñîáåííîñòüþ ôóíêöèè WTGF ÿâëÿåòñÿ âîç-ìîæíîñòü ó÷èòûâàòü ðàçíûå âåñà äëÿ âõîäíûõ èñòî÷íè-êîâ. îò÷åòå ïðåäñòàâëåíû ðåçóëüòàòû ýêñïåðèìåíòîâ ïî èñïîëüçîâàíèþ ðàçëè÷íûõ ôóíêöèé ñèíòåçà äëÿ ðåøå-íèÿ çàäà÷è ïîèñêà ïî ÷àñòè÷íî àííîòèðîâàííîé áàçå èçîáðàæåíèé ñ òåêñòîâûì çàïðîñîì è êëàññè÷åñêîé çà-äà÷è ïîèñêà èçîáðàæåíèé ïî ñîäåðæàíèþ.  êà÷åñòâå ìåòîäîâ ïîèñêà ïî ñîäåðæàíèþ èñïîëüçîâàíû ìåòîäû ïîèñêà ïî öâåòîâûì è òåêñòóðíûì õàðàêòåðèñòèêàì èçîá-ðàæåíèé.

Òàêæå â äàííîì îò÷åòå ïðåäñòàâëåí ðÿä ìåòîäîâ îöåíêè ýôôåêòèâíîñòè ìåòîäîâ ñèíòåçà è ïîèñêà èçîá-ðàæåíèé â öåëîì.

1. Ââåäåíèå

Ýòà ðàáîòà ïîñâÿùåíà àêòóàëüíîé íà ñåãîäíÿø-íèé äåíü çàäà÷å ïîèñêà èçîáðàæåñåãîäíÿø-íèé. Âñå ñóùå-ñòâóþùèå íà íàñòîÿùèé ìîìåíò ìåòîäû ïîèñêà ãðàôè÷åñêîé èíôîðìàöèè ìîæíî ðàçäåëèòü íà äâà íàïðàâëåíèÿ:

• ïîèñê ïî ñîäåðæàíèþ (content-based image retrieval – CBIR)1;

• ïîèñê ïî òåêñòîâûì àííîòàöèÿì (description-based image retrieval – DBIR), êîòîðûé äåëèòñÿ åùå íà òðè ãðóïïû ïî ñïîñîáó ïîñòðîåíèÿ àííî-òàöèé:

– àâòîìàòè÷åñêè ïîëó÷åííûå àííîòàöèè;

– ïîëóàâòîìàòè÷åñêèå àííîòàöèè;

– ïîëó÷åííûå âðó÷íóþ àííîòàöèè.

Ê àííîòàöèÿì, ïîëó÷åííûì àâòîìàòè÷åñêè, îòíî-ñÿòñÿ: âçÿòûå èç «îêîëî êàðòèíî÷íîãî» òåêñòà

êëþ-÷åâûå ñëîâà, ðàçëè÷íîãî ðîäà äðóãàÿ ìåòà èíôîðìà-öèÿ (êàê âðåìÿ ñîçäàíèÿ, ãåîãðàôè÷åñêîå ìåñòî ñî-çäàíèÿ) è ïðî÷åå.

Ïîä ïîëóàâòîìàòè÷åñêèìè ñïîñîáàìè àííîòè-ðîâàíèÿ ïîíèìàþò ìåòîäû, ïðè êîòîðûõ ÷àñòü àííîòàöèé èçîáðàæåíèé îïèñûâàåòñÿ âðó÷íóþ,

îñòàëüíûå àâòîìàòè÷åñêè ïîëó÷àþò àííîòàöèè èçîáðàæåíèé, áëèçêèõ ïî ñîäåðæàíèþ.

Çàãîëîâêè èçîáðàæåíèé è íàïèñàííûå ïîëüçî-âàòåëåì ñëîâåñíûå àííîòàöèè îòíîñÿò ê ïîëó÷åí-íûì âðó÷íóþ àííîòàöèÿì.

 îòëè÷èå îò ñèñòåì DBIR, ñèñòåìû ïîèñêà èçîáðàæåíèé ïî ñîäåðæàíèþ íå òðåáóþò íàëè÷èÿ êàêîé-ëèáî äîïîëíèòåëüíîé èíôîðìàöèè îá èçîáðàæåíèè. Ïîèñê â òàêèõ ñèñòåìàõ ïðîèçâî-äèòñÿ íà îñíîâå àíàëèçà è ñðàâíåíèÿ íèçêîóðîâ-íåâûõ õàðàêòåðèñòèê èçîáðàæåíèÿ, òàêèõ êàê öâåò èëè òåêñòóðà. Ýòî ïîçâîëÿåò óéòè îò òðóäîåìêîñòè è ñóáúåêòèâíîñòè ñîñòàâëåííûõ âðó÷íóþ àííîòà-öèé, íåòî÷íîñòè àííîòààííîòà-öèé, ïîëó÷åííûõ àâòîìà-òè÷åñêè èëè ïîëóàâòîìààâòîìà-òè÷åñêè. Îäíàêî è ó ýòîãî ïîäõîäà åñòü ñâîè ìèíóñû:

• Òèïè÷íûì âèäîì çàïðîñà äëÿ òàêèõ ñèñòåì ÿâëÿåòñÿ èçîáðàæåíèå-îáðàçåö, ÷òî ìåíåå óäîáíî äëÿ ïîëüçîâàòåëÿ, ÷åì òåêñòîâûé çàïðîñ.

• Äëÿ ïîèñêà ïî êîëëåêöèè ðàçíîðîäíîãî ñî-äåðæàíèÿ íåäîñòàòî÷íî àíàëèçà ïî êàêîé-òî îä-íîé èç õàðàêòåðèñòèê. Íåîáõîäèìî êîìáèíèðî-âàòü ìåòîäû ïîèñêà ïî ðàçëè÷íûì õàðàêòåðèñòè-êàì. Ãîâîðÿ î ðàçíîðîäíîì ñîäåðæàíèè, ìû ïîä-ðàçóìåâàåì, ÷òî ðàññìàòðèâàåìàÿ êîëëåêöèÿ èçîá-ðàæåíèé íå ïðèíàäëåæèò îäíîé îïðåäåëåííîé òå-ìàòèêå.

• Ñèñòåìà ïîèñêà èçîáðàæåíèé ïî ñîäåðæàíèþ ñðàâíèâàåò èçîáðàæåíèÿ íà îñíîâå íèçêîóðîâíå-âîé èíôîðìàöèè, â òî âðåìÿ êàê ÷åëîâåê â áîëü-øèíñòâå ñëó÷àåâ îöåíèâàåò ñåìàíòè÷åñêóþ ñõî-æåñòü êàðòèíîê. Ïðîáëåìà «ñåìàíòè÷åñêîãî ðàç-ðûâà» – îòñóòñòâèÿ ñâÿçè ìåæäó ñåìàíòèêîé èçîá-ðàæåíèÿ è åãî íèçêîóðîâíåâûìè õàðàêòåðèñòèêà-ìè ÿâëÿåòñÿ îäíîé èç îñíîâíûõ â îáëàñòè CBIR.

Èñïîëüçîâàíèå òåêñòîâîãî çàïðîñà ïîçâîëÿåò ðåøèòü ïðîáëåìó çàïðîñà-îáðàçöà è ñóçèòü ñåìàí-òè÷åñêèé ðàçðûâ. Íî èñïîëüçîâàíèå òàêîãî âèäà çàïðîñà íåâîçìîæíî áåç íàëè÷èÿ â ñèñòåìå òåê-ñòîâîé èíôîðìàöèè îá èçîáðàæåíèÿõ. Ïðåäîñòà-âèòü àííîòàöèè äëÿ âñåõ èçîáðàæåíèé áàçû – çà-äà÷à òðóäîåìêàÿ.  òî æå âðåìÿ, äîñòàòî÷íî ðàñ-ïðîñòðàíåíû ÷àñòè÷íî àííîòèðîâàííûå áàçû èçîá-ðàæåíèé. Ëþáîé ôîòîõîñòèíã ïðåäîñòàâëÿåò ïîëüçî-âàòåëÿì âîçìîæíîñòü êîììåíòèðîâàòü ñâîè èëè

÷óæèå ôîòîãðàôèè, ïðè ýòîì íàëè÷èå ðèÿ íå ÿâëÿåòñÿ îáÿçàòåëüíûì. Äàííûå êîììåíòà-ðèè ìîæíî èñïîëüçîâàòü â êà÷åñòâå àííîòàöèé äëÿ òåõ èçîáðàæåíèé, ê êîòîðûì îíè áûëè íàïè-ñàíû. Òàêèì îáðàçîì, çàäà÷à ïîèñêà ïî ÷àñòè÷íî àííîòèðîâàííîé áàçå ïî òåêñòîâîìó çàïðîñó ïðåä-ñòàâëÿåòñÿ äîñòàòî÷íî àêòóàëüíîé.  äàííîé

ðà-1  àíãëîÿçû÷íîé íàó÷íîé ëèòåðàòóðå ïî êîìïüþòåðíîìó âèäåíèþ (computer vision) òàêæå ìîæíî âñòðåòèòü òåðìèí query by image content (QBIC) èëè òåðìèí content–based visual information retrieval (CBVIR).

áîòå ïðåäëàãàåòñÿ ïîäõîä ê ðåøåíèþ äàííîé

çàäà-÷è ñ èñïîëüçîâàíèåì ìåòîäà ñèíòåçà äàííûõ.

Òàêæå çàäà÷à ñèíòåçà êðàéíå àêòóàëüíà è ïðè-ìåíèòåëüíî ê «÷èñòîìó» ïîèñêó ïî ñîäåðæàíèþ – âûøå áûëà óïîìÿíóòà íåîáõîäèìîñòü êîìáèíèðî-âàíèÿ ðåçóëüòàòîâ ïîèñêà ïî ðàçëè÷íûì õàðàêòå-ðèñòèêàì èçîáðàæåíèÿ.  òî æå âðåìÿ, íà ñåãîä-íÿøíèé äåíü ëèøü íåáîëüøîå êîëè÷åñòâî ðàáîò ïîñâÿùåíî èññëåäîâàíèþ ìåòîäîâ ñèíòåçà â íîì êîíòåêñòå, õîòÿ óñïåøíîå èñïîëüçîâàíèå äàí-íûõ ìåòîäîâ ìîæåò çàìåòíî óëó÷øèòü êà÷åñòâî ïîèñêà èçîáðàæåíèé ïî ñîäåðæàíèþ.

ドキュメント内 untitled (ページ 40-47)