• 検索結果がありません。

Íàñòðîéêà è òåñòèðîâàíèå àëãîðèòìà ðàçðåøåíèÿ ìíîãîçíà÷íîñòè

ドキュメント内 untitled (ページ 114-118)

ñî-ñòîÿùèå èç èåðàðõè÷åñêèõ îòíîøåíèé îäíîé íà-ïðàâëåííîñòè, òî åñòü áåç ïåðåãèáîâ, òàêèì îáðà-çîì ñåìàíòè÷åñêè áëèçêèìè ñ÷èòàëèñü òîëüêî ïî-íÿòèÿ, íàõîäÿùèåñÿ â èåðàðõè÷åñêèõ îòíîøåíèÿõ ìåæäó ñîáîé. Ýòî ïðèâîäèëî ê ÿâíûì ïðîáëåìàì íà îòíîñèòåëüíî êîðîòêèõ òåêñòàõ, òàêèõ êàê íîâî-ñòíûå ñîîáùåíèÿ, êîãäà íåîáõîäèìûå äëÿ ïîäòâåð-æäåíèÿ èåðàðõè÷åñêè ðàñïîëîæåííûå ïîíÿòèÿ íå âõîäèëè â ñîñòàâ àíàëèçèðóåìîãî òåêñòà.

Âî-âòîðûõ, íå áûëî îãðàíè÷åíèé íà äëèíó ïóòè ìåæäó ïîíÿòèÿìè, ÷òî ïðèâîäèëî, íàïðèìåð, ê òîìó, ÷òî ìíîãîçíà÷íîñòü î÷åíü êîíêðåòíîãî ïî-íÿòèÿ ìîãëà áûòü ðàçðåøåíà íà îñíîâå íàõîæäå-íèÿ â òåêñòå î÷åíü àáñòðàêòíîãî ïîíÿòèÿ.

Â-òðåòüèõ, íå áûëî âåñîâîé îöåíêè

ñåìàíòè-÷åñêîé áëèçîñòè ìåæäó ïîíÿòèÿìè íà îñíîâå ïó-òåé ìåæäó íèìè èëè êàêèõ-ëèáî äðóãèõ: ïîäòâåð-æäåíèå ïðîèçâîäèëîñü íà îñíîâå ïðèíöèïà «äà-íåò».

Â-÷åòâåðòûõ, ïðèîðèòåò îòäàâàëñÿ ãëîáàëüíîìó êîíòåêñòó, òî åñòü ñíà÷àëà ïðîâåðÿëîñü, åñëè ëè ïîäòâåðæäåíèå äëÿ òîãî èëè èíîãî çíà÷åíèÿ ïî âñåìó òåêñòó. Åñëè íåñêîëüêî çíà÷åíèé èìåëè ïîäòâåðæäåíèå â ãëîáàëüíîì êîíòåêñòå, òî ïðîâå-ðÿëñÿ ëîêàëüíûé êîíòåêñò: âûáèðàëîñü òî çíà÷å-íèå, ïîäòâåðæäåíèå äëÿ êîòîðîãî íàõîäèëîñü áëè-æå âñåãî ê èññëåäóåìîìó ìíîãîçíà÷íîìó âõîæäå-íèþ.Òàêèì îáðàçîì, íà÷èíàÿ ðàáîòû íàä íîâûì àëãîðèòìîì ðàçðåøåíèÿ ìíîãîçíà÷íîñòè, ìû ðàñ-ñ÷èòûâàëè íà ïîâûøåíèå êà÷åñòâà ðàçðåøåíèÿ ìíîãîçíà÷íîñòè çà ñ÷åò áîëåå àêêóðàòíîãî ó÷åòà ñïåöèôèêè ïóòåé ìåæäó ïîíÿòèÿìè òåçàóðóñà.

7. Íàñòðîéêà è òåñòèðîâàíèå àëãîðèòìà

ðàçðà-áîòàííîìó àëãîðèòìó (ïðîöåíò ïðàâèëüíî ïðèíÿòûõ ðåøåíèé) â ïðîöåññå òåñòèðîâàíèÿ ñîñòàâèëà 73,37 % è âûðîñëà íà 6,7 % îòíîñèòåëüíî òî÷íîñòè ðàçðåøå-íèÿ ìíîãîçíà÷íîñòè, ïîëó÷åííîé ïî ñòàðîìó àëãî-ðèòìó.

Òàáëèöà 1 Òî÷íîñòü ðàçðåøåíèÿ ëåêñè÷åñêîé ìíîãîçíà÷íîñòè

ïî èñòî÷íèêàì ïóáëèêàöèé

Èñòî÷íèê Ndoc Namb Pnew,% P96, %

Èçâåñòèÿ 44 2525 75,23 72,00

Âåäîìîñòè 62 2697 77,89 73,41

Íåçàâèñèìàÿ ãàçåòà 42 2776 68,14 66,50 Êîìñîìîëüñêàÿ ïðàâäà 49 2240 66,74 63,04

ßíäåêñ-Íîâîñòè 3045075,05 68,00

Âñåãî 227 10688 73,37 68,77

Êàê è ïðåäïîëàãàëîñü, íàèáîëüøèé ðîñò òî÷-íîñòè óäàëîñü ïîëó÷èòü íà îòíîñèòåëüíî êîðîòêèõ òåêñòàõ íîâîñòíûõ ñîîáùåíèé, êîòîðûé ñîñòàâèë áîëåå 10%.

Äëÿ ïîëó÷åíèÿ ëó÷øèõ ðåçóëüòàòîâ òåñòèðîâà-ëèñü ðàçíûå íàáîðû ïàðàìåòðîâ.

Ê îñîáåííîñòÿì íàèëó÷øåãî íàáîðà ïàðàìåò-ðîâ ìîæíî îòíåñòè ñëåäóþùèå çàêîíîìåðíîñòè.

Áûëè âûáðàíû ðàçíûå ïîðîãè äëÿ ðàçíûõ âèäîâ ìíîãîçíà÷íîñòè: 4 áàëëà äëÿ À-ìíîãîçíà÷íîñòè, è 2 áàëëà äëÿ Ì-ìíîãîçíà÷íîñòè. Òàêîé ðåçóëüòàò ÿâëÿ-åòñÿ ïðåäñêàçóåìûì, ïîñêîëüêó ïðè Ì-ìíîãîçíà÷-íîñòè ìåæäó ñîáîé «ñîðåâíóþòñÿ» íåñêîëüêî çíà÷å-íèé, à ïðè À-ìíîãîçíà÷íîñòè çíà÷åíèå-êîíòðàãåíò íàõîäèòñÿ âíå çîíû òåçàóðóñà.

Âûÿñíèëîñü, ÷òî ïîäòâåðæäåíèå îò ìíîãîçíà÷-íîãî òåðìèíà â ëîêàëüíîì êîíòåêñòå çíà÷èìî òàê æå, êàê è îò îäíîçíà÷íîãî òåðìèíà. Ýòà çàêîíî-ìåðíîñòü íå áûëà î÷åâèäíà, ïðè ðó÷íîì àíàëèçå áûëî âèäíî, ÷òî ìåæäó ïàðàìè ìíîãîçíà÷íûõ òåð-ìèíîâ èíîãäà âîçíèêàþò ëîæíûå êîððåëÿöèè, ïðèâîäÿùèå ê âûáîðó íåïðàâèëüíûõ çíà÷åíèé äëÿ îáîèõ òåðìèíîâ.

Íàèëó÷øåé îêàçàëàñü äèíàìè÷åñêàÿ îêðåñòíîñòü ëîêàëüíîãî êîíòåêñòà 3 + 3.

Ëó÷øèé ðåçóëüòàò áûë ïîëó÷åí äëÿ âûñîòû äåðåâüåâ 2 êàê äëÿ ëîêàëüíîãî, òàê è äëÿ ãëîáàëü-íîãî óðîâíÿ, òî åñòü ïðè ïîèñêå ñåìàíòè÷åñêè áëèçêèõ òåðìèíîâ â ñðåäíåì ëó÷øå èñïîëüçîâàòü êàê ïîäòâåðæäåíèå ïîíÿòèÿ, îòñòîÿùèå îò ïîíÿ-òèé, ñîîòâåòñòâóþùèõ ìíîãîçíà÷íîìó âûðàæåíèþ, îáùàÿ äëèíà ïóòè íå áîëåå 4 îòíîøåíèé.

Èç âñåõ òèïîâ ïåðåãèáîâ «íàèõóäøèìè»,

ïîëó-÷èâøèìè ìàêñèìàëüíûå áàëëû øòðàôà, îêàçàëèñü ïåðåãèáû òèïà: âèäîâîå_ïîíÿòèå1 – ðîäîâîå ïîíÿ-òèå – âèäîâîå ïîíÿòèå_2, ÷òî îæèäàëîñü, à òàêæå ïåðåãèá-âíèçó òèïà: ðîäîâîå ïîíÿòèå_1 – âèäîâîå ïîíÿòèå – ðîäîâîå ïîíÿòèå_2.

Ïðè àíàëèçå ðåçóëüòàòîâ ðàáîòû àëãîðèòìîâ, èçëîæåííûõ â òàáë. 1, íóæíî ïîä÷åðêíóòü âàæíîå îáñòîÿòåëüñòâî. Òåçàóðóñ ñîäåðæèò ìíîãî îäíî-çíà÷íûõ ñëîâîñî÷åòàíèé, â ñîñòàâ êîòîðûõ âõîäÿò ìíîãîçíà÷íûå ñëîâà, íàïðèìåð, ìèíèñòð îáîðîíû, óãîëîâíîå äåëî, äîïîëíèòåëüíûé îòïóñê. Ïðè àíà-ëèçå òåêñòà ýòè ìíîãîçíà÷íûå ñëîâà ïîïàäàþò âíóòðü

ìíîãîñëîâíûõ òåðìèíîâ è çàäà÷à ðàçðåøåíèÿ èõ ìíî-ãîçíà÷íîñòè íå âîçíèêàåò.

Åñëè áû ñëîâîñî÷åòàíèé íå áûëî, òî ïðèøëîñü áû ðàçðåøàòü ìíîãîçíà÷íîñòü ýòèõ ñëîâ àëãîðèòìè÷åñ-êè. Áûëî ïîäñ÷èòàíî, ÷òî åñëè ó÷åñòü òå ìíîãîçíà÷-íûå ñëîâà, ìíîãîçíà÷íîñòü êîòîðûõ ñíèìàåòñÿ çà ñ÷åò îáúåìëþùèõ ñëîâîñî÷åòàíèé, òî òî÷íîñòü ðàç-ðåøåíèÿ ìíîãîçíà÷íîñòè íà îñíîâå êîìïëåêñà «ìíî-ãîñëîâíûå òåðìèíû òåçàóðóñà + àëãîðèòì ðàçðåøå-íèÿ» âîçðîñëà áû â ñðåäíåì íà 5 %.

Òàêæå ìû èññëåäîâàëè âîïðîñ, íàñêîëüêî òî÷-íîñòü ðàçðåøåíèÿ ìíîãîçíà÷íîñòè çàâèñèò îò ÷àñ-òîòíîñòè ìíîãîçíà÷íîé åäèíèöû â òåêñòå. Áûëà âûÿâëåíà èíòåðåñíàÿ êîððåëÿöèÿ, ÷òî ðàçðåøåíèå ìíîãîçíà÷íûõ ñëîâ, âñòðåòèâøèõñÿ â òåêñòå îäèí ðàç, âî âñåõ ïîäêîëëåêöèÿõ íà íåñêîëüêî ïðîöåí-òîâ íèæå, ÷åì â öåëîì ïî êîëëåêöèè. Ýòî îçíà÷àåò,

÷òî òî÷íîñòü ðàçðåøåíèÿ äëÿ ñëîâ ñ áîëüøåé ÷àñ-òîòíîñòüþ âûøå, ÷åì ïðèâåäåííàÿ â òàáëèöå.

7.2. Òåñòèðîâàíèå àëãîðèòìà ðàçðåøåíèÿ ìíîãîçíà÷íîñòè íà çàïðîñàõ èç ïðàâîâîé îáëàñòè

Èññëåäóÿ ýôôåêò íîâîãî àëãîðèòìà ïî ðàçðåøåíèþ ëåêñè÷åñêîé ìíîãîçíà÷íîñòè äëÿ êîðîòêèõ òåêñòîâ, ìû ñäåëàëè íåáîëüøóþ êîëëåêöèþ 40 äëèííûõ çàï-ðîñîâ â îáëàñòè ïðàâà èç êîëëåêöèè ÐÎÌÈÏ-legal [5], íàïðèìåð, òàêèõ êàê êîìïåíñàöèÿ ïîäîõîäíîãî íàëîãà ïðè ïðèîáðåòåíèè íåäâèæèìîñòè. Äëÿ ýòîé êîëëåêöèè ðàçðåøåíèå ìíîãîçíà÷íîñòè òåðìèíîâ Îáùåñòâåííî-ïîëèòè÷åñêîãî òåçàóðóñà äîñòèãëî âå-ëè÷èíû 82,02 %, â òî âðåìÿ êàê òî÷íîñòü ïðåæíåãî àëãîðèòìà ñîñòàâëÿëà âåëè÷èíó 48,31 %.

Äëÿ òàêîé êîëëåêöèè ïàðàìåòðû àëãîðèòìà íà-ñòðàèâàëèñü îòäåëüíî. Ïàðàìåòðû, íà êîòîðûõ áûëè ïîëó÷åíû ëó÷øèå ðåçóëüòàòû äëÿ êîëëåêöèè çàïðî-ñîâ, îêàçàëèñü ñîâåðøåííî èíûìè, ÷åì äëÿ êîëëåê-öèè ñòàòåé: ýòî ìàêñèìàëüíûå âåëè÷èíû äåðåâüå⠖ 7 øàãîâ, ìèíèìàëüíûå ïîðîãè äëÿ îáîèõ âèäîâ ìíî-ãîçíà÷íîñòè, ìèíèìàëüíûå öåíû ïåðåãèáîâ.

Òàêèå ðåçóëüòàòû ïðèâåëè ê ìûñëè, ÷òî ìîæíî ñäåëàòü ñèñòåìó àâòîìàòè÷åñêîé íàñòðîéêè ïàðà-ìåòðîâ àëãîðèòìà â çàâèñèìîñòè îò äëèíû îáðà-áàòûâàåìîãî òåêñòà.

Áûë ïðîâåäåí ñëåäóþùèé ýêñïåðèìåíò: òà æå òå-ñòîâàÿ êîëëåêöèÿ ñòàòåé (ï. 7.1) áûëà ðàçäåëåíà íà ïÿòü ïîäêîëëåêöèé ïî âåëè÷èíå òåêñòîâ. Ìû ïûòà-ëèñü ïîäîáðàòü ëó÷øèå ïàðàìåòðû äëÿ êàæäîé ãðóï-ïû òåêñòîâ è âûÿâèòü ôóíêöèþ èçìåíåíèÿ îñíîâíûõ ïàðàìåòðîâ. Îäíàêî â ýòîì ýêñïåðèìåíòå ÷åòêîé êîð-ðåëÿöèè, ïîçâîëÿþùåé ðåàëèçîâàòü ñàìîíàñòðîéêó ïàðàìåòðîâ, íå áûëî âûÿâëåíî. Ãðóïïà ñàìûõ êîðîò-êèõ òåêñòîâ ñòàòåé äàâàëà íåîæèäàííî íèçêèé ðåçóëü-òàò ðàçðåøåíèÿ ìíîãîçíà÷íîñòè, ïðè÷åì ëó÷øèé ðåçóëüòàò – 71,02 % áûë ïîëó÷åí íà ïàðàìåòðàõ áî-ëåå áëèçêèõ ê ïàðàìåòðàì âñåé êîëëåêöèè, ÷åì ê ëó÷-øèì ïàðàìåòðàì, ïîëó÷åííûõ äëÿ çàïðîñîâ.

7.3. Òåñòèðîâàíèå àëãîðèòìà ðàçðåøåíèÿ ìíîãîçíà÷íîñòè äëÿ çàäà÷è «âñå ñëîâà òåêñòà»

Äëÿ òåñòèðîâàíèÿ àëãîðèòìà ðàçðåøåíèÿ ìíîãîçíà÷-íîñòè äëÿ çàäà÷è «âñå ñëîâà òåêñòà», áûëî âçÿòî ïî

äâå ñòàòüè èç ãàçåò «Èçâåñòèÿ», «Êîìñîìîëüñêàÿ ïðàâäà», «Íåçàâèñèìàÿ ãàçåòà», «Âåäîìîñòè».

Êîëè-÷åñòâî ìíîãîçíà÷íûõ åäèíèö – 1120. Ìåíüøèé îáúåì êîëëåêöèè îáúÿñíÿåòñÿ çíà÷èòåëüíî áîëüøèìè òðó-äîçàòðàòàìè ïî ïîäãîòîâêå ýòàëîííîé ðàçìåòêè. Ïî-ëó÷åííàÿ òî÷íîñòü íîâîãî àëãîðèòìà 57,14 %, ñ ó÷å-òîì ðàçðåøåíèÿ çà ñ÷åò ïîïàäàíèÿ â ñëîâîñî÷åòàíèÿ, îïèñàííûå â òåçàóðóñå – 63,4 %.

Äëÿ ëó÷øåãî íàáîðà ïàðàìåòðîâ ýòîé êîëëåêöèè õàðàêòåðíà áîëüøàÿ âåëè÷èíà îêíà – èñïîëüçóåòñÿ äèíàìè÷åñêîå îêíî 4 + 4.

Òàêèì îáðàçîì, òî÷íîñòü ðàçðåøåíèÿ ìíîãî-çíà÷íîñòè, ïîêàçàííàÿ ðåàëèçîâàííûì àëãîðèòìîì äëÿ çàäà÷è «âñå ñëîâà òåêñòà», íå èñïîëüçóþùàÿ ðàçìå÷åííîãî êîðïóñà, ïðèáëèçèòåëüíî ñîîòâåòñòâó-åò ðåçóëüòàòàì ðàáîòû ëó÷øèõ ñèñòåì íà êîíôå-ðåíöèè SENSEVAL.

Ìû ïîëó÷èëè ýòîò ðåçóëüòàò áåç èñïîëüçîâà-íèÿ äîïîëíèòåëüíîé èíôîðìàöèè î íàèáîëåå ÷à-ñòîòíûõ çíà÷åíèÿõ, áåç èñïîëüçîâàíèÿ ðàçìå÷åí-íîãî êîðïóñà è ò.ï. Íàèëó÷øèé èçâåñòíûé àâòîðàì àëãîðèòì, èñïîëüçóþùèé òîëüêî WordNet, èìååò òî÷íîñòü – 50,89 % íà äàííûõ SENSEVAL-3 (âñïîì-íèì åùå ïðî 10% îäíîçíà÷íûõ ñëî⠖ ñì. ï. 2).

Îäíàêî ïðåäñòàâëÿåòñÿ, ÷òî ïîëó÷åííûå ðåçóëü-òàòû òî÷íîñòè ðàçðåøåíèÿ ìíîãîçíà÷íîñòè äëÿ çàäà÷è «âñå ñëîâà òåêñòà» äàæå ëó÷øèõ ìåòîäîâ íåäîñòàòî÷íû äëÿ òîãî, ÷òîáû èñïîëüçîâàòüñÿ â ðåàëüíûõ ïðèëîæåíèÿõ èíôîðìàöèîííîãî ïîèñêà.

8. Çàêëþ÷åíèå

Ðàçðàáîòàí íîâûé àëãîðèòì ðàçðåøåíèÿ ëåêñè÷åñ-êîé ìíîãîçíà÷íîñòè íà îñíîâå òåçàóðóñíûõ çíà-íèé, íå èñïîëüçóþùèé èíôîðìàöèþ ðàçìå÷åííûõ òåêñòîâûõ êîðïóñîâ.

Äëÿ çàäà÷è «âñå ñëîâà òåêñòà» ðåçóëüòàòû àëãî-ðèòìà ñîïîñòàâèìû ñ ðåçóëüòàòàìè ëó÷øèõ ñèñ-òåì, äîñòèãàåìûõ êîìáèíèðîâàííûìè ìåòîäàìè ñ èñïîëüçîâàíèåì ñåìàíòè÷åñêè ðàçìå÷åííûõ êîð-ïóñîâ è èíôîðìàöèè î íàèáîëåå ÷àñòîòíîì çíà÷å-íèè.Îäíàêî äîñòèãíóòîé òî÷íîñòè ðàçðåøåíèÿ ìíî-ãîçíà÷íîñòè äëÿ âñåõ ñëîâ òåêñòà íå äîñòàòî÷íî äëÿ òîãî, ÷òîáû èñïîëüçîâàòü ðåçóëüòàòû ðàçðåøå-íèÿ ìíîãîçíà÷íîñòè â ïðèëîæåðàçðåøå-íèÿõ èíôîðìàöè-îííîãî ïîèñêà.

Ñ ðàçðåøåíèåì ìíîãîçíà÷íîñòè òåìàòè÷åñêîé ëåêñèêè ñèòóàöèÿ ïðèíöèïèàëüíî äðóãàÿ. Äîñòèã-íóòû çíà÷èòåëüíî áîëåå âûñîêèå ðåçóëüòàòû ðàç-ðåøåíèÿ ìíîãîçíà÷íîñòè. Ýòè ðåçóëüòàòû ïîòåí-öèàëüíî ìîãóò áûòü óâåëè÷åíû çà ñ÷åò èñïîëüçî-âàíèÿ äîïîëíèòåëüíîé èíôîðìàöèè (íàïðèìåð, î ñàìîì ÷àñòîòíîì çíà÷åíèè, êîòîðîå ìîæíî âûáè-ðàòü ïðè âåëè÷èíàõ îöåíêè çíà÷åíèé íèæå ïîðîãî-âûõ èëè áëèçêèõ ê ïîðîãîâûì).

Ïîýòîìó, íà íàø âçãëÿä, ìîæåò îêàçàòüñÿ ïåðñ-ïåêòèâíûì ðàçâèòèå êîìáèíèðîâàííûõ ìåòîäîâ,

ñî-÷åòàþùèõ ïîñëîâíûå ìåòîäû îáðàáîòêè òåêñòîâ è îá-ðàáîòêó ïî òåìàòè÷åñêèì ïîíÿòèéíûì ðåñóðñàì òà-êèì, êàê òåçàóðóñû è îíòîëîãèè.

9. Áëàãîäàðíîñòè

Àâòîðû áëàãîäàðÿò Á. Â. Äîáðîâà, Ò. Ì. Ñåëèâàíîâó, À. Â. Ñèäîðîâà, Ì. Ã. Øàòàëîâó, Ñ. Â. Øòåðíîâà çà âêëàä â ïðîâåäåíèå ýêñïåðèìåíòà.

10. Ëèòåðàòóðà

[1] Ãàëüïåðèí È. Î. Òåêñò êàê îáúåêò ëèíãâèñòè÷åñêîãî èñ-ñëåäîâàíèÿ / È. Î. Ãàëüïåðèí. – Ì.: Íàóêà, 1981.

[2] Ëóêàøåâè÷ Í. Â. Ðàçðåøåíèå ìíîãîçíà÷íîñòè òåðìèíîâ â ïðîöåññå àâòîìàòè÷åñêîãî èíäåêñèðîâàíèÿ /Í. Â. Ëó-êàøåâè÷ // Òð. ìåæäóíàð. ñåìèíàðà Äèàëîã’96. – Ì., 1996. C. 142–146.

[3] Ëóêàøåâè÷ Í. Â., Äîáðîâ Á. Â. Òåçàóðóñ ðóññêîãî ÿçû-êà äëÿ àâòîìàòè÷åñêîé îáðàáîòêè áîëüøèõ òåêñòîâûõ êîëëåêöèé / Í. Â. Ëóêàøåâè÷, Á. Â. Äîáðîâ // Êîì-ïüþòåðíàÿ ëèíãâèñòèêà è èíòåëëåêòóàëüíûå òåõíîëî-ãèè: Òð. Ìåæäóíàð. ñåìèíàðà Äèàëîã’2002. Ïîä ðåä.

À. Ñ. Íàðèíüÿíè. – Ì.: Íàóêà, 2002. Ò. 2. – Ñ. 338–346.

[4] Ëóêàøåâè÷ Í. Â., Äîáðîâ Á. Â. Ðàçðåøåíèå ëåêñè÷åñ-êîé ìíîãîçíà÷íîñòè íà îñíîâå òåçàóðóñà ïðåäìåòíîé îáëàñòè. Êîìïüþòåðíàÿ ëèíãâèñòèêà è èíòåëëåêòóàëü-íûå òåõíîëîãèè / Í. Â. Ëóêàøåâè÷, Á. Â. Äîáðîâ. //

Òð. ìåæäóíàð. êîíô. «Äèàëîã 2007» (Áåêàñîâî, 30 ìàÿ – 3 èþíÿ 2007 ã.). – Ì.: Íàóêà, 2007. – Ñ. 400–406.

[5] ÐÎÌÈÏ. Òðóäû òðåòüåãî ðîññèéñêîãî ñåìèíàðà ÐÎ-ÌÈÏ-2005. – Ñàíêò-Ïåòåðáóðã: ÍÈÈ Õèìèè ÑïáÃÓ, 2005. – 226 ñ.

[6] Galley M., McKeown K. Improving word sense disambiguation in lexical chaining / M. Galley, K. McKeown // IJCAI 2003.

[7] Hirst G., St-Onge D. Lexical Chains as representation of context for the detection and correction malapropisms. /  G. Hirst, D. St-Onge // C. Fellbaum, editor, WordNet:

An electronic lexical database and some of its applications.

Cambrige, MA: The MIT Press, 1997.

[8] Jiang J., Conrath D. Semantic similarity based on corpus statistics and lexical taxonomy / J. Jiang, D. Conrath //

COLING 1997.

[9] Kilgarriff A., Rosenzweig J. Framework and Results for English SENSEVAL / A. Kilgarriff, J. Rosenzweig. //

 Computers and the Humanities, 2000. V. 34. P. 15–48.

[10] Leacock C., Chodorow M. Combining local context and WordNet similarity for word sense identification / C. Leacock, M. Chodorow // WordNet: An electronic lexical database. The MIT Press, 1998.

[11] Magnini B., Cavaglia G. Integrating Subject Field Codes into WordNet / B. Magnini, G. Cavaglia // Proceedings of the Second International Conference on Language Resources and Evaluation LREC 2000, Athens, Greece, 2002.

[12] Mihalcea R., Tarau P., Figa E. PageRank on Semantic Networks, with application to Word Sense Disambiguation / R. Mihalcea, P. Tarau, E. Figa // Proceedings of The 20st International Conference on Computational Linguistics (COLING 2004), Switzerland, Geneva, August 2004.

[13] Miller G. Nouns in WordNet // WordNet – An Electronic Lexical Database / Ñ. Fellbaum (ed.). The MIT Press.

Ð. 23–47.

[14] Resnik P. Using information content to evaluate semantic similarity / P. Resnik // IJCAI 1995.

[15] Snyder B., Palmer M. The English all-words task / B. Snyder, M. Palmer // Proceedings of SENSEVAL-3.

Third International workshop on the Evaluation of Systems for the Semantic Analysis of Texts. 2004. P. 41–43.

[16] Vossen P., Rigau G., Alegria I., Agirre E., Farwell D., Fuentes M.

Meaningful results for Information Retrieval in the MEANING project / P. Vossen, G. Rigau, I. Alegria, E. Agirre, D. Farwell, M. Fuentes //Proceedings of Third International WordNet Conference, 2006.

Thesaurus-based Word Sense Disambiguation

Loukachevitch N., Chuiko D.

In the paper we describe a new method for word-sense disambiguation based on the Thesaurus of Russian Language RuThes. We evaluated precision of the algorithm for the «all-words» task and the task of thematic-oriented word-sense disambiguation.

For the «all-words» task the precision of our algorithm,

which does not use sense-tagged corpora, is comparable with the results of the best systems of the specialized conference SENSEVAL-3. However the level of the precision for the «all-words» task is not enough for the use in information-retrieval applications.

For the task of thematic-oriented word-sense disambiguation the precision is much higher. Therefore it could be perspective to develop hybrid information-retrieval methods combining word-based techniques for all words and concept-based techniques for processing of thematic words and terms based on domain-specific thesauri or ontologies.

Àâòîìàòèçàöèÿ ïîñòðîåíèÿ ñëîâàðÿ íà ìàòåðèàëå ìàññèâà íåñëîâàðíûõ ñëîâîôîðì

Î. Í. Ëÿøåâñêàÿ

ÂÈÍÈÒÈ ÐÀÍ [email protected]

Ä. Â. Ñè÷èíàâà

ÂÈÍÈÒÈ ÐÀÍ [email protected]

Á. Ï. Êîáðèöîâ

ÂÈÍÈÒÈ ÐÀÍ [email protected]

Àííîòàöèÿ

Íåñëîâàðíûå ôîðìû – åäèíèöû òåêñòà, îòñóòñòâóþùèå â ñëîâàðå ïðîãðàììû ìîðôîëîãè÷åñêîãî àíàëèçà – ïðåäñòàâ-ëÿþò ïðîáëåìó êàê äëÿ àâòîìàòè÷åñêîãî ïàðñèíãà òåêñòà, òàê è äëÿ ñîçäàíèÿ ñëîâàðåé, îñíîâàííûõ íà òåêñòîâûõ êîðïó-ñàõ. Àëãîðèòì èõ ëåììàòèçàöèè îáúåäèíÿåò íåñëîâàðíûå ñëîâîôîðìû â êëàñòåðû, êîòîðûì ñîïîñòàâëÿåòñÿ èíôîð-ìàöèÿ î ÷àñòè ðå÷è, èñõîäíîé ôîðìå è äðóãèõ ãðàììàòè÷åñ-êèõ õàðàêòåðèñòèêàõ ëåêñåìû. Ïðîöåäóðà êëàñòåðèçàöèè âêëþ÷àåò ïîðîæäåíèå ìíîæåñòâà ãèïîòåç äëÿ êàæäîé ñëî-âîôîðìû â ñîîòâåòñòâèè ñ ìîäåëüþ ðóññêîãî ñëîâîèçìåíå-íèÿ À. À. Çàëèçíÿêà è âûáîð â êà÷åñòâå íàèáîëåå âåðîÿòíîé òîé, êîòîðàÿ ÷àùå âñåãî ïîâòîðÿåòñÿ â ðàçáîðàõ äðóãèõ ñëî-âîôîðì ìàññèâà.

Îöåíêà ýôôåêòèâíîñòè àëãîðèòìà ïðîâîäèëàñü íà ìàòåðèàëå ñëîâíèêà Íàöèîíàëüíîãî êîðïóñà ðóññêîãî ÿçûêà è íàáîðà äàííûõ «Áàçà ñëîâîôîðì ßíäåêñà».

1. Ââåäåíèå è îáçîð êëþ÷åâîé

ドキュメント内 untitled (ページ 114-118)