Naviqator


Arxiv

201139
201230
201312
20151
201633
201755
201865
201955
20234

Yaranma tarixi:

Stop-sözlərin müəyyən edilməsi

Stop-sözlərə bütün əvəzliklər, bağlayıcılar, nida sözlər, və müəyyən qoşma, ədat, modal sözlər, onların şəkildəyişməşi ilə olan variantları (əgər varsa) və dildə olan doldurucu rolunu icra edən sözlər (deməli, belə ki, onda, sanki, ki, və s.) aiddir. Doldurucu sözlər əslində təhlil baxımından məna kəsb etmir. Bunların bəziləri danışarkən şəxsə fikirləşmək üçün vaxt qazanmaq imkanı yaradır. Yazıda tək-tək də olsa doldurucu sözlərə rast gəlinir.

Lemmatizasiya apararkən birinci olaraq mətndən və ya sorğudan ilk növbədə stop-sözlər çıxarılmalıdır. Bu sözlərdən xüsusilə nidalar emosional təsirə malik olsalar da axtarış sistemi üçün yalnız informasiya küyü yaradır.

Stop-sözləri çıxarmaq üçün birinci olaraq bütün əvəzliklərin və mənasız sözlərin siyahısı tərtib olunmalıdır. Burada sual meydana çıxır. Əgər stop-sözləri lemma yaradılışından qabaq mətndən çıxarsaq, onda gərək lüğətə bu sözlərin bütün şəkildəyişmələrini daxil edək. Əgər lüğətə yalnız stop-sözlərin başlanğıc formasını daxil etsək, onda gərək əvvəl lemmanı tapıb, sonra stop-sözlərin başlanğıc formaları arasında axtarış edək və mətndən kənarlaşdıraq.

Tutaq ki, hər hansı stop-sözlər siyahısı mövcuddur. Aydındır ki, bütün stop-sözləri birinci dəfədən müəyyən etmək mümkün olmayacaq. Ona görə digərlərini axtarış sistemi bazanı doldurarkən bu yolla müəyyən edə bilərik.

Bütün sənədlər çoxluğu D olsa, onların sayını |D| işarə edək. Onda konkret t sözünün daxil olduğu sənədlər çoxluğunu Dt, onların sayını isə |Dt| ilə işarə etsək
|Dt| / |D|
nisbəti 0.5 və bundan böyük olan sözləri stop-söz siyahısına daxil etmək lazımdır. Yəni söz əgər mətnlərin təqribən yarısından çoxunda rast gəlinirsə bu söz axtarış üçün əhəmiyyət kəsb etmir.

Bəzi sözlər var ki, seçilən mövzudan asılı olaraq onlar da stop-söz sayılır. Məsələn, əgər biz hüquqi sənədlərlə işləyiriksə, hüquq sözünün özü yəqin ki, əksər sənədlərdə mövcud olacaq. Deməli, ümumi stop-sözlərdən başqa mövzu daxilində stop-sözlərin də siyahısı olmalıdır (deməli sözü də bu cümlədə stop-sözdür). Bu siyahı mövzu müəyyən edildikdən sonra alqoritmə qoşulur.

Stop-sözlərin klassifikasiyisı

Hərflər

Tək-tək hərfləri stop-söz sayacağıq

q, ü, e, r, t, y, u, i, o, p, ö, ğ, a, s, d, f, g, h, j, k, l, ı, ə, z, x, c, v, b, n, m, ç, ş

Bağlayıcı stop-söz kimi

Və, və ya, həm (də), amma, ancaq, lakin, əgər (ki), hərkah (ki), hərçənd (ki), çünki, yoxsa (ki), madam (ki), guya (ki), indi ki, ki, ya, da, də, gah, hətta, yəni, yaxud, nəinki, nə, yainki, habelə, yoxsa, ona görə, ondan ötrü, onun üçün, bununla belə, və s.

Bağlayıcılardan başqa bir də bağlayıcı sözlər var ki, bunların siyahısı böyükdür. Bunların əksəriyyəti stop-sözdür. Bağlayıcı sözlər kim, nə, hara, necə, nə cür, hansı, neçə, nə qədər sözlərinə hər ədatı və ki əvəzliyi artırmaqla düzəlir.

Hər + [kim / nə / hara / necə / nə cür / hansı / neçə / nə qədər] + ki

Bağlayıcıların müəyyən bir hissəsini stop-söz kimi qəbul edəcəyik.

Və, ya, ki, da, də, nə, gah, həm, amma, ancaq, lakin, əgər, hərgah, hərçənd, çünki, yoxsa, madam, guya, hətta, yəni, yaxud, nəinki, yainki, habelə, yoxsa

Qoşma stop-söz kimi

Qoşma köməkçi nitq hissəsi olub ismin adlıq, yiyəlik, yönlük və çıxışlıq halına qoşulur.

Adlıq və müəyyən yiyəlik halına qoşulanlar Yönlük halına qoşulanlar Çıxışlıq halına qoşulanlar
qədər, kimi, üçün, ilə, haqqımda (haqqımızda, haqqında, haqqınızda, və s.), haqda, barəmdə (barəmizdə, barəndə, barəsində, və s.), barədə, üzrə, əvəzinə, naminə,
-tək, -ca2
tərəf, doğru, qarşı, sarı, görə, əsasən, dair, kimi, qədər, aid, məxsus, nisbətən, yaxın,
-dək, -can2
bəri, qabaq, əvvəl, sonra, başqa, savayı, əlavə, özgə, qeyri, yrı, ötrü

Bu qoşmalarım bəziləri sərbəst nitq hissəsi kimi də işlədilə bilir

Bura kimi kəs (qoşma). Kimi oxuyur, kimi də yazırdı (əvəzlik).
Ora qədər tək gedəcəksiniz (qoşma). Qədər belə gətirdi (isim).
Mənim ilə (qoşma), beş ilə düzələr (isim).
Mənə tərəf (qoşma), tərəflərin fikir ayrılığı (əvəzlik)

Ona gərə stop-söz kimi birmənalı olaraq yalnız qoşma kimi işlənən sözlərə baxacağıq. Şəkilçıləşən qoşmalar digər bir mövzudur. Onları şəkilçilərlə işləyərkən yada salacağıq.
Üçün, üzrə, əvəzinə, naminə, dair, nisbətən, savayı, ötrü.

Ədat stop-söz kimi

Ədatlar qeyri-sabit və sabit olur.

Qeyri sabit ədatlar: yalnız, belə, elə, tək, təkcə, bir, bircə, düz, artıq, bax, baxın, gəl, gəlin, gör, görün, görüm, görək, qoy, qoyun, mi (sənə də mi). Bu sözlər həm ədat, həm də əsas nitq hissəsi kimi işlənə bilər.

O, düz yanımızdan keçdi (ədat). Bu düz fikir deyil (sifət).
Qoyun fikirləşim (ədat). Gətirin buraya qoyun (fel). Qoyunları saydım (isim).

Ona görə bu cür ədatları stop-söz kimi qəbul etmirik.

Həm ədat, həm bağlayıcı olan sözlər isə hər iki halda stop-söz olur: ancaq, amma, fəqət, da, də, hətta, isə, ki, yoxsa.
Şəkilçiləşən ədatların şəkilçi formasına isə (-dı4, -sa2, -ca2, -sana2, -mi4, -mış4) şəkilçilərlə işləyərkən baxılacaq.

Ədatların mənaca aşağıdakı növləri var:

Bunların hamısından yalnız aşağıdakıları stop-söz qəbul edəcəyik.

Ancaq, amma, fəqət, qoysana, gəlsənə, gərək, məgər, məhz, yoxsa, olmaya, görəsən, da, də, hətta, barı, isə, idi, imiş, ki, mi, yəni, bəs, heç, əsl, əsla, ha, kaş

Modal sözlər stop-söz kimi

Modal sözlər vəziyyətinə görə 2 qrupa bölünür: qeyri-sabit və sabit modal sözlər.

Qeyri sabitlər: demə, demək, deyəsən, deməli, şübhəsiz, yəqin, müxtəsər, görünür, görəsən,  olsun ki.

Demə Məcnunə dəli, bəlkə də Leyla dəlidir. Burada demə müstəqil məna ifadə edir.
Demə hamı məsələdən xəbərdar imiş. Burada isə demə modal söz olub stop-söz kimi pozula bilər. Ona görə qeyri-sabit modal sözləri heç vaxt pozmayacağıq.

Sabitləşmiş modal sözlər: sanki, guya, əlbəttə, bəlkə, beləliklə, ümumiyyətlə, nəhayət, məncə, səncə, bizcə, sizcə, həqiqətən, adətən. Bu sözlər müstəqil məna daşımayıb həmişə stop-söz sayıla bilər.

Modal sözlər məntiqi hissələrinə görə aşağıdakı qruplara bölünür:

Modal sözlər mənaca aşağıdakı qruplara bölünür:

Bütün bu adı çəkilənlərdən yalnız aşağıdakıları stop-söz kimi qəbul edəcəyik.
əvvələn, əvvəla, məncə, səncə, bizcə, sizcə, həqiqətən, adətən, beləliklə, ümumiyyətlə, ümumən, guya ki, elə bil ki, sanki, əlbəttə, təbii ki, yaxşı ki, yəqin ki, güman ki, gərək ki, ehtimal ki, axır ki, doğrudan da, bəlkə, əlqərəz, deyilənə görə, fikrimcə, zənnimcə, deyirdin bəs, bəs deyirdin, bəs demişdin, təəssüf ki

Nida stop-söz kimi

Əsli nidalar: ey, ay, oy, eh, a pəh, tfu, oxay, ah, of, uy, ax, ox, ura, uf, oho, oxay, paho, hey, ey, bah, cart, cırt, zart, zırt

Bu nidaların əksəriyyəti ayrıca isim kimi işlənə bilir.

Ay millət (nida kimi), təzə ay (isim kimi)
Ox, nələr çəkirik (nida kimi), ox və kaman (isim kimi)

Buna görə sadə (əsli) nidaların bu qisminə stop-söz kimi baxmayacağıq: ay, oy, ah, ax, ox, hay.

Mürəkkəb nidalar: ay aman, ay can, ay haray. Bunlar ayri yazılır. Ay-ay-ay, vay-vay, xa-xa-xa, pəh-pəh-pəh, pəh-pəh. Bunlar isə defislə yazılır. Mürəkkəb nidalar yalnız bir mənada, nida kimi işləndiyindən hamısını stop-söz qəbul edə bilərik.

Əvəzlik stop-söz kimi

Şəxs əvəzlikləri: mən, sən, o, biz, siz, onlar
Qeyri-müəyyən əvəzliklər: biri, kim, kimsə (kim isə), nə isə, hamı, hərə, bəzisi, hər kəs, hər şey
Sual əvəzlikləri: kim? nə? hara? necə? nə cür? neçə? neçənci? niyə? nə zaman? nə etmək? nağaracuğa?
İnkar əvəzlikləri: heç kim, heç nə, heç kəs, kimsə (heç kim mənasında)
İşarə əvəzlikləri: o, bu, elə, belə, həmin, həmən
Təyini əvəzliklər: hər, bütün, filan, öz
Qayıdış əvəzliyi mənsubiyyət şəkilçisi qəbul etmiş öz əvəzliyinə deyilir: özüm, özün, özü, özümüz, özünüz, özləri

Bütün əvəzliklər isim kimi hallanır və şəkilçi qəbul edir. Bunların hamısını və hallanmış vəzıyyətlərini stop-söz götürə bilərik.

mən, sən, o, biz, siz, onlar, biri, kim, kimsə, nə, isə, hamı, hərə, bəzisi, hər, kəs, kim, nə, hara, haçan, hansı, necə, cür, neçə, neçənci, niyə, üçün, nağaracığa, heç, kimsə, o, bu, elə, belə, həmin, həmən, hər, bütün, filan, öz, özüm, özün, özü, özümüz, özünüz, özləri

Bütün yuxarıdakı stop-sözləri birləşdirsək və onların şəkilçi qəbul edən formalarını da nəzərə alsaq bir lüğət ölçüdə siyahı alarıq. Ona görə hallanmayan stop-sözləri (və, yəni, yəqin, və.s.) əvvəlcədən mətndən çıxarıb sonra sözləri morfoloji analiz etmək lazım gələcək. Alanın lemma əgər stop-söz olacaqsa onda bu sözü də mətndən çıxarırıq.

Stop-sözlərin bu yolla müəyyən edilib kəsilməsi burada öz praktik tətbiqini tapıb.

Digər məqalələr

Hecalama

Azərbaycan mətnini hecalara ayırmaq üçün müəyyən qaydalar var. Ən birinci qayda odur ki, Əvvəlcə onu deyək ki, sözlərdə olan saitlərin sayı qədər heca var. Samit səs özündən sonrakı saitin yaratdiği hecaya daxil olur..

Fellərin şəkildəyişməsi

Bu məqalədə felin başlanğıc formasını götürüb ona qrammatik şəkilçilər əlavə etməklə bütün mümkün söz formalarını alacağıq. Hər bir hal üçün istisnalar mövcuddur.

Əsl Azərbaycan və türk sözlərinin tapılması

Zaman keçdikcə bütün dillərdə olduğu kimi Azərbaycan dilinə də yeni terminlər əlavə olunmuşdur. Alınma sözlər iki qrupa bölünür: ərəb-fars dillərindən alınma və rus, avropa dillərindən alınma sözlər.

Omonimlik problemi

Omonim sözlərin yazılışı, hətta deyilişi eyni olsa da onlar müxtəlif leksik məna ifadə edir. Bu cür sözlər təbii dilin analizində böyük problemlər yaradır.

© Müəllif hüquqları qorunur

Bu saytdakı bütün məqalələr Cəfər N.Əliyev tərəfindən yazılıb. Onlar hər hansı üçüncu şəxs tərəfindən digər resurslarda çap edilərsə mənbə və müəllifin adı göstərilməlidir. Sayt özü həmin şərtlərə əməl edir.