Formation, Kulliyadaha iyo jaamacadaha
Waa maxay cidda qortay Luuqadaha?
Just a labaatan sano ka hor si ay u qalabayn cilmi luqadeed, saynisyahano ku riyoon karaa oo keliya ee. shaqada waxaa lagu sameeyey by gacanta, waxa ay soo jiidataa tiro badan oo ah ardayda, waxaa jira a suurtagalnimada qaladaad la taaban karo "si taxadar la'aan", iyo ugu muhiimsan - this dhammu waxay soo kaxaysteen, waqti dheer dheer.
Iyadoo horumarinta technology computer waxa uu noqday suurtagal ah si ay u qabtaan cilmi-baarista ku saabsan amarka of magnitude dhaqso, oo maanta mid ka mid ah tilmaamaha ugu wanaagsan ee waxbarasho ee luqada waa cilmi afaf gulkroppshormon. Its feature ugu muhiimsan waa isticmaalka xaddi badan oo macluumaad qoraal, macluumaad galay database hal, si gaar ah oo loo yaqaan jidhka oo calaamadeysan.
Si aad u taariikhda, waxaa jira dhismayaal badan abuuray ujeedooyin kala duwan oo ku saleysan waxyaabaha kala duwan ee luqadda oolna ah ka malaayiin in tobanaan bilyan oo unugyada weeya. jihada Tan waxaa loo aqoonsan yahay rajo iyo muujinaysaa horumar la taaban karo xagga ujeedooyinka codsiga iyo cilmi-baarista. Khubarada, hal hab ama ganacsiga kale oo luqada dabiiciga ah, waxaa lagu talinayaa in la ogyahay jirka ka mid ah qoraalka ugu yaraan heerka aasaasiga ah.
History of cilmi afaf gulkroppshormon
Aasaasidda habkani waxaa sabab u ah abuurista Maraykanka ee jirka Brown in hore 60-mada ay qarnigii la soo dhaafay. ururinta waxaa ka mid ah qoraalka oo dhan 1 milyan oo ka mid ah noocyada erayga, oo maanta meydka size Wuxuu noqon lahaa gabi ahaanba aan tartan. Tan waxaa in badan sabab u ah xawaaraha ee horumarinta technology computer, iyo sidoo kale baahida kordhaysa ee khayraadka cilmi cusub.
In 90s ee cilmi afaf gulkroppshormon baxday galay anshaxa buuxda oo madax banaan, a collection of qoraalka lagu sameeyo oo la calaamadiyey daraasiin luqadood. In muddo this waxaa la abuuray, tusaale ahaan, ee British National cidda qortay 100 million calaamadihii.
Iyadoo horumarinta aagga this of cilmi afaf, Muga qoraalka ayaa qaar badan oo ka noqday (oo gaari balaayiin unugyo dictionary), iyo qaabka ay noqonayaan kala duwan. Si aad u taariikhda, meel Internet-ka waxaa laga heli karaa baqtigoodana qoraal iyo afka, luqado, iyo suugaanta iyo farshaxanka ama tacliinta barashada-u janjeedha, iyo sidoo kale noocyada kale oo badan oo ku hadlay.
Waa maxay guryaha
noocyada Body in cilmi afaf jidhka ayaa laga yaabaa in sababo dhowr ah. Durba, aasaas u ah kala soocidda waxay noqon kartaa luqad text (Ruush, Jarmal), hab-helidda (il furan, la xiray, ganacsi), nooca mid ah waxyaabaha isha (khayaaliga, documentary, tacliinta, saxaafadda).
Jidka Interesting abuuraa qalabka ee luqadda lagu hadlo. Tan iyo markii lagu qoro ula kac ah hadalka sida in la abuuro jawi aan dabiici ahayn waayo jawaabay, oo wax ka keentay lama yaqaan "lama filaan ah", cilmi afaf gulkroppshormon casriga ah ayaa maray jidkii kale. iskaa wax u qabso A ku qalabeysan yahay makarafoon, iyo inta lagu jiro maalinta la soo saaray diiwaanka sheekada oo dhan, kuwaas oo waxaa qayb. Dadka ku wareegsan, dabcan, waxaa laga yaabaa in aan ogaado in koorsada wadahadalka ee maalin kasta ku kordhinaya horumarka sayniska.
Later heshay record kaydiyaa database ah iyo waxaa weheliya daabacay nooca qoraalka text. Sidaas darteed, waxa uu noqonayaa mid Bogani suurto gal ah loo baahan yahay si ay u abuuraan ah guryaha hadalka maalin walba afka.
codsiga
Meel alaale meeshii suurtogal isticmaalka luqadda, iyo laga yaabee isticmaalka qoraalka dhismayaasha. Hababka si aad u dalbato godadka hoose ee cilmi afaf waxaa laga yaabaa:
- Abuuritaanka barnaamij go'aaminta furaha, waxaa si balaadhan looga isticmaalaa siyaasadda iyo ganacsiga oo aad u daba jawaabaha togan iyo kuwa taban ee codbixiyayaasha iyo macaamiisha, siday u kala horreeyaan.
- nidaamka macluumaadka Connection in qaamuusyo iyo turjumaanada si ay u hagaajiyaan waxqabadkooda.
- kala duwan oo ka mid ah hawlaha cilmi in ay gacan fahamka cutubkan afka, taariikhda ay horumarka iyo saadaasha isbedelka mustaqbalka dhow.
- Horumarinta macluumaadka nidaamka wax kaqabashada ku salaysan morphological, naxwaha, semantic oo kale muuqaalada.
- Ayna ka mid ah hababka luqado kala duwan iyo kuwo kale.
Isticmaalka dhismayaasha
interface khayraadka la mid ah oo leh search engine caadiga ah, iyo jirtey user si ay u soo galaan eray ama isku erayada si aad u baadhid saldhig macluumaadka. Marka laga reebo sameeyaan su'aal saxda isticmaali kartaa version xooggan, kaas oo u ogolaanaya inay helaan macluumaad qoraal ah oo ku saabsan shiidaa kasta oo shuruudaha luqadda.
saldhig raadinta waxaa laga yaabaa:
- xubin ka mid ah koox gaar ah oo qaybo ka hadalka;
- Tilmaamo naxwe ahaaneed;
- kelmedo;
- midabaynta stylistic iyo dareenka.
Waxa kale oo aad isku dari kartaa shuruudaha search for isku xigxiga oo ka mid ah erayada, tusaale ahaan, si aad u hesho dhammaan dhacdooyinka ee falka in waqti qofka la joogo, marka hore keli, taas oo timid ka dib markii meeleeyaha ah "in" iyo magac ee kiiska ACCUSATIVE. Xalka in sida hawl fudud qaadataa user ka yar seconds iyo waxay u baahan tahay oo kaliya qasabno mouse yar ee beeraha ku qeexan.
Geedi socodka ah ee la abuurayo
search laftiisa la fulin karo dhammaan subcorpus iyo mid si gaar ah u doortay, taas oo ku xidhan baahida in la gaaro goolkii gaar ah:
- Tallaabada ugu horreysa waa in la qeexo oo qoraalka sameeyaan aasaas u ah kiiska. Ujeedooyinka la taaban karo, waxaa inta badan la isticmaali saxaafadda sheekooyinka, news, comments online. mashruuc cilmi waa isticmaalka noocyo kala duwan oo noocyo kala xirmo, laakiin qoraalka waa in la soo xulay sida ay qaar ka mid ah dhulka caadiga ah.
- ururinta keentay qoraalo sakhiray in pretreatment, waxaa jira la saxo qaladaad, haddii ay jirto, ay diyaariyeen description bibliographic oo dheeraad ah-luuqadeed ee qoraalka.
- La tirtiro dhammaan macluumaadka aan qoraal ah: baarta oo sawiro ah, sawiro, miisaska.
- Ma qoondeynta ah calaamadihii, kaas oo sida caadiga ah waa hadal, waayo, processing dheeraad ah.
- Ugu dambeyntii, waxaa qaadeen hannaanka morphological, syntactical iyo xariiqyada kale helay xubno.
Natiijada dhan xawaalad by qaab naxwaha la dhigtay qaybiyey dhexdeeda hannaanka ka mid ah xubno ka, mid kasta oo loo aqoonsaday inuu yahay qayb ka hadal, naxwe iyo, mararka qaarkood, astaamihii semantic.
Dhibaatooyin ka abuuraya dhismayaasha
Waxaa muhiim ah in la fahmo in kuma filna in la isugu set oo ah erayada ama weedhaha meydkiisii. Dhinaca mid, a collection of qoraalka waa in ay isku dheeli tiran, in uu yahay, wakiil qoraallo kala duwan ee Joogaba, qaarkood. Oo dhinaca kale ah - waxyaabaha uu xero waa in la kullan si gaar ah.
Dhibaatadu waxay marka hore waxaa lagu xalin by heshiis, waayo, tusaale ahaan, in ururinta ka mid ah 60% ka mid ah qoraalka suugaanta, 20% ka mid ah Filimadan, boqolkiiba gaar ah waxaa la siiyaa matalaad qoraal ah oo afka hadlay, sharciga, shuqullada sayniska, iwm maanta recipe kaamil jirka dheelitiri kajirin ...
Su'aasha labaad, ku saabsan qaabka content, xal u adag. Waxaa jira barnaamijyo gaar ah iyo algorithms loo isticmaalo si toos ah sixitaanka qoraalo, laakiin ma siin natiijada kaamil ah, waxay keeni kartaa khalkhal iyo u baahan Rework buugan. Fursadaha iyo caqabadaha ka qabashada dhibaatadan waxa lagu sharaxay si faahfaahsan in warqad V. P. Zaharova of cilmi afaf gulkroppshormon.
Bogani Text la fuliyo heerar dhawr ah, kuwaas oo aan hoos ku qor.
tagging morphological
Laga soo bilaabo dugsiga, waxaannu xusuusan nahay in afka Ruushka, waxaa jira qaybo kala duwan oo hadalka, iyo mid kasta oo iyaga ka mid ah waxay leedahay astaamo u gaar ah. Tusaale ahaan, falka uu leeyahay qaybaha of rabitaan iyo waqtiga at kaas oo magac lahayn. Gudoomiyaha hooyo oo aan libiqsanayn diiday magac iyo fal conjugate, laakiin si ay u xusaan jirka ka mid ah 100 million. calaamadihii shaqada Buuggan ma shaqeyn doono. Dhammaan howlaha lagama maarmaanka u fuliyaan kartaa computer ka, si kastaba ha ahaatee, waayo, taasu waxa loo baahan yahay in la baro.
tagging Morphological, computer waa "fahmaan" eray kasta oo qayb ka ah qaar ka hadalka isagoo qaababka naxwe ahaan qaar ka mid ah. Tan iyo Ruush (iyo luqad kale oo kasta) ka shaqeeya tiro ka mid ah xeerarka caadiga ah, waxaa suurtagal ah in la dhiso nidaam toos for falanqaynta morphological, maalgashiga baabuurta ee dhowr ah oo algorithms. Si kastaba ha ahaatee, waxaa jira waxyaabo ka reeban sharcigan ah, iyo sidoo kale qodobo complicating kala duwan. Sidaas darteed, falanqaynta computer saafiga ah ee maanta waa ka fog ku haboon, iyo xataa 4 baadi% edbiyey qiimaha a of 4 Million. Words on jirka ka mid ah 100 million. Units, u baahan Rework buugan.
buugga faahfaahsan sharaxayaa dhibaatada Zaharova V. P. "cidda qortay Luuqadaha".
annotation naxwaha
Parsing ama parsing - habka ah in ay go'aamiso xiriirka ka mid ah erayada ku xukun. Isticmaalka set oo ah algorithms waxaa suurtagal ah si loo ogaado qoraalka ah ee maado, la saadaalin karo, lagu daro, markooda badan hadalka. Ogow oo erayada waa isku xigxiga ugu weyn, kaas oo - tiirsan, aan wax ku ool ah soo saaro kartaa warbixin qoraal ah oo ay baraan mishiinka si ay u soo saaraan jawaab u ah codsi search a oo kaliya macluumaadka noo xiiseynayaan.
By habka, matoorada search casriga this isticmaalaan si ay bixin tiro gaar ah halkii qoraalka dheer ee ka jawaabaya su'aalo la xiriira sida "inta calories ee tufaax ah" ama "meel fog ka soo Moscow si St. Petersburg." Si kastaba ha ahaatee, si ay u fahmaan xitaa waxyaabaha aasaasiga ah ee geedi socodka ku tilmaamay by baahida loo qabo in la tasho ah "Hordhaca Luuqadaha qortay" ama tutorial kale ee aasaasiga ah.
Bogani semantic
The kelmedo erayga - waa, in marka la eego fudud, macnaha. hab ballaaran ay khuseyso inay falanqaynta semantic of a tags dhaca erayga, oo muujineysa in uu ka tirsan set oo ah qaybaha semantic iyo qeybaha. macluumaad noocan oo kale ah waa qaali ah oo fiican oo algorithms falanqeeyaan midab text, summarization si toos ah iyo hawlaha hababka kale ee cilmi afaf gulkroppshormon.
Waxaa jira tiro ka mid ah "xidid" geedka, oo wakiil ka ah eray aan la taaban karin oo leh kelmedo aad u ballaaran. Sida laan ka mid ah qanjidhada geedka loo sameeyay, oo ka kooban xubno ka weeya iyo aad u badan oo gaar ah. Tusaale ahaan, ereyga "uun" la xidhiidha laga yaabaa in la fikradaha sida "aadanaha" iyo "xayawaan". Ereyga hore wadi doontaa in ay ku kori baxay xirfadaha kala duwan, marka la eego ehelnimo, dhalasho, iyo tan labaad - on fasalada iyo noocyada kala duwan ee xoolaha.
Isticmaalka macluumaadka nidaamka wax kaqabashada
Meelaha isticmaalka cilmi afaf gulkroppshormon dabooli beeraha kala duwan ee hawsha. Guryo kale waxaa loo isticmaalaa diyaarinta iyo sixida qaamuusyo, la abuuro nidaam turjumaad iswada, annotating, sanaanayaa xaqiiqooyinka, go'aaminta ee midab iyo processing text kale.
Intaa waxaa dheer, khayraadka sida si firfircoon loo isticmaalaa in daraasadda luqadaha iyo farsamooyinka of shaqeynaya luuqada guud ahaan dunida. Helitaanka tiro badan macluumaadka pre-diyaar u fududeeyaa waxbarasho degdeg ah oo dhamaystiran oo ka mid ah isbeddellada luqadaha horumarinta, iyo isbedelka neologisms formation deggan xawaaraha hadalka qiimeeyo unugyada weeya iyo kuwa kale.
Tan iyo markii shaqada la isticmaalayo tiro badan sida xogta u baahan tahay qalabaynta, maanta waxaa jira is dhexgalka dhow dhexeeya cilmi afaf computer iyo gulkroppshormon.
Ruush Qaranka cidda qortay
Xaaladdan oo kale (soo gaabiyo NKRYA) waxaa ka mid ah tiro ka mid ah subcorpus, jidaynayey isticmaalka khayraadka ah ee kala duwan oo hawlaha.
qalabka ee database ee kala qaybsan yihiin NKRYA:
- Qoraalada in 90s iyo 2000 warbaahinta ', labada gudaha iyo dibadda,
- qoraalana hadalka;
- aktsentologicheski calaamadeeyay qoraalka (i.e., calaamadaha walaaca);
- hadalka lahjad;
- gabayo,
- Qalabka la naxwaha iyo kale Calaamadayn.
Nidaamka Macluumaadka ayaa sidoo kale waxaa ka mid ah Subcorpus la tarjumadood ee isku midka ah shuqullada ka Ruush Ingiriis, Jarmal, Faransiis iyo dad badan oo luuqado kale (oo qeybsanaan ku xigeenka).
Sidoo kale in database waxaa jira qayb ka mid ah qoraalka oo taariikhi ah, oo ka dhigan hadal ku qoran Ruush in xilliyada kala duwan oo dhinaca horumarinta. sidoo kale waxaa jira jidh tababarka, kaas oo noqon kara mid waxtar leh, waayo, dadka ajnabigaa ee hanashada luuqada Ruushka.
Ruush Qaranka cidda qortay ka kooban yahay 400 milyan oo unugyada weeya, oo siyaabo badan ka hor qayb weyn oo ka mid ah luqadaha hay'adaha Europe.
rajada
Xaqiiqda ay guushu ku aqoonsi ee habkani waa helitaanka ballan-qaaday cilmi afaf gulkroppshormon shaybaarka ee jaamacadaha Ruush, iyo sidoo kale shisheeye. Iyadoo la isticmaalayo iyo cilmi-baarista ee qaabka guud ee macluumaadka iyo search this khayraadka weeyaan horumarinta meelaha qaarkood oo duurka ku ah teknoolajiyada sare, nidaamyada su'aal-jawaabay, laakiin waxaa la kor ku wada hadleen.
horumarinta dheeraad ah oo cilmi afaf gulkroppshormon la saadaaliyo dhammaan heerarka kala duwan, laga bilaabo farsamo iyo marka la eego fulinta algorithms cusub in ay tayadoodii nidaamka raadinta iyo ka shaqeynta macluumaadka, awood kombiyuutarada, RAM dheeraad ah, iyo in ay macaamiisha, sababtoo ah dadka isticmaala jira siyaabo badan oo dheeraad ah si ay u isticmaalaan noocan ah ee ilaha ay maalin kasta nolosha iyo shaqada.
Gebogebadii
In dhexe ee qarnigii la soo dhaafay ee 2017 u muuqday mustaqbalka fog, halkaas oo spaceships safraan caalamka iyo aalado shuqul kasta oo ah dadka oo dhan sameeyo. Dhab ahaantii, sayniska waa laga buuxiyay la "dhibco caddaan" iyo samaynta isku day quus ah si ay uga jawaabaan su'aalaha Dadka qarniyo dhibaayo. Su'aalo shaqeynaya luuqada halkan mashquulin meel sharaf, iyo golaha wasiirada oo xisaabeed cilmi afaf naga caawineysaa in aan u jawaabi.
Processing kooxo xog badan oo lagu ogaan karaa naqshadaha, hore u gaari jirin, saadaaliyo horumarinta qaababka luqada gaarka ah si ay ula socdaan dhismaha erayada in waqti dhow dhabta ah.
On heer wax ku ool ah, ee iaydoo caalamiga ah waxaa lagu arki karaa, tusaale ahaan, sida qalab iman kara si ay u qiimeeyaan xaaladda guud - Internet waa saldhig qoraallada kala duwan ee maalin kasta si joogto ah updated abuuray by isticmaala dhabta ah, taas comments iyo dib u eegis, iyo articles, iyo noocyo kale oo badan hadalka.
Intaa waxaa dheer, iyadoo meydadka shaqada ka tarta horumarinta hardware isla, in ay ku lug leeyihiin wax kaqabashada macluumaadka, waxaan u yaqaanaan adeegga "Google" ama "Yandex", tarjumaadda mashiinka, qaamuusyo electronic.
Waxaan si kalsooni leh ku adkaysan kartaa in cilmi afaf gulkroppshormon ka dhigaysa kaliya talaabadii ugu horeysay, iyo in mustaqbalka dhow u barwaaqoobi doonaa.
Similar articles
Trending Now