KombuyuutaradaBarnaamijka

UTF-8 - Caddeynta astaamaha

Unicode waxay taageertaa ku dhowaad dhammaan jaangooyooyinka jira. Qodobbada ugu fiican ee qaabka astaamaha Unicode waa codeeynta UTF-8. Waxay bixisaa la-socoshada ASCII, iska-caabbinta musuqmaasuqa xogta, wax-ku-oolnimada iyo sahlanaanta falanqaynta. Laakiin wax walba oo ku habboon.

Foomamka codeynta

Kombuyuutarada waxay ku shaqeeyaan lambarrada oo kaliya maaha sida xisaabin aan la taaban karin, laakiin sida isku-daridda qaybaha kaydinta iyo ka shaqaynta macluumaadka xadidan-byte iyo erayada 32-bit. Heerka habaynteeda waa in taas xisaabta ku darsanaa marka la go'aaminayo sida loo soo bandhigayo tirada characters.

Nidaamka kumbiyuutarka, mawjadaha waxaa lagu kaydiyaa unugyada xasuusta 8 bits (1 byte), 16 ama 32 bits. Nooc kasta oo Unicode codbixineed ayaa go'aaminaya calaamadaha unugyada xasuustu ka dhigan yahay dameer u dhigma qof gaar ah. Heerkani wuxuu bixiyaa saddex habab oo kala duwan oo lagu qeexayo astaamaha Unicode: 8, 16 iyo 32-bit blocks. Sidaa darteed, waxaa loo yaqaan UTF-8, UTF-16 iyo UTF-32. Magaca UTF wuxuu u taagan yahay habka isbeddelka Unicode. Mid kasta oo ka mid ah saddexda nooc ee cod-bixinta waa hab loo siman yahay oo matalaya jilayaasha Unicode, waxay leeyihiin faa'iidooyin ku saabsan codsiyada kala duwan.

Koodhaanahan waxaa loo isticmaali karaa inay metelaan dhammaan jilayaasha Unicode. Sidaa darteed, waxay si buuxda ugu haboon yihiin xalalka sababo kala duwan iyadoo la adeegsanayo noocyo kala duwan oo codeyn ah. Qodob kasta waxaa loo badali karaa labadii midba midka kale iyada oo aan la helin xogta.

Mabda 'aan-u-dhigeynin

Mid kasta oo ka mid ah foomamka codbixinta Unicode waxaa loogu talagalay iyada oo la tixgelinayo iyada oo aan la raacin karin qayb ka mid ah isku dhafka. Tusaale ahaan, Windows-932 wuxuu abuuraa jilayaasha hal ama laba bytes of code. Dhaqdhaqaaqa waxay kuxirantahay astaamaha ugu horreeya, sidaa daraadeed qiimaha asalka ah ee horudhac ah ee isku xigga laba byte iyo hal byte ma iskeed. Si kastaba ha noqotee, qiimaha hal mar baylaha iyo xiritaanka byte ee taxanaha waxay noqon kartaa mid isku mid ah. Taas macnaheedu waa tusaale ahaan, markaad raadineyso astaamaha D (code 44), waxaad si qalad ah u ogaan kartaa inuu galo qaybta labaad ee taxanaha labo byte oo ka mid ah "D" (code 84 44). Si loo go'aamiyo taxanaha isbeddelka, barnaamijku waa inuu tixgeliyaa asalka hore.

Xaaladdu waxay noqotaa mid aad u dhib badan haddii master-ka iyo xiritaanka byte ay ciyaaraan. Tani waxay ka dhigan tahay in la baddalo madmadawga, raadinta dhabta ah ayaa la sameyn doonaa illaa bilawgii qoraalka ama qaab kale oo kood ah oo koodh. Tani ma aha oo kaliya waxtar la'aan, laakiin aan laga ilaalin khaladaadka suurtagalka ah, sababtoo ah hal xeeldheer ayaa ku filan in qoraalka oo idil aan laga dhigin.

Nidaamka isbeddelka Unicode wuxuu ka hortagayaa dhibaatadan sababtoo ah qiimayaasha hogaaminta hogaanka, hal-ku-dhigga iyo hal qayb oo keydka macluumaadka lama siman. Sidaa daraadeed, dhammaan calaamadaha Unicode waxay ku habboon yihiin in ay raadiyaan oo isbarbardhigaan, marnaba ku siiyaan natiijo khaldan sababtoo ah mowduucyada qaybaha kala duwan ee xeerka astaamaha. Xaqiiqda ah in foomamkan cod-bixinta ay u hoggaansamaan mabda'a aan ahayn shaqo-u-heliddu waxay ka kala soocaan codsiyada kale ee badan oo kala duwan ee East Asia Asia.

Qaybta kale nonintersection fartu koodh caalamiga waa in qof kasta uu leeyahay xuduud cad oo qeexan. Tani waxay tirtiraysaa baahida loo qabo in lagu sawiro tiro aan la aqoonsan oo ah jilayaal hore. Muujinta tifaftirka waxaa mararka qaarkood loo yaqaan 'self-synchronization'. Qoondheeynta halbeeg ee koodhka ayaa u horseedi doona kicinta hal dabeecad kaliya, iyo calaamadaha hareeraha ku yaal weli waa kuwo isdhaafsan. Qeybta 8-ka ah ee qaabka isbeddelka, haddii tilmaamuhu u jeedo baytarka oo ka bilaabma 10xxxxxx (codsiga ikhtiyaariga ah), hal ilaa seddex goor wareega ayaa loo baahan yahay si loo raadiyo bilowga astaamaha.

Isdhisanaanta

Unicode Consortium waxay si buuxda u taageertaa dhammaan foomamka 3 codbixinta. Waxaa muhiim ah inaysan ka soo horjeedin UTF-8 iyo Unicode, sababtoo ah dhammaan noocyada isbadelka waxay ku siman yihiin fulin sharci ah oo ah qaababka calaamadeynta calaamadaha Unicode.

Muuqaalka tooska ah

Si aad u metesho calaamadda UTF-32, waxaad u baahan tahay hal qiyaas ah 32-ka mid ah oo ku habboon Unicode code. UTF-16 - laga bilaabo hal ilaa laba qaybood oo ah 16-mitir. UTF-8 wuxuu isticmaalaa ilaa 4 byte.

Caddeynta UTF-8 waxaa loogu talagalay in lagu waafajiyo nidaamyo ku saleysan habka ay ku saleysan tahay ASCII. Inta badan barnaamijyada jira iyo farsamada casriga ah waxay leeyihiin waqti dheer ku tiirsanaa matalaadda calaamadaha qaabka isdaba-joogga ah. maamuuska Multiple ku xiran tahay niyo Adag ee habaynteeda ASCII adeegsanaya labada iska ilaalisaa in ay characters gacanta ku gaar ah. Habka sahlan ee lagu hirgeliyo Unicode xaaladaha noocaas ah waa adigoo isticmaalaya qormo 8-bit si loo metelo jilayaasha Unicode oo u dhigma ASCII astaamo ama dabeecad xakameyn ah. Sidaa darteed, codsiyada UTF-8 waxaa loogu talagalay.

Length variables

UTF-8 waa calaamad dhererkeedu le'eg yahay oo ka kooban 8 qaybood oo keyd ah macluumaadka kaydka kuwaas oo xakamaynta sarreeya ay tilmaamayaan qayb ka mid ah taxanaha mid kastoo mid ah baytada. Qiyaaso kala duwan ayaa loogu talagalay qaybta koowaad ee taxanaha koodhka, midka kale ee qaybaha dambe. Tani waxay hubineysaa in qaylo-dhaan lagu sameeyo.

ASCII

Caddeynta UTF-8 waxay si buuxda u taageertaa calaamadaha ASCII (0x00-0x7F). Tani waxay ka dhigan tahay in jilayaasha Unicode U + 0000-U + 007F lagu beddelay hal xijaabood 0x00-0x7F UTF-8 oo markaa noqdaan kuwo aan kala sooc lahayn ASCII. Intaa waxaa dheer, si looga fogaado wax aan caddayn, qiimaha 0x00-0x7F lama isticmaalin marxalad kasta oo ka mid ah jilitaanka Unicode. Si aad u qorto calaamado aan caqli ahayn oo aan ahayn ASCII, waxaa loo isticmaalaa labo asal. Calaamadaha kala duwan ee U + 0800-U + FFFF waxaa matalaya saddex byte, iyo kuwa dheeraadka leh codadka ka weyn U + FFFF waxay u baahan yihiin afar bytes.

Baaxadda codsiga

Caddeynta UTF-8 badanaa waxay door bidaan nidaamka HTML iyo waxa la mid ah.

XML wuxuu noqday kan ugu horreeya oo leh taageero buuxda UTF-8. Ururada ku hawlan samaynta jaangooyooyinka, sidoo kale, waxay ku taliyaan. dhibaatada Support in cinwaanka URL in uu yahay ka ASCII-characters kala duwan, waxaa la xalin markii W3C dallad iyo kooxda injineernimada IETF in ay heshiis ku saabsan sireed oo dhan yimid cinwaanada URL gaar ku tahay UTF-8.

U-qaybsanaanta ASCII wuxuu fududeeyaa ku-beddelka software cusub. Iyada oo UTF-8, tifaftirayaasha qoraalka badankoodu waxay ka shaqeeyaan, oo ay ku jiraan JEdit, Emacs, BBEdit, Qiimeeynta iyo Notepad ee nidaamka hawlgalka Windows. Nooc kale oo ka mid ah codka Unicode ayaa ku faani kara taageeradaas ka timid qalabka.

Faa'iidada codsiga waa in ay ka kooban tahay isku xigxig of bytes. Iyada oo UTF-8 strings, way fududahay in laga shaqeeyo C iyo luuqadaha barnaamijyada kale. Tani waa qaabka keliya ee cod-bixinta ee aan u baahnayn calaamadaynta amarka BOM-ka ama codsiga cod-bixinta ee XML.

Self-Sync

In jawi iyadoo la isticmaalayo habdhismeedka 8-bit, marka la barbar dhigo qawaaniinta kale ee badan-byte, UTF-8 waxay leedahay faa'iidooyinka soo socda:

  • Qodobka koowaad ee taxanaha koodhka waxaa ku jira macluumaad ku saabsan dhererkiisa. Tani waxay kordhisaa waxtarka raadinta tooska ah.
  • Waxaa la fududeeyay si loo helo bilawga dabeecadda, tan iyo markii ugu horeysay ee xayawaanku ku xadidan yahay qiime go'an.
  • Ma jiro isgoyska qiimaha byte.

Isbarbardhig faa'iidooyinka

Caddeynta UTF-8 waa isafgarad. Laakiin markaad codsaneyso codsiyada astaamaha Bariga Aasiya (Shiine, Jabbaan, Kuuriya, isticmaalaya jilayaasha Shiinaha). Sidoo kale UTF-8-encoding wuxuu ka hooseeyaa noocyada kale ee codbixinta adigoo xawaare ka shaqeynaya. Kala soocista xayeysi ikhtiyaari ah waxay soo saartaa natiijo isku mid ah oo ah nooc ikhtiyaar ah Unicode.

Nidaamka codeeynta calaamadaha

Nidaamka codeeynta astaamaha wuxuu ka kooban yahay foomka codbixinta astaamaha iyo habka qaabka byl-by-pixel ee unugyada koodhka. Si loo go'aamiyo nidaamka cod-bixinta ee Unicode-ga, isticmaalka astaamaha amrka bilowga (BOM, calaamadda byte) ayaa la bixiyaa.

Markaad BOM ka soo qaadato UTF-8, shaqadu waa mid kooban oo kaliya adoo tilmaamaya isticmaalka foomka codbixinta. Dhibaatada lagu ogaanayo amarrada gawaarida ee UTF-8 ma ahan, maadaama mugga unugyada codbixintu ay tahay hal-bay. Isticmaalka BOM ee foomka codbixintani waa mid qasab ah laguma talinayo. BOM wuxuu ku dhici karaa qoraallada loo beddelay codsiyada kale ee isticmaala calaamada amar, ama saxiixa saxiixa UTF-8. Ma isku xigxiga oo ka mid ah 3 bytes xeeraan BB 16 16 BF 16.

Sida loo sameeyo dejinta UTF-8

The HTML sireed UTF-8 waxaa ku rakiban la code soo socda:

˂head˃

˂meta http-equiv = "Content-Type" content = "text / html; charset = utf-8" ˃

PHP-ka, codeeynta UTF-8 ayaa lagu qeexay iyadoo la adeegsanayo shaqada madaxa () ee bilawga hore ee faylka ka dib markii la qiimeeyo heerka qaladka qaladka:

˂? Php

Error_reporting (-1);

kubad ( "Content-Type: text / html, charset = utf-8 ');

Si aad ugu xirto xogta MySQL, codsiga UTF-8 wuxuu u dhigmaa sidan:

˂? Php

Mysql_set_charset ('utf8');

Faylasha CSS, calaamadaynta astaamaha UTF-8 waa sida soo socota:

@charset "utf-8";

Markaad kaydiso faylasha noocyada kala duwan, UTF-8 oo aan BOM la dooran, haddii kale goobta ma shaqeyn doonto. Si tan loo sameeyo, barnaamijka DreamWeave, dooro mawduuca "Qalabka - bogga Guryaha - Title / Encoding", bedel qaybi UTF-8. Kadibna waa inaad bogga ku soo celisaa, calaamadee sanduuqa "Isticmaal Saxiixyada Unicode (BOM)" kuna dabaqi isbedelada. Haddii qoraal kasta oo ku yaal bogga ama xogta macluumaadka la geliyay qaab kale oo codeyn ah, markaa waa in dib loo soo celiyaa ama dib looqoro. Markaad la shaqeyneysid tibaaxo joogto ah, waa qasab inaad isticmaasho hagaajiyahaaga.

Waxaad sidoo kale u kaydin kartaa faylka UTF-8 ee ku qoran Windows Notepad. Ka dib markii la dooranayo sheyga menu "File - Save As ..." ayaa sameeya foomka codsiga lagama maarmaanka ah isla markaana keydin faylka UTF-8.

Qoraalka qoraalka Notepad ++, haddii codsigu ka duwan yahay UTF-8, bedel qaybi iyo ku dheji UTF-8 codsiyada adigoo isticmaalaya sheyga "Ku baddel UTF-8 oo aan lahayn BOM".

Ma jirto wax bedel ah

Marka la eego caalamiyeynta, marka xuduudaha siyaasadeed iyo luuqaduhu ay kala go'yihiin, qaababka astaamaha ah ee sifooyinka maxaliga ahi noqdaan wax faa'iido leh. Unicode waa qaabka kaliya ee taageeraya dhammaan deegaannada. UTF-8 waa tusaale u ah fulinta saxda ah ee Unicode, taas oo:

  • Waxay taageertaa qalab ballaaran, oo ay ku jirto iswaafajinta ASCII codka;
  • Waxay leedahay iska caabin ah musuqmaasuqa xogta;
  • Si fudud oo waxtarkeedu u shaqeeyo;
  • Ma ku xiran yahay mashiinka.

Iyadoo ay soo ifbaxday UTF-8, wadahadal ku saabsan nooca cod-bixinta ama xarfaha astaamaha si fiican u noqdaan waxay noqdaan kuwo aan macno lahayn.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 so.birmiss.com. Theme powered by WordPress.