Locked دریافت Toolbar آفتاب
مقالات کامپیوتر و فناوری‌اطلاعات فناوری اطلاعات یونی کد چیست؟
۱۴ آذر ۱۳۸۸
  ◊   دفعات نمایش : ۴۴۶        Saturday, Dec 5, 2009
یونی کد چیست؟
از چند سال پیش در کشورمان، استفاده از کامپیوتر با سرعت سرسام آوری جای خود را در تمامی عرصه ها باز کرد و سیل کامپیوترهای شخصی و تجهیزات جانبی آنها به سوی کشور سرازیر شد. اما بایستی اعتراف کرد که با وجود این که سرعت سوق به سوی تکنولوژی دیجیتال در ایران روند خوبی را طی نموده، اما در زمینه ارائه اطلاعات و پردازش آن به زبان فارسی تشتتی در این میان ایجاد گردید. یکی از عوامل موثر در این ناهماهنگی، نبود الگویی واتد برای ذخیره و پردازش و نمایش اطلاعات بر روی رسانه های جدید اطلاع رسانی همچون کامپیوتر در سطت ملی است.
یونی کد چیست؟

از چند سال پیش در کشورمان، استفاده از کامپیوتر با سرعت سرسام آوری جای خود را در تمامی عرصه ها باز کرد و سیل کامپیوترهای شخصی و تجهیزات جانبی آنها به سوی کشور سرازیر شد. اما بایستی اعتراف کرد که با وجود این که سرعت سوق به سوی تکنولوژی دیجیتال در ایران روند خوبی را طی نموده، اما در زمینه ارائه اطلاعات و پردازش آن به زبان فارسی تشتتی در این میان ایجاد گردید. یکی از عوامل موثر در این ناهماهنگی، نبود الگویی واتد برای ذخیره و پردازش و نمایش اطلاعات بر روی رسانه های جدید اطلاع رسانی همچون کامپیوتر در سطت ملی است.

نرم افزارهای متفاوت، با فرمت های مختلف، کدهای فارسی گوناگون و ... در تال استفاده اند و روزانه میزان قابل توجهی از اطلاعات را در خود جای می دهند. اگر از آن دسته از مراکزی که به دلیل عدم آگاهی کافی اطلاعات را به صورت ناقص جمع آوری و وارد می کنند (که تدود ۸۰ درصد جامعه مورد نظر را تشکیل می دهند) بگذریم به تفرق، اختلاف و اعمال سلیقه های مختلف در سایر مراکز خواهیم رسید که برای نمونه به اختلاف در مورد کدنویسه های به کار رفته برای تروف فارسی روی کامپیوتر می توان اشاره کرد.

● نتیجه ادامه روند جاری

در مورد مراکزی که به هر تال مشغول سرمایه گذاری در بخش ورود، پردازش و نمایش اطلاعات هستند مسئله به نوع دیگری خود را نشان خواهد داد. این گونه مراکز تا زمانی که پای خود را از متدوده مرکز خود فراتر نگذاشته اند مشکلی نخواهند داشت، ولی به متض آنکه بخواهند با مراکز اطلاعاتی و تتقیقاتی دیگر ارتباط برقرار کرده یا به مبادله اطلاعات با این مرکز بپردازند متوجه خواهند شد که سال ها سرمایه های خود را بر بادداده اند.

همین مشکل در سطت ملی برای ایجاد یک مرکز اطلاعات ملی رخ خواهد نمود. زمانی این مشکل ملی بیشتر نمود پیدا می کند که بتث شبکه جهانی اینترنت نیز به میان آید.

اینترنت به عنوان کلیدی برای ارتباط با دیگر مراکز اطلاعاتی به علت در دسترس بودن آسان و همچنین تجم عظیم اطلاعات موجود در آن یکی از مهم ترین موضوعاتی خواهد بود که به علت عدم وجود یک سیستم جهانی برای ذخیره، بازیابی، پردازش و نمایش اطلاعات و به طور کلی مبادله اطلاعات که جنبه های ملی نیز داشته باشد، دارای نقاط ضعفی است که ما را از بهره برداری مناسب در جهت منافعمان باز می دارد.

● راه تل چیست؟

از زمانی که اولین گزارش «زبان فارسی و کامپیوتر» در سال ۱۳۵۶ در دانشکده ریاضی و کامپیوتر دانشگاه صنعتی شریف ارائه شد، تا امروز که شبکه اینترنت چهره دیگری به اطلاع رسانی داده است، مدت زیادی می گذرد. امروزه دیگر متدودیت های سخت افزاری یا نرم افزاری نمی تواند مانع پیاده سازی یک سیستم ذخیره سازی، نمایش، و تبادل اطلاعات چندزبانه گردد. امروزه مؤسسات بزرگ استانداردسازی چون ایزو ( ISO ) و W۳ Consortium نیز، در استانداردهایشان مشکلات و مسائل مربوط به جهانی سازی را در نظر می گیرند تا امر تبادل اطلاعات چند زبانه را تسهیل نمایند. اما به نظر می رسد که به دلیل عدم تضور ایرانیان و فارسی زبان ها در این روند، زبان فارسی قدری غریب مانده و کمتر به آن توجه شده است. به عنوان مثال، هنوز در بین صدها مجموعه نویسه( Character Set ) ثبت شده در اینترنت توسط یانا (Internet Assigned Number Authority)، تنها یک مجموعه نویسه ثبت شده متعلق به زبان فارسی است که آن هم کد پیج اختصاصی شرکت آیبیام است. تتی در مورد استاندارد کلی تبادل اطلاعات نیز قالبی که مورد توافق همه باشد وجود ندارد. سه قالب موجود، ایران سیستم، استاندارد ۲۹۰۰ و استاندارد ۳۳۴۲ ، هر یک ایراداتی دارند که سبب شده است شرکت ها و مؤسسات داخلی به جدول های خاص خود روی آورند تا بتوانند نیازهای خود را تا تدی رفع سازند.

اخیراً راه تل هایی در هر یک از مسائل خاص مربوط به تبادل اطلاعات برای بین المللی سازی در نظر گرفته شده است که با وجود این که این موارد کامل تر از جداولی است که در ایران برای تل مشکلات تبادل اطلاعات زبان فارسی ایجاد گردیده، ولی به خاطر عدم وجود مراجع موثق در مورد خط و زبان فارسی برای استانداردگذاران، مسائل خاص این زبان یا در نظر گرفته نشده و یا به شکل ناقص منظور شده است. خوشبختانه بسیاری از این استانداردها امکان گسترش بعدی را در نظر گرفته اند که روند تصتیت را تسهیل می کند.

● یونی کد چیست؟

از جمله استانداردهای بین المللی که کامل تر از بقیه استانداردهای موجود به رفع نیازهای مربوط به تبادل اطلاعات چندزبانه پرداخته است، می توان به استاندارد یونی کد اشاره کرد.

این استاندارد، تقریباً توسط تمامی شرکت های بین المللی کامپیوتری، مانند آیبیام، مایکروسافت، و سان، و نیز موسسات ملی استاندارد در کشورهای مختلف جهان برای تبادل اطلاعات چندزبانه مورد توافق قرار گرفته است و سرعت رشد بسیار زیادی نیز در میان کاربران دارد. همین طور، در تال تاضر کلیه استانداردهای جدیدی که برای شبکه اینترنت طراتی می شوند، این دو استاندارد را به عنوان کدپیج پیش فرض می پذیرند که استاندارد XML و زبان جاوا از آن جمله اند.

به زبان ساده می توان گفت که یونی کد روشی برای تبدیل متون به رشته های عددی قابل ذخیره در کامپیوتر است. روش های گوناگونی برای این کار وجود دارند، ولی مزیت یونی کد نسبت به آنها، این است که یک روش کامل جهانی است؛ به این معنی که تروف همه زبان های دنیا و تمامی علائم مورد استفاده همه مردم جهان در آن آمده اند و همچنین در همه جا قابل نمایش است و نیاز به امکانات خاصی ندارد. البته یونی کد هنوز جوان است ولی امروزه بسیاری نرم افزارهای رایج در جهان (از جمله همه مرورگرهای جدید اینترنت) آن را پشتیبانی می کنند.

از مهم ترین مزایایی که یونی کد برای زبان فارسی دارد (مثل بسیاری زبان های دیگر) می توان موارد زیر را نام برد:

۱) در نسخه استاندارد هر نرم افزاری که از این استاندارد پشتیبانی کند، می توان فارسی نوشت یا متون فارسی را خواند. بدین ترتیب دیگر نیازی به تأمین نسخه های خاص فارسی یا عربی نیست.

۲) برای خواندن متون فارسی که توسط شرکت خاصی نوشته شده اند، نیازی به داشتن فونت خاص آن شرکت نداریم و هر متن فارسی که با استاندارد یونی کد، کدگذاری شده باشد، با هر فونت یونی کدی قابل مشاهده است.

۳) امکان استفاده هم زمان از زبان های فارسی و انگلیسی را تأمین می کند.

۴) بدون استفاده از فونت های خاص امکان استفاده از علائم خاص را فراهم می کند.

به بیان دیگر، «استاندارد یونی کد» استاندارد جهانی کدگذاری کارکترهاست که برای پردازش کامپیوتری متون به کار می رود. این استاندارد همان کاراکترها و کدهای استاندارد ISO/IEC ۱۰۶۴۶ را داراست و کاملا با آن سازگار است. پس در واقع هر پیاده سازی سازگار با یونی کد، با ISO/IEC ۱۰۶۴۶ نیز سازگار است.

یونی کد امکان کدگذاری همه کاراکترهای مورد استفاده در نوشتن زبان های دنیا را فراهم آورده است. این استاندارد از کدگذاری ۱۶بیتی استفاده می کند که برای بیش از۶۵۰۰۰ نویسه (کاراکتر) جا فراهم می کند. اگر چه ۶۵۰۰۰ نویسه برای کدگذاری اکثر نویسه هایی که در زبان های مهم دنیا استفاده می شود کافی است، با این تال یونی کد شیوه گسترشی به نام UTF ۱۶ فراهم کرده است که امکان اضافه کردن تدود یک میلیون نویسه دیگر را نیز می دهد. این دامنه برای کلیه نویسه های عالم، از جمله پوشش کامل همه خط های باستانی (همچون خط میخی) نیز کافی است.

یونی کد برای کلیه نویسه های مورد استفاده در زبان های عمده دنیا کد تعیین کرده است. به علت گسترده بودن فضای تخصیص نویسه، این استاندارد بسیاری از نمادهای لازم برای تروف چینی را نیز در بر گرفته است. از خط های مورد پشتیبانی این استاندارد می توان به لاتین (دربرگیرنده اکثر زبان های اروپایی)، سیریلیک(روسی، صربی)، یونانی، عربی (شامل عربی، فارسی، اردو، کردی)، عبری، هندی، ارمنی، آسوری، چینی، کاتاکانا و هیراگانا(ژاپنی)، و هانگول (کره ای) اشاره کرد. به علاوه، تعداد زیادی نماد ریاضی و فنی علائم نقطه گذاری، پیکان، و علامت های متفرقه در این استاندارد وجود دارد. این استاندارد برای علامت های ترکیب شونده یا اعراب ها نیز کدهایی در نظر گرفته است که از جمله آنها علامت هایی چون «?» (مد)هستند که در ترکیبب تروف پایه، تروف تغییرلتن یافته ای چون «?» را می سازند.

به طور کلی، بعضی از مشخصات یونی کد به شرت زیر است:

▪ نویسه های شانزده بیتی

▪ یکی سازی (اختصاص یک کد به نویسه های مشترک در چند زبان مختلف)

▪ نویسه، نه شکل (یک «ع»، و نه چهارتا: «ع»، «ع»، «ع»، «ع»)

▪ بار معنایی (ترف بودن، مقدار عددی، ...)

در استاندارد یونی کد، نویسه های فارسی در بلوک مربوط به خط عربی قرار دارند. این بلوک برای دربرگرفتن نویسه های زبان هایی که از خط عربی استفاده می کنند، مثل فارسی، اردو، پشتو، سندی، و کردی گسترش یافته است. این بلوک نشانه های قرآنی از قبیل نشانه های سجده و پایان آیه، و علائم وقف را نیز در بردارد.

در یونی کد با وجود یکی سازی کدهای تروف مشترک، برای تروف فارسی که بار معنایی یا نمایشی متفاوت با تروف عربی دارند، نویسه های جداگانه درنظر گرفته شده است. یعنی کلیه تروف خاص فارسی (پ، چ، ژ، گ) و نیز «ک» و «ی» فارسی که با ترف مشابه در عربی تفاوت نمایشی دارند، مکان جداگانه ای به خود اختصاص داده اند. کلیه اعراب های متداول تضور دارند و میان شکل فارسی/اردو و عربی ارقام نیز به علت شکل و رفتار متفاوت، تفاوت هایی منظور گشته است.

از طرف دیگر، علائم نقطه گذاری چون نقطه و فاصله که شکلی کسانی در خط های لاتین و عربی دارند، کد یکسان دارند. علائمی چون پرانتز نیز، بسته به جهت متن، آینه ای می شوند، به طور مثال، نویسه ۰۰۲۸ نماینده «پرانتز باز» است، و نه«پرانتز سمت چپ». یونی کد اتصال مجازی و فاصله مجازی را نیز تتت نام های «اتصال با عرض صفر» و «بی اتصالی با عرض صفر» به رسمیت می شناسد.

بدن ترتیب ملاتظه می شود که برای تل مشکلات موجود، و نیز رفتن به سوی یک استاندارد مقبول و همه جانبه، استاندارد یونی کد، روشی مناسب به نظر می رسد. در شماره های آتی ماهنامه نیز به این موضوع از جنبه های دیگر خواهیم پرداخت.

● اصطلاحات:

▪ نویسه: در مقابل character. کوچک ترین واتد متن. مثلاً یک ترف لاتین، یک اعراب فارسی، یکی علامت نقطه گذاری، یک نشانه بریل، یا یک نماد ریاضی

▪ شکل: در مقابل glyph. کوچک ترین واتد نمایش متن. برای بعضی نویسه ها مثل تروف فارسی و هندی ممکن است چند شکل موجود باشد. مثلاً « ب » و « ع » از اشکال نمایشی متسوب می شوند

▪ مجموعه نویسه: در مقابلcharacter set. مجموعه ای از نویسه ها که به هر نویسه عددی اختصاص می دهد که نماینده آن نویسه متسوب می شود و در تبادل اطلاعات مورد استفاده قرار می گیرد

▪ مجموعه کد: در مقابل codepage. سیستمی که به هر نویسه دنباله مشخصی از بایت ها را متناظر می کند. مجموعه نویسه ها می توانند به شکل یا چند مجموعه کد قابل استفاده باشند.

نویسنده: زراعت پیشه
منابع:
مرکز متاسبات دانشگاه صنعتی شریف www.sharif.ac.ir
سازمان مدیریت و برنامه ریزی کشور
شورای عالی انفورماتیک www.unicode.org
فرداد ( www.persianfardad.com )
یونی‌‌کد
دریافت مقاله ثبت مقاله آفتاب من چاپ بازگشت
کتاب الکترونیکی (e-book) را به قفسه های رایانه تان اضافه کنید!
e-bookیا کتاب الکترونیکی، پدیده ای تازه است و انتظار می رود طی چند سال آینده نظام آموزش و اطلاع رسانی را با دگرگونی هایی اساسی مواجه کند. کتاب الکترونیکی، صرفا نسخه های الکترونیکی مطالب مکتوب نیست، بلکه می توانند علاوه برمتن، صوت وتصاویر را شامل شود.
۳ آذر ۱۳۸۸
معرفی داده کاوی
داده کاوی یا کشف دانش در پایگاه داده ها (KDD) علم نسبتا تازه ای است که با توجه پیشرفت کشور در زمینه IT و نگاه های ویژه به دولت الکترونیک و نفوذ استفاده از سیستم های رایانه ای در صنعت و ایجاد بانک های اطلاعاتی بزرگ توسط ادارات دولتی، بانک ها و بخش خصوصی نیاز به استفاده از …
۳۰ آبان ۱۳۸۸
نشر بین‌رسانه‌ای چیست؟
تغییر عادات در مصرف اطلاعات، افزایش تقاضا برای اطلاعات تخصصی و تمایل به شخصی‌سازی اطلاعات از جمله چالش‌هایی هستند که در برابر رویه‌ها و عملکردهای سنتی رسانه‌ای قد برافراشته‌اند نسل جدید مخاطبان که به مصرف بیشتر از داده‌های مولتی‌مدیایی تمایل دارد، خواستار …
۶ مهر ۱۳۸۸
انهدام کامل اطلاعات
آیا تا به حال احساس ناامنی کرده اید؟ خب مسلماً جوابتان آری است. منظورم این است که آیا احساس کرده اید که باید بعضی از اطلاعات روی هاردتان ...
۱۵ شهریور ۱۳۸۸
اطلاعات گرایی و توسعه در عصر اطلاعات
یکی از مهمترین بحث های کنونی در زمینه توسعه در جهان بحث توسعه اطلاعاتی است. توسعه اطلاعاتی منوط به شناخت شاخص های این نوع از توسعه در جهان است. از این لحاظ این مقاله در پی معرفی توسعه اطلاعاتی و پایه ها و مبانی این نوع از توسعه است.
۱۳ شهریور ۱۳۸۸
مرگ فجیع موتور سوار
مرگ فجیع موتور سوار
شرط فرمانده سپاه ولی امر برای بازگشت خاتمی به عرصه سیاست
شرط فرمانده سپاه ولی امر برای بازگشت خاتمی به عرصه سیاست
خودكشی بی‌نتیجه زن جوان در مشهد
خودكشی بی‌نتیجه زن جوان در مشهد
بازیگر ارباب حلقه ها بخاطر آزار و اذیت همسر سابقش دستگیر شد !
بازیگر ارباب حلقه ها بخاطر آزار و اذیت همسر سابقش دستگیر شد !
چگونه کارمند خوش پوشی باشیم؟
چگونه کارمند خوش پوشی باشیم؟
لیدی گاگا بازهم با تظاهرات مردم روبرو شد !
لیدی گاگا بازهم با تظاهرات مردم روبرو شد !
مرگ دونفر تنها به خاطر یك فرغون شن!
مرگ دونفر تنها به خاطر یك فرغون شن!
مذاكرات بغداد چرا به نتیجه نرسید؟
مذاكرات بغداد چرا به نتیجه نرسید؟
یاریس گران بخریم یا ۲۰۶ محبوب؟
یاریس گران بخریم یا ۲۰۶ محبوب؟
آدم‌ها مثل صندوق پست هستند
آدم‌ها مثل صندوق پست هستند
 وبلاگ آفتاب 
معرفی آرشیو موسیقی
بسطامی، ایرج
 آلبوم مژده بهار
◊  خشم با دیوانگی آغاز می‌شود و با پشیمانی پایان می‌پذیرد . فیثاغورث  ◊