نظریه ی اطلاعات

در سال ۱۹۸۴, کلود شنون مقاله ی انقلابی خود را با عنوان نظریه ی ریاضی ارتباطات ارائه کرد که پایه گذار نظریه ی اطلاعات شد

در سال ۱۹۸۴، کلود شنون مقاله ی انقلابی خود را با عنوان "نظریه ی ریاضی ارتباطات " ارائه کرد که پایه گذار نظریه ی اطلاعات شد . هر روز ما با اطلاعات زیادی سر وکار داریم؛برنامه های تلویزیونی را می بینید،به رادیو گوش می دهیم،یک فایل را در رایانه مان فشرده ...

در سال ۱۹۸۴، کلود شنون (Claude Elwood Shanoon) مقاله ی انقلابی خود را با عنوان "نظریه ی ریاضی ارتباطات " ارائه کرد که پایه گذار نظریه ی اطلاعات شد .

هر روز ما با اطلاعات زیادی سر وکار داریم؛ برنامه های تلویزیونی را می بینیم، به رادیو گوش می دهیم ، یک فایل را در رایانه مان فشرده می کنیم و یا از حالت فشرده بیرون می آوریم، موسیقی هایمان را از کاست های قدیمی به فرمـت های دیجیتال تبدیل می کنیم و به روی یک رایانه صفحات وب رامشاهده می کنیم. شنون ، بیان کرد که:چگونه می توان اطلاعات را به زبان ریاضی تحلیل کرد.

کلمه ی " اطلاعات" اکنون ، بار معنایی زیادی را به دوش می کشد . امروزه مهندسین و دانشمندان توصیف کاملی از آن چه که تا چندی پیش ، نا شناخته بود در دست دارند ، آن چه که در پی می آید مقدمه ای است به آن چه ما آن را نظریه ی اطلاعات می نامیم و به برخی سوالات احتمالی شما پاسخ می دهد .

مثلاٌ تا به حال از خودتان پرسیده اید تا چه حد می توان اطلاعات یک فایل را فشرده کرد؟

آیا تا به حال پرسیده اید که اگر چند بار یک فایل را فشرده کنیم چه اتفاقی رخ خواهد داد؟

آیا اطلاعاات ما تا ابد به فشرده شدن ادامه می دهد؟ و آیا حدی برای آن وجود دارد؟

و سوالاتی بی شمار که به ذهن می آیند و شاید تا به حال برایشان جوابی نیافته اید ؛ در ادامه به بررسی این مفاهیم پرداخته و مبانی ریاضی این نظریه را بسط می دهیم.

فرض کنید ، می خواهیم برای یکی از دوستانمان نامه ای بنویسیم ، در این صورت ما از یک مجموعه ی حروف الفبا استفاده می کنیم که ، از کنار هم قرار گرفتن آن ها متن نامه ی ما ساخته می شود ما به هر یک از حروف ، سمبل (Symbol) می گوییم و مجموعه ی همه ی حروف را الفبای ارتباط می نامیم (alphabet).

همان طور که می دانیم درهر الفبایی سمبل هایی وجود دارند که ، بیش از همه تکرار می شوند وسمبل هایی وجود دارند که ، کم تر از بقیه تکرار می شوند.

ما می توانیم با یک تحلیل آماری ساده مشخص کنیم هر یک ازسمبل های الفبای ما با چه احتمالی در متن نامه ی ما ظاهر می شوند. اکنون کمی دقیق تر این مسئله را بررسی می کنیم، فرض کنید. شما تمام فضای یک صفحه ی نامه تان را با حرف "a" پرکرده اید! به نظر شما این صفحه از نامه ی شما به مخاطب چه میزان اطلاعات را منتقل می کند؟ ، هیچ چیز! این یک پاسخ کامل و منطقی است . درنامه ی شما زمانی اطلاعات مفید به مخاطب منتقل می شود که ؛ شما از تمام حروف به طور متناوب و در جای خود استفاده کرده باشید، بر اساس این اصل ساده ، اما مهم، نظریه ی اطلاعات پایه ریزی می شود . صرف نظر از معنا دار بودن جایگاه حروف ، درمی یابیم هر چه احتمال رخ دادن یک سمبل درمتن نامه ی ما کم تر باشد ؛ حاوی اطلاعات بیش تری است و در عوض هر چه بیش تر تکرار شود ؛ حاوی ارزش اطلاعاتی کم تری است . مثلاً : کلمه ی لاتین"Book" را در نظر بگیرید ، عمده ترین بخش اطلاعات توسط سه حرف"Bok" منتقل می شود و حتی تلفظ کلمه ی اول با دو حرف " o " با کلمه دوم ویک حرف " o " فرقی نمی کند. این یک مثال شهودی برای درک بهتر این مطلب است ، گرچه پشتوانه ای عمیق در این نظریه نهفته است که مجال بحث آن نیست .

همان طور که گفته شد هر چه سمبلی با احتمال کم تری رخ دهد ، حاوی اطلاعات بیش تری است . پس برای نشان دادن چنین مفهومی به زبان ریاضی از رابطه ی زیر استفاده شده است.

قبلاً گفتیم که اگر یک صفحه ی نامه ی ما تنها با یک حرف پر شود، یعنی؛ احتمال رخ دادن آن یک باشد

آنتروپی مفهوم مهمی است که به طور مستقیم میزان و معیار اندازه گیری درعلم اطلاعات است . حال برخی خواص آنتروپی را بررسی کرده و آن را عمیق تر مطالعه می کنیم.

آنتروپی یک متن (نمونه ی نامه) که قبلاً مطرح شد ، نشان دهنده ی میزان اطلاعاتی است که هر سمبل مورد استفاده در نامه به خواننده منتقل می کند . این عدد نشان می دهد که در واقع تا چه حد از تکرار اجتناب شده . این تعریف ، کمی مصالحه آمیز وبرای درک بهتر ارائه شده تا مفهوم آنتروپی روشن تر شود.

بنابراین آنتروپی برای یک الفبای مشخص از سمبل ها دارای مقادیری در محدوده ی زیر است:

۱) H(S)=۰ هر گاه برای برخی ها ، و برای بقیه احتمال رخ داد ، صفر باشد.

۲) اگر تنها اگر برای تمام ها ، باشد.

با توجه به مطالب بالا ، هر نرم افزار فشرده سازی باید سعی کند آنتروپی ؛ یعنی متوسط اطلاعاتی که هر سمبل حمل می کند را به حداکثر برساند . که این ، حد فشرده سازی است و این خواص نشان می دهد که ما نمی توانیم تا هر اندازه ای اطلاعات را فشرده کنیم. کاری که یک نرم افزار فشرده ساز انجام می دهد این است که ؛ احتمال وقوع هر سمبل را به برساند و به طور شهودی حروف تکراری و سمبل های تکراری را خلاصه کند! در واقع فشرده سازی چیزی جز حذف سمبل های تکراری نیست و آنتروپی نیز معیاری برای سنجش توانایی یک الگوریتم فشرده ساز است ؛ حال با توجه به تعریف و رابطه ی آنتروپی در می یابیم که ؛ هر چه تغییر و گوناگونی در سمبل های موجود در اطلاعات ما بیش تر باشد ، میزان اطلاعات منتقل شده به ما بیش تر است.

به عنوان مثال فرض کنید ، یک رایانه در دست داریم می دانیم تنها الفبایی از سمبل ها که یک رایانه قادر به تشخیص پردازش آن است ؛ صفر و یک و به عبارتی یک بیت است .

نویسنده :بهروز کمری علی آبادی