Интернет представляет собой две сети - физическую и виртуальную. Физическая сеть представлена серверами, которые хранят контент, и маршрутизаторами, которые соединяют элементы физического Интернета и управляют трафиком. Виртуальная сеть представлена контентом, то есть текстом, графикой, аудио- и видеосодержанием Web-страниц, линками, то есть соединением между Web-страницами и хопами, или количеством линков, которыми измеряется расстояние между парой Web-страниц. Хотя достаточно легко можно оценить размер Интернета, понять, как Интернет структурирован, представляется более трудной задачей, на решение которой в настоящее время тратятся огромные исследовательские ресурсы. Понимание структуры и динамики роста Интернета позволяет разрабатывать и внедрять новые эффективные модели электронной коммерции. В последнее время появился ряд новейших исследований, которые пытаются описать динамику роста Интернета и структурировать направления роста.

Сети

Сеть представляет собой не что иное, как группу элементов, узлов, соединенных определенным образом друг с другом. Сеть — фундаментальное образование в природе. Мир начинен всевозможными сетями: человеческий мозг с его миллиардами нейронов и соединений между ними, миллионы элементов на чипах и монтажных платах, социальная сеть людей, общающихся профессионально или непрофессионально, взаимоотношения между различными клетками тканей, формирующих живые организмы, мобильные сети связи. Один из наиболее важных признаков различных видов сетей — степень и частота изменчивости их соединений или линков. Линки на монтажных платах практически неизменны, биологические процессы изменяются очень медленно посредством мутаций, физические соединения между серверами Интернета изменяются намного чаще, линки между Интернет-страницами еще чаще, но даже система линков между Интернет-страницами гораздо более стабильна, чем система линков мобильных телефонов. Эти отличия сильно влияют на то, как данные сети развиваются, изучаются и картографируются.

Физическая модель Интернета

Прежде чем обсуждать новейшие исследования в области моделирования физического Интернета, определим несколько терминов.

Термин SFN (scale-free network) был введен в оборот физиком Альбертом Барабаси (Albert Barabasi) и его коллегами из университета Нотр-Дам еще в 1998 году, когда они проводили исследование Web-соединений. На тот момент наиболее адекватной моделью Интернета считалась так называемая "хаотическая модель" (RN, Random Net). Однако исследователи, к своему удивлению, обнаружили, что хаотическая модель неверна. Модель, к которой пришли Барабаси и его коллеги, и получила название Scale-free networks.

Для проведения исследования были проанализированы дневные отчеты об Интернет-соединениях. Здесь надо заметить, что большинство исследователей проводит четкую грань между Интернет-соединениями реальной сети и Web-линками виртуальной сети контента поверх Интернета. Барабаси и его коллеги исследовали не линки, а именно Интернет-соединения. В исследовании использовались карты Интернет-соединений, собранные по дням ассоциацией Cooperative Association for Internet Data Analysis (CAIDA) и лабораторией National Laboratory for Applied Network Research (NLANR), финансируемых U.S. National Science Foundation. Исследователи анализировали рост Интернета во времени с помощью статистических методов, обычно используемых для физических исследований.

Анализ показывает, что Интернет действительно может быть представлен как спонтанно растущий организм. И в связи с этим можно понимать Интернет как самоорганизующуюся систему с высоким уровнем роста. Но несмотря на высокий уровень роста Интернет находится в состоянии, при котором его топографические и геометрические характеристики стационарны во времени. Именно эта стационарность характеристик и потребовала введения новой модели, получившей название scale-free networks.

Модель scale-free networks предполагает, что распределение соединений между элементами сети неравномерно. Вместо того чтобы соединяться друг с другом случайным образом, некоторые узлы проявляют себя как мощные концентраторы соединений - хабы. Различие между ними четко проводится через статистику соединений. Статистически в хаотических сетях пять наиболее нагруженных соединениями узлов соединены с 27% прочих узлов Сети. В SFN-сетях пять наиболее нагруженных соединениями узлов соединены с 60% всех узлов.

Наличие хабов сильно влияет на то, как функционирует сеть, хаотические и SFN-сети ведут себя по разному. По мере потери узлов в хаотической сети степень коммуникации сети постепенно падает, сеть превращается в маленькие плохо сообщающиеся друг с другом домены. В противоположность этому SFN-сеть практически не показывает никаких признаков снижения степени коммуникации по мере выпадения узлов связи за исключением случаев выпадения хабов из SFN-сети. В этом случае наступают катастрофические изменения, уничтожение хабов сети приводит к полному распаду самой сети. И анализ развития Интернета показывает, что он спонтанно эволюционирует в соответствии с SFN-моделью.

К аналогичным выводам пришли исследователи из университета Цинциннати. По их мнению, сейчас физическая модель Интернета сместилась со своей оригинальной распределенной структуры в сторону топологии hub-and-spoke (более подробно о данной модели см. на travel.howstuffworks.com/airline3.htm). Хотя hub-and-spoke топология и дешевле, но делает сеть более уязвимой. Оригинальная топология Интернета была более распределенной. Именно такая топология требовалась, чтобы обеспечивать непрерывную коммуникацию даже в случае выпадения какого-то узла из сети, даже в случае ядерного нападения (вспомните цель проекта Arpanet, заложившего основы Интернета). Однако по мере роста Интернета конкуренция привела к тому, что магистральные провайдеры в поисках наиболее экономически эффективной сетевой топологии сместились в сторону модели hub-and-spoke. Такая топология внушает определенные опасения. Часть исследователей считает, что, несмотря на полученные преимущества, мы вступаем в очень небезопасный период развития. Так, исследователи из университета Bar-Ilan и университета Clarkson показали, что атака, которая сконцентрировалась бы на 5% сайтов в мире (тех самых хабов), способна привести к полному коллапсу Интернета и разбить всю сеть на никак не соединенные островки, в каждом из которых останется не более 100 сайтов.

Кроме того, Барабаси и его коллеги установили еще один удивительный факт - соотношение хабов к общему числу узлов в сети есть величина постоянная по мере роста сети. Этот факт настолько заинтересовал ученых, что потребовал более детальных изысканий. В результате выяснилось, что узлы в Интернете выстроились в хорошо определенную иерархию, что позволяет классифицировать слои Интернета по числу соединений и размеру (наподобие крупных и малых провайдеров телекоммуникационных услуг). Профессорами Пастором и Саторрасом (Pastor, Satorras) были введены понятия stub-доменов и транзитных доменов. Stub-домены представляют собой группы узлов, которые несут трафик практически только внутри домена или некоей их группы. Транзитные домены служат для того, чтобы соединять различные stub-домены. Stub и транзитные домены и составляют иерархическую структуру Интернета.

Естественно, ценность подобных моделей определяется их способностью к предсказанию дальнейшего развития Интернета. Согласно SFN-модели в ближайшее время количество соединений в stub-доменах будет расти, но по-прежнему останутся только единичные соединения доменов друг с другом. И этот прогноз также внушает опасения. Адекватные модели Интернета позволяют в лабораторных условиях оценивать не только чисто технические параметры, такие как надежность и эффективность новых протоколов передачи информации или алгоритмов маршрутизации, но и моделей электронной коммерции.

Описание характеристик потоков информации перемещающейся поверх физической Интернет-структуры особенно сложно. Одна из целей проводимых сейчас исследовании состоит в том, чтобы показать, в каком отношении находятся алгоритмы роста Интернета и вэба. В настоящее время очевидно, что многие факторы роста Интернета и вэба идентичны и управляются теми же самыми динамическими правилами. Более подробную информацию по некоторым вопросам можно найти в работе Dynamical and Correlation Properties of the Internet (www.arXiv.org/abs/cond-mat/0105161).

Виртуальная модель Интернета

В настоящий момент основной интерес исследований в области Web-линков виртуальной сети Интернет-контента связан с динамикой линков, а также с алгоритмами поиска и восприятия информации. В целом WWW проявляет динамику rich-get-richer. Кроме того, до недавнего времени казалось, что организация линков следует модели SFN и rich-сlub. Исследования показали, что крупные Web-узлы составляют примерно 5% узлов Интернета и 27% линков проходит между ними самими. 60% линков уходит на то, чтобы эти крупные узлы соединились с прочими, и только 13% линков приходится на соединения прочих узлов друг с другом. Значит, на 95% некрупных узлов приходится только 13% линков для связи друг с другом. Феномен rich-club показывает, что Интернет в гораздо большей степени зависит от крупных узлов, чем ранее предполагалось. Этот феномен в настоящее время активно используется для разработки и стратегий оптимизации трафиков Интернета.

Однако команда исследовательского института NEC обнаружила что-то, что верно для WWW в целом не является верным для группы родственных сайтов. Распределение линков внутри специфических сообществ Интернета (родственных сайтов) не подчиняется правилу rich-get-richer. Математически в модели rich-get-richer, вероятность того, что узел получает еще один инлинк (линк с другого узла на данный узел), пропорционален числу инлинков, которые у него уже есть. Если бы в сети все было так просто, это означало бы, что крупные узлы будут становиться еще крупнее, а малые узлы никогда не смогут их догнать.

Но оказалось иначе. Исследования показали, что сайты внутри Web- сообществ существуют чаще всего по другому принципу: страницы внутри таких сообществ, которые имеют различное количество линков, имеют одинаковые вероятности получить новый линк. Исследователи назвали этот феномен термином uniform attachment в противовес preferential attachment вэба как целого. Причем, Web-сообщества отличаются тем, что в них может работать один из механизмов или оба одновременно в отличие от вэба в целом. Например, сообщество сайтов, занимающихся продажей книг и печатных изданий, где в значительной степени доминирует Amazon.com, развивается точно так же, как и вэб в целом, то есть по принципу "богатые богатеют". В то же время сообщества сайтов, продающих профессиональные услуги фотографов, работают по принципу uniform attachment. Разработка этой модели в настоящее время оказывает сильное влияние на автоматизацию измерения степени конкурентности в Сети. Предполагается, что данная модель станет стандартным элементом любой будущей концепции, связанной с электронной коммерцией и позволит количественно описывать порог входа на новые рынки в WWW.

Этот феномен тут же повлек за собой вопрос, необыкновенно интересный для всех, кто связан с электронной коммерцией: каковы критерии локализации сообществ и групп в вэбе? Естественно, можно сгруппировать пользователей в вэбе согласно общему интересу к информационным ресурсам, судя об этом на основании их запросов. Совместная работа групп проявляется в обращении к одним и тем же информационным ресурсам. Исследователи университета Чикаго показали, что можно представить вэб как совокупность различных групп по интересам, которые могут быть отслежены на основании совокупности запрошенных линков. Метод определения групп на основании использованных информационных ресурсов получил название IRG-метод (information-request graphing) и может быть использован в качестве основания для нахождения интересующих групп пользователей и организации доставки необходимых данных для них. При построении графов в IRG-методе реальные сайты или пользователи, запрашивающие некоторое количество одних и тех же файлов в течение определенного времени, были помещены в один и тот же узел графа.

Реальные запросы данных анализировались и раньше, но в другом качестве - для исследования распределения популярности запросов или для изучения наиболее эффективных путей кэширования Интернет-трафика. Но построение графа связей из произвольно выбранной структуры на основании совместного использования ее ресурсов и исследование этих графов сегодня является новейшим методом исследования виртуального Интернета. Этот метод потенциально применим везде, в особенности если учитывать, что граф может быть построен любым менеджером Web-проекта на основе логов использования его Web-ресурса. Сейчас в электронной коммерции используется технология коллаборативной фильтрации, которая родственна IRG-методу, но менее продвинута.

В настоящее время исследователи работают над тем, чтобы сделать данный метод более эффективным в проектах совместного использования ресурсов нескольких сайтов или Web-узлов. Нужно создать масштабируемый механизм, позволяющий пользователю работать с разными вариантами источников той или иной информации. В настоящее время наиболее интенсивно исследования ведутся в направлении механизмов нахождения ресурсов. Механизмы локализации ресурсов должны быть найдены в течение ближайших двух лет, по мнению группы ученых, работающих над их созданием,. Более подробно можно узнать из исследования "Data-ring Relationships in the Web" (www.arXiv.org/abs/cs.NI/0302016).

Термины и концепции, активно используемые в настоящее время для моделирования Интернета и WWW

Random Net (RN) — «хаотическая модель» Интернета, предполагающая, что узлы сетей соединены случайным образом, а значит, равномерно.
Scale-free network (SFN) – модель, описывающая неравномерное распределение соединений между элементами Сети, при котором некоторые ее узлы проявляют себя как мощные хабы.
Degrees-of-separation — представляет собой количество линков, через которое надо пройти, чтобы попасть из одного узла Сети в другой. Как правило, используется показатель среднего минимального числа линков между узлами. Это число называют в последнее время диаметром виртуальной сети.
Six-degrees-of-separation link connections — правило кратчайшего расстояния между сайтами в сегодняшнем Интернете. Иногда его еще называют правилом Small world. Феномен Small world был открыт социологом Стенли Милграмом (Stanley Milgram) в 1967 году в почтовом эксперименте. Милграм обнаружил, что в среднем требуется шесть хопов между различными пунктами, прежде чем письмо дойдет от случайного адресанта в Небраске к адресату в Масачусетсе, идентифицированного коротким неполным описанием.
Rich-get-richer — принцип, согласно которому «богатые узлы богатеют», то есть чем больше узел, тем более вероятно, что он привлечет больше ссылок на себя в сети. По сути, это правило является обратной стороной природы scale-free network.
Rich-club — правило структуры Интернета, открытое исследователями из Лондонского университета. Феномен проявляется в том, что крупные узлы соединены друг другом большим количеством линков, чем они соединены с малыми, и у малых узлов больше линков к большим узлам, чем друг к другу.