Інформаційно-аналітичні технології

Автор работы: Пользователь скрыл имя, 10 Января 2014 в 13:11, практическая работа

Краткое описание

Будь-яка діяльність людини базується на інформації. Однією з головних проблем, що виникає при задоволенні інформаційних потреб людства є проблема пошуку інформації. Все більше ускладнюється пошук інформації в мережі Internet. Це відбувається внаслідок вражаючого зростання обсягів і темпів росту web-ресурсів мережі. Так, за результатами дослідження компанії Netcraft, у 1998 році кількість серверів у мережі Internet становила 1 млн. Згідно з даними експертів компанії Inktomi, на лютий 2000 року їх нараховувалося вже понад 6 млн. Загальна кількість web-сторінок на серверах Internet перевищує мільярд.

Прикрепленные файлы: 1 файл

proekt_по_ИАТ_магистри.doc

— 459.00 Кб (Скачать документ)

 

 

За результатами розширеного пошуку, поданими в таблиці 3, можна зробити висновок про те, що технологія розширеного пошуку є значно ефективнішою за простий пошук. Про це свідчить те, що повнота і якість розширеного пошуку за нашою тематикою при заданні різних запитів майже в усіх випадках є більшою за повноту і точність простого пошуку. Крім того, важливим аргументом є те, що саме при розширеному пошуку знайдені найбільш релевантні нашим запитам сайти, зокрема такі: сайт „Корпоративний менеджмент” (www.cfin.ru) – знайдений в трьох ПС (Alta Vista, Rambler, Google) на запити з трьох тем („Інформаційні системи і технології в бізнесі”, „Інформаційні системи в менеджменті”, „Фінансово-економічні інформаційні системи”), сайт Українського порталу (www.uaportal.com) та інші. Загальна кількість документів, що видалися пошуковими системами при розширеному пошуку майже в усіх випадках є меншою за кількість виданих документів при простому пошуку, якість пошуку також є відповідно вищою. Це свідчить про меншу міру „інформаційного шуму” в результатах розширеного пошуку. Але не в усіх випадках якість розширеного пошуку за нашою тематикою може нас задовольнити. Так, в системі Google на один із наших запитів видалося 2940 документів, з яких лише 147 є релевантними нашому запиту і 38 – ідеально релевантними ( точність пошуку – 1 %, повнота пошуку – 26 %). Як бачимо, якість пошуку є низькою. При іншому формулюванні запиту в цій же системі якість пошуку є вищою (точність – 8 %, повнота – 17 %). Отже, потрібно ще звертати увагу на формулювання запиту.

Порівнюючи якість розширеного  пошуку систем, слід зазначити, що найдоцільніше  проводити розширений пошук за нашою  тематикою в таких ПС: Rambler (найвища якість пошуку за нашою тематикою (точність і повнота на один із запитів становить відповідно 25 % і 50 %; на інший запит – 10 % і 33%), Yahoo! (точність на один із запитів – 16%, повнота – 38%), Yandex (але потрібно звертати увагу на формулювання запиту).

3.3. Використання синтаксису  мови запитів

 

Основним завданням  користувача, звісно ж, є формування запиту. Практично у всіх пошукових  системах для цього застосовується метод ключових слів. Пошукова система  відбирає документи, що містять (або не містять) слова, зазначені в запиті, або їхні словосполучення. При цьому найчастіше практично неможливо зафіксувати семантичні характеристики документа, але саме вони остаточно визначають його дійсну релевантність.

Для того, щоб ефективно  використовувати можливості мережних інформаційно-пошукових серверів корисно дізнатися, як вони працюють „зсередини”, ознайомитися з принципами пошуку і використання синтаксису мови запитів.

Пошук інформації за синтаксисом  мови запитів здійснюється за допомогою спеціальної мови запитів, використовуючи наступні символи:

1. „   „      - пошук  точної фрази 

2. +       - обов‘язкова наявність слова в найденому документі

3. ~~ або – не повинно  бути слова в межах документа  (та ні)

4. ~     -  не повинно бути слова в межах речення

5. !     -  шукати тільки вказану форму слова

6. пробіл або & - логічне  І (в межах речення)

7. && - логічне І  (в межах документа)

8. | - логічне АБО

9. / (n m) – відстань між словами (- назад, + вперед)

10. &&/ (n  m) – відстань в реченням  (- назад, + вперед)

11. () – групування слів

Формулювання запитів  з використання символів синтаксису мови запитів та результати пошуку наведені в таблиці 4.

 

 

 

 

Таблиця 4

Результати  тематичного пошуку за допомогою  синтаксису мов запитів

 

Формулювання  запиту

Кількість отриманих документів

Якість  пошуку

 

Фінансово-економічні інформаційні системи

Яndex

Google

Yandex

Google

Загальна кількість документів

Релевантні документи

Ідеально релевантні документи

Загальна кількість документів

Релевантні документи

Ідеально релевантні документи

Точність

Повнота

Точність

Повнота

”фінансово економічні інформаційні системи„

3

1

1

33

28

4

3 %

1 %

25 %

29 %

„фінансові | економічні інформаційні системи”

41

28

8

11400

230

64

20 %

28 %

1%

19 %

+фінансові | +економічні інформаційні +системи

18464

452

66

176000

540

51

0,3 %

15 %

0,2 %

9 %

+финансово +економічні інформаційні +системи - (ресурси | діяльність | програми | методи | словники)

692

223

71

18300

203

32

10 %

32 %

0,2 %

16 %

фінансові && економічні інформаційні системи ~~(ресурси | інформація | проблеми | діяльність)

413

89

8

-

-

-

2 %

9 %

-

-

+фінансові +економічні інформаційні /+1системи ~ новини ~ ресурси

479

113

22

-

-

-

5 %

19 %

-

-

!фінансово !економічні інформаційні !системи - (ресурси | діяльність | програми | методи | словники)

453

56

12

768

184

36

2 %

21 %

5 %

20 %

фінансові & економічні інформаційні системи 

1096

232

29

-

-

-

3 %

12 %

-

-

фінансові | економічні інформаційні системи

18460

207

41

192000

630

66

0,2 %

20 %

0,3 %

10 %

(фінансові & економічні /+1інформаційні системи) ~ /+1стан ~/+1аналіз ~/+1програма ~/+1ресурси

70

46

7

-

-

-

10 %

15 %

-

-

фінансово економічні інформаційні системи && / 3 бюджетування

 

1392

534

94

-

-

-

7 %

18 %

-

-

(фінансово економічні) інформаційні  системи

918

348

69

24100

173

84

8 %

20 %

0,3%

49 %

 
 

Інформаційні  системи і технології в бізнесі

Aport

Rambler

Aport

Rambler

Загальна кількість документів

Релевантні документи

Ідеально релевантні документи

Загальна кількість документів

Релевантні документи

Ідеально релевантні документи

Точність

Повнота

Точність

Повнота

“Інформаційні системи в бізнесі”

783

48

22

2708

77

46

5 %

46 %

2 %

59 %

Інформаційні + системи + технології в  бізнесі

48

24

9

2231

88

39

19 %

37 %

2 %

44 %

Інформаційні системи в бізнесі  ~~ (інформаційні ресурси)

58

20

7

610

46

16

12 %

35 %

3 %

35 %

Інформаційні технології в бізнесі  ~ ресурси

56

24

8

1530

67

13

14 %

33 %

1 %

19 %

Інформаційні !технології в бізнесі

368

49

14

72

21

8

4 %

28 %

11 %

38 %

Інформаційні системи та технології в бізнесі

48

24

9

2207

101

37

19 %

37 %

1,7 %

36,6 %

Інформаційні технології && інформаційні системи в бізнесі

52

22

10

1546

71

12

19 %

45 %

0,7 %

17 %

Інформаційні технології OR інформаційні системи в бізнесі

970

68

19

5956

112

38

2 %

28 %

0,6 %

34 %

Інформаційні технології /3 в бізнесі

74

27

16

1953

89

23

8 %

22 %

1 %

26 %

Інформаційні системи &&/3 в бізнесі

78

32

8

2734

107

34

10 %

25 %

1,6 %

32 %

(Інформаційні | технології) (Інформаційні | системи в бізнесі)

1126

67

11

4039

78

20

1 %

16 %

0,5 %

26 %

 

Інформаційні системи в менеджменті

Alta Vista

Info Seek

Alta Vista

Info Seek

Загальна кількість документів

Релевантні документи

Ідеально релевантні документи

Загальна кількість документів

Релевантні документи

Ідеально релевантні документи

Точність

Повнота

Точність

Повнота

”інформаційні системи та технології в менеджменті„

1520

114

17

129

29

4

1 %

15 %

3 %

14 %

+інформаційні системи + технології  в бізнесі

13500

362

19

3570

35

11

0,1%

5%

0,3%

31%

Інформаційні системи в менеджменті ~~ (інформаційні ресурси)

1080

97

37

247

47

3

3%

38%

1%

6,4%

Інформаційні технології менеджменті  ~ ресурси

8260

152

23

1770

148

16

0,3%

15%

1%

11%

Інформаційні !технології в менеджменті

12700

631

16

2590

25

12

0,1%

2,5%

0,5%

48%

Інформаційні системи та технології в менеджменті

9210

256

17

2080

201

5

0,2%

6,6%

0,2%

2,5%

Інформаційні технології && інформаційні системи в менеджменті

9290

761

17

20080

234

5

0,2%

2,2%

0,02%

2%

Інформаційні технології OR інформаційні системи в менеджменті

9190

264

4

10100

561

14

0,04%

1,5%

0,1%

2,5%

Інформаційні технології /+3 в менеджменті

85

7

3

-

-

-

3,5%

43%

-

-

Інформаційні системи &&/3 в менеджменті

372

23

1

-

-

-

0,3%

4,3%

-

-

(Інформаційні | технології) (Інформаційні | системи в менеджменті)

1270

189

12

2590

43

12

1%

6,3%

0,5%

28%

 
 

Інформаційні системи і технології в менеджменті в сфері охорони здоров’я

Yahoo!

Mail.ru

Yahoo!

Mail.ru

Загальна кількість документів

Релевантні документи

Ідеально релевантні документи

Загальна кількість документів

Релевантні документи

Ідеально релевантні документи

Точність

Повнота

Точність

Повнота

+информационные системы +технологии  +здравохранения

89

43

18

213

63

11

20 %

42 %

5,2 %

17 %

!медицинская + !информационная + !система  + !управления

1820

189

31

2220

78

11

1,7 %

16,4 %

0,5 %

14 %

Информационные & системы & технологии & здравоохранения

111

51

13

214

85

17

11,7 %

25 %

8 %

20 %

Медицина && (информационные системы)

217

105

38

25

12

4

18 %

36 %

16 %

33 %

Управление && (медицинские информационные системы технологии)

302

97

31

18

11

4

10 %

32 %

22 %

36 %

Системы |технологии здравоохранения

388

103

29

9110

129

21

7,5 %

28 %

0,2 %

16 %

(менеджмент | управление) (системы  | технологии) здравоохранения

22

9

7

199

63

16

32 %

78 %

8 %

25 %

Управление && /-2 информационные системы здравоохранения

55

21

16

-

-

-

29 %

76 %

-

-


 

 

 

 

Слід зазначити, що аналізовані  нами ІПС забезпечують використання основних логічних і контекстних  операторів, проте не кожній з них характерна наявність усіх символів синтаксису мови запитів. Зокрема, в таких ПС, як Mail.ru і Yahoo! відсутні оператори пошуку точної фрази („”), відсутності слова в межах речення (~), натомість дуже ефективно діє можливість групування слів (( )), обов’язкової присутності слова в знайденому документі (+) та оператор логічного „і” в межах речення (пробіл або &). В ПС Google не використовуються оператори відсутності слова в межах речення (~), логічного „і” в межах речення і в межах документа, відстані між словами (/(n m)) та в реченнях (&&/(n m). Два останні оператори не використовуються також в системі Info Seek.

В табл.4 подані результати пошуку інформації за допомогою синтаксису мови за тематичним напрямом „Інформаційні системи”, потрібні нам для аналізу ефективності пошуку за допомогою синтаксису мови. При цьому нам необхідно з’ясувати в яких ПС нам найдоцільніше проводити пошук за допомогою синтаксису мов за нашою тематикою і яким чином задавати запити (які символи використовувати), щоб отримати найбільш релевантні запиту документи.

Результати пошуку за нашою тематикою в різних ПС навіть за схожими або однаковими запитами є зовсім різними. Отже, можна зробити висновки про те, пошук в яких системах при використанні тих чи інших символів за нашою тематикою є більш ефективним і якісним

Найвищу якість пошуку за допомогою синтаксису мов ми отримали при роботі с пошуковим каталогом Yahoo! при використанні символів групування слів та логічного „або”: точність пошуку -  32 %, повнота пошуку – 78 %. А найбільшу кількість ідеально релевантних документів (94) знайдено в ПС Yandex при використанні оператора відстані між словами (/(n m)).

Найнижчу якість має  пошук за допомогою синтаксису мов  в ПС Alta Vista та Info Seek, причому якість пошуку при заданні однакових запитів в обох системах майже однакова.

Порівнюючи якість пошуку з нашої тематики при використанні різних символів в ПС, відзначимо наступне:

  • В ПС Rambler найякіснішим є пошук при використанні оператора пошуку вказаної форми слова (точність – 11 %, повнота – 38 %) та оператора виключення слова в межах речення (точність – 3 %, повнота – 35 %). Але порівнюючи якість пошуку в даній ПС з показниками якості пошуку в деяких інших системах, наприклад Mail.ru, Yahoo! та ін., слід відзначити, що вона є невисокою.
  • При порівнянні результатів пошуку за допомогою синтаксису мов при заданні однакових запитів в ПС Rambler і Aport виявлено, що якість пошуку за допомогою синтаксису мов з тематичного напряму „Інформаційні системи” в ПС Aport є вищою за якість пошуку в ПС Rambler.
  • В ПС Aport, щоб провести високоякісний пошук інформації за нашою тематикою за допомогою синтаксису мов, доцільно використовувати такі оператори пошуку, як оператор логічного „і” в межах документа (при запиті на одну із наших тем з використанням цього оператора  точність пошуку становила 19 %, а повнота – 45 %), оператор обов’язкової наявності слова в знайденому документі (при використанні цього символу точність становила 19 %, повнота – 37 %), оператор логічного „і” в межах речення.
  • При заданні запиту з тематичного напряму „Інформаційні системи” за допомогою синтаксису в ПС Яndex рекомендується користуватися такими логічними операторами: оператором пошуку точної фрази (при заданні запиту на одну із наших тематик показники якості є найвищими: точність – 20 %, повнота – 28 %), оператором групування, оператором логічного „і” в межах речення тощо.
  • Найефективніший пошук за допомогою синтаксису мови запитів ПС Google було здійснено при використанні символу пошуку точної фрази (якість пошуку на один із запитів: точність – 25 %, повнота – 29 %). Але слід зазначити, що якість пошуку на цей запит є такою тому, що система на запит видала лише 3 документа. В іншому випадку, коли ми в запиті використали даний символ і символ логічного „і”, система видала нам більшу кількість документів (41), з яких кількість ідеально релевантних нашому запиту документів (8) була незначною. Порівнюючи якість пошуку за допомогою синтаксису мови запитів в ПС Yandex і Google, зазначимо, що якість пошуку на однакові запити в ПС Google є нижчою, ніж якість пошуку в ПС Yandex.
  • Найкращі результати під час пошуку інформації з тематичного напряму „Інформаційні системи” за допомогою синтаксису мови запитів в пошуковому каталозі Yahoo! отримані при використанні таких операторів контекстного пошуку, як оператори групування і логічного „і” (точність пошуку при  використанні 32 %, повнота – 78 %), оператори логічного „і” в межах документа і виключення слова в межах документа (точність пошуку при використанні становила 29 %, а повнота – 76 %). Порівнюючи якість пошуку за нашою тематикою за допомогою синтаксису мови запитів в Yahoo! з якістю пошуку в інших обраних нами для аналізу ПС, слід відмітити, що якість пошуку в Yahoo! Є доволі високою.
  • Якість пошуку за допомогою синтаксису мови запитів в ПС Mail.ru на одні й ті ж запити в основному є меншою, ніж якість пошуку в ПС Yahoo!, але при використанні деяких символів в запитах, якість пошуку в системі Mail.ru є вищою. Такими символами є: логічне „і” в межах документа та групування слів (у запиті ці два символи поєднано).
  • Аналізуючи результати пошуку на запити з нашої тематики за допомогою синтаксису мов запитів в ПС Alta Vista і Info Seek, зазначимо, що якість пошуку в цих системах є невисокою. Якість пошуку в ПС Alta Vista є найвищою при використанні оператора пошуку точної фрази (точність пошуку на один із запитів – 1 %, повнота – 15 %), та операторів групування слів й виключення слів в межах речення (точність пошуку на один із запитів – 3 %, повнота – 38 %). Якість пошуку за допомогою синтаксису мов запитів за однаковими запитами в ПС Alta Vista і Info Seek є різною: в одних випадках вищою є якість пошуку в ПС Alta Vista, в інших – в Info Seek, але ця різниця незначна.

Здійснюючи пошук за допомогою синтаксису мови запитів в аналізованих нами ПС доцільно використовувати при заданні запитів оператори контекстного пошуку як окремо один від одного, так і в поєднанні одного з одним. Так, наприклад, в деяких ПС задавалися запити з використанням декількох операторів контекстного пошуку (групування слів, логічного „і” в межах речення, виключення слова з речення та ін) і в результаті отримувалася більша кількість релевантних документів, ніж при використанні лише одного з операторів. До того ж при складанні одного із запитів (!медицинская + !информационная + !система + !управления), в якому також використано два види пошукових символів, знайдено один із найбільш релевантних сайтів – сайт Сибірського медичного інформаційного центру.

4. Класифікація інформаційних ресурсів

 

<spa


Информация о работе Інформаційно-аналітичні технології