У чым розніца паміж інфарматыкай і інфарматыкай?


адказ 1:

Інфарматыка ў сэнсе статыстычных вылічэнняў - гэта вывучэнне інфармацыі (любога роду) з выкарыстаннем алгарытмаў, якія носяць матэматычны і статыстычны характар. На самай справе гэта слова не выкарыстоўваецца ў гэтым сэнсе - наступнае, пра што я думаю, - гэта біяінфарматыка. Больш распаўсюджаная назва для гэтага - тэорыя навучання.

Інфарматыка ў інфарматыцы - гэта тэарэтычнае вывучэнне інфармацыі, алгарытмаў і кампутараў.

Відавочна, што і іншае важна ўлічваць пры любым прымяненні навуковых дадзеных, які ўсё яшчэ даволі дрэнна вызначаны, але звычайна разглядаецца як сукупнасць статыстыкі, праграмавання, тэарэтычных і прыкладных (звычайна эканамічных) ведаў, матэматыкі і цэлага шэрагу іншых Рэчы. Адно з найбольш дакладных азначэнняў навукоўца дадзеных, які я ведаю, усё яшчэ такі, які ведае больш статыстыкі, чым праграміст, і больш праграмістаў, чым статыстык ... які, па вызначэнні, вельмі туманны.

Калі можна прынамсі пагадзіцца, што даследчык дадзеных вырашае праблемы з дадзенымі, першае вызначэнне інфарматыкі трапляе ў рамкі большасці навукоўцаў дадзеных, а другое мае важнае значэнне (асабліва для чалавека, які вельмі дбайна).


адказ 2:

Ніжэй прыведзены мой адказ на пытанне: у чым розніца паміж інфарматыкай і навукай дадзеных?

ТОП-25 саветаў, якім трэба стаць навукоўцам!

Прывітанне, сябры! Я працую ў галоўнай паляўнічай кампаніі з 2014 года, спецыялізуюся на навуцы дадзеных, ІІІ, глыбокім навучанні ... Дайце мне дзіўныя парады, як стаць прафесіяналам, як апісана ніжэй. Спадзяюся, вам гэта падабаецца. (Спасылка на kdnuggets).

1. Выкарыстоўвайце знешнія крыніцы Datta: твіты пра вашу кампанію або вашых канкурэнтаў альбо Datta ад пастаўшчыкоў (напрыклад, наладжвальная статыстыка eBlast для рассыланняў, якія можна атрымаць праз інфармацыйныя панэлі пастаўшчыка альбо прадаставіўшы білет).

2. Ядзерныя фізікі, інжынеры-механікі і біяінфарматыкі могуць стаць выдатнымі навукоўцамі Даты.

3. Правільна сфармулюйце сваю праблему і выкарыстоўвайце цвёрдыя паказчыкі для вымярэння рэнтабельнасці (вышэй базавай лініі), прадугледжанай навуковымі ініцыятывамі "Датта".

4. Карыстайцеся правільнымі KPI (ключавымі метрыкамі) і патрэбнай датай у кожным праекце з самага пачатку. Змены з-за дрэнных падмуркаў вельмі дарагія. Гэта патрабуе ўважлівага аналізу вашых дадзеных для стварэння карысных баз дадзеных.

5. Спасылка на гэты рэсурс: 74 сакрэты, каб стаць навукоўцам з даных

6. Для вялікіх дадзеных моцныя сігналы (крайнасці) звычайна з'яўляюцца шумам. Вось рашэнне.

7. Вялікі дат, a мае меншае значэнне, чым карысны дат, а.

8. Выкарыстоўвайце для атрымання канкурэнтаздольнай інфармацыі Big Dat, старонні прадукт.

9. Вы можаце ствараць танныя, вялікія, маштабаваныя і надзейныя інструменты даволі хутка, не выкарыстоўваючы старамодную статыстычную навуку. Падумайце аб мадэлях без мадэляў.

10. Big Dat, a прасцей і танней, чым вы думаеце. Набудзьце патрэбныя інструменты! Вось як пачаць працу.

11. Карэляцыя не з'яўляецца прычыннасцю. Гэты артыкул можа дапамагчы вам у вырашэнні гэтай праблемы. Прачытайце гэты блог і кнігу.

12. Вам не трэба назаўсёды захоўваць усе свае дадзеныя. Выкарыстоўвайце інтэлектуальныя метады сціску і запускайце статыстычныя зводкі толькі на старых дадзеных. А.

13. Не забудзьцеся наладзіць свае паказчыкі, калі вашы дадзеныя мяняюцца, каб забяспечыць узгодненасць у трэндавых мэтах.

14. Без такіх табасаў можна зрабіць шмат, асабліва для вялікага так, та.

15. Заўсёды ўключайце EDA і DOE (пошукавы аналіз / планаванне выпрабаванняў) у навуковыя праекты на ранняй стадыі. Заўсёды стварайце так, каб слоўнік. І прытрымлівайцеся традыцыйнага жыццёвага цыкла кожнага навуковага праекта.

16. Так, та можна выкарыстоўваць у многіх мэтах:

- забеспячэнне якасці

- знайсці дзейсныя шаблоны (біржавыя таргі, выяўленне махлярства)

- для перапродажу дзелавым кліентам

- аптымізаваць рашэнні і працэсы (аперацыйныя даследаванні)

- для расследавання і выяўлення (IRS, судовыя справы, выяўленне махлярства, аналіз першапрычыны)

- Сувязь з машыны на машыну (аўтаматызаваныя сістэмы таргоў, аўтаматызаванае кіраванне)

- прагнозы (прагнозы продажаў, рост і фінансавыя прагнозы, надвор'е)

17. Не захоўвайце Excel. Прыміце аналіз святла. Там та + мадэлі + пачуцці кішкі + інтуіцыя - гэта ідэальны мікс. Не выдаляйце ні адзін з гэтых інгрэдыентаў у працэсе прыняцця рашэнняў.

18. Выкарыстоўвайце магутнасць кампазітных метрык: KPI, атрыманыя з палёў базы дадзеных da, якія значна больш прагнастычныя, чым арыгінальныя метрыкі баз дадзеных. Напрыклад, ваша база дадзеных da, можа ўтрымліваць адно поле ключавых слоў, але не адрознівае запыт карыстальніка ад катэгорыі пошуку (часам таму, што d, ata паходзіць з розных крыніц і змешваецца разам). Распазнайце праблему і створыце новы паказчык пад назвай Тып ключавога слова - або d, ata source. Яшчэ адзін прыклад - катэгорыя IP-адрасоў, асноўная метрыка, якую трэба стварыць і дадаць да ўсіх праектаў лічбавага аналізу.

19. Калі вам патрэбна апрацоўка ў рэжыме рэальнага часу? Калі выяўленне махлярства мае вырашальнае значэнне альбо апрацоўка канфідэнцыяльных здзелак, ата (выяўленне махлярства з крэдытнай карткай, 911 званкоў). У адваротным выпадку адтэрмінаванага аналізу (з затрымкай ад некалькіх секунд да 24 гадзін) дастаткова.

20. Пераканайцеся, што ваш адчувальны d, ата добра абаронены. Пераканайцеся, што алгарытмы не могуць маніпуляваць злачынцамі або бізнес-хакерамі (шпіёніце за вашай кампаніяй і крадзяце ўсё, што яны могуць, законна ці незаконна, і скампраметуйце свае алгарытмы - гэта можа прывесці да значных страт даходу). Для прыкладу ўзлому бізнесу глядзіце раздзел 3 гэтага артыкула.

21. Змяшайце некалькі мадэляў, каб распазнаць шмат відаў узораў. Сярэдняя колькасць гэтых мадэляў. Вось просты прыклад змешвання мадэляў.

22. Задайце правільныя пытанні, перш чым купляць праграмнае забеспячэнне.

23. Запусціце мадэляванне ў Монтэ-Карла перад выбарам двух сцэнарыяў.

24. Выкарыстоўвайце некалькі крыніц для аднаго і таго ж d, ata: вашай унутранай крыніцы і d, ата ад аднаго або двух правайдэраў. Разумейце разыходжанні паміж гэтымі рознымі крыніцамі, каб атрымаць больш поўнае ўяўленне пра тое, якімі павінны быць сапраўдныя лічбы. Часам вялікія разыходжанні ўзнікаюць, калі метрычнае вызначэнне змяняецца адным з пастаўшчыкоў альбо мяняецца ўнутрана, альбо калі дадзеныя змяняюцца (некаторыя палі больш не адсочваюцца). Класічны прыклад - дадзеныя аб трафіку ў Інтэрнэце: для адсочвання гэтых дадзеных выкарыстоўвайце ўнутраныя файлы часопісаў, Google Analytics і іншага пастаўшчыка (напрыклад, Accenture).

25. Хуткая дастаўка лепш, чым крайняя дакладнасць. Усе запісы ў любым выпадку брудныя. Знайдзіце ідэальны кампраміс паміж дасканаласцю і хуткім вяртаннем.